このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20221210となっている論文です。

PDF登録状況(公開日: 20221210)

TitleAuthorsAbstract論文公表日・翻訳日
# 調和捕獲粒子における重力の量子性

Quantumness of gravity in harmonically trapped particles ( http://arxiv.org/abs/2207.11848v2 )

ライセンス: Link先を確認
Youka Kaku, Shin'ya Maeda, Yasusada Nambu, Yuki Osawa(参考訳) 本研究では,原子間干渉法による重力の量子性について,質量エネルギー等価性の観点から検討した。 高調波トラップ電位における内部エネルギーレベルの粒子を考慮した干渉可視性の評価を行った。 その結果、空間的に重畳された重力源質量に対して、干渉可視性は崩壊と再生の挙動を示し、これは、初期分離可能な内部状態が、質量の中心、内部エネルギーレベル、および外部ソース状態の自由度に関して絡み合った状態に進化することを意味する。 特に、重力が量子相互作用として扱われるときの復活挙動は示さないが、半古典的な重力処理のために有限周期で復活する。 また, 視認性の非生存挙動は, 弱同値原理に従って重力の量子相互作用によって一意的に引き起こされる内部エネルギー状態と外部源状態との間の絡み合いの発生を反映していることがわかった。

This study investigates the quantumness of gravity under the setup of the atomic interferometry from the viewpoint of mass-energy equivalence. We evaluated interference visibility considering a particle with internal energy levels in a harmonic trapping potential. As per the result, for a spatially superposed gravitational source mass, interference visibility exhibits collapse and revival behavior, which implies that an initial separable internal state evolves to the entangled state with respect to the degrees of freedom of the center of mass, the internal energy levels, and the external source state. In particular, it does not exhibit revival behavior when gravity is treated as a quantum interaction, while it revives with a finite period for a semiclassical treatment of gravity. We also examined the temporal behavior of entanglement negativity and found that the nonrevival behavior of visibility reflects the creation of the entanglement between the internal energy state and the external source state which is uniquely induced by the quantum interaction of gravity in accordance with the weak equivalence principle.
翻訳日:2023-02-03 22:07:59 公開日:2022-12-10
# 量子インスパイアされた永続的アイデンティティ

Quantum-inspired permanent identities ( http://arxiv.org/abs/2208.00327v3 )

ライセンス: Link先を確認
Ulysse Chabaud, Abhinav Deshpande, and Saeed Mehraban(参考訳) 恒常性は複雑性理論とコンビネータ論の両方に重要である。 量子コンピューティングでは、恒久的はボソンサンプリングモデルのような線形光学計算の出力振幅の表現に現れる。 この接続を利用して、多くの存在の量子に触発された証明と、新しい顕著な永続的なアイデンティティを与える。 特に、マクマホンのマスター定理の量子に着想を得た証明と、この定理の新しい一般化の証明を与える。 この定理の以前の証明は全く異なる考えを用いた。 本研究の結果は, 線形光学量子計算と入力猫状態の精度および近似的サンプリングの古典的硬さを示すものである。

The permanent is pivotal to both complexity theory and combinatorics. In quantum computing, the permanent appears in the expression of output amplitudes of linear optical computations, such as in the Boson Sampling model. Taking advantage of this connection, we give quantum-inspired proofs of many existing as well as new remarkable permanent identities. Most notably, we give a quantum-inspired proof of the MacMahon master theorem as well as proofs for new generalizations of this theorem. Previous proofs of this theorem used completely different ideas. Beyond their purely combinatorial applications, our results demonstrate the classical hardness of exact and approximate sampling of linear optical quantum computations with input cat states.
翻訳日:2023-02-02 21:35:10 公開日:2022-12-10
# x型状態を用いた半量子秘密共有

Semiquantum secret sharing by using x-type states ( http://arxiv.org/abs/2208.01922v2 )

ライセンス: Link先を確認
Ying Chen, Tian-Yu Ye(参考訳) 本稿では、x型状態に基づく半量子秘密共有(SQSS)プロトコルを提案し、2つの古典的コミュニカントが協力して量子コミュニカントの共有秘密鍵を抽出できるという目標を達成する。 詳細なセキュリティ分析によると、このプロトコルは盗聴者に対して完全に堅牢である。 このプロトコルにはいくつかのメリットがある:(1)初期量子リソースとして1種類の量子絡み合い状態しか必要とせず、(2)量子絡み合い交換やユニタリ操作は使用せず、(3)異なる参加者間でプライベートキーを共有する必要はない。

In this paper, a semiquantum secret sharing (SQSS) protocol based on x-type states is proposed, which can accomplish the goal that only when two classical communicants cooperate together can they extract the shared secret key of a quantum communicant. Detailed security analysis turns out that this protocol is completely robust against an eavesdropper. This protocol has some merits: (1) it only requires one kind of quantum entangled state as the initial quantum resource; (2) it doesn't employ quantum entanglement swapping or unitary operations; and (3) it needn't share private keys among different participants beforehand.
翻訳日:2023-02-02 10:13:35 公開日:2022-12-10
# ブラウン軸索状粒子

Brownian Axion-like particles ( http://arxiv.org/abs/2209.07658v2 )

ライセンス: Link先を確認
Shuyang Cao, Daniel Boyanovsky(参考訳) 本研究では, 擬スカラー軸索状粒子(ALP)の非平衡ダイナミクスを熱平衡自由度に弱結合させ, 還元密度行列を求める。 その時間発展は、(alp)カップリングの先頭の次数に対して、標準モデル内外の他の場へのバスのカップリングにおけるすべての次数を \emph{all orders} に求める、インインの効果的な作用によって決定される。 アルペン(AlP)の効果的な運動方程式は、ゆらぎ散逸関係に従う雑音と摩擦核を持つランゲヴィン方程式である。 ミスアライメント' の初期状態はコヒーレント振動を減衰させるが、(ALP) 個体群は浴槽による熱化に向かって増加する。 その結果、エネルギー密度は、配向から熱分解までの冷成分と温度成分の混合物を時間$(cold)\,e^{-\Gamma t}+(hot)\,(1-e^{-\Gamma t})$で表し、暗黒物質の「ウォームス」が寒冷から温暖に変化するシナリオを提供する。 特定の例として、(ALP)-光子カップリング $g a \vec{E}\cdot \vec{B}$ を最低次とし、再結合から有効とする。 長い波長緩和率は、$T \gg m_a$の場合、実質的に$\Gamma_T = \frac{g^2\,m^2_a\,T}{16\pi} $である。 自己エネルギー(ALP)の紫外線発散は、有効作用において高次微分項を必要とする。 高温では、(alp) の有限温度有効質量は $m^2_a(t) = m^2_a(0)\big[ 1-(t/t_c)^4\big]$ であり、$t_c \propto \sqrt{m_a(0)/g}$, \emph{suggesting} は反転相転移の可能性を示し、高次導関数と組み合わせるとおそらくエキゾチックな新しい相を示す。 宇宙マイクロ波背景における構造形成, 相対論的種の有効数, 複屈折に対する宇宙学的影響について検討した。

We study the non-equilibrium dynamics of a pseudoscalar axion-like particle (ALP) weakly coupled to degrees of freedom in thermal equilibrium by obtaining its reduced density matrix. Its time evolution is determined by the in-in effective action which we obtain to leading order in the (ALP) coupling but to \emph{all orders} in the couplings of the bath to other fields within or beyond the standard model. The effective equation of motion for the (ALP) is a Langevin equation with noise and friction kernels obeying the fluctuation dissipation relation. A ``misaligned'' initial condition yields damped coherent oscillations, however, the (ALP) population increases towards thermalization with the bath. As a result, the energy density features a mixture of a cold component from misalignment and a hot component from thermalization with proportions that vary in time $(cold)\,e^{-\Gamma t}+(hot)\,(1-e^{-\Gamma t})$, providing a scenario wherein the ``warmth'' of the dark matter evolves in time from colder to hotter. As a specific example we consider the (ALP)-photon coupling $g a \vec{E}\cdot \vec{B}$ to lowest order, valid from recombination onwards. For $T \gg m_a$ the long-wavelength relaxation rate is substantially enhanced $\Gamma_T = \frac{g^2\,m^2_a\,T}{16\pi} $. The ultraviolet divergences of the (ALP) self-energy require higher order derivative terms in the effective action. We find that at high temperature, the finite temperature effective mass of the (ALP) is $m^2_a(T) = m^2_a(0)\Big[ 1-(T/T_c)^4\Big]$, with $T_c \propto \sqrt{m_a(0)/g}$, \emph{suggesting} the possibility of an inverted phase transition, which when combined with higher derivatives may possibly indicate exotic new phases. We discuss possible cosmological consequences on structure formation, the effective number of relativistic species and birefringence of the cosmic microwave background.
翻訳日:2023-01-26 09:47:27 公開日:2022-12-10
# Stern-Gerlach実験における自己重力による古典性の創出

Emergence of Classicality in Stern-Gerlach Experiment via Self-Gravity ( http://arxiv.org/abs/2211.08363v2 )

ライセンス: Link先を確認
Sourav Kesharee Sahoo, Radhika Vathsan, Tabish Qureshi(参考訳) 熱い議論の的となった量子力学からの古典性の出現は、これまでのところ満足のいく解決には至っていない。 デコヒーレンスや重力相互作用など様々なアプローチが提案されている。 本研究では、シュル・オディンジャー・ニュートン模型を用いて、スターン・ゲラッハ実験における質量スピン1/2粒子の進化における半古典的自己重力の役割を研究する。 小質量の場合、スピン重畳における初期波束の進化は、標準的なスターン・ゲラルハの実験のように磁場勾配を2つの軌道に分割することを示している。 大質量の場合、中心経路からの偏差は標準的なスターン・ガーラックの場合よりも小さく、十分な質量では波束は分割せず、代わりに不均質な磁場における磁気モーメントの古典的な軌道に従う。 これは質量が増加すると自己重力相互作用による古典性の出現を示す。 対照的に、古典性の出現の強力な競合であるデコヒーレンスは、古典的に期待された経路ではなく、スピンアップ状態とスピンダウン状態に対応する2つの軌道の 'emph{mixed state} をもたらす。 古典的に期待された粒子の経路は、量子力学の多世界解釈においても説明できない。 マクロ領域におけるスターン・ゲラッハの実験は、この問題を解決するために必要である。

Emergence of classicality from quantum mechanics, a hotly debated topic, has had no satisfactory resolution so far. Various approaches including decoherence and gravitational interactions have been suggested. In the present work, the Schr\"odinger-Newton model is used to study the role of semi-classical self-gravity in the evolution of massive spin-1/2 particles in a Stern-Gerlach experiment. For small mass, evolution of the initial wavepacket in a spin superposition shows a splitting in the magnetic field gradient into two trajectories as in the standard Stern-Gerlach experiment. For larger mass, the deviations from the central path are less than in the standard Stern-Gerlach case, while for high enough mass, the wavepacket does not split, and instead follows the classical trajectory for a magnetic moment in inhomogeneous magnetic field. This indicates the emergence of classicality due to self-gravitational interaction when the mass is increased. In contrast, decoherence which is a strong contender for emergence of classicality, leads to a \emph{mixed state} of two trajectories corresponding to the spin-up and spin-down states, and not the classically expected path. The classically expected path of the particle probably cannot be explained even in the many-worlds interpretation of quantum mechanics. Stern-Gerlach experiments in the macroscopic domain are needed to settle this question.
翻訳日:2023-01-19 12:29:54 公開日:2022-12-10
# LEO衛星ネットワークにおける割り込み攻撃検出のための深層学習手法

Deep learning approach for interruption attacks detection in LEO satellite networks ( http://arxiv.org/abs/2301.03998v1 )

ライセンス: Link先を確認
Nacereddine Sitouah, Fatiha Merazka, Abdenour Hedjazi(参考訳) ネットワークシステムにおける衛星通信の発展には、強力な効果的なセキュリティ計画が必要である。 サービス拒否(DoS)のような攻撃は、マシンラーニング技術、特に通常の運用条件下で検出することができる。 本研究の目的は、深層学習アルゴリズムを用いた低軌道(\textsf{leo})衛星ネットワークの割り込み検出戦略を提供することである。 トレーニングと提案モデルのテストは、衛星ネットワークシミュレーションプラットフォームomnet++とinetを使って生成された衛星トラフィック(良質で悪意のある)を利用して、独自の通信データセットで実行されます。 我々は,MLP(Multi Layer Perceptron),CNN(Convolutional Neural Network),RNN(Recurrent Neural Network),GRU(Gated Recurrent Units),LSTM(Long Short-term Memory)など,さまざまなディープラーニングアルゴリズムをテストする。 続いて、バイナリ分類と、分散dos(ddos)、ネットワークジャミング、気象外乱といった異なる割り込みカテゴリを含むマルチクラス分類の両方における検出率の完全な分析と調査が行われた。 両方の分類のシミュレーション結果は、完全なネットワーク監視のシナリオで検出率の点で99.33%を超えた。 しかし、より現実的なシナリオでは、MLPとGRUを組み合わせたハイブリッドモデルを用いて、バイナリトラフィックの検出では96.12%、マルチクラストラフィックの検出では94.35%が偽陽性率3.72%であった。 このDeep Learningアプローチでは、セキュリティを改善し、LEO衛星ネットワークでデータ収集を容易にするソリューションを検索する上で、マシンラーニングメソッドを使用することの必要性が求められている。

The developments of satellite communication in network systems require strong and effective security plans. Attacks such as denial of service (DoS) can be detected through the use of machine learning techniques, especially under normal operational conditions. This work aims to provide an interruption detection strategy for Low Earth Orbit (\textsf{LEO}) satellite networks using deep learning algorithms. Both the training, and the testing of the proposed models are carried out with our own communication datasets, created by utilizing a satellite traffic (benign and malicious) that was generated using satellite networks simulation platforms, Omnet++ and Inet. We test different deep learning algorithms including Multi Layer Perceptron (MLP), Convolutional Neural Network (CNN), Recurrent Neural Network (RNN), Gated Recurrent Units (GRU), and Long Short-term Memory (LSTM). Followed by a full analysis and investigation of detection rate in both binary classification, and multi-classes classification that includes different interruption categories such as Distributed DoS (DDoS), Network Jamming, and meteorological disturbances. Simulation results for both classification types surpassed 99.33% in terms of detection rate in scenarios of full network surveillance. However, in more realistic scenarios, the best-recorded performance was 96.12% for the detection of binary traffic and 94.35% for the detection of multi-class traffic with a false positive rate of 3.72%, using a hybrid model that combines MLP and GRU. This Deep Learning approach efficiency calls for the necessity of using machine learning methods to improve security and to give more awareness to search for solutions that facilitate data collection in LEO satellite networks.
翻訳日:2023-01-15 23:24:09 公開日:2022-12-10
# NOX誤り低減プロトコルの適用による実時間量子場理論散乱位相シフトの計算

Applying NOX Error Mitigation Protocols to Calculate Real-time Quantum Field Theory Scattering Phase Shifts ( http://arxiv.org/abs/2212.05333v1 )

ライセンス: Link先を確認
Zachary Parks, Arnaud Carignan-Dugas, Patrick Dreher, Erik Gustafson and Yannick Meurice(参考訳) ノイズ中間スケール量子(NISQ)量子コンピュータ上のリアルタイム散乱計算は、回路全体に蓄積される誤差によって破壊される。 このような物理シミュレーションの精度を向上させるために、Noisy Output eXtrapolation (NOX)として知られる最近のエラー軽減戦略で応用回路を補うことができる。 逆フィールドイジングモデルを用いてこれらの誤差軽減プロトコルを検証し, 位相シフトの過去の計算により改善した。 概念実証4ビットアプリケーション回路は、IBMの量子コンピューティングハードウェアアーキテクチャ上で動作した。 回路深さが14から37のハードサイクルで21~74の誤差低減を示す指標を導入し、NOX法が幅広い故障率の回路に適用可能であることを確認した。 異なるクラウドアクセス可能なデバイス上でのこの観察により、NOXが実質的に時間分割されたバッチで回路が実行される発生時においても性能改善を提供することを確認した。 最後に, 緩和結果に対する系統的誤差バーを得るためのヒューリスティックな手法を提案し, 経験的誤差と比較し, 位相シフト推定への影響について考察した。

Real-time scattering calculations on a Noisy Intermediate Scale Quantum (NISQ) quantum computer are disrupted by errors that accumulate throughout the circuits. To improve the accuracy of such physics simulations, one can supplement the application circuits with a recent error mitigation strategy known as Noisy Output eXtrapolation (NOX). We tested these error mitigation protocols on a Transverse Field Ising model and improved upon previous calculations of the phase shift. Our proof-of-concept 4-qubit application circuits were run on several IBM quantum computing hardware architectures. Metrics were introduced that show between 21\% and 74\% error reduction for circuit depths ranging from 14 to 37 hard cycles, confirming that the NOX technique applies to circuits with a broad range of failure rates. This observation on different cloud-accessible devices further confirms that NOX provides performance improvements even in the advent where circuits are executed in substantially time-separated batches. Finally, we provide a heuristic method to obtain systematic error bars on the mitigated results, compare them with empirical errors and discuss their effects on phase shift estimates.
翻訳日:2023-01-09 19:09:53 公開日:2022-12-10
# 低温原子分子衝突における核スピン緩和

Nuclear spin relaxation in cold atom-molecule collisions ( http://arxiv.org/abs/2212.05363v1 )

ライセンス: Link先を確認
Rebekah Hermsmeier, Xiaodong Xing, Timur V. Tscherbul(参考訳) 外部磁場中の非構造原子を持つ^1\sigma^+$分子の冷間衝突における核スピン緩和の量子力学について検討する。 この目的のために我々は、$^1\Sigma^+$分子の自由度と核スピン度、外部磁場との相互作用、および異方性原子-分子相互作用を考慮に入れた厳密な結合チャネル法を開発した。 本手法を用いて, 低温緩衝ガスに浸漬した$^{13}$CO分子の核スピンサブレベルの衝突緩和の研究を行う。 核スピンサブレベル間の直接結合が欠如していることから,COの基底回転多様体における核スピン緩和は極めて遅いことが判明した。 COのN=1$核スピン状態間の衝突遷移の速度は、状態間の直接核スピン回転結合のため、一般的にはるかに高い。 これらの遷移は、初期および最終分子状態に対する回転および核スピン角モータの空間固定射影の値に依存する選択規則に従う。 いくつかの初期状態については、初生近似を用いて理解できる強い磁場依存性も観測する。 計算した核スピン緩和速度を用いて,Heの低温緩衝ガスに浸漬したCO$(N=0)$の単一核スピン状態の熱化を調べた。 計算された核スピン緩和時間(T_1\simeq 0.5$ s at $T=1$ K)は、核スピン緩和をはるかに速い速度で行う回転励起状態の増加による高温の急激な温度依存性を示す。 したがって、バッファーガス原子との冷間衝突におけるN=0$核スピン状態の長い緩和時間は十分な低温でしか維持できない(kT\ll 2B_e$)。

We explore the quantum dynamics of nuclear spin relaxation in cold collisions of $^1\Sigma^+$ molecules with structureless atoms in an external magnetic field. To this end, we develop a rigorous coupled-channel methodology, which accounts for rotational and nuclear spin degrees of freedom of $^1\Sigma^+$ molecules, their interaction with an external magnetic field, as well as for anisotropic atom-molecule interactions. We apply the methodology to study collisional relaxation of the nuclear spin sublevels of $^{13}$CO molecules immersed in a cold buffer gas of $^4$He atoms. We find that nuclear spin relaxation in the ground rotational manifold of CO occurs extremely slowly due to the absence of direct couplings between the nuclear spin sublevels. The rates of collisional transitions between the $N=1$ nuclear spin states of CO are generally much higher due to the direct nuclear spin-rotation coupling between the states. These transitions obey selection rules, which depend on the values of space-fixed projections of rotational and nuclear spin angular momenta for the initial and final molecular states. For some initial states, we also observe a strong magnetic field dependence, which can be understood using the first Born approximation. We use our calculated nuclear spin relaxation rates to investigate the thermalization of a single nuclear spin state of CO$(N=0)$ immersed in a cold buffer gas of He. The calculated nuclear spin relaxation times ($T_1\simeq 0.5$ s at $T=1$ K) display a steep temperature dependence decreasing rapidly at elevated temperatures due to the increased population of rotationally excited states, which undergo nuclear spin relaxation at a much faster rate. Thus, long relaxation times of $N=0$ nuclear spin states in cold collisions with buffer gas atoms can only be maintained at sufficiently low temperatures ($kT\ll 2B_e$), where $B_e$ is the rotational constant.
翻訳日:2023-01-09 19:09:36 公開日:2022-12-10
# 軸状粒子の非平衡ダイナミクス:量子マスター方程式

Non-equilibrium dynamics of Axion-like particles: the quantum master equation ( http://arxiv.org/abs/2212.05161v1 )

ライセンス: Link先を確認
Shuyang Cao, Daniel Boyanovsky(参考訳) 熱平衡の標準模型自由度に結合した軸状粒子(alp)の非平衡ダイナミクスについて検討した。 還元密度行列(ALP)に対する量子マスター方程式(QME)は、(ALP)と熱浴とのカップリングの先行順序から導かれるが、(ALP)以外の標準模型の内外自由度に対する浴のカップリングのemph{all}次数に導かれる。 qmeは、初期不整合(alp)凝縮物の減衰振動ダイナミクス、浴による熱分解、デコヒーレンス、エントロピー生成を記述する。 alp) エネルギー密度 $\mathcal{e}(t)$ は、2つの成分を特徴としている: ミスアライメントされた凝縮物からの ``cold'' 成分と、浴との加熱による ``hot'' 成分 $\mathcal{e}(t)= \mathcal{e}_{c}\,e^{-\gamma(t)\,t}+\mathcal{e}_{h}(1-e^{-\gamma(t)\,t})$ ゆえに ``mixed dark matter'' シナリオを提供する。 縮合(ALP)の緩和、熱化、脱コヒーレンス、エントロピー生成は、同様の時間スケールで起こる。 AlP)-光子カップリングの明示的な例では、有効なポスト組換えは、熱放出と吸収の大幅な増強を伴う緩和率$\gamma(T)$をもたらす。 ミスアライメント凝縮物は、再結合から少なくとも崩壊し、同時に宇宙マイクロ波背景(cmb)と共に熱化する。 超相対論的種と銀河形成の有効数に対するcmbとalpの複屈折の影響について考察した。

We study the non-equilibrium dynamics of Axion-like particles (ALP) coupled to Standard Model degrees of freedom in thermal equilibrium. The Quantum Master Equation (QME) for the (ALP) reduced density matrix is derived to leading order in the coupling of the (ALP) to the thermal bath, but to \emph{all} orders of the bath couplings to degrees of freedom within or beyond the Standard Model other than the (ALP). The (QME) describes the damped oscillation dynamics of an initial misaligned (ALP) condensate, thermalization with the bath, decoherence and entropy production within a unifying framework. The (ALP) energy density $\mathcal{E}(t)$ features two components: a ``cold'' component from the misaligned condensate and a ``hot'' component from thermalization with the bath, with $\mathcal{E}(t)= \mathcal{E}_{c}\,e^{-\gamma(T)\,t}+\mathcal{E}_{h}(1-e^{-\gamma(T)\,t})$ thus providing a ``mixed dark matter'' scenario. Relaxation of the (ALP) condensate, thermalization, decoherence and entropy production occur on similar time scales. An explicit example with (ALP)-photon coupling, valid post recombination yields a relaxation rate $\gamma(T)$ with a substantial enhancement from thermal emission and absorption. A misaligned condensate is decaying at least since recombination and on the same time scale thermalizing with the cosmic microwave background (CMB). Possible consequences for birefringence of the (CMB) and (ALP) contribution to the effective number of ultrarelativistic species and galaxy formation are discussed.
翻訳日:2023-01-09 19:08:36 公開日:2022-12-10
# インジウムイオン注入により生成したZnOのドナー量子ビットの性質

Properties of donor qubits in ZnO formed by indium ion implantation ( http://arxiv.org/abs/2212.05230v1 )

ライセンス: Link先を確認
Xingyi Wang, Christian Zimmermann, Michael Titze, Vasileios Niaouris, Ethan R. Hansen, Samuel H. D'Ambrosia, Lasse Vines, Edward S. Bielejec, Kai-Mei C. Fu(参考訳) ZnOの浅中性ドナー(D$^\mathrm{0}$)は固体スピン量子ビットの候補として期待されている。 ここでは, ZnO中のD$^\mathrm{0}$の形成をInの注入およびその後の焼鈍により報告する。 埋め込みInドナーは、$\textit{in situ}$ doped donorと同等の光学特性とスピン特性を示す。 ドナーバウンド励起子転移の不均質な線幅は10ghz未満であり、光学的線幅である$\textit{in situ}$ inに匹敵する。 経時的スピン緩和時間(T_1$)は、$\textit{in situ}$ Ga ドナーの報告値を超える。 ドナースピン上の2つのレーザーラマン分光は、ドナー電子とスピン-9/2 In核との超微細な相互作用を明らかにする。 この研究は、長寿命の核スピンメモリへの光学的アクセスを持つZnOにおけるInドナー量子ビットの決定論的形成に向けた重要なステップである。

Shallow neutral donors (D$^\mathrm{0}$) in ZnO have emerged as a promising candidate for solid-state spin qubits. Here, we report on the formation of D$^\mathrm{0}$ in ZnO via implantation of In and subsequent annealing. The implanted In donors exhibit optical and spin properties on par with $\textit{in situ}$ doped donors. The inhomogeneous linewidth of the donor-bound exciton transition is less than 10 GHz, comparable to the optical linewidth of $\textit{in situ}$ In. Longitudinal spin relaxation times ($T_1$) exceed reported values for $\textit{in situ}$ Ga donors, indicating that residual In implantation damage does not degrade $T_1$. Two laser Raman spectroscopy on the donor spin reveals the hyperfine interaction of the donor electron with the spin-9/2 In nuclei. This work is an important step toward the deterministic formation of In donor qubits in ZnO with optical access to a long-lived nuclear spin memory.
翻訳日:2023-01-09 18:34:58 公開日:2022-12-10
# 測定デバイス非依存量子秘密共有の破断速度-距離制限

Breaking Rate-Distance Limitation of Measurement-Device-Independent Quantum Secret Sharing ( http://arxiv.org/abs/2212.06148v1 )

ライセンス: Link先を確認
Chen-Long Li, Yao Fu, Wen-Bo Liu, Yuan-Mei Xie, Bing-Hong Li, Min-Gang Zhou, Hua-Lei Yin, Zeng-Bing Chen(参考訳) 量子秘密共有は、セキュアな送金からマルチパーティ量子計算まで、ネットワークアプリケーションにとって重要な暗号プリミティブである。 現在、量子シークレット共有のほとんどの進歩はレート距離境界に苦しむため、キーレートは限定的であり、大規模展開には非現実的である。 さらに, 既存プロトコルの性能は, 参加者の攻撃を考慮せずに漸近的に解析される。 本稿では,キーレートと伝送距離を改良した測定デバイス非依存の量子秘密共有プロトコルについて報告する。 空間多重化に基づき,少なくとも10の通信相手のネットワーク上でのレート距離境界を破ることができることを示す。 他のプロトコルと比較して、我々の研究は秘密鍵レートを2桁以上改善し、送信距離を長くしている。 参加者攻撃を考慮した構成可能なフレームワークにおけるプロトコルのセキュリティ分析を行う。 また,セキュリティ分析に基づいて,有限サイズシステムにおける性能評価を行った。 さらに,既存のプロトコルと比較して,署名率が10^7ドル以上向上したデジタル署名に対して,我々のプロトコルを適用することを検討する。 この結果から,我々の量子秘密共有プロトコルが,量子ネットワーク上のマルチパーティアプリケーションに確かな未来をもたらすことを期待する。

Quantum secret sharing is an important cryptographic primitive for network applications ranging from secure money transfer to multiparty quantum computation. Currently most progresses on quantum secret sharing suffer from rate-distance bound, and thus the key rates are limited and unpractical for large-scale deployment. Furthermore, the performance of most existing protocols is analyzed in the asymptotic regime without considering participant attacks. Here we report a measurement-device-independent quantum secret sharing protocol with improved key rate and transmission distance. Based on spatial multiplexing, our protocol shows it can break rate-distance bounds over network under at least ten communication parties. Compared with other protocols, our work improves the secret key rate by more than two orders of magnitude and has a longer transmission distance. We analyze the security of our protocol in the composable framework considering participant attacks. Based on the security analysis, we also evaluate their performance in the finite-size regime. In addition, we investigate applying our protocol to digital signatures where the signature rate is improved more than $10^7$ times compared with existing protocols. Based on our results, we anticipate that our quantum secret sharing protocol will provide a solid future for multiparty applications on quantum network.
翻訳日:2023-01-09 18:34:09 公開日:2022-12-10
# 量子メモリのない量子会議鍵契約に関する普遍的制限を破る

Breaking universal limitations on quantum conference key agreement without quantum memory ( http://arxiv.org/abs/2212.05226v1 )

ライセンス: Link先を確認
Chen-Long Li, Yao Fu, Wen-Bo Liu, Yuan-Mei Xie, Bing-Hong Li, Min-Gang Zhou, Hua-Lei Yin, Zeng-Bing Chen(参考訳) quantum conference key agreementは、将来の量子ネットワークにとって重要な暗号プリミティブである。 このプリミティブを実現するには、高明度で堅牢な多光子絡み合い源が必要である。 本稿では,ロスチャネル上の伝送効率を向上した測定デバイス非依存の量子会議キーアグリーメントプロトコルについて報告する。 空間多重化特性と適応演算により,量子メモリを使わずに量子ネットワーク上での量子通信におけるキーレート境界を破ることができる。 従来の手法と比較して,最先端技術における鍵レートと伝送距離の優位性を示す。 さらに, 構成可能なフレームワークにおけるプロトコルのセキュリティを分析し, 有限サイズシステムの性能評価を行い, 実用性を示す。 以上の結果から,マルチパーティタイト量子ネットワーク構築において,我々のプロトコルが不可欠の役割を担うことを予測した。

Quantum conference key agreement is an important cryptographic primitive for future quantum network. Realizing this primitive requires high-brightness and robust multiphoton entanglement sources, which is challenging in experiment and unpractical in application because of limited transmission distance caused by channel loss. Here we report a measurement-device-independent quantum conference key agreement protocol with enhanced transmission efficiency over lossy channel. With spatial multiplexing nature and adaptive operation, our protocol can break key rate bounds on quantum communication over quantum network without quantum memory. Compared with previous work, our protocol shows superiority in key rate and transmission distance within the state-of-the-art technology. Furthermore, we analyse the security of our protocol in the composable framework and evaluate its performance in the finite-size regime to show practicality. Based on our results, we anticipate that our protocol will play an indispensable role in constructing multipartite quantum network.
翻訳日:2023-01-09 18:23:03 公開日:2022-12-10
# 閉じ込められたボソニック混合物のフラグメンテーション

Fragmentation of a trapped bosonic mixture ( http://arxiv.org/abs/2212.05227v1 )

ライセンス: Link先を確認
Ofir E. Alon and Lorenz S. Cederbaum(参考訳) 不均衡なボゾン混合物中のボソンとペアのフラグメンテーションを, 正確な可溶性モデル, 一般調和相互作用モデルを用いて解析した。 全てのパラメータ、質量、ボソンの数、種内および種間相互作用の関数としての還元された1粒子および2粒子密度行列の固有値および固有関数の閉形式式を求め、解析した。 応用として、N_1=100$非相互作用種からなるシステムにおいて、N_2=10^6$非相互作用種からなる浴槽に1ドルのボソンが埋め込まれ、システムのボソンとペアの断片化がシステム-バス相互作用からのみ生じることを示す。 興味深いことに、浴槽を構成するボソンがより軽いほど、システムのフラグメンテーションが強くなる。 さらなる応用が簡単に議論される。

Fragmentation of bosons and pairs in a trapped imbalanced bosonic mixture is investigated analytically using an exactly solvable model, the generic harmonic-interaction model for mixtures. Closed-form expressions for the eigenvalues and eigenfunctions of the reduced one-particle and two-particle density matrices as a function of all parameters, the masses, numbers of bosons, and the intraspecies and interspecies interactions, are obtained and analyzed. As an application, we consider a system made of $N_1=100$ non-interacting species $1$ bosons embedded in a bath made of $N_2=10^6$ non-interacting species $2$ bosons, and show how fragmentation of the system's bosons and pairs emerges from the system--bath interaction only. Interestingly, the lighter the bosons comprising the bath are the stronger is the system's fragmentation. Further applications are briefly discussed.
翻訳日:2023-01-09 18:22:49 公開日:2022-12-10
# QFTにおける機能相空間分布のダイナミクス:QFTとCMPの3次量子化と動的統一

Dynamics of Functional Phase Space Distribution in QFT: A Third Quantization and Dynamical Unification of QFT and CMP ( http://arxiv.org/abs/2212.05162v1 )

ライセンス: Link先を確認
Felix A. Buot(参考訳) 量子場理論(QFT)における機能相空間分布の量子力学を導出する第3の量子化スキームを提案した。 導出は単純でアルゴリズム的です。 これにより、通常の位置運動量(p,q)-空間ではなく、(p,q)-函数位相空間におけるQFT分布の弾道量子輸送方程式が容易に得られる。 我々の出発点は、QFTにおける一般混合空間表現である。 最終的な結果は、凝縮物質物理学(CMP)とQFTの量子超場輸送理論の統合として機能する。 これは対応の表にまとめられている。 この第3の量子化スキームは、多くの自由度を持つ系の量子ゆらぎ理論において重要であるかもしれない。 これは宇宙論、重力、多元宇宙論、yang-mills理論と関係があるかもしれない。

We proposed a third quantization scheme to derive the quantum dynamics of the functional phase space distribution in quantum field theory (QFT). The derivation is straightforward and algorithmic. This readily yields the ballistic quantum transport equation of QFT distribution in (p,q)- functional phase space, not in ordinary position-momentum (p,q)-space. Our starting point is the general mixed space representation in QFT. The end result serves as a unification of the quantum superfield transport theory of condensed matter physics (CMP) and QFT. This is summarized in a Table of correspondence. This third quantization scheme may have significance in quantum fluctuation theory of systems with many degrees of freedom. It may have relevance to cosmology: gravity, multi-universes, and Yang-Mills theory.
翻訳日:2023-01-09 17:40:53 公開日:2022-12-10
# 量子ラビ模型における超ラジアント相転移の分離

Dissecting Superradiant Phase Transition in the Quantum Rabi Model ( http://arxiv.org/abs/2212.05186v1 )

ライセンス: Link先を確認
Yun-Tong Yang and Hong-Gang Luo(参考訳) 相転移は自然界や実験室において熱力学的かつ量子力学的にユビキタスであり、その理解は現代物理学や関連する分野において最も活発な問題の一つである。 ランダウの理論は、次数パラメータの導入と関連する対称性の破れによる相転移を記述するための一般的な枠組みを提供し、また、再正規化群における相転移に関連する臨界現象を探求する出発点として捉えられ、臨界点に近い振る舞いの完全な理論的記述を提供する。 この意味で、相転移の微視的なメカニズムはまだ解明されていない。 ここでは、量子ラビモデル(QRM)における超放射相転移の微視的機構を初めて探求する。 まず、操作空間で対角化を行い、qrmに関連する3つの基本パターンを求め、結合強度を高めてエネルギー進化を明示的に解析する。 超ラジアント相転移の微視的メカニズムを明らかにする特徴的挙動は、相転移が起こるのに活性であり、第2の応答は活性パターンの変化に素早く反応し、第3のパターンを起こして新しい相を安定化させる。 この種の分別機構は、QRMの超ラジカル相転移がなぜどのようにして起こるのかを初めて説明し、自然界で広く起こる相転移の微視的なメカニズムを解明する方法を舗装する。

The phase transition is both thermodynamically and quantum-mechanically ubiquitous in nature or laboratory and its understanding is still one of most active issues in modern physics and related disciplines. The Landau's theory provides a general framework to describe \textit{phenomenologically} the phase transition by the introduction of order parameters and the associated symmetry breakings; and is also taken as starting point to explore the critical phenomena in connection with phase transitions in renormalization group, which provides a complete theoretical description of the behavior close to the critical points. In this sense the microscopic mechanism of the phase transition remains still to be uncovered. Here we make a first attempt to explore the microscopic mechanism of the superradiant phase transition in the quantum Rabi model (QRM). We firstly perform a diagonalization in an operator space to obtain three fundamental patterns involved in the QRM and then analyze explicitly their energy evolutions with increasing coupling strengths. The characteristic behaviors found uncover the microscipic mechanism of the superradiant phase transition: one is active to drive the happening of phase transition, the second responses rapidly to the change of the active pattern and wakes up the third pattern to stablize the new phase. This kind of dissecting mechanism explains for the first time why and how happens the superradiant phase transition in the QRM and paves a way to explore the microscopic mechanism of the phase transitions happening popularly in nature.
翻訳日:2023-01-09 17:40:39 公開日:2022-12-10
# マルチパートエンタングル生成のための全光量子リピータ

All-Photonic Quantum Repeater for Multipartite Entanglement Generation ( http://arxiv.org/abs/2212.05224v1 )

ライセンス: Link先を確認
Chen-Long Li, Yao Fu, Wen-Bo Liu, Yuan-Mei Xie, Bing-Hong Li, Min-Gang Zhou, Hua-Lei Yin, Zeng-Bing Chen(参考訳) 分散量子コンピューティングや量子秘密共有のような量子ネットワークアプリケーションは、量子リソースを備えた将来有望なネットワークを提供する。 遠距離での絡み合いの発生と分布は、完全接続されたネットワークで量子技術を利用するのに不可欠であり、避けられない。 長距離での2成分の絡み合いの分布にはいくつかの進展が見られるが、長距離での多成分の絡み合いの分布は未解決である。 本稿では,このギャップを埋めるために,全光子フレームワークを用いた長距離の多成分絡み合い生成のための2次元量子リピータプロトコルを提案する。 提案プロトコルの利得は,ネットワークユーザの数によって長い伝送距離を示す。 ユーザ数を拡大する効率性と柔軟性の向上により、将来、我々のプロトコルが量子ネットワークの重要なビルディングブロックとして機能することを期待しています。

Quantum network applications like distributed quantum computing and quantum secret sharing present a promising future network equipped with quantum resources. Entanglement generation and distribution over long distances is critical and unavoidable to utilize quantum technology in a fully-connected network. The distribution of bipartite entanglement over long distances has seen some progresses, while the distribution of multipartite entanglement over long distances remains unsolved. Here we report a two-dimensional quantum repeater protocol for the generation of multipartite entanglement over long distances with all-photonic framework to fill this gap. The yield of the proposed protocol shows long transmission distance under various numbers of network users. With the improved efficiency and flexibility of extending the number of users, we anticipate that our protocol can work as a significant building block for quantum networks in the future.
翻訳日:2023-01-09 17:40:12 公開日:2022-12-10
# ポストセレクトメトロジーにおける量子コヒーレンスの有用性

Advantage of quantum coherence in postselected metrology ( http://arxiv.org/abs/2212.05285v1 )

ライセンス: Link先を確認
Shao-Jie Xiong, Peng-Fei Wei, Huang-Qiu-Chen Wang, Lei Shao, Yong-Nan Sun, Jing Liu, Zhe Sun and Xiao-Guang Wang(参考訳) 従来の測定では、パラメータ推定の最大精度に達するためには、各独立したサンプルが同じ量子フィッシャー情報を持っているため、すべてのサンプルを測定する必要がある。 ポストセレクトメロジでは、ポストセレクションは初期サンプルの量子フィッシャー情報を小さなポストセレクトサブアンサンブルに集約することができる。 この量子アドバンテージは古典的可換理論では実現できないことが証明されている。 本研究では、弱値増幅(WVA)におけるポストセレクションの利点を量子コヒーレンスなしでは達成できないことを示す。 初期系の量子コヒーレンスはパラメータ推定における準備コストと測定コストと密接に関連している。 初期量子コヒーレンスの増加に伴い、準備コストと測定コストの合同値はより小さく最適化できる。 さらに, 調製, 測定, 量子コヒーレンス間の解析的トレードオフ関係を導出した。 さらに線形光学装置におけるトレードオフ関係を実験的に検証する。 実験および理論的結果はよく一致しており、量子コヒーレンスが、選択後メトロジープロセスにおける資源コストの束縛において重要な役割を果たすことを示している。

In conventional measurement, to reach the greatest accuracy of parameter estimation, all samples must be measured since each independent sample contains the same quantum Fisher information. In postselected metrology, postselection can concentrate the quantum Fisher information of the initial samples into a tiny post-selected sub-ensemble. It has been proven that this quantum advantage can not be realized in any classically commuting theory. In this work, we present that the advantage of postselection in weak value amplification (WVA) can not be achieved without quantum coherence. The quantum coherence of the initial system is closely related to the preparation costs and measurement costs in parameter estimation. With the increase of initial quantum coherence, the joint values of preparation costs and measurement costs can be optimized to smaller. Moreover, we derive an analytical tradeoff relation between the preparation, measurement and the quantum coherence. We further experimentally test the tradeoff relation in a linear optical setup. The experimental and theoretical results are in good agreement and show that the quantum coherence plays a key role in bounding the resource costs in the postselected metrology process.
翻訳日:2023-01-09 17:40:00 公開日:2022-12-10
# 量子力学におけるエネルギー非保存」へのコメント

Comment on "Energy Non-Conservation in Quantum Mechanics" ( http://arxiv.org/abs/2212.05328v1 )

ライセンス: Link先を確認
Johann Summhammer(参考訳) arXiv:2101.11052v2では、2つのスピンを含む実験的プロトコルが提案されている。 本論では、その結論につながる不正確な数学的近似を指摘する。 詳細な分析は省エネルギーを回復させる。

In the posting arXiv:2101.11052v2 an experimental protocol involving two spins is proposed, which should show violation of energy conservation in a quantum experiment. In the present comment an unjustified mathematical approximation leading to that conclusion is pointed out. A detailed analysis will restore energy conservation.
翻訳日:2023-01-09 17:39:42 公開日:2022-12-10
# 単一局所散逸チャネルを有する量子配列におけるエンタングル量子ビット対の散逸安定化

Dissipative stabilization of entangled qubit pairs in quantum arrays with a single localized dissipative channel ( http://arxiv.org/abs/2212.05346v1 )

ライセンス: Link先を確認
Jacopo Angeletti, Stefano Zippilli, David Vitali(参考訳) 量子系の配列における絡み合い状態の散逸安定化について検討する。 具体的には、1つ以上のキャビティ(ボソニックモード)と相互作用する可能性のある量子ビット(スピン1/2)の状態に興味がある。 すべての場合、空洞またはキュービットのどちらかの1つの要素だけが損失があり、貯水池に不可逆的に結合される。 損失成分がキャビティである場合、圧縮された貯水池とキャビティの励起数を保存する相互作用のみを考える。 代わりに、損失元がクォービットであるとき、純粋な崩壊とXY-相互作用の適切に選択された構造が考慮される。 すべての場合、定常状態において、配列全体を覆う非間接的に相互作用する多くのキュービットのペアは、散逸と局所的な相互作用の相互作用によって、定常的に絡み合うことができる。

We study the dissipative stabilization of entangled states in arrays of quantum systems. Specifically, we are interested in the states of qubits (spin-1/2) which may or may not interact with one or more cavities (bosonic modes). In all cases only one element, either a cavity or a qubit, is lossy and irreversibly coupled to a reservoir. When the lossy element is a cavity, we consider a squeezed reservoir and only interactions which conserve the number of cavity excitations. Instead, when the lossy element is a qubit, pure decay and a properly selected structure of XY-interactions are taken into account. We show that in all cases, in the steady state, many pairs of distant, non-directly interacting qubits, which cover the whole array, can get entangled in a stationary way, by means of the interplay of dissipation and local interactions.
翻訳日:2023-01-09 17:39:36 公開日:2022-12-10
# 量子プログラムにおける非有界ループ:カテゴリと弱い whileループ

Unbounded loops in quantum programs: categories and weak while loops ( http://arxiv.org/abs/2212.05371v1 )

ライセンス: Link先を確認
Pablo Andr\'es-Mart\'inez(参考訳) 量子プログラムの制御フローは、古典と量子の2つの異なるクラスに分けられる。 古典的な制御フローを持つ量子プログラムは、古典的な測定結果とこれらの崩壊量子データによって条件分岐を決定する。 逆に、量子制御フローはコヒーレント、すなわち量子データを摂動しない;量子ウォークベースのアルゴリズムはコヒーレントな量子フィードバックが主要な役割を果たす実用的な例である。 この論文には2つの主な貢献がある。 (i)コヒーレント量子反復の分類学的研究と (II)ループ中の弱さの導入。 i) 反復的な量子ループをモデル化可能なトレースモノイド構造を持つ量子プロセスのカテゴリを実現することが目的である。 この目的のために、射のトレースは実行公式によって計算され、制御フローのすべての可能な経路の寄与が加算される。 ハーヴェルディの唯一の分解圏は加法的な逆数を許容し、基本トポロジーを用いた収束基準を備えるように一般化されている。 この設定では、量子過程の特定のカテゴリにおける分類的トレースとしての実行公式の有効性を証明することができる。 (ii)弱い whileループは古典的な制御フロープリミティブであり、各イテレーションで引き起こされる崩壊と得られる情報量とのトレードオフを提供する。 トレードオフはパラメータをチューニングすることで調整することができ、ある状況では量子スピードアップを犠牲にすることなくアルゴリズムを制御できるようにその値を設定することができる。 例えば、Groverの探索問題は、標準的なGroverのアルゴリズム(以前Mizelが示したように)と同じ時間の複雑さを維持しながら、弱いループを用いて実装可能である。

Control flow of quantum programs is often divided into two different classes: classical and quantum. Quantum programs with classical control flow have their conditional branching determined by the classical outcome of measurements, and these collapse quantum data. Conversely, quantum control flow is coherent, i.e. it does not perturb quantum data; quantum walk-based algorithms are practical examples where coherent quantum feedback plays a major role. This dissertation has two main contributions: (i) a categorical study of coherent quantum iteration and (ii) the introduction of weak while loops. (i) The objective is to endow categories of quantum processes with a traced monoidal structure capable of modelling iterative quantum loops. To this end, the trace of a morphism is calculated via the execution formula, which adds up the contribution of all possible paths of the control flow. Haghverdi's unique decomposition categories are generalised to admit additive inverses and equipped with convergence criteria using basic topology. In this setting, it is possible to prove the validity of the execution formula as a categorical trace on certain categories of quantum processes. (ii) A weak while loop is a classical control flow primitive that offers a trade-off between the collapse caused on each iteration and the amount of information gained. The trade-off may be adjusted by tuning a parameter and, in certain situations, it is possible to set its value so that we may control the algorithm without sacrificing its quantum speed-up. As an example, it is shown that Grover's search problem can be implemented using a weak while loop, maintaining the same time complexity as the standard Grover's algorithm (as previously shown by Mizel).
翻訳日:2023-01-09 17:39:21 公開日:2022-12-10
# 医用画像分類における説明可能な人工知能手法の解析

Analysis of Explainable Artificial Intelligence Methods on Medical Image Classification ( http://arxiv.org/abs/2212.10565v1 )

ライセンス: Link先を確認
Vinay Jogani, Joy Purohit, Ishaan Shivhare and Seema C Shrawne(参考訳) 画像分類などのコンピュータビジョンタスクにおけるディープラーニングの利用により,そのようなシステムの性能は急速に向上した。 このようなシステムの有用性の増大により、多くの重要なタスクにおける人工知能の使用が爆発的に増加した。 医療領域では、高い精度と人間の医師とほぼ同等であることから、多くの課題において医用画像分類システムが採用されている。 しかし、これらの人工知能システムは極めて複雑であり、これらのモデルによる予測を正確に解釈するのは難しいため、科学者によってブラックボックスと見なされている。 これらのシステムが高い意思決定を支援するために使用されている場合、モデルが到達した結論を理解し、検証し、正当化することが極めて重要である。 ブラックボックスモデルに関する洞察を得るために使用されている研究技術は、説明可能な人工知能(XAI)の分野にある。 本稿では,病理組織像から肺癌の分類を訓練した2つの畳み込みニューラルネットワークモデルを用いた3種類のXAI法の評価を行った。 医療領域における説明可能な人工知能の応用方法の理解を深めるため,出力を可視化し,これらの手法の性能解析を行った。

The use of deep learning in computer vision tasks such as image classification has led to a rapid increase in the performance of such systems. Due to this substantial increment in the utility of these systems, the use of artificial intelligence in many critical tasks has exploded. In the medical domain, medical image classification systems are being adopted due to their high accuracy and near parity with human physicians in many tasks. However, these artificial intelligence systems are extremely complex and are considered black boxes by scientists, due to the difficulty in interpreting what exactly led to the predictions made by these models. When these systems are being used to assist high-stakes decision-making, it is extremely important to be able to understand, verify and justify the conclusions reached by the model. The research techniques being used to gain insight into the black-box models are in the field of explainable artificial intelligence (XAI). In this paper, we evaluated three different XAI methods across two convolutional neural network models trained to classify lung cancer from histopathological images. We visualized the outputs and analyzed the performance of these methods, in order to better understand how to apply explainable artificial intelligence in the medical domain.
翻訳日:2022-12-25 03:12:32 公開日:2022-12-10
# mountnet:深層ニューラルネットワークを用いた慣性センサ搭載角度の学習

MountNet: Learning an Inertial Sensor Mounting Angle with Deep Neural Networks ( http://arxiv.org/abs/2212.11120v1 )

ライセンス: Link先を確認
Maxim Freydin, Niv Sfaradi, Nimrod Segol, Areej Eweida, and Barak Or(参考訳) 車内のスマートフォンの取り付け角度を見つけることは、ナビゲーション、モーション検出、アクティビティ認識、その他の用途に不可欠である。 それはいくつかの面で難しい課題です。 (i)運転開始時の取付角度が不明で、利用者間で大きく異なる場合がある。 二 運転中は、使用者又は悪用者が取付角度を変えることができる。 (iii)ほとんどのアプリケーションでは高速で計算効率の良いリアルタイムソリューションが必要となる。 これらの問題に対処するため、ディープニューラルネットワーク(DNN)を用いたデータ駆動アプローチを提案し、慣性測定ユニット(IMU)を備えたスマートフォンのヨー装着角度を学習し、車に縛り付ける。 提案モデルであるMountNetはIMUのみを入力とし、既存のソリューションとは対照的に、グローバルナビゲーション衛星システム(GNSS)からの入力を必要としない。 既知のヨー取付角度に装着されたセンサを用いて、IMUデータをトレーニング及び検証するために収集し、その測定に所定の回転を適用して、地中真理ラベルの範囲を生成する。 トレーニングデータには、実際のセンサー回転による記録は含まれなかったが、実および合成回転によるデータに対するテストも同様の結果を示した。 mountnetによって推定されるデバイス実装角度の遷移を検出・滑らかに検出するために、リアルタイムデプロイメントのためのアルゴリズムを定式化する。 MountNetは、リアルタイムアプリケーションにおいて重要な実装角度を急速に見つけることが示されている。 提案手法は,30秒未満で平均誤差4度に収束し,他のアルゴリズムやアプリケーションに対して高速な校正フェーズを実現する。 デバイスをドライブの中央で回転させると、大きな変化は5秒で収束し、小さな変化は30秒未満で収束する。

Finding the mounting angle of a smartphone inside a car is crucial for navigation, motion detection, activity recognition, and other applications. It is a challenging task in several aspects: (i) the mounting angle at the drive start is unknown and may differ significantly between users; (ii) the user, or bad fixture, may change the mounting angle while driving; (iii) a rapid and computationally efficient real-time solution is required for most applications. To tackle these problems, a data-driven approach using deep neural networks (DNNs) is presented to learn the yaw mounting angle of a smartphone equipped with an inertial measurement unit (IMU) and strapped to a car. The proposed model, MountNet, uses only IMU readings as input and, in contrast to existing solutions, does not require inputs from global navigation satellite systems (GNSS). IMU data is collected for training and validation with the sensor mounted at a known yaw mounting angle and a range of ground truth labels is generated by applying a prescribed rotation to the measurements. Although the training data did not include recordings with real sensor rotations, tests on data with real and synthetic rotations show similar results. An algorithm is formulated for real-time deployment to detect and smooth transitions in device mounting angle estimated by MountNet. MountNet is shown to find the mounting angle rapidly which is critical in real-time applications. Our method converges in less than 30 seconds of driving to a mean error of 4 degrees allowing a fast calibration phase for other algorithms and applications. When the device is rotated in the middle of a drive, large changes converge in 5 seconds and small changes converge in less than 30 seconds.
翻訳日:2022-12-25 03:12:15 公開日:2022-12-10
# QVIP: ILPに基づく量子ニューラルネットワークの形式検証手法

QVIP: An ILP-based Formal Verification Approach for Quantized Neural Networks ( http://arxiv.org/abs/2212.11138v1 )

ライセンス: Link先を確認
Yedi Zhang and Zhe Zhao and Fu Song and Min Zhang and Taolue Chen and Jun Sun(参考訳) ディープラーニングは、多くの課題を解決するという驚くべきパフォーマンスのおかげで、ソフトウェア開発において有望なプログラミングパラダイムになっています。 ディープニューラルネットワーク(DNN)の実用化はますます進んでいるが、計算能力の需要のためリソース制限されたデバイスに限られている。 量子化は、浮動小数点数に匹敵する精度でDNNのサイズを減らすための有望な手法として登場した。 結果の量子化ニューラルネットワーク(QNN)はエネルギー効率よく実装できる。 浮動小数点数(floating-point numbered)と同様、QNNの品質保証技術(テストや形式検証など)は必須だが、現在はあまり研究されていない。 そこで本研究では,QNNに対する新規かつ効率的な形式検証手法を提案する。 特に,本研究では,QNNの検証問題を整数線形制約の解法に還元する符号化法を提案する。 私たちのエンコーディングは健全かつ完全です。 本稿では,局所ロバスト性検証と最大ロバスト性半径計算への応用を示す。 提案手法を試作ツールQVIPに実装し,徹底的な評価を行う。 量子化ビットの異なるQNNの実験結果により、我々のアプローチの有効性と効率、例えば、2桁の精度で、最先端の手法よりも多くの検証タスクを同時に解くことができる。

Deep learning has become a promising programming paradigm in software development, owing to its surprising performance in solving many challenging tasks. Deep neural networks (DNNs) are increasingly being deployed in practice, but are limited on resource-constrained devices owing to their demand for computational power. Quantization has emerged as a promising technique to reduce the size of DNNs with comparable accuracy as their floating-point numbered counterparts. The resulting quantized neural networks (QNNs) can be implemented energy-efficiently. Similar to their floating-point numbered counterparts, quality assurance techniques for QNNs, such as testing and formal verification, are essential but are currently less explored. In this work, we propose a novel and efficient formal verification approach for QNNs. In particular, we are the first to propose an encoding that reduces the verification problem of QNNs into the solving of integer linear constraints, which can be solved using off-the-shelf solvers. Our encoding is both sound and complete. We demonstrate the application of our approach on local robustness verification and maximum robustness radius computation. We implement our approach in a prototype tool QVIP and conduct a thorough evaluation. Experimental results on QNNs with different quantization bits confirm the effectiveness and efficiency of our approach, e.g., two orders of magnitude faster and able to solve more verification tasks in the same time limit than the state-of-the-art methods.
翻訳日:2022-12-25 03:11:33 公開日:2022-12-10
# openpack:iot対応ロジスティック環境でパッケージング動作を認識するための大規模データセット

OpenPack: A Large-scale Dataset for Recognizing Packaging Works in IoT-enabled Logistic Environments ( http://arxiv.org/abs/2212.11152v1 )

ライセンス: Link先を確認
Naoya Yoshimura, Jaime Morales, Takuya Maekawa, Takahiro Hara(参考訳) ヒトの日常的活動とは異なり、産業領域における作業活動認識のための既存のセンサデータセットは、産業現場との密接な連携が求められるため、現実的なデータ収集の困難さによって制限されている。 これにより、産業応用のためのAI手法の研究と開発も制限される。 そこで本研究では,これらの課題に対処し,産業領域における作業活動の機械的認識に関する研究に寄与するため,OpenPackと呼ばれる大規模な作業認識データセットを導入する。 OpenPackには、キーポイント、深度画像、加速度データ、IoT対応デバイス(例えば、作業手順で使用されるハンドヘルドバーコードスキャナ)からの読み取りを含む53.8時間のマルチモーダルセンサーデータが含まれている。 このデータセットに基づいて,iot対応デバイスからセンサデータや読み出しを,はしご型アーキテクチャで異なるストリーム内で処理することにより効率的に融合する作業アクティビティを認識可能なニューラルネットワークモデルを提案し,そのアーキテクチャの有効性を示す。 openpackはセンサによるアクション/アクティビティ認識のコミュニティに貢献すると思います。 openpack datasetはhttps://open-pack.github.io/で入手できる。

Unlike human daily activities, existing publicly available sensor datasets for work activity recognition in industrial domains are limited by difficulties in collecting realistic data as close collaboration with industrial sites is required. This also limits research on and development of AI methods for industrial applications. To address these challenges and contribute to research on machine recognition of work activities in industrial domains, in this study, we introduce a new large-scale dataset for packaging work recognition called OpenPack. OpenPack contains 53.8 hours of multimodal sensor data, including keypoints, depth images, acceleration data, and readings from IoT-enabled devices (e.g., handheld barcode scanners used in work procedures), collected from 16 distinct subjects with different levels of packaging work experience. On the basis of this dataset, we propose a neural network model designed to recognize work activities, which efficiently fuses sensor data and readings from IoT-enabled devices by processing them within different streams in a ladder-shaped architecture, and the experiment showed the effectiveness of the architecture. We believe that OpenPack will contribute to the community of action/activity recognition with sensors. OpenPack dataset is available at https://open-pack.github.io/.
翻訳日:2022-12-25 03:02:12 公開日:2022-12-10
# 空間一般化性向上のためのタスク適応型メタラーニングフレームワーク

Task-Adaptive Meta-Learning Framework for Advancing Spatial Generalizability ( http://arxiv.org/abs/2212.06864v1 )

ライセンス: Link先を確認
Zhexiong Liu, Licheng Liu, Yiqun Xie, Zhenong Jin, Xiaowei Jia(参考訳) 時空間機械学習は、農業のモニタリング、水文予測、交通管理など、様々な社会的な応用に必要不可欠である。 これらの応用は空間的・時間的差異を特徴付ける地域的特徴に大きく依存している。 しかしながら、時空間データはしばしば複雑であり、機械学習モデルにいくつかのユニークな課題をもたらす。 1)異なる場所にわたる空間的不均一性を有する地域データパターンを扱うためには,複数のモデルが必要である。 2 地域特化データに基づいて訓練した地域モデルは、大きな多様性及び異常を有する地域に適応する能力に限界がある。 3) より堅牢で適応的なモデルを必要とする空間的・時間的変動データ複雑度 4) 実シナリオにおける限られた時空間データ(例えば、収穫量は年に1回しか収集されない)は、本質的な問題を引き起こす。 これらのギャップを埋めるため,我々は,局所的に異種なデータを位置に敏感なメタタスクにまとめる,タスク適応型定式化とモデル非依存なメタ学習フレームワークを提案する。 我々は、異なるメタモデルが異なる難易度の高いタスクに適応する簡単なタスク階層に従ってタスク適応を行う。 提案手法の1つの大きな利点は、多種多様なタスクへのモデル適応を改善することである。 また、対応する難易度のメタモデルを新しいタスクに自動的に適応させることで、モデルの一般化を強化する。 我々は,様々なベースラインと最先端のメタ学習フレームワークに対して,提案フレームワークが優れていることを示す。 実収量データに関する広範な実験により,実社会における空間的不均質なタスクの処理における提案手法の有効性が示された。

Spatio-temporal machine learning is critically needed for a variety of societal applications, such as agricultural monitoring, hydrological forecast, and traffic management. These applications greatly rely on regional features that characterize spatial and temporal differences. However, spatio-temporal data are often complex and pose several unique challenges for machine learning models: 1) multiple models are needed to handle region-based data patterns that have significant spatial heterogeneity across different locations; 2) local models trained on region-specific data have limited ability to adapt to other regions that have large diversity and abnormality; 3) spatial and temporal variations entangle data complexity that requires more robust and adaptive models; 4) limited spatial-temporal data in real scenarios (e.g., crop yield data is collected only once a year) makes the problems intrinsically challenging. To bridge these gaps, we propose task-adaptive formulations and a model-agnostic meta-learning framework that ensembles regionally heterogeneous data into location-sensitive meta tasks. We conduct task adaptation following an easy-to-hard task hierarchy in which different meta models are adapted to tasks of different difficulty levels. One major advantage of our proposed method is that it improves the model adaptation to a large number of heterogeneous tasks. It also enhances the model generalization by automatically adapting the meta model of the corresponding difficulty level to any new tasks. We demonstrate the superiority of our proposed framework over a diverse set of baselines and state-of-the-art meta-learning frameworks. Our extensive experiments on real crop yield data show the effectiveness of the proposed method in handling spatial-related heterogeneous tasks in real societal applications.
翻訳日:2022-12-15 14:27:14 公開日:2022-12-10
# 情報理論を用いた目的関数の選択法

How to select an objective function using information theory ( http://arxiv.org/abs/2212.06566v1 )

ライセンス: Link先を確認
Timothy O. Hodson, Thomas M. Over, Tyler J. Smith, Lucy M. Marshall(参考訳) 科学テスト 観測経験に対する予測の類似性を評価することによって、競合する理論やモデルをテストする。 したがって、どのように類似度を測定するかは、学習するものを根本的に決定する。 機械学習や科学モデリングでは、類似度メトリクスが目的関数として用いられる。 古典的な例は平均二乗誤差であり、これはエラーが通常分散され、独立で、同一に分散(iid)されるときの類似性の最適測度である。 しかし、多くの場合、誤差分布は正常でもiidでもないため、適切な目的を決定するために科学者に委ねられている。 本稿では,情報理論がその選択を導出する方法を概観し,簡単な水理モデルを用いてそのアプローチを実証する。

Science tests competing theories or models by evaluating the similarity of their predictions against observational experience. Thus, how we measure similarity fundamentally determines what we learn. In machine learning and scientific modeling, similarity metrics are used as objective functions. A classic example being mean squared error, which is the optimal measure of similarity when errors are normally distributed and independent and identically distributed (iid). In many cases, however, the error distribution is neither normal nor iid, so it is left to the scientist to determine an appropriate objective. Here, we review how information theory can guide that selection, then demonstrate the approach with a simple hydrologic model.
翻訳日:2022-12-14 15:13:49 公開日:2022-12-10
# 動的混合を用いた交通予報のための時空間残差正規化

Spatiotemporal Residual Regularization with Dynamic Mixtures for Traffic Forecasting ( http://arxiv.org/abs/2212.06653v1 )

ライセンス: Link先を確認
Seongjin Choi, Nicolas Saunier, Martin Trepanier, Lijun Sun(参考訳) 既存のディープラーニングベースのトラフィック予測モデルは、mse(あるいはmae)を損失関数としてトレーニングされ、残差/エラーは単純さのために独立かつ等方的なガウス分布(あるいはラプラシアン)に従うと仮定される。 しかし、この仮定は、説明されていない残差が空間と時間の両方で相関する実世界の交通予測タスクにはほとんど当てはまらない。 本研究では, 学習可能な時空間共分散行列を持つゼロ平均ガウス分布の動的(例えば, 時変)混合残差をモデル化し, 時空間残差正規化を提案する。 このアプローチにより、時空間的に相関した残差を直接捉えることができる。 スケーラビリティのために、クロネッカー積構造を用いて各混合成分の時空間共分散をモデル化し、パラメータ数と計算複雑性を大幅に削減する。 交通速度予測タスクにおける提案手法の性能評価を行った。 提案手法は,残差分布を適切にモデル化することにより,モデル性能の向上だけでなく,解釈可能な構造も提供することを示す。

Existing deep learning-based traffic forecasting models are mainly trained with MSE (or MAE) as the loss function, assuming that residuals/errors follow independent and isotropic Gaussian (or Laplacian) distribution for simplicity. However, this assumption rarely holds for real-world traffic forecasting tasks, where the unexplained residuals are often correlated in both space and time. In this study, we propose Spatiotemporal Residual Regularization by modeling residuals with a dynamic (e.g., time-varying) mixture of zero-mean multivariate Gaussian distribution with learnable spatiotemporal covariance matrices. This approach allows us to directly capture spatiotemporally correlated residuals. For scalability, we model the spatiotemporal covariance for each mixture component using a Kronecker product structure, which significantly reduces the number of parameters and computation complexity. We evaluate the performance of the proposed method on a traffic speed forecasting task. Our results show that, by properly modeling residual distribution, the proposed method not only improves the model performance but also provides interpretable structures.
翻訳日:2022-12-14 15:13:12 公開日:2022-12-10
# camoformer:camouflaged object detectionのためのマスク付き分離注意

CamoFormer: Masked Separable Attention for Camouflaged Object Detection ( http://arxiv.org/abs/2212.06570v1 )

ライセンス: Link先を確認
Bowen Yin and Xuying Zhang and Qibin Hou and Bo-Yuan Sun and Deng-Ping Fan and Luc Van Gool(参考訳) 背景から迷彩された物体を識別し分割する方法は難しい。 トランスフォーマーのマルチヘッド自己注意にインスパイアされ,カモフラージュされた物体検出のための単純なマスク付き分離注意(MSA)を提示する。 まず,マルチヘッド・セルフアテンションを3つの部分に分け,異なるマスク戦略を用いてカモフラージュされた物体を背景から区別する。 さらに,提案するMSAを用いた単純なトップダウンデコーダに基づいて,高分解能な意味表現を段階的にキャプチャし,正確なセグメンテーション結果を得る。 これらの構造とバックボーンエンコーダは、camoformerと呼ばれる新しいモデルを形成する。 大規模な実験により、CamoFormerは3つの広く使われているCamouflagedオブジェクト検出ベンチマークで、最先端のすべてのメソッドを上回りました。 S測度と重み付きF測度では, 従来法に比べて5%程度改善されている。

How to identify and segment camouflaged objects from the background is challenging. Inspired by the multi-head self-attention in Transformers, we present a simple masked separable attention (MSA) for camouflaged object detection. We first separate the multi-head self-attention into three parts, which are responsible for distinguishing the camouflaged objects from the background using different mask strategies. Furthermore, we propose to capture high-resolution semantic representations progressively based on a simple top-down decoder with the proposed MSA to attain precise segmentation results. These structures plus a backbone encoder form a new model, dubbed CamoFormer. Extensive experiments show that CamoFormer surpasses all existing state-of-the-art methods on three widely-used camouflaged object detection benchmarks. There are on average around 5% relative improvements over previous methods in terms of S-measure and weighted F-measure.
翻訳日:2022-12-14 14:56:27 公開日:2022-12-10
# 再解析データを用いた熱帯サイクロンの予測

Forecasting formation of a Tropical Cyclone Using Reanalysis Data ( http://arxiv.org/abs/2212.06149v1 )

ライセンス: Link先を確認
Sandeep Kumar, Koushik Biswas, Ashish Kumar Pandey(参考訳) 熱帯サイクロン形成過程は、時間と空間によって異なる様々な大気、海洋、地理的要因によって制御される最も複雑な自然現象の1つである。 数年の研究にもかかわらず、熱帯サイクロンの形成を正確に予測することは難しい課題である。 既存の数値モデルには固有の制限があるが、機械学習モデルはtc形成の背後にある因果要因の空間的および時間的次元を捉えることができない。 本研究では,60時間までのリードタイムを有する熱帯サイクロンの形成を高精度に予測する深層学習モデルを提案する。 このモデルは、高分解能リアナリシスデータERA5(ECMWFリアナリシス第5世代)と最良トラックデータIBTrACS(International Best Track Archive for Climate Stewardship)を用いて、世界の6つの海盆における熱帯サイクロンの形成を予測する。 60時間リードタイムの間、モデルは6つの海盆の86.9%から92.9%の範囲で精度を達成している。 モデルは、海盆に応じて約5~15分間のトレーニング時間と、使用されるデータ量と数秒以内に予測できるため、実際の使用に適している。

The tropical cyclone formation process is one of the most complex natural phenomena which is governed by various atmospheric, oceanographic, and geographic factors that varies with time and space. Despite several years of research, accurately predicting tropical cyclone formation remains a challenging task. While the existing numerical models have inherent limitations, the machine learning models fail to capture the spatial and temporal dimensions of the causal factors behind TC formation. In this study, a deep learning model has been proposed that can forecast the formation of a tropical cyclone with a lead time of up to 60 hours with high accuracy. The model uses the high-resolution reanalysis data ERA5 (ECMWF reanalysis 5th generation), and best track data IBTrACS (International Best Track Archive for Climate Stewardship) to forecast tropical cyclone formation in six ocean basins of the world. For 60 hours lead time the models achieve an accuracy in the range of 86.9% - 92.9% across the six ocean basins. The model takes about 5-15 minutes of training time depending on the ocean basin, and the amount of data used and can predict within seconds, thereby making it suitable for real-life usage.
翻訳日:2022-12-14 13:27:25 公開日:2022-12-10
# 宇宙応用における人工知能の潮流

Selected Trends in Artificial Intelligence for Space Applications ( http://arxiv.org/abs/2212.06662v1 )

ライセンス: Link先を確認
Dario Izzo, Gabriele Meoni, Pablo G\'omez, Domink Dold, Alexander Zoechbauer(参考訳) 宇宙アプリケーションにおける人工知能(AI)技術の開発と採用は、導入される潜在的な利益に対するコンセンサスの増加とともに急速に増加している。 航空宇宙エンジニアがaiの新しいトレンドに気付くにつれ、従来のアプローチは新たなai技術の応用を考えるために再検討されている。 執筆時点では、学術、航空宇宙産業、宇宙機関にまたがるAI関連の活動の範囲は広く、詳細なレビューはこれらのページに収まらない。 この章では、この分野で最も重要でエキサイティングな活動である、差別化可能なインテリジェンスとオンボード機械学習の2つの主要なトレンドに焦点を当てます。 微分インテリジェンス(diffariable intelligence)とは、機械学習や関連するモデルのパラメータを学習するために、自動微分フレームワークを広範囲に活用する作業を指す。 オンボード機械学習は、学習だけでなく推論の移動の問題も考慮している。 これらの分野では、欧州宇宙機関(ESA)のAdvanced Concepts Team(ACT)から選ばれたいくつかのプロジェクトについて議論し、確立したAI技術やプラクティスの宇宙領域への転換を超えて、先進的なトピックを優先する。

The development and adoption of artificial intelligence (AI) technologies in space applications is growing quickly as the consensus increases on the potential benefits introduced. As more and more aerospace engineers are becoming aware of new trends in AI, traditional approaches are revisited to consider the applications of emerging AI technologies. Already at the time of writing, the scope of AI-related activities across academia, the aerospace industry and space agencies is so wide that an in-depth review would not fit in these pages. In this chapter we focus instead on two main emerging trends we believe capture the most relevant and exciting activities in the field: differentiable intelligence and on-board machine learning. Differentiable intelligence, in a nutshell, refers to works making extensive use of automatic differentiation frameworks to learn the parameters of machine learning or related models. Onboard machine learning considers the problem of moving inference, as well as learning, onboard. Within these fields, we discuss a few selected projects originating from the European Space Agency's (ESA) Advanced Concepts Team (ACT), giving priority to advanced topics going beyond the transposition of established AI techniques and practices to the space domain.
翻訳日:2022-12-14 13:17:05 公開日:2022-12-10
# ロバストicp初期化へのアプローチ

An approach to robust ICP initialization ( http://arxiv.org/abs/2212.05332v1 )

ライセンス: Link先を確認
Alexander Kolpakov, Michael Werman(参考訳) 本稿では,厳密な変換によって関連づけられた未ラベルの点雲にICPを適用することができる反復クローズトポイント(ICP)アルゴリズムを初期化する手法を提案する。 ノイズに対する我々のアプローチの堅牢性にも限界がある。 数値実験により理論的な結果が確認された。

In this note, we propose an approach for initializing the Iterative Closest Point (ICP) algorithm that allows us to apply ICP to unlabelled point clouds that are related by rigid transformations. We also give bounds on the robustness of our approach to noise. Numerical experiments confirm our theoretical findings.
翻訳日:2022-12-13 18:35:31 公開日:2022-12-10
# 逆モード自動微分のための最適スパース行列演算

Optimized Sparse Matrix Operations for Reverse Mode Automatic Differentiation ( http://arxiv.org/abs/2212.05159v1 )

ライセンス: Link先を確認
Nicolas Nytko, Ali Taghibakhshi, Tareq Uz Zaman, Scott MacLachlan, Luke N. Olson, Matt West(参考訳) スパース行列表現は計算科学や機械学習においてユビキタスであり、局所接続性のある問題に対する密度表現と比較して計算時間を大幅に削減する。 しかし、PyTorchのような主要なMLフレームワークにおけるスパース表現の採用は不完全であり、自動微分とGPUアクセラレーションの両方が欠如している。 本稿では,PyTorch 用 CSR ベースのスパース行列ラッパーの実装と基本行列演算のためのCUDA アクセラレーション,および自動微分可能性について述べる。 また,結果のスパースカーネルを最適化に応用し,実装や性能測定の容易さを高密度カーネルと比較した。

Sparse matrix representations are ubiquitous in computational science and machine learning, leading to significant reductions in compute time, in comparison to dense representation, for problems that have local connectivity. The adoption of sparse representation in leading ML frameworks such as PyTorch is incomplete, however, with support for both automatic differentiation and GPU acceleration missing. In this work, we present an implementation of a CSR-based sparse matrix wrapper for PyTorch with CUDA acceleration for basic matrix operations, as well as automatic differentiability. We also present several applications of the resulting sparse kernels to optimization problems, demonstrating ease of implementation and performance measurements versus their dense counterparts.
翻訳日:2022-12-13 18:34:02 公開日:2022-12-10
# TF-IDF変換法による単一細胞クロマチン分析における情報検索

Information retrieval in single cell chromatin analysis using TF-IDF transformation methods ( http://arxiv.org/abs/2212.05184v1 )

ライセンス: Link先を確認
Mehrdad Zandigohar and Yang Dai(参考訳) トランスポサーゼアクセシブルクロマチン(scATAC-seq)の単細胞シークエンシングアッセイは、数千の細胞においてゲノムワイドクロマチンアクセシビリティを評価し、高解像度で制御された景観を明らかにする。 しかし,この解析では,データの高次元化とスパース性が問題となっている。 項周波数逆文書周波数(TF-IDF)の変換技術、特異値分解(SVD)や因子分析、オートエンコーダなど、いくつかの手法が開発されている。 しかし、上記の方法に関する総合的な研究は行われていない。 scATAC-seqデータを解析する際のベストプラクティスは明らかではない。 SVDに基づく特徴解析と変換・次元縮小のシナリオを比較し,SCATAC-seq情報検索の潜在的な拡張について検討した。 さらに、TF-IDF変換によるオートエンコーダの利点についても検討する。 その結果,TF-IDF変換は一般にクラスタリングの改善と生物学的に関連する特徴抽出につながることがわかった。

Single-cell sequencing assay for transposase-accessible chromatin (scATAC-seq) assesses genome-wide chromatin accessibility in thousands of cells to reveal regulatory landscapes in high resolutions. However, the analysis presents challenges due to the high dimensionality and sparsity of the data. Several methods have been developed, including transformation techniques of term-frequency inverse-document frequency (TF-IDF), dimension reduction methods such as singular value decomposition (SVD), factor analysis, and autoencoders. Yet, a comprehensive study on the mentioned methods has not been fully performed. It is not clear what is the best practice when analyzing scATAC-seq data. We compared several scenarios for transformation and dimension reduction as well as the SVD-based feature analysis to investigate potential enhancements in scATAC-seq information retrieval. Additionally, we investigate if autoencoders benefit from the TF-IDF transformation. Our results reveal that the TF-IDF transformation generally leads to improved clustering and biologically relevant feature extraction.
翻訳日:2022-12-13 18:33:49 公開日:2022-12-10
# エンコーダ・デコーダ構造ネットワークを用いた信号時間論理仕様のニューラルコントローラ合成

Neural Controller Synthesis for Signal Temporal Logic Specifications Using Encoder-Decoder Structured Networks ( http://arxiv.org/abs/2212.05200v1 )

ライセンス: Link先を確認
Wataru Hashimoto, Kazumune Hashimoto, Masako Kishida, and Shigemasa Takai(参考訳) 本稿では,ニューラルネットワーク(nns)を用いた信号時相論理(stl)仕様の制御合成手法を提案する。 以前の作業の多くは、特定のSTL仕様のみに対するコントローラのトレーニングを検討中である。 しかし、これらのアプローチでは、新しい仕様が生まれて満足する必要がある場合、NNコントローラを再トレーニングする必要がある。 この問題に対処するために,注意機構を備えたエンコーダデコーダ構造NNを導入し,NNコントローラを構築することを提案する。 エンコーダはstlの公式を入力として適切なベクトルに符号化し、デコーダは所定の仕様を満たす制御信号を出力する。 エンコーダとして,シーケンシャル,ツリー構造,グラフ構造nnの3つのnn構造を考える。 すべてのモデルパラメータはエンドツーエンドでトレーニングされ、stl公式の定量的意味論として知られる期待された堅牢性を最大化します。 提案手法の有効性を示すため,経路計画問題の数値実験により,上記NN構造による制御性能の比較を行った。

In this paper, we propose a control synthesis method for signal temporal logic (STL) specifications with neural networks (NNs). Most of the previous works consider training a controller for only a given STL specification. These approaches, however, require retraining the NN controller if a new specification arises and needs to be satisfied, which results in large consumption of memory and inefficient training. To tackle this problem, we propose to construct NN controllers by introducing encoder-decoder structured NNs with an attention mechanism. The encoder takes an STL formula as input and encodes it into an appropriate vector, and the decoder outputs control signals that will meet the given specification. As the encoder, we consider three NN structures: sequential, tree-structured, and graph-structured NNs. All the model parameters are trained in an end-to-end manner to maximize the expected robustness that is known to be a quantitative semantics of STL formulae. We compare the control performances attained by the above NN structures through a numerical experiment of the path planning problem, showing the efficacy of the proposed approach.
翻訳日:2022-12-13 18:33:29 公開日:2022-12-10
# 生存分析におけるスコアリングルール

Scoring rules in survival analysis ( http://arxiv.org/abs/2212.05260v1 )

ライセンス: Link先を確認
Raphael Sonabend(参考訳) Scoring rules promote rational and good decision making and predictions by models, this is increasingly important for automated procedure of ‘auto-ML'。 ブライアスコアとログロスは分類と回帰のための確立されたスコアルールであり、最適予測を促進する「限定的適切性」特性を持っている。 本稿では,サバイバル分析のためのスコアリングルールを提案し,サバイバルスコアリングルールの「(限定)適性」を初めて明確に定義し,どの損失が適切で不適切であるかを判定する。 適切に主張される一般的なスコアリングルールは、実際には不適切であることを示す。 厳密な仮定の下では、スコアリングルールのクラスは、私たちが「ほぼ」生存損失と呼ぶものに対して厳密に適切であることをさらに証明する。 これらの知見が生存モデルの堅牢な検証のさらなる研究を促し、正直な評価を促進することを願っている。

Scoring rules promote rational and good decision making and predictions by models, this is increasingly important for automated procedures of `auto-ML'. The Brier score and Log loss are well-established scoring rules for classification and regression and possess the `strict properness' property that encourages optimal predictions. In this paper we survey proposed scoring rules for survival analysis, establish the first clear definition of `(strict) properness' for survival scoring rules, and determine which losses are proper and improper. We prove that commonly utilised scoring rules that are claimed to be proper are in fact improper. We further prove that under a strict set of assumptions a class of scoring rules is strictly proper for, what we term, `approximate' survival losses. We hope these findings encourage further research into robust validation of survival models and promote honest evaluation.
翻訳日:2022-12-13 18:33:12 公開日:2022-12-10
# 回折光ネットワークを用いたスナップショットマルチスペクトルイメージング

Snapshot Multispectral Imaging Using a Diffractive Optical Network ( http://arxiv.org/abs/2212.05217v1 )

ライセンス: Link先を確認
Deniz Mengu, Anika Tabassum, Mona Jarrahi, Aydogan Ozcan(参考訳) マルチスペクトルイメージングは、環境モニタリング、航空宇宙、防衛、バイオメディシンなどの多くの用途に用いられている。 本稿では,ディープラーニングを用いた拡散型光ネットワークベースのマルチスペクトルイメージングシステムを用いて,出力画像フィールドオブビューに仮想スペクトルフィルタアレイを作成する。 この拡散型マルチスペクトル撮像装置は、大きなスペクトルにわたって空間的にコヒーレントな撮像を行い、同時に、予め決定されたスペクトルチャネルのセットを出力平面の画素の配列にルーティングし、モノクロ焦点平面アレイまたは画像センサを、スペクトルフィルタや画像回復アルゴリズムなしでマルチスペクトル撮像装置に変換する。 さらに、この回折多重スペクトル像のスペクトル応答性は入力偏光状態に敏感ではない。 数値シミュレーションにより,可視光スペクトル中の4,9,16個のスペクトル帯を,受動空間構造を持つ回折面をベースとし,スペクトル帯の平均波長の約72倍の波長で撮影可能な,異なる回折ネットワーク設計を提案する。 さらに,その出力画像面に2×2=4個の独自の帯域を持つ仮想スペクトルフィルタアレイを作成した3次元プリント型回折ネットワークに基づく回折多重スペクトル像器を実験的に実験した。 コンパクトなフォームファクターと計算の自由、電力効率、偏光非感受性の前方演算のため、ディフューティブマルチスペクトル撮像器は様々な撮像・センシング用途に変換可能であり、高密度で広帯域のマルチスペクトル画素アレイが広く利用できない電磁スペクトルの異なる部分で使用できる。

Multispectral imaging has been used for numerous applications in e.g., environmental monitoring, aerospace, defense, and biomedicine. Here, we present a diffractive optical network-based multispectral imaging system trained using deep learning to create a virtual spectral filter array at the output image field-of-view. This diffractive multispectral imager performs spatially-coherent imaging over a large spectrum, and at the same time, routes a pre-determined set of spectral channels onto an array of pixels at the output plane, converting a monochrome focal plane array or image sensor into a multispectral imaging device without any spectral filters or image recovery algorithms. Furthermore, the spectral responsivity of this diffractive multispectral imager is not sensitive to input polarization states. Through numerical simulations, we present different diffractive network designs that achieve snapshot multispectral imaging with 4, 9 and 16 unique spectral bands within the visible spectrum, based on passive spatially-structured diffractive surfaces, with a compact design that axially spans ~72 times the mean wavelength of the spectral band of interest. Moreover, we experimentally demonstrate a diffractive multispectral imager based on a 3D-printed diffractive network that creates at its output image plane a spatially-repeating virtual spectral filter array with 2x2=4 unique bands at terahertz spectrum. Due to their compact form factor and computation-free, power-efficient and polarization-insensitive forward operation, diffractive multispectral imagers can be transformative for various imaging and sensing applications and be used at different parts of the electromagnetic spectrum where high-density and wide-area multispectral pixel arrays are not widely available.
翻訳日:2022-12-13 18:24:27 公開日:2022-12-10
# 強化学習による音声視覚音声認識のためのモダリティ特化表現の活用

Leveraging Modality-specific Representations for Audio-visual Speech Recognition via Reinforcement Learning ( http://arxiv.org/abs/2212.05301v1 )

ライセンス: Link先を確認
Chen Chen, Yuchen Hu, Qiang Zhang, Heqing Zou, Beier Zhu, and Eng Siong Chng(参考訳) 音声-視覚音声認識(AVSR)は,音声認識のノイズ・ロバスト性の向上に成功している。 メインストリーム法は、モダリティ不変表現を得るために、音声と視覚入力の融合に焦点を当てる。 しかし、このような表現は、クリーンな環境ではビデオモダリティよりも認識しやすいため、オーディオモダリティに過度に依存しがちである。 その結果、AVSRモデルではノイズの破損に直面した場合の視覚的ストリームの重要性を過小評価している。 この目的のために,視覚様相特異的表現を用いて,avsrタスクに安定した補完情報を提供する。 具体的には,エージェントが動的にモダリティ不変およびモダリティ固有表現を自己回帰復号プロセスで調和させる,msrlと呼ばれる強化学習(rl)ベースのフレームワークを提案する。 タスク固有のメトリクス(ワードエラー率)に直接関連する報酬関数をカスタマイズし、MSRLが最適な統合戦略を効果的に探求することを奨励する。 lrs3データセットにおける実験結果から,提案手法はクリーン条件と各種雑音条件の両方において最先端の手法であることがわかった。 さらに,テストセットが目に見えない雑音を含む場合,MSRLシステムの他のベースラインよりも汎用性が高いことを示す。

Audio-visual speech recognition (AVSR) has gained remarkable success for ameliorating the noise-robustness of speech recognition. Mainstream methods focus on fusing audio and visual inputs to obtain modality-invariant representations. However, such representations are prone to over-reliance on audio modality as it is much easier to recognize than video modality in clean conditions. As a result, the AVSR model underestimates the importance of visual stream in face of noise corruption. To this end, we leverage visual modality-specific representations to provide stable complementary information for the AVSR task. Specifically, we propose a reinforcement learning (RL) based framework called MSRL, where the agent dynamically harmonizes modality-invariant and modality-specific representations in the auto-regressive decoding process. We customize a reward function directly related to task-specific metrics (i.e., word error rate), which encourages the MSRL to effectively explore the optimal integration strategy. Experimental results on the LRS3 dataset show that the proposed method achieves state-of-the-art in both clean and various noisy conditions. Furthermore, we demonstrate the better generality of MSRL system than other baselines when test set contains unseen noises.
翻訳日:2022-12-13 18:23:59 公開日:2022-12-10
# Acela: 予測可能なデータセンタレベルのメンテナンスジョブスケジューリング

Acela: Predictable Datacenter-level Maintenance Job Scheduling ( http://arxiv.org/abs/2212.05155v1 )

ライセンス: Link先を確認
Yi Ding, Aijia Gao, Thibaud Ryden, Kaushik Mitra, Sukumar Kalmanje, Yanai Golany, Michael Carbin, Henry Hoffmann(参考訳) データセンターオペレータは、メンテナンスジョブを厳格な時間予算で完了するようにスケジュールするために自動化プロセスを使用することで、公平で定期的なサーバメンテナンスを保証する。 このスケジューリング問題の自動化は、ジョブタイプとハードウェアの両方でメンテナンスの時間が異なるため、難しい。 従来の機械学習技術を用いて作業期間を予測する傾向にあるが、メンテナンスジョブスケジューリング問題の構造がユニークな課題を生んでいることが分かる。 特に、最も低い誤差予測を生成する事前機械学習手法は、非対称なコストのために最適なスケジューリング結果を生み出しないことを示す。 具体的には、メンテナンスの作業時間の過小評価は、メンテナンスの作業時間の過大評価よりも、オフラインでサーバのダウンタイムが長くなります。 過小評価のシステムコストは過小評価のシステムコストよりもはるかに大きい。 本稿では,維持作業期間を予測する機械学習システムであるAcelaについて紹介する。 Acelaをメンテナンスジョブスケジューラに統合し、大規模な運用データセンタのデータセット上で評価します。 機械学習ベースの予測器と比較して、Acelaはオフラインのサーバ数を1.87-4.28Xに減らし、サーバのオフライン時間を1.40-2.80Xに減らした。

Datacenter operators ensure fair and regular server maintenance by using automated processes to schedule maintenance jobs to complete within a strict time budget. Automating this scheduling problem is challenging because maintenance job duration varies based on both job type and hardware. While it is tempting to use prior machine learning techniques for predicting job duration, we find that the structure of the maintenance job scheduling problem creates a unique challenge. In particular, we show that prior machine learning methods that produce the lowest error predictions do not produce the best scheduling outcomes due to asymmetric costs. Specifically, underpredicting maintenance job duration has results in more servers being taken offline and longer server downtime than overpredicting maintenance job duration. The system cost of underprediction is much larger than that of overprediction. We present Acela, a machine learning system for predicting maintenance job duration, which uses quantile regression to bias duration predictions toward overprediction. We integrate Acela into a maintenance job scheduler and evaluate it on datasets from large-scale, production datacenters. Compared to machine learning based predictors from prior work, Acela reduces the number of servers that are taken offline by 1.87-4.28X, and reduces the server offline time by 1.40-2.80X.
翻訳日:2022-12-13 18:07:39 公開日:2022-12-10
# 位相、モーダリティ、時間的および空間的局所性:グラフ分析の高速化のためのドメイン固有mlプリフェッチャー

Phases, Modalities, Temporal and Spatial Locality: Domain Specific ML Prefetcher for Accelerating Graph Analytics ( http://arxiv.org/abs/2212.05250v1 )

ライセンス: Link先を確認
Pengmiao Zhang, Rajgopal Kannan, Viktor K. Prasanna(参考訳) グラフ処理アプリケーションは、低データの再利用と不規則なメモリアクセスのため、メモリシステムの性能が著しく低下する。 機械学習(ML)を用いた最先端のプリフェッチは大きな進歩を遂げているが、実行中のフェーズ遷移と予測が難しい不規則なデータアクセスのため、グラフ分析アプリケーションではうまく機能しない。 グラフ分析のためのMLベースの新しいPrefetcherであるMPGraphを提案する。 mpgraphは、グラフ分析のドメイン知識に基づいて、3つの新しい最適化を行います。 新たなソフト検出技術を用いて実行中のグラフ処理フェーズの遷移を検出し、位相特異的な多モード予測器を用いてメモリアクセスとページを予測し、新しいチェーン時空間プリフェッチ戦略を用いてプレフェッチを行う。 我々は3つの広く使われているグラフ処理フレームワークと様々なグラフデータセットを用いてアプローチを評価する。 提案手法はKSWINと決定木ベースラインよりも34.17%-82.15%高い位相遷移検出精度を実現する。 我々の予測器はアクセス予測のF1スコアが6.80%-16.02%、ページ予測の精度が11.68%-15.41%である。 シミュレーションの結果、mpgraphは平均87.16%(プリフェッチ精度)と73.29%(プリフェッチカバレッジ)を達成し、12.52%-21.23%のipc改善をもたらした。 広く使われている非MLプレファーBOの7.58%-12.03%、最先端のMLベースのプレフェッチ・ボイジャーの3.27%-4.42%、トランスフェッチの3.73%-4.58%を上回っている。

Graph processing applications are severely bottlenecked by memory system performance due to low data reuse and irregular memory accesses. While state-of-the-art prefetchers using Machine Learning (ML) have made great progress, they do not perform well on graph analytics applications due to phase transitions in the execution and irregular data access that is hard to predict. We propose MPGraph: a novel ML-based Prefetcher for Graph analytics. MPGraph makes three novel optimizations based on domain knowledge of graph analytics. It detects the transition of graph processing phases during execution using a novel soft detection technique, predicts memory accesses and pages using phase-specific multi-modality predictors, and prefetches using a novel chain spatio-temporal prefetching strategy. We evaluate our approach using three widely-used graph processing frameworks and a variety of graph datasets. Our approach achieves 34.17%-82.15% higher precision in phase transition detection than the KSWIN and decision tree baselines. Our predictors achieve 6.80%-16.02% higher F1-score for access prediction and 11.68%-15.41% higher accuracy-at-10 for page prediction compared with the baselines LSTM-based and vanilla attention-based models. Simulations show that MPGraph achieves on the average 87.16% (prefetch accuracy) and 73.29% (prefetch coverage), leading to 12.52%-21.23% IPC improvement. It outperforms the widely-used non-ML prefetcher BO by 7.58%-12.03%, and outperforms state-of-the-art ML-based prefetchers Voyager by 3.27%-4.42% and TransFetch by 3.73%-4.58% with respect to IPC improvement.
翻訳日:2022-12-13 18:07:18 公開日:2022-12-10
# ノイズストリーミングデータからの動的システムのオンラインリアルタイム学習

Online Real-time Learning of Dynamical Systems from Noisy Streaming Data ( http://arxiv.org/abs/2212.05259v1 )

ライセンス: Link先を確認
S. Sinha, Sai P. Nandanoori, David Barajas-Solano(参考訳) 近年のセンシングと通信の進歩は、電力ネットワーク、気候システム、生物学的ネットワークなど様々な物理システムから高周波リアルタイムデータを得るのに役立っている。 しかし、データは物理センサによって記録されるため、測定ノイズによって取得されたデータが破損することが自然である。 本稿では,ノイズの低減にロバストなkoopman演算子を用いた時系列データから動的システムのオンラインリアルタイム学習を行うための新しいアルゴリズムを提案する。 提案アルゴリズムには3つの利点がある。 a) 動的システムのオンラインリアルタイム監視を可能にする。 b) 基礎となる力学系の線形表現を得ることにより,ユーザがシステムの解析及び制御のために線形系理論を利用することができる。 c) 一般的な拡張動的モード分解(EDMD)アルゴリズムよりも計算速度が速く、集中度も低い。 本稿では,Van der Pol発振器,IEEE 68バスシステム,およびVan der Pol発振器のリングネットワークを同定するために提案アルゴリズムの有効性について述べる。

Recent advancements in sensing and communication facilitate obtaining high-frequency real-time data from various physical systems like power networks, climate systems, biological networks, etc. However, since the data are recorded by physical sensors, it is natural that the obtained data is corrupted by measurement noise. In this paper, we present a novel algorithm for online real-time learning of dynamical systems from noisy time-series data, which employs the Robust Koopman operator framework to mitigate the effect of measurement noise. The proposed algorithm has three main advantages: a) it allows for online real-time monitoring of a dynamical system; b) it obtains a linear representation of the underlying dynamical system, thus enabling the user to use linear systems theory for analysis and control of the system; c) it is computationally fast and less intensive than the popular Extended Dynamic Mode Decomposition (EDMD) algorithm. We illustrate the efficiency of the proposed algorithm by applying it to identify the Van der Pol oscillator, the IEEE 68 bus system, and a ring network of Van der Pol oscillators.
翻訳日:2022-12-13 18:06:44 公開日:2022-12-10
# NeuS2:多視点再構成のためのニューラルネットワーク表面の高速学習

NeuS2: Fast Learning of Neural Implicit Surfaces for Multi-view Reconstruction ( http://arxiv.org/abs/2212.05231v1 )

ライセンス: Link先を確認
Yiming Wang, Qin Han, Marc Habermann, Kostas Daniilidis, Christian Theobalt, Lingjie Liu(参考訳) 最近のニューラルサーフェス表現とレンダリングの手法、例えばneusは、静的なシーンの極めて高品質な再構成を示している。 しかし、NeuSのトレーニングには非常に時間がかかる(8時間)ため、数千フレームのダイナミックなシーンに適用することはほとんど不可能である。 そこで本研究では, 高速神経表面再構成法であるneus2を提案し, 再構成品質を損なうことなく2桁の高速化を実現する。 トレーニングプロセスの高速化を目的として,ニューラルネットワーク表現にマルチレゾリューションハッシュエンコーディングを統合し,CUDAにアルゴリズム全体を実装した。 また,ネットワークに適した2次導関数(すなわちreluベースのmlp)を軽量に計算し,2倍の高速化を実現する。 さらにトレーニングを安定させるために,多解像度ハッシュエンコーディングを粗い値から細かい値に最適化するプログレッシブラーニング戦略を提案する。 さらに,インクリメンタルトレーニング戦略を用いて動的シーンを再構築する手法を拡張した。 種々のデータセットに対する実験により、NeuS2は表面再構成精度とトレーニング速度の両方において、最先端の技術を著しく上回っていることが示された。 ビデオはhttps://vcai.mpi-inf.mpg.de/projects/neus2/。

Recent methods for neural surface representation and rendering, for example NeuS, have demonstrated remarkably high-quality reconstruction of static scenes. However, the training of NeuS takes an extremely long time (8 hours), which makes it almost impossible to apply them to dynamic scenes with thousands of frames. We propose a fast neural surface reconstruction approach, called NeuS2, which achieves two orders of magnitude improvement in terms of acceleration without compromising reconstruction quality. To accelerate the training process, we integrate multi-resolution hash encodings into a neural surface representation and implement our whole algorithm in CUDA. We also present a lightweight calculation of second-order derivatives tailored to our networks (i.e., ReLU-based MLPs), which achieves a factor two speed up. To further stabilize training, a progressive learning strategy is proposed to optimize multi-resolution hash encodings from coarse to fine. In addition, we extend our method for reconstructing dynamic scenes with an incremental training strategy. Our experiments on various datasets demonstrate that NeuS2 significantly outperforms the state-of-the-arts in both surface reconstruction accuracy and training speed. The video is available at https://vcai.mpi-inf.mpg.de/projects/NeuS2/ .
翻訳日:2022-12-13 17:49:38 公開日:2022-12-10
# バラバラシーンにおけるスケールバランス6-DoFグラフ検出に向けて

Towards Scale Balanced 6-DoF Grasp Detection in Cluttered Scenes ( http://arxiv.org/abs/2212.05275v1 )

ライセンス: Link先を確認
Haoxiang Ma and Di Huang(参考訳) 本稿では,6-DoFグリップ検出におけるスケール不均衡の存在下での特徴学習の問題に着目し,特に小型サンプルの扱いの難しさに対処する新しい手法を提案する。 マルチスケールシリンダ・グルーピング (MsCG) モジュールは, マルチスケールシリンダ特徴とグローバルコンテキストを組み合わせることで, 局所的幾何表現を強化する。 さらに、sblは、補助セグメンテーションネットワークの助けを借りて、小規模オブジェクトのより多くのポイントをキャプチャしながら、apriori重みによって、低周波数のスケールを有するサンプルの勾配をsblで拡大する、スケールバランス学習(sbl)損失とオブジェクトバランスサンプリング(obs)戦略を設計する。 学習と推論における把握尺度の不均一分布の影響を緩和する。 さらに,合成シーンと生シーンのドメイン間ギャップを,インスタンスレベルで1つのシーンにミックスするより多くのデータを生成する効率的な方法で橋渡しすることを目的とした,トレーニングを容易にするために,ノイズ-クリーンミックス(ncm)データ拡張が導入されている。 grabnet-1billionベンチマークでは広範な実験が行われ、小規模ケースでは競争結果が大幅に向上した。 さらに,実世界の把握性能は,その一般化能力を強調している。 私たちのコードはhttps://github.com/mahaoxiang822/scale-balanced-graspで利用可能です。

In this paper, we focus on the problem of feature learning in the presence of scale imbalance for 6-DoF grasp detection and propose a novel approach to especially address the difficulty in dealing with small-scale samples. A Multi-scale Cylinder Grouping (MsCG) module is presented to enhance local geometry representation by combining multi-scale cylinder features and global context. Moreover, a Scale Balanced Learning (SBL) loss and an Object Balanced Sampling (OBS) strategy are designed, where SBL enlarges the gradients of the samples whose scales are in low frequency by apriori weights while OBS captures more points on small-scale objects with the help of an auxiliary segmentation network. They alleviate the influence of the uneven distribution of grasp scales in training and inference respectively. In addition, Noisy-clean Mix (NcM) data augmentation is introduced to facilitate training, aiming to bridge the domain gap between synthetic and raw scenes in an efficient way by generating more data which mix them into single ones at instance-level. Extensive experiments are conducted on the GraspNet-1Billion benchmark and competitive results are reached with significant gains on small-scale cases. Besides, the performance of real-world grasping highlights its generalization ability. Our code is available at https://github.com/mahaoxiang822/Scale-Balanced-Grasp.
翻訳日:2022-12-13 17:49:15 公開日:2022-12-10
# 絶対軌道誤差って何が悪いの?

What's Wrong with the Absolute Trajectory Error? ( http://arxiv.org/abs/2212.05376v1 )

ライセンス: Link先を確認
Seong Hun Lee, Javier Civera(参考訳) 一般的な絶対軌道誤差 (ate) の主な制限の1つは、異常値に対する感度が高いことである。 その結果、少数の外れ値が存在する場合、異常軌道誤差や外れ値数が変化するため、異なる精度を反映することがしばしば発生する。 本研究では,再構成されたカメラ軌跡の精度を評価するための代替誤差指標を提案する。 筆者らの測度はDTE (Disnalible Trajectory Error) と命名され,(1) 地上軌道と推定軌道をシフトし,両者の幾何的中央値が起点となるように計算した。 2)対応するカメラ配向間の測地距離の和を最小限に抑えるように推定軌道を回転させる。 (3) カメラの中央値から幾何学的中央値までの距離が地上の真理と同じであるような推定軌道をスケールする。 (4)対応するカメラ間の距離を計算し、平均およびルート平均2乗距離(RMS)を平均としてDTEを得る。 この計量は、慣性軌道誤差や外れ値の数が変化するため、軌跡の精度の変化を識別できるという点で、ateの魅力的な代替手段である。 また,同様の考え方を用いて,dteと同様の利点を持つ識別可能な回転誤差(dre)という新しい回転誤差測定法を提案する。 さらに,測定値の計算に必要なカメラ対マーカ回転の校正を行うための簡易かつ効果的な手法を提案する。 我々の手法は広範なシミュレーションによって検証される。

One of the main limitations of the commonly used Absolute Trajectory Error (ATE) is that it is highly sensitive to outliers. As a result, in the presence of just a few outliers, it often fails to reflect the varying accuracy as the inlier trajectory error or the number of outliers varies. In this work, we propose an alternative error metric for evaluating the accuracy of the reconstructed camera trajectory. Our metric, named Discernible Trajectory Error (DTE), is computed in four steps: (1) Shift the ground-truth and estimated trajectories such that both of their geometric medians are located at the origin. (2) Rotate the estimated trajectory such that it minimizes the sum of geodesic distances between the corresponding camera orientations. (3) Scale the estimated trajectory such that the median distance of the cameras to their geometric median is the same as that of the ground truth. (4) Compute the distances between the corresponding cameras, and obtain the DTE by taking the average of the mean and root-mean-square (RMS) distance. This metric is an attractive alternative to the ATE, in that it is capable of discerning the varying trajectory accuracy as the inlier trajectory error or the number of outliers varies. Using the similar idea, we also propose a novel rotation error metric, named Discernible Rotation Error (DRE), which has similar advantages to the DTE. Furthermore, we propose a simple yet effective method for calibrating the camera-to-marker rotation, which is needed for the computation of our metrics. Our methods are verified through extensive simulations.
翻訳日:2022-12-13 17:48:52 公開日:2022-12-10
# 歩行性最適化:定式化,アルゴリズム,トロントの事例研究

Walkability Optimization: Formulations, Algorithms, and a Case Study of Toronto ( http://arxiv.org/abs/2212.05192v1 )

ライセンス: Link先を確認
Weimin Huang, Elias B. Khalil(参考訳) 歩行可能な都市開発の概念は、公衆衛生、経済、環境サステナビリティの恩恵により注目を集めている。 残念なことに、土地分割と歴史的低投資は、住民の歩行性や社会的不平等に空間的不平等をもたらしている。 組合せ最適化のレンズを通して歩行性最適化の問題に取り組む。 課題は、既存のアメニティを考慮し、複数のオプション(例えば、レストラン)を提供しながら、歩行による住民アクセスを改善するために、追加のアメニティ(食料品店、学校、レストランなど)を割り当てることができる場所を選択することである。 この目的のために、混合整数線形プログラミング(milp)と制約プログラミング(cp)モデルを導出する。 さらに,この問題の目的関数は特殊ケースではサブモジュラーであり,効率的な欲求的ヒューリスティックを動機付けていることを示す。 カナダのトロント市における31の未保存地区について事例研究を行った。 MILPは、ほとんどのシナリオで最良のソリューションを見つけるが、ネットワークサイズではうまくスケールしない。 グリーディアルゴリズムはうまくスケールし、ほぼ最適解を見つける。 その結果,歩行性の低い地域は,新しいアメニティを戦略的に配置することで,歩行者にやさしい地域へ転換する大きな可能性を秘めていることがわかった。 3つの食料品店、学校、レストランを割り当てることで、「ウォークスコア」を4つの地区で50ポイント以上(100スケール)改善でき、全住宅地の75%のアメニティまでの歩行距離を全アメニティタイプで10分に短縮できる。 私たちのコードと論文の付録はhttps://github.com/khalil-research/walkabilityで閲覧できます。

The concept of walkable urban development has gained increased attention due to its public health, economic, and environmental sustainability benefits. Unfortunately, land zoning and historic under-investment have resulted in spatial inequality in walkability and social inequality among residents. We tackle the problem of Walkability Optimization through the lens of combinatorial optimization. The task is to select locations in which additional amenities (e.g., grocery stores, schools, restaurants) can be allocated to improve resident access via walking while taking into account existing amenities and providing multiple options (e.g., for restaurants). To this end, we derive Mixed-Integer Linear Programming (MILP) and Constraint Programming (CP) models. Moreover, we show that the problem's objective function is submodular in special cases, which motivates an efficient greedy heuristic. We conduct a case study on 31 underserved neighborhoods in the City of Toronto, Canada. MILP finds the best solutions in most scenarios but does not scale well with network size. The greedy algorithm scales well and finds near-optimal solutions. Our empirical evaluation shows that neighbourhoods with low walkability have a great potential for transformation into pedestrian-friendly neighbourhoods by strategically placing new amenities. Allocating 3 additional grocery stores, schools, and restaurants can improve the "WalkScore" by more than 50 points (on a scale of 100) for 4 neighbourhoods and reduce the walking distances to amenities for 75% of all residential locations to 10 minutes for all amenity types. Our code and paper appendix are available at https://github.com/khalil-research/walkability.
翻訳日:2022-12-13 17:42:00 公開日:2022-12-10
# モンテカルロ木探索におけるルックアヘッド病理

Lookahead Pathology in Monte-Carlo Tree Search ( http://arxiv.org/abs/2212.05208v1 )

ライセンス: Link先を確認
Khoi P. N. Nguyen and Raghuram Ramanujan(参考訳) Monte-Carlo Tree Search (MCTS) は、コンピュータ Go の領域で最初に成功した逆探索パラダイムである。 初期の理論的研究は、木(UCT)に適用されるゲーム理論の健全性と収束境界を確立したが、UCTが実際にどのように振る舞うかという我々の理解には大きなギャップが残っている。 そこで本研究では,uctが表向きの病理学を呈するかどうかを考察し,検索努力の増大が意思決定の悪化につながるミニマックス探索で最初に観察されたパラドックス現象について考察する。 数学解析に適したまま、リッチなモデリング可能性を提供する新しい種類の合成ゲームを紹介する。 理論および実験結果から,UCTは,本科から引き出されたゲームにおいて,病的行動に感受性があることが示唆された。

Monte-Carlo Tree Search (MCTS) is an adversarial search paradigm that first found prominence with its success in the domain of computer Go. Early theoretical work established the game-theoretic soundness and convergence bounds for Upper Confidence bounds applied to Trees (UCT), the most popular instantiation of MCTS; however, there remain notable gaps in our understanding of how UCT behaves in practice. In this work, we address one such gap by considering the question of whether UCT can exhibit lookahead pathology -- a paradoxical phenomenon first observed in Minimax search where greater search effort leads to worse decision-making. We introduce a novel family of synthetic games that offer rich modeling possibilities while remaining amenable to mathematical analysis. Our theoretical and experimental results suggest that UCT is indeed susceptible to pathological behavior in a range of games drawn from this family.
翻訳日:2022-12-13 17:41:35 公開日:2022-12-10
# クラウドコンピューティング環境における信頼アクセス制御によるスマートリソース管理機構

A smart resource management mechanism with trust access control for cloud computing environment ( http://arxiv.org/abs/2212.05319v1 )

ライセンス: Link先を確認
Sakshi Chhabra and Ashutosh Kumar Singh(参考訳) コンピュータビジネスの中核は、クラウドコンピューティングの助けを借りてサブスクリプションベースのオンデマンドサービスを提供している。 仮想化を使うことで、抽象化されたハードウェア層で動作するコンピュータシステムの仮想インスタンスを作成することで、複数のユーザ間でリソースを共有することができる。 初期の分散コンピューティングモデルとは対照的に、巨大なクラウドデータセンタを通じて無限のコンピューティング能力を提供します。 この記事では、安全かつパフォーマンス効率の良いクラウド設定におけるワークロード管理パラダイムの概念的フレームワークを提案する。 リソース管理ユニットは、このパラダイムにおいて、効率よく仮想マシン割り当てを行い、ユーザのアプリケーションの安全な実行を保証し、無許可の仮想マシンアクセスによるデータ漏洩をリアルタイムで防止するために使用される。 セキュアな仮想マシン管理部は、リソース管理部を制御し、不正アクセスまたは通信に関するデータを生成する。 さらに、ワークロードアナライザ部は、仮想マシン割り当て時にリソース管理部がより効果的になるように、リソース消費データを同時に推定する。 提案したモデルは、転送前のデータ暗号化や復号化、仮想マシンへの不正アクセスを防ぐための信頼アクセス機構の使用など、同じ目的を効果的に果たすために異なる機能を持つ。

The core of the computer business now offers subscription-based on-demand services with the help of cloud computing. We may now share resources among multiple users by using virtualization, which creates a virtual instance of a computer system running in an abstracted hardware layer. It provides infinite computing capabilities through its massive cloud datacenters, in contrast to early distributed computing models, and has been incredibly popular in recent years because to its continually growing infrastructure, user base, and hosted data volume. This article suggests a conceptual framework for a workload management paradigm in cloud settings that is both safe and performance-efficient. A resource management unit is used in this paradigm for energy and performing virtual machine allocation with efficiency, assuring the safe execution of users' applications, and protecting against data breaches brought on by unauthorised virtual machine access real-time. A secure virtual machine management unit controls the resource management unit and is created to produce data on unlawful access or intercommunication. Additionally, a workload analyzer unit works simultaneously to estimate resource consumption data to help the resource management unit be more effective during virtual machine allocation. The suggested model functions differently to effectively serve the same objective, including data encryption and decryption prior to transfer, usage of trust access mechanism to prevent unauthorised access to virtual machines, which creates extra computational cost overhead.
翻訳日:2022-12-13 17:41:16 公開日:2022-12-10
# SMILE: 効率的なバイレベルルーティングによるMixture-of-Expertsのスケーリング

SMILE: Scaling Mixture-of-Experts with Efficient Bi-level Routing ( http://arxiv.org/abs/2212.05191v1 )

ライセンス: Link先を確認
Chaoyang He, Shuai Zheng, Aston Zhang, George Karypis, Trishul Chilimbi, Mahdi Soltanolkotabi, Salman Avestimehr(参考訳) エキスパート(MoE)並列性の混合は、モデルサイズを一定の計算コストでスケールアップする最近の進歩である。 MoEは入力トークンごとに異なるパラメータセット(すなわち専門家)を選択し、スパースアクティベートされたモデルを生成する。 MoEのいくつかの応用が成功したにもかかわらず、訓練効率は専門家の数が増えるにつれて著しく低下する。 moeのルーティング段階は、ネットワークの混雑に悩まされ、スケーラビリティに乏しいall2all通信集団の効率に依存している。 これらの問題を緩和するために,異種ネットワーク帯域幅を活用し,単一ステップのルーティングをバイレベルルーティングに分割したsmileを導入する。 提案手法は, コンバージェンス速度を損なうことなく, コロッサルクリーンクローリングコーパスのプリトレーニングスループットにおいて, スイッチ変換器の2.5倍の高速化が得られることを示す。

The mixture of Expert (MoE) parallelism is a recent advancement that scales up the model size with constant computational cost. MoE selects different sets of parameters (i.e., experts) for each incoming token, resulting in a sparsely-activated model. Despite several successful applications of MoE, its training efficiency degrades significantly as the number of experts increases. The routing stage in MoE relies on the efficiency of the All2All communication collective, which suffers from network congestion and has poor scalability. To mitigate these issues, we introduce SMILE, which exploits heterogeneous network bandwidth and splits a single-step routing into bi-level routing. Our experimental results show that the proposed method obtains a 2.5x speedup over Switch Transformer in terms of pretraining throughput on the Colossal Clean Crawled Corpus without losing any convergence speed.
翻訳日:2022-12-13 17:24:43 公開日:2022-12-10
# 視覚言語前訓練における一様マスキング

Uniform Masking Prevails in Vision-Language Pretraining ( http://arxiv.org/abs/2212.05195v1 )

ライセンス: Link先を確認
Siddharth Verma, Yuchen Lu, Rui Hou, Hanchao Yu, Nicolas Ballas, Madian Khabsa, Amjad Almahairi(参考訳) Masked Language Modeling (MLM) は、Vision-Language (VL) プリトレーニングの重要なコンポーネントであることが証明されている。 mlmを実装するには、研究者はマスクのトークンを決定するマスク戦略と、マスクのトークン数を決定するマスク率という2つの設計選択をしなければならない。 以前の研究は、主にマスキング戦略に重点を置いており、マスキングレートをデフォルトの15\%に設定している。 本稿では,このマスキング率の向上は,異なるマスキング戦略間の性能ギャップを同時に低減し,より複雑なマスキング戦略と競合する一様マスキング戦略を示す。 驚くべきことに、マスク率の増加は画像テキストマッチング(ITM)タスクの増加につながっており、MLMの役割はVL事前学習における言語モデリングを超えている。

Masked Language Modeling (MLM) has proven to be an essential component of Vision-Language (VL) pretraining. To implement MLM, the researcher must make two design choices: the masking strategy, which determines which tokens to mask, and the masking rate, which determines how many tokens to mask. Previous work has focused primarily on the masking strategy while setting the masking rate at a default of 15\%. In this paper, we show that increasing this masking rate improves downstream performance while simultaneously reducing performance gap among different masking strategies, rendering the uniform masking strategy competitive to other more complex ones. Surprisingly, we also discover that increasing the masking rate leads to gains in Image-Text Matching (ITM) tasks, suggesting that the role of MLM goes beyond language modeling in VL pretraining.
翻訳日:2022-12-13 17:24:29 公開日:2022-12-10
# OpenD: 言語駆動のドアと描画のベンチマーク

OpenD: A Benchmark for Language-Driven Door and Drawer Opening ( http://arxiv.org/abs/2212.05211v1 )

ライセンス: Link先を確認
Yizhou Zhao, Qiaozi Gao, Liang Qiu, Govind Thattai, Gaurav S. Sukhatme(参考訳) 言語指導によって駆動される光リアルで物理信頼性のあるシミュレーション環境において,手を使ってキャビネットドアや引き出しを開く方法を学ぶためのベンチマークであるOPENDを紹介する。 そこで本研究では,深層ニューラルネットワークとルールベースコントローラからなる多段階プランナを提案する。 このネットワークは、画像から空間関係を捉え、言語命令から意味を理解するために利用される。 コントローラは空間的および意味的理解に基づいて効率的に計画を実行する。 テストデータセットにおけるゼロショット性能を計測することでシステムを評価する。 実験結果から,言語理解,空間的推論,長期的操作といった課題に対処するために,より良いモデルを開発するための重要な余地があることが示唆された。 我々はOPENDをリリースし、この分野における今後の研究を促進するための課題を主催する。

We introduce OPEND, a benchmark for learning how to use a hand to open cabinet doors or drawers in a photo-realistic and physics-reliable simulation environment driven by language instruction. To solve the task, we propose a multi-step planner composed of a deep neural network and rule-base controllers. The network is utilized to capture spatial relationships from images and understand semantic meaning from language instructions. Controllers efficiently execute the plan based on the spatial and semantic understanding. We evaluate our system by measuring its zero-shot performance in test data set. Experimental results demonstrate the effectiveness of decision planning by our multi-step planner for different hands, while suggesting that there is significant room for developing better models to address the challenge brought by language understanding, spatial reasoning, and long-term manipulation. We will release OPEND and host challenges to promote future research in this area.
翻訳日:2022-12-13 17:24:13 公開日:2022-12-10
# グローバルコンバージェンス保証によるオフポリシーrlの座標上昇

Coordinate Ascent for Off-Policy RL with Global Convergence Guarantees ( http://arxiv.org/abs/2212.05237v1 )

ライセンス: Link先を確認
Hsin-En Su, Yen-Ju Chen, Ping-Chun Hsieh, Xi Liu(参考訳) 我々は,座標上昇の観点から,rlにおけるオフポリシー政策最適化の領域を再考する。 一般的に使用されるアプローチの1つは、行動政策の国家的分布に関して、目標政策が期待するリターンの合計である代理目標を最適化するために、政策外の政策勾配を活用することである。 しかし、このアプローチは分布ミスマッチ問題に苦しむことが示されており、このミスマッチを状態分布補正または偽りの方法によって修正するには多大な努力が必要である。 本稿では,政策勾配を使わずに行動方針の状態分布から方針改善を分離するオフ・ポリティカル・アクタ・クリティック・アルゴリズムであるコーディネート・アセント・ポリシー最適化(capo)によるオフ・ポリティカル学習を再考する。 この設計は、非政治政策勾配の政策改善段階において、分配補正や重要サンプリングの必要性を排除している。 一般座標選択によるCAPOのグローバル収束を確立し、さらにCAPOの巡回およびランダム化変種を含む一般的な座標選択規則によるCAPOのいくつかのインスタンスの収束率を定量化する。 次に、より実用的な実装のために、CAPOをニューラルポリシーに拡張します。 実験により,CAPOは実際にRLに対して競争力のあるアプローチを提供することを示した。

We revisit the domain of off-policy policy optimization in RL from the perspective of coordinate ascent. One commonly-used approach is to leverage the off-policy policy gradient to optimize a surrogate objective -- the total discounted in expectation return of the target policy with respect to the state distribution of the behavior policy. However, this approach has been shown to suffer from the distribution mismatch issue, and therefore significant efforts are needed for correcting this mismatch either via state distribution correction or a counterfactual method. In this paper, we rethink off-policy learning via Coordinate Ascent Policy Optimization (CAPO), an off-policy actor-critic algorithm that decouples policy improvement from the state distribution of the behavior policy without using the policy gradient. This design obviates the need for distribution correction or importance sampling in the policy improvement step of off-policy policy gradient. We establish the global convergence of CAPO with general coordinate selection and then further quantify the convergence rates of several instances of CAPO with popular coordinate selection rules, including the cyclic and the randomized variants of CAPO. We then extend CAPO to neural policies for a more practical implementation. Through experiments, we demonstrate that CAPO provides a competitive approach to RL in practice.
翻訳日:2022-12-13 17:23:59 公開日:2022-12-10
# 畳み込みニューラルネットワークに基づく運動画像とSSVEPを用いたハイブリッド脳-コンピュータインタフェース

A Hybrid Brain-Computer Interface Using Motor Imagery and SSVEP Based on Convolutional Neural Network ( http://arxiv.org/abs/2212.05289v1 )

ライセンス: Link先を確認
Wenwei Luo and Wanguang Yin and Quanying Liu and Youzhi Qu(参考訳) 脳波(EEG)に基づく脳-コンピュータインタフェース(BCI)の鍵は神経デコーディングにあり、その精度はハイブリッドBCIパラダイム(つまり複数のパラダイムを融合させることで向上することができる。 しかし、ハイブリッドBCIは通常、各パラダイムにおける脳波信号の別々の処理プロセスを必要とし、脳波特徴抽出の効率とモデルの一般化可能性を大幅に低下させる。 本稿では,2ストリーム畳み込みニューラルネットワーク(TSCNN)を用いたハイブリッド脳-コンピュータインタフェースを提案する。 定常視覚誘発電位(SSVEP)と運動画像(MI)のパラダイムを組み合わせる。 TSCNNは、トレーニングプロセスにおける2つのパラダイムにおける脳波の特徴を自動的に抽出し、MIモードと比較してデコード精度を25.4%改善し、テストデータのSSVEPモードと比較して2.6%改善する。 さらに、TSCNNの汎用性はシングルモード(MIは70.2%、SSVEPは93.0%)とハイブリッドモードシナリオ(MI-SSVEPハイブリッドは95.6%)の両方でかなりの性能を提供するとして検証されている。 我々はEEGベースのBCIシステムの現実的な応用を促進する。

The key to electroencephalography (EEG)-based brain-computer interface (BCI) lies in neural decoding, and its accuracy can be improved by using hybrid BCI paradigms, that is, fusing multiple paradigms. However, hybrid BCIs usually require separate processing processes for EEG signals in each paradigm, which greatly reduces the efficiency of EEG feature extraction and the generalizability of the model. Here, we propose a two-stream convolutional neural network (TSCNN) based hybrid brain-computer interface. It combines steady-state visual evoked potential (SSVEP) and motor imagery (MI) paradigms. TSCNN automatically learns to extract EEG features in the two paradigms in the training process, and improves the decoding accuracy by 25.4% compared with the MI mode, and 2.6% compared with SSVEP mode in the test data. Moreover, the versatility of TSCNN is verified as it provides considerable performance in both single-mode (70.2% for MI, 93.0% for SSVEP) and hybrid-mode scenarios (95.6% for MI-SSVEP hybrid). Our work will facilitate the real-world applications of EEG-based BCI systems.
翻訳日:2022-12-13 17:23:40 公開日:2022-12-10
# 不均一推論のための量子ニューラルネットワークの垂直層化

Vertical Layering of Quantized Neural Networks for Heterogeneous Inference ( http://arxiv.org/abs/2212.05326v1 )

ライセンス: Link先を確認
Hai Wu, Ruifei He, Haoru Tan, Xiaojuan Qi and Kaibin Huang(参考訳) 効率的な推論のためのニューラルネットワークの量子化において、かなりの進歩が得られたが、既存の手法は、1つの専用モデルが特定のハードウェア設定のためにトレーニング、送信、保存される必要があるため、異種デバイスに対してスケーラブルではない。 本稿では,全ての量子化モデルを1つのモデルにカプセル化するための,ニューラルネットワーク重みの新しい垂直層表現について検討する。 この表現により、理論上は1つのモデルを訓練し、維持するだけでオンデマンドサービスの正確なネットワークを実現することができる。 そこで本研究では,高性能な垂直層モデルを得るための簡単な1回量子化アウェアトレーニング(qat)方式を提案する。 設計にはカスケードダウンサンプリング機構が組み込まれており、高い精度の重みを隣接する低精度の重みに段階的にマッピングすることで、1つの完全精度ソースモデルから複数の量子化ネットワークを得ることができる。 そして、1つのソースモデルから異なるビット幅のネットワークを用いて、全てのネットワークの性能を考慮して、同時に更新できるように、共有ソースモデルの重みをトレーニングするために多目的最適化を用いる。 これにより、共有重みは異なる量子化モデルの性能のバランスをとるように最適化され、異なるビット幅間で重みを転送できる。 実験により,QAT方式が複数の量子化ネットワークを1つのネットワークに具体化して1回のトレーニングが可能であり,任意のビット幅に合わせて調整された量子化モデルと同等の性能を発揮することがわかった。 コードは利用可能だ。

Although considerable progress has been obtained in neural network quantization for efficient inference, existing methods are not scalable to heterogeneous devices as one dedicated model needs to be trained, transmitted, and stored for one specific hardware setting, incurring considerable costs in model training and maintenance. In this paper, we study a new vertical-layered representation of neural network weights for encapsulating all quantized models into a single one. With this representation, we can theoretically achieve any precision network for on-demand service while only needing to train and maintain one model. To this end, we propose a simple once quantization-aware training (QAT) scheme for obtaining high-performance vertical-layered models. Our design incorporates a cascade downsampling mechanism which allows us to obtain multiple quantized networks from one full precision source model by progressively mapping the higher precision weights to their adjacent lower precision counterparts. Then, with networks of different bit-widths from one source model, multi-objective optimization is employed to train the shared source model weights such that they can be updated simultaneously, considering the performance of all networks. By doing this, the shared weights will be optimized to balance the performance of different quantized models, thus making the weights transferable among different bit widths. Experiments show that the proposed vertical-layered representation and developed once QAT scheme are effective in embodying multiple quantized networks into a single one and allow one-time training, and it delivers comparable performance as that of quantized models tailored to any specific bit-width. Code will be available.
翻訳日:2022-12-13 17:23:18 公開日:2022-12-10
# モデル検査による深層強化学習政策の敵対的攻撃

Targeted Adversarial Attacks on Deep Reinforcement Learning Policies via Model Checking ( http://arxiv.org/abs/2212.05337v1 )

ライセンス: Link先を確認
Dennis Gross, Thiago D. Simao, Nils Jansen, Guillermo A. Perez(参考訳) 深層強化学習 (Deep Reinforcement Learning, RL) エージェントは、彼らのポリシーを誤解させ、パフォーマンスを低下させる可能性のある観察において、敵のノイズに敏感である。 しかし、敵は報酬を減らすだけでなく、ポリシーの特定の時相論理特性を変更することにも興味があるかもしれない。 本稿では,このような特性に対する敵意攻撃の正確な影響を測定する指標を提案する。 我々はこの指標を使って最適な敵攻撃を行う。 さらに,敵の攻撃に対するrlポリシのロバスト性を検証するためのモデルチェック手法を提案する。 実験分析により,(1)時間的論理特性に対する敵意攻撃を行うための測定基準の品質,(2)攻撃に対するシステムのロバスト性を簡潔に評価できることが確認された。

Deep Reinforcement Learning (RL) agents are susceptible to adversarial noise in their observations that can mislead their policies and decrease their performance. However, an adversary may be interested not only in decreasing the reward, but also in modifying specific temporal logic properties of the policy. This paper presents a metric that measures the exact impact of adversarial attacks against such properties. We use this metric to craft optimal adversarial attacks. Furthermore, we introduce a model checking method that allows us to verify the robustness of RL policies against adversarial attacks. Our empirical analysis confirms (1) the quality of our metric to craft adversarial attacks against temporal logic properties, and (2) that we are able to concisely assess a system's robustness against attacks.
翻訳日:2022-12-13 17:22:53 公開日:2022-12-10
# LEAD:Dense Retrievalのためのリベラルな特徴に基づく蒸留

LEAD: Liberal Feature-based Distillation for Dense Retrieval ( http://arxiv.org/abs/2212.05225v1 )

ライセンス: Link先を確認
Hao Sun, Xiao Liu, Yeyun Gong, Anlei Dong, Jian Jiao, Jingwen Lu, Yan Zhang, Daxin Jiang, Linjun Yang, Rangan Majumder, Nan Duan(参考訳) 知識蒸留は、強い教師モデルから比較的弱い学生モデルに知識を伝達するためにしばしば用いられる。 伝統的な知識蒸留法には、応答に基づく方法と特徴に基づく方法が含まれる。 レスポンスベースのメソッドが最も広く使われているが、モデルパフォーマンスの上限は低いが、機能ベースのメソッドは語彙とトークンに制約がある。 本稿では,トークンフリーな特徴量ベース蒸留法(LEAD)を提案する。 LEADは教師モデルと学生モデルの分布を一致させ、効果的で拡張可能でポータブルであり、語彙、トークンー、モデルアーキテクチャの要件を持たない。 大規模な実験は、MS MARCO Passage、TREC Passage 19、TREC Passage 20、MS MARCO Document、TREC Document 19、TREC Document 20など、広く使われているベンチマークにおけるLEADの有効性を示している。

Knowledge distillation is often used to transfer knowledge from a strong teacher model to a relatively weak student model. Traditional knowledge distillation methods include response-based methods and feature-based methods. Response-based methods are used the most widely but suffer from lower upper limit of model performance, while feature-based methods have constraints on the vocabularies and tokenizers. In this paper, we propose a tokenizer-free method liberal feature-based distillation (LEAD). LEAD aligns the distribution between teacher model and student model, which is effective, extendable, portable and has no requirements on vocabularies, tokenizer, or model architecture. Extensive experiments show the effectiveness of LEAD on several widely-used benchmarks, including MS MARCO Passage, TREC Passage 19, TREC Passage 20, MS MARCO Document, TREC Document 19 and TREC Document 20.
翻訳日:2022-12-13 17:16:45 公開日:2022-12-10
# 微調整大言語モデルを用いた複雑な科学テキストからの構造化情報抽出

Structured information extraction from complex scientific text with fine-tuned large language models ( http://arxiv.org/abs/2212.05238v1 )

ライセンス: Link先を確認
Alexander Dunn, John Dagdelen, Nicholas Walker, Sanghoon Lee, Andrew S. Rosen, Gerbrand Ceder, Kristin Persson, Anubhav Jain(参考訳) 非構造化テキストから複雑な科学情報をインテリジェントに抽出・リンクすることは、特に自然言語処理の経験の浅い人々にとって難しい課題である。 本稿では,科学テキストにおける複雑な階層情報に対するエンティティ認識と関係抽出の結合に対する単純なシーケンシャル・ツー・シーケンスアプローチを提案する。 このアプローチは、約500組のプロンプト(入力)とコンプリート(出力)で微調整された事前学習された大型言語モデル(llm)gpt-3を活用する。 情報は、単一文から、あるいは、抽象/パッセージで全文から抽出され、出力は、単純な英語の文か、jsonオブジェクトのリストのようなより構造化されたフォーマットとして返される。 この方法で訓練されたLSMは, 物質化学における3つの代表的な課題, ドーパントとホスト物質を結びつけること, 金属-有機系のカタログ化, 一般化学/相・形態・応用情報抽出という, 複雑な科学知識の有用な記録を正確に抽出できることを実証する。 このアプローチは、構造化されていないテキストから抽出された構造化知識の大規模なデータベースを得るための、シンプルで、アクセス可能で、非常に柔軟な経路を示す。 オンラインデモはhttp://www.matscholar.com/info-extractionで公開されている。

Intelligently extracting and linking complex scientific information from unstructured text is a challenging endeavor particularly for those inexperienced with natural language processing. Here, we present a simple sequence-to-sequence approach to joint named entity recognition and relation extraction for complex hierarchical information in scientific text. The approach leverages a pre-trained large language model (LLM), GPT-3, that is fine-tuned on approximately 500 pairs of prompts (inputs) and completions (outputs). Information is extracted either from single sentences or across sentences in abstracts/passages, and the output can be returned as simple English sentences or a more structured format, such as a list of JSON objects. We demonstrate that LLMs trained in this way are capable of accurately extracting useful records of complex scientific knowledge for three representative tasks in materials chemistry: linking dopants with their host materials, cataloging metal-organic frameworks, and general chemistry/phase/morphology/application information extraction. This approach represents a simple, accessible, and highly-flexible route to obtaining large databases of structured knowledge extracted from unstructured text. An online demo is available at http://www.matscholar.com/info-extraction.
翻訳日:2022-12-13 17:16:30 公開日:2022-12-10
# 変圧器を用いたアンサンブル学習による精密ケースキャラクタリゼーションの改善

Improving Precancerous Case Characterization via Transformer-based Ensemble Learning ( http://arxiv.org/abs/2212.05150v1 )

ライセンス: Link先を確認
Yizhen Zhong, Jiajie Xiao, Thomas Vetterli, Mahan Matin, Ellen Loo, Jimmy Lin, Richard Bourgon, Ofer Shapira(参考訳) 癌病理報告への自然言語処理(NLP)の応用は癌症例の検出に焦点が当てられ、前向きな症例は無視されている。 癌早期発見・予防,特に大腸癌(crc)の診断診断において,先天性腺腫の特性改善が有用である。 そこで本研究では,crc表現型化を行うためのトランスフォーマリンを用いた深層ニューラルネットワークnlpモデルを開発した。 症例を陰性,非進行性腺腫,進行腺腫,crcに分類し,0.914マクロf1スコアを得た。 さらに,がん状態分類と病巣サイズ別エンティティ認識(ner)のための分類器のアンサンブルを用いた0.923の性能向上を行った。 以上の結果から,NLPを用いて早期がん予防のための診断試験の開発を促進できる可能性が示唆された。

The application of natural language processing (NLP) to cancer pathology reports has been focused on detecting cancer cases, largely ignoring precancerous cases. Improving the characterization of precancerous adenomas assists in developing diagnostic tests for early cancer detection and prevention, especially for colorectal cancer (CRC). Here we developed transformer-based deep neural network NLP models to perform the CRC phenotyping, with the goal of extracting precancerous lesion attributes and distinguishing cancer and precancerous cases. We achieved 0.914 macro-F1 scores for classifying patients into negative, non-advanced adenoma, advanced adenoma and CRC. We further improved the performance to 0.923 using an ensemble of classifiers for cancer status classification and lesion size named entity recognition (NER). Our results demonstrated the potential of using NLP to leverage real-world health record data to facilitate the development of diagnostic tests for early cancer prevention.
翻訳日:2022-12-13 17:13:50 公開日:2022-12-10
# 状態正規化リカレントニューラルネットワークによるオートマトン抽出と予測

State-Regularized Recurrent Neural Networks to Extract Automata and Explain Predictions ( http://arxiv.org/abs/2212.05178v1 )

ライセンス: Link先を確認
Cheng Wang, Carolin Lawrence, Mathias Niepert(参考訳) リカレントニューラルネットワークは、広く使われているニューラルネットワークのクラスである。 しかし、2つの欠点がある。 第一に、それらはしばしばブラックボックスモデルとして扱われるので、彼らが正確に何を学び、どのように特定の予測に到達するかを理解するのは難しい。 第二に、原則としてこのような能力を持つにもかかわらず、長期記憶を必要とするシーケンスではうまく機能しない傾向がある。 我々は,セルアプリケーション間の確率的状態遷移機構を用いた再帰的ネットワークのクラスで,両方の欠点に対処することを目指している。 この機構は状態規則化と呼ばれ、RNNを学習可能な有限の状態間で遷移させる。 自動抽出のために,(1)正規言語における状態正規化rnnの評価,(2)外部記憶が必要な平衡括弧やパリンドロームなどの非正規言語,(3)感情分析,視覚物体認識,テキスト分類のための実単語列学習タスクの評価を行った。 状態規則化は (a) rnnの状態遷移ダイナミクスを表示する有限状態オートマトン抽出を単純化する。 b) RNNを外部メモリを備えたオートマトンのように動作させ、有限状態マシンのように動作させる。 c) 確率的有限状態遷移機構を時間ステップで活用することで、rnnの解釈性と説明性が向上する。

Recurrent neural networks are a widely used class of neural architectures. They have, however, two shortcomings. First, they are often treated as black-box models and as such it is difficult to understand what exactly they learn as well as how they arrive at a particular prediction. Second, they tend to work poorly on sequences requiring long-term memorization, despite having this capacity in principle. We aim to address both shortcomings with a class of recurrent networks that use a stochastic state transition mechanism between cell applications. This mechanism, which we term state-regularization, makes RNNs transition between a finite set of learnable states. We evaluate state-regularized RNNs on (1) regular languages for the purpose of automata extraction; (2) non-regular languages such as balanced parentheses and palindromes where external memory is required; and (3) real-word sequence learning tasks for sentiment analysis, visual object recognition and text categorisation. We show that state-regularization (a) simplifies the extraction of finite state automata that display an RNN's state transition dynamic; (b) forces RNNs to operate more like automata with external memory and less like finite state machines, which potentiality leads to a more structural memory; (c) leads to better interpretability and explainability of RNNs by leveraging the probabilistic finite state transition mechanism over time steps.
翻訳日:2022-12-13 17:13:32 公開日:2022-12-10
# データマイニングのためのニューラルバンド:危険多発薬局の探索

Neural Bandits for Data Mining: Searching for Dangerous Polypharmacy ( http://arxiv.org/abs/2212.05190v1 )

ライセンス: Link先を確認
Alexandre Larouche, Audrey Durand, Richard Khoury, Caroline Sirois(参考訳) ポリファーマシー(polypharmacy)は、しばしば5つ以上の薬物を同時に消費することと定義され、高齢者の一般的な現象である。 これらの薬局のいくつかは不適切と見なされ、死亡や入院などの健康上の悪影響に関係している可能性がある。 この問題の組合せの性質とクレームデータベースのサイズ、与えられた薬物の組み合わせに関する正確な関連度を計算するためのコストを考えると、薬物のあらゆる組み合わせを調査することは不可能である。 そこで本研究では,不適切な多剤局(pips)の探索を最適化する。 そこで本研究では,ニューラルトンプソンサンプリングと差動進化に基づくオプティモニューロアルツ戦略を提案し,クレームデータセットを効率的にマイニングし,薬物組み合わせと健康成果との相関の予測モデルを構築した。 我々は500の薬物と100万の異なる組み合わせを内製した多薬品データのシミュレータによって生成された2つのデータセットを用いて,本手法のベンチマークを行った。 実験により,PIPの最大33 %を検出できると同時に,平均精度99 %を10 000 タイムステップで保持できることがわかった。

Polypharmacy, most often defined as the simultaneous consumption of five or more drugs at once, is a prevalent phenomenon in the older population. Some of these polypharmacies, deemed inappropriate, may be associated with adverse health outcomes such as death or hospitalization. Considering the combinatorial nature of the problem as well as the size of claims database and the cost to compute an exact association measure for a given drug combination, it is impossible to investigate every possible combination of drugs. Therefore, we propose to optimize the search for potentially inappropriate polypharmacies (PIPs). To this end, we propose the OptimNeuralTS strategy, based on Neural Thompson Sampling and differential evolution, to efficiently mine claims datasets and build a predictive model of the association between drug combinations and health outcomes. We benchmark our method using two datasets generated by an internally developed simulator of polypharmacy data containing 500 drugs and 100 000 distinct combinations. Empirically, our method can detect up to 33\% of PIPs while maintaining an average precision score of 99\% using 10 000 time steps.
翻訳日:2022-12-13 17:13:07 公開日:2022-12-10
# Mind the Edge: わずかに監督された単眼深度推定における深度エッジの精製

Mind The Edge: Refining Depth Edges in Sparsely-Supervised Monocular Depth Estimation ( http://arxiv.org/abs/2212.05315v1 )

ライセンス: Link先を確認
Lior Talker, Aviad Cohen, Erez Yosef, Alexandra Dana, Michael Dinerstein(参考訳) 単眼深度推定(MDE)はコンピュータビジョンの基本的な問題であり、多くの応用がある。 近年,LIDARを教師する手法は,屋外シーンにおける画素毎の深度精度が著しく向上している。 しかし、主に深度不連続性(deep discontinuities)、すなわち深度エッジ(deep edges)の近傍で顕著なエラーが見られ、これはしばしば、新しいビュー合成や拡張現実のような不正確性に敏感な深度依存アプリケーションの性能を妨げる。 深度エッジの位置の直接監視は、通常、粗いLIDARベースのシーンでは利用できないため、MDEモデルに正確な深度エッジを作成するよう促すことは簡単ではない。 本研究は,高度に教師付きされた合成データから深度エッジの位置を学習し,それを用いて深度エッジの監視を行うことを提案する。 また,合成データと実データとの「ドメインギャップ」は,mdeトレーニングから間接的に発生するものよりも,直接的に推定される深さエッジの方が有意に精度が高いことが示された。 我々のアプローチを定量的に評価するため,LIDARに基づくシーンでは深度エッジ基底真理が欠如しているため,KITTIとDDADデータセットのサブセットを手動で注釈付けした。 いくつかの挑戦的なデータセットに対して,画素毎の深度精度と同等の深度エッジの精度が著しく向上したことを示す。

Monocular Depth Estimation (MDE) is a fundamental problem in computer vision with numerous applications. Recently, LIDAR-supervised methods have achieved remarkable per-pixel depth accuracy in outdoor scenes. However, significant errors are typically found in the proximity of depth discontinuities, i.e., depth edges, which often hinder the performance of depth-dependent applications that are sensitive to such inaccuracies, e.g., novel view synthesis and augmented reality. Since direct supervision for the location of depth edges is typically unavailable in sparse LIDAR-based scenes, encouraging the MDE model to produce correct depth edges is not straightforward. In this work we propose to learn to detect the location of depth edges from densely-supervised synthetic data, and use it to generate supervision for the depth edges in the MDE training. %Despite the 'domain gap' between synthetic and real data, we show that depth edges that are estimated directly are significantly more accurate than the ones that emerge indirectly from the MDE training. To quantitatively evaluate our approach, and due to the lack of depth edges ground truth in LIDAR-based scenes, we manually annotated subsets of the KITTI and the DDAD datasets with depth edges ground truth. We demonstrate significant gains in the accuracy of the depth edges with comparable per-pixel depth accuracy on several challenging datasets.
翻訳日:2022-12-13 16:31:21 公開日:2022-12-10
# HumanGen: 明示的な優先順位で人間の放射界を生成する

HumanGen: Generating Human Radiance Fields with Explicit Priors ( http://arxiv.org/abs/2212.05321v1 )

ライセンス: Link先を確認
Suyi Jiang, Haoran Jiang, Ziyu Wang, Haimin Luo, Wenzheng Chen, Lan Xu(参考訳) 近年は3D GANがフォトリアリズムと相反する放射界を創出する過程が著しく進展している。 しかし、既存の手法で採用されている人間関係の優先事項が限られているため、高品質な人間の放射野の生成は依然として困難である。 詳細な幾何学と$\text{360}^{\circ}$リアルなフリービューレンダリングを備えた,新しい3次元人間生成スキームであるhumangenを提案する。 2Dジェネレータと3Dコンストラクタから「アンカーイメージ」を設計して、様々な先駆体で3D世代を明示的に結婚させる。 本稿では,人間の潜在空間と既存の2dジェネレータを橋渡しするためにアンカー画像を用いたハイブリッド特徴表現を提案する。 次に、幾何学と外観の生成を絡むように、プロングされたデザインを採用します。 このアンカー画像を用いて,細粒度合成に3次元再構成器を応用し,外観生成促進のための2段階ブレンドスキームを提案する。 広範な実験により, 形状, テクスチャ品質, フリービュー性能に関して, 最先端の3次元ヒューマンジェネレーションの有効性が実証された。 またHumanGenは、さまざまな既製の2Dラテント編集方法を組み込んで、3Dにシームレスに持ち上げることもできる。

Recent years have witnessed the tremendous progress of 3D GANs for generating view-consistent radiance fields with photo-realism. Yet, high-quality generation of human radiance fields remains challenging, partially due to the limited human-related priors adopted in existing methods. We present HumanGen, a novel 3D human generation scheme with detailed geometry and $\text{360}^{\circ}$ realistic free-view rendering. It explicitly marries the 3D human generation with various priors from the 2D generator and 3D reconstructor of humans through the design of "anchor image". We introduce a hybrid feature representation using the anchor image to bridge the latent space of HumanGen with the existing 2D generator. We then adopt a pronged design to disentangle the generation of geometry and appearance. With the aid of the anchor image, we adapt a 3D reconstructor for fine-grained details synthesis and propose a two-stage blending scheme to boost appearance generation. Extensive experiments demonstrate our effectiveness for state-of-the-art 3D human generation regarding geometry details, texture quality, and free-view performance. Notably, HumanGen can also incorporate various off-the-shelf 2D latent editing methods, seamlessly lifting them into 3D.
翻訳日:2022-12-13 16:30:55 公開日:2022-12-10
# 自己教師付き点群列表現学習のための完全粒子間4次元蒸留

Complete-to-Partial 4D Distillation for Self-Supervised Point Cloud Sequence Representation Learning ( http://arxiv.org/abs/2212.05330v1 )

ライセンス: Link先を確認
Yuhao Dong, Zhuoyang Zhang, Yunze Liu and Li Yi(参考訳) 4Dポイントクラウドシーケンスに関する最近の研究は、多くの注目を集めている。 しかし, ラベル付けされた4Dデータセットの取得は非常に高価で手間がかかるため, 生のラベル付きデータの利用方法を検討することが特に重要である。 しかし、既存のセルフ教師付きポイントクラウド表現学習手法は、動的シーンの逐次観測によりより包括的な幾何学的詳細が明らかになるという事実を省略して、静的スナップショットからの幾何学のみを考慮している。 そして、ビデオ表現学習フレームワークは、主に画像空間の流れとして動きをモデル化する。 そこで本研究では, 完全粒子間4D蒸留法という, 自己制御型4次元事前学習法を提案する。 本研究の目的は4次元自己教師表現学習を教師の知識蒸留フレームワークとして定式化し,教師の指導により有用な4次元表現を学生に学習させることである。 実験により,本手法は,屋内シナリオや屋外シナリオを含む広範囲な4Dポイントクラウドシーケンス理解タスクにおいて,従来の事前学習手法よりも大幅に優れていた。

Recent work on 4D point cloud sequences has attracted a lot of attention. However, obtaining exhaustively labeled 4D datasets is often very expensive and laborious, so it is especially important to investigate how to utilize raw unlabeled data. However, most existing self-supervised point cloud representation learning methods only consider geometry from a static snapshot omitting the fact that sequential observations of dynamic scenes could reveal more comprehensive geometric details. And the video representation learning frameworks mostly model motion as image space flows, let alone being 3D-geometric-aware. To overcome such issues, this paper proposes a new 4D self-supervised pre-training method called Complete-to-Partial 4D Distillation. Our key idea is to formulate 4D self-supervised representation learning as a teacher-student knowledge distillation framework and let the student learn useful 4D representations with the guidance of the teacher. Experiments show that this approach significantly outperforms previous pre-training approaches on a wide range of 4D point cloud sequence understanding tasks including indoor and outdoor scenarios.
翻訳日:2022-12-13 16:30:35 公開日:2022-12-10
# リアルタイムビデオスーパーリゾリューションのためのベンチマークデータセットと効果的なフレーム間アライメント

Benchmark Dataset and Effective Inter-Frame Alignment for Real-World Video Super-Resolution ( http://arxiv.org/abs/2212.05342v1 )

ライセンス: Link先を確認
Ruohao Wang, Xiaohui Liu, Zhilu Zhang, Xiaohe Wu, Chun-Mei Feng, Lei Zhang, Wangmeng Zuo(参考訳) 高解像度(hr)映像を低解像度(lr)映像から再構成するビデオ・スーパーレゾリューション(vsr)は近年大きな進歩を遂げている。 しかし、複雑な劣化を伴う実世界のデータに既存のVSRメソッドをデプロイすることは依然として困難である。 一方、よく整合した実世界のVSRデータセットは少なく、特に大規模な超解像スケールファクタでは、実世界のVSRタスクの開発が制限されている。 一方、既存のVSR手法のアライメントアルゴリズムは実写ビデオでは不十分であり、不満足な結果をもたらす。 上記の問題に対処するために、私たちは、スマートフォンの焦点長の異なるレンズで、低解像度ビデオと高画質ビデオがそれぞれキャプチャされる現実の4つのvsrデータセット、mvsr4$\times$を作成しました。 さらに,実世界のVSR,すなわちAVSRの効果的なアライメント手法を提案する。 EAVSRは、提案した多層適応空間変換ネットワーク(MultiAdaSTN)を用いて、事前学習した光フロー推定ネットワークが提供するオフセットを洗練する。 RealVSRとMVSR4$\times$データセットの実験結果は,本手法の有効性と実用性を示し,実世界のVSRタスクにおける最先端性能を実現する。 データセットとコードは公開される予定だ。

Video super-resolution (VSR) aiming to reconstruct a high-resolution (HR) video from its low-resolution (LR) counterpart has made tremendous progress in recent years. However, it remains challenging to deploy existing VSR methods to real-world data with complex degradations. On the one hand, there are few well-aligned real-world VSR datasets, especially with large super-resolution scale factors, which limits the development of real-world VSR tasks. On the other hand, alignment algorithms in existing VSR methods perform poorly for real-world videos, leading to unsatisfactory results. As an attempt to address the aforementioned issues, we build a real-world 4 VSR dataset, namely MVSR4$\times$, where low- and high-resolution videos are captured with different focal length lenses of a smartphone, respectively. Moreover, we propose an effective alignment method for real-world VSR, namely EAVSR. EAVSR takes the proposed multi-layer adaptive spatial transform network (MultiAdaSTN) to refine the offsets provided by the pre-trained optical flow estimation network. Experimental results on RealVSR and MVSR4$\times$ datasets show the effectiveness and practicality of our method, and we achieve state-of-the-art performance in real-world VSR task. The dataset and code will be publicly available.
翻訳日:2022-12-13 16:30:15 公開日:2022-12-10
# オブジェクトポップアップのためのソースフリー深さ

Source-free Depth for Object Pop-out ( http://arxiv.org/abs/2212.05370v1 )

ライセンス: Link先を確認
Zongwei Wu, Danda Pani Paudel, Deng-Ping Fan, Jingjing Wang, Shuo Wang, C\'edric Demonceaux, Radu Timofte, Luc Van Gool(参考訳) 奥行きは視覚知覚に有用であることが知られている。 しかし、しばしば深度を直接測定することは不可能である。 しかし幸いなことに、現代の学習ベースの手法は、野放しの推論によって有望な深度マップを提供する。 本研究では,3D 以前のオブジェクト '`pop-out'' を用いてオブジェクトセグメンテーションの深度推定モデルを適用する。 'pop-out''は、オブジェクトがバックグラウンド表面に存在することを前提とする単純な合成である。 このような合成前もって、3d空間のオブジェクトについて推論できる。 より具体的には、3次元情報のみを用いて物体を局所化できるように、推定深度マップを適応させる。 しかし、そのような分離には、セグメンテーションマスクの弱い監督を用いて学習する接触面に関する知識が必要である。 接触面の中間表現と、3Dで純粋に物体を推論することで、深度知識をよりセマンティクスに伝達することができる。 提案手法は,訓練に使用するソースデータを必要とせず,深度モデルのみを用いて学習プロセスを効率的かつ実用的なものにする。 提案手法は,2つの課題,すなわちcamouflaged object detectionとsalient object detectionの8つのデータセットを対象とした実験により,性能と汎用性の両方において,その利点を一貫して証明した。

Depth cues are known to be useful for visual perception. However, direct measurement of depth is often impracticable. Fortunately, though, modern learning-based methods offer promising depth maps by inference in the wild. In this work, we adapt such depth inference models for object segmentation using the objects' ``pop-out'' prior in 3D. The ``pop-out'' is a simple composition prior that assumes objects reside on the background surface. Such compositional prior allows us to reason about objects in the 3D space. More specifically, we adapt the inferred depth maps such that objects can be localized using only 3D information. Such separation, however, requires knowledge about contact surface which we learn using the weak supervision of the segmentation mask. Our intermediate representation of contact surface, and thereby reasoning about objects purely in 3D, allows us to better transfer the depth knowledge into semantics. The proposed adaptation method uses only the depth model without needing the source data used for training, making the learning process efficient and practical. Our experiments on eight datasets of two challenging tasks, namely camouflaged object detection and salient object detection, consistently demonstrate the benefit of our method in terms of both performance and generalizability.
翻訳日:2022-12-13 16:29:52 公開日:2022-12-10
# 自然密度における多種・異種シナプスダイナミクスの現象論的モデリング

Phenomenological modeling of diverse and heterogeneous synaptic dynamics at natural density ( http://arxiv.org/abs/2212.05354v1 )

ライセンス: Link先を確認
Agnes Korcsak-Gorzo, Charl Linssen, Jasper Albers, Stefan Dasbach, Renato Duarte, Susanne Kunkel, Abigail Morrison, Johanna Senk, Jonas Stapmanns, Tom Tetzlaff, Markus Diesmann, Sacha J. van Albada(参考訳) この章は、計算神経科学の観点から、脳のシナプス構造に光を当てている。 数学モデルにおける経験的データを考慮し、ソフトウェアに実装し、実験を反映したシミュレーションを実行する方法について、入門的な概要を提供する。 この経路はシナプスシグナルの4つの重要な側面(脳ネットワークの接続、シナプス伝達、シナプス可塑性、シナプス間の不均一性)について示される。 モデリングとシミュレーションのワークフローの各ステップと側面には、それぞれ独自の課題と落とし穴があり、それが強調され、詳細に対処されている。

This chapter sheds light on the synaptic organization of the brain from the perspective of computational neuroscience. It provides an introductory overview on how to account for empirical data in mathematical models, implement them in software, and perform simulations reflecting experiments. This path is demonstrated with respect to four key aspects of synaptic signaling: the connectivity of brain networks, synaptic transmission, synaptic plasticity, and the heterogeneity across synapses. Each step and aspect of the modeling and simulation workflow comes with its own challenges and pitfalls, which are highlighted and addressed in detail.
翻訳日:2022-12-13 16:22:31 公開日:2022-12-10
# ULIP:3次元理解のための言語,イメージ,ポイントクラウドの統一表現学習

ULIP: Learning Unified Representation of Language, Image and Point Cloud for 3D Understanding ( http://arxiv.org/abs/2212.05171v1 )

ライセンス: Link先を確認
Le Xue, Mingfei Gao, Chen Xing, Roberto Mart\'in-Mart\'in, Jiajun Wu, Caiming Xiong, Ran Xu, Juan Carlos Niebles, Silvio Savarese(参考訳) 現在の最先端の3dモデルの理解能力は、少数の注釈付きデータと予め定義されたカテゴリのデータセットによって制限されている。 最近の2Dの進歩は、言語などの他のモダリティからの知識を利用することで、同様の問題を著しく軽減できることを示している。 このことから、3Dモダリティにマルチモーダル情報を活用することで、制限されたデータ体制下での3D理解を改善することが期待できるが、この研究は十分に研究されていない。 そこで,3つのモードからオブジェクト三重項を事前学習することで,画像,テキスト,3次元点雲の統一表現を学習するためにULIPを導入する。 トレーニングトリプレットの不足を克服するために、ulipは、大量の画像テキストペアでトレーニングすることで、すでに共通の視覚空間とテキスト空間を学習した、事前訓練されたビジョン言語モデルを活用する。 そして、ULIPは、少数の自動合成三重項を用いて、共通画像テキスト空間と整合した3次元表現空間を学習する。 ULIPは3Dバックボーンネットワークとは無関係であり、どんな3Dアーキテクチャにも容易に統合できる。 実験により,本フレームワークを用いたShapeNet55の事前学習により,ModelNet40およびScanObjectNNの標準3D分類とゼロショット3D分類の両面での最先端性能を実現することにより,最近の複数の3Dバックボーンの性能を効果的に向上することが示された。 ULIPはまた、ScanObjectNNの3D分類ではポイントMLPを約3%改善し、ModelNet40のゼロショット3D分類ではトップ1の精度でポイントCLIPを28.8%上回っている。 私たちのコードと事前訓練されたモデルはリリースされます。

The understanding capabilities of current state-of-the-art 3D models are limited by datasets with a small number of annotated data and a pre-defined set of categories. In its 2D counterpart, recent advances have shown that similar problems can be significantly alleviated by employing knowledge from other modalities, such as language. Inspired by this, leveraging multimodal information for 3D modality could be promising to improve 3D understanding under the restricted data regime, but this line of research is not well studied. Therefore, we introduce ULIP to learn a unified representation of image, text, and 3D point cloud by pre-training with object triplets from the three modalities. To overcome the shortage of training triplets, ULIP leverages a pre-trained vision-language model that has already learned a common visual and textual space by training with massive image-text pairs. Then, ULIP learns a 3D representation space aligned with the common image-text space, using a small number of automatically synthesized triplets. ULIP is agnostic to 3D backbone networks and can easily be integrated into any 3D architecture. Experiments show that ULIP effectively improves the performance of multiple recent 3D backbones by simply pre-training them on ShapeNet55 using our framework, achieving state-of-the-art performance in both standard 3D classification and zero-shot 3D classification on ModelNet40 and ScanObjectNN. ULIP also improves the performance of PointMLP by around 3% in 3D classification on ScanObjectNN, and outperforms PointCLIP by 28.8% on top-1 accuracy for zero-shot 3D classification on ModelNet40. Our code and pre-trained models will be released.
翻訳日:2022-12-13 16:21:44 公開日:2022-12-10
# magvit: マスク付き生成ビデオトランスフォーマー

MAGVIT: Masked Generative Video Transformer ( http://arxiv.org/abs/2212.05199v1 )

ライセンス: Link先を確認
Lijun Yu, Yong Cheng, Kihyuk Sohn, Jos\'e Lezama, Han Zhang, Huiwen Chang, Alexander G. Hauptmann, Ming-Hsuan Yang, Yuan Hao, Irfan Essa, Lu Jiang(参考訳) 我々は,MAsked Generative VIdeo Transformer(MAGVIT)を導入し,単一のモデルで様々なビデオ合成タスクに取り組む。 本稿では,映像を空間的視覚的トークンに定量化する3Dトークン化手法を提案し,マルチタスク学習を容易にするマスク付きビデオトークンモデリングの埋め込み手法を提案する。 MAGVITの品質,効率,柔軟性を実証するための広範な実験を行った。 私たちの実験は (i)MAGVITは最先端のアプローチに対して好意的に動作し,Kineetics-600を含む3つのビデオ生成ベンチマークで最高のFVDを確立する。 (II)MAGVITは拡散モデルに対して2桁、自己回帰モデルに対して60倍の差で既存の手法よりも優れている。 3)単一のMAGVITモデルは10種類の多様な生成タスクをサポートし、異なる視覚領域からのビデオ間で一般化する。 ソースコードとトレーニングされたモデルはhttps://magvit.cs.cmu.eduで公開される。

We introduce the MAsked Generative VIdeo Transformer, MAGVIT, to tackle various video synthesis tasks with a single model. We introduce a 3D tokenizer to quantize a video into spatial-temporal visual tokens and propose an embedding method for masked video token modeling to facilitate multi-task learning. We conduct extensive experiments to demonstrate the quality, efficiency, and flexibility of MAGVIT. Our experiments show that (i) MAGVIT performs favorably against state-of-the-art approaches and establishes the best-published FVD on three video generation benchmarks, including the challenging Kinetics-600. (ii) MAGVIT outperforms existing methods in inference time by two orders of magnitude against diffusion models and by 60x against autoregressive models. (iii) A single MAGVIT model supports ten diverse generation tasks and generalizes across videos from different visual domains. The source code and trained models will be released to the public at https://magvit.cs.cmu.edu.
翻訳日:2022-12-13 16:21:12 公開日:2022-12-10
# 非初期システム構成における前向きソナーモージングのための情報保存ブレンディング法

Information-Preserved Blending Method for Forward-Looking Sonar Mosaicing in Non-Ideal System Configuration ( http://arxiv.org/abs/2212.05216v1 )

ライセンス: Link先を確認
Jiayi Su, Xingbin Tu, Fengzhong Qu, Yan Wei(参考訳) 前向きソナー(FLS)は、高解像度で高いフレームレート特性のため、ほぼボトムに近い近距離水中検査の分野で注目を集めている。 自動目標認識(ATR)アルゴリズムは、オブジェクト探索タスクに仮に適用されているが、特に臨界領域に関わる場合、人間の監督は依然として不可欠である。 疑わしい情報を含む明確なFLSモザイクは、専門家が膨大な知覚データを扱うのを助けるために要求されている。 しかし、以前の研究では、flsは適切なソナー撮像セットアップと正確な測位データの可用性を前提とした理想的なシステム構成でしか動作していない。 これらの約束がなければ、フレーム内およびフレーム間アーティファクトが現れ、興味のある情報が見えないようにすることで最終的なモザイクの品質が低下する。 本稿では,興味のある情報を保存できるflsモザイクのブレンド手法を提案する。 長短時間スライディングウィンドウ(lst-sw)は、生のソナー画像の局所統計を補正するために設計された。 次に統計を利用してグローバル分散マップ(gvm)を構築する。 GVMは、情報および特徴のない画素を分類することにより、ブレンディングフェーズにおける画像に含まれる有用な情報を強調し、最終的なモザイクの品質を向上させる。 本手法は実環境から収集したデータを用いて検証する。 以上の結果から,本手法は人間の検査目的のためにFLSモザイクのさらなる詳細を保存できることがわかった。

Forward-Looking Sonar (FLS) has started to gain attention in the field of near-bottom close-range underwater inspection because of its high resolution and high framerate features. Although Automatic Target Recognition (ATR) algorithms have been applied tentatively for object-searching tasks, human supervision is still indispensable, especially when involving critical areas. A clear FLS mosaic containing all suspicious information is in demand to help experts deal with tremendous perception data. However, previous work only considered that FLS is working in an ideal system configuration, which assumes an appropriate sonar imaging setup and the availability of accurate positioning data. Without those promises, the intra-frame and inter-frame artifacts will appear and degrade the quality of the final mosaic by making the information of interest invisible. In this paper, we propose a novel blending method for FLS mosaicing which can preserve interested information. A Long-Short Time Sliding Window (LST-SW) is designed to rectify the local statistics of raw sonar images. The statistics are then utilized to construct a Global Variance Map (GVM). The GVM helps to emphasize the useful information contained in images in the blending phase by classifying the informative and featureless pixels, thereby enhancing the quality of final mosaic. The method is verified using data collected in the real environment. The results show that our method can preserve more details in FLS mosaics for human inspection purposes in practice.
翻訳日:2022-12-13 16:20:55 公開日:2022-12-10
# リモートセンシング画像における意味変化検出のための関節時空間モデリング

Joint Spatio-Temporal Modeling for Semantic Change Detection in Remote Sensing Images ( http://arxiv.org/abs/2212.05245v1 )

ライセンス: Link先を確認
Lei Ding, Jing Zhang, Kai Zhang, Haitao Guo, Bing Liu and Lorenzo Bruzzone(参考訳) 意味的変化検出(SCD)とは、リモートセンシング画像(RSI)において、変化領域と意味圏(変化の前と後)を同時に抽出するタスクである。 これは、観測領域における詳細な変更分析を可能にするため、バイナリ変更検出(BCD)よりも有意義である。 以前の研究は、SCDのパラダイムとして三分岐畳み込みニューラルネットワーク(CNN)アーキテクチャを確立した。 しかし、限られた量の変更サンプルで意味情報を活用することは依然として困難である。 本研究では,SCDの精度を向上させるため,時空間依存性を協調的に検討する。 まず,バイタイムrsis間の意味遷移を明示的にモデル化するスキャニングフォーマ(semantic change transformer)を提案する。 次に,scdタスクに一貫性のある時空間制約を活用し,意味変化の学習を導くための意味学習方式を提案する。 結果として得られたネットワーク(ScanNet)は、重要な意味的変化の検出と、得られた両時間的結果のセマンティック一貫性の両方において、ベースライン法を著しく上回る。 SCD用の2つのベンチマークデータセット上でSOTA精度を達成する。

Semantic Change Detection (SCD) refers to the task of simultaneously extracting the changed areas and the semantic categories (before and after the changes) in Remote Sensing Images (RSIs). This is more meaningful than Binary Change Detection (BCD) since it enables detailed change analysis in the observed areas. Previous works established triple-branch Convolutional Neural Network (CNN) architectures as the paradigm for SCD. However, it remains challenging to exploit semantic information with a limited amount of change samples. In this work, we investigate to jointly consider the spatio-temporal dependencies to improve the accuracy of SCD. First, we propose a SCanFormer (Semantic Change Transformer) to explicitly model the 'from-to' semantic transitions between the bi-temporal RSIs. Then, we introduce a semantic learning scheme to leverage the spatio-temporal constraints, which are coherent to the SCD task, to guide the learning of semantic changes. The resulting network (ScanNet) significantly outperforms the baseline method in terms of both detection of critical semantic changes and semantic consistency in the obtained bi-temporal results. It achieves the SOTA accuracy on two benchmark datasets for the SCD.
翻訳日:2022-12-13 16:20:30 公開日:2022-12-10
# 畳み込みニューラルネットワークのためのコンフォメーションマッピングによる画像強調

Image augmentation with conformal mappings for a convolutional neural network ( http://arxiv.org/abs/2212.05258v1 )

ライセンス: Link先を確認
Oona Rainio, Mohamed M.S. Nasser, Matti Vuorinen and Riku Kl\'en(参考訳) 畳み込みニューラルネットワーク(cnn)の正方形画像データの強化のために,その正方形画像を共形マッピングでディスクにマッピングし,その中心を回転させ,そのディスクを保存したm\"obius変換の下でマッピングし,元の正方形に戻した新しい手法を提案する。 このプロセスは、CNNのデータ拡張で使用される典型的な変換と異なり、元の画像の端付近からエリアを除去することによって引き起こされる情報の損失を生じさせない。 ここでは、必要なすべてのマッピングの公式と、画像を変換するためのコードの記述方法の詳細な説明を提供します。 また、シミュレーションデータを用いて新しい手法を試験し、10個の画像のトレーニングデータを40個の画像に増強することにより、統計的に有意な方法で160個の画像の試験セットに対するCNNによる予測における誤差の量を減少させる(p-value=0.0360)。

For augmentation of the square-shaped image data of a convolutional neural network (CNN), we introduce a new method, in which the original images are mapped onto a disk with a conformal mapping, rotated around the center of this disk and mapped under such a M\"obius transformation that preserves the disk, and then mapped back onto their original square shape. This process does not result the loss of information caused by removing areas from near the edges of the original images unlike the typical transformations used in the data augmentation for a CNN. We offer here the formulas of all the mappings needed together with detailed instructions how to write a code for transforming the images. The new method is also tested with simulated data and, according the results, using this method to augment the training data of 10 images into 40 images decreases the amount of the error in the predictions by a CNN for a test set of 160 images in a statistically significant way (p-value=0.0360).
翻訳日:2022-12-13 16:20:09 公開日:2022-12-10
# 独立層正規化を必要とする位置埋め込み

Position Embedding Needs an Independent Layer Normalization ( http://arxiv.org/abs/2212.05262v1 )

ライセンス: Link先を確認
Runyi Yu, Zhennan Wang, Yinhuai Wang, Kehan Li, Yian Zhao, Jian Zhang, Guoli Song, Jie Chen(参考訳) 位置埋め込み (PE) は視覚変換器 (VT) にとって, 自己アテンション操作の置換不変性のために重要である。 再パラメータ化と可視化により,各エンコーダ層の入力と出力をVTで解析することにより,既定のPE結合法(PEの追加とパッチの埋め込み)が,PEの表現性を制限し,VTの性能を制約するトークン埋め込みとPEへの同一のアフィン変換を行うことがわかった。 この制限を克服するために、単純で効果的で堅牢な手法を提案する。 具体的には、各層に対してトークン埋め込みのための2つの独立したレイヤ正規化とPEを提供し、各層のMuti-Head Self-Attentionモジュールの入力としてそれらを統合する。 この手法により,peの情報を異なる層に対して適応的に調整できるため,lapeと略される層適応位置埋め込み (layer-adaptive position embedded) と呼ぶ。 大規模な実験により、LaPEは異なるタイプのPEで様々なVTを改良し、PEタイプに対してVTを堅牢化できることが示されている。 例えば、LaPEはCifar10上のViT-Liteの0.94%、Cifar100上のCCTの0.98%、ImageNet-1K上のDeiTの1.72%の精度を改善している。 コードはhttps://github.com/Ingrid725/LaPEで公開されている。

The Position Embedding (PE) is critical for Vision Transformers (VTs) due to the permutation-invariance of self-attention operation. By analyzing the input and output of each encoder layer in VTs using reparameterization and visualization, we find that the default PE joining method (simply adding the PE and patch embedding together) operates the same affine transformation to token embedding and PE, which limits the expressiveness of PE and hence constrains the performance of VTs. To overcome this limitation, we propose a simple, effective, and robust method. Specifically, we provide two independent layer normalizations for token embeddings and PE for each layer, and add them together as the input of each layer's Muti-Head Self-Attention module. Since the method allows the model to adaptively adjust the information of PE for different layers, we name it as Layer-adaptive Position Embedding, abbreviated as LaPE. Extensive experiments demonstrate that LaPE can improve various VTs with different types of PE and make VTs robust to PE types. For example, LaPE improves 0.94% accuracy for ViT-Lite on Cifar10, 0.98% for CCT on Cifar100, and 1.72% for DeiT on ImageNet-1K, which is remarkable considering the negligible extra parameters, memory and computational cost brought by LaPE. The code is publicly available at https://github.com/Ingrid725/LaPE.
翻訳日:2022-12-13 16:19:50 公開日:2022-12-10
# マルチセム融合:3次元物体検出のためのマルチモーダルセマンティクス融合

Multi-Sem Fusion: Multimodal Semantic Fusion for 3D Object Detection ( http://arxiv.org/abs/2212.05265v1 )

ライセンス: Link先を確認
Shaoqing Xu, Dingfu Zhou, Jin Fang, Pengcheng Wang, Liangjun Zhang(参考訳) LiDARベースの3Dオブジェクト検出器は多くのベンチマークで目覚ましい性能を達成しているが、マルチセンサーフュージョンベースの技術はその結果をさらに改善することを約束している。 最近提案されたフレームワークであるPointPaintingは、絵画操作により2次元画像から3次元LiDARポイントに意味情報を付加し、検出性能を向上させる。 しかし, 2次元特徴写像の解像度が限られているため, 2次元意味セグメンテーションを3次元点雲に再投影する場合, 境界フラリング効果が強い。 この制限をうまく処理するために、2D画像と3Dポイントのシーン解析結果の両方から意味情報を融合する汎用多モード融合フレームワーク MSF が提案されている。 特に、msfは3つの主要なモジュールを含んでいる。 まず,SOTAオフザシェルフ2D/3Dセマンティックセグメンテーション手法を用いて,2次元画像と3次元点雲の解析結果を生成する。 2Dセマンティック情報は、校正パラメータを持つ3Dポイントクラウドにさらに再投影される。 2次元解析結果と3次元解析結果の不一致に対処するために,適応融合スコアを学習し,aafモジュールを提案する。 次に、融合意味ラベル付きポイントクラウドを、以下の3dオブジェクト検出器に送信する。 さらに,最終検出性能を高めるために,異なるレベルの深い特徴を集約するDFFモジュールを提案する。 このフレームワークの有効性は,2つの大規模オブジェクト検出ベンチマークにおいて,異なるベースラインとの比較により検証されている。 実験の結果,提案手法は点群のみを用いた手法や2次元意味情報のみを用いた手法に比べて検出性能が著しく向上することがわかった。 最も重要なことは、提案手法が他のアプローチよりも大幅に優れ、nuScenesテストベンチマークに新しいSOTA結果を設定することである。

LiDAR-based 3D Object detectors have achieved impressive performances in many benchmarks, however, multisensors fusion-based techniques are promising to further improve the results. PointPainting, as a recently proposed framework, can add the semantic information from the 2D image into the 3D LiDAR point by the painting operation to boost the detection performance. However, due to the limited resolution of 2D feature maps, severe boundary-blurring effect happens during re-projection of 2D semantic segmentation into the 3D point clouds. To well handle this limitation, a general multimodal fusion framework MSF has been proposed to fuse the semantic information from both the 2D image and 3D points scene parsing results. Specifically, MSF includes three main modules. First, SOTA off-the-shelf 2D/3D semantic segmentation approaches are employed to generate the parsing results for 2D images and 3D point clouds. The 2D semantic information is further re-projected into the 3D point clouds with calibrated parameters. To handle the misalignment between the 2D and 3D parsing results, an AAF module is proposed to fuse them by learning an adaptive fusion score. Then the point cloud with the fused semantic label is sent to the following 3D object detectors. Furthermore, we propose a DFF module to aggregate deep features in different levels to boost the final detection performance. The effectiveness of the framework has been verified on two public large-scale 3D object detection benchmarks by comparing with different baselines. The experimental results show that the proposed fusion strategies can significantly improve the detection performance compared to the methods using only point clouds and the methods using only 2D semantic information. Most importantly, the proposed approach significantly outperforms other approaches and sets new SOTA results on the nuScenes testing benchmark.
翻訳日:2022-12-13 16:19:22 公開日:2022-12-10
# AIソフトウェアにおけるドメイン言語モデル構築のための統一知識グラフサービス

A Unified Knowledge Graph Service for Developing Domain Language Models in AI Software ( http://arxiv.org/abs/2212.05251v1 )

ライセンス: Link先を確認
Ruiqing Ding, Xiao Han, Leye Wang(参考訳) 自然言語処理(nlp)は、aiソフトウェアのコア技術の一つである。 AIがますます多くのドメインに適用されているため、高品質なドメイン固有言語モデルを効率的に開発する方法は、AIソフトウェアエンジニアリングにおいて重要な問題となっている。 既存のドメイン特化言語モデルの開発プロセスは、主にドメイン特化事前学習言語モデル(plm)の学習に焦点を当てています。 ドメイン知識グラフを用いてタスク固有のトレーニング手順を強化することで、統一的でローコードなドメイン言語モデル開発サービスであるknowledgedaを提案する。 ユーザが入力するドメイン固有のタスクテキストが与えられた場合、knowledgedaは以下の3ステップでドメイン固有の言語モデルを自動的に生成する。 (i)埋め込み類似性アプローチによるテキスト中のドメイン知識エンティティのローカライズ (ii)知識グラフとトレーニングデータの2つのビューから置換可能なドメインエンティティペアを検索することにより、拡張されたサンプルを生成する。 (iii)信頼度に基づく評価による微調整のための高品質拡張現実サンプルを選択する。 我々は、医療とソフトウェア開発という2つの分野の言語モデルを学ぶために、KnowledgeDAのプロトタイプを実装します。 ドメイン固有の5つのNLPタスクの実験は、KnowledgeDAの有効性と一般化性を検証する。 (コード公開はhttps://github.com/RuiqingDing/KnowledgeDA)。

Natural Language Processing (NLP) is one of the core techniques in AI software. As AI is being applied to more and more domains, how to efficiently develop high-quality domain-specific language models becomes a critical question in AI software engineering. Existing domain-specific language model development processes mostly focus on learning a domain-specific pre-trained language model (PLM); when training the domain task-specific language model based on PLM, only a direct (and often unsatisfactory) fine-tuning strategy is adopted commonly. By enhancing the task-specific training procedure with domain knowledge graphs, we propose KnowledgeDA, a unified and low-code domain language model development service. Given domain-specific task texts input by a user, KnowledgeDA can automatically generate a domain-specific language model following three steps: (i) localize domain knowledge entities in texts via an embedding-similarity approach; (ii) generate augmented samples by retrieving replaceable domain entity pairs from two views of both knowledge graph and training data; (iii) select high-quality augmented samples for fine-tuning via confidence-based assessment. We implement a prototype of KnowledgeDA to learn language models for two domains, healthcare and software development. Experiments on five domain-specific NLP tasks verify the effectiveness and generalizability of KnowledgeDA. (Code is publicly available at https://github.com/RuiqingDing/KnowledgeDA.)
翻訳日:2022-12-13 16:02:30 公開日:2022-12-10
# ファクト検証のための自然論理誘導型自己回帰マルチホップ文書検索

Natural Logic-guided Autoregressive Multi-hop Document Retrieval for Fact Verification ( http://arxiv.org/abs/2212.05276v1 )

ライセンス: Link先を確認
Rami Aly and Andreas Vlachos(参考訳) 事実検証の鍵となる要素は、しばしば複数の文書から証拠検索である。 最近の手法では、より密集した表現と、以前検索した文書の検索条件を用いる。 後者のステップはコレクション内のすべてのドキュメント上で実行され、密度の高い表現をインデックスに格納する必要があるため、メモリフットプリントが高い。 別のパラダイムとして、BM25のような方法で文書を検索し、それらの文を再参照し、さらに文書をこれらの文で条件付きで検索することで、メモリ要求を減らします。 しかし、そのようなアプローチはヒューリスティックに頼り、文書間のハイパーリンクを仮定するため、脆弱である。 自己回帰的定式化を用いて, 知識ソース内の文書と, 予め検索した文書からの文を共同でスコア付けし, 証拠が十分と判断された場合, 検索プロセスを動的に終了させる自然論理に基づく証明システムにより案内する検索者からなる, マルチホップ検索のための新しい検索・リランク法を提案する。 この方法は、FEVER、HoVer、FEVEROUS-Sの現在の最先端の手法と競合し、競合するシステムに比べて5ドルから10ドル安いメモリを使用する。 対戦型データセットの評価は, 一般的に展開されるしきい値に基づく手法と比較して, アプローチの安定性が向上したことを示している。 最後に、証明システムは、証拠のみを使用するよりも、モデル決定を正しく予測するのに役立つ。

A key component of fact verification is thevevidence retrieval, often from multiple documents. Recent approaches use dense representations and condition the retrieval of each document on the previously retrieved ones. The latter step is performed over all the documents in the collection, requiring storing their dense representations in an index, thus incurring a high memory footprint. An alternative paradigm is retrieve-and-rerank, where documents are retrieved using methods such as BM25, their sentences are reranked, and further documents are retrieved conditioned on these sentences, reducing the memory requirements. However, such approaches can be brittle as they rely on heuristics and assume hyperlinks between documents. We propose a novel retrieve-and-rerank method for multi-hop retrieval, that consists of a retriever that jointly scores documents in the knowledge source and sentences from previously retrieved documents using an autoregressive formulation and is guided by a proof system based on natural logic that dynamically terminates the retrieval process if the evidence is deemed sufficient. This method is competitive with current state-of-the-art methods on FEVER, HoVer and FEVEROUS-S, while using $5$ to $10$ times less memory than competing systems. Evaluation on an adversarial dataset indicates improved stability of our approach compared to commonly deployed threshold-based methods. Finally, the proof system helps humans predict model decisions correctly more often than using the evidence alone.
翻訳日:2022-12-13 16:02:10 公開日:2022-12-10
# シンガポールのスポンケン語に対する句読点復元:英語、マレー語、マンダリン語

Punctuation Restoration for Singaporean Spoken Languages: English, Malay, and Mandarin ( http://arxiv.org/abs/2212.05356v1 )

ライセンス: Link先を確認
Abhinav Rao, Ho Thi-Nga, Chng Eng-Siong(参考訳) 本稿では,多言語 ASR システムにより生成された ASR 転写文の句読解作業について述べる。 焦点言語は英語、マンダ語、マレー語であり、シンガポールで最も人気のある言語である。 我々の知る限りでは、これら3つの言語の句読点復元を同時に行うことができる最初のシステムである。 従来の手法では、タスクをシーケンシャルなラベリングタスクとして扱うが、この手法では各単語境界における句読点の存在と種類を予測するスロット充足アプローチを採用する。 この手法は, BERTの事前学習段階におけるMasked-Language Modelアプローチと似ているが, マスク付き単語を予測する代わりに, マスク付き句読影を予測する。 さらに,XLM-R の SentencePiece トークンを組み込んだだけでは使用せず Jieba1 を用いることで,マンダリン文字の句読取性能が大幅に向上することがわかった。 英語とマンダリンIWSLT2022データセットとマレー・ニュースの実験結果によると、提案された手法は、英語とマレー語でそれぞれ73.8%のF1スコア、すなわち74.7%と78%の適度なF1スコアを維持した。 結果を再現し、デモ目的でシンプルなWebベースのアプリケーションを構築することのできるソースコードはGithubで公開されている。

This paper presents the work of restoring punctuation for ASR transcripts generated by multilingual ASR systems. The focus languages are English, Mandarin, and Malay which are three of the most popular languages in Singapore. To the best of our knowledge, this is the first system that can tackle punctuation restoration for these three languages simultaneously. Traditional approaches usually treat the task as a sequential labeling task, however, this work adopts a slot-filling approach that predicts the presence and type of punctuation marks at each word boundary. The approach is similar to the Masked-Language Model approach employed during the pre-training stages of BERT, but instead of predicting the masked word, our model predicts masked punctuation. Additionally, we find that using Jieba1 instead of only using the built-in SentencePiece tokenizer of XLM-R can significantly improve the performance of punctuating Mandarin transcripts. Experimental results on English and Mandarin IWSLT2022 datasets and Malay News show that the proposed approach achieved state-of-the-art results for Mandarin with 73.8% F1-score while maintaining a reasonable F1-score for English and Malay, i.e. 74.7% and 78% respectively. Our source code that allows reproducing the results and building a simple web-based application for demonstration purposes is available on Github.
翻訳日:2022-12-13 16:01:46 公開日:2022-12-10
# 非構造化知識アクセスを用いたタスク指向対話における話題認識応答生成

Topic-Aware Response Generation in Task-Oriented Dialogue with Unstructured Knowledge Access ( http://arxiv.org/abs/2212.05373v1 )

ライセンス: Link先を確認
Yue Feng, Gerasimos Lampouras, Ignacio Iacobacci(参考訳) 構造化データベースの限定的なカバレッジの問題を緩和するため、最近のタスク指向対話システムは、システム応答の生成を導くために外部の非構造化知識を取り入れている。 しかし、これらは通常、単語や文レベルの類似性を使用して関連する知識コンテキストを検出し、トピックレベルの関連性を部分的に捉えるだけである。 本稿では,課題指向対話における話題情報をよりよく統合する方法について検討し,エンドツーエンドの応答生成モデルである 'トピック・アウェア・レスポンス生成' (TARG) を提案する。 TARGは、対話履歴をよりよく理解するために、対話発話や外部知識ソースよりも重要度重み付け方式を導出するために、複数の話題対応の注意機構を取り入れている。 実験結果から,TARGは知識選択および応答生成における最先端性能を達成し,EM,F1,BLEU-4の3.2,3.6,4.2ポイントをDoc2Dial上でそれぞれ上回り,DSTC9における従来の作業と相容れない性能を実現した。

To alleviate the problem of structured databases' limited coverage, recent task-oriented dialogue systems incorporate external unstructured knowledge to guide the generation of system responses. However, these usually use word or sentence level similarities to detect the relevant knowledge context, which only partially capture the topical level relevance. In this paper, we examine how to better integrate topical information in knowledge grounded task-oriented dialogue and propose ``Topic-Aware Response Generation'' (TARG), an end-to-end response generation model. TARG incorporates multiple topic-aware attention mechanisms to derive the importance weighting scheme over dialogue utterances and external knowledge sources towards a better understanding of the dialogue history. Experimental results indicate that TARG achieves state-of-the-art performance in knowledge selection and response generation, outperforming previous state-of-the-art by 3.2, 3.6, and 4.2 points in EM, F1 and BLEU-4 respectively on Doc2Dial, and performing comparably with previous work on DSTC9; both being knowledge-grounded task-oriented dialogue datasets.
翻訳日:2022-12-13 16:01:15 公開日:2022-12-10
# スペクトルリスク測度の確率的最適化

Stochastic Optimization for Spectral Risk Measures ( http://arxiv.org/abs/2212.05149v1 )

ライセンス: Link先を確認
Ronak Mehta, Vincent Roulet, Krishna Pillutla, Lang Liu, Zaid Harchaoui(参考訳) スペクトルリスク目標(別名$L$-risks)は、平均ケースパフォーマンスの最適化(経験的リスク最小化など)とタスクにおける最悪のケースパフォーマンスの相互比較を可能にする。 我々は,それらの部分微分を特徴付けることで,それらの量を最適化する確率的アルゴリズムを開発し,その課題に対処した。 確率的劣次法や双対平均法のような既定のアプローチがバイアスによって妨げられ、我々のアプローチがそれらを上回っていることを理論的および実験的に示す。

Spectral risk objectives - also called $L$-risks - allow for learning systems to interpolate between optimizing average-case performance (as in empirical risk minimization) and worst-case performance on a task. We develop stochastic algorithms to optimize these quantities by characterizing their subdifferential and addressing challenges such as biasedness of subgradient estimates and non-smoothness of the objective. We show theoretically and experimentally that out-of-the-box approaches such as stochastic subgradient and dual averaging are hindered by bias and that our approach outperforms them.
翻訳日:2022-12-13 15:54:21 公開日:2022-12-10
# グラフ規則化マニフォールド対応条件付きワッサースタインGANによる脳機能結合生成

Graph-Regularized Manifold-Aware Conditional Wasserstein GAN for Brain Functional Connectivity Generation ( http://arxiv.org/abs/2212.05316v1 )

ライセンス: Link先を確認
Yee-Fan Tan, Chee-Ming Ting, Fuad Noman, Rapha\"el C.-W. Phan, and Hernando Ombao(参考訳) 共分散および相関行列を含む脳機能接続(FC)の一般的な尺度は、円錐形リーマン多様体上の半正定値行列である。 ユークリッド値データ生成において顕著な成功を収めたにもかかわらず、多様体値のFCデータを生成するために標準生成逆数ネットワーク(GAN)を使用することは、その固有のSPD構造を無視し、したがって実FCにおけるエッジの相互関連性を無視する。 本研究では,大域的なFC構造を保存可能なSPD多様体上でのFCデータ生成のための新しいグラフ正規化型条件付きWasserstein GAN(GR-SPD-GAN)を提案する。 具体的には,実データと生成されたspdデータ間の一般化されたwasserstein距離を,クラスラベルを条件とした敵対的トレーニングにより最適化する。 生成されたジェネレータは、脳障害や健康管理など、脳ネットワークの様々なクラスに関連する新しいSPD値のFC行列を合成することができる。 さらに,SPD多様体とその接空間について,さらに人口グラフに基づく正規化項を導入し,実データにおけるFCパターンのオブジェクト間類似性を尊重することを奨励する。 また、モード崩壊を回避し、より安定したGANトレーニングを生成する。 大うつ病(MDD)の静止状態機能的MRI(fMRI)データを定量的に評価した結果、GR-SPD-GANは、より現実的なfMRIベースのFCサンプルを生成する上で、いくつかの最先端のGANよりも明らかに優れていることが示された。 MDD識別のためのFCデータ拡張に適用した場合,本手法により得られた拡張データに基づいて学習した分類モデルは,データ拡張を伴わないベースライン上でのGAN間の分類精度を最大に向上させることができた。

Common measures of brain functional connectivity (FC) including covariance and correlation matrices are semi-positive definite (SPD) matrices residing on a cone-shape Riemannian manifold. Despite its remarkable success for Euclidean-valued data generation, use of standard generative adversarial networks (GANs) to generate manifold-valued FC data neglects its inherent SPD structure and hence the inter-relatedness of edges in real FC. We propose a novel graph-regularized manifold-aware conditional Wasserstein GAN (GR-SPD-GAN) for FC data generation on the SPD manifold that can preserve the global FC structure. Specifically, we optimize a generalized Wasserstein distance between the real and generated SPD data under an adversarial training, conditioned on the class labels. The resulting generator can synthesize new SPD-valued FC matrices associated with different classes of brain networks, e.g., brain disorder or healthy control. Furthermore, we introduce additional population graph-based regularization terms on both the SPD manifold and its tangent space to encourage the generator to respect the inter-subject similarity of FC patterns in the real data. This also helps in avoiding mode collapse and produces more stable GAN training. Evaluated on resting-state functional magnetic resonance imaging (fMRI) data of major depressive disorder (MDD), qualitative and quantitative results show that the proposed GR-SPD-GAN clearly outperforms several state-of-the-art GANs in generating more realistic fMRI-based FC samples. When applied to FC data augmentation for MDD identification, classification models trained on augmented data generated by our approach achieved the largest margin of improvement in classification accuracy among the competing GANs over baselines without data augmentation.
翻訳日:2022-12-13 15:52:48 公開日:2022-12-10
# elixir: 小さなgpuクラスタで大規模な言語モデルをトレーニングする

Elixir: Train a Large Language Model on a Small GPU Cluster ( http://arxiv.org/abs/2212.05339v1 )

ライセンス: Link先を確認
Haichen Huang and Jiarui Fang and Hongxin Liu and Shenggui Li and Yang You(参考訳) 近年,1つのディープラーニング(DL)モデルのパラメータの数は,GPUメモリ空間の成長よりもはるかに速く成長している。 多数のGPUにアクセスできない人は、CPUメモリにモデルパラメータを格納するための異種トレーニングシステムを利用する。 既存の異種系は、モデル全体のスコープにおける並列化計画に基づいている。 計算におけるすべての演算子に対して一貫した並列トレーニング手法を適用する。 したがって、新しいタイプのモデル並列性を導入し、他の並列性との互換性にパッチを当てるために、エンジニアは多大な努力を払う必要がある。 例えば、Mixture-of-Experts (MoE)はDeepspeedのZeRO-3と互換性がない。 また、現在のシステムは大規模トレーニング用に設計・調整されているため、小規模で効率上の問題に直面している。 本稿では,効率と柔軟性を念頭に設計された新しい並列異種学習システムelixirを提案する。 elixirはgpuとcpuの両方のメモリリソースと計算リソースを利用する。 柔軟性のために、Elixirは演算子の粒度の並列化計画を生成する。 新しいタイプのモデル並列処理は、演算子に並列パターンを割り当てることで組み込むことができる。 効率を上げるために、Elixirは階層的な分散メモリ管理スキームを実装し、GPU間通信とCPU-GPUデータ転送を高速化する。 その結果、Elixirは40GBのCUDAメモリを備えたA100上で30BのOPTモデルをトレーニングでき、Pytorch GPUトレーニングの効率は84%に達した。 超線形スケーラビリティにより、トレーニング効率は複数のgpu上のpytorch gpuトレーニングと同じになる。 また、大きなmoeモデルは、同じサイズの高密度モデルよりも5.3倍高速に訓練できる。 現在、ElixirはColossalAIに統合されており、メインブランチで利用できる。

In recent years, the number of parameters of one deep learning (DL) model has been growing much faster than the growth of GPU memory space. People who are inaccessible to a large number of GPUs resort to heterogeneous training systems for storing model parameters in CPU memory. Existing heterogeneous systems are based on parallelization plans in the scope of the whole model. They apply a consistent parallel training method for all the operators in the computation. Therefore, engineers need to pay a huge effort to incorporate a new type of model parallelism and patch its compatibility with other parallelisms. For example, Mixture-of-Experts (MoE) is still incompatible with ZeRO-3 in Deepspeed. Also, current systems face efficiency problems on small scale, since they are designed and tuned for large-scale training. In this paper, we propose Elixir, a new parallel heterogeneous training system, which is designed for efficiency and flexibility. Elixir utilizes memory resources and computing resources of both GPU and CPU. For flexibility, Elixir generates parallelization plans in the granularity of operators. Any new type of model parallelism can be incorporated by assigning a parallel pattern to the operator. For efficiency, Elixir implements a hierarchical distributed memory management scheme to accelerate inter-GPU communications and CPU-GPU data transmissions. As a result, Elixir can train a 30B OPT model on an A100 with 40GB CUDA memory, meanwhile reaching 84% efficiency of Pytorch GPU training. With its super-linear scalability, the training efficiency becomes the same as Pytorch GPU training on multiple GPUs. Also, large MoE models can be trained 5.3x faster than dense models of the same size. Now Elixir is integrated into ColossalAI and is available on its main branch.
翻訳日:2022-12-13 15:44:36 公開日:2022-12-10
# 音声の残響改善のための合成波-幾何インパルス応答

Synthetic Wave-Geometric Impulse Responses for Improved Speech Dereverberation ( http://arxiv.org/abs/2212.05360v1 )

ライセンス: Link先を確認
Rohith Aralikatti, Zhenyu Tang, Dinesh Manocha(参考訳) 本稿では,正確な合成データセットを用いた学習に基づく発話の残響性向上のための新しい手法を提案する。 本稿では,残響音声信号から残響のない信号を復元する手法を提案する。 室内インパルス応答 (rirs) の低周波成分を正確にシミュレートすることは, 良好な収差を達成する上で重要である。 我々は、合成RIRをハイブリッド方式で生成したGWAデータセットを用いて、より低い周波数をシミュレートする正確なウェーブベースソルバと、高い周波数をシミュレートする幾何的レイトレーシング手法を用いる。 本研究では,4つの実世界のRIRデータセット上での幾何線トレーシング法により学習されたRIRに対して,ハイブリッド合成RIRで訓練された音声の残響モデルが,RIRで訓練されたモデルよりも優れていることを示す。

We present a novel approach to improve the performance of learning-based speech dereverberation using accurate synthetic datasets. Our approach is designed to recover the reverb-free signal from a reverberant speech signal. We show that accurately simulating the low-frequency components of Room Impulse Responses (RIRs) is important to achieving good dereverberation. We use the GWA dataset that consists of synthetic RIRs generated in a hybrid fashion: an accurate wave-based solver is used to simulate the lower frequencies and geometric ray tracing methods simulate the higher frequencies. We demonstrate that speech dereverberation models trained on hybrid synthetic RIRs outperform models trained on RIRs generated by prior geometric ray tracing methods on four real-world RIR datasets.
翻訳日:2022-12-13 15:44:14 公開日:2022-12-10
# コンピュータビジョンにおけるアルゴリズムの進歩

Algorithmic progress in computer vision ( http://arxiv.org/abs/2212.05153v1 )

ライセンス: Link先を確認
Ege Erdil and Tamay Besiroglu(参考訳) コンピュータビジョンにおける最もよく知られたテストベッドであるImageNetの画像分類のアルゴリズム的進歩について検討する。 我々は、ニューラルスケーリング法則の作業によって知らされるモデルを推定し、計算、データ、アルゴリズムのスケーリングにおける進捗の分解を推測する。 シェープ値を用いて性能向上を図った結果,アルゴリズムの改良はコンピュータビジョンの進歩における計算のスケーリングと同じくらい重要であった。 我々の推定では、アルゴリズムの革新は、主に、データ強化アルゴリズムの進歩ではなく、計算増強アルゴリズムの進歩(研究者が少ない計算でより良いパフォーマンスを得ることを可能にする)の形式を採っている。 計算推論アルゴリズムの進歩はムーアの法則に付随する速度の2倍以上の速さで実現されていることが判明した。 特に,9ヶ月毎の計算要件(95%信頼区間:4~25ヶ月)を計算・提示するイノベーションが半減していると推定した。

We investigate algorithmic progress in image classification on ImageNet, perhaps the most well-known test bed for computer vision. We estimate a model, informed by work on neural scaling laws, and infer a decomposition of progress into the scaling of compute, data, and algorithms. Using Shapley values to attribute performance improvements, we find that algorithmic improvements have been roughly as important as the scaling of compute for progress computer vision. Our estimates indicate that algorithmic innovations mostly take the form of compute-augmenting algorithmic advances (which enable researchers to get better performance from less compute), not data-augmenting algorithmic advances. We find that compute-augmenting algorithmic advances are made at a pace more than twice as fast as the rate usually associated with Moore's law. In particular, we estimate that compute-augmenting innovations halve compute requirements every nine months (95\% confidence interval: 4 to 25 months).
翻訳日:2022-12-13 15:36:04 公開日:2022-12-10
# QESK:グラフ分類のための量子ベースのエントロピーサブツリーカーネル

QESK: Quantum-based Entropic Subtree Kernels for Graph Classification ( http://arxiv.org/abs/2212.05228v1 )

ライセンス: Link先を確認
Lu Bai, Lixin Cui, Edwin R. Hancock(参考訳) 本稿では,グラフ分類のための新しいグラフカーネル,すなわち量子ベースのEntropic Subtree Kernel (QESK)を提案する。 この目的のために、各グラフ構造上で進化した連続時間量子ウォーク(CTQW)の平均混合行列(AMM)を計算して開始する。 さらに、このAMM行列を用いて、古典的なWeisfeiler-Lehman (WL)アルゴリズムに関連する一連のエントロピー部分木表現を計算する方法を示す。 一対のグラフに対して、qeskカーネルは、それらのエントロピー部分木表現の間の負ユークリッド距離の指数を計算し、理論的には正の定値グラフカーネルとなる。 提案したQESKカーネルは,CTQWを介して,複雑な固有量子ベースのグラフ構造特性をカプセル化するだけでなく,最先端のR-畳み込みグラフカーネルに生じる非共有サブ構造の影響を無視する欠点を理論的に解決する。 さらに、古典的なR-畳み込みカーネルとは異なり、提案されたQESKは、大域グラフ構造の観点から同型部分木の区別を識別することができ、その効果を理論的に説明できる。 実験により,提案するqeskカーネルは,最先端のグラフカーネルやグラフ分類問題に対するグラフ深層学習手法を大きく上回ることが示された。

In this paper, we propose a novel graph kernel, namely the Quantum-based Entropic Subtree Kernel (QESK), for Graph Classification. To this end, we commence by computing the Average Mixing Matrix (AMM) of the Continuous-time Quantum Walk (CTQW) evolved on each graph structure. Moreover, we show how this AMM matrix can be employed to compute a series of entropic subtree representations associated with the classical Weisfeiler-Lehman (WL) algorithm. For a pair of graphs, the QESK kernel is defined by computing the exponentiation of the negative Euclidean distance between their entropic subtree representations, theoretically resulting in a positive definite graph kernel. We show that the proposed QESK kernel not only encapsulates complicated intrinsic quantum-based structural characteristics of graph structures through the CTQW, but also theoretically addresses the shortcoming of ignoring the effects of unshared substructures arising in state-of-the-art R-convolution graph kernels. Moreover, unlike the classical R-convolution kernels, the proposed QESK can discriminate the distinctions of isomorphic subtrees in terms of the global graph structures, theoretically explaining the effectiveness. Experiments indicate that the proposed QESK kernel can significantly outperform state-of-the-art graph kernels and graph deep learning methods for graph classification problems.
翻訳日:2022-12-13 15:28:34 公開日:2022-12-10
# CALIME:Causality-Aware Local Interpretable Model-Agnostic Explanations

CALIME: Causality-Aware Local Interpretable Model-Agnostic Explanations ( http://arxiv.org/abs/2212.05256v1 )

ライセンス: Link先を確認
Martina Cinquini, Riccardo Guidotti(参考訳) eXplainable Artificial Intelligence (XAI)アプローチの重大な欠点は、機能独立の仮定である。 本稿では,xai手法に因果知識を統合することで,ユーザによる説明の質評価を支援する。 本稿では,入力インスタンス周辺で生成されたデータの因果関係を明示的にエンコードする,広く使用される局所的およびモデル非依存な説明器への新たな拡張を提案する。 実験結果から,ブラックボックスの再現性と説明の安定性の両面において,初期手法と比較して優れた性能が得られた。

A significant drawback of eXplainable Artificial Intelligence (XAI) approaches is the assumption of feature independence. This paper focuses on integrating causal knowledge in XAI methods to increase trust and help users assess explanations' quality. We propose a novel extension to a widely used local and model-agnostic explainer that explicitly encodes causal relationships in the data generated around the input instance to explain. Extensive experiments show that our method achieves superior performance comparing the initial one for both the fidelity in mimicking the black-box and the stability of the explanations.
翻訳日:2022-12-13 15:28:09 公開日:2022-12-10
# マルチエージェント強化学習におけるスペクトル正規化の効果

Effects of Spectral Normalization in Multi-agent Reinforcement Learning ( http://arxiv.org/abs/2212.05331v1 )

ライセンス: Link先を確認
Kinal Mehta, Anuj Mahajan, Pawan Kumar(参考訳) 信頼できる批評家は、オン・ポリティカルな俳優-批評学習の中心である。 しかし、2つの要因により,マルチエージェントのスパース報酬シナリオにおいて,信頼できる批評家を学ぶことは困難になる。 1) 協調作用空間はエージェントの数で指数関数的に増加する 2) 報酬のばらばらさと環境騒音が組み合わさって, 正確な学習に大量のサンプルが必要となる。 スペクトル正規化 (SN) による批判の正規化は, マルチエージェントによるスパース報酬シナリオにおいても, より堅牢な学習を可能にすることを示す。 実験の結果,レギュラー化された批評家は,複雑なsmacおよびrwareドメインにおけるスパースな報酬経験から素早く学習できることがわかった。 これらの知見は,安定学習批判における正規化の重要性を浮き彫りにした。

A reliable critic is central to on-policy actor-critic learning. But it becomes challenging to learn a reliable critic in a multi-agent sparse reward scenario due to two factors: 1) The joint action space grows exponentially with the number of agents 2) This, combined with the reward sparseness and environment noise, leads to large sample requirements for accurate learning. We show that regularising the critic with spectral normalization (SN) enables it to learn more robustly, even in multi-agent on-policy sparse reward scenarios. Our experiments show that the regularised critic is quickly able to learn from the sparse rewarding experience in the complex SMAC and RWARE domains. These findings highlight the importance of regularisation in the critic for stable learning.
翻訳日:2022-12-13 15:27:57 公開日:2022-12-10
# REVEAL:マルチソースマルチモーダル知識メモリによる検索拡張ビジュアルランゲージ事前学習

REVEAL: Retrieval-Augmented Visual-Language Pre-Training with Multi-Source Multimodal Knowledge Memory ( http://arxiv.org/abs/2212.05221v1 )

ライセンス: Link先を確認
Ziniu Hu and Ahmet Iscen and Chen Sun and Zirui Wang and Kai-Wei Chang and Yizhou Sun and Cordelia Schmid and David A. Ross and Alireza Fathi(参考訳) 本稿では,世界の知識を大規模メモリにエンコードし,知識集約型クエリに答えるために,エンド・ツー・エンドで検索可能なビジュアル言語モデル(reveal)を提案する。 REVEALは、メモリ、エンコーダ、レシーバー、ジェネレータの4つのキーコンポーネントで構成されている。 大規模メモリは、統一エンコーダを介して多様世界知識(画像テキストペア、質問応答ペア、知識グラフトリプレットなど)の様々なソースを符号化する。 取得者はメモリ内の最も関連する知識エントリを見つけ、取得した知識と入力クエリを融合して出力を生成する。 このアプローチの重要な特徴は、メモリ、エンコーダ、レトリバー、ジェネレータはすべて、大量のデータに対して、エンドツーエンドで事前訓練されていることです。 さらに,本手法では多様なマルチモーダル・ナレッジ・ソースを利用できるため,大きな利得が得られている。 本稿では,REVEALが視覚的質問応答と画像キャプションの最先端化を実現していることを示す。

In this paper, we propose an end-to-end Retrieval-Augmented Visual Language Model (REVEAL) that learns to encode world knowledge into a large-scale memory, and to retrieve from it to answer knowledge-intensive queries. REVEAL consists of four key components: the memory, the encoder, the retriever and the generator. The large-scale memory encodes various sources of multimodal world knowledge (e.g. image-text pairs, question answering pairs, knowledge graph triplets, etc) via a unified encoder. The retriever finds the most relevant knowledge entries in the memory, and the generator fuses the retrieved knowledge with the input query to produce the output. A key novelty in our approach is that the memory, encoder, retriever and generator are all pre-trained end-to-end on a massive amount of data. Furthermore, our approach can use a diverse set of multimodal knowledge sources, which is shown to result in significant gains. We show that REVEAL achieves state-of-the-art results on visual question answering and image captioning.
翻訳日:2022-12-13 15:19:06 公開日:2022-12-10
# 自己スーパービジョンによるプログレッシブ・マルチビューヒューマンメッシュ回復

Progressive Multi-view Human Mesh Recovery with Self-Supervision ( http://arxiv.org/abs/2212.05223v1 )

ライセンス: Link先を確認
Xuan Gong, Liangchen Song, Meng Zheng, Benjamin Planche, Terrence Chen, Junsong Yuan, David Doermann, Ziyan Wu(参考訳) これまでマルチビューの3次元メッシュ推定にはほとんど注意が払われていないが、現実の応用性(モーションキャプチャ、スポーツ分析など)や、シングルビューのあいまいさに対する堅牢性がある。 既存のソリューションは、主にマルチビュートレーニングデータにおける画像-メッシュペアの多様性の制限により、一般化性能の低下と新しい設定に悩まされる。 この欠点に対処するために、人々は合成画像の使用を探求した。 しかし、レンダリングデータとターゲットデータの間の視覚差の通常の影響に加えて、合成データ駆動のマルチビュー推定器は、トレーニング中にサンプリングされたカメラ視点分布に過度にフィットする。 両課題に対処し,マルチビューヒューマンメッシュ回復のためのシミュレーションに基づく新しいトレーニングパイプラインを提案する。 (a)合成-実領域ギャップに対してより堅牢な中間2次元表現に依存する。 (b)より多様なカメラ設備に適応するために学習可能な校正と三角測量を利用する。 (c)2次元表現の曖昧さを取り除くために、徐々に正準3次元空間に多視点情報を集約する。 広範囲なベンチマークを通じて,提案手法の優位性を実証する。

To date, little attention has been given to multi-view 3D human mesh estimation, despite real-life applicability (e.g., motion capture, sport analysis) and robustness to single-view ambiguities. Existing solutions typically suffer from poor generalization performance to new settings, largely due to the limited diversity of image-mesh pairs in multi-view training data. To address this shortcoming, people have explored the use of synthetic images. But besides the usual impact of visual gap between rendered and target data, synthetic-data-driven multi-view estimators also suffer from overfitting to the camera viewpoint distribution sampled during training which usually differs from real-world distributions. Tackling both challenges, we propose a novel simulation-based training pipeline for multi-view human mesh recovery, which (a) relies on intermediate 2D representations which are more robust to synthetic-to-real domain gap; (b) leverages learnable calibration and triangulation to adapt to more diversified camera setups; and (c) progressively aggregates multi-view information in a canonical 3D space to remove ambiguities in 2D representations. Through extensive benchmarking, we demonstrate the superiority of the proposed solution especially for unseen in-the-wild scenarios.
翻訳日:2022-12-13 15:18:48 公開日:2022-12-10
# ループ内の人間による知識グラフの拡張

Expanding Knowledge Graphs with Humans in the Loop ( http://arxiv.org/abs/2212.05189v1 )

ライセンス: Link先を確認
Emaad Manzoor, Jordan Tong, Sriniketh Vijayaraghavan, Rui Li(参考訳) キュレートされた知識グラフはドメインの専門知識を符号化し、いくつかのドメインにおけるレコメンデーション、セグメンテーション、広告ターゲティング、その他の機械学習システムのパフォーマンスを改善する。 ドメインに新しい概念が現れると、機械学習のパフォーマンスを維持するために知識グラフを拡張する必要がある。 しかし、手動で知識グラフを拡大することは、スケールでは不可能である。 本研究では,人間のループを用いた知識グラフ拡張手法を提案する。 具体的には、知識グラフが与えられた場合、このグラフに新たな概念の「親」を予測し、人間の専門家によるさらなる検証を行う。 本手法は正確であり,「人間フレンドリー」であることを示す。 具体的には, 予測が誤りであっても, 知識グラフ上で「近い」概念の真の親である親を予測できることを実証する。 次に、制御された実験により、この特性を満たすことにより、人間とアルゴリズムの協調のスピードと精度が向上することを示す。 さらに,pinterestのナレッジグラフ上での手法を評価し,精度と人間フレンドリー性の両方において競合する手法よりも優れていることを示す。 Pinterestで本番環境に展開すると、知識グラフの拡張に必要な時間を(手作業による拡張と比較して)約400%削減し、その後の広告収入の20%向上に寄与しました。

Curated knowledge graphs encode domain expertise and improve the performance of recommendation, segmentation, ad targeting, and other machine learning systems in several domains. As new concepts emerge in a domain, knowledge graphs must be expanded to preserve machine learning performance. Manually expanding knowledge graphs, however, is infeasible at scale. In this work, we propose a method for knowledge graph expansion with humans-in-the-loop. Concretely, given a knowledge graph, our method predicts the "parents" of new concepts to be added to this graph for further verification by human experts. We show that our method is both accurate and provably "human-friendly". Specifically, we prove that our method predicts parents that are "near" concepts' true parents in the knowledge graph, even when the predictions are incorrect. We then show, with a controlled experiment, that satisfying this property increases both the speed and the accuracy of the human-algorithm collaboration. We further evaluate our method on a knowledge graph from Pinterest and show that it outperforms competing methods on both accuracy and human-friendliness. Upon deployment in production at Pinterest, our method reduced the time needed for knowledge graph expansion by ~400% (compared to manual expansion), and contributed to a subsequent increase in ad revenue of 20%.
翻訳日:2022-12-13 15:16:35 公開日:2022-12-10
# 宇宙におけるニューロモルフィックコンピューティングとセンシング

Neuromorphic Computing and Sensing in Space ( http://arxiv.org/abs/2212.05236v1 )

ライセンス: Link先を確認
Dario Izzo, Alexander Hadjiivanov, Domink Dold, Gabriele Meoni, Emmanuel Blazquez(参考訳) ニューラルモーフィック」という用語は、生物学的ニューラルネットワークのアーキテクチャやダイナミクスによく似ているシステムを指す。 例えば、生物の脳の構造を模倣するように設計された新しいコンピュータチップや、昆虫や哺乳類の視覚系や嗅覚系からインスピレーションを得て環境に関する情報を取得するセンサーなどがある。 This approach is not without ambition as it promises to enable engineered devices able to reproduce the level of performance observed in biological organisms -- the main immediate advantage being the efficient use of scarce resources, which translates into low power requirements. The emphasis on low power and energy efficiency of neuromorphic devices is a perfect match for space applications. Spacecraft -- especially miniaturized ones -- have strict energy constraints as they need to operate in an environment which is scarce with resources and extremely hostile. 本稿では、欧州宇宙機関(esa)のadvanced concepts team(act)において、宇宙環境におけるニューロモルフィックなアプローチを研究するための初期の試みの概要を紹介する。

The term ``neuromorphic'' refers to systems that are closely resembling the architecture and/or the dynamics of biological neural networks. Typical examples are novel computer chips designed to mimic the architecture of a biological brain, or sensors that get inspiration from, e.g., the visual or olfactory systems in insects and mammals to acquire information about the environment. This approach is not without ambition as it promises to enable engineered devices able to reproduce the level of performance observed in biological organisms -- the main immediate advantage being the efficient use of scarce resources, which translates into low power requirements. The emphasis on low power and energy efficiency of neuromorphic devices is a perfect match for space applications. Spacecraft -- especially miniaturized ones -- have strict energy constraints as they need to operate in an environment which is scarce with resources and extremely hostile. In this work we present an overview of early attempts made to study a neuromorphic approach in a space context at the European Space Agency's (ESA) Advanced Concepts Team (ACT).
翻訳日:2022-12-13 14:59:59 公開日:2022-12-10
# 複数のトレーニング戦略を用いた人工テキスト検出

Artificial Text Detection with Multiple Training Strategies ( http://arxiv.org/abs/2212.05194v1 )

ライセンス: Link先を確認
Bin Li, Yixuan Weng, Qiya Song and Hanjun Deng(参考訳) ディープラーニングが急速に普及するにつれて、生成モデルによって生成された人工テキストは、ニュースやソーシャルメディアで一般的に使われている。 しかし、そのようなモデルは、製品レビュー、偽ニュース、さらには偽の政治コンテンツを生成するために悪用される可能性がある。 本稿では,対話共有タスク2022(RuATD 2022)におけるロシア語人工テキスト検出手法を提案する。 この共有タスクのための複数のトレーニング戦略を備えたDeBERTa事前学習言語モデルを導入する。 RuATDデータセットを用いた大規模な実験により,提案手法の有効性が検証された。 また,RuATD 2022 (Multi-Class) の評価フェーズでは2位にランクインした。

As the deep learning rapidly promote, the artificial texts created by generative models are commonly used in news and social media. However, such models can be abused to generate product reviews, fake news, and even fake political content. The paper proposes a solution for the Russian Artificial Text Detection in the Dialogue shared task 2022 (RuATD 2022) to distinguish which model within the list is used to generate this text. We introduce the DeBERTa pre-trained language model with multiple training strategies for this shared task. Extensive experiments conducted on the RuATD dataset validate the effectiveness of our proposed method. Moreover, our submission ranked second place in the evaluation phase for RuATD 2022 (Multi-Class).
翻訳日:2022-12-13 14:59:36 公開日:2022-12-10
# MAPS-KB: 数百万の確率的シモン知識ベース

MAPS-KB: A Million-scale Probabilistic Simile Knowledge Base ( http://arxiv.org/abs/2212.05254v1 )

ライセンス: Link先を確認
Qianyu He, Xintao Wang, Jiaqing Liang, Yanghua Xiao(参考訳) similesを理解して生成する能力は、人間レベルのaiを実現するための必須のステップである。 しかし、統計分布に基づく深いモデルでは高周波のシミュラが好まれるため、機械知能と人間の認識の間には依然としてかなりのギャップがある。 したがって、様々な不人気なシミュラのモデリングに寄与すると同時に、さらなる評価と推論を促進するため、シミュラの大規模なシンボリック知識基盤が必要である。 このギャップを埋めるため,我々は,大規模知識ベース構築のための新しい枠組みと,自然言語におけるシミュラ現象の理解を改善するための2つの確率的指標を提案する。 全体としては、100万の確率的シミールナレッジベースであるmaps-kbを構築し、70gbコーポラの0.4百万項をカバー。 我々は,枠組みの有効性と必要性を正当化するための十分な実験を行う。 また、3つの下流タスクにMAPS-KBを適用して最先端のパフォーマンスを実現し、さらにMAPS-KBの価値を示す。

The ability to understand and generate similes is an imperative step to realize human-level AI. However, there is still a considerable gap between machine intelligence and human cognition in similes, since deep models based on statistical distribution tend to favour high-frequency similes. Hence, a large-scale symbolic knowledge base of similes is required, as it contributes to the modeling of diverse yet unpopular similes while facilitating additional evaluation and reasoning. To bridge the gap, we propose a novel framework for large-scale simile knowledge base construction, as well as two probabilistic metrics which enable an improved understanding of simile phenomena in natural language. Overall, we construct MAPS-KB, a million-scale probabilistic simile knowledge base, covering 4.3 million triplets over 0.4 million terms from 70 GB corpora. We conduct sufficient experiments to justify the effectiveness and necessity of the methods of our framework. We also apply MAPS-KB on three downstream tasks to achieve state-of-the-art performance, further demonstrating the value of MAPS-KB.
翻訳日:2022-12-13 14:59:26 公開日:2022-12-10
# 説明の相違における脆弱性源の特定:ニューラルテキスト分類における事例研究

Identifying the Source of Vulnerability in Explanation Discrepancy: A Case Study in Neural Text Classification ( http://arxiv.org/abs/2212.05327v1 )

ライセンス: Link先を確認
Ruixuan Tang, Hanjie Chen, Yangfeng Ji(参考訳) 最近の研究では、入力側摂動がモデルに適用されると、ポストホックな説明の不安定性が観察された。 これにより、ポストホックな説明の安定性に対する関心と関心が高まる。 しかし、残りの疑問は: ニューラルネットワークモデルやポストホックな説明方法によって生じる不安定性は何か? この研究は、不安定なポストホックの説明につながる潜在的な源を探究する。 モデルから影響を分離するために,簡単な出力確率摂動法を提案する。 先行入力側摂動法と比較して、出力確率摂動法は、説明に対する神経モデルの潜在効果を回避し、説明法の解析を可能にする。 提案手法は,3種類のポストホック法 (lime (ribeiro et al., 2016), kernel shapley (lundberg and lee, 2017a), sample shapley (strumbelj and kononenko, 2010) を用いて評価した。 その結果, ポストホック法は安定であり, 出力確率摂動下での離散的な説明がほとんど得られなかった。 この観察は、ニューラルネットワークモデルが脆弱な説明の主要な原因である可能性を示唆している。

Some recent works observed the instability of post-hoc explanations when input side perturbations are applied to the model. This raises the interest and concern in the stability of post-hoc explanations. However, the remaining question is: is the instability caused by the neural network model or the post-hoc explanation method? This work explores the potential source that leads to unstable post-hoc explanations. To separate the influence from the model, we propose a simple output probability perturbation method. Compared to prior input side perturbation methods, the output probability perturbation method can circumvent the neural model's potential effect on the explanations and allow the analysis on the explanation method. We evaluate the proposed method with three widely-used post-hoc explanation methods (LIME (Ribeiro et al., 2016), Kernel Shapley (Lundberg and Lee, 2017a), and Sample Shapley (Strumbelj and Kononenko, 2010)). The results demonstrate that the post-hoc methods are stable, barely producing discrepant explanations under output probability perturbations. The observation suggests that neural network models may be the primary source of fragile explanations.
翻訳日:2022-12-13 14:59:07 公開日:2022-12-10
# 機械直感:GPT-3.5における人間のような直感的な意思決定

Machine intuition: Uncovering human-like intuitive decision-making in GPT-3.5 ( http://arxiv.org/abs/2212.05206v1 )

ライセンス: Link先を確認
Thilo Hagendorff, Sarah Fabi, Michal Kosinski(参考訳) 人工知能(AI)技術は社会の広い分野に革命をもたらした。 これらのシステムを使用する人間は、潜在的に過度な方法で機能する可能性が高い。 しかし,本研究では,大きな言語モデル(LLM)と呼ばれるAIシステムが,人間のような直観と著しく類似した行動を示し,それに伴う多くの認知的誤りを示す。 我々は、現在最先端のLLM、すなわちOpenAIのジェネレーティブ・プレトレーニング・トランスフォーマー(GPT-3.5)の最新版を使用し、認知反射テスト(CRT)と、人間の直感的な意思決定を調査するために設計されたセマンティック・イリュージョンを用いてそれを探索する。 以上の結果から,GPT-3.5は「機械的直感」を系統的に示しており,人間のCRT反応や意味的錯覚に匹敵する不正確な反応を生じることが示唆された。 直観的意思決定に対するsturdy gpt-3.5の傾きをテストするためのいくつかのアプローチについて検討した。 本研究は,認知科学の手法によるllmの調査が,創発的特性を明らかにし,機械行動に対する期待を調整できる可能性を実証するものである。

Artificial intelligence (AI) technologies revolutionize vast fields of society. Humans using these systems are likely to expect them to work in a potentially hyperrational manner. However, in this study, we show that some AI systems, namely large language models (LLMs), exhibit behavior that strikingly resembles human-like intuition - and the many cognitive errors that come with them. We use a state-of-the-art LLM, namely the latest iteration of OpenAI's Generative Pre-trained Transformer (GPT-3.5), and probe it with the Cognitive Reflection Test (CRT) as well as semantic illusions that were originally designed to investigate intuitive decision-making in humans. Our results show that GPT-3.5 systematically exhibits "machine intuition," meaning that it produces incorrect responses that are surprisingly equal to how humans respond to the CRT as well as to semantic illusions. We investigate several approaches to test how sturdy GPT-3.5's inclination for intuitive-like decision-making is. Our study demonstrates that investigating LLMs with methods from cognitive science has the potential to reveal emergent traits and adjust expectations regarding their machine behavior.
翻訳日:2022-12-13 14:51:45 公開日:2022-12-10
# 予測の関連性:強化学習のためのタスク非依存的知識表現を目指して

Relate to Predict: Towards Task-Independent Knowledge Representations for Reinforcement Learning ( http://arxiv.org/abs/2212.05298v1 )

ライセンス: Link先を確認
Thomas Schn\"urer, Malte Probst, Horst-Michael Gross(参考訳) 強化学習(RL)は、エージェントが複雑なタスクを学習できるようにする。 しかし、知識を解釈し、タスク間で再利用することは困難である。 帰納バイアスは、暗黙的に学ぶのが難しい、あるいは高価である汎用的で有用な分解を明示的に提供することにより、そのような問題に対処することができる。 例えば、オブジェクト中心のアプローチは、個々のオブジェクトに高次元の観察を分解する。 これに基づいて、私たちは、意味表現や動的知識へのさらなる分解を提供する明示的なオブジェクト指向知識分離に誘導バイアスを使用します。 そこで本研究では,オブジェクトのコンテキストに基づいたセマンティック状態を予測するセマンティックモジュールを提案する。 結果として生じる可測性のようなオブジェクト状態は、知覚的オブジェクト表現を豊かにするのに使われる。 最小限のセットアップとパズルのようなタスクを可能にする環境によって、このアプローチの実現性とメリットを実証する。 具体的には、意味表現をモデルベースRLアーキテクチャに統合する3つの異なる方法を比較する。 実験の結果,知識分離の明確性は,学習の高速化,正確性の向上,一般化,解釈性の向上と相関することが示された。

Reinforcement Learning (RL) can enable agents to learn complex tasks. However, it is difficult to interpret the knowledge and reuse it across tasks. Inductive biases can address such issues by explicitly providing generic yet useful decomposition that is otherwise difficult or expensive to learn implicitly. For example, object-centered approaches decompose a high dimensional observation into individual objects. Expanding on this, we utilize an inductive bias for explicit object-centered knowledge separation that provides further decomposition into semantic representations and dynamics knowledge. For this, we introduce a semantic module that predicts an objects' semantic state based on its context. The resulting affordance-like object state can then be used to enrich perceptual object representations. With a minimal setup and an environment that enables puzzle-like tasks, we demonstrate the feasibility and benefits of this approach. Specifically, we compare three different methods of integrating semantic representations into a model-based RL architecture. Our experiments show that the degree of explicitness in knowledge separation correlates with faster learning, better accuracy, better generalization, and better interpretability.
翻訳日:2022-12-13 14:50:15 公開日:2022-12-10
# XRand:説明誘導攻撃に対する個人防衛

XRand: Differentially Private Defense against Explanation-Guided Attacks ( http://arxiv.org/abs/2212.04454v2 )

ライセンス: Link先を確認
Truc Nguyen, Phung Lai, NhatHai Phan, My T. Thai(参考訳) 説明可能な人工知能(xai)の分野での最近の開発は、機械学習・アズ・ア・サービス(mlaas: machine-learning-as-a-service)システムの信頼性向上に寄与している。 しかしながら、XAIはまた、MLaaSのブラックボックスモデルに関する洞察を得るための敵の扉を開くことで、モデルがいくつかの攻撃に対してより脆弱になる。 例えば、機能ベースの説明(例えばSHAP)は、ブラックボックスモデルがフォーカスする最も重要な特徴を明らかにすることができる。 このような開示は、マルウェア分類器に対する効果的なバックドアトリガーを作成するために利用されてきた。 このトレードオフに対処するために、我々は、説明の中でローカルディファレンシャルプライバシ(LDP)を達成するという新しい概念を導入し、そこから、そのような攻撃に対してXRandと呼ばれる防衛手段を確立する。 本機構は,説明の忠実さを維持しつつ,敵が最も重要な特徴について学べる情報を制限するものであることを示す。

Recent development in the field of explainable artificial intelligence (XAI) has helped improve trust in Machine-Learning-as-a-Service (MLaaS) systems, in which an explanation is provided together with the model prediction in response to each query. However, XAI also opens a door for adversaries to gain insights into the black-box models in MLaaS, thereby making the models more vulnerable to several attacks. For example, feature-based explanations (e.g., SHAP) could expose the top important features that a black-box model focuses on. Such disclosure has been exploited to craft effective backdoor triggers against malware classifiers. To address this trade-off, we introduce a new concept of achieving local differential privacy (LDP) in the explanations, and from that we establish a defense, called XRand, against such attacks. We show that our mechanism restricts the information that the adversary can learn about the top important features, while maintaining the faithfulness of the explanations.
翻訳日:2022-12-13 12:39:31 公開日:2022-12-10