このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220718となっている論文です。

PDF登録状況(公開日: 20220718)

TitleAuthorsAbstract論文公表日・翻訳日
# 量子プラズモニック共鳴センシングを用いたhiv-1への結合速度の測定

Measurement of binding kinetics using quantum plasmonic resonance sensing applied to HIV-1 ( http://arxiv.org/abs/2207.05380v2 )

ライセンス: Link先を確認
K.T. Mpofu, C. Lee, G.E.M. Maguire, H.G. Kruger and M.S. Tame(参考訳) 本論文では,Mpofu et al in [1] で行った作業の拡張について述べる。 本研究の動機は、ヒト免疫不全ウイルス(HIV)のような複雑なウイルスへの応用における量子バイオセンシング技術の可能性を示し、シグナルが小さく、ノイズに埋もれる可能性のある結合反応の可能性を示すことである。 本稿では,Fock状態などの光の量子状態を用いることで,Kretschmann Congurationによって生成されたセンサグラムから測定された運動パラメータの推定精度が向上することを示す。 この研究において、フォック状態は唯一の量子状態ではないが、最高のエンハンスメント [1] を提供する状態であることが示されているので、フォック状態のみを見る。 ここでは、フォック状態により、古典的な(コヒーレントな)光の状態と比較してパラメータを正確に測定できることを示す。 本稿ではHIV1型(HIV-1)の結合反応について考察する。 具体的には、hiv-1プロテアーゼの変異体と阻害剤であるnelnavirとの結合反応について検討する。 このような研究は、新薬の有効性のテストに応用できる新しい技術の開発を指摘し、医薬品発見研究にも価値を与えている。 量子技術はhivのパンデミックとの戦いに有用であり、治療と治療の発展に向けた継続的な研究を支援することができる。

The work done in this paper is an extension of the work done by Mpofu et al in [1]. The motivation for this paper is to show the potential of quantum bio-sensing techniques in applications to complex viruses like the human immunodeficiency virus (HIV) and to show it's potential in binding reactions where the signal is small and can potentially be buried in noise. In this paper we show theoretically that using quantum states of light such as the Fock state improves the precision in the estimation of kinetic parameters measured from the sensorgrams produced by the Kretschmann conguration. Though the Fock state is not the only quantum state in this study we look only at the Fock state because it has been shown to be the state which offers the best enhancement [1]. We show here that the Fock state allows us to measure the parameters more accurately in comparison to the classical (Coherent) state of light. We consider in this paper a binding reaction involving HIV type 1 (HIV-1). Specifically we look at the binding reaction between a variant of HIV-1 protease and nelnavir which is an inhibitor. Such a study is also offers value for drug discovery research as it points to the development of new technologies which can be applied to testing the efficacy of new drugs. Quantum technologies can prove to be useful in the fight against the HIV pandemic and assist in the continual research towards the development of treatments and a cure.
翻訳日:2023-02-05 09:47:00 公開日:2022-07-18
# 入力のない量子非局所性の最小例に向けて

Towards a minimal example of quantum nonlocality without inputs ( http://arxiv.org/abs/2207.08532v1 )

ライセンス: Link先を確認
Sadra Boreiri, Antoine Girardin, Bora Ulu, Patryk Lypka-Bartosik, Nicolas Brunner, Pavel Sekatski(参考訳) ネットワークシナリオは、量子非局所性現象に関する興味深い新しい視点を提供する。 特に、独立したソースを持つネットワークを考えると、測定入力を必要とせずに量子非局所性を示すことが可能である。 ここでは、この効果の最小限の例を見つけることを目的とする。 トライアングルネットワークの最小の場合に焦点を当て,出力基数3-3-3$および3-3-2$の例を示す。 最後に、二項出力を持つ三角形ネットワークにおける量子非局所性の例を見つける可能性について議論し、ロバスツ局所補題への接続を指摘する。

The network scenario offers interesting new perspectives on the phenomenon of quantum nonlocality. Notably, when considering networks with independent sources, it is possible to demonstrate quantum nonlocality without the need for measurements inputs, i.e. with all parties performing a fixed quantum measurement. Here we aim to find minimal examples of this effect. Focusing on the minimal case of the triangle network, we present examples involving output cardinalities of $3-3-3$ and $3-3-2$. Finally, we discuss the prospects of finding an example of quantum nonlocality in the triangle network with binary outputs, and point out a connection to the Lovasz local lemma.
翻訳日:2023-02-04 15:59:04 公開日:2022-07-18
# 二次非相反性:時間反転対称性を破らない一方向ボソニック伝送

Quadrature nonreciprocity: unidirectional bosonic transmission without breaking time-reversal symmetry ( http://arxiv.org/abs/2207.08523v1 )

ライセンス: Link先を確認
Clara C. Wanjura, Jesse J. Slim, Javier del Pino, Matteo Brunelli, Ewold Verhagen, Andreas Nunnenkamp(参考訳) 非相反性とは、信号の伝達が伝播の方向に依存することを意味する。 非常に異なるプラットフォームと基礎となる作業原理にもかかわらず、線形で時間に依存しないシステムにおける非相互輸送の実現は、いくつかの経路でアハロノフ・ボーム干渉に依存し、時間反転対称性を破る必要がある。 ここでは、ビームスプリッタ(励起保存)と2モードスキューズ(励起保存)相互作用の干渉を利用して、時間反転対称ハミルトニアンを持つ系における非相互性の概念を一方向ボソニック輸送へ拡張する。 標準の非相互性とは対照的に、この一方向輸送は、モードが外部参照位相に関して解決されたときに現れる。 したがって、この現象は2次非相反性である。 まず,光力学的相互作用によって制御される2つの結合ナノメカニカルモードの最小系で実験的に実証する。 次に,粒子ホールグラフの特徴に基づく二次的非相互性を示すネットワークのクラスを特徴付ける理論的枠組みを開発する。 これらのネットワークは、一方向性に加えて、4モードシステムで実験的に確認した集合的二次構造と、キャビティの配列の場合の指数的なエンドツーエンドゲインとの間に偶発的なペアリングを示すことができる。 私たちの研究は、ボソニックシステムにおける信号ルーティングと量子制限増幅のための新しい道を開きます。

Nonreciprocity means that the transmission of a signal depends on its direction of propagation. Despite vastly different platforms and underlying working principles, the realisations of nonreciprocal transport in linear, time-independent systems rely on Aharonov-Bohm interference among several pathways and require breaking time-reversal symmetry. Here we extend the notion of nonreciprocity to unidirectional bosonic transport in systems with a time-reversal symmetric Hamiltonian by exploiting interference between beamsplitter (excitation preserving) and two-mode-squeezing (excitation non-preserving) interactions. In contrast to standard nonreciprocity, this unidirectional transport manifests when the mode quadratures are resolved with respect to an external reference phase. Hence we dub this phenomenon quadrature nonreciprocity. First, we experimentally demonstrate it in the minimal system of two coupled nanomechanical modes orchestrated by optomechanical interactions. Next, we develop a theoretical framework to characterise the class of networks exhibiting quadrature nonreciprocity based on features of their particle-hole graphs. In addition to unidirectionality, these networks can exhibit an even-odd pairing between collective quadratures, which we confirm experimentally in a four-mode system, and an exponential end-to-end gain in the case of arrays of cavities. Our work opens up new avenues for signal routing and quantum-limited amplification in bosonic systems.
翻訳日:2023-02-04 15:58:45 公開日:2022-07-18
# 六方晶窒化ホウ素中の色中心の発光波長の量子応用への応用

Tailoring the Emission Wavelength of Color Centers in Hexagonal Boron Nitride for Quantum Applications ( http://arxiv.org/abs/2207.08506v1 )

ライセンス: Link先を確認
Chanaprom Cholsuk, Sujin Suwanna, Tobias Vogl(参考訳) 光量子技術は、今日の情報処理とセンサーに革命をもたらすことを約束する。 多くの量子応用が純粋な単一光子の効率的な源である。 このような用途で使用される量子エミッタや異なる量子系が互いに結合するためには、量子エミッタの光放射波長を調整する必要がある。 ここでは密度汎関数理論を用いて、2次元の六方晶窒化ホウ素の蛍光欠陥の遷移エネルギーを計算・操作する。 267個の欠陥の電子バンド構造を正確に予測できるhse06関数を特徴とする。 さらに、ひずみチューニングを用いて、適切な量子エミッタの光学遷移エネルギーを、量子技術応用と正確に一致するように調整することができる。 したがって、特定のアプリケーションのためにエミッターを作るためのガイドを提供するだけでなく、ダイヤモンドのカラーセンターのような他の固体量子ビットシステムと結合できる量子エミッターを調整できる有望な経路も提供します。

Optical quantum technologies promise to revolutionize today's information processing and sensors. Crucial to many quantum applications are efficient sources of pure single photons. For a quantum emitter to be used in such application, or for different quantum systems to be coupled to each other, the optical emission wavelength of the quantum emitter needs to be tailored. Here, we use density functional theory to calculate and manipulate the transition energy of fluorescent defects in the two-dimensional material hexagonal boron nitride. Our calculations feature the HSE06 functional which allows us to accurately predict the electronic band structures of 267 different defects. Moreover, using strain-tuning we can tailor the optical transition energy of suitable quantum emitters to match precisely that of quantum technology applications. We therefore not only provide a guide to make emitters for a specific application, but also have a promising pathway of tailoring quantum emitters that can couple to other solid-state qubit systems such as color centers in diamond.
翻訳日:2023-02-04 15:58:21 公開日:2022-07-18
# 固定パラメータを用いた量子回路マッピングの複雑さ

The Complexity of Quantum Circuit Mapping with Fixed Parameters ( http://arxiv.org/abs/2207.08438v1 )

ライセンス: Link先を確認
Pengcheng Zhu, Shenggen Zheng, Lihua Wei, Xueyun Cheng, Zhijin Guan, Shiguang Feng(参考訳) 接続制約のため、NISQデバイスに実装する前に量子回路を前処理しなければならない。 量子回路マッピング(QCM)は、SWAPゲートを追加することで、NISQデバイスのアーキテクチャ制約に準拠する等価な回路に変換する。 QCM問題は、補助的なSWAPゲートの最小数を求め、NP完全である。 固定パラメータを持つqcmの複雑性について検討した。 qcmの正確なアルゴリズムを与え、nisqデバイスのアーキテクチャが固定された場合、アルゴリズムが多項式時間で実行されることを示す。 量子回路の量子ビット数が固定された場合、QCM問題は最短経路問題からの還元によりNL完全であることが示される。 さらに、量子回路の量子ビット数によってパラメータ化される場合、QCMの固定パラメータ複雑性はW[1]ハードとなる。 我々は、クライク問題からの削減によって結果を証明する。 量子回路と結合グラフの深さをパラメータとして考えると、qcm問題はまだ浅い量子回路上でnp完全であり、平面、双部、次数有界結合グラフであることを示す。

A quantum circuit must be preprocessed before implementing on NISQ devices due to the connectivity constraint. Quantum circuit mapping (QCM) transforms the circuit into an equivalent one that is compliant with the NISQ device's architecture constraint by adding SWAP gates. The QCM problem asks the minimal number of auxiliary SWAP gates, and is NP-complete. The complexity of QCM with fixed parameters is studied in the paper. We give an exact algorithm for QCM, and show that the algorithm runs in polynomial time if the NISQ device's architecture is fixed. If the number of qubits of the quantum circuit is fixed, we show that the QCM problem is NL-complete by a reduction from the undirected shortest path problem. Moreover, the fixed-parameter complexity of QCM is W[1]-hard when parameterized by the number of qubits of the quantum circuit. We prove the result by a reduction from the clique problem. If taking the depth of the quantum circuits and the coupling graphs as parameters, we show that the QCM problem is still NP-complete over shallow quantum circuits, and planar, bipartite and degree bounded coupling graphs.
翻訳日:2023-02-04 15:58:04 公開日:2022-07-18
# 超電導量子ビット読み出し率のシミュレーション手法

A Simulation Methodology for Superconducting Qubit Readout Fidelity ( http://arxiv.org/abs/2207.08394v1 )

ライセンス: Link先を確認
Hiu Yung Wong, Yaniv Jacob Rosen, Kristin M. Beck, Prabjot Dhillon(参考訳) 量子ビット読み出しは超伝導量子ビットベースのものを含むあらゆる量子コンピュータの重要な部分である。 読み出し精度は、読み出しパルス幅、読み出しパルスエネルギー、共振器設計、量子ビット設計、量子共振子結合、読み出しパスに沿って発生するノイズに影響される。 したがって、読み出しパスに沿って様々な設計パラメータに基づいて忠実度をモデル化し予測することが重要である。 本研究では,Matlab と Ansys HFSS を用いて超伝導量子ビットの読み出し忠実度をシミュレーションし,読み出し経路の共最適化を実現する手法を提案する。 例えば、実際の超伝導量子ビットベースの量子コンピュータからパラメータを抽出し、シミュレーションを1つの実験点に校正する。 次に、読み出しパルス幅と出力の関数としてシステムの読み出し誤差を予測し、結果が実験によく合致する。 その結果,入力電力が7db削減されたり,読み出しパルス幅が40%狭くなったりしても高い忠実性を維持することができた。 これは超伝導量子ビットリードアウトシステムの設計と最適化を導くのに使うことができる。

Qubit readout is a critical part of any quantum computer including the superconducting-qubit-based one. The readout fidelity is affected by the readout pulse width, readout pulse energy, resonator design, qubit design, qubit-resonator coupling, and the noise generated along the readout path. It is thus important to model and predict the fidelity based on various design parameters along the readout path. In this work, a simulation methodology for superconducting qubit readout fidelity is proposed and implemented using Matlab and Ansys HFSS to allow the co-optimization in the readout path. As an example, parameters are taken from an actual superconducting-qubit-based quantum computer and the simulation is calibrated to one experimental point. It is then used to predict the readout error of the system as a function of readout pulse width and power and the results match the experiment well. It is found that the system can still maintain high fidelity even if the input power is reduced by 7dB or if the readout pulse width is 40% narrower. This can be used to guide the design and optimization of a superconducting qubit readout system.
翻訳日:2023-02-04 15:57:28 公開日:2022-07-18
# 非一様ランダムなプライバシ増幅による量子鍵分布のセキュア境界解析

Secure bound analysis of quantum key distribution with non-uniform random seed of privacy amplification ( http://arxiv.org/abs/2207.08345v1 )

ライセンス: Link先を確認
Bingze Yan and Yucheng Qiao and Qiong Li and Haokun Mao(参考訳) 量子鍵分布(QKD)のセキュアな境界解析は、実用的なQKDシステムには不可欠である。 プライバシ増幅に対する乱数シードの均一性の影響は,既存のセキュアバウンド解析では考慮されていない。 本稿では,ミンエントロピーに基づく不均一な乱数種を含む量子剰余ハッシュ補題を提案し,その証明を行い,不均一な乱数種を用いたqkdセキュアバウンド解析を行う。 我々は, 2-decoy bb84プロトコルを例として, qkdシステムのセキュアバウンドに対する乱数シードの均一性の影響をシミュレートする。 実験結果から、乱数生成器の平均ミンエントロピーが0.95以下であれば、QKDシステムの安全な境界は深刻な影響を受けることが示唆された。

Precise quantum key distribution (QKD) secure bound analysis is essential for practical QKD systems. The effect of uniformity of random number seed for privacy amplification is not considered in existing secure bound analysis. In this paper, we propose and prove the quantum leftover hash lemma with non-uniform random number seeds based on the min-entropy, and we give a precise QKD secure bound analysis with non-uniform random number seeds on this basis. We take the two-decoy BB84 protocol as an example to simulate the effect of random number seed uniformity on the secure bound of a QKD system. The experimental results indicate that when the average min-entropy of the random number generator is below 0.95, the secure bound of a QKD system will be seriously affected.
翻訳日:2023-02-04 15:56:56 公開日:2022-07-18
# エルコスピノルの改訂

Elko spinors revised ( http://arxiv.org/abs/2207.08334v1 )

ライセンス: Link先を確認
R. Romero(参考訳) c 個のエルコスピノルが質量を持たないディラック方程式に従うことが示され、単位的にワイル双スピノルに等しい。 したがって、それらは質量次元1の新しいスピノルタイプを構成しない。

It is shown that c-number elko spinors obey the massless Dirac equation and are unitarily equivalent to Weyl bispinors. Therefore, they do not constitute a new spinor type with mass dimension one.
翻訳日:2023-02-04 15:56:43 公開日:2022-07-18
# 薄膜導波路における2次元ディラック作用素のスペクトル漸近

Spectral asymptotics for two-dimensional Dirac operators in thin waveguides ( http://arxiv.org/abs/2207.08700v1 )

ライセンス: Link先を確認
William Borrelli and Nour Kerraoui and Thomas Ourmi\`eres-Bonafos(参考訳) C^4$-平面曲線の管状近傍で生じる無限質量境界条件を持つ2次元ディラック作用素を考える。 曲率 $\kappa$ の一般的な仮定の下では、薄幅のレジームにおいて、固有値の分割は、幾何学的に引き起こされたポテンシャルを持つ 1 次元 schr\"odinger operator on $l^2(\mathbb r)$ \[ \mathcal{l}_e := -\frac{d^2}{ds^2} - \frac{\kappa^2}{\pi^2} \] によって導かれることが証明される。 固有値は本質スペクトルから$\varepsilon$の距離で示され、$2\varepsilon$は導波路の幅である。 これは、有限距離にあることが知られているこのモデルの非相対論的対応とは対照的である。

We consider the two-dimensional Dirac operator with infinite mass boundary conditions posed in a tubular neighborhood of a $C^4$-planar curve. Under generic assumptions on its curvature $\kappa$, we prove that in the thin-width regime the splitting of the eigenvalues is driven by the one dimensional Schr\"odinger operator on $L^2(\mathbb R)$ \[ \mathcal{L}_e := -\frac{d^2}{ds^2} - \frac{\kappa^2}{\pi^2} \] with a geometrically induced potential. The eigenvalues are shown to be at distance of order $\varepsilon$ from the essential spectrum, where $2\varepsilon$ is the width of the waveguide. This is in contrast with the non-relativistic counterpart of this model, for which they are known to be at a finite distance.
翻訳日:2023-02-04 15:50:43 公開日:2022-07-18
# 情報幾何におけるg-dual teleparallel connection

G-dual teleparallel connections in Information Geometry ( http://arxiv.org/abs/2207.08694v1 )

ライセンス: Link先を確認
Florio M. Ciaglia, Fabio Di Cosmo, Alberto Ibort, Giuseppe Marmo(参考訳) Given a real, finite-dimensional, smooth parallelizable Riemannian manifold $(\mathcal{N},G)$ endowed with a teleparallel connection $\nabla$ determined by a choice of a global basis of vector fields on $\mathcal{N}$, we show that the $G$-dual connection $\nabla^{*}$ of $\nabla$ in the sense of Information Geometry must be the teleparallel connection determined by the basis of $G$-gradient vector fields associated with a basis of differential one-forms which is (almost) dual to the basis of vector fields determining $\nabla$. そのようなペアを $(\nabla,\nabla^{*})$ a $G$-dual teleparallel pair と呼ぶ。 Then, after defining a covariant $(0,3)$ tensor $T$ uniquely determined by $(\mathcal{N},G,\nabla,\nabla^{*})$, we show that $T$ being symmetric in the first two entries is equivalent to $\nabla$ being torsion-free, that $T$ being symmetric in the first and third entry is equivalent to $\nabla^{*}$ being torsion free, and that $T$ being symmetric in the second and third entries is equivalent to the basis vectors determining $\nabla$ ($\nabla^{*}$) being parallel-transported by $\nabla^{*}$ ($\nabla$). したがって、$G$-dual teleparallel pairsは、通常情報幾何学で使用される統計多様体の概念を一般化し、古典的および量子的情報幾何学の両方の文脈で生じる$G$-dual teleparallel pairsの明示的な例を示す。

Given a real, finite-dimensional, smooth parallelizable Riemannian manifold $(\mathcal{N},G)$ endowed with a teleparallel connection $\nabla$ determined by a choice of a global basis of vector fields on $\mathcal{N}$, we show that the $G$-dual connection $\nabla^{*}$ of $\nabla$ in the sense of Information Geometry must be the teleparallel connection determined by the basis of $G$-gradient vector fields associated with a basis of differential one-forms which is (almost) dual to the basis of vector fields determining $\nabla$. We call any such pair $(\nabla,\nabla^{*})$ a $G$-dual teleparallel pair. Then, after defining a covariant $(0,3)$ tensor $T$ uniquely determined by $(\mathcal{N},G,\nabla,\nabla^{*})$, we show that $T$ being symmetric in the first two entries is equivalent to $\nabla$ being torsion-free, that $T$ being symmetric in the first and third entry is equivalent to $\nabla^{*}$ being torsion free, and that $T$ being symmetric in the second and third entries is equivalent to the basis vectors determining $\nabla$ ($\nabla^{*}$) being parallel-transported by $\nabla^{*}$ ($\nabla$). Therefore, $G$-dual teleparallel pairs provide a generalization of the notion of Statistical Manifolds usually employed in Information Geometry, and we present explicit examples of $G$-dual teleparallel pairs arising both in the context of both Classical and Quantum Information Geometry.
翻訳日:2023-02-04 15:50:24 公開日:2022-07-18
# 振動検出器における重力波のキンク:創発的ベリー相

The Kink of Gravitational Waves in a Vibrating Detector: An Emergent Berry Phase ( http://arxiv.org/abs/2207.08687v1 )

ライセンス: Link先を確認
Partha Nandi, Sounak Pal, Sayan Kumar Pal, Bibhas Ranjan Majhi(参考訳) 重力波(GW)の検出は、天体物理学と一般相対性理論の領域で新しい時代の到来を告げている。 gwsと点粒子状検出器の相互作用の枠組みを用いて,線形重力法において,gwsを検出する可能性を持つ玩具モデルを構築した。 検出器は、gwsおよび外部時間依存(可変)2次元調和電位と同時相互作用する。 断熱近似では、重力波の相互作用が検出器の量子状態の幾何学的位相につながり、外部の高調波ポテンシャルの周波数を調整して制御できることが分かる。 このような幾何位相検出はgwsの足跡の顕在化に寄与する可能性がある。 さらに重要なことは、我々の理論モデルは、非常に小さな周波数(5Hz)のGWを検出するための将来の検出器を構築するためのレイアウトを提供することができるかもしれない。

The detection of gravitational waves (GWs) has marked an advent of new era in the domain of astrophysics and general relativity. Using the framework of interaction between GWs and a point particle-like detector, within linearized gravity approach, we build a toy model which has potential to detect GWs. The detector is in simultaneous interaction with GWs and an external time-dependent (tunable) two-dimensional harmonic potential. We discover that in adiabatic approximation, gravitational wave interaction can lead to a geometric phase in the quantum states of the detector which can be controlled by tuning the frequency of the external harmonic potential. We argue that such geometric phase detection may serve as a manifestation of the footprint of GWs. More importantly, our theoretical model may be capable of providing a layout to build a future detector for the detection of very small frequency (< 5 Hz) GWs.
翻訳日:2023-02-04 15:49:44 公開日:2022-07-18
# 量子力学における測定推論の一貫性を肯定する量子ベイズ則

Quantum Bayes' Rule Affirms Consistency in Measurement Inferences in Quantum Mechanics ( http://arxiv.org/abs/2207.08623v1 )

ライセンス: Link先を確認
Mohit Lal Bera and Manabendra Nath Bera(参考訳) 古典的なベイズの法則は、原因(入力)と効果(出力)の間の古典的な因果関係の基礎を成す。 この因果関係はすべての物理過程に対して普遍的に真であると考えられている。 ここでは、量子力学における原因と効果の間の正しい対応を確立するのは不十分であることを示す。 実際、量子力学の枠組みの中には、古典的ベイズの法則がフラウチャー=レンナーのパラドックスのような量子測定の推論において矛盾をもたらすような例がある。 同様の矛盾は、非局所理論として量子力学を仮定した後でもハーディの設定の文脈にも現れる。 治療として,量子ベイズ則に基づく入出力因果関係を導入する。 これは、原因(または効果)が他の原因(または効果)とコヒーレントな重なり合いにあるときや、量子力学によって許容される非局所相関を含むときや、ある系に属する原因が量子測定プロセスで起こる他の系で効果を引き起こす場合であっても、一般的な量子プロセスに適用できる。 これにより、Frauchiger-Renner と Hardy の設定の文脈に現れる矛盾に対する解決法を提案することができる。 その結果、量子ベイズの規則を満たした量子力学は、それ自身の使用を一貫して説明できることがわかった。

Classical Bayes' rule lays the foundation for the classical causal relation between cause (input) and effect (output). This causal relation is believed to be universally true for all physical processes. Here we show, on the contrary, that it is inadequate to establish correct correspondence between cause and effect in quantum mechanics. In fact, there are instances within the framework of quantum mechanics where the use of classical Bayes' rule leads to inconsistencies in quantum measurement inferences, such as Frauchiger-Renner's paradox. Similar inconsistency also appears in the context of Hardy's setup even after assuming quantum mechanics as a non-local theory. As a remedy, we introduce an input-output causal relation based on quantum Bayes' rule. It applies to general quantum processes even when a cause (or effect) is in coherent superposition with other causes (or effects), involves nonlocal correlations as allowed by quantum mechanics, and in the cases where causes belonging to one system induce effects in some other system as it happens in quantum measurement processes. This enables us to propose a resolution to the contradictions that appear in the context of Frauchiger-Renner's and Hardy's setups. Our results thereby affirm that quantum mechanics, equipped with quantum Bayes' rule, can indeed consistently explain the use of itself.
翻訳日:2023-02-04 15:49:19 公開日:2022-07-18
# $^{85}$rbにおける$np_{1/2}$ rydberg状態の超微細構造

Hyperfine Structure of $nP_{1/2}$ Rydberg States in $^{85}$Rb ( http://arxiv.org/abs/2207.08582v1 )

ライセンス: Link先を確認
Ryan Cardman and Georg Raithel(参考訳) レーザー冷却した$^{85}$rb原子のアンサンブル上でmm波分光法を用いて$np_{1/2}$ rydberg状態の超微細構造を測定する。 規則磁場によるゼーマン分裂と2つのリドバーグ原子間の双極子-双極子相互作用による測定の系統的不確かさは、得られた統計的不確かさと関係している。 nP_{1/2}=超微細結合定数の最終的な測定値は、$A_{\text{hfs}}=1.443(31)$~GHzである。 この測定は、長距離Rydberg分子の研究、Rydbergエレクトロメトリー、および$nP_{1/2}$原子を含む双極子-双極子相互作用による量子シミュレーションに有用である。

We measure the hyperfine structure of $nP_{1/2}$ Rydberg states using mm-wave spectroscopy on an ensemble of laser-cooled $^{85}$Rb atoms. Systematic uncertainties in our measurement from the Zeeman splittings induced by stray magnetic fields and dipole-dipole interactions between two Rydberg atoms are factored in with the obtained statistical uncertainty. Our final measurement of the $nP_{1/2}$ hyperfine coupling constant is $A_{\text{hfs}}=1.443(31)$~GHz. This measurement is useful for studies of long-range Rydberg molecules, Rydberg electrometry, and quantum simulation with dipole-dipole interactions involving $nP_{1/2}$ atoms.
翻訳日:2023-02-04 15:48:55 公開日:2022-07-18
# 準連続エッジの多光子ラマン励起としての近似量子アルゴリズム

Approximate Quantum Algorithms as a Multiphoton Raman Excitation of a Quasicontinuum Edge ( http://arxiv.org/abs/2207.08561v1 )

ライセンス: Link先を確認
Aikaterini Mandilara, Daniil Fedotov, Vladimir M. Akulin(参考訳) 多くの量子アルゴリズムは、複素量子系のよく定義された初期量子状態から、ハミルトニアンあるいは遷移作用素の特定の固有値に対応する未知のターゲット量子状態への遷移と見なすことができる。 このような対象状態は、しばしば帯状状態の最小エネルギーに対応する。 この文脈では、近似量子計算は、単一の最小エネルギー、状態ではなく、最小に近い状態のグループに遷移することを意味する。 我々は、ダイナミクスと、そのような過程を2つの可能性として実現した結果を考察する。つまり、最初の1つの孤立したレベルから、バンドの帯域の端にある量子状態への人口の遷移である。 1つ目のケースは時間非依存のハミルトニアンを扱い、もう1つは運動する孤立レベルを持つ。 バンド上のエネルギー分布のエネルギー幅は, 時間的不確実性原理によって決定されるが, 分布の特定の形状は特定の設定に依存している。 分離されたレベルとバンドレベルの結合行列要素の統計学的役割について考察する。 我々は、Rydberg原子のアンサンブルによる多光子ラマン吸収を解析のモデルとして選んだが、得られた結果は他の量子コンピューティングプラットフォームにも等しく適用できる。

Many quantum algorithms can be seen as a transition from a well-defined initial quantum state of a complex quantum system, to an unknown target quantum state, corresponding to a certain eigenvalue either of the Hamiltonian or of a transition operator. Often such a target state corresponds to the minimum energy of a band of states. In this context, approximate quantum calculations imply transition not to the single, minimum energy, state but to a group of states close to the minimum. We consider dynamics and the result of two possible realization of such a process -- transition of population from a single initially populated isolated level to the quantum states at the edge of a band of levels. The first case deals with the time-independent Hamiltonian, while the other with a moving isolated level. We demonstrate that the energy width of the population energy distribution over the band is mainly dictated by the time-energy uncertainty principle, although the specific shape of the distribution depends on the particular setting. We consider the role of the statistics of the coupling matrix elements between the isolated level and the band levels. We have chosen the multiphoton Raman absorption by an ensemble of Rydberg atoms as the model for our analysis, although the results obtained can equally be applied to other quantum computing platforms.
翻訳日:2023-02-04 15:48:42 公開日:2022-07-18
# 統一光マッターフロッケ理論とその量子通信への応用

Unified Light-Matter Floquet Theory and its Application to Quantum Communication ( http://arxiv.org/abs/2207.08558v1 )

ライセンス: Link先を確認
Georg Engelhardt, Sayan Choudhury, and W. Vincent Liu(参考訳) 周期的に駆動される量子系は、フロケ理論を用いて解析できる興味深い非平衡現象の多元性を示すことができる。 当然、フロケ理論は強いレーザー場と相互作用する原子の力学を記述するために用いられる。 しかし、この半古典的解析は、光の量子化の性質に依存する量子光学現象を説明できない。 本稿では、フルカウンティング統計の枠組みを用いてフロッケ理論と量子光学を統合することにより、原子-光子結合系の半古典的記述を超越する大きな一歩を踏み出す。 これは、フォトニックダイナミクスを追跡するカウントフィールドを導入することで達成される。 この形式論は「photon-resolved floquet theory」(prft)と呼ばれ、標準的な全数統計で使われる2点の射影計測ではなく、2点の断層計測に基づいている。 興味深いことに、PRFTは、原子が多周波電磁場と相互作用するときのマクロマターの絡み合いの発生を予測し、フロッケ状態に基づいて原子サブシステムを完全に非コヒーレンスさせる。 このデコヒーレンスは光周波数系では急速に発生するが、無線周波数系では無視される。 興味深いことに、時間結晶は光周波数系でも良い量子記憶として機能する。 その結果,効率的な量子記憶と量子演算の設計への道が開けた。 最後に、prftを用いて、最先端の少数光子プロトコルを2桁以上大きく上回る量子通信プロトコルを提案する。 PRFTは、分光、熱力学、量子力学、量子シミュレーションなど、様々なフロケット設定における新たな洞察をもたらす可能性がある。

Periodically-driven quantum systems can exhibit a plethora of intriguing non-equilibrium phenomena, that can be analyzed using Floquet theory. Naturally, Floquet theory is employed to describe the dynamics of atoms interacting with intense laser fields. However, this semiclassical analysis can not account for quantum-optical phenomena that rely on the quantized nature of light. In this paper, we take a significant step to go beyond the semiclassical description of atom-photon coupled systems by unifying Floquet theory with quantum optics using the framework of Full-Counting Statistics. This is achieved by introducing counting fields that keep track of the photonic dynamics. This formalism, which is dubbed ``Photon-resolved Floquet theory" (PRFT), is based on two-point tomographic measurements, instead of the two-point projective measurements used in standard Full-Counting Statistics. Strikingly, the PRFT predicts the generation of macroscopic light-matter entanglement when atoms interact with multi-frequency electromagnetic fields, thereby leading to complete decoherence of the atomic subsystem in the basis of the Floquet states. This decoherence occurs rapidly in the optical frequency regime, but is negligible in the radio frequency regime. Intriguingly, time crystals can act as good quantum memories even in the optical frequency regime. Our results thus pave the way for the design of efficient quantum memories and quantum operations. Finally, employing the PRFT, we propose a quantum communication protocol that can significantly outperform the state-of-art few-photon protocols by two orders of magnitude or better. The PRFT potentially leads to new insights in various Floquet settings including spectroscopy, thermodynamics, quantum metrology, and quantum simulations.
翻訳日:2023-02-04 15:48:23 公開日:2022-07-18
# ホップ代数で再訪した$\phi^4_3$測度の摂動理論

Perturbation theory for the $\Phi^4_3$ measure, revisited with Hopf algebras ( http://arxiv.org/abs/2207.08555v1 )

ライセンス: Link先を確認
Nils Berglund and Tom Klose(参考訳) 我々は、好ましく再正規化された$\Phi^4_3$測度の分配関数が漸近展開を許容するという事実を比較的短く、ほぼ自己完結した証明を与え、紫外線遮断によって収束する係数を除去する。 また,漸近級数のボレル和可能性の問題についても考察する。 証明はウィナーカオス展開、ホップ代数法、および BPHZ 再正規化によって得られるファインマン図形の値のバウンドに基づいている。

We give a relatively short, almost self-contained proof of the fact that the partition function of the suitably renormalised $\Phi^4_3$ measure admits an asymptotic expansion, the coefficients of which converge as the ultraviolet cut-off is removed. We also examine the question of Borel summability of the asymptotic series. The proofs are based on Wiener chaos expansions, Hopf-algebraic methods, and bounds on the value of Feynman diagrams obtained through BPHZ renormalisation.
翻訳日:2023-02-04 15:47:56 公開日:2022-07-18
# 絡み合い対応対称性破壊順序

Entanglement-enabled symmetry-breaking orders ( http://arxiv.org/abs/2207.08828v1 )

ライセンス: Link先を確認
Cheng-Ju Lin, Liujun Zou(参考訳) 自発対称性の破れ順序は、伝統的にいくつかの数体クラスターのテンソル積波動関数によって記述される。 我々は、任意のテンソル積状態では実現できない対称破れ順序と呼ばれる対称性破れ順序について論じる。 対称性破断パターンが与えられると、対称性破断順序が絡み合っているかどうかを、対称性とテンソル積記述の互換性を調べることによって診断する基準を提案する。 具体的には、直近の相互作用を持つ1次元格子上に、厳密に解けるギャップ付きモデルの無限族を示し、その基底状態は、離散対称性の破れから絡み合うことができる対称性を破る順序を示す。 さらに、これらの基底状態は、未破壊対称性によって保護される隙間のないエッジモードを持つ。 また,自然破断連続対称性を持つ絡み付き対称性破断順序を実現する構成を提案する。 非ブローク対称性の下では、我々の例のいくつかは、従来の分類を超越した対称性保護位相状態と見なすことができる。

A spontaneous symmetry-breaking order is conventionally described by a tensor-product wave-function of some few-body clusters. We discuss a type of symmetry-breaking orders, dubbed entanglement-enabled symmetry-breaking orders, which cannot be realized by any tensor-product state. Given a symmetry breaking pattern, we propose a criterion to diagnose if the symmetry-breaking order is entanglement-enabled, by examining the compatibility between the symmetries and the tensor-product description. For concreteness, we present an infinite family of exactly solvable gapped models on one-dimensional lattices with nearest-neighbor interactions, whose ground states exhibit entanglement-enabled symmetry-breaking orders from a discrete symmetry breaking. In addition, these ground states have gapless edge modes protected by the unbroken symmetries. We also propose a construction to realize entanglement-enabled symmetry-breaking orders with spontaneously broken continuous symmetries. Under the unbroken symmetries, some of our examples can be viewed as symmetry-protected topological states that are beyond the conventional classifications.
翻訳日:2023-02-04 15:42:16 公開日:2022-07-18
# 状態準備ユニタリを用いた量子トモグラフィ

Quantum tomography using state-preparation unitaries ( http://arxiv.org/abs/2207.08800v1 )

ライセンス: Link先を確認
Joran van Apeldoorn, Arjan Cornelissen, Andr\'as Gily\'en, Giacomo Nannicini(参考訳) 我々は, 1次単位(およびその逆)へのアクセスを与えられたとき,$d$次元の量子状態の近似古典的記述を得るアルゴリズムを記述する。 純粋な状態の場合、$\ell_q$-normエラーのクエリの複雑さを対数要素まで特徴づける。 特別な場合として、$\widetilde{\Theta}(d/\varepsilon)$のユニタリのアプリケーションを使って状態の$\varepsilon$-$\ell_2$-approximationを得る。 混合状態に対しては、ユニタリが状態の浄化を準備する同様のモデルを考える。 このモデルでは、階数-r$混合状態のSchatten $q$-norm推定値を得るための効率的なアルゴリズムを与え、最適に近いクエリ上界を与える。 特に、$\widetilde{\mathcal{O}}(dr/\varepsilon)$クエリでトレースノルム(q=1$)の推定値が得られることを示す。 これにより、haahらのアルゴリズムに対する$\varepsilon$-dependence(より強い入力モデル)が改善される。 \ (2017) は$\widetilde{\mathcal{O}}(dr/\varepsilon^2)$状態のコピーのジョイント測定を使用する。 私たちの知る限り、pure-state tomographyの最もサンプル効率の良い結果は、汎用的混合状態トモグラフィアルゴリズムのランクを1ドルに設定することによるものです。 実装が容易かつ高速な純粋状態に対するサンプル最適化アルゴリズムについて述べる。 その過程で、正規化ベクトルの$\ell_\infty$-norm推定は、精度の次元依存因子を失うことなく、そのベクトルに対する(わずかに悪い)$\ell_q$-norm推定を誘導することを示した。 また、位相推定の偏りのない対称バージョンを開発し、そこでは推定の確率分布が真の値を中心としている。 最後に,hughginsらによる最近の結果より,複数の期待値の効率的な推定法を提案する。 \ (2021) 測定演算子が完全にオーバーラップしない場合。

We describe algorithms to obtain an approximate classical description of a $d$-dimensional quantum state when given access to a unitary (and its inverse) that prepares it. For pure states we characterize the query complexity for $\ell_q$-norm error up to logarithmic factors. As a special case, we show that it takes $\widetilde{\Theta}(d/\varepsilon)$ applications of the unitaries to obtain an $\varepsilon$-$\ell_2$-approximation of the state. For mixed states we consider a similar model, where the unitary prepares a purification of the state. In this model we give an efficient algorithm for obtaining Schatten $q$-norm estimates of a rank-$r$ mixed state, giving query upper bounds that are close to optimal. In particular, we show that a trace-norm ($q=1$) estimate can be obtained with $\widetilde{\mathcal{O}}(dr/\varepsilon)$ queries. This improves (assuming our stronger input model) the $\varepsilon$-dependence over the algorithm of Haah et al.\ (2017) that uses a joint measurement on $\widetilde{\mathcal{O}}(dr/\varepsilon^2)$ copies of the state. To our knowledge, the most sample-efficient results for pure-state tomography come from setting the rank to $1$ in generic mixed-state tomography algorithms, which can be computationally demanding. We describe sample-optimal algorithms for pure states that are easy and fast to implement. Along the way we show that an $\ell_\infty$-norm estimate of a normalized vector induces a (slightly worse) $\ell_q$-norm estimate for that vector, without losing a dimension-dependent factor in the precision. We also develop an unbiased and symmetric version of phase estimation, where the probability distribution of the estimate is centered around the true value. Finally, we give an efficient method for estimating multiple expectation values, improving over the recent result by Huggins et al.\ (2021) when the measurement operators do not fully overlap.
翻訳日:2023-02-04 15:41:34 公開日:2022-07-18
# 高移動度InSbナノフラッグにおけるジョセフソンダイオード効果

Josephson Diode Effect in High Mobility InSb Nanoflags ( http://arxiv.org/abs/2207.08772v1 )

ライセンス: Link先を確認
Bianca Turini, Sedighe Salimian, Matteo Carrega, Andrea Iorio, Elia Strambini, Francesco Giazotto, Valentina Zannier, Lucia Sorba, and Stefan Heun(参考訳) InSbナノフラッグジョセフソン接合部において,スピン軌道結合が強いため,非反散逸性輸送の証拠を報告した。 面内磁場を応用し、2つの逆電流伝播方向の超電流の不等式を観測する。 これは、これらのデバイスがジョセフソンダイオードとして機能し、散逸のない電流が1方向にのみ流れることを示す。 小さな磁場では、超電流の非対称性は外部磁場と線形に増大し、ゼーマンエネルギーが関連づけられると飽和し、最終的に高磁場ではゼロになる。 この効果は、Rashbaスピン軌道カップリングを主対称性破れ機構として同定する現在のベクトルに対して平面内場が垂直であるときに最大となる。 これらの高品質insbナノフラッグのキャリア濃度の変動はダイオード効果に大きな影響を与えないが、温度上昇によって強く抑制される。 実験結果は短絡の短絡モデルと一致し,ダイオード効果がこの材料に内在することを示した。 その結果,InSbジョセフソンダイオードを超伝導エレクトロニクスの有用な素子として確立した。

We report evidence of non-reciprocal dissipation-less transport in single ballistic InSb nanoflag Josephson junctions, owing to a strong spin-orbit coupling. Applying an in-plane magnetic field, we observe an inequality in supercurrent for the two opposite current propagation directions. This demonstrates that these devices can work as Josephson diodes, with dissipation-less current flowing in only one direction. For small fields, the supercurrent asymmetry increases linearly with the external field, then it saturates as the Zeeman energy becomes relevant, before it finally decreases to zero at higher fields. We show that the effect is maximum when the in-plane field is perpendicular to the current vector, which identifies Rashba spin-orbit coupling as the main symmetry-breaking mechanism. While a variation in carrier concentration in these high-quality InSb nanoflags does not significantly influence the diode effect, it is instead strongly suppressed by an increase in temperature. Our experimental findings are consistent with a model for ballistic short junctions and show that the diode effect is intrinsic to this material. Our results establish InSb Josephson diodes as a useful element in superconducting electronics.
翻訳日:2023-02-04 15:40:16 公開日:2022-07-18
# 高分子量子力学における開散乱モデル

An open scattering model in polymerized quantum mechanics ( http://arxiv.org/abs/2207.08749v1 )

ライセンス: Link先を確認
Kristina Giesel and Michael Kobler(参考訳) 理想気体環境におけるブラウン粒子の散乱に対する重合された開量子力学系の文脈で量子マスター方程式を導出する。 このモデルはトップダウンアプローチで定式化され、一般に空間的デコヒーレンスと関連するシステムと環境のカップリングを持つハミルトニアンを選択する。 このようなモデルに対する既存の研究は、ループ量子重力に適用される量子化過程にインスパイアされた標準可換関係の非標準表現を用いて拡張され、位置演算子をホロノミーに置き換えるモデルが得られる。 トップダウンアプローチにおけるマスター方程式の導出は、散逸器の引き込み可能な形を得るために通常そのようなモデルで用いられる仮定が、重合されたケースでも保持されるか、あるいはそれらがドロップまたは修正される必要があるかどうかを詳細に調査する可能性を開く。 さらに,基本作用素の期待値に対する実効方程式に付随するマスター方程式の物理的性質について検討し,すでに存在する衝突デコヒーレンスのモデルと比較した。

We derive a quantum master equation in the context of a polymerized open quantum mechanical system for the scattering of a Brownian particle in an ideal gas environment. The model is formulated in a top-down approach by choosing a Hamiltonian with a coupling between the system and environment that is generally associated with spatial decoherence. We extend the existing work on such models by using a non-standard representation of the canonical commutation relations, inspired by the quantization procedure applied in loop quantum gravity, which yields a model in which position operators are replaced by holonomies. The derivation of the master equation in a top-down approach opens up the possibility to investigate in detail whether the assumptions, usually used in such models in order to obtain a tractable form of the dissipator, hold also in the polymerized case or whether they need to be dropped or modified. Furthermore, we discuss some physical properties of the master equation associated to effective equations for the expectation values of the fundamental operators and compare our results to the already existing models of collisional decoherence.
翻訳日:2023-02-04 15:39:56 公開日:2022-07-18
# 非エルミート・ハートマン効果

Non-Hermitian Hartman effect ( http://arxiv.org/abs/2207.08715v1 )

ライセンス: Link先を確認
Stefano Longhi(参考訳) ハートマン効果 (Hartman effect) は、量子力学粒子や光子が不透明な電位障壁をトンネルに費やす時間が、長い障壁の障壁幅とは無関係になるという、かなりパラドックス的な結果である。 このような効果は、異なる物理的状況で観測されているが、トンネル時間の定義と解釈と明らかに超光の透過により、活発な議論といくつかの論争を引き起こした。 よりオープンな疑問は、ハートマン効果が非弾性散乱、すなわちポテンシャルが非エルミート的となり散乱行列がユニタリでないときに持続するかどうかである。 ここでは、強結合図形のヘテロ接合障壁をトンネルし、この障壁は2つの半無限近傍エルミート格子リードに付随する一般の非エルミート有限サイズ格子からなる。 非エルミティアン障壁におけるハートマン効果の持続性に関する単純で一般的な条件を導出し、非ハーミティティーが非エルミティアン結合から生じる場合、すなわちバリアが非エルミティアンスキン効果をシステムに特別な対称性を持たずに表示した場合に、より一般的に見つかることを示す。

The Hartman effect refers to the rather paradoxical result that the time spent by a quantum mechanical particle or a photon to tunnel through an opaque potential barrier becomes independent of barrier width for long barriers. Such an effect, which has been observed in different physical settings, raised a lively debate and some controversies, owing to the correct definition and interpretation of tunneling times and the apparent superluminal transmission. A rather open question is whether (and under which conditions) the Hartman effect persists for inelastic scattering, i.e. when the potential becomes non-Hermitian and the scattering matrix is not unitary. Here we consider tunneling through a heterojunction barrier in the tight-binding picture, where the barrier consists of a generally non-Hermitian finite-sized lattice attached to two semi-infinite nearest-neighbor Hermitian lattice leads. We derive a simple and general condition for the persistence of the Hartman effect in non-Hermitian barriers, showing that it can be found rather generally when non-Hermiticity arises from non-reciprocal couplings, i.e. when the barrier displays the non-Hermitian skin effect, without any special symmetry in the system.
翻訳日:2023-02-04 15:38:54 公開日:2022-07-18
# C+Lバンドフレキシブルグリッド量子ネットワークのための広帯域偏光絡み源

Broadband polarization-entangled source for C+L-band flex-grid quantum networks ( http://arxiv.org/abs/2207.08909v1 )

ライセンス: Link先を確認
Muneer Alshowkan, Joseph M. Lukens, Hsuan-Hao Lu, Brian T. Kirby, Brian P. Williams, Warren P. Grice, and Nicholas A. Peters(参考訳) 光ネットワークにおける伝送容量の増大は、標準のCバンド(1530-1565 nm)から隣接のLバンド(1565-1625 nm)への拡張に着実に関心を惹き付け、1ストロークでほぼ倍増した。 しかし、量子ネットワークの文脈では、Lバンドを利用するには、これまで遅れてきた絡み合い資源の特性と管理のための高度なツールが必要である。 そこで本研究では,Cand L帯波長選択スイッチを併用した超広帯域2光子源を試作し,スペクトルルーティングの完全制御と7.5Hz帯のアロケーションを単一構成で実現した。 全150対の25GHzチャネルの偏光状態トモグラフィーでは、平均忠実度は0.98であり、181kebits/s以上である。 このソースは、フレキシブルグリッド光ネットワーク向けに設計されており、完全なC+Lバンド間の絡み合い資源の最適利用を容易にすることができる。

The rising demand for transmission capacity in optical networks has motivated steady interest in expansion beyond the standard C-band (1530-1565 nm) into the adjacent L-band (1565-1625 nm), for an approximate doubling of capacity in a single stroke. However, in the context of quantum networking, the ability to leverage the L-band will require advanced tools for characterization and management of entanglement resources which have so far been lagging. In this work, we demonstrate an ultrabroadband two-photon source integrating both C- and L-band wavelength-selective switches for complete control of spectral routing and allocation across 7.5 THz in a single setup. Polarization state tomography of all 150 pairs of 25 GHz-wide channels reveals an average fidelity of 0.98 and total distillable entanglement greater than 181 kebits/s. This source is explicitly designed for flex-grid optical networks and can facilitate optimal utilization of entanglement resources across the full C+L-band.
翻訳日:2023-02-04 15:32:37 公開日:2022-07-18
# 局所制御された論理系に基づく量子シミュレータ

A Quantum Simulator Based on Locally Controlled Logical Systems ( http://arxiv.org/abs/2207.08900v1 )

ライセンス: Link先を確認
Ferran Riera-S\`abat, Pavel Sekatski and Wolfgang D\"ur(参考訳) デジタル量子シミュレータにおいて、基本2量子ビット相互作用は高速な局所制御操作によって操作され、所望の目標ハミルトニアンを確立する。 ここでは、論理系に基づく量子シミュレータ、すなわち、論理系間の効果的な相互作用の強化と単純な制御を得るために、複数の物理量子ビットが単一の論理2レベルシステムを表すために使用される。 物理的キュービット間の距離依存的なペアワイズ相互作用は、論理システム間の効果的な相互作用につながり、それは内部状態の選択によってのみ完全に制御される。 これにより、論理システム間の効果的な相互作用のトポロジーと強みを直接操作することができる。 本稿では,任意の対話パターンとトポロジーに対する論理システムの要求状態の選択と生成方法,任意の論理計測を行う方法,内在する2体相互作用と個々の物理キュービットの制御のみを用いて単一の論理システムを完全に制御する方法を示す。 これは論理系に基づく普遍的な量子シミュレータに繋がる。 このような論理量子シミュレータの利点について論じる。例えば、大きなオーバーヘッドでしかアクセスできないターゲットトポロジに到達できる可能性などである。 対象とする相互作用パターンやトポロジーを, 距離依存性のある最初の長距離または短距離の量子ビット相互作用から得る方法について, いくつか例を示す。

In a digital quantum simulator, basic two-qubit interactions are manipulated by means of fast local control operations to establish a desired target Hamiltonian. Here we consider a quantum simulator based on logical systems, i.e. where several physical qubits are used to represent a single logical two-level system to obtain enhanced and simple control over effective interactions between logical systems. Fixed, distance-dependent pairwise interactions between the physical qubits lead to effective interactions between the logical systems, which can be fully controlled solely by the choice of their internal state. This allows one to directly manipulate the topology and strength of effective interactions between logical systems. We show how to choose and generate the required states of logical systems for any desired interaction pattern and topology, how to perform arbitrary logical measurements, and how to obtain full control over single logical systems using only the intrinsic two-body interactions and control of individual physical qubits. This leads to a universal quantum simulator based on logical systems. We discuss the advantages of such a logical quantum simulator over standard ones, including the possibility to reach target topologies that are only accessible with large overheads otherwise. We provide several examples of how to obtain different target interaction patterns and topologies from initial long-ranged or short-ranged qubit-qubit interactions with a specific distance dependence.
翻訳日:2023-02-04 15:32:20 公開日:2022-07-18
# 量子側情報と対称古典量子チャネル上の通信によるデータ圧縮の達成可能な誤り指数

Achievable error exponents of data compression with quantum side information and communication over symmetric classical-quantum channels ( http://arxiv.org/abs/2207.08899v1 )

ライセンス: Link先を確認
Joseph M. Renes(参考訳) A fundamental quantity of interest in Shannon theory, classical or quantum, is the optimal error exponent of a given channel W and rate R: the constant E(W,R) which governs the exponential decay of decoding error when using ever larger codes of fixed rate R to communicate over ever more (memoryless) instances of a given channel W. Here I show that a bound by Hayashi [CMP 333, 335 (2015)] for an analogous quantity in privacy amplification implies a lower bound on the error exponent of communication over symmetric classical-quantum channels. 結果はダライの[IEEE TIT 59, 8027 (2013)]球充填上界と臨界値を超える速度で一致し、対称チャネルに対してよく知られた古典的な結果を再現する。 この議論は、まずプライバシ増幅の誤差指数を古典情報の圧縮と量子側情報に関連付け、Cheng et al の球充填上界と一致する下界を与える。 [IEEE TIT 67, 902 (2021)] 逆に、chengらによって発見された球充填境界に対する多項式の事前因子は、少なくとも線形ランダム性抽出器において、li、yao、林(arxiv:2111.01075 [quant-ph]])による最近の結果を鋭くするプライバシ増幅問題に翻訳することができる。

A fundamental quantity of interest in Shannon theory, classical or quantum, is the optimal error exponent of a given channel W and rate R: the constant E(W,R) which governs the exponential decay of decoding error when using ever larger codes of fixed rate R to communicate over ever more (memoryless) instances of a given channel W. Here I show that a bound by Hayashi [CMP 333, 335 (2015)] for an analogous quantity in privacy amplification implies a lower bound on the error exponent of communication over symmetric classical-quantum channels. The resulting bound matches Dalai's [IEEE TIT 59, 8027 (2013)] sphere-packing upper bound for rates above a critical value, and reproduces the well-known classical result for symmetric channels. The argument proceeds by first relating the error exponent of privacy amplification to that of compression of classical information with quantum side information, which gives a lower bound that matches the sphere-packing upper bound of Cheng et al. [IEEE TIT 67, 902 (2021)]. In turn, the polynomial prefactors to the sphere-packing bound found by Cheng et al. may be translated to the privacy amplification problem, sharpening a recent result by Li, Yao, and Hayashi [arXiv:2111.01075 [quant-ph]], at least for linear randomness extractors.
翻訳日:2023-02-04 15:31:57 公開日:2022-07-18
# フェルミオン貯水池による冷却

Cooling with fermionic reservoir ( http://arxiv.org/abs/2207.08862v1 )

ライセンス: Link先を確認
Gabriella G. Damas, Rog\'erio J. de Assis, Norton G. de Almeida(参考訳) 近年、フェルミオン貯水池(fermionic reservoirs)と呼ばれる真の量子貯水池が注目されている。 これらの貯水池は、温度上昇によって蓄積できる無限のレベルを持つボソニック貯水池とは対照的に、有限のレベルを持つことを特徴とする。 このことから、特に熱機械の動作において、量子貯水池を使うことの利点を探求するために、いくつかの研究が行われている。 本研究は, ボソニックまたはフェルミオン系貯留層の存在下で作動する熱冷凍機の比較研究を行い, フェルミオン系貯留層はボソニック系よりも優れていることを示した。 本稿では, 量子ビットの状態の漸近挙動とこれらの量子ビットとそれぞれの貯水池の交換速度を解析することにより, これらの利点の起源を説明する。

Recently, much emphasis has been given to genuinely quantum reservoirs generically called fermionic reservoirs. These reservoirs are characterized by having finite levels, as opposed to bosonic reservoirs, which have infinite levels that can be populated via an increase in temperature. Given this, some studies are being carried out to explore the advantages of using quantum reservoirs, in particular in the operation of heat machines. In this work, we make a comparative study of a thermal refrigerator operating in the presence of either a bosonic or a fermionic reservoir, and we show that fermionic reservoirs have advantages over bosonic ones. We propose an explanation for the origin of these advantages by analyzing both the asymptotic behavior of the states of the qubits and the exchange rates between these qubits and their respective reservoirs.
翻訳日:2023-02-04 15:31:31 公開日:2022-07-18
# Ta2NiSe5における光誘起テラヘルツ反射率増幅のフレネル・フロケ理論

Fresnel-Floquet theory of light-induced terahertz reflectivity amplification in Ta2NiSe5 ( http://arxiv.org/abs/2207.08851v1 )

ライセンス: Link先を確認
Marios Michael, Sheikh Rubaiat Ul Haque, Lukas Windgaetter, Simone Latini, Yuan Zhang, Angel Rubio, Richard D. Averitt, Eugene Demler(参考訳) 理論上, テラヘルツパラメトリック増幅のための新しい経路を, 候補励起子ta2nise5における上ギャップ光励起により開始する。 電子光励起後、電子-フォノンカップリングは、強結合フォノンの圧縮振動によって媒介されるthzパラメトリック増幅に繋がる。 この理論は、短いパルスによる光励起がテラヘルツ反射率を高めるTa2NiSe5の実験結果によって支持されている。 DFT ab-initio 計算を用いて, 単純化されたハミルトニアンによるパラメトリック増幅の鍵機構を説明し, Ta2NiSe5 における簡易モデルの妥当性を示す。 我々は、電子バンド構造に優先的に結合する4.7thz赤外線アクティブフォノンを同定し、低周波テラヘルツ増幅に大きく寄与する。 さらに,電子-フォノン結合は秩序パラメータに強く依存していることを示す。 我々の理論は、励起されたTa2NiSe5は、THz通信アプリケーションでTHz増幅器を作成するために使用できるゲイン媒体であることを示している。

We theoretically investigate a new pathway for terahertz parametric amplification, initiated by above-gap optical excitation in the candidate excitonic insulator Ta2NiSe5. We show that after electron photoexcitation, electron-phonon coupling can lead to THz parametric amplification, mediated by squeezed oscillations of the strongly coupled phonon. The developed theory is supported by experimental results on Ta2NiSe5 where photoexcitation with short pulses leads to enhanced terahertz reflectivity. We explain the key mechanism leading to parametric amplification in terms of a simplified Hamiltonian and demonstrate the validity of the simplified model in Ta2NiSe5 using DFT ab-initio calculations. We identify a unique 4.7 THz infrared active phonon that is preferentially coupled to the electronic bandstructure, providing a dominant contribution to the low frequency terahertz amplification. Moreover, we show that the electron-phonon coupling is strongly dependent on the order parameter. Our theory suggests that the pumped Ta2NiSe5 is a gain medium which can be used to create THz amplifiers in THz communication applications.
翻訳日:2023-02-04 15:31:16 公開日:2022-07-18
# ダイヤモンド集積量子フォトニクス

Diamond Integrated Quantum Photonics: A Review ( http://arxiv.org/abs/2207.08844v1 )

ライセンス: Link先を確認
Prasoon K. Shandilya, Sigurd Fl{\aa}gan, Natalia C. Carvalho, Elham Zohari, Vinaya K. Kavatamane, Joseph E. Losby, Paul E. Barclay(参考訳) ダイヤモンドの集積量子フォトニクスデバイスは、長距離量子通信、量子情報処理、量子センシングなど、多くの量子アプリケーションにとって大きな可能性を持っている。 これらの装置は、ダイヤモンドの異常な熱、光学、機械的特性の組み合わせの恩恵を受ける。 その広い電子バンドギャップにより、ダイヤモンドは量子技術の主要な構成要素である様々な光学活性スピン量子ビットの理想的なホストとなる。 ランドマーク実験では、ダイヤモンドスピン量子ビットは、リモートエンタングルメント、メモリ強化量子通信、フォールトトレラント量子誤り訂正によるマルチキュービットスピンレジスタの実証を可能にし、マルチノード量子ネットワークの実現につながった。 これらの進歩により、ダイヤモンドは量子情報処理のための固体材料プラットフォームの最前線に立った。 近年のダイヤモンドナノファブリケーション技術の発展は、これらの目覚ましい実験を現実の量子技術へ拡大するための有望な道筋となっている。 本稿では,ダイヤモンド量子フォトニックデバイスの開発における最近の進歩,特にスピンフォトニック界面,キャビティ光機械デバイス,スピンフォノン変換について述べる。 最後に,スケーラブルな量子技術におけるダイヤモンドの利用の展望と課題について述べる。

Integrated quantum photonics devices in diamond have tremendous potential for many quantum applications, including long-distance quantum communication, quantum information processing, and quantum sensing. These devices benefit from diamond's combination of exceptional thermal, optical, and mechanical properties. Its wide electronic bandgap makes diamond an ideal host for a variety of optical active spin qubits that are key building blocks for quantum technologies. In landmark experiments, diamond spin qubits have enabled demonstrations of remote entanglement, memory-enhanced quantum communication, and multi-qubit spin registers with fault-tolerant quantum error correction, leading to the realization of multinode quantum networks. These advancements put diamond at the forefront of solid-state material platforms for quantum information processing. Recent developments in diamond nanofabrication techniques provide a promising route to further scaling of these landmark experiments towards real-life quantum technologies. In this paper, we focus on the recent progress in creating integrated diamond quantum photonic devices, with particular emphasis on spin-photon interfaces, cavity optomechanical devices, and spin-phonon transduction. Finally, we discuss prospects and remaining challenges for the use of diamond in scalable quantum technologies.
翻訳日:2023-02-04 15:30:29 公開日:2022-07-18
# rydberg量子シミュレータにおけるlandau-forbidden量子臨界

Landau-Forbidden Quantum Criticality in Rydberg Quantum Simulators ( http://arxiv.org/abs/2207.08829v1 )

ライセンス: Link先を確認
Jong Yeon Lee, Joshua Ramette, Max A. Metlitski, Vladan Vuletic, Wen Wei Ho, Soonwon Choi(参考訳) 位相遷移のランダウ-ギンツブルク-ヴィルソン理論は、異なる対称性を自発的に破る2つの位相間の連続的な遷移を妨げる。 しかし、量子力学的効果は対称性と相互作用し、デコンフィニッシュ量子臨界(DQC)と呼ばれるエキゾチックな現象を引き起こす。 本研究では,rydberg状態を通じて強く相互作用する1次元中性原子配列の基底状態相図を解析し,様々な対称性破壊相とdqcを含む遷移相の存在を数値シミュレーションにより実証する。 標準計算ベースで測定スナップショットで得られた2つの異なる次数パラメータのジョイント分布において実験的に観察できるdqcsにおいて、拡大した創発的連続対称性がどのように発生するかを示す。 ライドバーグ原子の量子シミュレータは、そのようなエキゾチックな現象を実験的に実現するための有望なプラットフォームとしてだけでなく、従来の実験では得られない物理的性質へのアクセスを可能にするユニークなプラットフォームとしても注目される。

The Landau-Ginzburg-Wilson theory of phase transitions precludes a continuous transition between two phases that spontaneously break distinct symmetries. However, quantum mechanical effects can intertwine the symmetries, giving rise to an exotic phenomenon called deconfined quantum criticality (DQC). In this work, we study the ground state phase diagram of a one-dimensional array of individually trapped neutral atoms interacting strongly via Rydberg states, and demonstrate through extensive numerical simulations that it hosts a variety of symmetry-breaking phases and their transitions including DQC. We show how an enlarged, emergent continuous symmetry arises at the DQCs, which can be experimentally observed in the joint distribution of two distinct order parameters, obtained within measurement snapshots in the standard computational basis. Our findings highlight quantum simulators of Rydberg atoms not only as promising platforms to experimentally realize such exotic phenomena, but also as unique ones allowing access to physical properties not obtainable in traditional experiments.
翻訳日:2023-02-04 15:30:09 公開日:2022-07-18
# ProjectionPathExplorer: 投影された意思決定パスにおける視覚パターンの探索

ProjectionPathExplorer: Exploring Visual Patterns in Projected Decision-Making Paths ( http://arxiv.org/abs/2001.08372v3 )

ライセンス: Link先を確認
Andreas Hinterreiter and Christian Steinparz and Moritz Sch\"ofl and Holger Stitz and Marc Streit(参考訳) 問題解決において、解決策への道は一連の決定と見なすことができる。 人間やコンピュータによってなされた決定は、問題の高次元表現空間を通して軌道を記述する。 次元の減少により、これらの軌道は低次元空間で可視化できる。 このような埋め込み軌道は、以前は様々なデータに適用されてきたが、分析は単一軌道の自己相似性にのみ焦点を絞っている。 対照的に、同じ埋め込み空間において、多くの軌道 -- 異なる初期条件、エンド状態、およびソリューション戦略 -- を描き出すパターンを記述します。 これらのパターンを解釈することで、問題解決の課題や解決戦略に関する一般的な言明を実現できると論じる。 我々は,論理パズル(rubik's cube),戦略ゲーム(chess),最適化問題(neural network training)など,さまざまなアプリケーション領域において,人間および機械による意思決定から生じる軌跡のパターンを探索し,特徴付ける。 また,組込みにおける適切な表現空間と類似度指標の重要性についても考察する。

In problem-solving, a path towards solutions can be viewed as a sequence of decisions. The decisions, made by humans or computers, describe a trajectory through a high-dimensional representation space of the problem. By means of dimensionality reduction, these trajectories can be visualized in lower-dimensional space. Such embedded trajectories have previously been applied to a wide variety of data, but analysis has focused almost exclusively on the self-similarity of single trajectories. In contrast, we describe patterns emerging from drawing many trajectories -- for different initial conditions, end states, and solution strategies -- in the same embedding space. We argue that general statements about the problem-solving tasks and solving strategies can be made by interpreting these patterns. We explore and characterize such patterns in trajectories resulting from human and machine-made decisions in a variety of application domains: logic puzzles (Rubik's cube), strategy games (chess), and optimization problems (neural network training). We also discuss the importance of suitably chosen representation spaces and similarity metrics for the embedding.
翻訳日:2023-01-08 05:21:44 公開日:2022-07-18
# 二次元MDLヒストグラムによる教師なし離散化

Unsupervised Discretization by Two-dimensional MDL-based Histogram ( http://arxiv.org/abs/2006.01893v3 )

ライセンス: Link先を確認
Lincen Yang, Mitra Baratchi, and Matthijs van Leeuwen(参考訳) 教師なしの離散化は多くの知識発見タスクにおいて重要なステップである。 1次元データに対する最先端の手法は、最小記述長(MDL)原理を用いて局所適応ヒストグラムを推定するが、多次元の場合の研究ははるかに少ない。 残念なことに、このアプローチは寸法間の依存関係を適切に特徴づけることができず、望まれるよりも多くの細胞(またはビン)からなる離散化をもたらす。 この問題に対処するために,より柔軟な2次元データの分割を可能にする表現型モデルクラスを提案する。 本稿では,一次元の場合の技巧状態を拡張し,mdlの形式である正規化最大度に基づくモデル選択問題を得る。 モデルクラスの柔軟性が巨大な探索空間のコストになるにつれて、各次元を交互に分割し、隣接する領域をマージするヒューリスティックアルゴリズム、palmを導入する。 合成データによる実験から、PALMは 1) 十分なサンプルサイズを与えられたモデルクラス(すなわち探索空間)内にある基底真理分割を正確に明らかにすること。 2) モデルクラスの外側の広い範囲の分割をよく近似する。 3) 最先端多変量離散化法 (PD) とは対照的に収束する。 最後に,このアルゴリズムを3つの空間データセットに適用し,カーネル密度推定 (kde) と比較して,より詳細な密度変化を示すだけでなく,log-likelihood で測定した非知覚データにも適合することを示す。

Unsupervised discretization is a crucial step in many knowledge discovery tasks. The state-of-the-art method for one-dimensional data infers locally adaptive histograms using the minimum description length (MDL) principle, but the multi-dimensional case is far less studied: current methods consider the dimensions one at a time (if not independently), which result in discretizations based on rectangular cells of adaptive size. Unfortunately, this approach is unable to adequately characterize dependencies among dimensions and/or results in discretizations consisting of more cells (or bins) than is desirable. To address this problem, we propose an expressive model class that allows for far more flexible partitions of two-dimensional data. We extend the state of the art for the one-dimensional case to obtain a model selection problem based on the normalized maximum likelihood, a form of refined MDL. As the flexibility of our model class comes at the cost of a vast search space, we introduce a heuristic algorithm, named PALM, which Partitions each dimension ALternately and then Merges neighboring regions, all using the MDL principle. Experiments on synthetic data show that PALM 1) accurately reveals ground truth partitions that are within the model class (i.e., the search space), given a large enough sample size; 2) approximates well a wide range of partitions outside the model class; 3) converges, in contrast to the state-of-the-art multivariate discretization method IPD. Finally, we apply our algorithm to three spatial datasets, and we demonstrate that, compared to kernel density estimation (KDE), our algorithm not only reveals more detailed density changes, but also fits unseen data better, as measured by the log-likelihood.
翻訳日:2022-11-25 23:46:34 公開日:2022-07-18
# 力学系における因果構造同定

Identifying Causal Structure in Dynamical Systems ( http://arxiv.org/abs/2006.03906v2 )

ライセンス: Link先を確認
Dominik Baumann, Friedrich Solowjow, Karl H. Johansson, and Sebastian Trimpe(参考訳) 数学的モデルは動的制御系の設計における基本的な構成要素である。 制御システムはますます複雑でネットワーク化されつつあり、第一原理に基づくモデルを得るためのアプローチは限界に達している。 データ駆動型メソッドは代替手段を提供する。 しかし、構造的な知識がなければ、これらの手法はトレーニングデータに散発的な相関を見つけやすいため、得られたモデルの一般化能力を妨げる可能性がある。 これにより、システムが未知の状況に晒された場合、制御と予測性能が著しく低下する。 先行する因果識別は、この落とし穴を防ぐことができる。 本稿では,制御系の因果構造を同定する手法を提案する。 制御可能性の概念に基づく実験を設計し、状態空間内の特定の領域にシステムを操る入力軌跡を体系的に計算する方法を提供する。 次に,因果推論の強力な手法を用いて得られたデータを解析し,制御系に拡張する。 さらに,システムの真の因果構造の発見を保証する条件を導出する。 ロボットアームの実験は、実世界のデータから信頼できる因果識別を示し、一般化能力を高める。

Mathematical models are fundamental building blocks in the design of dynamical control systems. As control systems are becoming increasingly complex and networked, approaches for obtaining such models based on first principles reach their limits. Data-driven methods provide an alternative. However, without structural knowledge, these methods are prone to finding spurious correlations in the training data, which can hamper generalization capabilities of the obtained models. This can significantly lower control and prediction performance when the system is exposed to unknown situations. A preceding causal identification can prevent this pitfall. In this paper, we propose a method that identifies the causal structure of control systems. We design experiments based on the concept of controllability, which provides a systematic way to compute input trajectories that steer the system to specific regions in its state space. We then analyze the resulting data leveraging powerful techniques from causal inference and extend them to control systems. Further, we derive conditions that guarantee the discovery of the true causal structure of the system. Experiments on a robot arm demonstrate reliable causal identification from real-world data and enhanced generalization capabilities.
翻訳日:2022-11-24 21:33:55 公開日:2022-07-18
# アンセムとヴァンパイアによるタイト論理プログラムの検証

Verifying Tight Logic Programs with anthem and Vampire ( http://arxiv.org/abs/2008.02025v5 )

ライセンス: Link先を確認
Jorge Fandinno, Vladimir Lifschitz, Patrick L\"uhne and Torsten Schaub(参考訳) 本稿では,論理プログラムと一階理論の関係を調べることを目的とした研究を継続する。 我々は,プログラム完了の定義を,ASPの接頭辞の入力言語のサブセットで入力と出力を持つプログラムに拡張し,安定モデルと完了との関係について検討し,入力と出力によるプログラムの正当性を検証するために,アンセムとヴァンパイアという2つのソフトウェアツールを用いた予備実験を記述する。 定理の証明は、この論文で研究されたプログラムのセマンティクスを一階式の安定モデルに関連付ける補題に基づいている。 TPLPの受容についての検討

This paper continues the line of research aimed at investigating the relationship between logic programs and first-order theories. We extend the definition of program completion to programs with input and output in a subset of the input language of the ASP grounder gringo, study the relationship between stable models and completion in this context, and describe preliminary experiments with the use of two software tools, anthem and vampire, for verifying the correctness of programs with input and output. Proofs of theorems are based on a lemma that relates the semantics of programs studied in this paper to stable models of first-order formulas. Under consideration for acceptance in TPLP.
翻訳日:2022-11-02 18:28:50 公開日:2022-07-18
# タブラルリームにもっと深く目を向ける

Looking Deeper into Tabular LIME ( http://arxiv.org/abs/2008.11092v3 )

ライセンス: Link先を確認
Damien Garreau, Ulrike von Luxburg(参考訳) 本稿では,表データの場合の LIME の既定実装に関する詳細な理論的解析を行う。 大規模なサンプル限界では,アルゴリズムパラメータの関数やブラックボックスモデルに関連する予測計算として,タブラルLIMEが提供する解釈係数を明示的な方法で計算できることを証明した。 説明する関数が(座標の部分集合によっては線形、乗法的、あるいはスパース的に)良い代数構造を持つとき、我々の分析は LIME が提供する説明について興味深い洞察を与える。 これらは、ガウスカーネルやCARTランダムフォレストなど、さまざまな機械学習モデルに適用できる。 例えば、線型関数に対して、limeは、説明対象関数の係数に比例する説明を提供し、説明対象関数で使用されていない座標を無視するための望ましい性質を持っていることを示す。 一方、分割型回帰器では、LIMEは望ましくない人工物を生成し、誤解を招くような説明を提供する。

In this paper, we present a thorough theoretical analysis of the default implementation of LIME in the case of tabular data. We prove that in the large sample limit, the interpretable coefficients provided by Tabular LIME can be computed in an explicit way as a function of the algorithm parameters and some expectation computations related to the black-box model. When the function to explain has some nice algebraic structure (linear, multiplicative, or sparsely depending on a subset of the coordinates), our analysis provides interesting insights into the explanations provided by LIME. These can be applied to a range of machine learning models including Gaussian kernels or CART random forests. As an example, for linear functions we show that LIME has the desirable property to provide explanations that are proportional to the coefficients of the function to explain and to ignore coordinates that are not used by the function to explain. For partition-based regressors, on the other side, we show that LIME produces undesired artifacts that may provide misleading explanations.
翻訳日:2022-10-25 02:48:31 公開日:2022-07-18
# 暗黙的勾配正規化

Implicit Gradient Regularization ( http://arxiv.org/abs/2009.11162v3 )

ライセンス: Link先を確認
David G.T. Barrett and Benoit Dherin(参考訳) 勾配降下は、過剰にフィットすることなく、明示的な正規化なしにディープニューラルネットワークを最適化するのに驚くほど優れている。 勾配降下の離散ステップは、損失勾配が大きい勾配降下軌跡をペナルティ化することにより、暗黙的にモデルを正則化する。 我々はImplicit Gradient Regularization (IGR)と呼び、後方誤差解析を用いて正規化のサイズを計算する。 実験により,暗黙の勾配正規化は,テスト誤差が小さく,解が雑音パラメータの摂動に対して頑健な平坦なミニマへの勾配降下の偏りを実証する。 さらに,暗黙の勾配正規化項を明示的な正規化として用いることができ,この勾配正規化を直接制御できることを示した。 より広義には, 回帰誤差解析は, 学習速度, モデルサイズ, パラメータの正規化が相互に作用し, 勾配降下に最適化された過パラメータモデルの特性を決定するという, 多年にわたる問題に対して有用な理論的アプローチであることを示す。

Gradient descent can be surprisingly good at optimizing deep neural networks without overfitting and without explicit regularization. We find that the discrete steps of gradient descent implicitly regularize models by penalizing gradient descent trajectories that have large loss gradients. We call this Implicit Gradient Regularization (IGR) and we use backward error analysis to calculate the size of this regularization. We confirm empirically that implicit gradient regularization biases gradient descent toward flat minima, where test errors are small and solutions are robust to noisy parameter perturbations. Furthermore, we demonstrate that the implicit gradient regularization term can be used as an explicit regularizer, allowing us to control this gradient regularization directly. More broadly, our work indicates that backward error analysis is a useful theoretical approach to the perennial question of how learning rate, model size, and parameter regularization interact to determine the properties of overparameterized models optimized with gradient descent.
翻訳日:2022-10-15 15:36:06 公開日:2022-07-18
# PRVNet:MIMO CSIフィードバックのための部分正規化変分自動エンコーダ

PRVNet: A Novel Partially-Regularized Variational Autoencoders for Massive MIMO CSI Feedback ( http://arxiv.org/abs/2011.04178v2 )

ライセンス: Link先を確認
Mostafa Hussien, Kim Khoa Nguyen, Mohamed Cheriet(参考訳) ユーザ装置(UE)は、多重出力多重出力周波数分割二重化(MIMO-FDD)システムにおいて、ダウンリンクチャネル状態情報(CSI)を基地局に送信し、リンク状況を報告する。 MIMOシステムの複雑さのため、この情報を送信する際のオーバーヘッドはシステムの帯域幅に悪影響を及ぼす。 この問題は文献で広く検討されてきたが、先行研究は一般に理想的なフィードバックチャネルを想定している。 本稿では,変分オートエンコーダ(VAE)にインスパイアされたニューラルネットワークアーキテクチャであるPRVNetを導入し,ノイズチャネル条件下で基地局に送信する前にCSI行列を圧縮する。 さらに,対処する問題の特殊特性に最もよく適合するカスタマイズされた損失関数を提案する。 また,学習目的のための正規化ハイパーパラメータも導入し,競争性能向上に不可欠である。 さらに,このハイパーパラメータをklアニーリングを用いて効率的にチューニングする方法を提案する。 実験の結果,提案モデルが,無ノイズフィードバックチャネル仮定における2つのディープラーニングモデルを含むベンチマークモデルを上回ることがわかった。 さらに,付加的な白色ガウス雑音フィードバックチャネルに対して,異なる雑音レベル下での優れた性能を実現する。

In a multiple-input multiple-output frequency-division duplexing (MIMO-FDD) system, the user equipment (UE) sends the downlink channel state information (CSI) to the base station to report link status. Due to the complexity of MIMO systems, the overhead incurred in sending this information negatively affects the system bandwidth. Although this problem has been widely considered in the literature, prior work generally assumes an ideal feedback channel. In this paper, we introduce PRVNet, a neural network architecture inspired by variational autoencoders (VAE) to compress the CSI matrix before sending it back to the base station under noisy channel conditions. Moreover, we propose a customized loss function that best suits the special characteristics of the problem being addressed. We also introduce an additional regularization hyperparameter for the learning objective, which is crucial for achieving competitive performance. In addition, we provide an efficient way to tune this hyperparameter using KL-annealing. Experimental results show the proposed model outperforms the benchmark models including two deep learning-based models in a noise-free feedback channel assumption. In addition, the proposed model achieves an outstanding performance under different noise levels for additive white Gaussian noise feedback channels.
翻訳日:2022-09-28 02:10:26 公開日:2022-07-18
# MOOCにおける適応学習のための一般事前学習フレームワーク

Towards a General Pre-training Framework for Adaptive Learning in MOOCs ( http://arxiv.org/abs/2208.04708v1 )

ライセンス: Link先を確認
Qingyang Zhong, Jifan Yu, Zheyuan Zhang, Yiming Mao, Yuquan Wang, Yankai Lin, Lei Hou, Juanzi Li, Jie Tang(参考訳) 適応学習は、学習リソースのモデリング、学生状態の推定、パーソナライズドレコメンデーションの作成など、さまざまなタスクの高度なシステムレベルでの調整を必要とする個人学習者のニーズを刺激し、満足することを目的としている。 既存のディープラーニング手法は統計モデルよりも大きな成功を収めてきたが、多種多様なタスクの一般化が欠如しており、高度に結合されたタスク固有のアーキテクチャで構成されており、小規模で粗大なレコメンデーションシナリオに依存しているため、能力不足に悩んでいる。 教育理論で提案されている一般適応システムの概念を実現するために,nlpにおける新たな事前学習手法を用いて,適応学習への事前学習の適用に関する実践的な調査を行い,異種学習要素を適切に活用したデータ観測と学習スタイル分析に基づく統一フレームワークを提案する。 学習レコメンデーション,学習資源評価,知識追跡,ドロップアウト予測の一連の下流課題を通じて,授業構造,テキスト,知識がモデル化に役立ち,本質的に学生非シーケンス学習行動と整合し,学習基盤に含まれる間接的関連情報を下流タスク間で共有し,有効性を高めることができることを見出した。 適応学習のシステマティックな応用を最終的に構築し、教育に還元された洞察を反映する。 ソースコードとデータセットがリリースされる。

Adaptive learning aims to stimulate and meet the needs of individual learners, which requires sophisticated system-level coordination of diverse tasks, including modeling learning resources, estimating student states, and making personalized recommendations. Existing deep learning methods have achieved great success over statistical models; however, they still lack generalization for diverse tasks and suffer from insufficient capacity since they are composed of highly-coupled task-specific architectures and rely on small-scale, coarse-grained recommendation scenarios. To realize the idea of general adaptive systems proposed in pedagogical theory, with the emerging pre-training techniques in NLP, we try to conduct a practical exploration on applying pre-training to adaptive learning, to propose a unified framework based on data observation and learning style analysis, properly leveraging heterogeneous learning elements. Through a series of downstream tasks of Learning Recommendation, Learning Resource Evaluation, Knowledge Tracing, and Dropout Prediction, we find that course structures, text, and knowledge are helpful for modeling and inherently coherent to student non-sequential learning behaviors and that indirectly relevant information included in the pre-training foundation can be shared across downstream tasks to facilitate effectiveness. We finally build a simplified systematic application of adaptive learning and reflect on the insights brought back to pedagogy. The source code and dataset will be released.
翻訳日:2022-08-14 18:25:28 公開日:2022-07-18
# 高速TCADシミュレーションとML対応サロゲートモデルによる垂直GaNダイオードBVの最大化

Vertical GaN Diode BV Maximization through Rapid TCAD Simulation and ML-enabled Surrogate Model ( http://arxiv.org/abs/2208.01142v1 )

ライセンス: Link先を確認
Albert Lu, Jordan Marshall, Yifan Wang, Ming Xiao, Yuhao Zhang, Hiu Yung Wong(参考訳) 本稿では,理論的な最大BV ~ 2100V を持つ垂直GaNダイオードの破壊ボルトエイジ(BV)の最大化を高速化するために2つの手法を用いる。 まず,TCAD(Technology Computer-Aided-Design)における5倍高速な高精度シミュレーション手法を実演した。 これにより、与えられたシミュレーション時間で50%以上の高BV (>1400V) 設計を見つけることができる。 第2に、TCAD生成データを用いて機械学習(ML)モデルを開発し、微分進化最適化のための代理モデルとして利用する。 BVが1887V(理想的なケースの89%)まで高いトレーニング対象外の構造を、人間ドメインの専門知識で設計された1100Vと逆向きに設計することができる。

In this paper, two methodologies are used to speed up the maximization of the breakdown volt-age (BV) of a vertical GaN diode that has a theoretical maximum BV of ~2100V. Firstly, we demonstrated a 5X faster accurate simulation method in Technology Computer-Aided-Design (TCAD). This allows us to find 50% more numbers of high BV (>1400V) designs at a given simulation time. Secondly, a machine learning (ML) model is developed using TCAD-generated data and used as a surrogate model for differential evolution optimization. It can inversely design an out-of-the-training-range structure with BV as high as 1887V (89% of the ideal case) compared to ~1100V designed with human domain expertise.
翻訳日:2022-08-07 14:40:01 公開日:2022-07-18
# 物の人工知能(aiot)に基づく弾力性サプライチェーンのキーインプレッションの評価

Evaluation of key impression of resilient supply chain based on artificial intelligence of things (AIoT) ( http://arxiv.org/abs/2207.13174v1 )

ライセンス: Link先を確認
Alireza Aliahmadi, Hamed Nozari, Javid Ghahremani-Nahr, Agnieszka Szmelter-Jarosz(参考訳) 近年, ビジネス環境の複雑化, ダイナミズム, 環境変化, グローバル化や国際競技場における組織競争の増大といった不確実性や概念が, サプライチェーンを規定する方程式に多くの変化をもたらしている。 この場合、サプライチェーン組織は常に様々な課題と動的な環境変化に備えなければならない。 これらの課題に直面する効果的な解決策の1つは、回復力のあるサプライチェーンを作ることである。 回復力のあるサプライチェーンは、ビジネス環境における不確実性と破壊を克服することができる。 このサプライチェーンの競争上の優位性は、低コスト、高品質、遅延低減、高レベルのサービスに依存しない。 むしろ、連鎖が破滅を回避し、重要な状況を克服する能力があり、これはサプライチェーンの回復力である。 AIとIoTテクノロジとその組み合わせであるAIoTは、近年サプライチェーンのパフォーマンス向上に重要な役割を果たしているため、サプライチェーンのレジリエンスを高めることができる。 そこで本研究では,AIoT(Artificial Intelligence of Things)ベースのサプライチェーンの次元と構成要素を調べることによって,これらの技術が株式に与える影響をよりよく理解する試みを行った。 最後に、非線形ファジィ決定法を用いて、弾力性スマートサプライチェーンへの影響の最も重要な要素を決定する。 この評価を理解することは、スマートサプライチェーンの強化に役立つ。

In recent years, the high complexity of the business environment, dynamism and environmental change, uncertainty and concepts such as globalization and increasing competition of organizations in the national and international arena have caused many changes in the equations governing the supply chain. In this case, supply chain organizations must always be prepared for a variety of challenges and dynamic environmental changes. One of the effective solutions to face these challenges is to create a resilient supply chain. Resilient supply chain is able to overcome uncertainties and disruptions in the business environment. The competitive advantage of this supply chain does not depend only on low costs, high quality, reduced latency and high level of service. Rather, it has the ability of the chain to avoid catastrophes and overcome critical situations, and this is the resilience of the supply chain. AI and IoT technologies and their combination, called AIoT, have played a key role in improving supply chain performance in recent years and can therefore increase supply chain resilience. For this reason, in this study, an attempt was made to better understand the impact of these technologies on equity by examining the dimensions and components of the Artificial Intelligence of Things (AIoT)-based supply chain. Finally, using nonlinear fuzzy decision making method, the most important components of the impact on the resilient smart supply chain are determined. Understanding this assessment can help empower the smart supply chain.
翻訳日:2022-07-31 14:33:10 公開日:2022-07-18
# 機械学習による剥離性2次元材料の同定

Machine-learning accelerated identification of exfoliable two-dimensional materials ( http://arxiv.org/abs/2207.12118v1 )

ライセンス: Link先を確認
Mohammad Tohidi Vahdat, Kumar Agrawal Varoon, and Giovanni Pizzi(参考訳) 2次元(2次元)材料は、様々な特性を持つため、基礎科学と応用の両方に魅力があるため、最近の研究の中心となっている。 したがって、バルク3次元(3D)材料が弱い結合エネルギーで保持された層によって形成され、2次元材料に潜在的に剥離できる場合、正確かつ効率的に識別できることが重要である。 本研究では,高速な幾何学的スクリーニングと組み合わせて,潜在的に剥離可能な材料を効率的に同定できる機械学習(ML)アプローチを開発する。 結晶構造のためのディスクリプタの組み合わせから始め、正確な予測に不可欠な部分集合を作成します。 我々の最終MLモデルは、ランダムな森林分類器に基づいており、98倍のリコール率を持つ。 また、SHapely Additive exPlanations (SHAP) 解析を用いて、モデルの最も重要な5つの変数を直感的に説明する。 最後に、最高のMLモデルの性能を、同じ記述子を使用したディープニューラルネットワークアーキテクチャと比較する。 アルゴリズムやモデルをアクセスしやすくするために、Material Cloudポータルにオンラインツールを公開しています。 これにより, 任意の3d化合物を2d層に剥離できるかどうかを, 実用的かつ簡便に評価できる。

Two-dimensional (2D) materials have been a central focus of recent research because they host a variety of properties, making them attractive both for fundamental science and for applications. It is thus crucial to be able to identify accurately and efficiently if bulk three-dimensional (3D) materials are formed by layers held together by a weak binding energy that, thus, can be potentially exfoliated into 2D materials. In this work, we develop a machine-learning (ML) approach that, combined with a fast preliminary geometrical screening, is able to efficiently identify potentially exfoliable materials. Starting from a combination of descriptors for crystal structures, we work out a subset of them that are crucial for accurate predictions. Our final ML model, based on a random forest classifier, has a very high recall of 98\%. Using a SHapely Additive exPlanations (SHAP) analysis, we also provide an intuitive explanation of the five most important variables of the model. Finally, we compare the performance of our best ML model with a deep neural network architecture using the same descriptors. To make our algorithms and models easily accessible, we publish an online tool on the Materials Cloud portal that only requires a bulk 3D crystal structure as input. Our tool thus provides a practical yet straightforward approach to assess whether any 3D compound can be exfoliated into 2D layers.
翻訳日:2022-07-31 14:32:06 公開日:2022-07-18
# 単純な結合によるグラフの畳み込み

Demystifying Graph Convolution with a Simple Concatenation ( http://arxiv.org/abs/2207.12931v1 )

ライセンス: Link先を確認
Zhiqian Chen and Zonghan Zhang(参考訳) グラフ畳み込み(GConv)は、グラフ学習アプリケーション、特にノード分類において非常に効果的であることが証明された、広く使われているテクニックである。 一方、多くのGConvベースのモデルは、グラフトポロジとノードの特徴がパフォーマンスに与える影響を定量化せず、グラフ構造やノード特性を考慮しないモデルによってさえ超えられている。 ノード分類タスクにおけるグラフ畳み込みの表現力を決定するために,グラフトポロジ,ノード特徴,ラベル間の重なり合う情報を定量化する。 本研究では,まず分散解析を用いて,グラフ畳み込み特徴の線形分離性を決定する。 相互情報は、グラフトポロジー、ノード特徴、ラベルの間の可能な非線形関係をよりよく理解するために使用される。 理論解析により,グラフトポロジーとノード特性のみを結合する単純かつ効率的なグラフ演算は,従来のグラフ畳み込みよりも,特にヘテロフィイの場合において一貫して優れていることが示された。 合成データセットと実世界のベンチマークを用いた大規模な実証研究は、グラフの連結がグラフの畳み込みの単純な代替手段であることを示している。

Graph convolution (GConv) is a widely used technique that has been demonstrated to be extremely effective for graph learning applications, most notably node categorization. On the other hand, many GConv-based models do not quantify the effect of graph topology and node features on performance, and are even surpassed by some models that do not consider graph structure or node properties. We quantify the information overlap between graph topology, node features, and labels in order to determine graph convolution's representation power in the node classification task. In this work, we first determine the linear separability of graph convoluted features using analysis of variance. Mutual information is used to acquire a better understanding of the possible non-linear relationship between graph topology, node features, and labels. Our theoretical analysis demonstrates that a simple and efficient graph operation that concatenates only graph topology and node properties consistently outperforms conventional graph convolution, especially in the heterophily case. Extensive empirical research utilizing a synthetic dataset and real-world benchmarks demonstrates that graph concatenation is a simple but more flexible alternative to graph convolution.
翻訳日:2022-07-31 14:26:14 公開日:2022-07-18
# GPUにおける並行制約プログラミングのバリアント

A Variant of Concurrent Constraint Programming on GPU ( http://arxiv.org/abs/2207.12116v1 )

ライセンス: Link先を確認
Pierre Talbot, Fr\'ed\'eric Pinel, Pascal Bouvry(参考訳) グラフィカル・コンピューティング・ユニット(GPU)のコア数は数千に達しているが、プロセッサのクロック速度は停滞している。 残念ながら、制約プログラミングソルバは、gpu並列処理をまだ活用していない。 1つの理由は、制約ソルバが主にシーケンシャル計算のメンタルフレーム内で設計されていたためである。 この問題を解決するため、我々は、並列制約プログラミングに基づいた、単純で本質的に並列でロックフリーで形式的に正しいプログラミング言語に貢献する。 次に、この形式内でGPU上の並列制約解を再検討し、GPUで完全にプログラムされた単純な制約解法であるTurboを開発する。 Turboは我々のアプローチの正しさを検証し、並列CPUベースの解法と比較する。

The number of cores on graphical computing units (GPUs) is reaching thousands nowadays, whereas the clock speed of processors stagnates. Unfortunately, constraint programming solvers do not take advantage yet of GPU parallelism. One reason is that constraint solvers were primarily designed within the mental frame of sequential computation. To solve this issue, we take a step back and contribute to a simple, intrinsically parallel, lock-free and formally correct programming language based on concurrent constraint programming. We then re-examine parallel constraint solving on GPUs within this formalism, and develop Turbo, a simple constraint solver entirely programmed on GPUs. Turbo validates the correctness of our approach and compares positively to a parallel CPU-based solver.
翻訳日:2022-07-31 14:24:26 公開日:2022-07-18
# fewgan: いくつかの画像のジョイント分布から生成する

FewGAN: Generating from the Joint Distribution of a Few Images ( http://arxiv.org/abs/2207.11226v1 )

ライセンス: Link先を確認
Lior Ben-Moshe, Sagie Benaim, Lior Wolf(参考訳) 少数のN>1トレーニングサンプルのジョイントパッチ分布にパッチ分布がある新規で高品質で多様な画像を生成するための生成モデルであるFewGANを紹介した。 この方法は本質的には、第1の粗いスケールで量子化を適用する階層的パッチGANであり、VQ-GANと類似しており、その後、より微細なスケールで完全畳み込みGANのピラミッドが残る。 私たちの重要なアイデアは、まず量子化を使って、トレーニングイメージに対するパッチ埋め込みの固定セットを学ぶことです。 次に、学習した画像のパッチ埋め込みに基づいて訓練された自己回帰モデルを用いて、別個のサイドイメージを用いて生成画像の構造をモデル化する。 粗いスケールで量子化を使用することで、モデルは条件付きと非条件付きの両方の新規画像を生成することができる。 その後、パッチGANが細部を描画し、高品質な画像を生成する。 大規模な実験では、FewGANは定量的にも定性的にも基線より優れていることが示されている。

We introduce FewGAN, a generative model for generating novel, high-quality and diverse images whose patch distribution lies in the joint patch distribution of a small number of N>1 training samples. The method is, in essence, a hierarchical patch-GAN that applies quantization at the first coarse scale, in a similar fashion to VQ-GAN, followed by a pyramid of residual fully convolutional GANs at finer scales. Our key idea is to first use quantization to learn a fixed set of patch embeddings for training images. We then use a separate set of side images to model the structure of generated images using an autoregressive model trained on the learned patch embeddings of training images. Using quantization at the coarsest scale allows the model to generate both conditional and unconditional novel images. Subsequently, a patch-GAN renders the fine details, resulting in high-quality images. In an extensive set of experiments, it is shown that FewGAN outperforms baselines both quantitatively and qualitatively.
翻訳日:2022-07-31 14:14:34 公開日:2022-07-18
# 車内侵入検知システムにおける教師付きコントラストネットと転送学習

Supervised Contrastive ResNet and Transfer Learning for the In-vehicle Intrusion Detection System ( http://arxiv.org/abs/2207.10814v1 )

ライセンス: Link先を確認
Thien-Nu Hoang, Daehee Kim(参考訳) ハイエンド車両には多数の電子制御ユニット(ECU)が備わっており、運転体験を向上させるためのアップグレード機能を提供している。 コントローラエリアネットワーク(CAN)は、モダリティと効率性から、これらのECUを接続するよく知られたプロトコルである。 しかし、CANバスは様々な種類の攻撃に対して脆弱である。 侵入検知システム(IDS)は、CANバスのセキュリティ問題に対処するために提案されているが、従来の研究は特定の攻撃の種類を知らずに攻撃が発生した場合にのみ警告を提供する。 さらに、IDSは様々な自動車メーカーのために、特定の自動車モデルのために設計されている。 本研究では,教師付きコントラスト(SupCon)ResNetと呼ばれる,CANバスにおける複数の攻撃識別を処理可能な新しいディープラーニングモデルを提案する。 さらに、モデルを使用して、転送学習技術を用いて、限られたサイズのデータセットのパフォーマンスを向上させることができる。 提案モデルの能力は2つの実車データセットで評価される。 カーハッキングデータセットでテストすると、supcon resnetモデルは他のモデルと比較して4種類の攻撃の全体的な偽陰性率を平均4倍改善することが示されている。 さらに、転送学習を利用して、生存データセット上でのF1スコアが0.9994に達した。 最後に、モデルはメモリサイズと実行時間の観点からハードウェアの制約に適応することができる。

High-end vehicles have been furnished with a number of electronic control units (ECUs), which provide upgrading functions to enhance the driving experience. The controller area network (CAN) is a well-known protocol that connects these ECUs because of its modesty and efficiency. However, the CAN bus is vulnerable to various types of attacks. Although the intrusion detection system (IDS) is proposed to address the security problem of the CAN bus, most previous studies only provide alerts when attacks occur without knowing the specific type of attack. Moreover, an IDS is designed for a specific car model due to diverse car manufacturers. In this study, we proposed a novel deep learning model called supervised contrastive (SupCon) ResNet, which can handle multiple attack identification on the CAN bus. Furthermore, the model can be used to improve the performance of a limited-size dataset using a transfer learning technique. The capability of the proposed model is evaluated on two real car datasets. When tested with the car hacking dataset, the experiment results show that the SupCon ResNet model improves the overall false-negative rates of four types of attack by four times on average, compared to other models. In addition, the model achieves the highest F1 score at 0.9994 on the survival dataset by utilizing transfer learning. Finally, the model can adapt to hardware constraints in terms of memory size and running time.
翻訳日:2022-07-31 14:13:38 公開日:2022-07-18
# TaDaa: カスタマーサポート、ヘルプデスク、チケット発行システムのためのリアルタイムTicket Assignment Deep Learning Auto Advisor

TaDaa: real time Ticket Assignment Deep learning Auto Advisor for customer support, help desk, and issue ticketing systems ( http://arxiv.org/abs/2207.11187v1 )

ライセンス: Link先を確認
Leon Feng, Jnana Senapati, Bill Liu(参考訳) 本稿では、最新のトランスフォーマーモデルと機械学習技術を活用して、顧客サポートやヘルプデスク、それに類する発行チケットシステムなどの組織内の問題を迅速に割り当てる、TaDaa: Ticket Assignment Deep Learning Auto Advisorを提案する。 プロジェクトは機能を提供します 1) 適切なグループに課題を割り当てる。 2) 問題をベストリゾルバに割り当て, 3) リゾルバに最も関連性の高いチケットを提供する。 3k以上のグループと10k以上のリゾルバを持つ1つのチケットシステムサンプルデータセットを利用して,グループ提案における95.2%のtop3精度と,リゾルバ提案における79.0%のtop5精度を得る。 この研究により、カスタマーサポート、ヘルプデスク、チケット発行システムの平均問題解決時間が大幅に改善されることを願っている。

This paper proposes TaDaa: Ticket Assignment Deep learning Auto Advisor, which leverages the latest Transformers models and machine learning techniques quickly assign issues within an organization, like customer support, help desk and alike issue ticketing systems. The project provides functionality to 1) assign an issue to the correct group, 2) assign an issue to the best resolver, and 3) provide the most relevant previously solved tickets to resolvers. We leverage one ticketing system sample dataset, with over 3k+ groups and over 10k+ resolvers to obtain a 95.2% top 3 accuracy on group suggestions and a 79.0% top 5 accuracy on resolver suggestions. We hope this research will greatly improve average issue resolution time on customer support, help desk, and issue ticketing systems.
翻訳日:2022-07-31 14:13:14 公開日:2022-07-18
# CTL-MTNet:シングルコーパス・クロスコーパス音声認識のための新しいCapsNetとTransfer Learning-based Mixed Task Net

CTL-MTNet: A Novel CapsNet and Transfer Learning-Based Mixed Task Net for the Single-Corpus and Cross-Corpus Speech Emotion Recognition ( http://arxiv.org/abs/2207.10644v1 )

ライセンス: Link先を確認
Xin-Cheng Wen, Jia-Xin Ye, Yan Luo, Yong Xu, Xuan-Ze Wang, Chang-Li Wu and Kun-Hong Liu(参考訳) 音声感情認識(SER)は人間とコンピュータの相互作用の研究の焦点となっている。 serの本質的な課題は、異なる話者または言語から共通の属性を抽出することである。特に、特定のソースコーパスが他の音声コーパスから来る未知のデータを認識するように訓練される必要がある場合である。 この課題に対処するために,シングルコーパスとクロスコーパスSERタスクを同時に扱うために,Capsule Network(CapsNet)とTransfer LearningベースのMixed Task Net(CTLMTNet)を提案する。 シングルコーパスタスクでは、Convolution-PoolingとAtention CapsNetモジュール(CPAC)の組み合わせは、CapsNetに自己保持メカニズムを組み込んで、異なるカプセルに供給できる重要な機能に集中するようにモジュールを誘導することによって設計されている。 CPACによって抽出された高次特徴は十分な識別能力を与える。 さらに、CTL-MTNetでは、CPACとMargin Disparity Discrepancy(MDD)を組み合わせたコーパス適応適応適応モジュール(CAAM)を用いて、強い感情の共通性を抽出することで、ドメイン不変の感情表現を学習する。 異なる言語でよく知られた4つのSERデータセットを用いて、単体およびクロスコーパスタスクのアブレーション研究と可視化を含む実験を行い、性能評価と比較を行った。 その結果,CTL-MTNetは両タスクとも,複数の最先端手法と比較して,全てのケースで優れた性能を示した。 ソースコードと追加資料は、https://github.com/MLDMXM2017/CTLMTNetで入手できる。

Speech Emotion Recognition (SER) has become a growing focus of research in human-computer interaction. An essential challenge in SER is to extract common attributes from different speakers or languages, especially when a specific source corpus has to be trained to recognize the unknown data coming from another speech corpus. To address this challenge, a Capsule Network (CapsNet) and Transfer Learning based Mixed Task Net (CTLMTNet) are proposed to deal with both the singlecorpus and cross-corpus SER tasks simultaneously in this paper. For the single-corpus task, the combination of Convolution-Pooling and Attention CapsNet module CPAC) is designed by embedding the self-attention mechanism to the CapsNet, guiding the module to focus on the important features that can be fed into different capsules. The extracted high-level features by CPAC provide sufficient discriminative ability. Furthermore, to handle the cross-corpus task, CTL-MTNet employs a Corpus Adaptation Adversarial Module (CAAM) by combining CPAC with Margin Disparity Discrepancy (MDD), which can learn the domain-invariant emotion representations through extracting the strong emotion commonness. Experiments including ablation studies and visualizations on both singleand cross-corpus tasks using four well-known SER datasets in different languages are conducted for performance evaluation and comparison. The results indicate that in both tasks the CTL-MTNet showed better performance in all cases compared to a number of state-of-the-art methods. The source code and the supplementary materials are available at: https://github.com/MLDMXM2017/CTLMTNet
翻訳日:2022-07-22 12:16:51 公開日:2022-07-18
# e3nn:ユークリッドニューラルネットワーク

e3nn: Euclidean Neural Networks ( http://arxiv.org/abs/2207.09453v1 )

ライセンス: Link先を確認
Mario Geiger and Tess Smidt(参考訳) ユークリッドニューラルネットワーク(Euclidean Neural Network)として知られるE(3)同変トレーニング可能な関数を生成するための一般化されたフレームワークであるe3nnを提案する。 e3nnは自然に3dの系を記述する幾何学的および幾何学的テンソルに作用し、座標系の変化の下で予測可能な変換を行う。 e3nn の中核はテンソル積類や球面調和関数のような同変演算であり、畳み込みや注意機構のようなより複雑な加群を生成するために構成できる。 これらのe3nnのコア演算は、テンソルフィールドネットワーク、3DステアブルCNN、クレブシュ・ゴルダンネットワーク、SE(3)トランスフォーマーおよび他のE(3)同変ネットワークを効率的に調合するのに使うことができる。

We present e3nn, a generalized framework for creating E(3) equivariant trainable functions, also known as Euclidean neural networks. e3nn naturally operates on geometry and geometric tensors that describe systems in 3D and transform predictably under a change of coordinate system. The core of e3nn are equivariant operations such as the TensorProduct class or the spherical harmonics functions that can be composed to create more complex modules such as convolutions and attention mechanisms. These core operations of e3nn can be used to efficiently articulate Tensor Field Networks, 3D Steerable CNNs, Clebsch-Gordan Networks, SE(3) Transformers and other E(3) equivariant networks.
翻訳日:2022-07-21 12:32:15 公開日:2022-07-18
# デモからのマルチロボット協調学習

Learning multi-robot coordination from demonstrations ( http://arxiv.org/abs/2207.08892v1 )

ライセンス: Link先を確認
Xuan Wang, Wanxin Jin(参考訳) 本稿では、デモからマルチロボット協調学習を可能にする分散微分可能動的ゲーム(DDDG)フレームワークを開発する。 我々は,マルチロボット協調をダイナミックゲームとして表現し,ロボットの動作は,他者の行動にも依存する自身のダイナミクスと目的によって決定される。 このように協調は、各ロボットの目的とダイナミクスをチューニングすることで適応することができる。 提案したDDDGにより、各ロボットは、その軌道とデモンストレーションのミスマッチを最小限に抑えて、個々のダイナミクスと目的を自動的に分散的に調整することができる。 このプロセスでは、すべてのロボットが協力してナッシュ平衡挙動を求めるフォワードパスの新しい分散設計と、勾配が通信グラフを介して伝播する後方パスが必要となる。 我々は、異なるタスク構成のクワッドロータのチームでdddgをシミュレーションでテストする。 実演から多ボット協調学習におけるDDDGの有用性を実証した。

This paper develops a Distributed Differentiable Dynamic Game (DDDG) framework, which enables learning multi-robot coordination from demonstrations. We represent multi-robot coordination as a dynamic game, where the behavior of a robot is dictated by its own dynamics and objective that also depends on others' behavior. The coordination thus can be adapted by tuning the objective and dynamics of each robot. The proposed DDDG enables each robot to automatically tune its individual dynamics and objectives in a distributed manner by minimizing the mismatch between its trajectory and demonstrations. This process requires a new distributed design of the forward-pass, where all robots collaboratively seek Nash equilibrium behavior, and a backward-pass, where gradients are propagated via the communication graph. We test the DDDG in simulation with a team of quadrotors given different task configurations. The results demonstrate the capability of DDDG for learning multi-robot coordination from demonstrations
翻訳日:2022-07-20 14:41:13 公開日:2022-07-18
# THzマルチレイアイメージングのための量子特徴抽出

Quantum Feature Extraction for THz Multi-Layer Imaging ( http://arxiv.org/abs/2207.09285v1 )

ライセンス: Link先を確認
Toshiaki Koike-Akino, Pu Wang, Genki Yamashita, Wataru Tsujita, Makoto Nakajima(参考訳) 学習に基づくTHz多層イメージングは、最近、接触のない3次元位置決めと符号化に使われている。 実験的な検証を通じて,奥行きの変動,シャドウ効果,ダブルサイドコンテンツ認識を扱う,新たな量子機械学習(qml)フレームワークの概念実証実験を行う。

A learning-based THz multi-layer imaging has been recently used for contactless three-dimensional (3D) positioning and encoding. We show a proof-of-concept demonstration of an emerging quantum machine learning (QML) framework to deal with depth variation, shadow effect, and double-sided content recognition, through an experimental validation.
翻訳日:2022-07-20 14:37:05 公開日:2022-07-18
# Integer Arithmeticはディープラーニングトレーニングに十分か?

Is Integer Arithmetic Enough for Deep Learning Training? ( http://arxiv.org/abs/2207.08822v1 )

ライセンス: Link先を確認
Alireza Ghaffari, Marzieh S. Tahaei, Mohammadreza Tayaranian, Masoud Asgharian, Vahid Partovi Nia(参考訳) ディープラーニングモデルの計算複雑性の増大により、さまざまなクラウドやエッジプラットフォーム上でのトレーニングとデプロイメントが困難になる。 低ビット整数演算による浮動小数点演算の置き換えは、ディープラーニングモデルのエネルギー、メモリフットプリント、レイテンシを節約するための有望なアプローチである。 このように量子化は近年研究者の注目を集めている。 しかし、整数数を用いて前方通過、バックプロパゲーション、確率勾配勾配を含む完全に機能的な整数トレーニングパイプラインを形成することは、詳しくは研究されていない。 我々の経験的および数学的結果は、整数演算がディープラーニングモデルを訓練するのに十分であることを示している。 最近の提案とは異なり、量子化の代わりに計算の数値表現を直接切り替える。 提案手法は,浮動小数点に比べて損失と精度の軌跡を変えず,また特別なハイパーパラメータチューニングや分布調整,勾配クリッピングも必要としない完全整数トレーニングパイプラインを形成する。 提案手法は,分類(視覚トランスフォーマーを含む),物体検出,意味セグメンテーションなど,様々なタスクに有効であることを示す。

The ever-increasing computational complexity of deep learning models makes their training and deployment difficult on various cloud and edge platforms. Replacing floating-point arithmetic with low-bit integer arithmetic is a promising approach to save energy, memory footprint, and latency of deep learning models. As such, quantization has attracted the attention of researchers in recent years. However, using integer numbers to form a fully functional integer training pipeline including forward pass, back-propagation, and stochastic gradient descent is not studied in detail. Our empirical and mathematical results reveal that integer arithmetic is enough to train deep learning models. Unlike recent proposals, instead of quantization, we directly switch the number representation of computations. Our novel training method forms a fully integer training pipeline that does not change the trajectory of the loss and accuracy compared to floating-point, nor does it need any special hyper-parameter tuning, distribution adjustment, or gradient clipping. Our experimental results show that our proposed method is effective in a wide variety of tasks such as classification (including vision transformers), object detection, and semantic segmentation.
翻訳日:2022-07-20 14:33:39 公開日:2022-07-18
# 3次元等変分子グラフプリトレーニング

3D Equivariant Molecular Graph Pretraining ( http://arxiv.org/abs/2207.08824v1 )

ライセンス: Link先を確認
Rui Jiao, Jiaqi Han, Wenbing Huang, Yu Rong, Yang Liu(参考訳) ラベルのない分子表現モデルの事前学習は、様々な応用に不可欠である。 従来の方法では主に2D分子グラフを処理し、2Dタスクのみに焦点を合わせ、事前訓練されたモデルでは3D幾何学を特徴づけることができないため、下流の3Dタスクには欠陥がある。 本研究では, 完全かつ新しい意味での3次元分子プレトレーニングに取り組む。 特に,3次元空間の対称性を満たすメリットを享受する事前学習のバックボーンとして,同変エネルギーベースモデルを採用することを提案する。 次に、力予測のためのノードレベルの事前学習損失を開発し、さらにリーマン・ガウス分布を利用して損失がE(3)不変であることを保証する。 さらに、グラフレベルのノイズスケール予測タスクを利用して、結果のパフォーマンスをさらに向上する。 大規模3DデータセットGEOM-QM9から事前学習したモデルを,MD17とQM9の2つの挑戦的な3Dベンチマークで評価した。 実験結果は,現在のプレトレーニング手法に対する提案手法の有効性を評価し,提案する各コンポーネントの設計の有効性を検証する。

Pretraining molecular representation models without labels is fundamental to various applications. Conventional methods mainly process 2D molecular graphs and focus solely on 2D tasks, making their pretrained models incapable of characterizing 3D geometry and thus defective for downstream 3D tasks. In this work, we tackle 3D molecular pretraining in a complete and novel sense. In particular, we first propose to adopt an equivariant energy-based model as the backbone for pretraining, which enjoys the merit of fulfilling the symmetry of 3D space. Then we develop a node-level pretraining loss for force prediction, where we further exploit the Riemann-Gaussian distribution to ensure the loss to be E(3)-invariant, enabling more robustness. Moreover, a graph-level noise scale prediction task is also leveraged to further promote the eventual performance. We evaluate our model pretrained from a large-scale 3D dataset GEOM-QM9 on two challenging 3D benchmarks: MD17 and QM9. The experimental results support the better efficacy of our method against current state-of-the-art pretraining approaches, and verify the validity of our design for each proposed component.
翻訳日:2022-07-20 14:33:21 公開日:2022-07-18
# mctensor:マルチコンポーネント浮動小数点を持つ高精度ディープラーニングライブラリ

MCTensor: A High-Precision Deep Learning Library with Multi-Component Floating-Point ( http://arxiv.org/abs/2207.08867v1 )

ライセンス: Link先を確認
Tao Yu, Went Guo, Jianan Canal Li, Tiancheng Yuan, Christopher De Sa(参考訳) 本稿では,汎用・高精度のdl学習演算を実現するためのpytorchに基づくライブラリであるmctensorを提案する。 MCTensor は PyTorch Tensor と同じ方法で使われ、PyTorch と同一の PyTorch インタフェースを持つ MCTensor の基本的な行列レベルの演算演算子と NN モジュールを実装している。 提案アルゴリズムは高精度な計算を実現するとともに,高度に最適化されたPyTorch浮動小数点演算の恩恵を受ける。 我々は、一連のタスクに対してPyTorchネイティブ算術に対するMCTensor演算を評価し、float16におけるMCTensorを用いたモデルがfloat32またはfloat64精度でPyTorchモデルに適合または優れることを示した。

In this paper, we introduce MCTensor, a library based on PyTorch for providing general-purpose and high-precision arithmetic for DL training. MCTensor is used in the same way as PyTorch Tensor: we implement multiple basic, matrix-level computation operators and NN modules for MCTensor with identical PyTorch interface. Our algorithms achieve high precision computation and also benefits from heavily-optimized PyTorch floating-point arithmetic. We evaluate MCTensor arithmetic against PyTorch native arithmetic for a series of tasks, where models using MCTensor in float16 would match or outperform the PyTorch model with float32 or float64 precision.
翻訳日:2022-07-20 14:33:03 公開日:2022-07-18
# Covid-19ゲノム配列分類におけるロバストネスのベンチマーク

Benchmarking Machine Learning Robustness in Covid-19 Genome Sequence Classification ( http://arxiv.org/abs/2207.08898v1 )

ライセンス: Link先を確認
Sarwan Ali, Bikram Sahoo, Alexander Zelikovskiy, Pin-Yu Chen, Murray Patterson(参考訳) 新型コロナウイルスのパンデミックが急速に拡大し、SARS-CoV-2ゲノムの配列データ(数百万の配列と数)が前例のない量になった。 このようなデータの量は、ウイルスの多様性、ダイナミクス、進化を理解するための従来のアプローチの能力を超えるものの、これらのデータからそのような重要な情報を抽出する代替手段として機械学習(ML)アプローチの豊富なリソースである。 したがって、これらのMLモデルの堅牢性をテストするためのフレームワークを設計することが最も重要である。 本稿では,生物配列を誤りでシミュレートすることで,MLモデルのロバスト性を評価するための最初の試みを行う。 本稿では、IlluminaやPacBioといった一般的なシークエンシングプラットフォームのエラープロファイルを模倣するために、SARS-CoV-2ゲノム配列を摂動する方法をいくつか紹介する。 シミュレーションに基づくいくつかのアプローチは、入力シーケンスに対する特定の敵攻撃に対する特定の埋め込み手法に対して、他のモデルよりも堅牢(かつ正確)であることを示す。 我々のベンチマークフレームワークは、研究者がさまざまなMLモデルを適切に評価し、SARS-CoV-2ウイルスの挙動を理解するのに役立つかもしれない。

The rapid spread of the COVID-19 pandemic has resulted in an unprecedented amount of sequence data of the SARS-CoV-2 genome -- millions of sequences and counting. This amount of data, while being orders of magnitude beyond the capacity of traditional approaches to understanding the diversity, dynamics, and evolution of viruses is nonetheless a rich resource for machine learning (ML) approaches as alternatives for extracting such important information from these data. It is of hence utmost importance to design a framework for testing and benchmarking the robustness of these ML models. This paper makes the first effort (to our knowledge) to benchmark the robustness of ML models by simulating biological sequences with errors. In this paper, we introduce several ways to perturb SARS-CoV-2 genome sequences to mimic the error profiles of common sequencing platforms such as Illumina and PacBio. We show from experiments on a wide array of ML models that some simulation-based approaches are more robust (and accurate) than others for specific embedding methods to certain adversarial attacks to the input sequences. Our benchmarking framework may assist researchers in properly assessing different ML models and help them understand the behavior of the SARS-CoV-2 virus or avoid possible future pandemics.
翻訳日:2022-07-20 14:32:44 公開日:2022-07-18
# 擬フェルミオンをもつ格子場理論におけるサンプリングのためのゲージ同変フローモデル

Gauge-equivariant flow models for sampling in lattice field theories with pseudofermions ( http://arxiv.org/abs/2207.08945v1 )

ライセンス: Link先を確認
Ryan Abbott, Michael S. Albergo, Denis Boyda, Kyle Cranmer, Daniel C. Hackett, Gurtej Kanwar, S\'ebastien Racani\`ere, Danilo J. Rezende, Fernando Romero-L\'opez, Phiala E. Shanahan, Betsy Tian and Julian M. Urban(参考訳) 本研究は、フェルミオン行列式に対する確率的推定子として擬フェルミオンを用いるフェルミオン格子場理論におけるフローベースサンプリングのためのゲージ同値なアーキテクチャを提案する。 これは最先端の格子場理論計算におけるデフォルトのアプローチであり、QCDのような理論へのフローモデルの実践的応用に欠かせない。 even/oddプリコンディショニングやhasenbusch因子分解といった標準技術によってフローベースのサンプリングアプローチを改善する方法も概説されている。 フェルミオンのフレーバーが$N_f=2$の2次元U(1)およびSU(3)ゲージ理論の数値的な実証を行う。

This work presents gauge-equivariant architectures for flow-based sampling in fermionic lattice field theories using pseudofermions as stochastic estimators for the fermionic determinant. This is the default approach in state-of-the-art lattice field theory calculations, making this development critical to the practical application of flow models to theories such as QCD. Methods by which flow-based sampling approaches can be improved via standard techniques such as even/odd preconditioning and the Hasenbusch factorization are also outlined. Numerical demonstrations in two-dimensional U(1) and SU(3) gauge theories with $N_f=2$ flavors of fermions are provided.
翻訳日:2022-07-20 14:32:23 公開日:2022-07-18
# resam: uav飛行制御装置への応用によるディープラーニング異常モデルの要件抽出と仕様

RESAM: Requirements Elicitation and Specification for Deep-Learning Anomaly Models with Applications to UAV Flight Controllers ( http://arxiv.org/abs/2207.08857v1 )

ライセンス: Link先を確認
Md Nafee Al Islam, Yihong Ma, Pedro Alarcon Granadeno, Nitesh Chawla, Jane Cleland-Huang(参考訳) CPS(CyberPhysical Systems)は、日常業務中に発生した緊急問題を特定し、軽減するために、厳密に監視されなければならない。 しかし、それらが生み出す多変量時系列データは、理解と分析が複雑である。 正式な製品ドキュメンテーションは、しばしば診断提案を伴うサンプルデータプロットを提供するが、属性の多様性、臨界しきい値、データインタラクションは、その後、議論フォーラムからデータログを解釈するために助けを求める非専門家にとって圧倒的である。 LSTM(Long Short-term memory)ネットワークのようなディープラーニングモデルは、これらのタスクの自動化や、リアルタイム多変量データストリームで検出される多様な異常の明確な説明に使用できる。 本稿では,ドメインエキスパートや議論フォーラム,公式製品資料などの知識を統合した要件プロセスであるRESAMについて,効率的な深層学習異常検知器の構築に寄与する時系列属性の形で,要件と設計定義を発見し,指定する。 本稿では,小型無人航空システムのための飛行制御システムに基づくケーススタディを提案し,その利用が効果的な異常検出モデルの構築を導くとともに,説明可能性の基盤となるサポートを提供することを示す。 RESAMは、オープンまたはクローズドなオンラインフォーラムがログ分析の議論支援を提供するドメインに関連する。

CyberPhysical systems (CPS) must be closely monitored to identify and potentially mitigate emergent problems that arise during their routine operations. However, the multivariate time-series data which they typically produce can be complex to understand and analyze. While formal product documentation often provides example data plots with diagnostic suggestions, the sheer diversity of attributes, critical thresholds, and data interactions can be overwhelming to non-experts who subsequently seek help from discussion forums to interpret their data logs. Deep learning models, such as Long Short-term memory (LSTM) networks can be used to automate these tasks and to provide clear explanations of diverse anomalies detected in real-time multivariate data-streams. In this paper we present RESAM, a requirements process that integrates knowledge from domain experts, discussion forums, and formal product documentation, to discover and specify requirements and design definitions in the form of time-series attributes that contribute to the construction of effective deep learning anomaly detectors. We present a case-study based on a flight control system for small Uncrewed Aerial Systems and demonstrate that its use guides the construction of effective anomaly detection models whilst also providing underlying support for explainability. RESAM is relevant to domains in which open or closed online forums provide discussion support for log analysis.
翻訳日:2022-07-20 14:25:57 公開日:2022-07-18
# データ拡張アルゴリズムの研究動向と応用

Research Trends and Applications of Data Augmentation Algorithms ( http://arxiv.org/abs/2207.08817v1 )

ライセンス: Link先を確認
Joao Fonseca, Fernando Bacao(参考訳) 機械学習研究コミュニティでは、モデルの複雑さと必要なデータ量と計算能力の関係について合意がある。 現実のアプリケーションでは、これらの計算要件は必ずしも利用可能ではなく、正規化手法の研究を動機付けている。 さらに、現在および過去の研究では、より単純な分類アルゴリズムが、トレーニングデータセットを人工的に増強する堅牢な方法によって、コンピュータビジョンタスクにおける最先端のパフォーマンスに達することが示されている。 このため、近年ではデータ拡張技術が研究の話題となっている。 しかし、既存のデータ拡張法は他の正規化法よりも転送可能ではない。 本稿では,データ拡張アルゴリズムの適用分野,使用するアルゴリズムの種類,重要な研究動向,時間経過に伴う研究の進展,データ拡張文学における研究ギャップについて述べる。 そのため、関連する文献はスコプスのデータベースを通じて収集された。 その分析は、ネットワーク科学、テキストマイニング、探索分析のアプローチに従って行われた。 我々は、読者がデータ拡張の可能性を理解し、データ拡張研究における将来の研究の方向性や疑問を明らかにすることを期待している。

In the Machine Learning research community, there is a consensus regarding the relationship between model complexity and the required amount of data and computation power. In real world applications, these computational requirements are not always available, motivating research on regularization methods. In addition, current and past research have shown that simpler classification algorithms can reach state-of-the-art performance on computer vision tasks given a robust method to artificially augment the training dataset. Because of this, data augmentation techniques became a popular research topic in recent years. However, existing data augmentation methods are generally less transferable than other regularization methods. In this paper we identify the main areas of application of data augmentation algorithms, the types of algorithms used, significant research trends, their progression over time and research gaps in data augmentation literature. To do this, the related literature was collected through the Scopus database. Its analysis was done following network science, text mining and exploratory analysis approaches. We expect readers to understand the potential of data augmentation, as well as identify future research directions and open questions within data augmentation research.
翻訳日:2022-07-20 14:15:32 公開日:2022-07-18
# トップ$kの分類と変数のための一貫性多面体サロゲート

Consistent Polyhedral Surrogates for Top-$k$ Classification and Variants ( http://arxiv.org/abs/2207.08873v1 )

ライセンス: Link先を確認
Jessie Finocchiaro, Rafael Frongillo, Emma Goodwill, Anish Thilagar(参考訳) Top-k$分類(Top-k$ classification)は、情報検索、画像分類、その他の極端な分類設定において広く用いられる多クラス分類の一般化である。 いくつかのヒンジ状の(区分線形な)サロゲートが提案されているが、全ては凸でないか矛盾している。 凸であるヒンジ状サーロゲート(つまり多面体)について,最近のfinocchiaro et al. (2019; 2022) の埋め込みフレームワークを適用し,サーロゲートが一貫した予測問題を決定する。 これらの問題は、すべてトップ$k$の分類の変種として解釈でき、いくつかの応用とよりよく一致している可能性がある。 我々は、この解析を利用して条件付きラベル分布の制約を導出し、提案するサロゲートはトップ$k$に対して一貫性を持つ。 さらに、すべての凸ヒンジ状サロゲートは、トップ$k$に対して矛盾していることが示唆されている。 しかし、我々は同じ埋め込みフレームワークを使用して、この問題に対して最初の一貫した多面体代理を与える。

Top-$k$ classification is a generalization of multiclass classification used widely in information retrieval, image classification, and other extreme classification settings. Several hinge-like (piecewise-linear) surrogates have been proposed for the problem, yet all are either non-convex or inconsistent. For the proposed hinge-like surrogates that are convex (i.e., polyhedral), we apply the recent embedding framework of Finocchiaro et al. (2019; 2022) to determine the prediction problem for which the surrogate is consistent. These problems can all be interpreted as variants of top-$k$ classification, which may be better aligned with some applications. We leverage this analysis to derive constraints on the conditional label distributions under which these proposed surrogates become consistent for top-$k$. It has been further suggested that every convex hinge-like surrogate must be inconsistent for top-$k$. Yet, we use the same embedding framework to give the first consistent polyhedral surrogate for this problem.
翻訳日:2022-07-20 14:15:14 公開日:2022-07-18
# バイレベル最適化を用いた学習スパーシティプロモーティング正則化器

Learning Sparsity-Promoting Regularizers using Bilevel Optimization ( http://arxiv.org/abs/2207.08939v1 )

ライセンス: Link先を確認
Avrajit Ghosh, Michael T. McCann, Madeline Mitchell, and Saiprasad Ravishankar(参考訳) 本稿では,信号と画像の同期化のためのスパルシリティプロモーティング正規化器の教師付き学習法を提案する。 スパルシリティプロモーティング正則化は、現代の信号再構成問題を解決する上で重要な要素であるが、これらの正則化の基礎となる演算子は通常、手で設計するか、教師なしの方法でデータから学習される。 画像再構成問題の解決における教師あり学習(主に畳み込みニューラルネットワーク)の成功は、正規化器を設計するための実りあるアプローチであることを示している。 そこで本研究では,パラメトリック・スパーシティ・プロモーティング・レギュラライザを用いた変分定式化手法を用いて,レギュラライザのパラメータを学習し,地上真理画像と計測ペアのトレーニングセットにおける再構成平均二乗誤差を最小化する手法を提案する。 トレーニングは、難解な双可解最適化問題を解くことを含み、デノナイジング問題の閉形式解を用いて、トレーニング損失の勾配の式を導出し、それを最小化する勾配降下アルゴリズムを提供する。 本研究では,構造化1次元信号と自然画像を用いた実験により,既知の正規化器(トータル変動,dct-sparsity,教師なし辞書学習)と協調フィルタリングを学習し,雑音除去を行うことができることを示す。 我々が提示するアプローチはデノイジングに特有であるが、線形計測モデルによるより広い種類の逆問題に適用できると信じており、幅広い信号再構成設定で適用可能である。

We present a method for supervised learning of sparsity-promoting regularizers for denoising signals and images. Sparsity-promoting regularization is a key ingredient in solving modern signal reconstruction problems; however, the operators underlying these regularizers are usually either designed by hand or learned from data in an unsupervised way. The recent success of supervised learning (mainly convolutional neural networks) in solving image reconstruction problems suggests that it could be a fruitful approach to designing regularizers. Towards this end, we propose to denoise signals using a variational formulation with a parametric, sparsity-promoting regularizer, where the parameters of the regularizer are learned to minimize the mean squared error of reconstructions on a training set of ground truth image and measurement pairs. Training involves solving a challenging bilievel optimization problem; we derive an expression for the gradient of the training loss using the closed-form solution of the denoising problem and provide an accompanying gradient descent algorithm to minimize it. Our experiments with structured 1D signals and natural images show that the proposed method can learn an operator that outperforms well-known regularizers (total variation, DCT-sparsity, and unsupervised dictionary learning) and collaborative filtering for denoising. While the approach we present is specific to denoising, we believe that it could be adapted to the larger class of inverse problems with linear measurement models, giving it applicability in a wide range of signal reconstruction settings.
翻訳日:2022-07-20 14:14:43 公開日:2022-07-18
# 協調エネルギーに基づく生成モデルの改善

Adversarial Training Improves Joint Energy-Based Generative Modelling ( http://arxiv.org/abs/2207.08950v1 )

ライセンス: Link先を確認
Rostislav Korst, Arip Asadulaev(参考訳) ハイブリッドエネルギーモデルを用いた生成モデリングのための新しいフレームワークを提案する。 本手法では,ロバスト分類器の解釈可能な入力勾配と,サンプリングのためのランゲヴィンダイナミクスを組み合わせる。 逆訓練を用いることで, 学習安定性だけでなく, 協調エネルギーモデルにおけるロバスト性, 生成的モデリングも向上する。

We propose the novel framework for generative modelling using hybrid energy-based models. In our method we combine the interpretable input gradients of the robust classifier and Langevin Dynamics for sampling. Using the adversarial training we improve not only the training stability, but robustness and generative modelling of the joint energy-based models.
翻訳日:2022-07-20 14:14:14 公開日:2022-07-18
# PBRE:スマートホームサービス用に設計されたトレーニングニューラルネットワークからのルール抽出手法

PBRE: A Rule Extraction Method from Trained Neural Networks Designed for Smart Home Services ( http://arxiv.org/abs/2207.08814v1 )

ライセンス: Link先を確認
Mingming Qiu, Elie Najm, Remi Sharrock, Bruno Traverson(参考訳) 多数のセンサとアクチュエータを備えた複数のサービスが同時にデプロイされる場合、スマートホームサービスの設計は複雑なタスクである。 知識ベースやデータ駆動のアプローチに依存する場合もある。 前者は規則に基づく手法で静的にサービスを設計することができ、後者は学習法を用いて住民の好みを動的に発見することができる。 しかし、ルールは変化しうる全ての可能な状況をカバーすることができず、学習方法が時として居住者にとって理解できない決定を下す可能性があるため、これらのアプローチはいずれも完全に満足できない。 本稿では,スマートホームシステムにおける動的ルール生成を実現するための学習手法からルールを抽出する pbre (pedagogic based rule extractor) を提案する。 期待される利点は、ルールベースの手法の説明可能性と学習方法の動的性の両方を採用することである。 PBREを既存のルール抽出法と比較した結果,PBREの性能は向上した。 また、PBREを用いて、NRL(Neural Network-based Reinforcement Learning)で表されるスマートホームサービスからルールを抽出する。 その結果,PBRE は NRL を模擬したサービスの実現に有効であることが示唆された。

Designing smart home services is a complex task when multiple services with a large number of sensors and actuators are deployed simultaneously. It may rely on knowledge-based or data-driven approaches. The former can use rule-based methods to design services statically, and the latter can use learning methods to discover inhabitants' preferences dynamically. However, neither of these approaches is entirely satisfactory because rules cannot cover all possible situations that may change, and learning methods may make decisions that are sometimes incomprehensible to the inhabitant. In this paper, PBRE (Pedagogic Based Rule Extractor) is proposed to extract rules from learning methods to realize dynamic rule generation for smart home systems. The expected advantage is that both the explainability of rule-based methods and the dynamicity of learning methods are adopted. We compare PBRE with an existing rule extraction method, and the results show better performance of PBRE. We also apply PBRE to extract rules from a smart home service represented by an NRL (Neural Network-based Reinforcement Learning). The results show that PBRE can help the NRL-simulated service to make understandable suggestions to the inhabitant.
翻訳日:2022-07-20 14:13:08 公開日:2022-07-18
# 社会影響最大化のためのコミュニティ対応フレームワーク

A Community-Aware Framework for Social Influence Maximization ( http://arxiv.org/abs/2207.08937v1 )

ライセンス: Link先を確認
Abhishek Kumar Umrawal and Vaneet Aggarwal(参考訳) 我々は、影響最大化(im)の問題を考える。「もし、ソーシャルネットワーク内の一部の個人に新しい製品やイノベーションを採用するよう説得できるなら、目標は、より多くの採用を促進することであり、どの個人をターゲットにすべきなのか?」。 公式には、ネットワーク内の影響ノードの期待数(影響伝播モデルによって)を最大化するように、ソーシャルネットワーク内で$k$シードノードを選択する作業である。 この問題は文献で広く研究され、いくつかの解法が提案されている。 しかし、シミュレーションに基づくアプローチの多くは、ネットワーク全体のシードノードの影響を計算するためにモンテカルロシミュレーションを利用する。 これにより、大規模なソーシャルネットワークにおけるこれらの方法の適用性が制限される。 本稿では,影響最大化の問題を時間効率良く解くことに関心を寄せる。 我々は,コミュニティを意識した分断・解決戦略を提案する。 (i)ソーシャルネットワークの本質的なコミュニティ構造を学習すること。 (ii)地域ごとの影響最大化問題を解決することにより、候補ソリューションを生成すること、 (iii)新規な漸進的予算編成方式を用いて、候補ソリューションから個人の最終集合を選択すること。 実世界のソーシャルネットワーク上で実験を行い,提案アルゴリズムは経験的実行時間とヒューリスティックアルゴリズムでシミュレーションに基づくアルゴリズムよりも効果が高いことを示した。 また,コミュニティ構造がアルゴリズムの性能に与える影響についても検討した。 実験の結果,モジュール性が高いコミュニティ構造は,実行時間と影響の観点から,提案アルゴリズムを向上させることがわかった。

We consider the Influence Maximization (IM) problem: 'if we can try to convince a subset of individuals in a social network to adopt a new product or innovation, and the goal is to trigger a large cascade of further adoptions, which set of individuals should we target'? Formally, it is the task of selecting $k$ seed nodes in a social network such that the expected number of influenced nodes in the network (under some influence propagation model) is maximized. This problem has been widely studied in the literature and several solution approaches have been proposed. However, most simulation-based approaches involve time-consuming Monte-Carlo simulations to compute the influence of the seed nodes in the entire network. This limits the applicability of these methods on large social networks. In the paper, we are interested in solving the problem of influence maximization in a time-efficient manner. We propose a community-aware divide-and-conquer strategy that involves (i) learning the inherent community structure of the social network, (ii) generating candidate solutions by solving the influence maximization problem for each community, and (iii) selecting the final set of individuals from the candidate solutions using a novel progressive budgeting scheme. We provide experiments on real-world social networks, showing that the proposed algorithm outperforms the simulation-based algorithms in terms of empirical run-time and the heuristic algorithms in terms of influence. We also study the effect of the community structure on the performance of our algorithm. Our experiments show that the community structures with higher modularity lead the proposed algorithm to perform better in terms of run-time and influence.
翻訳日:2022-07-20 14:12:49 公開日:2022-07-18
# 物体検出のための視覚・言語モデルを用いたラベルなしデータの活用

Exploiting Unlabeled Data with Vision and Language Models for Object Detection ( http://arxiv.org/abs/2207.08954v1 )

ライセンス: Link先を確認
Shiyu Zhao, Zhixing Zhang, Samuel Schulter, Long Zhao, Vijay Kumar B.G, Anastasis Stathopoulos, Manmohan Chandraker, Dimitris Metaxas(参考訳) 堅牢で汎用的なオブジェクト検出フレームワークを構築するには、より大きなラベルスペースとより大きなトレーニングデータセットへのスケーリングが必要だ。 しかし、数千のカテゴリのアノテーションを大規模に取得することは、非常にコストがかかる。 近年の視覚や言語モデルで利用可能なリッチなセマンティクスを利用して、未ラベル画像中のオブジェクトをローカライズ・分類し、オブジェクト検出のための擬似ラベルを効果的に生成する手法を提案する。 汎用的でクラスに依存しない領域の提案メカニズムから始め、イメージの各領域を下流タスクに必要な任意のオブジェクトカテゴリに分類するためにビジョンと言語モデルを使用します。 生成した擬似ラベルの2つの特定のタスクにおける値を示す。open-vocabulary detection, モデルが未認識のオブジェクトカテゴリに一般化する必要がある場合, 半教師付きオブジェクト検出, 追加ラベルなしイメージを使用してモデルを改善する場合である。 評価の結果,両タスクにおける疑似ラベルの有効性が示され,競合ベースラインを上回って,オープンボキャブラリーオブジェクト検出のための新たな最先端を実現することができた。 私たちのコードはhttps://github.com/xiaofeng94/vl-plmで利用可能です。

Building robust and generic object detection frameworks requires scaling to larger label spaces and bigger training datasets. However, it is prohibitively costly to acquire annotations for thousands of categories at a large scale. We propose a novel method that leverages the rich semantics available in recent vision and language models to localize and classify objects in unlabeled images, effectively generating pseudo labels for object detection. Starting with a generic and class-agnostic region proposal mechanism, we use vision and language models to categorize each region of an image into any object category that is required for downstream tasks. We demonstrate the value of the generated pseudo labels in two specific tasks, open-vocabulary detection, where a model needs to generalize to unseen object categories, and semi-supervised object detection, where additional unlabeled images can be used to improve the model. Our empirical evaluation shows the effectiveness of the pseudo labels in both tasks, where we outperform competitive baselines and achieve a novel state-of-the-art for open-vocabulary object detection. Our code is available at https://github.com/xiaofeng94/VL-PLM.
翻訳日:2022-07-20 13:52:25 公開日:2022-07-18
# 時空間的特徴相互作用による時空間映像の高分解能化

Enhancing Space-time Video Super-resolution via Spatial-temporal Feature Interaction ( http://arxiv.org/abs/2207.08960v1 )

ライセンス: Link先を確認
Zijie Yue, Miaojing Shi, Shuai Ding, Shanlin Yang(参考訳) 時空ビデオ超解像(STVSR)の目標は、フレームレート(時間分解能とも呼ばれる)と所定のビデオの空間分解能の両方を増加させることである。 最近のアプローチでは、エンドツーエンドのディープニューラルネットワークでSTVSRを解決する。 一般的な解決策は、まずビデオのフレームレートを向上し、次に異なるフレーム特徴間の特徴改善を行い、最後にこれらの特徴の空間分解能を高めることである。 このプロセスでは,異なるフレームの特徴間の時間的相関を慎重に活用する。 異なる(空間)解像度の特徴間の空間的相関は、非常に重要であるにもかかわらず強調されない。 本稿では,異なるフレームの特徴と空間分解能の空間的相関を利用して,STVSRを強化する空間的時間的特徴相互作用ネットワークを提案する。 具体的には、低解像度および高分解能の中間フレーム特徴を同時にインタラクティブに補間するために、空間-時間フレーム補間モジュールを導入する。 空間的時間的局所分解モジュールと大域的精製モジュールはその後それぞれ展開され、異なる特徴間の空間的時間的相関を利用して精製を行う。 最後に、再構成フレーム間の動き継続性を高めるために、新しい動き整合損失を用いる。 我々は,Vid4,Vimeo-90K,Adobe240の3つの標準ベンチマークを用いて実験を行い,本手法が技術手法の精度をかなり向上することを示した。 私たちのコードはhttps://github.com/yuezijie/STINet-Space-time-Video-Super- resolutionで公開されます。

The target of space-time video super-resolution (STVSR) is to increase both the frame rate (also referred to as the temporal resolution) and the spatial resolution of a given video. Recent approaches solve STVSR with end-to-end deep neural networks. A popular solution is to first increase the frame rate of the video; then perform feature refinement among different frame features; and last increase the spatial resolutions of these features. The temporal correlation among features of different frames is carefully exploited in this process. The spatial correlation among features of different (spatial) resolutions, despite being also very important, is however not emphasized. In this paper, we propose a spatial-temporal feature interaction network to enhance STVSR by exploiting both spatial and temporal correlations among features of different frames and spatial resolutions. Specifically, the spatial-temporal frame interpolation module is introduced to interpolate low- and high-resolution intermediate frame features simultaneously and interactively. The spatial-temporal local and global refinement modules are respectively deployed afterwards to exploit the spatial-temporal correlation among different features for their refinement. Finally, a novel motion consistency loss is employed to enhance the motion continuity among reconstructed frames. We conduct experiments on three standard benchmarks, Vid4, Vimeo-90K and Adobe240, and the results demonstrate that our method improves the state of the art methods by a considerable margin. Our codes will be available at https://github.com/yuezijie/STINet-Space-time-Video-Super-resolution.
翻訳日:2022-07-20 13:52:03 公開日:2022-07-18
# SelectionConv:非直線画像データのための畳み込みニューラルネットワーク

SelectionConv: Convolutional Neural Networks for Non-rectilinear Image Data ( http://arxiv.org/abs/2207.08979v1 )

ライセンス: Link先を確認
David Hart, Michael Whitney, Bryan Morse(参考訳) 畳み込みニューラルネットワークは視覚アプリケーションに革命をもたらした。 しかし、標準的なCNN(例えば球面画像、スーパーピクセル)では処理できない画像領域や表現が存在する。 このようなデータは、通常、各タイプに特化したネットワークとアルゴリズムを使用して処理される。 本研究では,そのような空間で動作するために,特別なニューラルネットワークを使用する必要が必ずしもないことを示す。 代わりに、新しい構造化グラフ畳み込み演算子を導入し、2d畳み込み重みをコピーし、トレーニング済みの従来のcnnの機能を新しいグラフネットワークに転送します。 このネットワークは、位置グラフとして表現できる任意のデータを操作することができる。 非線形データをグラフに変換することによって、これらの畳み込みを、大きなドメイン固有のデータセットのトレーニングを必要とせずに、不規則なイメージドメインに適用することができる。 様々なデータ形式に対して, セグメンテーション, スタイリゼーション, 深度予測のための事前学習画像ネットワークの転送結果を示す。

Convolutional Neural Networks have revolutionized vision applications. There are image domains and representations, however, that cannot be handled by standard CNNs (e.g., spherical images, superpixels). Such data are usually processed using networks and algorithms specialized for each type. In this work, we show that it may not always be necessary to use specialized neural networks to operate on such spaces. Instead, we introduce a new structured graph convolution operator that can copy 2D convolution weights, transferring the capabilities of already trained traditional CNNs to our new graph network. This network can then operate on any data that can be represented as a positional graph. By converting non-rectilinear data to a graph, we can apply these convolutions on these irregular image domains without requiring training on large domain-specific datasets. Results of transferring pre-trained image networks for segmentation, stylization, and depth prediction are demonstrated for a variety of such data forms.
翻訳日:2022-07-20 13:51:39 公開日:2022-07-18
# DeformIrisNet:虹彩テクスチャ変形のアイデンティティ保存モデル

DeformIrisNet: An Identity-Preserving Model of Iris Texture Deformation ( http://arxiv.org/abs/2207.08980v1 )

ライセンス: Link先を確認
Siamul Karim Khan, Patrick Tinsley and Adam Czajka(参考訳) 瞳孔サイズの変化による非線形虹彩テクスチャの変形は、虹彩認識における真正比較スコアのクラス内ばらつきの原因の1つである。 アイリス認識における支配的なアプローチでは、リング状アイリス領域のサイズは正準矩形に線形にスケールされ、さらに符号化やマッチングに用いられる。 しかし、虹彩括約筋と拡張筋の生物学的複雑さは、虹彩の特徴の運動を瞳孔の大きさの関数で非線形にし、放射状経路に沿ってのみ組織化しない。 本稿では, アイリス筋の生体力学に基づく既存の理論モデルに対して, データから直接アイリステクスチャの特徴の複雑な動きを効果的に学習するディープオートエンコーダモデルを提案する。 提案モデルは2つの入力を必要とする。 (a)初期瞳孔の大きさのISO準拠近赤外虹彩像 (b)虹彩の目標形状を定義する二分マスク。 モデルは画像中の虹彩形状にマッチする虹彩テクスチャに必要となる全ての非線形変形を与える (a)対象マスクが設けた形状 (b) 損失関数のアイデンティティ保存成分は、モデルが生成したサンプルの視覚的リアリズムだけでなく、アイデンティティを保存する変形を見つけるのに役立つ。 線形モデルと比較して虹彩認識アルゴリズムの虹彩テクスチャ変形に対する補正の精度向上と,瞳孔拡張量の大きな差で虹彩画像を比較する必要のあるヒトの法医学検査者を支援する生成アルゴリズムの作成について述べる。 この論文と一緒に利用可能なソースコードとモデルウェイトを提供します。

Nonlinear iris texture deformations due to pupil size variations are one of the main factors responsible for within-class variance of genuine comparison scores in iris recognition. In dominant approaches to iris recognition, the size of a ring-shaped iris region is linearly scaled to a canonical rectangle, used further in encoding and matching. However, the biological complexity of iris sphincter and dilator muscles causes the movements of iris features to be nonlinear in a function of pupil size, and not solely organized along radial paths. Alternatively to the existing theoretical models based on biomechanics of iris musculature, in this paper we propose a novel deep autoencoder-based model that can effectively learn complex movements of iris texture features directly from the data. The proposed model takes two inputs, (a) an ISO-compliant near-infrared iris image with initial pupil size, and (b) the binary mask defining the target shape of the iris. The model makes all the necessary nonlinear deformations to the iris texture to match the shape of iris in image (a) with the shape provided by the target mask (b). The identity-preservation component of the loss function helps the model in finding deformations that preserve identity and not only visual realism of generated samples. We also demonstrate two immediate applications of this model: better compensation for iris texture deformations in iris recognition algorithms, compared to linear models, and creation of generative algorithm that can aid human forensic examiners, who may need to compare iris images with large difference in pupil dilation. We offer the source codes and model weights available along with this paper.
翻訳日:2022-07-20 13:51:25 公開日:2022-07-18
# 高速対人訓練のための事前指導型対人初期化

Prior-Guided Adversarial Initialization for Fast Adversarial Training ( http://arxiv.org/abs/2207.08859v1 )

ライセンス: Link先を確認
Xiaojun Jia, Yong Zhang, Xingxing Wei, Baoyuan Wu, Ke Ma, Jue Wang, Xiaochun Cao(参考訳) 高速対人訓練(FAT)は、標準対人訓練(SAT)の効率を効果的に向上させる。 しかし、初期のFATは破滅的な過剰適合、すなわち敵攻撃に対する堅牢な精度が急激かつ劇的に低下する。 いくつかのFAT型はオーバーフィッティングを防ぐための努力を省いたものの、多くの計算コストを犠牲にした。 本稿では,SAT と FAT のトレーニングプロセスの違いを考察し,FAT の逆例 (AE) の攻撃成功率が後期トレーニング段階で徐々に悪化し,過度な適合が生じることを観察する。 AEは、ゼロまたはランダムな初期化を伴う高速勾配符号法(FGSM)によって生成される。 そこで本研究では,いくつかの初期化戦略を調査した上で,事前誘導型FGSM初期化手法を提案する。 初期化は、計算コストを増大させることなく、歴史的に生成されたAEを利用する。 さらに,提案手法の理論的解析を行う。 また,事前誘導初期化に基づく単純かつ効果的な正規化器,すなわち現在生成している摂動を事前誘導初期化からあまり逸脱してはならないことを提案する。 正規化器は、モデル学習を導くために、歴史的および現在の敵対的摂動の両方を採用する。 4つのデータセットの評価結果から,提案手法は破滅的な過剰適合を防止し,最先端のFAT法より優れることを示す。 コードはhttps://github.com/jiaxiaojunQAQ/FGSM-PGIで公開されている。

Fast adversarial training (FAT) effectively improves the efficiency of standard adversarial training (SAT). However, initial FAT encounters catastrophic overfitting, i.e.,the robust accuracy against adversarial attacks suddenly and dramatically decreases. Though several FAT variants spare no effort to prevent overfitting, they sacrifice much calculation cost. In this paper, we explore the difference between the training processes of SAT and FAT and observe that the attack success rate of adversarial examples (AEs) of FAT gets worse gradually in the late training stage, resulting in overfitting. The AEs are generated by the fast gradient sign method (FGSM) with a zero or random initialization. Based on the observation, we propose a prior-guided FGSM initialization method to avoid overfitting after investigating several initialization strategies, improving the quality of the AEs during the whole training process. The initialization is formed by leveraging historically generated AEs without additional calculation cost. We further provide a theoretical analysis for the proposed initialization method. We also propose a simple yet effective regularizer based on the prior-guided initialization,i.e., the currently generated perturbation should not deviate too much from the prior-guided initialization. The regularizer adopts both historical and current adversarial perturbations to guide the model learning. Evaluations on four datasets demonstrate that the proposed method can prevent catastrophic overfitting and outperform state-of-the-art FAT methods. The code is released at https://github.com/jiaxiaojunQAQ/FGSM-PGI.
翻訳日:2022-07-20 13:44:57 公開日:2022-07-18
# コンピュータビジョンに基づく橋梁損傷検出のための階層的意味セグメンテーションフレームワーク

A hierarchical semantic segmentation framework for computer vision-based bridge damage detection ( http://arxiv.org/abs/2207.08878v1 )

ライセンス: Link先を確認
Jingxiao Liu, Yujie Wei, Bingqing Chen(参考訳) リモートカメラと無人航空機(UAV)を用いたコンピュータビジョンによる損傷検出は、作業コストとセンサーの設置とメンテナンスの必要性を低減し、効率的で低コストなブリッジヘルスモニタリングを可能にする。 最近のセマンティックイメージセグメンテーションアプローチを利用することで、重要な構造コンポーネントの領域を見つけ出し、画像のみを入力として画素レベルでの損傷を認識することができる。 しかし、画像サンプルが限られている小さな損傷(例えば亀裂や露出したリバー)や薄い物体を検出した場合、特に関心の成分が高度に不均衡な場合には、既存の手法は不十分である。 そこで本稿では,コンポーネントカテゴリと損傷タイプ間の階層的意味関係を課すセマンティックセグメンテーションフレームワークを提案する。 例えば、特定のコンクリートひび割れは橋梁にのみ存在するため、この損傷を検知すると非カラム領域は遮蔽される。 このようにして、損傷検出モデルは、損傷のある地域のみからの学習特徴に焦点を当て、他の無関係地域の影響を避けることができる。 また,画像の文脈情報を保持する異なるスケールのビューを提供するマルチスケール拡張も活用し,小型・薄型オブジェクトの処理能力を失っている。 さらに,不均衡なデータ課題に対処するために,レアなコンポーネント(鉄道スリーパーや露出したリバーなど)を含む画像を繰り返しサンプリングし,より多くのデータサンプルを提供する重要なサンプリング手法を提案する。

Computer vision-based damage detection using remote cameras and unmanned aerial vehicles (UAVs) enables efficient and low-cost bridge health monitoring that reduces labor costs and the needs for sensor installation and maintenance. By leveraging recent semantic image segmentation approaches, we are able to find regions of critical structural components and recognize damage at the pixel level using images as the only input. However, existing methods perform poorly when detecting small damages (e.g., cracks and exposed rebars) and thin objects with limited image samples, especially when the components of interest are highly imbalanced. To this end, this paper introduces a semantic segmentation framework that imposes the hierarchical semantic relationship between component category and damage types. For example, certain concrete cracks only present on bridge columns and therefore the non-column region will be masked out when detecting such damages. In this way, the damage detection model could focus on learning features from possible damaged regions only and avoid the effects of other irrelevant regions. We also utilize multi-scale augmentation that provides views with different scales that preserves contextual information of each image without losing the ability of handling small and thin objects. Furthermore, the proposed framework employs important sampling that repeatedly samples images containing rare components (e.g., railway sleeper and exposed rebars) to provide more data samples, which addresses the imbalanced data challenge.
翻訳日:2022-07-20 13:44:34 公開日:2022-07-18
# 条件付きDETR V2: ボックスクエリによる効率的な検出変換器

Conditional DETR V2: Efficient Detection Transformer with Box Queries ( http://arxiv.org/abs/2207.08914v1 )

ライセンス: Link先を確認
Xiaokang Chen, Fangyun Wei, Gang Zeng, Jingdong Wang(参考訳) 本稿では,NMSなどの手作り後処理を伴わないトランスコーダデコーダアーキテクチャに基づく,エンドツーエンドのオブジェクト検出手法である検出トランス (DETR) に興味がある。 内部デコーダ層に対するボックスクエリ(当初は空間クエリと呼ばれていた)を提供する高速なトレーニング収束を伴う改良されたDETRであるConditional DETRにインスパイアされ、参照点の埋め込みと参照点に対するボックスの変換の合成であるボックスクエリの形式にオブジェクトクエリを再構成する。 この改定は、DETRのオブジェクトクエリと、Faster R-CNNで広く研究されているアンカーボックスとの接続を示している。 さらに、画像の内容からボックスクエリを学習し、高速なトレーニング収束で条件付きDETRの検出品質をさらに向上する。 さらに,メモリコストを削減し,エンコーダを高速化するために,軸方向自己アテンションの概念を採用する。 その結果、Conditional DETR V2と呼ばれる検出器は、Conditional DETRよりも優れた結果をもたらし、メモリコストを節約し、より効率的に動作させる。 例えば、DC$5$-ResNet-$50$バックボーンの場合、私たちのアプローチは、COCO$val$セットで$16.4$FPSで$44.8$APを獲得し、Conditional DETRと比較して1.6\times$高速に動作し、全体的なメモリコストの74$\%を節約し、$1.0$APスコアを改善する。

In this paper, we are interested in Detection Transformer (DETR), an end-to-end object detection approach based on a transformer encoder-decoder architecture without hand-crafted postprocessing, such as NMS. Inspired by Conditional DETR, an improved DETR with fast training convergence, that presented box queries (originally called spatial queries) for internal decoder layers, we reformulate the object query into the format of the box query that is a composition of the embeddings of the reference point and the transformation of the box with respect to the reference point. This reformulation indicates the connection between the object query in DETR and the anchor box that is widely studied in Faster R-CNN. Furthermore, we learn the box queries from the image content, further improving the detection quality of Conditional DETR still with fast training convergence. In addition, we adopt the idea of axial self-attention to save the memory cost and accelerate the encoder. The resulting detector, called Conditional DETR V2, achieves better results than Conditional DETR, saves the memory cost and runs more efficiently. For example, for the DC$5$-ResNet-$50$ backbone, our approach achieves $44.8$ AP with $16.4$ FPS on the COCO $val$ set and compared to Conditional DETR, it runs $1.6\times$ faster, saves $74$\% of the overall memory cost, and improves $1.0$ AP score.
翻訳日:2022-07-20 13:44:08 公開日:2022-07-18
# エゴセントリックビデオのストローク後の家庭における手と手の役割の認識

Recognizing Hand Use and Hand Role at Home After Stroke from Egocentric Video ( http://arxiv.org/abs/2207.08920v1 )

ライセンス: Link先を確認
Meng-Fen Tsai, Rosalie H. Wang, and Jo\'se Zariffa(参考訳) はじめに、手機能は脳卒中後の独立の中枢決定因子である。 新しい介入の影響を評価し,新しいウェアラブル技術を求めるためには,家庭環境における手作業の計測が必要である。 egocentric videoは、手とオブジェクトのインタラクションをコンテキストでキャプチャし、双方向のタスク(安定化や操作のために)において、より多くの影響を受ける手がどのように使われているかを示すことができる。 この情報を抽出するには自動的な方法が必要となる。 目的: 脳卒中後の家庭で記録された自発的映像から,人工知能を用いたコンピュータビジョンを用いて手使いと手の役割を分類すること。 方法:21名の脳卒中患者が研究に参加した。 ランダム森林分類器, SlowFast ニューラルネットワーク, Hand Object Detector ニューラルネットワークを用いて, 家庭における手指の使用状況と手指の役割を同定した。 LOSOCV (Leave-One-Subject-Out-Cross-Validation) を用いて3モデルの性能評価を行った。 モデルの群間差はmathews相関係数(mcc)に基づいて算出した。 結果: ハンドオブジェクト検出では, ハンドオブジェクト検出器は他のモデルよりも大幅に高い性能を示した。 このモデルを用いたLOSOCVのマクロ平均MCCは、より影響の大きい手は0.50+-0.23、より影響の少ない手は0.58+-0.18であった。 ハンドロール分類では,LOSOCVのマクロ平均MCCは全モデルで0に近かった。 結論: エゴセントリックビデオを用いて家庭での脳卒中生存者の手の使用を捉えることは可能である。 指の動きを追跡するポス推定は、将来手指の役割を分類するのに有益である。

Introduction: Hand function is a central determinant of independence after stroke. Measuring hand use in the home environment is necessary to evaluate the impact of new interventions, and calls for novel wearable technologies. Egocentric video can capture hand-object interactions in context, as well as show how more-affected hands are used during bilateral tasks (for stabilization or manipulation). Automated methods are required to extract this information. Objective: To use artificial intelligence-based computer vision to classify hand use and hand role from egocentric videos recorded at home after stroke. Methods: Twenty-one stroke survivors participated in the study. A random forest classifier, a SlowFast neural network, and the Hand Object Detector neural network were applied to identify hand use and hand role at home. Leave-One-Subject-Out-Cross-Validation (LOSOCV) was used to evaluate the performance of the three models. Between-group differences of the models were calculated based on the Mathews correlation coefficient (MCC). Results: For hand use detection, the Hand Object Detector had significantly higher performance than the other models. The macro average MCCs using this model in the LOSOCV were 0.50 +- 0.23 for the more-affected hands and 0.58 +- 0.18 for the less-affected hands. Hand role classification had macro average MCCs in the LOSOCV that were close to zero for all models. Conclusion: Using egocentric video to capture the hand use of stroke survivors at home is feasible. Pose estimation to track finger movements may be beneficial to classifying hand roles in the future.
翻訳日:2022-07-20 13:43:34 公開日:2022-07-18
# MonoIndoor++:屋内環境における自己監督型単眼深度推定の実践に向けて

MonoIndoor++:Towards Better Practice of Self-Supervised Monocular Depth Estimation for Indoor Environments ( http://arxiv.org/abs/2207.08951v1 )

ライセンス: Link先を確認
Runze Li, Pan Ji, Yi Xu, Bir Bhanu(参考訳) 自己教師付き単眼深度推定は近年,特に屋外環境において有意な進歩を遂げている。 しかし,既存のデータの多くがハンドヘルドデバイスでキャプチャされる屋内シーンでは,奥行き予測の結果は満足できない。 屋外環境と比較すると,自己教師あり方式による室内環境における単眼映像の深さの推定には,さらに2つの課題がある。 (i)屋内映像系列の深度範囲は、異なるフレーム間で大きく異なり、深度ネットワークがトレーニングのための一貫した深度手がかりを誘導することが困難である。 (2) ハンドヘルドデバイスで記録された屋内シーケンスは、しばしばより回転運動を含むため、ポーズネットワークが正確な相対カメラのポーズを予測するのに困難を引き起こす。 本研究では,これらの課題を特別に考慮し,室内環境における自己教師付き単眼深度推定の性能向上のための良質な実践をまとめ,新たなフレームワークmonoindoor++を提案する。 まず,大域的な深度スケール係数を明示的に推定するために,変圧器を用いたスケール回帰ネットワークを備えた深さ分解モジュールを提案する。 第2に,従来の手法のように単段ポーズ推定手法を用いるのではなく,連続するフレーム間の相対カメラポーズを反復的に推定する残留ポーズ推定モジュールを提案する。 第3に, 残存ポーズ推定モジュールの広範な座標ガイダンスを組み込むため, ポーズネットワークへの入力に対して, 直接座標畳み込み符号化を行うことを提案する。 提案手法は,EuRoC MAV,NYUv2,ScanNet,7-Scenesなど,さまざまなベンチマーク屋内データセットで検証し,最先端の性能を示す。

Self-supervised monocular depth estimation has seen significant progress in recent years, especially in outdoor environments. However, depth prediction results are not satisfying in indoor scenes where most of the existing data are captured with hand-held devices. As compared to outdoor environments, estimating depth of monocular videos for indoor environments, using self-supervised methods, results in two additional challenges: (i) the depth range of indoor video sequences varies a lot across different frames, making it difficult for the depth network to induce consistent depth cues for training; (ii) the indoor sequences recorded with handheld devices often contain much more rotational motions, which cause difficulties for the pose network to predict accurate relative camera poses. In this work, we propose a novel framework-MonoIndoor++ by giving special considerations to those challenges and consolidating a set of good practices for improving the performance of self-supervised monocular depth estimation for indoor environments. First, a depth factorization module with transformer-based scale regression network is proposed to estimate a global depth scale factor explicitly, and the predicted scale factor can indicate the maximum depth values. Second, rather than using a single-stage pose estimation strategy as in previous methods, we propose to utilize a residual pose estimation module to estimate relative camera poses across consecutive frames iteratively. Third, to incorporate extensive coordinates guidance for our residual pose estimation module, we propose to perform coordinate convolutional encoding directly over the inputs to pose networks. The proposed method is validated on a variety of benchmark indoor datasets, i.e., EuRoC MAV, NYUv2, ScanNet and 7-Scenes, demonstrating the state-of-the-art performance.
翻訳日:2022-07-20 13:43:10 公開日:2022-07-18
# サイクルGANを用いたスタイル伝達の能力・限界・課題:自動リング設計生成に関する研究

Capabilities, Limitations and Challenges of Style Transfer with CycleGANs: A Study on Automatic Ring Design Generation ( http://arxiv.org/abs/2207.08989v1 )

ライセンス: Link先を確認
Tomas Cabezon Pedroso, Javier Del Ser, Natalia Diaz-Rodr{\i}guez(参考訳) レンダリングプログラムは、製品が製造される前にどのように見えるかを確認することができるため、デザインプロセスを完全に変えた。 しかし、レンダリングプロセスは複雑で、レンダリング自体だけでなく、シーンの設定にもかなりの時間がかかる。 高品質な結果を得るためには、材料、照明、カメラをセットする必要がある。 しかし、最適な出力は第1のレンダリングでは得られない。 これにより、レンダリングプロセスは面倒なプロセスになります。 goodfellowらは2014年にgans(generative adversarial networks)を導入してから、既存の顔から医療データ分析や画像転送まで、コンピュータに割り当てられた合成データを生成するのに使われてきた。 GANは画像テクスチャをあるドメインから別のドメインに転送するために使われてきた。 しかし、両ドメインのペアデータが必要であった。 ZhuらがCycleGANモデルを導入したとき、この高価な制約の排除により、ペア化されたデータを必要としない、ひとつの画像を別のドメインに変換することができた。 この研究は、最初のスケッチから3dデザインを表す2dの最終的なレンダリングへのスタイル転送におけるサイクルガンの適用性を検証する。 設計パイプラインの一部としてCycleGANを組み込む可能性について,より正確にはリング設計のレンダリングに適用する。 私たちのコントリビューションにはプロセスの重要な部分が含まれており、顧客が購入する前に最終製品を見ることができます。 この研究は、デザインにおけるGANの可能性を示し、クラフトデザインにアプローチするための新しい応用の出発点を確立する、将来の研究の基盤となる。

Rendering programs have changed the design process completely as they permit to see how the products will look before they are fabricated. However, the rendering process is complicated and takes a significant amount of time, not only in the rendering itself but in the setting of the scene as well. Materials, lights and cameras need to be set in order to get the best quality results. Nevertheless, the optimal output may not be obtained in the first render. This all makes the rendering process a tedious process. Since Goodfellow et al. introduced Generative Adversarial Networks (GANs) in 2014 [1], they have been used to generate computer-assigned synthetic data, from non-existing human faces to medical data analysis or image style transfer. GANs have been used to transfer image textures from one domain to another. However, paired data from both domains was needed. When Zhu et al. introduced the CycleGAN model, the elimination of this expensive constraint permitted transforming one image from one domain into another, without the need for paired data. This work validates the applicability of CycleGANs on style transfer from an initial sketch to a final render in 2D that represents a 3D design, a step that is paramount in every product design process. We inquiry the possibilities of including CycleGANs as part of the design pipeline, more precisely, applied to the rendering of ring designs. Our contribution entails a crucial part of the process as it allows the customer to see the final product before buying. This work sets a basis for future research, showing the possibilities of GANs in design and establishing a starting point for novel applications to approach crafts design.
翻訳日:2022-07-20 13:40:17 公開日:2022-07-18
# SeLoC-ML: 産業用IoTにおける機械学習アプリケーションのためのセマンティックローコードエンジニアリング

SeLoC-ML: Semantic Low-Code Engineering for Machine Learning Applications in Industrial IoT ( http://arxiv.org/abs/2207.08818v1 )

ライセンス: Link先を確認
Haoyu Ren, Kirill Dorofeev, Darko Anicic, Youssef Hammad, Roland Eckl, Thomas A. Runkler(参考訳) IoT(Internet of Things)は,IT(Information Technology)とOT(Operational Technology)のギャップを埋めることによって,業界を変革している。 マシンはコネクテッドセンサーと統合され、インテリジェントな分析アプリケーションによって管理され、デジタルトランスフォーメーションとビジネスオペレーションが加速している。 機械学習(ML)を産業機器に持ち込むことは、ITとOTの収束を促進することを目的とした進歩である。 しかし、産業用IoT(IIoT)におけるMLアプリケーションの開発には、ハードウェアの不均一性、MLモデルの非標準化表現、デバイスとMLモデルの互換性の問題、アプリケーション開発の遅さなど、さまざまな課題がある。 この領域でのデプロイメントの成功には、ハードウェア、アルゴリズム、ソフトウェアツール、アプリケーションに関する深い理解が必要です。 そこで本稿では,Semantic Web技術を活用したIIoTにおけるMLアプリケーションの迅速な開発を支援するために,ローコードプラットフォーム上に構築されたSemantic Low-Code Engineering for ML Applications(SeLoC-ML)というフレームワークを提案する。 SeLoC-MLは、非専門家が大規模なMLモデルやデバイスをモデル化、発見、再利用、そして再利用することを可能にする。 プロジェクトコードは、一致する結果に基づいて、ハードウェア上にデプロイするために自動的に生成できる。 開発者は、レシピと呼ばれるセマンティックなアプリケーションテンプレートから、エンドユーザアプリケーションのプロトタイプを高速に作成できる。 本評価は,SeLoC-MLの有効性と有用性を示す産業用ML分類ケーススタディにおける従来の手法と比較して,少なくとも3つの要因による工学的労力削減を確認した。 コードを共有し、どんな貢献も歓迎します。

Internet of Things (IoT) is transforming the industry by bridging the gap between Information Technology (IT) and Operational Technology (OT). Machines are being integrated with connected sensors and managed by intelligent analytics applications, accelerating digital transformation and business operations. Bringing Machine Learning (ML) to industrial devices is an advancement aiming to promote the convergence of IT and OT. However, developing an ML application in industrial IoT (IIoT) presents various challenges, including hardware heterogeneity, non-standardized representations of ML models, device and ML model compatibility issues, and slow application development. Successful deployment in this area requires a deep understanding of hardware, algorithms, software tools, and applications. Therefore, this paper presents a framework called Semantic Low-Code Engineering for ML Applications (SeLoC-ML), built on a low-code platform to support the rapid development of ML applications in IIoT by leveraging Semantic Web technologies. SeLoC-ML enables non-experts to easily model, discover, reuse, and matchmake ML models and devices at scale. The project code can be automatically generated for deployment on hardware based on the matching results. Developers can benefit from semantic application templates, called recipes, to fast prototype end-user applications. The evaluations confirm an engineering effort reduction by a factor of at least three compared to traditional approaches on an industrial ML classification case study, showing the efficiency and usefulness of SeLoC-ML. We share the code and welcome any contributions.
翻訳日:2022-07-20 13:38:12 公開日:2022-07-18
# 音声入力が連続フレームを生成する : 生成的アディバーサリーネットワークを用いた顔映像合成

Audio Input Generates Continuous Frames to Synthesize Facial Video Using Generative Adiversarial Networks ( http://arxiv.org/abs/2207.08813v1 )

ライセンス: Link先を確認
Hanhaodi Zhang(参考訳) 本稿では,音声に基づく音声映像生成のための簡易な手法を提案する。 本稿では,音声入力を条件としたGAN(Generative Adversarial Networks)を提案し,GRU(Convolutional Gate Recurrent Unit)をジェネレータおよび識別器に使用する。 我々のモデルは、この期間に短い音声とフレームを利用して訓練される。 トレーニングでは、音声をカットして、対応するフレームから顔を抽出する。 我々は単純なエンコーダを設計し、生成したフレームをGANとGRUなしで比較した。 時間的コヒーレントなフレームにGRUを用い、その結果、短いオーディオが比較的現実的な出力結果をもたらすことを示す。

This paper presents a simple method for speech videos generation based on audio: given a piece of audio, we can generate a video of the target face speaking this audio. We propose Generative Adversarial Networks (GAN) with cut speech audio input as condition and use Convolutional Gate Recurrent Unit (GRU) in generator and discriminator. Our model is trained by exploiting the short audio and the frames in this duration. For training, we cut the audio and extract the face in the corresponding frames. We designed a simple encoder and compare the generated frames using GAN with and without GRU. We use GRU for temporally coherent frames and the results show that short audio can produce relatively realistic output results.
翻訳日:2022-07-20 13:37:45 公開日:2022-07-18
# 欠測データを用いた深層学習一般化線形モデル

Deeply-Learned Generalized Linear Models with Missing Data ( http://arxiv.org/abs/2207.08911v1 )

ライセンス: Link先を確認
David K Lim and Naim U Rashid and Junier B Oliva and Joseph G Ibrahim(参考訳) 深層学習法(deep learning, dl)は近年急速に普及し, 生物医学における学習問題を監督する分野への応用が著しい成長を遂げている。 しかし、現代のバイオメディカルデータセットにおける欠落データの存在率と複雑さは、DL法に重大な課題をもたらしている。 本稿では,回帰問題と分類問題のための教師付きdlアーキテクチャである深層学習型線形モデルの文脈における欠落データの形式的扱いについて述べる。 本稿では,入力機能と学習時の応答の欠如の無知パターンと無知パターンの両方を柔軟に説明できる新しいアーキテクチャである「textit{dlglm}」を提案する。 統計的シミュレーションにより,MNARの欠落の有無に関わらず,教師あり学習課題に対する既存手法よりも優れていることを示す。 UCI Machine Learning Repositoryのバンクマーケティングデータセットのケーススタディで、電話調査データに基づいてクライアントが製品に加入するかどうかを予測する。

Deep Learning (DL) methods have dramatically increased in popularity in recent years, with significant growth in their application to supervised learning problems in the biomedical sciences. However, the greater prevalence and complexity of missing data in modern biomedical datasets present significant challenges for DL methods. Here, we provide a formal treatment of missing data in the context of deeply learned generalized linear models, a supervised DL architecture for regression and classification problems. We propose a new architecture, \textit{dlglm}, that is one of the first to be able to flexibly account for both ignorable and non-ignorable patterns of missingness in input features and response at training time. We demonstrate through statistical simulation that our method outperforms existing approaches for supervised learning tasks in the presence of missing not at random (MNAR) missingness. We conclude with a case study of a Bank Marketing dataset from the UCI Machine Learning Repository, in which we predict whether clients subscribed to a product based on phone survey data.
翻訳日:2022-07-20 13:32:57 公開日:2022-07-18
# ADMGモデルに対するm-connecting imsetと分解

The m-connecting imset and factorization for ADMG models ( http://arxiv.org/abs/2207.08963v1 )

ライセンス: Link先を確認
Bryan Andrews, Gregory F. Cooper, Thomas S. Richardson, Peter Spirtes(参考訳) 直接非循環グラフ(DAG)モデルは、統計学や機械学習で広く研究され、応用されている。 残念なことに、これらのモデルは限界化の下では閉じていないため、潜伏した欠点のあるシステムを扱うための装備が不十分である。 非巡回有向混合グラフ(ADMG)モデルはDAGモデルのマージンを特徴付け、そのようなシステムを扱うのに非常に適している。 しかし、ADMGモデルは、その複雑さと分析のための統計ツールの不足のために、広く使われていない。 本稿では,ADMGによって誘導される独立モデルの代替表現を提供するm-connecting imsetを紹介する。 さらに、1つの方程式で特徴づけられるADMGモデルに対するm-connecting factorization criterionを定義し、大域マルコフの性質と等価性を証明した。 m-connecting imsetと factorization criterionは、ADMGモデルによる学習と推論のための2つの新しい統計ツールを提供する。 閉形式解を用いて一貫したスコアリング基準を定式化し,評価することにより,これらのツールの有用性を示す。

Directed acyclic graph (DAG) models have become widely studied and applied in statistics and machine learning -- indeed, their simplicity facilitates efficient procedures for learning and inference. Unfortunately, these models are not closed under marginalization, making them poorly equipped to handle systems with latent confounding. Acyclic directed mixed graph (ADMG) models characterize margins of DAG models, making them far better suited to handle such systems. However, ADMG models have not seen wide-spread use due to their complexity and a shortage of statistical tools for their analysis. In this paper, we introduce the m-connecting imset which provides an alternative representation for the independence models induced by ADMGs. Furthermore, we define the m-connecting factorization criterion for ADMG models, characterized by a single equation, and prove its equivalence to the global Markov property. The m-connecting imset and factorization criterion provide two new statistical tools for learning and inference with ADMG models. We demonstrate the usefulness of these tools by formulating and evaluating a consistent scoring criterion with a closed form solution.
翻訳日:2022-07-20 13:32:41 公開日:2022-07-18
# Romanus: モジュール型マルチセンサ自律運転システムにおけるロバストタスクオフロード

Romanus: Robust Task Offloading in Modular Multi-Sensor Autonomous Driving Systems ( http://arxiv.org/abs/2207.08865v1 )

ライセンス: Link先を確認
Luke Chen, Mohanad Odema, Mohammad Abdullah Al Faruque(参考訳) 自動運転アプリケーションの性能と安全性の要求により、現代の自動運転システム(ADS)の複雑さが増大し、ADSプラットフォームのエネルギーフットプリントを増大させる、より洗練されたハードウェアの必要性が高まっている。 これに対応するために、エッジコンピューティングは、自動運転アプリケーションを含み、計算能力のあるエッジサーバで処理するために、計算集約的な自律関連タスクをオフロードすることができる。 それでも、ADSプラットフォームの複雑なハードウェアアーキテクチャは、厳格な堅牢性要求に加えて、自律運転に特有のタスクオフロードの複雑さを生じさせている。 そこで我々は,マルチセンサ処理パイプラインを備えたモジュール型ADSプラットフォームに対して,ロバストで効率的なタスクオフロードを行う手法であるROMANUS$を提案する。 私たちの方法論には2つのフェーズがあります。 (i)深層学習モデルの実行経路に沿って効率的なオフロード点を導入すること、 (ii)道路事情の複雑さ,ネットワーク接続性,サーバ負荷の変化に応じて運用モードを適応させるために,深層強化学習に基づくランタイムソリューションの実装。 対象物検出ユースケースの実験では,本手法は純粋な局所実行よりも14.99%エネルギー効率が高く,77.06%のリスク行動が頑健なオフロードベースラインから減少することを示した。

Due to the high performance and safety requirements of self-driving applications, the complexity of modern autonomous driving systems (ADS) has been growing, instigating the need for more sophisticated hardware which could add to the energy footprint of the ADS platform. Addressing this, edge computing is poised to encompass self-driving applications, enabling the compute-intensive autonomy-related tasks to be offloaded for processing at compute-capable edge servers. Nonetheless, the intricate hardware architecture of ADS platforms, in addition to the stringent robustness demands, set forth complications for task offloading which are unique to autonomous driving. Hence, we present $ROMANUS$, a methodology for robust and efficient task offloading for modular ADS platforms with multi-sensor processing pipelines. Our methodology entails two phases: (i) the introduction of efficient offloading points along the execution path of the involved deep learning models, and (ii) the implementation of a runtime solution based on Deep Reinforcement Learning to adapt the operating mode according to variations in the perceived road scene complexity, network connectivity, and server load. Experiments on the object detection use case demonstrated that our approach is 14.99% more energy-efficient than pure local execution while achieving a 77.06% reduction in risky behavior from a robust-agnostic offloading baseline.
翻訳日:2022-07-20 13:32:07 公開日:2022-07-18
# NeuForm: ニューラル形状編集のための適応的なオーバーフィッティング

NeuForm: Adaptive Overfitting for Neural Shape Editing ( http://arxiv.org/abs/2207.08890v1 )

ライセンス: Link先を確認
Connor Z. Lin, Niloy J. Mitra, Gordon Wetzstein, Leonidas Guibas, Paul Guerrero(参考訳) ニューラル表現は、形状を表現するのに人気があり、形状センサーデータから学習でき、データのクリーンアップ、モデル補完、形状編集、形状合成に使用される。 現在のニューラルネットワーク表現は、単一のオブジェクトインスタンスにオーバーフィットするか、オブジェクトの集合を表すかのいずれかに分類できる。 しかし、どちらも正確なニューラルシーン表現の編集はできない:一方、オブジェクトに過度に適合する手法は高度に正確な再構成を達成できるが、未確認のオブジェクト構成に一般化せず、そのため編集をサポートしない;一方、変動のあるオブジェクトの族を表す手法は一般化するが、近似的な再構成しか生成しない。 本稿では,各形状領域に最も適した表現を適応的に使用することにより,不適合表現と一般化表現の両方の利点を組み合わせるために,neuformを提案する。 これを慎重に設計したアーキテクチャと、2つの表現のネットワーク重みをブレンドし、シームやその他のアーティファクトを避けるアプローチで実現します。 椅子やテーブル,ランプなど,設計した形状の部品の再構成に成功し,セマンティックな整合性と過剰な形状表現の精度を保った編集を実演する。 最先端のコンペティタ2社と比較し,編集結果の信頼性と信頼性の観点から明らかに改善した。

Neural representations are popular for representing shapes, as they can be learned form sensor data and used for data cleanup, model completion, shape editing, and shape synthesis. Current neural representations can be categorized as either overfitting to a single object instance, or representing a collection of objects. However, neither allows accurate editing of neural scene representations: on the one hand, methods that overfit objects achieve highly accurate reconstructions, but do not generalize to unseen object configurations and thus cannot support editing; on the other hand, methods that represent a family of objects with variations do generalize but produce only approximate reconstructions. We propose NEUFORM to combine the advantages of both overfitted and generalizable representations by adaptively using the one most appropriate for each shape region: the overfitted representation where reliable data is available, and the generalizable representation everywhere else. We achieve this with a carefully designed architecture and an approach that blends the network weights of the two representations, avoiding seams and other artifacts. We demonstrate edits that successfully reconfigure parts of human-designed shapes, such as chairs, tables, and lamps, while preserving semantic integrity and the accuracy of an overfitted shape representation. We compare with two state-of-the-art competitors and demonstrate clear improvements in terms of plausibility and fidelity of the resultant edits.
翻訳日:2022-07-20 13:31:45 公開日:2022-07-18
# $\mathcal{H} \Delta \mathcal{H}$-divergenceへの逆攻撃による多段階領域適応

Multi-step domain adaptation by adversarial attack to $\mathcal{H} \Delta \mathcal{H}$-divergence ( http://arxiv.org/abs/2207.08948v1 )

ライセンス: Link先を確認
Arip Asadulaev, Alexander Panfilov, Andrey Filchenkov(参考訳) 逆例は異なるモデル間で転送可能である。 本稿では,この特性を多段階領域適応に利用することを提案する。 教師なしドメイン適応設定では、ソースドメインを逆の例に置き換えて$\mathcal{h} \delta \mathcal{h}$-divergenceがターゲットドメインのソース分類精度を向上させることを実証する。 提案手法は,ほとんどのドメイン適応手法と接続可能である。 様々な実験を行い,digits と office-home データセットの精度の向上を達成した。

Adversarial examples are transferable between different models. In our paper, we propose to use this property for multi-step domain adaptation. In unsupervised domain adaptation settings, we demonstrate that replacing the source domain with adversarial examples to $\mathcal{H} \Delta \mathcal{H}$-divergence can improve source classifier accuracy on the target domain. Our method can be connected to most domain adaptation techniques. We conducted a range of experiments and achieved improvement in accuracy on Digits and Office-Home datasets.
翻訳日:2022-07-20 13:31:19 公開日:2022-07-18
# 表面的ホワイトマター分析: 個体群およびdMRIによるコントラスト画像解析のための教師付きコントラスト学習による効率的なポイントクラウドベースディープラーニングフレームワーク

Superficial White Matter Analysis: An Efficient Point-cloud-based Deep Learning Framework with Supervised Contrastive Learning for Consistent Tractography Parcellation across Populations and dMRI Acquisitions ( http://arxiv.org/abs/2207.08975v1 )

ライセンス: Link先を確認
Tengfei Xue, Fan Zhang, Chaoyi Zhang, Yuqian Chen, Yang Song, Alexandra J. Golby, Nikos Makris, Yogesh Rathi, Weidong Cai, Lauren J. O'Donnell(参考訳) 拡散MRI(Diffusion MRI tractography)は、脳の白質結合の生体内マッピングを可能にする高度なイメージング技術である。 ホワイトマターパーセレーション(White matter parcellation)は、トラクトグラフィーをクラスタまたは解剖学的に意味のあるトラクトに分類する。 全身脳波の定量化と可視化を可能にする。 現在、ほとんどのパーセレーション法は深白物質(DWM)に焦点を当てているが、その複雑さのため表面白物質(SWM)に対処する手法は少ない。 そこで本研究では,脳全路図から198個のswtクラスターの効率的かつ一貫したパーセル化を行う,新しい2段階の深層学習フレームワークである表層白質分析(supwma)を提案する。 ポイントクラウドベースのネットワークはSWMのパーセレーションタスクに適応し、教師付きコントラスト学習により、SWMの可視的ストリームラインと外れ値の間のより差別的な表現が可能になる。 我々は、ラベル付きSWMクラスタからのストリーニングサンプルと解剖学的に不明瞭なストリーニングサンプルを含む大規模トラクトグラフィーデータセットでモデルをトレーニングし、異なる年齢と健康状態の6つの独立したデータセット(新生児や宇宙に居住する脳腫瘍患者を含む)でテストを行う。 最先端のいくつかの手法と比較して、SupWMAはすべてのデータセットに対して高度に一貫性があり正確なSWM解析結果を得る。 さらに、SupWMAの計算速度は他の手法よりもはるかに高速である。

Diffusion MRI tractography is an advanced imaging technique that enables in vivo mapping of the brain's white matter connections. White matter parcellation classifies tractography streamlines into clusters or anatomically meaningful tracts. It enables quantification and visualization of whole-brain tractography. Currently, most parcellation methods focus on the deep white matter (DWM), whereas fewer methods address the superficial white matter (SWM) due to its complexity. We propose a novel two-stage deep-learning-based framework, Superficial White Matter Analysis (SupWMA), that performs an efficient and consistent parcellation of 198 SWM clusters from whole-brain tractography. A point-cloud-based network is adapted to our SWM parcellation task, and supervised contrastive learning enables more discriminative representations between plausible streamlines and outliers for SWM. We train our model on a large-scale tractography dataset including streamline samples from labeled SWM clusters and anatomically implausible streamline samples, and we perform testing on six independently acquired datasets of different ages and health conditions (including neonates and patients with space-occupying brain tumors). Compared to several state-of-the-art methods, SupWMA obtains highly consistent and accurate SWM parcellation results on all datasets, showing good generalization across the lifespan in health and disease. In addition, the computational speed of SupWMA is much faster than other methods.
翻訳日:2022-07-20 13:31:08 公開日:2022-07-18
# Robustar:ロバストな視覚学習のための精密データアノテーションをサポートするインタラクティブツールボックス

Robustar: Interactive Toolbox Supporting Precise Data Annotation for Robust Vision Learning ( http://arxiv.org/abs/2207.08944v1 )

ライセンス: Link先を確認
Chonghan Chen, Haohan Wang, Leyang Hu, Yuhao Zhang, Shuguang Lyu, Jingcheng Wu, Xinnuo Li, Linjing Sun, Eric P. Xing(参考訳) データ駆動の視点から視覚分類機械学習モデルのロバスト性を改善することを目的としたソフトウェアロバストarの初期リリースを紹介する。 機械学習モデルのロバスト性の欠如が、スプリアス特徴の学習の傾向であるという最近の理解に基づいて、トレーニング前のデータからスプリアス特徴を取り除き、データの観点から根本からこの問題を解決することを目指している。 特に,画像の画素レベルでの突発的な特徴に注釈を付けることで,画像分類モデルの訓練のためのデータ作成を支援するソフトウェアを導入する。 このプロセスを容易にするために,ソフトウェアは近年の進歩を活用して,注目に値する潜在的な画像や画素を特定し,新たな注釈付きデータによるトレーニングを継続する。 私たちのソフトウェアはGitHub Repository https://github.com/HaohanWang/Robustar.comにホストされています。

We introduce the initial release of our software Robustar, which aims to improve the robustness of vision classification machine learning models through a data-driven perspective. Building upon the recent understanding that the lack of machine learning model's robustness is the tendency of the model's learning of spurious features, we aim to solve this problem from its root at the data perspective by removing the spurious features from the data before training. In particular, we introduce a software that helps the users to better prepare the data for training image classification models by allowing the users to annotate the spurious features at the pixel level of images. To facilitate this process, our software also leverages recent advances to help identify potential images and pixels worthy of attention and to continue the training with newly annotated data. Our software is hosted at the GitHub Repository https://github.com/HaohanWang/Robustar.
翻訳日:2022-07-20 13:27:56 公開日:2022-07-18
# 資源拘束型デバイスのためのプライベートフェデレーション学習による大語彙ニューラルネットワークモデルの訓練

Training Large-Vocabulary Neural Language Models by Private Federated Learning for Resource-Constrained Devices ( http://arxiv.org/abs/2207.08988v1 )

ライセンス: Link先を確認
Mingbin Xu, Congzheng Song, Ye Tian, Neha Agrawal, Filip Granqvist, Rogier van Dalen, Xiao Zhang, Arturo Argueta, Shiyi Han, Yaqiao Deng, Leo Liu, Anmol Walia, Alex Jin(参考訳) Federated Learning(FL)は、デバイスに分散したデータを使ってモデルをトレーニングするテクニックである。 差分プライバシー(DP)は、機密データに対して正式なプライバシー保証を提供する。 我々の目標は、FLとDPを使用してプライバシを保ちながら、計算制約のあるデバイス上で大規模なニューラルネットワーク言語モデル(NNLM)をトレーニングすることです。 しかし、モデルに導入されたDPノイズはモデルのサイズが大きくなるにつれて増加し、しばしば収束を阻害する。 ペイロードサイズを小さくすることでノイズを低減する新しい手法であるPartial Embedding Updates (PEU)を提案する。 さらに,Low Rank Adaptation (LoRA) とNoth Contrastive Estimation (NCE) を採用し,計算制約デバイスにおける大規模モデルのメモリ要求を低減した。 この組み合わせにより、精度とプライバシを保ちながら、大語彙言語モデルのトレーニングが可能になる。

Federated Learning (FL) is a technique to train models using data distributed across devices. Differential Privacy (DP) provides a formal privacy guarantee for sensitive data. Our goal is to train a large neural network language model (NNLM) on compute-constrained devices while preserving privacy using FL and DP. However, the DP-noise introduced to the model increases as the model size grows, which often prevents convergence. We propose Partial Embedding Updates (PEU), a novel technique to decrease noise by decreasing payload size. Furthermore, we adopt Low Rank Adaptation (LoRA) and Noise Contrastive Estimation (NCE) to reduce the memory demands of large models on compute-constrained devices. This combination of techniques makes it possible to train large-vocabulary language models while preserving accuracy and privacy.
翻訳日:2022-07-20 13:26:15 公開日:2022-07-18
# 対照的な環境音表現学習

Contrastive Environmental Sound Representation Learning ( http://arxiv.org/abs/2207.08825v1 )

ライセンス: Link先を確認
Peter Ochieng, Dennis Kaburu(参考訳) 環境音の機械聴覚は,音声認識領域において重要な問題の一つである。 これにより、マシンは、意思決定を導く様々な入力音を区別することができる。 本研究では,自己教師付きコントラスト技術と浅い1次元cnnを用いて,明示的な注釈を使わずに特徴的音声特徴(音声表現)を抽出し,その音声波形とスペクトログラムの両方を用いて,与えられた音声の表現を生成し,学習者が音声入力のタイプに無依存かどうかを評価する。 さらに,任意の音声の2種類の入力から表現を融合するcanonical correlation analysis (cca) を用いて,融合されたグローバル特徴が個々の表現と比較して音声信号のロバストな表現をもたらすことを示す。 提案手法の評価はESC-50とUrbanSound8Kで行う。 その結果,提案手法は環境音の特徴を抽出し,ESC-50データセットとUrbanSound8Kデータセットでそれぞれ12.8%,0.9%の改善が得られた。

Machine hearing of the environmental sound is one of the important issues in the audio recognition domain. It gives the machine the ability to discriminate between the different input sounds that guides its decision making. In this work we exploit the self-supervised contrastive technique and a shallow 1D CNN to extract the distinctive audio features (audio representations) without using any explicit annotations.We generate representations of a given audio using both its raw audio waveform and spectrogram and evaluate if the proposed learner is agnostic to the type of audio input. We further use canonical correlation analysis (CCA) to fuse representations from the two types of input of a given audio and demonstrate that the fused global feature results in robust representation of the audio signal as compared to the individual representations. The evaluation of the proposed technique is done on both ESC-50 and UrbanSound8K. The results show that the proposed technique is able to extract most features of the environmental audio and gives an improvement of 12.8% and 0.9% on the ESC-50 and UrbanSound8K datasets respectively.
翻訳日:2022-07-20 13:25:57 公開日:2022-07-18
# 2人プレイアタリゲームにおける難解な戦略発見のための深層強化学習手法

A Deep Reinforcement Learning Approach for Finding Non-Exploitable Strategies in Two-Player Atari Games ( http://arxiv.org/abs/2207.08894v1 )

ライセンス: Link先を確認
Zihan Ding, Dijia Su, Qinghua Liu, Chi Jin(参考訳) 本稿では,2プレイヤーゼロサムマルコフゲーム学習のための,エンドツーエンドの深層強化学習アルゴリズムを提案する。 我々の目標は、敵対者による搾取から解放されたナッシュ均衡政策を見つけることである。 本稿では,木構造の遷移ダイナミクスと離散状態空間を特徴とするポーカーなどの広範なゲームにおいて,ナッシュ平衡を求める以前の取り組みと異なり,一般的な遷移ダイナミクスと連続状態空間を持つマルコフゲームに注目した。 本研究では,(1)DQNとNash検索サブルーチンを統合したNash DQNアルゴリズム,(2)Nash DQN Exploiterアルゴリズムを提案する。 我々のアルゴリズムは、基本表の設定においてナッシュ平衡に収束することが保証される理論アルゴリズムの実用的な変種である。 表的な例と2人のプレイヤーによるatariゲームの両方における実験的評価は、提案するアルゴリズムが敵に対して頑健であることを示し、既存の手法よりも有利な性能を示す。

This paper proposes novel, end-to-end deep reinforcement learning algorithms for learning two-player zero-sum Markov games. Our objective is to find the Nash Equilibrium policies, which are free from exploitation by adversarial opponents. Distinct from prior efforts on finding Nash equilibria in extensive-form games such as Poker, which feature tree-structured transition dynamics and discrete state space, this paper focuses on Markov games with general transition dynamics and continuous state space. We propose (1) Nash DQN algorithm, which integrates DQN with a Nash finding subroutine for the joint value functions; and (2) Nash DQN Exploiter algorithm, which additionally adopts an exploiter for guiding agent's exploration. Our algorithms are the practical variants of theoretical algorithms which are guaranteed to converge to Nash equilibria in the basic tabular setting. Experimental evaluation on both tabular examples and two-player Atari games demonstrates the robustness of the proposed algorithms against adversarial opponents, as well as their advantageous performance over existing methods.
翻訳日:2022-07-20 13:25:38 公開日:2022-07-18
# オフポリシーフィードバックによるオンライン学習

Online Learning with Off-Policy Feedback ( http://arxiv.org/abs/2207.08956v1 )

ライセンス: Link先を確認
Germano Gabbianelli, Matteo Papini, Gergely Neu(参考訳) 対人バンディット問題におけるオンライン学習の問題点について,オフポリシーフィードバックと呼ばれる部分的可観測性モデルを用いて検討する。 このシーケンシャルな意思決定問題では、学習者は報酬を直接観察することができないが、代わりに別の未知のポリシーによって得られるもの(行動ポリシー)が並列に実行される。 標準的な探索探索ジレンマの代わりに、学習者はこの設定で別の課題に直面しなければならない: 制御外の限られた観察のため、学習者は各ポリシーの価値を等しく見積もることができないかもしれない。 この問題に対処するため,我々は,任意のコンパレータポリシと行動ポリシのミスマッチという自然な概念でスケールする後悔の限界を保証し,観察によってよくカバーされるコンパレータに対するパフォーマンス向上を実現するアルゴリズムを提案する。 また, 逆線形コンテキストバンディットの設定を拡張し, 一連の実験を通じて理論的保証を検証する。 私たちのアルゴリズムの重要な考え方は,オフ・ポリティクス強化学習の文脈で最近普及した悲観的報酬評価の概念を適応させることです。

We study the problem of online learning in adversarial bandit problems under a partial observability model called off-policy feedback. In this sequential decision making problem, the learner cannot directly observe its rewards, but instead sees the ones obtained by another unknown policy run in parallel (behavior policy). Instead of a standard exploration-exploitation dilemma, the learner has to face another challenge in this setting: due to limited observations outside of their control, the learner may not be able to estimate the value of each policy equally well. To address this issue, we propose a set of algorithms that guarantee regret bounds that scale with a natural notion of mismatch between any comparator policy and the behavior policy, achieving improved performance against comparators that are well-covered by the observations. We also provide an extension to the setting of adversarial linear contextual bandits, and verify the theoretical guarantees via a set of experiments. Our key algorithmic idea is adapting the notion of pessimistic reward estimators that has been recently popular in the context of off-policy reinforcement learning.
翻訳日:2022-07-20 13:21:38 公開日:2022-07-18
# キャリブレーションアンサンブルは分布シフト時の精度トレードオフを軽減する

Calibrated ensembles can mitigate accuracy tradeoffs under distribution shift ( http://arxiv.org/abs/2207.08977v1 )

ライセンス: Link先を確認
Ananya Kumar and Tengyu Ma and Percy Liang and Aditi Raghunathan(参考訳) 分散性(ood)の精度が分散性(id)の精度と相反する、堅牢な機械学習では、望ましくないトレードオフがしばしば見られる。 本稿では、IDデータのみを校正した後、標準モデルとロバストモデルとをアンサンブルしたID校正アンサンブルが、IDとOODの精度で先行技術(自己学習に基づく)より優れていることを示す。 11の自然分布シフトデータセットにおいて、id共役アンサンブルは、強いid精度とood精度の両世界のベストを得られる。 我々は,本手法をスタイリングした環境で解析し,(1)標準モデルとロバストモデル(OODデータが利用できないため,IDデータにおいて)を校正する必要があること,(2)OODにはアンチコラージュ機能がないこと,の2つの重要な条件を特定する。

We often see undesirable tradeoffs in robust machine learning where out-of-distribution (OOD) accuracy is at odds with in-distribution (ID) accuracy: a robust classifier obtained via specialized techniques such as removing spurious features often has better OOD but worse ID accuracy compared to a standard classifier trained via ERM. In this paper, we find that ID-calibrated ensembles -- where we simply ensemble the standard and robust models after calibrating on only ID data -- outperforms prior state-of-the-art (based on self-training) on both ID and OOD accuracy. On eleven natural distribution shift datasets, ID-calibrated ensembles obtain the best of both worlds: strong ID accuracy and OOD accuracy. We analyze this method in stylized settings, and identify two important conditions for ensembles to perform well both ID and OOD: (1) we need to calibrate the standard and robust models (on ID data, because OOD data is unavailable), (2) OOD has no anticorrelated spurious features.
翻訳日:2022-07-20 13:21:22 公開日:2022-07-18
# 事前知識による教師なしドメイン適応

Prior Knowledge Guided Unsupervised Domain Adaptation ( http://arxiv.org/abs/2207.08877v1 )

ライセンス: Link先を確認
Tao Sun, Cheng Lu, Haibin Ling(参考訳) ターゲットドメイン内のラベルの放棄は、教師なしドメイン適応(uda)を多くの現実世界アプリケーションにおいて魅力的な技術にするが、ラベル付きターゲットデータなしではモデル適応が難しくなるという大きな課題をもたらす。 本稿では,対象分野の事前知識から補償を求めることでこの問題に対処する。 これにより、トレーニングデータに加えて、対象のクラス分布に関する事前知識が利用可能となる、新しい実践的な設定がもたらされる。 この設定を知識誘導非教師付きドメイン適応(KUDA)と呼ぶ。 特に,対象領域におけるクラス分布について,個々のクラス確率の下限と上限を記述する一意境界と,2つのクラス確率の関係を記述する二項関係という,2種類の事前知識について考察する。 本稿では,このような事前知識を用いてモデル生成擬似ラベルを洗練する一般整流モジュールを提案する。 モジュールは、事前の知識とスムーズな正規化子から導かれるゼロワンプログラミング問題として定式化される。 自己学習に基づくUDA手法に簡単に接続でき、SHOTとDINEの2つの最先端手法と組み合わせることができる。 4つのベンチマークによる実験結果から,修正モジュールは疑似ラベルの品質を向上し,自己学習段階の恩恵を受けることが明らかとなった。 事前知識からのガイダンスにより、両方の方法のパフォーマンスが大幅に向上する。 私たちは、udaに事前知識を統合することで、さらなる調査を促すことを期待しています。 コードはhttps://github.com/tsun/KUDAで入手できる。

The waive of labels in the target domain makes Unsupervised Domain Adaptation (UDA) an attractive technique in many real-world applications, though it also brings great challenges as model adaptation becomes harder without labeled target data. In this paper, we address this issue by seeking compensation from target domain prior knowledge, which is often (partially) available in practice, e.g., from human expertise. This leads to a novel yet practical setting where in addition to the training data, some prior knowledge about the target class distribution are available. We term the setting as Knowledge-guided Unsupervised Domain Adaptation (KUDA). In particular, we consider two specific types of prior knowledge about the class distribution in the target domain: Unary Bound that describes the lower and upper bounds of individual class probabilities, and Binary Relationship that describes the relations between two class probabilities. We propose a general rectification module that uses such prior knowledge to refine model generated pseudo labels. The module is formulated as a Zero-One Programming problem derived from the prior knowledge and a smooth regularizer. It can be easily plugged into self-training based UDA methods, and we combine it with two state-of-the-art methods, SHOT and DINE. Empirical results on four benchmarks confirm that the rectification module clearly improves the quality of pseudo labels, which in turn benefits the self-training stage. With the guidance from prior knowledge, the performances of both methods are substantially boosted. We expect our work to inspire further investigations in integrating prior knowledge in UDA. Code is available at https://github.com/tsun/KUDA.
翻訳日:2022-07-20 13:19:22 公開日:2022-07-18
# i2i:single-viewイメージからの$\mathrm{so}(3)$オブジェクト推論のための画像からicosahedralへの投影

I2I: Image to Icosahedral Projection for $\mathrm{SO}(3)$ Object Reasoning from Single-View Images ( http://arxiv.org/abs/2207.08925v1 )

ライセンス: Link先を確認
David Klee, Ondrej Biza, Robert Platt and Robin Walters(参考訳) 2d画像に基づく3dオブジェクトの推論は、異なる方向からオブジェクトを見ることによる外観の変化が大きいため、難しい。 理想的には、我々のモデルはオブジェクトのポーズの変化に不変または同変である。 残念なことに、これは通常は2次元画像入力では不可能である。 現在存在する唯一の$\mathrm{SO}(3)$-equivariantモデルは、2D画像ではなくポイントクラウド入力を必要とする。 本稿では,入力画像をイコサヘドロンに投影することで,$\mathrm{so(3)}$ の理由を導出する,イコサヘドラル群畳み込みに基づく新しいモデルアーキテクチャを提案する。 この射影の結果、モデルは$\mathrm{SO}(3)$の回転にほぼ同値である。 このモデルをオブジェクトのポーズ推定タスクに適用し、合理的なベースラインよりも優れていることを示す。

Reasoning about 3D objects based on 2D images is challenging due to large variations in appearance caused by viewing the object from different orientations. Ideally, our model would be invariant or equivariant to changes in object pose. Unfortunately, this is typically not possible with 2D image input because we do not have an a priori model of how the image would change under out-of-plane object rotations. The only $\mathrm{SO}(3)$-equivariant models that currently exist require point cloud input rather than 2D images. In this paper, we propose a novel model architecture based on icosahedral group convolution that reasons in $\mathrm{SO(3)}$ by projecting the input image onto an icosahedron. As a result of this projection, the model is approximately equivariant to rotation in $\mathrm{SO}(3)$. We apply this model to an object pose estimation task and find that it outperforms reasonable baselines.
翻訳日:2022-07-20 13:18:57 公開日:2022-07-18
# 簡易バッチ正規化

Easy Batch Normalization ( http://arxiv.org/abs/2207.08940v1 )

ライセンス: Link先を確認
Arip Asadulaev, Alexander Panfilov, Andrey Filchenkov(参考訳) その結果,敵対例は物体認識を改善することがわかった。 しかし、その逆の簡単な例はどうでしょう? 簡単な例は、機械学習モデルが高い信頼性で正しく分類するサンプルである。 本稿では、ニューラルネットワークのトレーニング手順において、簡単な例を使うことの潜在的なメリットを探求する第一歩を踏み出します。 標準的かつロバストな精度向上のための簡単な例として,補助バッチ正規化を提案する。

It was shown that adversarial examples improve object recognition. But what about their opposite side, easy examples? Easy examples are samples that the machine learning model classifies correctly with high confidence. In our paper, we are making the first step toward exploring the potential benefits of using easy examples in the training procedure of neural networks. We propose to use an auxiliary batch normalization for easy examples for the standard and robust accuracy improvement.
翻訳日:2022-07-20 13:18:42 公開日:2022-07-18
# 超低ビット量子化と実行によるアームCPUのディープラーニングモデル推論の高速化

Accelerating Deep Learning Model Inference on Arm CPUs with Ultra-Low Bit Quantization and Runtime ( http://arxiv.org/abs/2207.08820v1 )

ライセンス: Link先を確認
Saad Ashfaq, MohammadHossein AskariHemmat, Sudhakar Sah, Ehsan Saboori, Olivier Mastropietro, Alexander Hoffman(参考訳) ディープラーニングは、近年で最も破壊的な技術進歩の1つです。 ディープラーニングモデルのハイパフォーマンスは、高い計算能力、ストレージ、電力要件を犠牲にしている。 デバイス上での性能向上のためにこれらのモデルの高速化と圧縮の即時の必要性を察知し、生産レベルの最適化にDeeplite Neutrinoを導入し、Armベースのプラットフォームに超低ビット量子化モデルを展開するDeeplite Runtimeを紹介した。 我々はArmv7とArmv8アーキテクチャ向けに低レベルの量子化カーネルを実装し、32ビットと64ビットのArmベースのデバイスに展開する。 ベクトル化,並列化,タイリングを用いた効率的な実装により,分類モデルと検出モデルにおいて,TensorFlow LiteとXNNPACKバックエンドのそれぞれと比較して最大2倍,2.2倍の高速化を実現する。 また,ONNXランタイムと比較して,最大5倍,3.2倍の高速化を実現している。

Deep Learning has been one of the most disruptive technological advancements in recent times. The high performance of deep learning models comes at the expense of high computational, storage and power requirements. Sensing the immediate need for accelerating and compressing these models to improve on-device performance, we introduce Deeplite Neutrino for production-ready optimization of the models and Deeplite Runtime for deployment of ultra-low bit quantized models on Arm-based platforms. We implement low-level quantization kernels for Armv7 and Armv8 architectures enabling deployment on the vast array of 32-bit and 64-bit Arm-based devices. With efficient implementations using vectorization, parallelization, and tiling, we realize speedups of up to 2x and 2.2x compared to TensorFlow Lite with XNNPACK backend on classification and detection models, respectively. We also achieve significant speedups of up to 5x and 3.2x compared to ONNX Runtime for classification and detection models, respectively.
翻訳日:2022-07-20 13:15:34 公開日:2022-07-18
# マルチサブネット仮説:フィードフォワードニューラルネットワークにおけるタスク特化サブネットの分離によるマルチドメイン学習の実現

The Multiple Subnetwork Hypothesis: Enabling Multidomain Learning by Isolating Task-Specific Subnetworks in Feedforward Neural Networks ( http://arxiv.org/abs/2207.08821v1 )

ライセンス: Link先を確認
Jacob Renn, Ian Sotnek, Benjamin Harvey, Brian Caffo(参考訳) ニューラルネットワークは過去10年間、特にコンピュータビジョンと自然言語処理の領域で利用と研究が爆発的に増えている。 しかし、ニューラルネットワークの進歩により、狭いアプリケーションを超えてパフォーマンスが向上し、複数のデータタイプとモダリティをまたいだ一般化が可能な拡張マルチタスクモデルに変換された。 同時に、ニューラルネットワークは高度に過度にパラメータ化されていることが示され、プルーニング技術はネットワーク内でのアクティブな重みの数を著しく削減し、性能を保っていることが証明されている。 そこで本研究では,prunedネットワークが未使用の重みを生かして後続のタスクを学習できる手法とネットワーク表現構造を明らかにする。 我々はこれらの手法を、よく知られたベンチマークデータセットを用いてテストし、我々のアプローチを用いて訓練されたネットワークが、あらゆるタスクのパフォーマンスを犠牲にすることなく、あるいは破滅的な忘れを伴わずに、複数のタスクを同時に、あるいは無関係に学習できることを示す。

Neural networks have seen an explosion of usage and research in the past decade, particularly within the domains of computer vision and natural language processing. However, only recently have advancements in neural networks yielded performance improvements beyond narrow applications and translated to expanded multitask models capable of generalizing across multiple data types and modalities. Simultaneously, it has been shown that neural networks are overparameterized to a high degree, and pruning techniques have proved capable of significantly reducing the number of active weights within the network while largely preserving performance. In this work, we identify a methodology and network representational structure which allows a pruned network to employ previously unused weights to learn subsequent tasks. We employ these methodologies on well-known benchmarking datasets for testing purposes and show that networks trained using our approaches are able to learn multiple tasks, which may be related or unrelated, in parallel or in sequence without sacrificing performance on any task or exhibiting catastrophic forgetting.
翻訳日:2022-07-20 13:15:20 公開日:2022-07-18
# 多項式ニューラルネットワークのサンプル複雑性に関する研究

On the Study of Sample Complexity for Polynomial Neural Networks ( http://arxiv.org/abs/2207.08896v1 )

ライセンス: Link先を確認
Chao Pan, Chuanyi Zhang(参考訳) 機械学習の一般的な方法として、ニューラルネットワークは多くのパターン認識やデータ分析タスクにおいて最先端のベンチマークを確立した。 様々な種類のニューラルネットワークアーキテクチャの中で、多項式ニューラルネットワーク(PNN)は近年、ニューラルタンジェントカーネルによるスペクトル分析によって解析可能であることが示されており、特に画像生成や顔認識に有効である。 しかしながら、PNNの計算とサンプルの複雑さに関する理論的知見を得ることは未解決の問題である。 本稿では,従来の文献をPNNに拡張し,PNNのサンプル複雑性に関する新たな結果を得る。

As a general type of machine learning approach, artificial neural networks have established state-of-art benchmarks in many pattern recognition and data analysis tasks. Among various kinds of neural networks architectures, polynomial neural networks (PNNs) have been recently shown to be analyzable by spectrum analysis via neural tangent kernel, and particularly effective at image generation and face recognition. However, acquiring theoretical insight into the computation and sample complexity of PNNs remains an open problem. In this paper, we extend the analysis in previous literature to PNNs and obtain novel results on sample complexity of PNNs, which provides some insights in explaining the generalization ability of PNNs.
翻訳日:2022-07-20 13:12:43 公開日:2022-07-18
# MRCLens: MRCデータセットバイアス検出ツールキット

MRCLens: an MRC Dataset Bias Detection Toolkit ( http://arxiv.org/abs/2207.08943v1 )

ライセンス: Link先を確認
Yifan Zhong, Haohan Wang, Eric P. Xing(参考訳) 最近の多くのニューラルモデルは、機械学習理解において顕著な経験的な結果を示しているが、ある証拠は、データセットバイアスを利用して、サンプル外のデータを予測し、一般化できないことを示唆している。 新たなアーキテクチャやトレーニング手順などの計算の観点からこの問題に対処する他の多くのアプローチが提案されているが、研究者がバイアスを発見し、早期にデータやモデルを調整できる方法が有用であると考えている。 MRCLensは,ユーザがフルモデルをトレーニングする前に,バイアスが存在するかどうかを検出するツールキットである。 ツールキットの導入の便宜のために,MDCにおける共通バイアスの分類も提供する。

Many recent neural models have shown remarkable empirical results in Machine Reading Comprehension, but evidence suggests sometimes the models take advantage of dataset biases to predict and fail to generalize on out-of-sample data. While many other approaches have been proposed to address this issue from the computation perspective such as new architectures or training procedures, we believe a method that allows researchers to discover biases, and adjust the data or the models in an earlier stage will be beneficial. Thus, we introduce MRCLens, a toolkit that detects whether biases exist before users train the full model. For the convenience of introducing the toolkit, we also provide a categorization of common biases in MRC.
翻訳日:2022-07-20 13:08:16 公開日:2022-07-18
# 人の行動認識を改善するデータにおける行動前処理の発見

Discovering Behavioral Predispositions in Data to Improve Human Activity Recognition ( http://arxiv.org/abs/2207.08816v1 )

ライセンス: Link先を確認
Maximilian Popko, Sebastian Bader, Stefan L\"udtke, Thomas Kirste(参考訳) 認知症患者の挑戦行動の自動的・センサベース評価は、介入の選択を支援する重要な課題である。 しかし,患者間および患者内変動が大きいため,無症候や扇動などの予測は困難である。 本研究の目的は、患者が一日や週に特定の行動を示す傾向があるという観察を利用して、認識性能を向上させることである。 本稿では、時間セグメントのアノテーションの分布をクラスタリングすることで、同様の振る舞いのセグメントを特定することを提案する。 クラスタ内のすべての時間セグメントは、同じ挙動からなり、従って行動前置(BPD)を示す。 BPDごとに分類器を訓練することでBPDを利用する。 実験により,時間単位のbpdが知られている場合,活動認識性能が大幅に向上することを示す。

The automatic, sensor-based assessment of challenging behavior of persons with dementia is an important task to support the selection of interventions. However, predicting behaviors like apathy and agitation is challenging due to the large inter- and intra-patient variability. Goal of this paper is to improve the recognition performance by making use of the observation that patients tend to show specific behaviors at certain times of the day or week. We propose to identify such segments of similar behavior via clustering the distributions of annotations of the time segments. All time segments within a cluster then consist of similar behaviors and thus indicate a behavioral predisposition (BPD). We utilize BPDs by training a classifier for each BPD. Empirically, we demonstrate that when the BPD per time segment is known, activity recognition performance can be substantially improved.
翻訳日:2022-07-20 13:06:52 公開日:2022-07-18
# FLAIR:Federated Learning Annotated Image Repository

FLAIR: Federated Learning Annotated Image Repository ( http://arxiv.org/abs/2207.08869v1 )

ライセンス: Link先を確認
Congzheng Song, Filip Granqvist, Kunal Talwar(参考訳) クロスデバイスフェデレーション学習(cross-device federated learning, クロスデバイスフェデレーション学習)は、データがデバイスに残っている間に、多数のデバイスがmlモデルを総合的にトレーニングする、新たな機械学習(ml)パラダイムである。 この研究分野には独自の実践的課題があり、体系的に進歩するためには、このパラダイムと互換性のある新しいデータセットが必要である。 画像領域における既存の連合学習ベンチマークは、実世界の多くのユースケースのスケールと多様性を正確に捉えていない。 本稿では,フェデレート学習に適した多ラベル分類のための大規模アノテート画像データセットFLAIRを紹介する。 FLAIRは51,414人のFlickrユーザーから429,078枚の画像を持ち、異種ユーザデータや長い尾のラベルの分布など、連邦学習でよく見られる多くの複雑さを捉えている。 このデータセット上で異なるタスクのために、異なる学習設定で複数のベースラインを実装します。 FLAIRは、フェデレートラーニングにおける最先端技術を推進する上で、難しいベンチマークになると考えています。 データセットへのアクセスとベンチマークのコードは、 \url{https://github.com/apple/ml-flair} で入手できる。

Cross-device federated learning is an emerging machine learning (ML) paradigm where a large population of devices collectively train an ML model while the data remains on the devices. This research field has a unique set of practical challenges, and to systematically make advances, new datasets curated to be compatible with this paradigm are needed. Existing federated learning benchmarks in the image domain do not accurately capture the scale and heterogeneity of many real-world use cases. We introduce FLAIR, a challenging large-scale annotated image dataset for multi-label classification suitable for federated learning. FLAIR has 429,078 images from 51,414 Flickr users and captures many of the intricacies typically encountered in federated learning, such as heterogeneous user data and a long-tailed label distribution. We implement multiple baselines in different learning setups for different tasks on this dataset. We believe FLAIR can serve as a challenging benchmark for advancing the state-of-the art in federated learning. Dataset access and the code for the benchmark are available at \url{https://github.com/apple/ml-flair}.
翻訳日:2022-07-20 13:03:02 公開日:2022-07-18
# ベクトルシンボルの残留と注意アーキテクチャ

Residual and Attentional Architectures for Vector-Symbols ( http://arxiv.org/abs/2207.08953v1 )

ライセンス: Link先を確認
Wilkie Olin-Ammentorp Maxim Bazhenov(参考訳) ベクトルシンボリックアーキテクチャ(VSAs)は、柔軟でユニークな利点を持つ計算方法を提供する。 VSAsの概念は、情報表現と操作のために高次元空間の特性を利用する値の長いベクトルである「シンボル」で表される。 本稿では,FHRR (Fourier Holographic Reduced Representation) VSAのフレームワーク内で提供される操作の効率性と深層ネットワークのパワーを組み合わせて,新たなVSAベースの残差と注意に基づくニューラルネットワークアーキテクチャを構築する。 注意深いFHRRアーキテクチャを用いて、Perceiverモデルと同様、異なる情報をネットワークの入力にエンコードすることで、同じネットワークアーキテクチャが異なるドメイン(画像分類と分子毒性予測)からの問題に対処できることを実証する。 これは、vsasの新しい応用と、ニューロモルフィックハードウェアに最先端のニューラルモデルを実装する潜在的パスを示す。

Vector-symbolic architectures (VSAs) provide methods for computing which are highly flexible and carry unique advantages. Concepts in VSAs are represented by 'symbols,' long vectors of values which utilize properties of high-dimensional spaces to represent and manipulate information. In this new work, we combine efficiency of the operations provided within the framework of the Fourier Holographic Reduced Representation (FHRR) VSA with the power of deep networks to construct novel VSA based residual and attention-based neural network architectures. Using an attentional FHRR architecture, we demonstrate that the same network architecture can address problems from different domains (image classification and molecular toxicity prediction) by encoding different information into the network's inputs, similar to the Perceiver model. This demonstrates a novel application of VSAs and a potential path to implementing state-of-the-art neural models on neuromorphic hardware.
翻訳日:2022-07-20 13:02:44 公開日:2022-07-18
# 選択バイアスによる大言語モデルにおける純粋相関

Selection Bias Induced Spurious Correlations in Large Language Models ( http://arxiv.org/abs/2207.08982v1 )

ライセンス: Link先を確認
Emily McMilin(参考訳) 本研究では,大規模言語モデル(LLM)が,データセット選択バイアスによる非条件独立変数間の統計的依存関係をいかに学習できるかを示す。 この効果を実証するために,BERT モデルに適用可能なマスク付きジェンダータスクを開発し,予測されたジェンダー代名詞と,日時や場所などの性別中立変数との素早い相関関係を,事前学習された(修正されていない) BERT と RoBERTa の大規模モデル上で明らかにした。 最後に、オンラインデモを行い、読者にさらなる実験を依頼します。

In this work we show how large language models (LLMs) can learn statistical dependencies between otherwise unconditionally independent variables due to dataset selection bias. To demonstrate the effect, we developed a masked gender task that can be applied to BERT-family models to reveal spurious correlations between predicted gender pronouns and a variety of seemingly gender-neutral variables like date and location, on pre-trained (unmodified) BERT and RoBERTa large models. Finally, we provide an online demo, inviting readers to experiment further.
翻訳日:2022-07-20 13:02:03 公開日:2022-07-18
# 深部テンソル因子分解における多項式成長を伴う暗黙的正則化

Implicit Regularization with Polynomial Growth in Deep Tensor Factorization ( http://arxiv.org/abs/2207.08942v1 )

ライセンス: Link先を確認
Kais Hariz, Hachem Kadri, St\'ephane Ayache, Mahzer Moakher, Thierry Arti\`eres(参考訳) テンソル因子分解における深層学習の暗黙的正規化効果について検討した。 線形およびある種の非線形ニューラルネットワークによる暗黙的な行列の正規化と「シャロー」テンソル分解は、少なくとも2次成長を持つ低ランク解を促進させるが、ディープテンソル分解におけるその効果はネットワークの深さとともに多項式的に増加する。 これは観測された実験行動の極めて忠実な説明を与える。 数値実験を用いて,この暗黙の正則化により,より正確な推定と収束特性が得られることを示す。

We study the implicit regularization effects of deep learning in tensor factorization. While implicit regularization in deep matrix and 'shallow' tensor factorization via linear and certain type of non-linear neural networks promotes low-rank solutions with at most quadratic growth, we show that its effect in deep tensor factorization grows polynomially with the depth of the network. This provides a remarkably faithful description of the observed experimental behaviour. Using numerical experiments, we demonstrate the benefits of this implicit regularization in yielding a more accurate estimation and better convergence properties.
翻訳日:2022-07-20 12:57:32 公開日:2022-07-18
# 注意法を用いた司法結果の予測

Using attention methods to predict judicial outcomes ( http://arxiv.org/abs/2207.08823v1 )

ライセンス: Link先を確認
Vithor Gomes Ferreira Bertalan, Evandro Eduardo Seron Ruiz(参考訳) 法的判断予測は、NLP、AI、法の組み合わせ分野において最も称賛されている分野の1つである。 法的予測によって、司法結果、司法階級などの特定の司法特性を予測できるインテリジェントなシステムが特定の事件を予測できることを意味する。 本研究では,ブラジルの司法制度における司法結果の予測にAI分類器を用いた。 そこで我々は,ブラジルの電子法システムからデータを抽出するためのテキストクローラを開発した。 これらのテキストは、第二級殺人と活発な汚職事件のデータセットを形成した。 データセットからテキストの特徴を解析することにより、異なる分類器(サポートベクターマシンやニューラルネットワークなど)を適用し、裁判結果を予測する。 その結果,回帰木,ゲート再帰単位,階層的アテンションネットワークは異なる部分集合に対して高い指標を示した。 最終目標は、被告を棄却または有罪にするために使われる最も重要な単語のサンプルを見つけるために、アルゴリズムの1つである階層的アテンションネットワークの重みを調べました。

Legal Judgment Prediction is one of the most acclaimed fields for the combined area of NLP, AI, and Law. By legal prediction we mean an intelligent systems capable to predict specific judicial characteristics, such as judicial outcome, a judicial class, predict an specific case. In this research, we have used AI classifiers to predict judicial outcomes in the Brazilian legal system. For this purpose, we developed a text crawler to extract data from the official Brazilian electronic legal systems. These texts formed a dataset of second-degree murder and active corruption cases. We applied different classifiers, such as Support Vector Machines and Neural Networks, to predict judicial outcomes by analyzing textual features from the dataset. Our research showed that Regression Trees, Gated Recurring Units and Hierarchical Attention Networks presented higher metrics for different subsets. As a final goal, we explored the weights of one of the algorithms, the Hierarchical Attention Networks, to find a sample of the most important words used to absolve or convict defendants.
翻訳日:2022-07-20 12:56:57 公開日:2022-07-18
# テキスト分類タスクのためのディープシーケンスモデル

Deep Sequence Models for Text Classification Tasks ( http://arxiv.org/abs/2207.08880v1 )

ライセンス: Link先を確認
Saheed Salahudeen Abdullahi, Sun Yiming, Shamsuddeen Hassan Muhammad, Abdulrasheed Mustapha, Ahmad Muhammad Aminu, Abdulkadir Abdullahi, Musa Bello, Saminu Mohammad Aliyu(参考訳) 現在の情報時代におけるインターネット上のデータの指数的な成長は、デジタル経済の原動力である。 蓄積されたビッグデータの主要な価値は、情報の抽出である。 統計分析と手動ルールによるビッグデータ依存 機械学習アルゴリズムは、人間の言語に固有の膨大な複雑さに圧倒されている。 自然言語処理(NLP)は、人間の多様で複雑な言語を理解するために機械を装備している。 テキスト分類はnlpタスクであり、事前に定義または未定義のラベル付き集合に基づいて自動的にパターンを識別する。 一般的なテキスト分類アプリケーションには、情報検索、ニューストピックのモデリング、テーマ抽出、感情分析、スパム検出が含まれる。 テキストでは、いくつかの単語列は前または次の単語列に依存して完全な意味を成す。これはマシンが将来の意味に影響を与えるためにいくつかの重要な情報を格納する必要がある、困難な依存タスクである。 RNN、GRU、LSTMといったシーケンスモデルは、長距離依存性を持つタスクのブレークスルーである。 したがって、これらのモデルをバイナリおよびマルチクラス分類に適用した。 その結果,80%と94%の範囲で動作したモデルがほとんどであった。 しかし、機械が人間と競争する余地があると我々は信じているので、この結果は徹底的ではない。

The exponential growth of data generated on the Internet in the current information age is a driving force for the digital economy. Extraction of information is the major value in an accumulated big data. Big data dependency on statistical analysis and hand-engineered rules machine learning algorithms are overwhelmed with vast complexities inherent in human languages. Natural Language Processing (NLP) is equipping machines to understand these human diverse and complicated languages. Text Classification is an NLP task which automatically identifies patterns based on predefined or undefined labeled sets. Common text classification application includes information retrieval, modeling news topic, theme extraction, sentiment analysis, and spam detection. In texts, some sequences of words depend on the previous or next word sequences to make full meaning; this is a challenging dependency task that requires the machine to be able to store some previous important information to impact future meaning. Sequence models such as RNN, GRU, and LSTM is a breakthrough for tasks with long-range dependencies. As such, we applied these models to Binary and Multi-class classification. Results generated were excellent with most of the models performing within the range of 80% and 94%. However, this result is not exhaustive as we believe there is room for improvement if machines are to compete with humans.
翻訳日:2022-07-20 12:56:39 公開日:2022-07-18
# なぜ木ベースのモデルは表データのディープラーニングよりも優れているのか?

Why do tree-based models still outperform deep learning on tabular data? ( http://arxiv.org/abs/2207.08815v1 )

ライセンス: Link先を確認
L\'eo Grinsztajn (SODA), Edouard Oyallon (ISIR, CNRS), Ga\"el Varoquaux (SODA)(参考訳) ディープラーニングはテキストと画像データセットの大幅な進歩をもたらしたが、表データでの優位性は明確ではない。 我々は、XGBoostやRandom Forestsのような木に基づくモデルと同様に、標準および新しいディープラーニング手法の広範なベンチマークを、多数のデータセットとハイパーパラメータの組み合わせで提供します。 表データの特徴を明確にした,様々な領域の45のデータセットの標準セットと,適合するモデルと良いハイパーパラメータを求めるためのベンチマーク手法を定義する。 その結果,木をベースとしたモデルは,優れた速度を考慮せずに,中規模データ(\sim$10Kサンプル)の最先端のままであることがわかった。 このギャップを理解するために、我々はツリーベースモデルとニューラルネットワーク(NN)の異なる帰納バイアスについて実証的研究を行う。 これは、表特有のNNの構築を目指す研究者のガイドとなる、一連の課題につながります。 1.非形式的特徴に対して堅牢であること。 2 データの向きを保つこと、及び 3. 不規則な機能を 簡単に学べる。 表型アーキテクチャの研究を刺激するため,各学習者に対して,20000時間の計算時間毎のハイパーパラメータ探索を行う標準ベンチマークと,ベースラインの生データを提示する。

While deep learning has enabled tremendous progress on text and image datasets, its superiority on tabular data is not clear. We contribute extensive benchmarks of standard and novel deep learning methods as well as tree-based models such as XGBoost and Random Forests, across a large number of datasets and hyperparameter combinations. We define a standard set of 45 datasets from varied domains with clear characteristics of tabular data and a benchmarking methodology accounting for both fitting models and finding good hyperparameters. Results show that tree-based models remain state-of-the-art on medium-sized data ($\sim$10K samples) even without accounting for their superior speed. To understand this gap, we conduct an empirical investigation into the differing inductive biases of tree-based models and Neural Networks (NNs). This leads to a series of challenges which should guide researchers aiming to build tabular-specific NNs: 1. be robust to uninformative features, 2. preserve the orientation of the data, and 3. be able to easily learn irregular functions. To stimulate research on tabular architectures, we contribute a standard benchmark and raw data for baselines: every point of a 20 000 compute hours hyperparameter search for each learner.
翻訳日:2022-07-20 12:55:54 公開日:2022-07-18
# 平面SDFによる長期密度マッピングのための変化検出

PlaneSDF-based Change Detection for Long-term Dense Mapping ( http://arxiv.org/abs/2207.08323v1 )

ライセンス: Link先を確認
Jiahui Fu, Chengyuan Lin, Yuichi Taguchi, Andrea Cohen, Yifu Zhang, Stephen Mylabathula, and John J. Leonard(参考訳) 複数のセッションにまたがる環境マップの処理能力は、長期にわたって動作するロボットにとって不可欠である。 具体的には、自律エージェントが異なるセッションのマップ間の変化を検知し、現在の環境の矛盾のない理解を得ることが望ましい。 本稿では,平面署名距離場(Plane Signed Distance Fields,PlaneSDF)と呼ばれる新しい地図表現に基づく変化検出の問題について考察する。 1)平面SDFボリュームは各シーン内でインスタンス化され、平面ポーズを用いてシーン間で登録され、2次元の高さマップとオブジェクトマップは高さプロジェクションと連結成分分析によりボリューム毎に抽出される。 2) 高さマップをオブジェクトマップと比較, 交差させ, ソースシーンにおける変更対象候補に対する2次元変更位置マスクを生成する。 (3)3次元幾何検証は、変更マスク改質のための対象候補毎のSDF特徴を用いて行われる。 我々は,合成データと実世界のデータの両方に対するアプローチを評価し,その効果をオブジェクト検出のタスクを通して実証する。

The ability to process environment maps across multiple sessions is critical for robots operating over extended periods of time. Specifically, it is desirable for autonomous agents to detect changes amongst maps of different sessions so as to gain a conflict-free understanding of the current environment. In this paper, we look into the problem of change detection based on a novel map representation, dubbed Plane Signed Distance Fields (PlaneSDF), where dense maps are represented as a collection of planes and their associated geometric components in SDF volumes. Given point clouds of the source and target scenes, we propose a three-step PlaneSDF-based change detection approach: (1) PlaneSDF volumes are instantiated within each scene and registered across scenes using plane poses; 2D height maps and object maps are extracted per volume via height projection and connected component analysis. (2) Height maps are compared and intersected with the object map to produce a 2D change location mask for changed object candidates in the source scene. (3) 3D geometric validation is performed using SDF-derived features per object candidate for change mask refinement. We evaluate our approach on both synthetic and real-world datasets and demonstrate its effectiveness via the task of changed object detection.
翻訳日:2022-07-20 07:40:49 公開日:2022-07-18
# ロバスト回転探索における半定値最小二乗の緩和の理解に向けて

Towards Understanding The Semidefinite Relaxations of Truncated Least-Squares in Robust Rotation Search ( http://arxiv.org/abs/2207.08350v1 )

ライセンス: Link先を確認
Liangzu Peng and Mahyar Fazlyab and Ren\'e Vidal(参考訳) 回転探索問題は、与えられた点対を最もよく整列する3次元回転を見つけることを目的としている。 回転探索における外れ値に対するロバスト性を誘導するため、先行研究では、非凸最適化問題である最小二乗(TLS)と半定緩和(SDR)をトラクタブルな代替として検討している。 このSDRが理論上、ノイズや外れ値の存在下で厳密であるかどうか、あるいはどちらもほとんど未解明のままである。 我々は,このSDRの密度を特徴付ける条件を導出し,その密度は騒音レベル,TLSの乱れパラメータ,および外れ値分布(ランダムまたはクラスタ化)に依存することを示した。 特に,先行研究の長大な分析とは対照的に,無ノイズかつ非異常なケースのタイトさの簡単な証明を与える。

The rotation search problem aims to find a 3D rotation that best aligns a given number of point pairs. To induce robustness against outliers for rotation search, prior work considers truncated least-squares (TLS), which is a non-convex optimization problem, and its semidefinite relaxation (SDR) as a tractable alternative. Whether this SDR is theoretically tight in the presence of noise, outliers, or both has remained largely unexplored. We derive conditions that characterize the tightness of this SDR, showing that the tightness depends on the noise level, the truncation parameters of TLS, and the outlier distribution (random or clustered). In particular, we give a short proof for the tightness in the noiseless and outlier-free case, as opposed to the lengthy analysis of prior work.
翻訳日:2022-07-20 07:40:29 公開日:2022-07-18
# 等方的3次元流体減衰反転磁気共鳴画像における白色物質超強度の偏差:ノルウェー国立画像データベースにおける深層学習ツールの比較

Segmenting white matter hyperintensities on isotropic three-dimensional Fluid Attenuated Inversion Recovery magnetic resonance images: A comparison of Deep learning tools on a Norwegian national imaging database ( http://arxiv.org/abs/2207.08467v1 )

ライセンス: Link先を確認
Martin Soria Roevang, Per Selnes, Bradley John MacIntosh, Inge Rasmus Groote, Lene Paalhaugen, Carole Sudre, Tormod Fladby, Atle Bjoernerud(参考訳) 磁気共鳴イメージング (MRI) の神経画像解析において, ホワイトマターハイパーインテンシティ (WMHs) の自動セグメンテーションは重要なステップである。 FLAIR-weighted(Fluid Attenuated Inversion Recovery)は、脳小血管疾患とアルツハイマー病(AD)の指標であるWMHの可視化と定量化に特に有用であるMRI造影剤である。 臨床MRIプロトコルは3次元のFLAIR強調取得に移行し、3つのボクセル次元の高空間分解能を実現する。 本研究は,全国広告撮像イニシアチブの一環として取得した3dフレア強調画像から,自動wmhセグメンテーションとキャラクタリゼーションを実現するための深層学習ツールの展開について詳述する。 DDI調査から得られた642人(男性283人,平均年齢65.18歳/9.33歳)を対象に,国内5カ所で2つのネットワークをトレーニング,検証した。 3つのモデルが642人の参加者による内部データの保留サブセットと29人の国際協力者による外部データセットでテストされた。 これらのテストセットは独立して評価された。 5つの確立されたWMH性能測定値を用いて,実測値との比較を行った。 実験を行った3つのネットワークのうち、3D nnU-Netは平均サイコロ類似度係数スコア0.78 +/- 0.10で最高の性能を示し、社内で開発された2.5DモデルとSOTAディープベイズネットワークよりも優れた性能を示した。 結語 3D FLAIR 強調画像のMRI プロトコルへの利用の増加に伴い,我々は,T1 強調画像系列を含まないまま,WMH 分割モデルを3次元データでトレーニングし,最新技術に匹敵するWMH 分割性能が得られることを示唆した。

Introduction Automated segmentation of white matter hyperintensities (WMHs) is an essential step in neuroimaging analysis of Magnetic Resonance Imaging (MRI). Fluid Attenuated Inversion Recovery (FLAIR-weighted) is an MRI contrast that is particularly useful to visualize and quantify WMHs, a hallmark of cerebral small vessel disease and Alzheimer's disease (AD). Clinical MRI protocols migrate to a three-dimensional (3D) FLAIR-weighted acquisition to enable high spatial resolution in all three voxel dimensions. The current study details the deployment of deep learning tools to enable automated WMH segmentation and characterization from 3D FLAIR-weighted images acquired as part of a national AD imaging initiative. Materials and methods Among 642 participants (283 male, mean age: (65.18 +/- 9.33) years) from the DDI study, two in-house networks were trained and validated across five national collection sites. Three models were tested on a held-out subset of the internal data from the 642 participants and an external dataset with 29 cases from an international collaborator. These test sets were evaluated independently. Five established WMH performance metrics were used for comparison against ground truth human-in-the-loop segmentation. Results Of the three networks tested, the 3D nnU-Net had the best performance with an average dice similarity coefficient score of 0.78 +/- 0.10, performing better than both the in-house developed 2.5D model and the SOTA Deep Bayesian network. Conclusion With the increasing use of 3D FLAIR-weighted images in MRI protocols, our results suggest that WMH segmentation models can be trained on 3D data and yield WMH segmentation performance that is comparable to or better than state-of-the-art without the need for including T1-weighted image series.
翻訳日:2022-07-20 07:40:12 公開日:2022-07-18
# (参考訳) 人間のグローバルな文脈へ向けて:視覚言語モデルは本当に人間か?

Towards the Human Global Context: Does the Vision-Language Model Really Judge Like a Human Being? ( http://arxiv.org/abs/2207.08333v1 )

ライセンス: CC BY 4.0
Sangmyeong Woh, Jaemin Lee, Ho joong Kim and Jinsuk Lee(参考訳) コンピュータビジョンとNLPが進歩するにつれ、VL(Vision-Language)は研究の重要な領域になりつつある。 この重要性にもかかわらず、研究領域の評価基準はまだ開発の初期段階にある。 本稿では,VLモデルが人間のようなイメージを理解しているかを評価するために,定量的な尺度である「等価スコア」と評価データセット「Human Puzzle」を提案する。 我々は,VLモデルが入力画像全体のコンテキストを解釈するのではなく,局所的なコンテキストを形成する特定の物体や形状に対するバイアスを示すことを観察した。 我々は,文脈理解におけるモデルの性能を定量的に計測することを目的とする。 既存のVLモデルの性能を検証するため、元の入力画像を断片に分割してランダムに配置し、画像のグローバルコンテキストを歪ませた。 本稿では,グローバルコンテキストにおける各VLモデルの解釈レベルについて論じ,構造的特性が結果に与える影響について考察する。

As computer vision and NLP make progress, Vision-Language(VL) is becoming an important area of research. Despite the importance, evaluation metrics of the research domain is still at a preliminary stage of development. In this paper, we propose a quantitative metric "Equivariance Score" and evaluation dataset "Human Puzzle" to assess whether a VL model is understanding an image like a human. We observed that the VL model does not interpret the overall context of an input image but instead shows biases toward a specific object or shape that forms the local context. We aim to quantitatively measure a model's performance in understanding context. To verify the current existing VL model's capability, we sliced the original input image into pieces and randomly placed them, distorting the global context of the image. Our paper discusses each VL model's level of interpretation on global context and addresses how the structural characteristics influenced the results.
翻訳日:2022-07-20 02:11:10 公開日:2022-07-18
# (参考訳) 主観的属性を用いた公平な分類について

On Fair Classification with Mostly Private Sensitive Attributes ( http://arxiv.org/abs/2207.08336v1 )

ライセンス: CC BY 4.0
Canyu Chen, Yueqing Liang, Xiongxiao Xu, Shangyu Xie, Yuan Hong, Kai Shu(参考訳) 機械学習モデルは、多くの分野で有望なパフォーマンスを示している。 しかし、特定のグループに対してバイアスがかかるという懸念は、高い評価のアプリケーションでの採用を妨げる。 したがって、機械学習モデルの公平性を保証することが不可欠である。 これまでの取り組みのほとんどは、バイアスを軽減するためのセンシティブな属性へのアクセスを必要としていた。 にもかかわらず、プライバシーや法的コンプライアンスに対する意識の高まりにより、機密性の高い属性を持つ大規模なデータを得ることは不可能であることが多い。 したがって、重要な研究課題は、プライバシーの下で公平な予測をする方法である。 本稿では,機密性の高い属性のほとんどがプライベートであり,かつ少量のクリーンな機密属性しか利用できない半プライベートな設定において,公平な分類に関する新しい問題について検討する。 そこで本研究では,プライバシ保証下でのノイズに敏感な属性の修正を,限られた清潔な属性を活用できる新しいフレームワークであるFairSPを提案する。 そして、補正されたデータとクリーンなデータを、デバイアスと予測のために逆さまにモデル化する。 理論解析により, 感度の高い属性のほとんどがプライベートである場合, 提案モデルによって公平性が確保できることが示された。 実世界のデータセットに対する実験結果は、プライバシの下で公正な予測を行い、高精度を維持するためのモデルの有効性を示す。

Machine learning models have demonstrated promising performance in many areas. However, the concerns that they can be biased against specific groups hinder their adoption in high-stake applications. Thus it is essential to ensure fairness in machine learning models. Most of the previous efforts require access to sensitive attributes for mitigating bias. Nonetheless, it is often infeasible to obtain large scale of data with sensitive attributes due to people's increasing awareness of privacy and the legal compliance. Therefore, an important research question is how to make fair predictions under privacy? In this paper, we study a novel problem on fair classification in a semi-private setting, where most of the sensitive attributes are private and only a small amount of clean sensitive attributes are available. To this end, we propose a novel framework FairSP that can first learn to correct the noisy sensitive attributes under privacy guarantee via exploiting the limited clean sensitive attributes. Then, it jointly models the corrected and clean data in an adversarial way for debiasing and prediction. Theoretical analysis shows that the proposed model can ensure fairness when most of the sensitive attributes are private. Experimental results on real-world datasets demonstrate the effectiveness of the proposed model for making fair predictions under privacy and maintaining high accuracy.
翻訳日:2022-07-20 02:01:53 公開日:2022-07-18
# (参考訳) mobilecodec: モバイルデバイス上でのニューラルフレーム間ビデオ圧縮

MobileCodec: Neural Inter-frame Video Compression on Mobile Devices ( http://arxiv.org/abs/2207.08338v1 )

ライセンス: CC BY 4.0
Hoang Le, Liang Zhang, Amir Said, Guillaume Sautiere, Yang Yang, Pranav Shrestha, Fei Yin, Reza Pourreza, Auke Wiggers(参考訳) モバイルデバイス上でのニューラルビデオコーデックの可能性を実現することは、ディープネットワークと電力制約のあるモバイルハードウェアの計算複雑性のため、大きな技術的課題である。 我々は,Qualcommの技術とイノベーションを活用し,壁駆動ワークステーション上で動作するニューラルネットワークベースのコーデックシミュレーションから,Snapdragon技術を利用したモバイルデバイス上でのリアルタイム操作までのギャップを埋めることにより,現実的な実現可能性を示す。 商用携帯電話で動作する最初のフレーム間ニューラルビデオデコーダを示し、低ビットレートと高画質を維持しながら高精細ビデオをリアルタイムで復号する。

Realizing the potential of neural video codecs on mobile devices is a big technological challenge due to the computational complexity of deep networks and the power-constrained mobile hardware. We demonstrate practical feasibility by leveraging Qualcomm's technology and innovation, bridging the gap from neural network-based codec simulations running on wall-powered workstations, to real-time operation on a mobile device powered by Snapdragon technology. We show the first-ever inter-frame neural video decoder running on a commercial mobile phone, decoding high-definition videos in real-time while maintaining a low bitrate and high visual quality.
翻訳日:2022-07-20 01:43:51 公開日:2022-07-18
# (参考訳) リセットと線形値近似を用いたサンプル効率rlのためのエキスパートクエリsuffices

A Few Expert Queries Suffices for Sample-Efficient RL with Resets and Linear Value Approximation ( http://arxiv.org/abs/2207.08342v1 )

ライセンス: CC BY 4.0
Philip Amortila, Nan Jiang, Dhruv Madeka, Dean P. Foster(参考訳) 本論文は, 最適値関数のみを線形化可能な設定において, サンプル効率向上学習(RL)について検討する。 この一見強い仮定と生成モデルへのアクセスにもかかわらず、最悪のサンプルの複雑さは禁止的に(指数関数的に)大きいと理解されている。 学習者がエキスパートポリシーからインタラクティブなデモンストレーションにアクセスできるような設定について検討し、専門家クエリと探索をブレンドするための統計的かつ計算的に効率的なアルゴリズム(Delphi)を提案する。 特にdelphiには、$\tilde{\mathcal{o}}(d)$ エキスパートクエリと$\texttt{poly}(d,h,|\mathcal{a}|,1/\varepsilon)$ の探索的なサンプルが要求され、$\varepsilon$-suboptimalポリシーが確実に回収される。 純粋なRLアプローチと比較して、これは驚くほど少ない専門家入力によるサンプル複雑性の指数関数的な改善に対応する。 従来の模倣学習 (IL) のアプローチと比較して,我々の要求する専門家のデモンストレーションの数は$H$と$/\varepsilon$の対数性とは無関係である。 必要最小限のエキスパートクエリの確立に向けて、同じ設定で、探索予算が多項式境界($d,H,$および$|\mathcal{A}|$)を持つ学習者は、少なくとも$\tilde\Omega(\sqrt{d})$ oracleが専門家の値関数と競合するポリシーを回復するために必要であることを示す。 専門家のポリシーが線型であるというより弱い仮定の下で、下界が$\tilde\Omega(d)$に増加することを示す。

The current paper studies sample-efficient Reinforcement Learning (RL) in settings where only the optimal value function is assumed to be linearly-realizable. It has recently been understood that, even under this seemingly strong assumption and access to a generative model, worst-case sample complexities can be prohibitively (i.e., exponentially) large. We investigate the setting where the learner additionally has access to interactive demonstrations from an expert policy, and we present a statistically and computationally efficient algorithm (Delphi) for blending exploration with expert queries. In particular, Delphi requires $\tilde{\mathcal{O}}(d)$ expert queries and a $\texttt{poly}(d,H,|\mathcal{A}|,1/\varepsilon)$ amount of exploratory samples to provably recover an $\varepsilon$-suboptimal policy. Compared to pure RL approaches, this corresponds to an exponential improvement in sample complexity with surprisingly-little expert input. Compared to prior imitation learning (IL) approaches, our required number of expert demonstrations is independent of $H$ and logarithmic in $1/\varepsilon$, whereas all prior work required at least linear factors of both in addition to the same dependence on $d$. Towards establishing the minimal amount of expert queries needed, we show that, in the same setting, any learner whose exploration budget is polynomially-bounded (in terms of $d,H,$ and $|\mathcal{A}|$) will require at least $\tilde\Omega(\sqrt{d})$ oracle calls to recover a policy competing with the expert's value function. Under the weaker assumption that the expert's policy is linear, we show that the lower bound increases to $\tilde\Omega(d)$.
翻訳日:2022-07-20 01:32:31 公開日:2022-07-18
# (参考訳) コンテンツに基づくマルチヘッドアテンションによるユーザ特有のビデオハイライトの検出

Show Me What I Like: Detecting User-Specific Video Highlights Using Content-Based Multi-Head Attention ( http://arxiv.org/abs/2207.08352v1 )

ライセンス: CC BY 4.0
Uttaran Bhattacharya and Gang Wu and Stefano Petrangeli and Viswanathan Swaminathan and Dinesh Manocha(参考訳) そこで本研究では,視聴者が視聴したビデオの優先ハイライトクリップに基づいて,対象ビデオの個人別ハイライトを検出する手法を提案する。 本手法は,対象物と人的活動の事前学習機能を用いて,好むクリップの内容と対象ビデオの両方を明示的に活用する。 対象と人間の行動に基づくコンテンツに基づいて、好みのクリップを適応的に重み付けするマルチヘッドアテンション機構を設計し、これらの重み付けをユーザ毎に単一の特徴表現に融合する。 ユーザ毎の特徴表現と所望のターゲットビデオから計算されたフレーム毎の特徴の類似度を計算し、対象ビデオからユーザ固有のハイライトクリップを推定する。 本手法は,個々のユーザの注釈付きハイライトを含む大規模ハイライト検出データセット上でテストする。 現在の基準値と比較して,検出されたハイライトの平均精度は2~4%向上した。 また,各ユーザの好みのハイライトクリップ数や,オブジェクトやヒューマンアクティビティに基づく特徴表現について,広範なアブレーション実験を行い,本手法がコンテンツベースとユーザ固有の両方であることを検証した。

We propose a method to detect individualized highlights for users on given target videos based on their preferred highlight clips marked on previous videos they have watched. Our method explicitly leverages the contents of both the preferred clips and the target videos using pre-trained features for the objects and the human activities. We design a multi-head attention mechanism to adaptively weigh the preferred clips based on their object- and human-activity-based contents, and fuse them using these weights into a single feature representation for each user. We compute similarities between these per-user feature representations and the per-frame features computed from the desired target videos to estimate the user-specific highlight clips from the target videos. We test our method on a large-scale highlight detection dataset containing the annotated highlights of individual users. Compared to current baselines, we observe an absolute improvement of 2-4% in the mean average precision of the detected highlights. We also perform extensive ablation experiments on the number of preferred highlight clips associated with each user as well as on the object- and human-activity-based feature representations to validate that our method is indeed both content-based and user-specific.
翻訳日:2022-07-20 00:40:55 公開日:2022-07-18
# (参考訳) causnet : 親集合制約付き動的プログラミングによる最適なベイズネットワーク探索に基づく生成順序付け

CausNet : Generational orderings based search for optimal Bayesian networks via dynamic programming with parent set constraints ( http://arxiv.org/abs/2207.08365v1 )

ライセンス: CC BY 4.0
Nand Sharma, Joshua Millstein(参考訳) 排他的探索を用いてグローバルに最適なベイズネットワークを見つけることは、超指数的複雑度の問題であり、それが機能する変数の数を厳しく制限する。 動的プログラミングに基づくアルゴリズムを組込み次元削減と親集合同定により実装する。 これにより探索空間が大幅に減少し、大次元データに適用できる。 我々は、世代順に基づく最適ネットワーク探索と呼ぶものを用いており、親集合が考えられるネットワークの空間を効率的に探索する新しい方法である。 このアルゴリズムは、連続データと分類データの両方をサポートし、また、生存結果もサポートする。 合成データと実データの両方にアルゴリズムの有効性を示す。 シミュレーションでは,現在広く使われている3つの最先端アルゴリズムよりも優れた性能を示す。 513遺伝子と生存率を有する卵巣癌遺伝子発現データセットに適用した。 本アルゴリズムは,基本コンピュータ上で,結果ノードにつながる6つの遺伝子からなる疾患経路を記述する最適なネットワークを,数分で見つけることができる。 我々の世代順序に基づく最適ネットワーク探索は、1000の変数に適用可能な最適なベイズネットワークを見つけるための効率的かつ高度にスケーラブルなアプローチである。 特定パラメータの相関、FDRカットオフ、およびインディフレクションを使って、ネットワークのノード数や密度を増加または減少させることができる。 2つのスコアリングオプション-BICとBgeとサバイバル結果と混合データ型の実装により,本アルゴリズムは多種類の高次元バイオメディカルデータに非常に適している。

Finding a globally optimal Bayesian Network using exhaustive search is a problem with super-exponential complexity, which severely restricts the number of variables that it can work for. We implement a dynamic programming based algorithm with built-in dimensionality reduction and parent set identification. This reduces the search space drastically and can be applied to large-dimensional data. We use what we call generational orderings based search for optimal networks, which is a novel way to efficiently search the space of possible networks given the possible parent sets. The algorithm supports both continuous and categorical data, and categorical as well as survival outcomes. We demonstrate the efficacy of our algorithm on both synthetic and real data. In simulations, our algorithm performs better than three state-of-art algorithms that are currently used extensively. We then apply it to an Ovarian Cancer gene expression dataset with 513 genes and a survival outcome. Our algorithm is able to find an optimal network describing the disease pathway consisting of 6 genes leading to the outcome node in a few minutes on a basic computer. Our generational orderings based search for optimal networks, is both efficient and highly scalable approach to finding optimal Bayesian Networks, that can be applied to 1000s of variables. Using specifiable parameters - correlation, FDR cutoffs, and in-degree - one can increase or decrease the number of nodes and density of the networks. Availability of two scoring option-BIC and Bge-and implementation of survival outcomes and mixed data types makes our algorithm very suitable for many types of high dimensional biomedical data to find disease pathways.
翻訳日:2022-07-20 00:14:04 公開日:2022-07-18
# (参考訳) 人間の脳はフェイクニュースを検出できない: テキストの偽情報認識の神経認知研究

Human Brains Can't Detect Fake News: A Neuro-Cognitive Study of Textual Disinformation Susceptibility ( http://arxiv.org/abs/2207.08376v1 )

ライセンス: CC BY 4.0
Cagri Arisoy, Anuradha Mandal and Nitesh Saxena(参考訳) デジタル偽情報の拡散(別名「フェイクニュース」)は、インターネット上で最も重要な脅威の一つであり、大規模な個人的・社会的な被害を引き起こす可能性がある。 偽ニュース攻撃の危険性は、インターネットユーザーが偽ニュース記事/スニペットを読んだ後に正当であると認識するかどうかにかかっている。 本稿では,ニューロ認知的手法を用いて,テキスト中心の偽ニュース攻撃に対するユーザの感受性を深く理解することを試みる。 偽ニュース/現実ニュースに関連する神経基盤を脳波で検討する。 偽ニュースに対するユーザの認識と認知処理を徹底的に調査するために,人間ユーザを対象に実験を行った。 ニュース記事のカテゴリ別に偽ニュース・実ニュース検出タスクに関連する神経活動を分析する。 以上の結果から,人間の脳が偽ニュースと偽ニュースの処理方法に統計的に有意な差は見られず,また,偽ニュースと偽ニュースの間にも有意差がみられた。 この神経認知的発見は、フェイクニュース攻撃に対するユーザーの感受性を正当化するのに役立つ可能性がある。 言い換えれば、偽ニュース記事は、行動と神経の両方の領域における実際のニュース記事とほとんど区別できないように思える。 我々の研究は、フェイクニュース攻撃の基礎となる神経現象を解明し、人間の生物学の限界を通じて、これらの攻撃に対するユーザーの感受性を説明するのに役立ちます。 これは、偽ニュースの人間検出が効果的でない可能性を示唆する研究者や実践者にとって注目すべき洞察であり、トレーニングモデルを構築するために、テキスト記事の人間のラベル付けに依存する自動検出アプローチの設計に悪影響を及ぼす可能性がある。

The spread of digital disinformation (aka "fake news") is arguably one of the most significant threats on the Internet which can cause individual and societal harm of large scales. The susceptibility to fake news attacks hinges on whether Internet users perceive a fake news article/snippet to be legitimate after reading it. In this paper, we attempt to garner an in-depth understanding of users' susceptibility to text-centric fake news attacks via a neuro-cognitive methodology. We investigate the neural underpinnings relevant to fake/real news through EEG. We run an experiment with human users to pursue a thorough investigation of users' perception and cognitive processing of fake/real news. We analyze the neural activity associated with the fake/real news detection task for different categories of news articles. Our results show there may be no statistically significant or automatically inferable differences in the way the human brain processes the fake vs. real news, while marked differences are observed when people are subject to (real/fake) news vs. resting state and even between some different categories of fake news. This neuro-cognitive finding may help to justify users' susceptibility to fake news attacks, as also confirmed from the behavioral analysis. In other words, the fake news articles may seem almost indistinguishable from the real news articles in both behavioral and neural domains. Our work serves to dissect the fundamental neural phenomena underlying fake news attacks and explains users' susceptibility to these attacks through the limits of human biology. We believe this could be a notable insight for the researchers and practitioners suggesting the human detection of fake news might be ineffective, which may also have an adverse impact on the design of automated detection approaches that crucially rely upon human labeling of text articles for building training models
翻訳日:2022-07-20 00:01:49 公開日:2022-07-18
# (参考訳) tokenmix:視覚トランスフォーマーのデータ拡張のための画像混合再考

TokenMix: Rethinking Image Mixing for Data Augmentation in Vision Transformers ( http://arxiv.org/abs/2207.08409v1 )

ライセンス: CC BY 4.0
Jihao Liu and Boxiao Liu and Hang Zhou and Hongsheng Li and Yu Liu(参考訳) cutmixは、現代の畳み込みおよびトランスフォーマービジョンネットワークの訓練に一般的に使用される拡張技術である。 元々は、CNN(Convolution Neural Networks)がローカル情報ではなく、画像のグローバルコンテキストにもっと焦点を合わせるように設計されており、CNNのパフォーマンスを大幅に改善している。 しかし,グローバルな受容領域を持つトランスフォーマーベースのアーキテクチャには,限られたメリットがあることがわかった。 本稿では,視覚トランスフォーマーの性能を向上させるための新しいデータ拡張技術であるtokenmixを提案する。 tokenmixは、混合領域を複数の分離部分に分割することにより、トークンレベルで2つのイメージを混合する。 さらに,一対の基底真理ラベルの線形結合である cutmix の混合学習目標が不正確であり,時には直観に反することもあることを示した。 より適当な目標を得るために,事前学習した教師モデルから2つの画像の内容に基づく神経活性化マップに基づいて目標スコアを割り当てる手法を提案する。 様々な視覚変換器アーキテクチャに関する多くの実験により、提案したTokenMixは、視覚変換器が前景領域に集中してクラスを推論し、一貫した性能向上を図っている。 特に,DeiT-T/S/Bを+1% ImageNet Top-1精度で改善する。 さらに、TokenMixはより長いトレーニングを楽しみ、400エポックでトレーニングされたDeiT-SでImageNetで81.2%のトップ-1の精度を達成した。 コードはhttps://github.com/Sense-X/TokenMix.comで入手できる。

CutMix is a popular augmentation technique commonly used for training modern convolutional and transformer vision networks. It was originally designed to encourage Convolution Neural Networks (CNNs) to focus more on an image's global context instead of local information, which greatly improves the performance of CNNs. However, we found it to have limited benefits for transformer-based architectures that naturally have a global receptive field. In this paper, we propose a novel data augmentation technique TokenMix to improve the performance of vision transformers. TokenMix mixes two images at token level via partitioning the mixing region into multiple separated parts. Besides, we show that the mixed learning target in CutMix, a linear combination of a pair of the ground truth labels, might be inaccurate and sometimes counter-intuitive. To obtain a more suitable target, we propose to assign the target score according to the content-based neural activation maps of the two images from a pre-trained teacher model, which does not need to have high performance. With plenty of experiments on various vision transformer architectures, we show that our proposed TokenMix helps vision transformers focus on the foreground area to infer the classes and enhances their robustness to occlusion, with consistent performance gains. Notably, we improve DeiT-T/S/B with +1% ImageNet top-1 accuracy. Besides, TokenMix enjoys longer training, which achieves 81.2% top-1 accuracy on ImageNet with DeiT-S trained for 400 epochs. Code is available at https://github.com/Sense-X/TokenMix.
翻訳日:2022-07-19 23:40:25 公開日:2022-07-18
# (参考訳) 加速MRI再建のためのk空間サンプリングパターンを考慮したマルチヘッドカスケードスイム変換器

Multi-head Cascaded Swin Transformers with Attention to k-space Sampling Pattern for Accelerated MRI Reconstruction ( http://arxiv.org/abs/2207.08412v1 )

ライセンス: CC BY 4.0
Mevan Ekanayake, Kamlesh Pawar, Mehrtash Harandi, Gary Egan, Zhaolin Chen(参考訳) グローバルな相関関係は、組織と骨間の類似性により、ヒトの解剖学的構造に広く見られる。 これらの相関は、近接距離プロトン密度とT1/T2パラメータの結果、MRIスキャンで反映される。 さらに、加速MRIを実現するため、k空間データはアンサンプされ、グローバルエイリアスアーティファクトを引き起こす。 畳み込みニューラルネットワーク(CNN)モデルはMRI再生の高速化に広く利用されているが、畳み込み動作の内在的局所性に起因する大域的相関を捉えることに制限されている。 自己注意型トランスモデルは画像特徴間の大域的相関を捉えることができるが、MRI再構成のためのトランスモデルの現在の貢献は微小である。 既存の貢献は主にcnn-transformerハイブリッドソリューションを提供し、mriの物理をほとんど活用しない。 本稿では,mriの高速化を目的としたマルチヘッドカスケードスウィントランス(mcstra)という,物理ベースのスタンドアロン(畳み込みフリー)トランスフォーマーモデルを提案する。 McSTRA combines several interconnected MRI physics-related concepts with the transformer networks: it exploits global MR features via the shifted window self-attention mechanism; it extracts MR features belonging to different spectral components separately using a multi-head setup; it iterates between intermediate de-aliasing and k-space correction via a cascaded network with data consistency in k-space and intermediate loss computations; furthermore, we propose a novel positional embedding generation mechanism to guide self-attention utilizing the point spread function corresponding to the undersampling mask. 本モデルは,画像上および定量的にmri再構成法を著しく上回り,分解能の向上とエイリアスアーティファクトの除去を図示する。

Global correlations are widely seen in human anatomical structures due to similarity across tissues and bones. These correlations are reflected in magnetic resonance imaging (MRI) scans as a result of close-range proton density and T1/T2 parameter. Furthermore, to achieve accelerated MRI, k-space data are undersampled which causes global aliasing artifacts. Convolutional neural network (CNN) models are widely utilized for accelerated MRI reconstruction, but those models are limited in capturing global correlations due to the intrinsic locality of the convolution operation. The self-attention-based transformer models are capable of capturing global correlations among image features, however, the current contributions of transformer models for MRI reconstruction are minute. The existing contributions mostly provide CNN-transformer hybrid solutions and rarely leverage the physics of MRI. In this paper, we propose a physics-based stand-alone (convolution free) transformer model titled, the Multi-head Cascaded Swin Transformers (McSTRA) for accelerated MRI reconstruction. McSTRA combines several interconnected MRI physics-related concepts with the transformer networks: it exploits global MR features via the shifted window self-attention mechanism; it extracts MR features belonging to different spectral components separately using a multi-head setup; it iterates between intermediate de-aliasing and k-space correction via a cascaded network with data consistency in k-space and intermediate loss computations; furthermore, we propose a novel positional embedding generation mechanism to guide self-attention utilizing the point spread function corresponding to the undersampling mask. Our model significantly outperforms state-of-the-art MRI reconstruction methods both visually and quantitatively while depicting improved resolution and removal of aliasing artifacts.
翻訳日:2022-07-19 23:11:42 公開日:2022-07-18
# (参考訳) sum-product network による外れた説明

Outlier Explanation via Sum-Product Networks ( http://arxiv.org/abs/2207.08414v1 )

ライセンス: CC BY 4.0
Stefan L\"udtke, Christian Bartelt, Heiner Stuckenschmidt(参考訳) 外部説明は、サンプルと通常のデータとを区別する一連の特徴を識別するタスクであり、それは下流(人間)の意思決定において重要である。 既存の手法は特徴部分集合の空間におけるビーム探索に基づいている。 機能サブセットごとにスクラッチから異常検出アルゴリズムを実行する必要があるため、それらはすぐに計算コストが高くなる。 この問題を軽減するために,確率回路のクラスである Sum-Product Networks (SPNs) に基づく新しい外乱解析アルゴリズムを提案する。 提案手法は,SPNにおける限界推定のトラクタビリティを活用し,特徴部分集合における外乱スコアを計算する。 spnを使用することで、通常の前方ビーム探索の代わりに後方除算を行うことが実現可能となり、特に特徴数が大きければ、説明における関連する特徴の欠如の影響を受けにくくなる。 提案手法は,最近の検索法とディープラーニングに基づく説明法に勝るものの,外乱説明のための最先端の成果を実証的に示す。

Outlier explanation is the task of identifying a set of features that distinguish a sample from normal data, which is important for downstream (human) decision-making. Existing methods are based on beam search in the space of feature subsets. They quickly becomes computationally expensive, as they require to run an outlier detection algorithm from scratch for each feature subset. To alleviate this problem, we propose a novel outlier explanation algorithm based on Sum-Product Networks (SPNs), a class of probabilistic circuits. Our approach leverages the tractability of marginal inference in SPNs to compute outlier scores in feature subsets. By using SPNs, it becomes feasible to perform backwards elimination instead of the usual forward beam search, which is less susceptible to missing relevant features in an explanation, especially when the number of features is large. We empirically show that our approach achieves state-of-the-art results for outlier explanation, outperforming recent search-based as well as deep learning-based explanation methods
翻訳日:2022-07-19 22:45:04 公開日:2022-07-18
# (参考訳) コントラスト表現学習を用いたリアルタイムエンド・ツー・エンドビデオテキストスポッター

Real-time End-to-End Video Text Spotter with Contrastive Representation Learning ( http://arxiv.org/abs/2207.08417v1 )

ライセンス: CC BY 4.0
Wejia Wu, Zhuang Li, Jiahong Li, Chunhua Shen, Hong Zhou, Size Li, Zhongyuan Wang, and Ping Luo(参考訳) ビデオテキストスポッティング(VTS)は、ビデオ中のテキストを検出し、追跡し、認識するタスクである。 既存のビデオテキストスポッティング手法は通常、洗練されたパイプラインと複数のモデルを開発する。 本稿では,Contrastive Representation Learning (CoText) を用いたリアルタイムビデオテキストスポッターを提案する。 私たちの貢献は3倍です。 1) CoTextは、リアルタイムエンドツーエンドのトレーニング可能なフレームワークで3つのタスク(テキスト検出、トラッキング、認識など)を同時に処理する。 2) コントラスト学習では,CoTextは長距離依存をモデル化し,時間的情報を複数のフレームにわたって学習する。 3) シンプルで軽量なアーキテクチャは,GPU並列検出後処理,CTCベースの認識ヘッド,Masked RoIなど,効率的かつ正確なパフォーマンスを実現するように設計されている。 大規模な実験により,本手法の優位性を示した。 特に、CoText は ICDAR2015 video で IDF1 を 72.0% の 41.0 FPS で検出し、10.5% と 32.0 FPS を改良した。 コードはgithub.com/weijiawu/CoTextで見ることができる。

Video text spotting(VTS) is the task that requires simultaneously detecting, tracking and recognizing text in the video. Existing video text spotting methods typically develop sophisticated pipelines and multiple models, which is not friend for real-time applications. Here we propose a real-time end-to-end video text spotter with Contrastive Representation learning (CoText). Our contributions are three-fold: 1) CoText simultaneously address the three tasks (e.g., text detection, tracking, recognition) in a real-time end-to-end trainable framework. 2) With contrastive learning, CoText models long-range dependencies and learning temporal information across multiple frames. 3) A simple, lightweight architecture is designed for effective and accurate performance, including GPU-parallel detection post-processing, CTC-based recognition head with Masked RoI. Extensive experiments show the superiority of our method. Especially, CoText achieves an video text spotting IDF1 of 72.0% at 41.0 FPS on ICDAR2015video, with 10.5% and 32.0 FPS improvement the previous best method. The code can be found at github.com/weijiawu/CoText.
翻訳日:2022-07-19 22:30:54 公開日:2022-07-18
# (参考訳) コントラストとクラスタリングによるオープンワールドセマンティックセマンティックセグメンテーション

Open-world Semantic Segmentation via Contrasting and Clustering Vision-Language Embedding ( http://arxiv.org/abs/2207.08455v1 )

ライセンス: CC BY 4.0
Quande Liu, Youpeng Wen, Jianhua Han, Chunjing Xu, Hang Xu, Xiaodan Liang(参考訳) 教師付きセマンティックセグメンテーションと、任意の新しい概念を認識するための1つのモデルを取得する実世界のアプリケーションとのギャップを埋めるために、最近のゼロショットセグメンテーションは、見当たらないオブジェクトのカテゴリ間の関係を探求することで、多くの注目を集めている。 本稿では,インターネット上に自然に存在する画像取得データを純粋に活用することにより,様々なオープンワールドカテゴリのセマンティクスオブジェクトを,密接なアノテーションを使わずにセグメント化することを初めて試みる,新しいオープンワールドセマンティクスセグメンテーションパイプラインを提案する。 視覚言語駆動セマンティックセマンティックセマンティックセマンティクス(ViL-Seg)は画像とテキストエンコーダを用いて、画像キャプチャーデータに対する視覚的およびテキストエンコーダを生成し、そのセマンティクス能力を実現する2つのコアコンポーネントを備える: まず、画像エンコーダは視覚ベースのコントラストとクロスモーダルコントラストで共同で訓練され、視覚埋め込みがセマンティクスに不可欠な細粒度セマンティクスと高レベルカテゴリ情報の両方を保存することを奨励する。 さらに、画像エンコーダ上にオンラインクラスタリングヘッドを設計し、視覚的な埋め込みを異なるセマンティックグループに動的に分割し、様々なテキスト埋め込みと比較してセグメント化パイプラインを完了させることで分類することができる。 提案手法は,高密度アノテーションを使用せずに任意のカテゴリのオブジェクトを直接分割し,3つのベンチマークデータセット上でデータのラベル付けを必要とするゼロショットセグメンテーション法より優れていることを示す。

To bridge the gap between supervised semantic segmentation and real-world applications that acquires one model to recognize arbitrary new concepts, recent zero-shot segmentation attracts a lot of attention by exploring the relationships between unseen and seen object categories, yet requiring large amounts of densely-annotated data with diverse base classes. In this paper, we propose a new open-world semantic segmentation pipeline that makes the first attempt to learn to segment semantic objects of various open-world categories without any efforts on dense annotations, by purely exploiting the image-caption data that naturally exist on the Internet. Our method, Vision-language-driven Semantic Segmentation (ViL-Seg), employs an image and a text encoder to generate visual and text embeddings for the image-caption data, with two core components that endow its segmentation ability: First, the image encoder is jointly trained with a vision-based contrasting and a cross-modal contrasting, which encourage the visual embeddings to preserve both fine-grained semantics and high-level category information that are crucial for the segmentation task. Furthermore, an online clustering head is devised over the image encoder, which allows to dynamically segment the visual embeddings into distinct semantic groups such that they can be classified by comparing with various text embeddings to complete our segmentation pipeline. Experiments show that without using any data with dense annotations, our method can directly segment objects of arbitrary categories, outperforming zero-shot segmentation methods that require data labeling on three benchmark datasets.
翻訳日:2022-07-19 22:13:13 公開日:2022-07-18
# (参考訳) 因果発見のためのメタ強化学習アルゴリズム

A Meta-Reinforcement Learning Algorithm for Causal Discovery ( http://arxiv.org/abs/2207.08457v1 )

ライセンス: CC BY-SA 4.0
Andreas Sauter and Erman Acar and Vincent Fran\c{c}ois-Lavet(参考訳) 因果構造は、モデルが純粋な相関ベースの推論を超えて、パフォーマンスを大幅に向上させることができるため、機械学習にとって最も重要なタスクである。 しかし、データから因果構造を見つけることは計算の労力と正確性の両方において大きな課題となる。 本稿では,明示的な因果グラフを構築するための介入を学習することで因果発見を行うメタ強化学習アルゴリズムを開発した。 ダウンストリームアプリケーションに有用であるだけでなく、推定因果グラフはデータ生成プロセスの説明も提供する。 本稿では,従来の因果構造が見えない環境においても,我々のアルゴリズムがSOTAアプローチと比較してよいグラフを推定していることを示す。 さらに,学習介入がアプローチ全体のパフォーマンスにどのように寄与するかを示すアブレーション研究を行った。 我々は、介入は性能の向上に役立ち、潜在的に目に見えない環境の因果構造を正確に推定できると結論づける。

Causal discovery is a major task with the utmost importance for machine learning since causal structures can enable models to go beyond pure correlation-based inference and significantly boost their performance. However, finding causal structures from data poses a significant challenge both in computational effort and accuracy, let alone its impossibility without interventions in general. In this paper, we develop a meta-reinforcement learning algorithm that performs causal discovery by learning to perform interventions such that it can construct an explicit causal graph. Apart from being useful for possible downstream applications, the estimated causal graph also provides an explanation for the data-generating process. In this article, we show that our algorithm estimates a good graph compared to the SOTA approaches, even in environments whose underlying causal structure is previously unseen. Further, we make an ablation study that shows how learning interventions contribute to the overall performance of our approach. We conclude that interventions indeed help boost the performance, efficiently yielding an accurate estimate of the causal structure of a possibly unseen environment.
翻訳日:2022-07-19 21:55:13 公開日:2022-07-18
# (参考訳) 都市機能認識のための多次元地理空間特徴学習

Multi-dimension Geospatial feature learning for urban region function recognition ( http://arxiv.org/abs/2207.08461v1 )

ライセンス: CC BY 4.0
Wenjia Xu, Jiuniu Wang, Yirong Wu(参考訳) 都市部の機能認識は、限られた都市部の監視と管理において重要な役割を担っている。 都市機能は複雑で社会経済的な性質に満ちているため、物理的および光学的情報を備えたリモートセンシング(rs)画像を使うだけでは分類タスクを完全には解決できない。 一方、モバイル通信とインターネットの発展に伴い、地理空間ビッグデータ~(GBD)の取得が可能となる。 本稿では,都市部機能認識のための高次元GBDデータとRS画像を組み合わせた多次元特徴学習モデル~(MDFL)を提案する。 本モデルでは,多次元特徴を抽出する際,その活動にモデル化されたユーザ関連情報と,領域グラフから抽象化された領域ベース情報について検討する。 さらに、複数のニューラルネットワークと機械学習分類器からの決定を統合する決定融合ネットワークを提案し、最終的な決定は、RS画像からの視覚的キューとGBDデータからの社会的情報の両方を考慮したものである。 定量的評価により,本モデルが全体の精度を92.75で達成し,その10%を上回った。

Urban region function recognition plays a vital character in monitoring and managing the limited urban areas. Since urban functions are complex and full of social-economic properties, simply using remote sensing~(RS) images equipped with physical and optical information cannot completely solve the classification task. On the other hand, with the development of mobile communication and the internet, the acquisition of geospatial big data~(GBD) becomes possible. In this paper, we propose a Multi-dimension Feature Learning Model~(MDFL) using high-dimensional GBD data in conjunction with RS images for urban region function recognition. When extracting multi-dimension features, our model considers the user-related information modeled by their activity, as well as the region-based information abstracted from the region graph. Furthermore, we propose a decision fusion network that integrates the decisions from several neural networks and machine learning classifiers, and the final decision is made considering both the visual cue from the RS images and the social information from the GBD data. Through quantitative evaluation, we demonstrate that our model achieves overall accuracy at 92.75, outperforming the state-of-the-art by 10 percent.
翻訳日:2022-07-19 21:43:28 公開日:2022-07-18
# (参考訳) NLPとMLを組み合わせた攻撃者のTTPの自動分類に向けて

Towards Automated Classification of Attackers' TTPs by combining NLP with ML Techniques ( http://arxiv.org/abs/2207.08478v1 )

ライセンス: CC BY 4.0
Clemens Sauerwein and Alexander Pfohl(参考訳) サイバー攻撃が広がるスピードとともに、ますます洗練され、ますます増加する脅威のアクターは、組織のセキュリティに欠かせない攻撃のタイムリーな識別を可能にします。 その結果、セキュリティ担当者は、出現する攻撃、攻撃者の行動方針、妥協の指標に関する様々な情報ソースを雇用している。 しかし、必要なセキュリティ情報は非構造化テキスト形式で利用可能であり、攻撃者の戦術、技術、手順(ttps)の自動化とタイムリーな抽出を複雑にしている。 この問題に対処するために,我々は,異なる自然言語処理(nlp)と,セキュリティ情報抽出に用いる機械学習手法を体系的に評価・比較した。 本研究では,攻撃者の戦術や手法に基づいて非構造化テキストを自動的に分類するデータ処理パイプラインを提案する。

The increasingly sophisticated and growing number of threat actors along with the sheer speed at which cyber attacks unfold, make timely identification of attacks imperative to an organisations' security. Consequently, persons responsible for security employ a large variety of information sources concerning emerging attacks, attackers' course of actions or indicators of compromise. However, a vast amount of the needed security information is available in unstructured textual form, which complicates the automated and timely extraction of attackers' Tactics, Techniques and Procedures (TTPs). In order to address this problem we systematically evaluate and compare different Natural Language Processing (NLP) and machine learning techniques used for security information extraction in research. Based on our investigations we propose a data processing pipeline that automatically classifies unstructured text according to attackers' tactics and techniques derived from a knowledge base of adversary tactics, techniques and procedures.
翻訳日:2022-07-19 21:33:58 公開日:2022-07-18
# (参考訳) HiFormer: 医療画像分割のためのトランスフォーマーを用いた階層的マルチスケール表現

HiFormer: Hierarchical Multi-scale Representations Using Transformers for Medical Image Segmentation ( http://arxiv.org/abs/2207.08518v1 )

ライセンス: CC BY 4.0
Moein Heidari, Amirhossein Kazerouni, Milad Soltany, Reza Azad, Ehsan Khodapanah Aghdam, Julien Cohen-Adad, Dorit Merhof(参考訳) 畳み込みニューラルネットワーク(cnns)は、医療画像分割タスクのコンセンサスとなっている。 しかし、畳み込み操作の性質から、長距離依存と空間的相関をモデル化する際の制限に悩まされる。 この問題に最初に対処するためにトランスフォーマーが開発されたが、低レベルの特徴を捉えられなかった。 対照的に,局所的特徴と大域的特徴の両方が,難しい文脈におけるセグメント化など,密集した予測に不可欠であることを実証した。 本稿では,医用画像分割のためのCNNとトランスフォーマーを効率的にブリッジする新しい手法であるHiFormerを提案する。 具体的には、Swin TransformerモジュールとCNNベースのエンコーダを用いて、2つのマルチスケール特徴表現を設計する。 上記の2つの表現から得られる大域的特徴と局所的特徴の微細融合を確保するために,エンコーダ・デコーダ構造のスキップ接続における二重レベル融合(DLF)モジュールを提案する。 様々な医用画像セグメンテーションデータセットに対する大規模な実験は、計算複雑性と定量的および定性的な結果の観点から、他のCNNベース、トランスフォーマーベース、ハイブリッド手法に対するHiFormerの有効性を示す。 私たちのコードは、https://github.com/amirhossein-kz/HiFormerで公開されています。

Convolutional neural networks (CNNs) have been the consensus for medical image segmentation tasks. However, they suffer from the limitation in modeling long-range dependencies and spatial correlations due to the nature of convolution operation. Although transformers were first developed to address this issue, they fail to capture low-level features. In contrast, it is demonstrated that both local and global features are crucial for dense prediction, such as segmenting in challenging contexts. In this paper, we propose HiFormer, a novel method that efficiently bridges a CNN and a transformer for medical image segmentation. Specifically, we design two multi-scale feature representations using the seminal Swin Transformer module and a CNN-based encoder. To secure a fine fusion of global and local features obtained from the two aforementioned representations, we propose a Double-Level Fusion (DLF) module in the skip connection of the encoder-decoder structure. Extensive experiments on various medical image segmentation datasets demonstrate the effectiveness of HiFormer over other CNN-based, transformer-based, and hybrid methods in terms of computational complexity, and quantitative and qualitative results. Our code is publicly available at: https://github.com/amirhossein-kz/HiFormer
翻訳日:2022-07-19 21:17:35 公開日:2022-07-18
# (参考訳) GATE: 語彙分類と回帰のためのGated Additive Tree Ensemble

GATE: Gated Additive Tree Ensemble for Tabular Classification and Regression ( http://arxiv.org/abs/2207.08548v1 )

ライセンス: CC BY 4.0
Manu Joseph, Harsh Raj(参考訳) 本稿では,グラフデータのための新しい高性能,パラメータ,計算効率の高いディープラーニングアーキテクチャ,Gated Additive Tree Ensemble(GATE)を提案する。 GATEはGRUにインスパイアされたゲーティングメカニズムを、内蔵された特徴選択機構を備えた特徴表現学習ユニットとして使用している。 これを微分可能で非線形な決定木のアンサンブルと組み合わせ、望ましいアウトプットを予測するために単純な自己拘束で再重み付けします。 GATEは、いくつかの公開データセット(分類と回帰の両方)の実験により、GBDT、NODE、FT変換器などのSOTAアプローチの競合代替手段であることを示した。 レビューが終わったら、コードはすぐにアップロードされる。

We propose a novel high-performance, parameter and computationally efficient deep learning architecture for tabular data, Gated Additive Tree Ensemble(GATE). GATE uses a gating mechanism, inspired from GRU, as a feature representation learning unit with an in-built feature selection mechanism. We combine it with an ensemble of differentiable, non-linear decision trees, re-weighted with simple self-attention to predict our desired output. We demonstrate that GATE is a competitive alternative to SOTA approaches like GBDTs, NODE, FT Transformers, etc. by experiments on several public datasets (both classification and regression). The code will be uploaded as soon as the paper comes out of review.
翻訳日:2022-07-19 21:00:14 公開日:2022-07-18
# (参考訳) クラスインクリメンタルな新しいクラス発見

Class-incremental Novel Class Discovery ( http://arxiv.org/abs/2207.08605v1 )

ライセンス: CC BY 4.0
Subhankar Roy, Mingxuan Liu, Zhun Zhong, Nicu Sebe, Elisa Ricci(参考訳) 本研究は,無意味な関連カテゴリを含むラベル付きデータセット上で学習された事前学習モデルを用いて,ラベル付きデータセット内の新しいカテゴリを探索する問題を指すクラスインクリメンタルな新クラス発見(class-incd)の新たな課題について検討する。 新たなクラスを発見できるだけでなく,これまでに見られたベースカテゴリの認識能力の確保も目指している。 本稿では,リハーサル型インクリメンタル学習法に着想を得て,基本クラス特徴プロトタイプと機能レベルの知識蒸留を共同で活用することにより,基礎クラスに関する過去の情報を忘れないようにする新しいアプローチを提案する。 また、新たなカテゴリを同時にクラスタリングし、ベースクラスと新規クラスの両方で共同分類器を訓練する自己学習クラスタリング戦略を提案する。 これにより、私たちのメソッドはクラスインクリメンタルな設定で操作できます。 3つの共通ベンチマークで実施した実験により,本手法が最先端の手法を著しく上回ることを示した。 コードはhttps://github.com/OatmealLiu/class-iNCDで入手できる。

We study the new task of class-incremental Novel Class Discovery (class-iNCD), which refers to the problem of discovering novel categories in an unlabelled data set by leveraging a pre-trained model that has been trained on a labelled data set containing disjoint yet related categories. Apart from discovering novel classes, we also aim at preserving the ability of the model to recognize previously seen base categories. Inspired by rehearsal-based incremental learning methods, in this paper we propose a novel approach for class-iNCD which prevents forgetting of past information about the base classes by jointly exploiting base class feature prototypes and feature-level knowledge distillation. We also propose a self-training clustering strategy that simultaneously clusters novel categories and trains a joint classifier for both the base and novel classes. This makes our method able to operate in a class-incremental setting. Our experiments, conducted on three common benchmarks, demonstrate that our method significantly outperforms state-of-the-art approaches. Code is available at https://github.com/OatmealLiu/class-iNCD
翻訳日:2022-07-19 20:41:15 公開日:2022-07-18
# (参考訳) 脳波と筋電図を用いた上肢運動認識によるリハビリテーションロボティクス

Upper Limb Movement Recognition utilising EEG and EMG Signals for Rehabilitative Robotics ( http://arxiv.org/abs/2207.08650v1 )

ライセンス: CC BY 4.0
Wang Zihao(参考訳) 入力信号を対象の活動にマッピングする上肢運動分類は、リハビリテーションロボットの制御において重要な領域の1つである。 分類器は、上肢が正常に機能しない患者の欲求を理解するためのリハビリテーションシステムのために訓練される。 上肢運動分類では筋電図(EMG)信号と脳電図(EEG)信号が広く用いられている。 リアルタイム脳波とEMG信号の分類結果を解析することにより、ユーザの意図を理解し、実行したいイベントを予測することができる。 そのため、ユーザに対して、アクティビティの実行を支援する外部ヘルプを提供する。 しかし,騒音環境下では,脳波や筋電図を処理できるわけではない。 リアルタイムデータ収集プロセスのノイズは、データの有効性を汚染する。 さらに、すべての患者が筋損傷と神経筋疾患による強い筋電図信号を処理しているわけではない。 これらの課題に対処するために,我々は新しい意思決定レベルのマルチセンサ融合技術を提案する。 要するに、脳波信号をEMG信号と統合し、両方の情報源から効果的な情報を取得し、ユーザの欲求を理解し予測し、支援を提供する。 脳波とEMG信号が同時に記録されたWAY-EEG-GALデータセット上で提案手法を試験することにより,新規システムの実現可能性と有効性について検証する。

Upper limb movement classification, which maps input signals to the target activities, is one of the crucial areas in the control of rehabilitative robotics. Classifiers are trained for the rehabilitative system to comprehend the desires of the patient whose upper limbs do not function properly. Electromyography (EMG) signals and Electroencephalography (EEG) signals are used widely for upper limb movement classification. By analysing the classification results of the real-time EEG and EMG signals, the system can understand the intention of the user and predict the events that one would like to carry out. Accordingly, it will provide external help to the user to assist one to perform the activities. However, not all users process effective EEG and EMG signals due to the noisy environment. The noise in the real-time data collection process contaminates the effectiveness of the data. Moreover, not all patients process strong EMG signals due to muscle damage and neuromuscular disorder. To address these issues, we would like to propose a novel decision-level multisensor fusion technique. In short, the system will integrate EEG signals with EMG signals, retrieve effective information from both sources to understand and predict the desire of the user, and thus provide assistance. By testing out the proposed technique on a publicly available WAY-EEG-GAL dataset, which contains EEG and EMG signals that were recorded simultaneously, we manage to conclude the feasibility and effectiveness of the novel system.
翻訳日:2022-07-19 20:13:52 公開日:2022-07-18
# (参考訳) 軌跡予測のための行動に基づくコントラスト学習

Action-based Contrastive Learning for Trajectory Prediction ( http://arxiv.org/abs/2207.08664v1 )

ライセンス: CC BY 4.0
Marah Halawa, Olaf Hellwich, Pia Bideau(参考訳) 軌道予測は、自律運転など、人間のロボットのインタラクションを成功させる上で不可欠なタスクである。 本研究では,移動カメラを用いたファースト・パーソン・ビュー・セッティングにおける将来の歩行者軌跡予測の問題に対処する。 そこで本研究では,歩行者行動情報を用いて学習軌跡埋め込みを改善する新しい行動ベースのコントラスト学習損失を提案する。 この新たな損失の背後にある基本的な考え方は、同じ行動を行う歩行者の軌跡が、全く異なる行動を持つ歩行者の軌跡よりも、特徴空間内で互いに近づくべきだというものである。 言い換えれば、歩行者行動に関する行動情報は将来の軌跡に影響を及ぼす。 さらに, 負および正のコントラストサンプルを効果的に増やすことができるトラジェクタのための新しいサンプリング戦略を提案する。 追加の合成軌道サンプルは、軌道予測のために開発されたいくつかのモデルのコアである条件変分オートエンコーダ(CVAE)を用いて生成される。 その結果,提案するコントラストフレームワークは歩行者行動,すなわち行動に関する文脈情報を効果的に活用し,より優れた軌道表現を学習できることがわかった。 そこで,提案手法をトラジェクティブ予測モデルに組み込むことで,結果が改善され,3つのトラジェクトリ予測ベンチマーク [31, 32, 26] における最先端手法よりも優れる。

Trajectory prediction is an essential task for successful human robot interaction, such as in autonomous driving. In this work, we address the problem of predicting future pedestrian trajectories in a first person view setting with a moving camera. To that end, we propose a novel action-based contrastive learning loss, that utilizes pedestrian action information to improve the learned trajectory embeddings. The fundamental idea behind this new loss is that trajectories of pedestrians performing the same action should be closer to each other in the feature space than the trajectories of pedestrians with significantly different actions. In other words, we argue that behavioral information about pedestrian action influences their future trajectory. Furthermore, we introduce a novel sampling strategy for trajectories that is able to effectively increase negative and positive contrastive samples. Additional synthetic trajectory samples are generated using a trained Conditional Variational Autoencoder (CVAE), which is at the core of several models developed for trajectory prediction. Results show that our proposed contrastive framework employs contextual information about pedestrian behavior, i.e. action, effectively, and it learns a better trajectory representation. Thus, integrating the proposed contrastive framework within a trajectory prediction model improves its results and outperforms state-of-the-art methods on three trajectory prediction benchmarks [31, 32, 26].
翻訳日:2022-07-19 19:56:56 公開日:2022-07-18
# (参考訳) 制約付きシステムの微分可能解法学習

Learning differentiable solvers for systems with hard constraints ( http://arxiv.org/abs/2207.08675v1 )

ライセンス: CC BY 4.0
Geoffrey N\'egiar, Michael W. Mahoney, Aditi S. Krishnapriyan(参考訳) 本稿では,ニューラルネットワーク(NN)が定義する関数に対する線形偏微分方程式(PDE)制約を,所望の許容範囲まで適用するための実用的な手法を提案する。 微分可能物理学の手法と暗黙関数定理のNNモデルへの応用を組み合わせることで、微分可能PDE制約NN層を開発する。 トレーニング中、我々のモデルは関数群を学習し、それぞれがPDEパラメータからPDEソリューションへのマッピングを定義する。 推論時には、PDE制約の最適化問題を解くことにより、学習家族における関数の最適線形結合を求める。 提案手法は,所望の物理的制約を正確に満たす関心領域に対する連続解を提供する。 その結果、NNアーキテクチャに直接ハード制約を組み込むことで、制約のない目的のトレーニングに比べてテストエラーがはるかに少ないことがわかった。

We introduce a practical method to enforce linear partial differential equation (PDE) constraints for functions defined by neural networks (NNs), up to a desired tolerance. By combining methods in differentiable physics and applications of the implicit function theorem to NN models, we develop a differentiable PDE-constrained NN layer. During training, our model learns a family of functions, each of which defines a mapping from PDE parameters to PDE solutions. At inference time, the model finds an optimal linear combination of the functions in the learned family by solving a PDE-constrained optimization problem. Our method provides continuous solutions over the domain of interest that exactly satisfy desired physical constraints. Our results show that incorporating hard constraints directly into the NN architecture achieves much lower test error, compared to training on an unconstrained objective.
翻訳日:2022-07-19 19:42:49 公開日:2022-07-18
# (参考訳) 連続手話認識のための時間的リフトプーリング

Temporal Lift Pooling for Continuous Sign Language Recognition ( http://arxiv.org/abs/2207.08734v1 )

ライセンス: CC BY 4.0
Lianyu Hu, Liqing Gao, Zekang Liu, Wei Feng(参考訳) プール法は、受容場を増加させ、計算コストを下げるために、現代のニューラルネットワークに必要なものである。 しかし、例えば、最大プールや平均プールといった手作りのプーリングアプローチは、差別的特徴を十分に保存していない。 多くの研究者は、これらの制限を多くの進歩で扱えるように、空間領域の様々なプール変種を精巧に設計してきたが、手作りの手法や特殊空間変種が最適でない場合、時間的側面はめったに見つからない。 本稿では,信号処理におけるLfting Schemeから時間的リフトプーリング(TLP)を導出し,時間的階層の異なる特徴をインテリジェントにサンプリングする。 Lifting Schemeは、入力信号を異なる周波数の様々なサブバンドに分解し、異なる時間移動パターンと見なすことができる。 tlpは,信号分解,成分重み付け,情報融合を行い,細分化した特徴マップを生成する3段階の手順である。 TLPの有効性を検証するために,連続手話認識(CSLR)という長いシーケンスを持つ典型的な時間的タスクをテストベッドとして選択する。 2つの大規模なデータセットの実験では、TLPは手作りの手法と、同様の計算オーバーヘッドを持つ大きなマージン(1.5%)で特殊空間の変種よりも優れていた。 頑健な特徴抽出器として、TLPは様々なデータセット上の複数のバックボーンに対して大きな一般化性を示し、2つの大規模CSLRデータセット上で新しい最先端の結果を達成する。 可視化は、光沢境界の補正におけるTLPのメカニズムをさらに示している。 コードはリリースされます。

Pooling methods are necessities for modern neural networks for increasing receptive fields and lowering down computational costs. However, commonly used hand-crafted pooling approaches, e.g., max pooling and average pooling, may not well preserve discriminative features. While many researchers have elaborately designed various pooling variants in spatial domain to handle these limitations with much progress, the temporal aspect is rarely visited where directly applying hand-crafted methods or these specialized spatial variants may not be optimal. In this paper, we derive temporal lift pooling (TLP) from the Lifting Scheme in signal processing to intelligently downsample features of different temporal hierarchies. The Lifting Scheme factorizes input signals into various sub-bands with different frequency, which can be viewed as different temporal movement patterns. Our TLP is a three-stage procedure, which performs signal decomposition, component weighting and information fusion to generate a refined downsized feature map. We select a typical temporal task with long sequences, i.e. continuous sign language recognition (CSLR), as our testbed to verify the effectiveness of TLP. Experiments on two large-scale datasets show TLP outperforms hand-crafted methods and specialized spatial variants by a large margin (1.5%) with similar computational overhead. As a robust feature extractor, TLP exhibits great generalizability upon multiple backbones on various datasets and achieves new state-of-the-art results on two large-scale CSLR datasets. Visualizations further demonstrate the mechanism of TLP in correcting gloss borders. Code is released.
翻訳日:2022-07-19 19:30:41 公開日:2022-07-18
# wPINNs: 双曲保存法則のエントロピー解を近似するための弱物理情報ニューラルネットワーク

wPINNs: Weak Physics informed neural networks for approximating entropy solutions of hyperbolic conservation laws ( http://arxiv.org/abs/2207.08483v1 )

ライセンス: Link先を確認
Tim De Ryck, Siddhartha Mishra and Roberto Molinaro(参考訳) 物理情報ニューラルネットワーク(PINN)は、正確な近似を保証するために基礎となるPDEの解の規則性を必要とする。 その結果、非線形双曲方程式のようなPDEの不連続解の近似に失敗する。 これを改善するために,スカラー保存法則のエントロピー解を正確に近似するために,弱PINN(wPINN)と呼ばれる新しいPINNを提案する。 wPINNは、Kruzkhovエントロピーで定義される残差に対するmin-max最適化問題の解を近似し、エントロピー解とテスト関数を近似するニューラルネットワークのパラメータを決定する。 我々は,wPINNによる誤差の厳密な境界を証明し,数値実験により,wPINNがエントロピー解を正確に近似できることを示す。

Physics informed neural networks (PINNs) require regularity of solutions of the underlying PDE to guarantee accurate approximation. Consequently, they may fail at approximating discontinuous solutions of PDEs such as nonlinear hyperbolic equations. To ameliorate this, we propose a novel variant of PINNs, termed as weak PINNs (wPINNs) for accurate approximation of entropy solutions of scalar conservation laws. wPINNs are based on approximating the solution of a min-max optimization problem for a residual, defined in terms of Kruzkhov entropies, to determine parameters for the neural networks approximating the entropy solution as well as test functions. We prove rigorous bounds on the error incurred by wPINNs and illustrate their performance through numerical experiments to demonstrate that wPINNs can approximate entropy solutions accurately.
翻訳日:2022-07-19 19:29:40 公開日:2022-07-18
# (参考訳) 袋入り木を用いた振幅シンチレーション予測

Amplitude Scintillation Forecasting Using Bagged Trees ( http://arxiv.org/abs/2207.08745v1 )

ライセンス: CC BY 4.0
Abdollah Masoud Darya, Aisha Abdulla Al-Owais, Muhammad Mubasshir Shaikh, Ilias Fernini(参考訳) 電離圏内に存在する電子密度の不規則性は、グローバルナビゲーション衛星システム(GNSS)の信号において大きな変動を引き起こす。 信号パワーのゆらぎは振幅シンチレーションと呼ばれ、S4インデックスを通して監視することができる。 過去のs4インデックスデータに基づく振幅シンチレーションの深刻度を予測することは、リアルタイムデータが利用できない場合に有益である。 本研究では,単一のgpsシンチレーション監視受信機からの履歴データを用いて機械学習モデル(ml)を訓練し,振幅シンチレーションの重大度(弱・中・重度)を時間的・空間的パラメータに予測する可能性について検討した。 6つの異なるmlモデルが評価され、バッグ入り木モデルが最も正確であり、バランスのとれたデータセットを使用して811\%$、バランスのとれたデータセットを使用して979\%$の予測精度を達成した。

Electron density irregularities present within the ionosphere induce significant fluctuations in global navigation satellite system (GNSS) signals. Fluctuations in signal power are referred to as amplitude scintillation and can be monitored through the S4 index. Forecasting the severity of amplitude scintillation based on historical S4 index data is beneficial when real-time data is unavailable. In this work, we study the possibility of using historical data from a single GPS scintillation monitoring receiver to train a machine learning (ML) model to forecast the severity of amplitude scintillation, either weak, moderate, or severe, with respect to temporal and spatial parameters. Six different ML models were evaluated and the bagged trees model was the most accurate among them, achieving a forecasting accuracy of $81\%$ using a balanced dataset, and $97\%$ using an imbalanced dataset.
翻訳日:2022-07-19 19:27:54 公開日:2022-07-18
# クライアント分散化と適応サーバ更新による非IIDデータのフェデレーション学習

Federated Learning for Non-IID Data via Client Variance Reduction and Adaptive Server Update ( http://arxiv.org/abs/2207.08391v1 )

ライセンス: Link先を確認
Hiep Nguyen, Lam Phan, Harikrishna Warrier and Yogesh Gupta(参考訳) Federated Learning(FL)は、ユーザデバイスにデータをローカライズしながら、グローバルな機械学習モデルを協調的にトレーニングするために使用される、新たなテクニックである。 FLの実践的実装の主な障害は、ユーザ間の非独立性および独立性(Non-IID)データ分散であり、コンバージェンスを遅くし、性能を低下させる。 そこで本研究では,クライアント側とサーバ側の両方において,トレーニングプロセス全体を強化する手法(comfed)を提案する。 ComFedの鍵となる考え方は、クライアント分散低減技術を同時に活用して、サーバアグリゲーションとグローバル適応更新技術を利用して学習を加速することである。 Cifar-10分類タスクの実験により,ComFedは非IIDデータ専用の最先端アルゴリズムを改良できることが示された。

Federated learning (FL) is an emerging technique used to collaboratively train a global machine learning model while keeping the data localized on the user devices. The main obstacle to FL's practical implementation is the Non-Independent and Identical (Non-IID) data distribution across users, which slows convergence and degrades performance. To tackle this fundamental issue, we propose a method (ComFed) that enhances the whole training process on both the client and server sides. The key idea of ComFed is to simultaneously utilize client-variance reduction techniques to facilitate server aggregation and global adaptive update techniques to accelerate learning. Our experiments on the Cifar-10 classification task show that ComFed can improve state-of-the-art algorithms dedicated to Non-IID data.
翻訳日:2022-07-19 19:19:01 公開日:2022-07-18
# マクロ配置に対するベイズ最適化

Bayesian Optimization for Macro Placement ( http://arxiv.org/abs/2207.08398v1 )

ライセンス: Link先を確認
Changyong Oh, Roberto Bondesan, Dana Kianfar, Rehan Ahmed, Rishubh Khurana, Payal Agarwal, Romain Lepert, Mysore Sriram, Max Welling(参考訳) マクロ配置は、メモリブロックをチップキャンバスに配置する問題である。 これは、マクロの相対位置を記述する表現であるシーケンスペア上の組合せ最適化問題として定式化することができる。 客観的関数の評価が高価であるため,この問題の解決は特に困難である。 本稿では,系列対上のベイズ最適化(BO)を用いた新しいマクロ配置法を提案する。 boは、確率的サロゲートモデルと探索と搾取のバランスをとり、ブラックボックスの目的関数を効率的に最適化する獲得関数を使用する機械学習技術である。 boは強化学習よりもサンプル効率が高いため、より現実的な目的に使用できる。 さらに、データから学習し、アルゴリズムを目的関数に適応させる能力により、BOは問題依存のヒューリスティックやパラメータチューニングに依存するシミュレートアニーリングのような他のブラックボックス最適化手法に代わる魅力的な選択肢となる。 我々は,固定アウトラインマクロ配置問題に対して,半周線長目標を用いてベンチマークを行い,競合性能を示す。

Macro placement is the problem of placing memory blocks on a chip canvas. It can be formulated as a combinatorial optimization problem over sequence pairs, a representation which describes the relative positions of macros. Solving this problem is particularly challenging since the objective function is expensive to evaluate. In this paper, we develop a novel approach to macro placement using Bayesian optimization (BO) over sequence pairs. BO is a machine learning technique that uses a probabilistic surrogate model and an acquisition function that balances exploration and exploitation to efficiently optimize a black-box objective function. BO is more sample-efficient than reinforcement learning and therefore can be used with more realistic objectives. Additionally, the ability to learn from data and adapt the algorithm to the objective function makes BO an appealing alternative to other black-box optimization methods such as simulated annealing, which relies on problem-dependent heuristics and parameter-tuning. We benchmark our algorithm on the fixed-outline macro placement problem with the half-perimeter wire length objective and demonstrate competitive performance.
翻訳日:2022-07-19 19:18:44 公開日:2022-07-18
# ベイズニューラルネットワークを用いた宇宙論におけるロバストシミュレーションに基づく推論

Robust Simulation-Based Inference in Cosmology with Bayesian Neural Networks ( http://arxiv.org/abs/2207.08435v1 )

ライセンス: Link先を確認
Pablo Lemos, Miles Cranmer, Muntazir Abidi, ChangHoon Hahn, Michael Eickenberg, Elena Massara, David Yallup, Shirley Ho(参考訳) シミュレーションベース推論(SBI)は、宇宙調査におけるデータ分析の標準機械学習技術として急速に確立しつつある。 学習モデルによる密度推定の質は継続的に改善されているが、そのような手法の実際のデータへの応用は、トレーニング分布から遠く離れたニューラルネットワークの一般化力に完全に依存している。 科学者によるシミュレーションの不完全さと、可能なパラメータの組み合わせを全て生成する膨大な計算コストのため、宇宙論におけるSBI法はそのような一般化問題に対して脆弱である。 本稿では,両問題の影響について考察し,sbiトレーニングのためのベイズ型ニューラルネットワークフレームワークを用いてバイアスを軽減し,トレーニングセット外の信頼性の高い推論を行う方法を示す。 宇宙生物学へのStochastic Weight Averagingの最初の応用であるcosmoSWAGを導入し、宇宙マイクロ波背景の推測のために訓練されたSBIに適用する。

Simulation-based inference (SBI) is rapidly establishing itself as a standard machine learning technique for analyzing data in cosmological surveys. Despite continual improvements to the quality of density estimation by learned models, applications of such techniques to real data are entirely reliant on the generalization power of neural networks far outside the training distribution, which is mostly unconstrained. Due to the imperfections in scientist-created simulations, and the large computational expense of generating all possible parameter combinations, SBI methods in cosmology are vulnerable to such generalization issues. Here, we discuss the effects of both issues, and show how using a Bayesian neural network framework for training SBI can mitigate biases, and result in more reliable inference outside the training set. We introduce cosmoSWAG, the first application of Stochastic Weight Averaging to cosmology, and apply it to SBI trained for inference on the cosmic microwave background.
翻訳日:2022-07-19 19:18:28 公開日:2022-07-18
# 医療用フェデレート学習における異常検出による中毒攻撃の検出--機械学習によるアプローチ

Detection of Poisoning Attacks with Anomaly Detection in Federated Learning for Healthcare Applications: A Machine Learning Approach ( http://arxiv.org/abs/2207.08486v1 )

ライセンス: Link先を確認
Ali Raza, Shujun Li, Kim-Phuc Tran, and Ludovic Koehl(参考訳) フェデレートラーニング(FL)の応用は、特に医療などのプライバシーに配慮したアプリケーションにおいて、着実に増加している。 しかし、その応用は、毒殺(モデルやデータ中毒)など、様々な敵攻撃によるセキュリティ上の懸念によって制限されている。 このような攻撃は、未解決の利益と悪意のある使用を得るために、ローカルモデルとデータを悪用してグローバルモデルを操作する。 中毒攻撃を緩和するための従来のデータ監査方法は、プライバシー上の懸念から、エッジデバイスが生データを直接共有しないため、flに制限されたアプリケーションを見つける。 その後、このような攻撃に対処するための適切な戦略を策定し、フェデレーション学習におけるグローバルモデルへの影響を最小限に抑えることが課題となる。 FLにおけるこのような課題に対処するため,我々は,ローカルエッジデバイスのトレーニングデータに直接アクセスや情報を取得することなく,ニューラルネットワークとベクターマシンによる毒物攻撃を検出する新しい枠組みを提案した。 本研究では,心電図分類と人的活動認識の2つの医療応用において,芸術中毒攻撃の異なる状況を用いて,提案手法を提示し,評価する。 実験により,本手法は毒性攻撃を効果的に検出し,グローバルアグリゲーションから検出された毒を除去できることが判明した。 その後、フェデレーション・グローバルのパフォーマンスを向上させることができる。

The application of Federated Learning (FL) is steadily increasing, especially in privacy-aware applications, such as healthcare. However, its applications have been limited by security concerns due to various adversarial attacks, such as poisoning attacks (model and data poisoning). Such attacks attempt to poison the local models and data to manipulate the global models in order to obtain undue benefits and malicious use. Traditional methods of data auditing to mitigate poisoning attacks find their limited applications in FL because the edge devices never share their raw data directly due to privacy concerns, and are globally distributed with no insight into their training data. Thereafter, it is challenging to develop appropriate strategies to address such attacks and minimize their impact on the global model in federated learning. In order to address such challenges in FL, we proposed a novel framework to detect poisoning attacks using deep neural networks and support vector machines, in the form of anomaly without acquiring any direct access or information about the underlying training data of local edge devices. We illustrate and evaluate the proposed framework using different state of art poisoning attacks for two different healthcare applications: Electrocardiograph classification and human activity recognition. Our experimental analysis shows that the proposed method can efficiently detect poisoning attacks and can remove the identified poisoned updated from the global aggregation. Thereafter can increase the performance of the federated global.
翻訳日:2022-07-19 19:17:22 公開日:2022-07-18
# 結合構成最適化のためのマルチブロック・シングル・プロベ分散最小推定器

Multi-block-Single-probe Variance Reduced Estimator for Coupled Compositional Optimization ( http://arxiv.org/abs/2207.08540v1 )

ライセンス: Link先を確認
Wei Jiang, Gang Li, Yibo Wang, Lijun Zhang, Tianbao Yang(参考訳) SPIDER/SARAH/STORMのようなばらつき低減技術は、確率的非凸最適化の収束率を改善するために広く研究されている。 イテレーションをまたいで複数の関数マッピングを追跡する必要があるが、各イテレーションで$\mathcal{o}(1)$関数マッピングの確率的サンプルにアクセスするだけでよいとしたらどうだろう? 関連スポンサーコンテンツ } $\sum_{i=1}^m f_i(g_i(\mathbf{w}))$ という形式で、結合構成最適化問題の新たなファミリーを解決する上で重要な応用がある。 主要な問題は、$\mathbf g(\mathbf{w})=(g_1(\mathbf{w})) \ldots, g_m(\mathbf{w})$の列を反復して追跡して推定することであり、$\mathbf g(\mathbf{w})$は$m$ブロックを持ち、$\mathcal{O}(1)$ブロックを探索するだけで確率値とヤコビアンが得られる。 これらの問題を解決するための複雑さを改善するために、$\mathbf g(\mathbf{w})$をトラックするMulti-block-Single-probe Variance Reduced (MSVR)推定器を提案する。 STORMにインスパイアされているが、選択されたブロックの確率的なサンプルだけでなく、サンプリングされていないブロックのノイズを軽減するために、カスタマイズされたエラー訂正項を導入する。 提案手法は,MSVR推定器の助けを借りて,上述した合成問題を,非凸・凸・凸・強凸を対象とする多種多様な条件で解くアルゴリズムを開発した。 サンプル複素数の順序や強い凸パラメータへの依存性など,いくつかの点で先行する結果が改善される。 マルチタスク・ディープaucの最大化に関する実証研究は、新しい推定器の使用により優れた性能を示す。

Variance reduction techniques such as SPIDER/SARAH/STORM have been extensively studied to improve the convergence rates of stochastic non-convex optimization, which usually maintain and update a sequence of estimators for a single function across iterations. {\it What if we need to track multiple functional mappings across iterations but only with access to stochastic samples of $\mathcal{O}(1)$ functional mappings at each iteration?} There is an important application in solving an emerging family of coupled compositional optimization problems in the form of $\sum_{i=1}^m f_i(g_i(\mathbf{w}))$, where $g_i$ is accessible through a stochastic oracle. The key issue is to track and estimate a sequence of $\mathbf g(\mathbf{w})=(g_1(\mathbf{w}), \ldots, g_m(\mathbf{w}))$ across iterations, where $\mathbf g(\mathbf{w})$ has $m$ blocks and it is only allowed to probe $\mathcal{O}(1)$ blocks to attain their stochastic values and Jacobians. To improve the complexity for solving these problems, we propose a novel stochastic method named Multi-block-Single-probe Variance Reduced (MSVR) estimator to track the sequence of $\mathbf g(\mathbf{w})$. It is inspired by STORM but introduces a customized error correction term to alleviate the noise not only in stochastic samples for the selected blocks but also in those blocks that are not sampled. With the help of the MSVR estimator, we develop several algorithms for solving the aforementioned compositional problems with improved complexities across a spectrum of settings with non-convex/convex/strongly convex objectives. Our results improve upon prior ones in several aspects, including the order of sample complexities and dependence on the strong convexity parameter. Empirical studies on multi-task deep AUC maximization demonstrate the better performance of using the new estimator.
翻訳日:2022-07-19 19:16:56 公開日:2022-07-18
# 自動交差点管理に基づく機械学習のための拡張グラフ表現

An Enhanced Graph Representation for Machine Learning Based Automatic Intersection Management ( http://arxiv.org/abs/2207.08655v1 )

ライセンス: Link先を確認
Marvin Klimke, Jasper Gerigk, Benjamin V\"olz, Michael Buchholz(参考訳) 都市交差点における交通効率の向上は, 自動交差点管理の分野において, 強い研究関心を集めている。 これまでのところ、基礎となるマルチエージェント計画問題を解決するために、reservationやoptimize-basedといった非学習アルゴリズムが提案されている。 同時に、単一のego車両の自動運転機能が機械学習手法で実装されるようになっている。 本研究では,前述したグラフベースシーン表現とグラフニューラルネットワークに基づいて,強化学習を用いて問題にアプローチする。 車両の既存のノード機能に加えてエッジ機能を使用することで、シーン表現が重要な面で改善される。 これにより、ネットワークアーキテクチャの更新によって、表現品質が向上する。 本稿では,自動交差点管理において一般的に使用されるベースラインに対する提案手法の詳細な評価を行う。 従来の信号化交差点と拡張されたファースト・イン・ファースト・アウト・スキームと比較すると,様々な交通密度で遅延の顕著な低減が観察される。 最後に、グラフに基づく表現の一般化能力は、トレーニング中に見えない交差点レイアウトのポリシーをテストすることによって評価される。 このモデルは、小さな交差点のレイアウトや、より大きなものへの特定の制限に制限なく、事実上一般化する。

The improvement of traffic efficiency at urban intersections receives strong research interest in the field of automated intersection management. So far, mostly non-learning algorithms like reservation or optimization-based ones were proposed to solve the underlying multi-agent planning problem. At the same time, automated driving functions for a single ego vehicle are increasingly implemented using machine learning methods. In this work, we build upon a previously presented graph-based scene representation and graph neural network to approach the problem using reinforcement learning. The scene representation is improved in key aspects by using edge features in addition to the existing node features for the vehicles. This leads to an increased representation quality that is leveraged by an updated network architecture. The paper provides an in-depth evaluation of the proposed method against baselines that are commonly used in automatic intersection management. Compared to a traditional signalized intersection and an enhanced first-in-first-out scheme, a significant reduction of induced delay is observed at varying traffic densities. Finally, the generalization capability of the graph-based representation is evaluated by testing the policy on intersection layouts not seen during training. The model generalizes virtually without restrictions to smaller intersection layouts and within certain limits to larger ones.
翻訳日:2022-07-19 19:16:14 公開日:2022-07-18
# back to the manifold: 分散状態から回復する

Back to the Manifold: Recovering from Out-of-Distribution States ( http://arxiv.org/abs/2207.08673v1 )

ライセンス: Link先を確認
Alfredo Reichlin, Giovanni Luca Marchetti, Hang Yin, Ali Ghadirzadeh and Danica Kragic(参考訳) 以前に収集した専門家データのデータセットから学ぶことは、安全で費用のかかるオンライン探索なしにロボットポリシーを取得することを約束する。 しかし、大きな課題は、トレーニングデータセット内の状態と、テスト時に学習されたポリシーによって訪問された状態との間の分散シフトである。 先行研究は,オフライントレーニング中の方針による分布変化を主に研究していたが,展開時の分配状態から回復する問題は未だ十分に研究されていない。 エージェントをトレーニング用多様体に戻すことで、例えば外部の摂動による分散状態から離脱するたびに、エージェントをトレーニング用多様体に戻すというリカバリポリシーを導入することにより、デプロイメント時の分散シフトを軽減する。 回復ポリシーは、トレーニングデータ密度の近似と、視覚的な観察をロボットの動作に対応する潜在空間にマッピングする学習された同変写像に依存している。 実際のロボットプラットフォーム上での操作実験により提案手法の有効性を実証する。 以上の結果から,リカバリポリシーにより,分散シフト問題により行動クローニングのみが失敗する間,エージェントがタスクを完了できることがわかった。

Learning from previously collected datasets of expert data offers the promise of acquiring robotic policies without unsafe and costly online explorations. However, a major challenge is a distributional shift between the states in the training dataset and the ones visited by the learned policy at the test time. While prior works mainly studied the distribution shift caused by the policy during the offline training, the problem of recovering from out-of-distribution states at the deployment time is not very well studied yet. We alleviate the distributional shift at the deployment time by introducing a recovery policy that brings the agent back to the training manifold whenever it steps out of the in-distribution states, e.g., due to an external perturbation. The recovery policy relies on an approximation of the training data density and a learned equivariant mapping that maps visual observations into a latent space in which translations correspond to the robot actions. We demonstrate the effectiveness of the proposed method through several manipulation experiments on a real robotic platform. Our results show that the recovery policy enables the agent to complete tasks while the behavioral cloning alone fails because of the distributional shift problem.
翻訳日:2022-07-19 19:15:57 公開日:2022-07-18
# 分割関数近似のためのサブ線形時間量子アルゴリズム

A Sublinear-Time Quantum Algorithm for Approximating Partition Functions ( http://arxiv.org/abs/2207.08643v1 )

ライセンス: Link先を確認
Arjan Cornelissen and Yassine Hamoudi(参考訳) 本稿では, 状態空間の大きさの対数に関して, gibbs分割関数をサブリニア時間で推定する新しい量子アルゴリズムを提案する。 これは、v{S}tefankovi\v{c}, Vempala and Vigoda [JACM, 2009] の半正準線形時間アルゴリズム上で得られるこのタイプの最初のスピードアップである。 また, 量子マルコフ鎖の性質を生かして, 先行研究で達成された精度とスペクトルギャップの2次速度を保った。 応用として、Isingモデルの分割関数を計算し、グラフの$k$-colorings, matchings, independent setの数をカウントする最もよく知られたアルゴリズムに対して、新しい多項式改善が得られる。 我々のアプローチは、量子位相および振幅推定アルゴリズムの新しい変種を開発し、低分散で初期量子状態を破壊することなくほぼ偏りのない推定値を返す。 これらのサブルーチンをほぼ偏りのない量子平均推定器に拡張し、古典的経験平均よりも二乗的に分散を減少させる。 そのような推定者は我々の仕事の前には存在しなかった。 これらの性質は一般に興味を持ち、計算分割関数のシミュレーションアニールのパラダイム内での収束性を保証する。

We present a novel quantum algorithm for estimating Gibbs partition functions in sublinear time with respect to the logarithm of the size of the state space. This is the first speed-up of this type to be obtained over the seminal nearly-linear time algorithm of \v{S}tefankovi\v{c}, Vempala and Vigoda [JACM, 2009]. Our result also preserves the quadratic speed-up in precision and spectral gap achieved in previous work by exploiting the properties of quantum Markov chains. As an application, we obtain new polynomial improvements over the best-known algorithms for computing the partition function of the Ising model, and counting the number of $k$-colorings, matchings or independent sets of a graph. Our approach relies on developing new variants of the quantum phase and amplitude estimation algorithms that return nearly unbiased estimates with low variance and without destroying their initial quantum state. We extend these subroutines into a nearly unbiased quantum mean estimator that reduces the variance quadratically faster than the classical empirical mean. No such estimator was known to exist prior to our work. These properties, which are of general interest, lead to better convergence guarantees within the paradigm of simulated annealing for computing partition functions.
翻訳日:2022-07-19 19:15:36 公開日:2022-07-18
# Retweet-BERT: 言語特徴とソーシャルネットワーク上の情報拡散を用いた政治的学習検出

Retweet-BERT: Political Leaning Detection Using Language Features and Information Diffusion on Social Networks ( http://arxiv.org/abs/2207.08349v1 )

ライセンス: Link先を確認
Julie Jiang, Xiang Ren, Emilio Ferrara(参考訳) ソーシャルメディア利用者の政治的傾きを見積もるのは、ソーシャルメディア消費の増加を考えると、より困難な問題である。 Retweet-BERTは、シンプルでスケーラブルなモデルで、Twitterユーザーの政治的傾向を推定する。 Retweet-BERTは、retweetネットワーク構造とユーザのプロファイル記述に使用される言語を活用する。 我々の仮定は、同様のイデオロギーを共有する人々の間で、ネットワークや言語学のパターンがホモフィリーであることに由来する。 Retweet-BERTは、他の最先端のベースラインと競合するパフォーマンスを示し、最近の2つのTwitterデータセット(COVID-19データセットと2020年の米国大統領選挙データセット)で96%-97%のマクロF1を達成した。 また,トレーニングデータにないユーザに対して,Retweet-BERTの性能検証を行う。 最後に、covid-19のケーススタディで、twitterに政治エコーチャンバーが存在することを示し、主に右利きユーザーの間で存在していることを示す。 私たちのコードはオープンソースで、データは公開されています。

Estimating the political leanings of social media users is a challenging and ever more pressing problem given the increase in social media consumption. We introduce Retweet-BERT, a simple and scalable model to estimate the political leanings of Twitter users. Retweet-BERT leverages the retweet network structure and the language used in users' profile descriptions. Our assumptions stem from patterns of networks and linguistics homophily among people who share similar ideologies. Retweet-BERT demonstrates competitive performance against other state-of-the-art baselines, achieving 96%-97% macro-F1 on two recent Twitter datasets (a COVID-19 dataset and a 2020 United States presidential elections dataset). We also perform manual validation to validate the performance of Retweet-BERT on users not in the training data. Finally, in a case study of COVID-19, we illustrate the presence of political echo chambers on Twitter and show that it exists primarily among right-leaning users. Our code is open-sourced and our data is publicly available.
翻訳日:2022-07-19 19:09:07 公開日:2022-07-18
# 予測型ニューラル音声符号化

Predictive Neural Speech Coding ( http://arxiv.org/abs/2207.08363v1 )

ライセンス: Link先を確認
Xue Jiang, Xiulian Peng, Huaying Xue, Yuan Zhang, Yan Lu(参考訳) neural audio/speech codingは、従来の方法よりもずっと低いビットレートで高品質を提供する能力を示している。 しかし、既存のニューラルオーディオ/音声コーデックは、音響的特徴または学習盲目的特徴のいずれかを用いており、符号化された特徴の中に時間的冗長性がある畳み込みニューラルネットワークを使用している。 本稿では,VQ-VAEフレームワークに潜時領域予測符号を導入し,そのような冗長性を完全に除去し,低遅延音声符号化のためのTF-Codecをエンドツーエンドに提案する。 具体的には、過去の量子化潜在フレームからの予測に基づいて抽出された特徴を符号化し、時間相関をさらに除去する。 さらに、時間周波数入力に学習可能な圧縮を導入し、主周波数と詳細を異なるビットレートで適応的に調整する。 距離-ソフトマッピングとGumbel-Softmaxに基づく微分可能ベクトル量子化法を提案し,遅延分布を速度制約でモデル化する。 多言語音声データセットにおける主観的な結果は、40msのレイテンシで1kbpsのtf-codecがopus 9kbps、tf-codecが3kbpsのevs 9.6kbpsとopus 12kbpsを上回っていることを示している。 これらの手法の有効性を示すために多くの研究が行われている。

Neural audio/speech coding has shown its capability to deliver a high quality at much lower bitrates than traditional methods recently. However, existing neural audio/speech codecs employ either acoustic features or learned blind features with a convolutional neural network for encoding, by which there are still temporal redundancies inside encoded features. This paper introduces latent-domain predictive coding into the VQ-VAE framework to fully remove such redundancies and proposes the TF-Codec for low-latency neural speech coding in an end-to-end way. Specifically, the extracted features are encoded conditioned on a prediction from past quantized latent frames so that temporal correlations are further removed. What's more, we introduce a learnable compression on the time-frequency input to adaptively adjust the attention paid on main frequencies and details at different bitrates. A differentiable vector quantization scheme based on distance-to-soft mapping and Gumbel-Softmax is proposed to better model the latent distributions with rate constraint. Subjective results on multilingual speech datasets show that with a latency of 40ms, the proposed TF-Codec at 1kbps can achieve a much better quality than Opus 9kbps and TF-Codec at 3kbps outperforms both EVS 9.6kbps and Opus 12kbps. Numerous studies are conducted to show the effectiveness of these techniques.
翻訳日:2022-07-19 19:08:50 公開日:2022-07-18
# 分散プライバシー機構によるデータセットのグローバルな特性保護

Protecting Global Properties of Datasets with Distribution Privacy Mechanisms ( http://arxiv.org/abs/2207.08367v1 )

ライセンス: Link先を確認
Michelle Chen and Olga Ohrimenko(参考訳) 近年、データ収集・分析技術の急速な発展とともに、このようなデータの使用に伴う情報漏洩に対処する必要性がますます強調されている。 この目的のために、プライバシ文献における多くの作業は、個々のユーザとデータのコントリビュータの保護に費やされている。 しかし、いくつかの状況ではデータセットのレコード上に集約されたグローバルプロパティを含むデータ機密性の異なる概念を必要とする。 このような情報保護の概念は、グローバルなプロパティが貿易秘密や人口統計データを反映している可能性がある企業や組織データに特に当てはまる。 プロパティ推論攻撃に関する最近の研究は、データ分析アルゴリズムがこれらのグローバルプロパティの漏洩にどのように影響を受けやすいかを示し、そのような情報を保護するメカニズムの開発の重要性を強調している。 本研究では,データセットのグローバルなプロパティ保護の問題を形式化するために,分散プライバシフレームワークを適用する方法を示す。 この枠組みを考えると、データ機密性の概念を提供するためのいくつかのメカニズムとそのトレードオフを調査します。 様々なデータ仮定の下で、これらのメカニズムによって提供される理論的保護保証を分析し、いくつかのデータ分析タスクのためにこれらのメカニズムを実装し、実証的に評価する。 実験の結果,我々のメカニズムは,粗いグループ差分プライバシーベースラインよりも有効性が高く,実用性推論攻撃の有効性を著しく低下させることができることがわかった。 本研究は,データセットのグローバルな特性を保護するための理論的支援機構の基礎となる。

Alongside the rapid development of data collection and analysis techniques in recent years, there is increasingly an emphasis on the need to address information leakage associated with such usage of data. To this end, much work in the privacy literature is devoted to the protection of individual users and contributors of data. However, some situations instead require a different notion of data confidentiality involving global properties aggregated over the records of a dataset. Such notions of information protection are particularly applicable for business and organization data, where global properties may reflect trade secrets, or demographic data, which can be harmful if mishandled. Recent work on property inference attacks furthermore shows how data analysis algorithms can be susceptible to leaking these global properties of data, highlighting the importance of developing mechanisms that can protect such information. In this work, we demonstrate how a distribution privacy framework can be applied to formalize the problem of protecting global properties of datasets. Given this framework, we investigate several mechanisms and their tradeoffs for providing this notion of data confidentiality. We analyze the theoretical protection guarantees offered by these mechanisms under various data assumptions, then implement and empirically evaluate these mechanisms for several data analysis tasks. The results of our experiments show that our mechanisms can indeed reduce the effectiveness of practical property inference attacks while providing utility substantially greater than a crude group differential privacy baseline. Our work thus provides groundwork for theoretically supported mechanisms for protecting global properties of datasets.
翻訳日:2022-07-19 19:08:23 公開日:2022-07-18
# ネットワークゼロサム拡張型ゲームにおける最適勾配上昇の高速収束

Fast Convergence of Optimistic Gradient Ascent in Network Zero-Sum Extensive Form Games ( http://arxiv.org/abs/2207.08426v1 )

ライセンス: Link先を確認
Georgios Piliouras, Lillian Ratliff, Ryann Sim, Stratis Skoulakis(参考訳) ゲームにおける学習の研究は、これまで主に通常のフォームゲームに焦点を当ててきた。 対照的に、広範囲なフォームゲーム(EFG)、特に多くのエージェントが遅れているEFGでの学習に対する私たちの理解は、多くの現実世界のアプリケーションに近づきつつあります。 我々は,エージェントペイオフのグローバルゼロサム特性,グラフィカルゲームの効率的な表現,EFGの表現力を組み合わせたネットワークゼロサム拡張フォームゲーム(Network Zero-Sum Extensive Form Games)の自然クラスを考える。 これらのゲームにおいて,OGA(Optimistic Gradient Ascent)の収束特性について検討する。 このようなオンライン学習力学の時間平均挙動は、ナッシュ平衡の集合に対してO(1/T)$レート収束を示す。 さらに,ゲーム依存定数 $c>0$ に対して,nash に対する日々の行動も$o(c^{-t})$ で収束することを示した。

The study of learning in games has thus far focused primarily on normal form games. In contrast, our understanding of learning in extensive form games (EFGs) and particularly in EFGs with many agents lags far behind, despite them being closer in nature to many real world applications. We consider the natural class of Network Zero-Sum Extensive Form Games, which combines the global zero-sum property of agent payoffs, the efficient representation of graphical games as well the expressive power of EFGs. We examine the convergence properties of Optimistic Gradient Ascent (OGA) in these games. We prove that the time-average behavior of such online learning dynamics exhibits $O(1/T)$ rate convergence to the set of Nash Equilibria. Moreover, we show that the day-to-day behavior also converges to Nash with rate $O(c^{-t})$ for some game-dependent constant $c>0$.
翻訳日:2022-07-19 19:08:02 公開日:2022-07-18
# 特徴選択における高次依存処理のための高次条件付き相互情報最大化

High-Order Conditional Mutual Information Maximization for dealing with High-Order Dependencies in Feature Selection ( http://arxiv.org/abs/2207.08476v1 )

ライセンス: Link先を確認
Francisco Souza and Cristiano Premebida and Rui Ara\'ujo(参考訳) 本稿では,条件付き相互情報(CMI)に基づく特徴選択手法を提案する。 提案した高次条件付き相互情報最大化(HOCMIM)は,高次依存関係を特徴選択手順に組み込んだもので,ボトムアップの導出による分かりやすい解釈である。 HOCMIMはCMIのチェーン展開から導かれ、最大化最適化問題として表される。 最大化問題は、特徴選択プロセス全体を高速化する欲求探索手順を用いて解決される。 実験は、一連のベンチマークデータセット(合計20件)で実行される。 hocmimは、2つの教師付き学習分類器(サポートベクターマシンとk-nearest近傍)の結果から18の最先端特徴選択アルゴリズムと比較される。 HOCMIMは精度で最良の結果を得ることができ、高次特徴選択よりも高速であることを示す。

This paper presents a novel feature selection method based on the conditional mutual information (CMI). The proposed High Order Conditional Mutual Information Maximization (HOCMIM) incorporates high order dependencies into the feature selection procedure and has a straightforward interpretation due to its bottom-up derivation. The HOCMIM is derived from the CMI's chain expansion and expressed as a maximization optimization problem. The maximization problem is solved using a greedy search procedure, which speeds up the entire feature selection process. The experiments are run on a set of benchmark datasets (20 in total). The HOCMIM is compared with eighteen state-of-the-art feature selection algorithms, from the results of two supervised learning classifiers (Support Vector Machine and K-Nearest Neighbor). The HOCMIM achieves the best results in terms of accuracy and shows to be faster than high order feature selection counterparts.
翻訳日:2022-07-19 19:07:48 公開日:2022-07-18
# (参考訳) 生成型逆ネットワークの多様かつ忠実なワンショット適応に向けて

Towards Diverse and Faithful One-shot Adaption of Generative Adversarial Networks ( http://arxiv.org/abs/2207.08736v1 )

ライセンス: CC BY 4.0
Yabo Zhang, Mingshuai Yao, Yuxiang Wei, Zhilong Ji, Jinfeng Bai, Wangmeng Zuo(参考訳) ワンショット生成ドメイン適応は、訓練済みのジェネレータを1つの参照画像のみを使用して、新しいドメインに転送することを目的としている。 しかし、適応発電機にとっては非常に難しい。 一 予め訓練した発電機から受け継いだ多様な画像を生成すること (ii)参照画像のドメイン固有の属性とスタイルを忠実に取得すること。 本稿では、多種多様な世代と忠実な適応のための新しい一発生成ドメイン適応法、すなわち、DiFaを提案する。 グローバルレベルの適応には、参照画像のCLIP埋め込みとソース画像の平均埋め込みの違いを利用して、ターゲットジェネレータを制約する。 局所的な適応のために,適応画像の各中間トークンと参照画像の対応するトークンとを一致させる注意スタイルロスを導入する。 多様な生成を容易にするため、事前訓練されたジェネレータの多様性を継承するために、編集遅延の$\mathcal{W}+$スペース内のドメイン共有属性を選択および保持するために、選択的なクロスドメイン一貫性が導入される。 広範な実験により,本手法は,特に大きな領域間隙の場合において,定量的かつ定性的に最先端の手法を上回っていることが示された。 さらに,我々の difa は容易にゼロショット生成領域適応に拡張できる。 コードはhttps://github.com/1170300521/difaで入手できる。

One-shot generative domain adaption aims to transfer a pre-trained generator on one domain to a new domain using one reference image only. However, it remains very challenging for the adapted generator (i) to generate diverse images inherited from the pre-trained generator while (ii) faithfully acquiring the domain-specific attributes and styles of the reference image. In this paper, we present a novel one-shot generative domain adaption method, i.e., DiFa, for diverse generation and faithful adaptation. For global-level adaptation, we leverage the difference between the CLIP embedding of reference image and the mean embedding of source images to constrain the target generator. For local-level adaptation, we introduce an attentive style loss which aligns each intermediate token of adapted image with its corresponding token of the reference image. To facilitate diverse generation, selective cross-domain consistency is introduced to select and retain the domain-sharing attributes in the editing latent $\mathcal{W}+$ space to inherit the diversity of pre-trained generator. Extensive experiments show that our method outperforms the state-of-the-arts both quantitatively and qualitatively, especially for the cases of large domain gaps. Moreover, our DiFa can easily be extended to zero-shot generative domain adaption with appealing results. Code is available at https://github.com/1170300521/DiFa.
翻訳日:2022-07-19 19:06:47 公開日:2022-07-18
# クロスアテンション特徴アライメントを用いたニューラル分散画像圧縮

Neural Distributed Image Compression with Cross-Attention Feature Alignment ( http://arxiv.org/abs/2207.08489v1 )

ライセンス: Link先を確認
Nitish Mital, Ezgi Ozyilkan, Ali Garjani, Deniz Gunduz(参考訳) 本稿では,デコーダ側でのみ,相関画像がサイド情報として利用できる場合に,画像の圧縮を行う新しいディープニューラルネットワーク(DNN)アーキテクチャを提案する。 特に、重なり合う視野を持つ一対のステレオ画像は、同期して調整された一対のカメラによって撮影されるため、高い相関性を有する。 ペアの1つのイメージは圧縮され、送信され、もう1つのイメージはデコーダでのみ利用可能であると仮定する。 提案アーキテクチャでは、入力画像をDNNを用いて潜時空間にマッピングし、潜時表現を定量化し、エントロピー符号化を用いて無害に圧縮する。 提案するデコーダは、利用可能な側情報のみから画像間で共通する有用な情報と、側情報の潜在表現を抽出する。 そして、エンコーダから受信した2つの画像と、ローカルに生成された共通情報とから抽出された2つの画像の潜在表現を、2つの画像の各デコーダに供給する。 2つの画像の各デコーダの中間層で得られた特徴マップを調整するために、cross-attention module (cam) を用いる。 ステレオ画像ペアのKITTIやCityscapeデータセットなど,さまざまな現実的な設定で提案アルゴリズムの有効性を訓練し,実証する。 この結果から,提案アーキテクチャは,従来よりも効率よくデコーダのみの側情報を活用できることが示唆された。 また,非校正型および非同期型カメラアレイのユースケースにおいても,提案手法が大きな利益をもたらすことを示す。

We propose a novel deep neural network (DNN) architecture for compressing an image when a correlated image is available as side information only at the decoder side, a special case of the well-known and heavily studied distributed source coding (DSC) problem. In particular, we consider a pair of stereo images, which have overlapping fields of view, captured by a synchronized and calibrated pair of cameras; and therefore, are highly correlated. We assume that one image of the pair is to be compressed and transmitted, while the other image is available only at the decoder. In the proposed architecture, the encoder maps the input image to a latent space using a DNN, quantizes the latent representation, and compresses it losslessly using entropy coding. The proposed decoder extracts useful information common between the images solely from the available side information, as well as a latent representation of the side information. Then, the latent representations of the two images, one received from the encoder, the other extracted locally, along with the locally generated common information, are fed to the respective decoders of the two images. We employ a cross-attention module (CAM) to align the feature maps obtained in the intermediate layers of the respective decoders of the two images, thus allowing better utilization of the side information. We train and demonstrate the effectiveness of the proposed algorithm on various realistic setups, such as KITTI and Cityscape datasets of stereo image pairs. Our results show that the proposed architecture is capable of exploiting the decoder-only side information in a more efficient manner as it outperforms previous works. We also show that the proposed method is able to provide significant gains even in the case of uncalibrated and unsynchronized camera array use cases.
翻訳日:2022-07-19 18:44:12 公開日:2022-07-18
# レイテンシを考慮した協調認識

Latency-Aware Collaborative Perception ( http://arxiv.org/abs/2207.08560v1 )

ライセンス: Link先を確認
Zixing Lei, Shunli Ren, Yue Hu, Wenjun Zhang and Siheng Chen(参考訳) 協調的知覚は、最近、単一エージェント知覚よりも知覚能力を向上させる大きな可能性を示している。 既存の協調認識手法は通常理想的なコミュニケーション環境を考える。 しかし、実際には、通信システムは必然的にレイテンシの問題に悩まされ、潜在的な性能低下と自律運転のような安全クリティカルなアプリケーションに高いリスクをもたらす。 回避可能な通信遅延の影響を軽減するため、機械学習の観点からは、複数のエージェントから同じタイムスタンプへの非同期知覚機能を積極的に採用し、コラボレーションの堅牢性と有効性を促進する、第1のレイテンシアウェア協調認識システムを提案する。 このような特徴レベルの同期を実現するために,特徴意識共生推定と時間変調技術を活用したSyncNetという新しい遅延補償モジュールを提案する。 実験の結果,最新の協調認識データセットであるV2X-SIMでは,最先端の協調認識法よりも15.6%優れていた。

Collaborative perception has recently shown great potential to improve perception capabilities over single-agent perception. Existing collaborative perception methods usually consider an ideal communication environment. However, in practice, the communication system inevitably suffers from latency issues, causing potential performance degradation and high risks in safety-critical applications, such as autonomous driving. To mitigate the effect caused by the inevitable communication latency, from a machine learning perspective, we present the first latency-aware collaborative perception system, which actively adopts asynchronous perceptual features from multiple agents to the same timestamp, promoting the robustness and effectiveness of collaboration. To achieve such a feature-level synchronization, we propose a novel latency compensation module, calledSyncNet, which leverages feature-attention symbiotic estimation and time modulation techniques. Experimental results show that our method outperforms the state-of-the-art collaborative perception method by 15.6% on the latest collaborative perception dataset V2X-SIM.
翻訳日:2022-07-19 18:43:42 公開日:2022-07-18
# CACTUSS:米国における一般的な解剖学的CT-US空間

CACTUSS: Common Anatomical CT-US Space for US examinations ( http://arxiv.org/abs/2207.08619v1 )

ライセンス: Link先を確認
Yordanka Velikova, Walter Simson, Mehrdad Salehi, Mohammad Farid Azampour, Philipp Paprottka, Nassir Navab(参考訳) 腹部大動脈瘤 (AAA) は、大動脈の一部が拡大し、その壁を弱め、血管を破裂させる血管疾患である。 腹部超音波検査は診断に用いられてきたが、画像の質や操作性が限られており、ctスキャンはモニタリングや治療計画に必須である。 近年,腹部ctデータセットを用いた深部ニューラルネットワークの自動大動脈分画訓練が成功している。 この課題から得られた知識は、AAAの診断とモニタリングのためにアメリカのセグメンテーションを改善するために活用できる。 そこで本研究では,CTとUSモダリティの仮想ブリッジとして機能する共通の解剖学的CT-US空間であるCACTUSSを提案する。 CACTUSSは、米国とCTの両方のプロパティを継承する仲介者表現に基づいて、公開ラベル付きデータを使用してセグメントを学ぶ。 新しい表現でセグメンテーションネットワークを訓練し、実際のbモード画像上でモデルが実行できるようにする、画像から画像への翻訳ネットワークを付加する。 完全に監督された方法に対する定量的比較は,diceスコアと診断指標の観点でサボテンの能力を示し,aaaスキャンと診断の臨床的要件も満たしていることを示す。

Abdominal aortic aneurysm (AAA) is a vascular disease in which a section of the aorta enlarges, weakening its walls and potentially rupturing the vessel. Abdominal ultrasound has been utilized for diagnostics, but due to its limited image quality and operator dependency, CT scans are usually required for monitoring and treatment planning. Recently, abdominal CT datasets have been successfully utilized to train deep neural networks for automatic aorta segmentation. Knowledge gathered from this solved task could therefore be leveraged to improve US segmentation for AAA diagnosis and monitoring. To this end, we propose CACTUSS: a common anatomical CT-US space, which acts as a virtual bridge between CT and US modalities to enable automatic AAA screening sonography. CACTUSS makes use of publicly available labelled data to learn to segment based on an intermediary representation that inherits properties from both US and CT. We train a segmentation network in this new representation and employ an additional image-to-image translation network which enables our model to perform on real B-mode images. Quantitative comparisons against fully supervised methods demonstrate the capabilities of CACTUSS in terms of Dice Score and diagnostic metrics, showing that our method also meets the clinical requirements for AAA scanning and diagnosis.
翻訳日:2022-07-19 18:43:27 公開日:2022-07-18
# DeFlowSLAM:ダイナミックデンスSLAMのための自己監督型シーンモーション分解

DeFlowSLAM: Self-Supervised Scene Motion Decomposition for Dynamic Dense SLAM ( http://arxiv.org/abs/2207.08794v1 )

ライセンス: Link先を確認
Weicai Ye, Xingyuan Yu, Xinyue Lan, Yuhang Ming, Jinyu Li, Hujun Bao, Zhaopeng Cui and Guofeng Zhang(参考訳) そこで本稿では,映像中の物体の動きによって生じる動的流れ場とカメラの動きによって生じる静的流れ場に光の流れを分解する,シーンの動きの2重フロー表現を提案する。 この表現に基づいて,静的背景画素を他の動的SLAMシステムと同じように使用するのではなく,画像中の静的画素と動的画素の両方を利用してカメラポーズを解決する動的SLAMを提案する。 本稿では,DeFlowSLAMを自己指導的にトレーニングするための動的更新モジュールを提案する。これは,高密度バンドル調整層が推定された静的流れ場と動的マスクによって制御される重みを取り込み,最適化された静的流れ場,カメラポーズ,逆深さの残余を出力するものである。 現在の画像を隣接する画像にワープすることで静的および動的流れ場を推定し、2つのフィールドをまとめることで光学的流れを得ることができる。 大規模な実験により、DeFlowSLAMは静的シーンと動的シーンの両方を一般化し、静的シーンでは最先端のDROID-SLAMに匹敵する性能を示しながら、動的環境ではDROID-SLAMを大きく上回る性能を示した。 コードとデータはプロジェクトwebページにある。 \urlstyle{tt} \textcolor{url_color}{\url{https://zju3dv.github.io/deflowslam/}}。

We present a novel dual-flow representation of scene motion that decomposes the optical flow into a static flow field caused by the camera motion and another dynamic flow field caused by the objects' movements in the scene. Based on this representation, we present a dynamic SLAM, dubbed DeFlowSLAM, that exploits both static and dynamic pixels in the images to solve the camera poses, rather than simply using static background pixels as other dynamic SLAM systems do. We propose a dynamic update module to train our DeFlowSLAM in a self-supervised manner, where a dense bundle adjustment layer takes in estimated static flow fields and the weights controlled by the dynamic mask and outputs the residual of the optimized static flow fields, camera poses, and inverse depths. The static and dynamic flow fields are estimated by warping the current image to the neighboring images, and the optical flow can be obtained by summing the two fields. Extensive experiments demonstrate that DeFlowSLAM generalizes well to both static and dynamic scenes as it exhibits comparable performance to the state-of-the-art DROID-SLAM in static and less dynamic scenes while significantly outperforming DROID-SLAM in highly dynamic environments. Code and data are available on the project webpage: \urlstyle{tt} \textcolor{url_color}{\url{https://zju3dv.github.io/deflowslam/}}.
翻訳日:2022-07-19 18:43:05 公開日:2022-07-18
# (参考訳) オセロを弾くための言葉遊び

Word Play for Playing Othello (Reverses) ( http://arxiv.org/abs/2207.08766v1 )

ライセンス: CC BY-SA 4.0
Samantha E. Miller Noever, David Noever(参考訳) OpenAIのGenerative Pre-Trained Transformer (GPT-2/3)のような言語モデルは、様々なドメイン(例えば、言語トランスレータ)や最近ゲームプレイ(chs、Go、チェッカー)でテキストを生成するのに必要な長期的相関をキャプチャする。 本研究は,Othello(あるいはReverses)のゲームにおける複雑な戦略を探るために,GPT-3とGPT-2の2つの言語モデルを適用した。 占いの急速な逆転のためのゲームルールを考えると、言語モデルは、以前のゲームの動きに基づいて次の動きの候補予測者を表すだけでなく、ゲームプレイにおけるスパースな報酬も回避する。 言語モデルはチャンピオンシップレベルの戦略を自動的にキャプチャまたはエミュレートする。 微調整されたGPT-2モデルは13-71%の完成率からオセロゲームを生成し、より大きなGPT-3モデルは41%の完成率に達する。 チェスや囲碁を使った以前の研究と同様に、これらの言語モデルは、もっともらしいゲームアーカイブを生成する新しい方法を提供する。 これらのモデルの主な貢献は、以前のプレイヤーアーカイブの記録(1977年から2022年までの45年間に12万の人間ゲーム)を2倍に拡大し、他の強化学習技術を用いてサンプリングするためのより多様なオリジナル戦略を研究コミュニティに提供することである。

Language models like OpenAI's Generative Pre-Trained Transformers (GPT-2/3) capture the long-term correlations needed to generate text in a variety of domains (such as language translators) and recently in gameplay (chess, Go, and checkers). The present research applies both the larger (GPT-3) and smaller (GPT-2) language models to explore the complex strategies for the game of Othello (or Reverses). Given the game rules for rapid reversals of fortune, the language model not only represents a candidate predictor of the next move based on previous game moves but also avoids sparse rewards in gameplay. The language model automatically captures or emulates championship-level strategies. The fine-tuned GPT-2 model generates Othello games ranging from 13-71% completion, while the larger GPT-3 model reaches 41% of a complete game. Like previous work with chess and Go, these language models offer a novel way to generate plausible game archives, particularly for comparing opening moves across a larger sample than humanly possible to explore. A primary contribution of these models magnifies (by two-fold) the previous record for player archives (120,000 human games over 45 years from 1977-2022), thus supplying the research community with more diverse and original strategies for sampling with other reinforcement learning techniques.
翻訳日:2022-07-19 18:33:27 公開日:2022-07-18
# CDツール -- 凝縮した剥離と理論証明を生成する構造(システム記述)

CD Tools -- Condensed Detachment and Structure Generating Theorem Proving (System Description) ( http://arxiv.org/abs/2207.08453v1 )

ライセンス: Link先を確認
Christoph Wernhard(参考訳) CD Toolsは、一階ATPの凝縮した剥離を実験するためのPrologライブラリである。 一階ATPの観点から見ると、凝縮した分枝は比較的単純だが本質的な特徴と真剣な応用をもち、新規技術の開発と評価の基礎として魅力的である。 cdツールは証明構造の列挙に基づく特殊なプロバーを含んでいる。 SGCDは、ゴールと公理駆動の証明検索を、特に柔軟な方法で組み合わせることを可能にします。 純粋に目標駆動の構成では、これはクローサルテーブルまたは接続メソッドファミリの証明器と同様に振る舞う。 ブレンド構成では、その性能はより強く、最先端のプローバーに近いが、比較的短い証明を出力する。 実験は, その証明者が実現した構造生成手法の特性と応用可能性を示す。 ATPでよく研究される歴史的な問題のために、既知のものよりもはるかに短い新しい証明を生み出した。

CD Tools is a Prolog library for experimenting with condensed detachment in first-order ATP, which puts a recent formal view centered around proof structures into practice. From the viewpoint of first-order ATP, condensed detachment offers a setting that is relatively simple but with essential features and serious applications, making it attractive as a basis for developing and evaluating novel techniques. CD Tools includes specialized provers based on the enumeration of proof structures. We focus here on one of these, SGCD, which permits to blend goal- and axiom-driven proof search in particularly flexible ways. In purely goal-driven configurations it acts similarly to a prover of the clausal tableaux or connection method family. In blended configurations its performance is much stronger, close to state-of-the-art provers, while emitting relatively short proofs. Experiments show characteristics and application possibilities of the structure generating approach realized by that prover. For a historic problem often studied in ATP it produced a new proof that is much shorter than any known one.
翻訳日:2022-07-19 18:20:08 公開日:2022-07-18
# Transformerはソースコードについて何を学ぶのか?

What does Transformer learn about source code? ( http://arxiv.org/abs/2207.08466v1 )

ライセンス: Link先を確認
Kechi Zhang, Ge Li, Zhi Jin(参考訳) ソースコード処理の分野では、トランスフォーマーベースの表現モデルは非常に強力であり、多くのタスクにおいて最先端(SOTA)のパフォーマンスを実現している。 トランスフォーマーモデルはシーケンシャルなソースコードを処理するが、いくつかの証拠は構造情報(構文木、データフロー、制御フロー、\etc)もキャプチャできることを示している。 本研究では,変圧器が学習する構造情報を調べる手法であるアテンションスコアを提案する。 また,事前学習したモデルからプログラムグラフを自動的に抽出する新しい手法である,アテンショングラフの集計も実施した。 複数の観点からメソッドを測定します。 さらに, 実験結果に基づき, 自動抽出したグラフを用いて, それらの巧妙な手動設計グラフを, 変数誤用タスクで置き換える。 実験の結果, 自動抽出した意味グラフは有意義かつ効果的であり, モデルに含まれる情報を理解し, 利用するための新たな視点が得られた。

In the field of source code processing, the transformer-based representation models have shown great powerfulness and have achieved state-of-the-art (SOTA) performance in many tasks. Although the transformer models process the sequential source code, pieces of evidence show that they may capture the structural information (\eg, in the syntax tree, data flow, control flow, \etc) as well. We propose the aggregated attention score, a method to investigate the structural information learned by the transformer. We also put forward the aggregated attention graph, a new way to extract program graphs from the pre-trained models automatically. We measure our methods from multiple perspectives. Furthermore, based on our empirical findings, we use the automatically extracted graphs to replace those ingenious manual designed graphs in the Variable Misuse task. Experimental results show that the semantic graphs we extracted automatically are greatly meaningful and effective, which provide a new perspective for us to understand and use the information contained in the model.
翻訳日:2022-07-19 18:19:51 公開日:2022-07-18
# 正の依存関係グラフの再検討

Positive Dependency Graphs Revisited ( http://arxiv.org/abs/2207.08579v1 )

ライセンス: Link先を確認
Jorge Fandinno and Vladimir Lifschitz(参考訳) 安定モデルの理論は、解集合プログラミングの数学的基礎である。 この理論におけるいくつかの結果は、論理プログラムの正の依存グラフの概念を指す。 本稿では,この概念の修正について述べるとともに,肯定的依存に対する新たな理解によって,これらの結果のいくつかを強化することができることを示す。 論理プログラミングの理論と実践(tplp)における考察。

Theory of stable models is the mathematical basis of answer set programming. Several results in that theory refer to the concept of the positive dependency graph of a logic program. We describe a modification of that concept and show that the new understanding of positive dependency makes it possible to strengthen some of these results. Under consideration in Theory and Practice of Logic Programming (TPLP).
翻訳日:2022-07-19 18:19:34 公開日:2022-07-18
# 歴史的偏差モデリングによる自動走行システムにおける物体追跡のための認証セキュリティパッチ

A Certifiable Security Patch for Object Tracking in Self-Driving Systems via Historical Deviation Modeling ( http://arxiv.org/abs/2207.08556v1 )

ライセンス: Link先を確認
Xudong Pan, Qifan Xiao, Mi Zhang, Min Yang(参考訳) 自動運転車(SDC)は一般的に、周囲の障害物を検出し、走行軌跡を追跡するために知覚パイプラインを実装している。 SDCにおける障害検出のセキュリティは集中的に研究されているが、攻撃者は追跡モジュールの脆弱性を悪用し始めた。 対象検出器の攻撃のみと比較して、この新しい攻撃戦略は、より少ない攻撃予算でより効果的に駆動決定に影響を与える。 しかし、この脆弱性がエンド・ツー・エンドの自動運転システムで有効であるかどうか、脅威を緩和する方法についてはほとんど分かっていない。 本稿では,sdcにおける物体追跡の安全性に関する最初の体系的研究を行う。 オープンソースの自動運転システムであるBaiduのApolloの完全な認識パイプラインに関する包括的なケーススタディを通じて、Kalman Filter(KF)に基づくメインストリームのマルチオブジェクトトラッカー(MOT)が、有効にマルチセンサー融合機構を使用しても安全でないことを証明した。 我々の根本原因分析によると、この脆弱性はKFベースのMOTの設計に固有のものであり、対象検出器からの予測結果を誤り処理するが、採用したKFアルゴリズムは、予測からの偏差が大きい場合には、観測をより信頼する傾向にある。 この設計上の欠陥に対処するために,kfベースのmotに対する簡易かつ効果的なセキュリティパッチを提案する。そのコアは,観測予測偏差の異常指標に従って観測と予測にkfの焦点を合わせる適応戦略であり,一般的なハイジャック攻撃モデルに対する認証の有効性を有する。 4ドルのkfベースの既存のmot実装(2dおよび3d、アカデミックおよびアポロを含む)に関する広範囲な評価は、我々のアプローチの防御効果とささいなパフォーマンスオーバーヘッドを検証する。

Self-driving cars (SDC) commonly implement the perception pipeline to detect the surrounding obstacles and track their moving trajectories, which lays the ground for the subsequent driving decision making process. Although the security of obstacle detection in SDC is intensively studied, not until very recently the attackers start to exploit the vulnerability of the tracking module. Compared with solely attacking the object detectors, this new attack strategy influences the driving decision more effectively with less attack budgets. However, little is known on whether the revealed vulnerability remains effective in end-to-end self-driving systems and, if so, how to mitigate the threat. In this paper, we present the first systematic research on the security of object tracking in SDC. Through a comprehensive case study on the full perception pipeline of a popular open-sourced self-driving system, Baidu's Apollo, we prove the mainstream multi-object tracker (MOT) based on Kalman Filter (KF) is unsafe even with an enabled multi-sensor fusion mechanism. Our root cause analysis reveals, the vulnerability is innate to the design of KF-based MOT, which shall error-handle the prediction results from the object detectors yet the adopted KF algorithm is prone to trust the observation more when its deviation from the prediction is larger. To address this design flaw, we propose a simple yet effective security patch for KF-based MOT, the core of which is an adaptive strategy to balance the focus of KF on observations and predictions according to the anomaly index of the observation-prediction deviation, and has certified effectiveness against a generalized hijacking attack model. Extensive evaluation on $4$ KF-based existing MOT implementations (including 2D and 3D, academic and Apollo ones) validate the defense effectiveness and the trivial performance overhead of our approach.
翻訳日:2022-07-19 18:19:29 公開日:2022-07-18
# SepLUT:リアルタイム画像強調のための分離可能な画像適応ルックアップテーブル

SepLUT: Separable Image-adaptive Lookup Tables for Real-time Image Enhancement ( http://arxiv.org/abs/2207.08351v1 )

ライセンス: Link先を確認
Canqian Yang, Meiguang Jin, Yi Xu, Rui Zhang, Ying Chen and Huaida Liu(参考訳) 画像適応ルックアップテーブル(luts)は,カラー変換のモデリング効率が高いため,リアルタイム画像強調タスクにおいて大きな成功を収めている。 しかし、色成分に依存しない部分や成分相関部分を含む完全な変換を1dまたは3dの1種類のlutのみに結合した方法で組み込む。 このスキームは、2つの要因によりモデル表現性または効率を改善するというジレンマを引き起こす。 一方、1D LUTは高い計算効率を提供するが、色成分相互作用の重要な能力は欠如している。 一方、3D LUTはコンポーネント関連変換能力が向上するが、メモリフットプリントの多さ、訓練の困難さ、細胞利用の制限に悩まされている。 画像信号処理装置の従来の分割処理方式に着想を得て,SepLUT(分離画像適応ルックアップテーブル)を提案し,上記の制限に対処する。 具体的には, 1D および 3D LUT としてインスタンス化された成分非依存サブ変換と成分関連サブ変換のカスケードに, 単色変換を分離する。 このように、2つのサブトランスフォーメーションの能力は相互に促進され、3D LUTは色成分を混合する能力を補完し、1D LUTは入力色を再分割して3D LUTの細胞利用を増加させ、より軽量な3D LUTの使用を可能にする。 実験により,提案手法は,現在最先端のベンチマークデータセットよりも,写真リタッチベンチマークデータセットの性能が向上し,gpuとcpuの両方でリアルタイム処理を実現することを実証した。

Image-adaptive lookup tables (LUTs) have achieved great success in real-time image enhancement tasks due to their high efficiency for modeling color transforms. However, they embed the complete transform, including the color component-independent and the component-correlated parts, into only a single type of LUTs, either 1D or 3D, in a coupled manner. This scheme raises a dilemma of improving model expressiveness or efficiency due to two factors. On the one hand, the 1D LUTs provide high computational efficiency but lack the critical capability of color components interaction. On the other, the 3D LUTs present enhanced component-correlated transform capability but suffer from heavy memory footprint, high training difficulty, and limited cell utilization. Inspired by the conventional divide-and-conquer practice in the image signal processor, we present SepLUT (separable image-adaptive lookup table) to tackle the above limitations. Specifically, we separate a single color transform into a cascade of component-independent and component-correlated sub-transforms instantiated as 1D and 3D LUTs, respectively. In this way, the capabilities of two sub-transforms can facilitate each other, where the 3D LUT complements the ability to mix up color components, and the 1D LUT redistributes the input colors to increase the cell utilization of the 3D LUT and thus enable the use of a more lightweight 3D LUT. Experiments demonstrate that the proposed method presents enhanced performance on photo retouching benchmark datasets than the current state-of-the-art and achieves real-time processing on both GPUs and CPUs.
翻訳日:2022-07-19 18:11:53 公開日:2022-07-18
# GLEAM: 大規模加速MRI再構成のためのグレディラーニング

GLEAM: Greedy Learning for Large-Scale Accelerated MRI Reconstruction ( http://arxiv.org/abs/2207.08393v1 )

ライセンス: Link先を確認
Batu Ozturkler, Arda Sahiner, Tolga Ergen, Arjun D Desai, Christopher M Sandino, Shreyas Vasanawala, John M Pauly, Morteza Mardani, Mert Pilanci(参考訳) アンロールされたニューラルネットワークは、最近最先端の加速MRI再構成を達成した。 これらのネットワークは、物理ベースの一貫性とニューラルネットワークに基づく正規化を交互に組み合わせることで反復的最適化アルゴリズムを展開する。 しかし、3D MRIのような高次元イメージングタスクを処理するには、大規模なニューラルネットワークの繰り返しが必要になる。 これにより、バックプロパゲーションに基づく従来のトレーニングアルゴリズムが制限される。 この課題に対処するために,高次元画像設定のための効率的なトレーニング戦略であるGreedy LEarning for Accelerated MRI (GLEAM) 再構成を提案する。 GLEAMはエンドツーエンドのネットワークを分離したネットワークモジュールに分割する。 各モジュールは、切り離された勾配更新によって、ゆるやかな方法で最適化され、トレーニング中のメモリフットプリントが削減される。 本稿では,複数のグラフィカル処理ユニット(GPU)上で,分離した勾配更新を並列に行うことで,トレーニング時間を短縮できることを示す。 マルチコイル膝,脳,ダイナミック心血管MRIを含む2Dおよび3Dデータセットを用いて実験を行った。 私たちはそれを観察します i) GLEAMは、勾配チェックポイントや、同じメモリフットプリントを持つ非可逆ネットワークのような最先端のメモリ効率のベースラインを1.3倍高速なトレーニングで一般化する。 ii) 同じメモリフットプリントの場合、GLEAMは2Dでは1.1dBPSNR、エンドツーエンドのベースラインでは1.8dBとなる。

Unrolled neural networks have recently achieved state-of-the-art accelerated MRI reconstruction. These networks unroll iterative optimization algorithms by alternating between physics-based consistency and neural-network based regularization. However, they require several iterations of a large neural network to handle high-dimensional imaging tasks such as 3D MRI. This limits traditional training algorithms based on backpropagation due to prohibitively large memory and compute requirements for calculating gradients and storing intermediate activations. To address this challenge, we propose Greedy LEarning for Accelerated MRI (GLEAM) reconstruction, an efficient training strategy for high-dimensional imaging settings. GLEAM splits the end-to-end network into decoupled network modules. Each module is optimized in a greedy manner with decoupled gradient updates, reducing the memory footprint during training. We show that the decoupled gradient updates can be performed in parallel on multiple graphical processing units (GPUs) to further reduce training time. We present experiments with 2D and 3D datasets including multi-coil knee, brain, and dynamic cardiac cine MRI. We observe that: i) GLEAM generalizes as well as state-of-the-art memory-efficient baselines such as gradient checkpointing and invertible networks with the same memory footprint, but with 1.3x faster training; ii) for the same memory footprint, GLEAM yields 1.1dB PSNR gain in 2D and 1.8 dB in 3D over end-to-end baselines.
翻訳日:2022-07-19 18:11:27 公開日:2022-07-18
# (参考訳) 転置可能な摂動に対する前文課題としての逆ピクセル復元

Adversarial Pixel Restoration as a Pretext Task for Transferable Perturbations ( http://arxiv.org/abs/2207.08803v1 )

ライセンス: CC BY 4.0
Hashmat Shadab Malik, Shahina K Kunhimon, Muzammal Naseer, Salman Khan, Fahad Shahbaz Khan(参考訳) トランスファー可能な敵攻撃は、事前訓練された代理モデルと既知のラベル空間から敵を最適化し、未知のブラックボックスモデルを騙す。 したがって、これらの攻撃は効果的な代理モデルの可用性によって制限される。 本研究では,この仮定を緩和し,ラベルやデータサンプルの少ない条件下で,効果的なサロゲートモデルをゼロからトレーニングするための自己指導的な代替手段として,Adversarial Pixel Restorationを提案する。 我々のトレーニングアプローチは、敵の目標によるオーバーフィッティングを低減し、より一般化可能なサロゲートモデルのために最適化するmin-max目的に基づいている。 提案する攻撃は,敵のピクセル復元に補完的であり,自己監視で起動可能なタスク特定目的とは独立している。 我々は,視覚変換器や畳み込みニューラルネットワークによる分類,物体検出,ビデオセグメンテーションの課題に対して,その逆変換性を示すことに成功した。 私たちのコードと事前訓練されたサロゲートモデルは、https://github.com/HashmatShadab/APRで利用可能です。

Transferable adversarial attacks optimize adversaries from a pretrained surrogate model and known label space to fool the unknown black-box models. Therefore, these attacks are restricted by the availability of an effective surrogate model. In this work, we relax this assumption and propose Adversarial Pixel Restoration as a self-supervised alternative to train an effective surrogate model from scratch under the condition of no labels and few data samples. Our training approach is based on a min-max objective which reduces overfitting via an adversarial objective and thus optimizes for a more generalizable surrogate model. Our proposed attack is complimentary to our adversarial pixel restoration and is independent of any task specific objective as it can be launched in a self-supervised manner. We successfully demonstrate the adversarial transferability of our approach to Vision Transformers as well as Convolutional Neural Networks for the tasks of classification, object detection, and video segmentation. Our codes & pre-trained surrogate models are available at: https://github.com/HashmatShadab/APR
翻訳日:2022-07-19 18:10:15 公開日:2022-07-18
# リレーショナル推論による意味的ノベルティ検出

Semantic Novelty Detection via Relational Reasoning ( http://arxiv.org/abs/2207.08699v1 )

ライセンス: Link先を確認
Francesco Cappio Borlino, Silvia Bucci, Tatiana Tommasi(参考訳) セマンティックノベルティ検出は、テストデータの未知のカテゴリを発見することを目的としている。 このタスクは、特に自動運転や医療といった安全クリティカルなアプリケーションにおいて重要であり、デプロイメント時に未知のオブジェクトを認識し、それに応じて警告を発することが重要である。 ディープラーニングの研究の驚くべき進歩にもかかわらず、既存のモデルは未知のものを認識するために既知のカテゴリの微調整段階が必要である。 これは、プライバシールールがデータアクセスを制限する場合や、厳格なメモリと計算上の制約(例えばエッジコンピューティング)の場合、禁止される可能性がある。 我々は,表現学習戦略が効果的かつ効率的な意味的新規性検出のための正しい解であると主張している。 この課題に対する最先端のアプローチの広範なテストに加えて,リレーショナル推論に基づく新しい表現学習パラダイムを提案する。 既知のカテゴリを認識するのではなく、意味的類似性を測定する方法を学ぶことに焦点を当てている。 私たちの実験では、この知識は幅広いシナリオに直接転送可能であり、クローズドセット認識モデルを信頼できるオープンセットに変換するためのプラグ・アンド・プレイモジュールとして活用できることを示した。

Semantic novelty detection aims at discovering unknown categories in the test data. This task is particularly relevant in safety-critical applications, such as autonomous driving or healthcare, where it is crucial to recognize unknown objects at deployment time and issue a warning to the user accordingly. Despite the impressive advancements of deep learning research, existing models still need a finetuning stage on the known categories in order to recognize the unknown ones. This could be prohibitive when privacy rules limit data access, or in case of strict memory and computational constraints (e.g. edge computing). We claim that a tailored representation learning strategy may be the right solution for effective and efficient semantic novelty detection. Besides extensively testing state-of-the-art approaches for this task, we propose a novel representation learning paradigm based on relational reasoning. It focuses on learning how to measure semantic similarity rather than recognizing known categories. Our experiments show that this knowledge is directly transferable to a wide range of scenarios, and it can be exploited as a plug-and-play module to convert closed-set recognition models into reliable open-set ones.
翻訳日:2022-07-19 17:54:24 公開日:2022-07-18
# 分散オブジェクトセグメンテーションのためのインスタンスアウェアオブザーバネットワーク

Instance-Aware Observer Network for Out-of-Distribution Object Segmentation ( http://arxiv.org/abs/2207.08782v1 )

ライセンス: Link先を確認
Victor Besnier, Andrei Bursuc, David Picard, Alexandre Briot(参考訳) Observer Networkの最近の研究は、セマンティックセグメンテーションのためのout-Of-Distribution(OOD)検出に有望な結果を示している。 これらの手法は、画像の興味点、すなわち異常点を正確に特定することが困難である。 この制限は、ピクセルレベルでの微細な予測が難しいためである。 この問題に対処するため、観測者に事例知識を提供する。 我々はインスタンスワイドマスク予測を利用してObsNetのアプローチを拡張する。 我々は、観測者予測をフィルタリングし集約するために、追加のクラスに依存しないオブジェクト検出器を使用する。 最後に、画像の各インスタンスに対するユニークな異常スコアを予測します。 提案手法は,3つのデータセット上の外部分布オブジェクトから分布オブジェクトを正確に分離する。

Recent work on Observer Network has shown promising results on Out-Of-Distribution (OOD) detection for semantic segmentation. These methods have difficulty in precisely locating the point of interest in the image, i.e, the anomaly. This limitation is due to the difficulty of fine-grained prediction at the pixel level. To address this issue, we provide instance knowledge to the observer. We extend the approach of ObsNet by harnessing an instance-wise mask prediction. We use an additional, class agnostic, object detector to filter and aggregate observer predictions. Finally, we predict an unique anomaly score for each instance in the image. We show that our proposed method accurately disentangle in-distribution objects from Out-Of-Distribution objects on three datasets.
翻訳日:2022-07-19 17:54:07 公開日:2022-07-18
# データストリームのための軽量自動機能監視

Lightweight Automated Feature Monitoring for Data Streams ( http://arxiv.org/abs/2207.08640v1 )

ライセンス: Link先を確認
Jo\~ao Conde, Ricardo Moreira, Jo\~ao Torres, Pedro Cardoso, Hugo Ferreira, Marco O.P. Sampaio, Jo\~ao Tiago Ascens\~ao, Pedro Bizarro(参考訳) リアルタイムストリーム処理自動化システムの動作監視は,実世界のアプリケーションにおいて最も重要な問題の1つとなっている。 このようなシステムは高次元の入力データと機械学習(ML)アルゴリズムに大きく依存して複雑化している。 本稿では,このようなデータセットにおけるデータドリフトを検出し,メモリフットプリントが小さく,ストリーミングアプリケーションの計算コストも小さく,フレキシブルな機能監視システムであるFMを提案する。 この方法は多変量統計テストに基づいており、設計によって駆動されるデータである(全参照分布はデータから推定される)。 システムで使用されるすべての機能を監視し、アラームが発生するたびに解釈可能な機能をランク付けする(根本原因分析を支援する)。 システムの計算と記憶の軽さは指数的に動くヒストグラムを使用することによって生じる。 実験では, システムの挙動をパラメータで解析し, さらに重要な点として, 1つの特徴に直接関連しない問題を検出する例を示す。 これはfmが特定の種類の問題を検出するためにカスタム信号を追加する必要をなくし、利用可能な機能領域の監視が十分であることを示す。

Monitoring the behavior of automated real-time stream processing systems has become one of the most relevant problems in real world applications. Such systems have grown in complexity relying heavily on high dimensional input data, and data hungry Machine Learning (ML) algorithms. We propose a flexible system, Feature Monitoring (FM), that detects data drifts in such data sets, with a small and constant memory footprint and a small computational cost in streaming applications. The method is based on a multi-variate statistical test and is data driven by design (full reference distributions are estimated from the data). It monitors all features that are used by the system, while providing an interpretable features ranking whenever an alarm occurs (to aid in root cause analysis). The computational and memory lightness of the system results from the use of Exponential Moving Histograms. In our experimental study, we analyze the system's behavior with its parameters and, more importantly, show examples where it detects problems that are not directly related to a single feature. This illustrates how FM eliminates the need to add custom signals to detect specific types of problems and that monitoring the available space of features is often enough.
翻訳日:2022-07-19 17:48:21 公開日:2022-07-18
# 機械学習におけるランクベースの分解可能な損失:調査

Rank-based Decomposable Losses in Machine Learning: A Survey ( http://arxiv.org/abs/2207.08768v1 )

ライセンス: Link先を確認
Shu Hu, Xin Wang, Siwei Lyu(参考訳) 最近の研究で、個々の損失と集約損失を区別する損失関数を設計する上で不可欠なパラダイムが明らかになった。 個々の損失はサンプルのモデルの品質を測定し、集合的損失は各トレーニングサンプルに対する個々の損失/スコアを結合する。 どちらも、個々の値の集合を単一の数値に集約する共通の手順を持っている。 ランキング順は、設計損失における個々の値の最も基本的な関係を反映している。 さらに、損失を個々の項の集合に分解できる分解可能性(decomposability)は、損失/スコアを整理する重要な特性となる。 この調査は、機械学習におけるランクベースの分解可能な損失の体系的で包括的なレビューを提供する。 具体的には,集合的損失と個人的損失の観点に従う損失関数の新しい分類法を提案する。 集合関数の例であるそのような損失を形成するためにアグリゲータを識別する。 ランクベースの分解可能な損失を8つのカテゴリに分類する。 これらのカテゴリに従い、ランクベース総損失とランクベースの個人損失に関する文献をレビューする。 これらの損失の一般式を記述し,既存の研究課題と結びつける。 また,非探索的・残存的・新たな課題にまたがる今後の研究の方向性も提案する。

Recent works have revealed an essential paradigm in designing loss functions that differentiate individual losses vs. aggregate losses. The individual loss measures the quality of the model on a sample, while the aggregate loss combines individual losses/scores over each training sample. Both have a common procedure that aggregates a set of individual values to a single numerical value. The ranking order reflects the most fundamental relation among individual values in designing losses. In addition, decomposability, in which a loss can be decomposed into an ensemble of individual terms, becomes a significant property of organizing losses/scores. This survey provides a systematic and comprehensive review of rank-based decomposable losses in machine learning. Specifically, we provide a new taxonomy of loss functions that follows the perspectives of aggregate loss and individual loss. We identify the aggregator to form such losses, which are examples of set functions. We organize the rank-based decomposable losses into eight categories. Following these categories, we review the literature on rank-based aggregate losses and rank-based individual losses. We describe general formulas for these losses and connect them with existing research topics. We also suggest future research directions spanning unexplored, remaining, and emerging issues in rank-based decomposable losses.
翻訳日:2022-07-19 17:48:03 公開日:2022-07-18
# グラフニューラルネットワークによるクラスタリングの簡素化

Simplifying Clustering with Graph Neural Networks ( http://arxiv.org/abs/2207.08779v1 )

ライセンス: Link先を確認
Filippo Maria Bianchi(参考訳) スペクトルクラスタリングで使われる目的関数は通常2つの用語から成り立っている。 一 グラフ上のクラスタ割り当ての局所的な二次的変動を最小化する用語及び 二 クラスタリング分割の均衡を図り、解の退化を回避すること。 本稿では、適切なメッセージパッシング層を有するグラフニューラルネットワークが、バランシング項のみを最適化することにより、良好なクラスタ割り当てを生成することができることを示す。 属性付きグラフデータセットの結果は,クラスタリング性能と計算時間の観点から提案手法の有効性を示す。

The objective functions used in spectral clustering are usually composed of two terms: i) a term that minimizes the local quadratic variation of the cluster assignments on the graph and; ii) a term that balances the clustering partition and helps avoiding degenerate solutions. This paper shows that a graph neural network, equipped with suitable message passing layers, can generate good cluster assignments by optimizing only a balancing term. Results on attributed graph datasets show the effectiveness of the proposed approach in terms of clustering performance and computation time.
翻訳日:2022-07-19 17:47:46 公開日:2022-07-18
# (参考訳) 多視点画像超解像のための幾何認識参照合成

Geometry-Aware Reference Synthesis for Multi-View Image Super-Resolution ( http://arxiv.org/abs/2207.08601v1 )

ライセンス: CC BY 4.0
Ri Cheng, Yuqi Sun, Bo Yan, Weimin Tan, Chenxi Ma(参考訳) 最近のマルチビューマルチメディアアプリケーションは、高解像度(HR)ビジュアルエクスペリエンスとストレージや帯域幅の制約に悩まされている。 そこで本稿では,MVISR(Multi-View Image Super-Resolution)タスクを提案する。 同じシーンから撮影されたマルチビュー画像の解像度を向上させることを目的としている。 1つの解決策は、低解像度(LR)入力ビューからHR結果を再構成するために画像またはビデオ超解像(SR)手法を適用することである。 しかし、これらの手法はビュー間の大角変換を処理できず、全てのマルチビュー画像の情報を活用できない。 これらの問題に対処するために、幾何情報を用いて全てのLRマルチビューから鋭い詳細を抽出し、LR入力ビューのSRをサポートするMVSRnetを提案する。 具体的には、MVSRnetのGeometry-Aware Reference Synthesisモジュールは、幾何情報と全多視点LR画像を用いて、ピクセル整列HR参照画像を合成する。 そこで提案する動的高周波検索ネットワークは,SRの参照画像における高周波テクスチャの詳細をフル活用する。 いくつかのベンチマーク実験により,本手法は最先端手法よりも大幅に改善されていることが示された。

Recent multi-view multimedia applications struggle between high-resolution (HR) visual experience and storage or bandwidth constraints. Therefore, this paper proposes a Multi-View Image Super-Resolution (MVISR) task. It aims to increase the resolution of multi-view images captured from the same scene. One solution is to apply image or video super-resolution (SR) methods to reconstruct HR results from the low-resolution (LR) input view. However, these methods cannot handle large-angle transformations between views and leverage information in all multi-view images. To address these problems, we propose the MVSRnet, which uses geometry information to extract sharp details from all LR multi-view to support the SR of the LR input view. Specifically, the proposed Geometry-Aware Reference Synthesis module in MVSRnet uses geometry information and all multi-view LR images to synthesize pixel-aligned HR reference images. Then, the proposed Dynamic High-Frequency Search network fully exploits the high-frequency textural details in reference images for SR. Extensive experiments on several benchmarks show that our method significantly improves over the state-of-the-art approaches.
翻訳日:2022-07-19 17:44:51 公開日:2022-07-18
# 超解像に対するメタ知識蒸留による知識表現の学習

Learning Knowledge Representation with Meta Knowledge Distillation for Single Image Super-Resolution ( http://arxiv.org/abs/2207.08356v1 )

ライセンス: Link先を確認
Han Zhu, Zhenzhong Chen, Shan Liu(参考訳) カンバーサムネットワーク(教師)からコンパクトネットワーク(学生)へ効率的に知識を伝達できる知識蒸留(kd)は、いくつかのコンピュータビジョンアプリケーションにおいてその利点を実証している。 知識の表現は知識の伝達と学習に不可欠であり、一般に手作りの方法で定義されるか、中間的特徴を直接使用する。 本稿では,単一画像超解像課題に対する教師学生アーキテクチャに基づくモデルに依存しないメタ知識蒸留法を提案する。 学習可能なパラメータを持つ知識表現ネットワーク(KRNets)を介して、教師が生徒の能力に応じて知識を伝えるための、より柔軟で正確な方法を提供する。 学生の要求に対する知識表現の認識能力を向上させるために,KRNetsにおける学生の特徴と教師と生徒の相関を利用して,中間出力から転向知識への変換プロセスを解くことを提案する。 具体的には、テクスチャ対応動的カーネルを生成して、改良すべきテクスチャ特徴とそれに対応する教師指導を抽出して、蒸留問題をテクスチャに分解し、高周波詳細の回復品質をさらに向上させる。 さらに、KRNetはメタラーニング方式で最適化され、知識の伝達と学生の学習が、学生の再構築された品質向上に有効であることを保証する。 種々の単一画像超解像データセットを用いた実験により,提案手法は既存の知識表現関連蒸留法よりも優れており,推論複雑性を伴わずに,超解像アルゴリズムの精度向上に寄与することを示した。

Knowledge distillation (KD), which can efficiently transfer knowledge from a cumbersome network (teacher) to a compact network (student), has demonstrated its advantages in some computer vision applications. The representation of knowledge is vital for knowledge transferring and student learning, which is generally defined in hand-crafted manners or uses the intermediate features directly. In this paper, we propose a model-agnostic meta knowledge distillation method under the teacher-student architecture for the single image super-resolution task. It provides a more flexible and accurate way to help the teachers transmit knowledge in accordance with the abilities of students via knowledge representation networks (KRNets) with learnable parameters. In order to improve the perception ability of knowledge representation to students' requirements, we propose to solve the transformation process from intermediate outputs to transferred knowledge by employing the student features and the correlation between teacher and student in the KRNets. Specifically, the texture-aware dynamic kernels are generated and then extract texture features to be improved and the corresponding teacher guidance so as to decompose the distillation problem into texture-wise supervision for further promoting the recovery quality of high-frequency details. In addition, the KRNets are optimized in a meta-learning manner to ensure the knowledge transferring and the student learning are beneficial to improving the reconstructed quality of the student. Experiments conducted on various single image super-resolution datasets demonstrate that our proposed method outperforms existing defined knowledge representation related distillation methods, and can help super-resolution algorithms achieve better reconstruction quality without introducing any inference complexity.
翻訳日:2022-07-19 17:19:05 公開日:2022-07-18
# フェイクビデオ検出のための生理信号の視覚表現

Visual Representations of Physiological Signals for Fake Video Detection ( http://arxiv.org/abs/2207.08380v1 )

ライセンス: Link先を確認
Kalin Stefanov, Bhawna Paliwal, Abhinav Dhall(参考訳) リアルな偽ビデオは、オンラインのプレゼンスと情報摂取の増加を考えると、有害な誤った情報を拡散する潜在的なツールである。 本稿では,実映像と偽映像を検出するマルチモーダル学習方式を提案する。 この方法は、オーディオ、ビデオ、生理学の3つのモードからの情報を組み合わせる。 提案するグラフ畳み込みネットワークアーキテクチャを用いて,映像と生体情報との融合を新規に学習することにより,映像と生理的モダリティを組み合わせるための2つの戦略について検討した。 どちらの戦略も、生理的信号の視覚的表現を生成する新しい方法に依存している。 リアルビデオとフェイクビデオの検出は、オーディオと修正されたビデオのモダリティの相違に基づいて行われる。 提案手法を2つのベンチマークデータセットで評価し, 従来手法と比較して検出性能が有意に向上したことを示す。

Realistic fake videos are a potential tool for spreading harmful misinformation given our increasing online presence and information intake. This paper presents a multimodal learning-based method for detection of real and fake videos. The method combines information from three modalities - audio, video, and physiology. We investigate two strategies for combining the video and physiology modalities, either by augmenting the video with information from the physiology or by novelly learning the fusion of those two modalities with a proposed Graph Convolutional Network architecture. Both strategies for combining the two modalities rely on a novel method for generation of visual representations of physiological signals. The detection of real and fake videos is then based on the dissimilarity between the audio and modified video modalities. The proposed method is evaluated on two benchmark datasets and the results show significant increase in detection performance compared to previous methods.
翻訳日:2022-07-19 17:18:39 公開日:2022-07-18
# 弱修正参照表現接地のためのエンティティ強化適応再構成ネットワーク

Entity-enhanced Adaptive Reconstruction Network for Weakly Supervised Referring Expression Grounding ( http://arxiv.org/abs/2207.08386v1 )

ライセンス: Link先を確認
Xuejing Liu, Liang Li, Shuhui Wang, Zheng-Jun Zha, Zechao Li, Qi Tian and Qingming Huang(参考訳) Referring Expression Grounding (REG) は、ターゲットと表現の対応性を欠きながら、言語表現によって記述された画像に特定のターゲットを接地することを目的としている。 弱い教師付きregには2つの大きな問題がある。 まず、リージョンレベルのアノテーションの欠如は、提案とクエリのあいまいさをもたらす。 第二に、以前のほとんどの弱い教師付きregメソッドは参照元の識別位置とコンテキストを無視し、他の同一のカテゴリオブジェクトとターゲットを区別するのが困難である。 上記の課題に対処するために、エンティティ強化適応再構築ネットワーク(EARN)を設計する。 具体的には、EARNはエンティティの強化、適応的な接地、協調的な再構築の3つのモジュールを含んでいる。 エンティティエンハンスメントでは、候補提案を選択するための管理として意味的類似性を計算する。 アダプティブ・グラウンドニングは、対象、場所、文脈における候補の提案のランキングスコアを階層的注意で計算する。 協調的再構成は、適応的再構成、言語再構成、属性分類の3つの視点からランキング結果を測定する。 適応機構は、異なる参照表現のばらつきを緩和するのに役立つ。 5つのデータセットの実験では、EARNは既存の最先端メソッドよりも優れています。 定性的な結果から,提案する成果は,特定のカテゴリの複数のオブジェクトが一緒に配置されている状況に対して,よりうまく対応できることが示される。

Weakly supervised Referring Expression Grounding (REG) aims to ground a particular target in an image described by a language expression while lacking the correspondence between target and expression. Two main problems exist in weakly supervised REG. First, the lack of region-level annotations introduces ambiguities between proposals and queries. Second, most previous weakly supervised REG methods ignore the discriminative location and context of the referent, causing difficulties in distinguishing the target from other same-category objects. To address the above challenges, we design an entity-enhanced adaptive reconstruction network (EARN). Specifically, EARN includes three modules: entity enhancement, adaptive grounding, and collaborative reconstruction. In entity enhancement, we calculate semantic similarity as supervision to select the candidate proposals. Adaptive grounding calculates the ranking score of candidate proposals upon subject, location and context with hierarchical attention. Collaborative reconstruction measures the ranking result from three perspectives: adaptive reconstruction, language reconstruction and attribute classification. The adaptive mechanism helps to alleviate the variance of different referring expressions. Experiments on five datasets show EARN outperforms existing state-of-the-art methods. Qualitative results demonstrate that the proposed EARN can better handle the situation where multiple objects of a particular category are situated together.
翻訳日:2022-07-19 17:18:24 公開日:2022-07-18
# 衣服交換者再識別のための意味認識と視覚遮蔽ネットワーク

A Semantic-aware Attention and Visual Shielding Network for Cloth-changing Person Re-identification ( http://arxiv.org/abs/2207.08387v1 )

ライセンス: Link先を確認
Zan Gao, Hongwei Wei, Weili Guan, Jie Nie, Meng Wang, Shenyong Chen(参考訳) 着替え者の身元確認(reid)は、着替えられた歩行者を検索することを目的とした新たな研究テーマである。 異なる服装の人間の外見は大きなバリエーションを示すため、差別的かつ堅牢な特徴表現を抽出する既存のアプローチは非常に困難である。 現在の作品は主に体型や輪郭のスケッチに焦点が当てられているが、着替え前後の人間の意味情報や歩行者の特徴の潜在的な一貫性は十分に検討されていないか無視されている。 これらの課題を解決するために, 衣服の外観に関する手がかりを遮蔽し, 視線・姿勢の変化に敏感でない視覚的意味情報にのみ焦点をあてる, 布を交換するReID(SAVS)の新たな意味認識・視覚的遮蔽ネットワークを提案する。 具体的には、まず、人間の意味セマンティクスセグメンテーション情報に基づいて、人体および衣服領域の特定にビジュアルセマンティクスエンコーダを用いる。 そして、人間の意味情報を強調し、視覚特徴マップを再重み付けするために、ヒューマンセマンティックアテンションモジュール(HSA)を提案する。 さらに、衣服領域をカバーし、衣服とは無関係な視覚的意味情報にモデルを集中させることにより、衣服変更作業のためのより堅牢な特徴表現を抽出する視覚的衣服遮蔽モジュール(VCS)も設計されている。 最も重要なことは、これらの2つのモジュールはエンドツーエンドの統一フレームワークで共同で探索されることです。 広範な実験により,提案手法は最先端の手法を著しく上回ることができ,布交換者に対してより堅牢な特徴を抽出できることが示された。 FSAM (CVPR 2021) と比較すると、この手法はmAP (rank-1) でそれぞれ LTCC と PRCC のデータセットで 32.7% (16.5%) と 14.9% (-) の改善を達成できる。

Cloth-changing person reidentification (ReID) is a newly emerging research topic that aims to retrieve pedestrians whose clothes are changed. Since the human appearance with different clothes exhibits large variations, it is very difficult for existing approaches to extract discriminative and robust feature representations. Current works mainly focus on body shape or contour sketches, but the human semantic information and the potential consistency of pedestrian features before and after changing clothes are not fully explored or are ignored. To solve these issues, in this work, a novel semantic-aware attention and visual shielding network for cloth-changing person ReID (abbreviated as SAVS) is proposed where the key idea is to shield clues related to the appearance of clothes and only focus on visual semantic information that is not sensitive to view/posture changes. Specifically, a visual semantic encoder is first employed to locate the human body and clothing regions based on human semantic segmentation information. Then, a human semantic attention module (HSA) is proposed to highlight the human semantic information and reweight the visual feature map. In addition, a visual clothes shielding module (VCS) is also designed to extract a more robust feature representation for the cloth-changing task by covering the clothing regions and focusing the model on the visual semantic information unrelated to the clothes. Most importantly, these two modules are jointly explored in an end-to-end unified framework. Extensive experiments demonstrate that the proposed method can significantly outperform state-of-the-art methods, and more robust features can be extracted for cloth-changing persons. Compared with FSAM (published in CVPR 2021), this method can achieve improvements of 32.7% (16.5%) and 14.9% (-) on the LTCC and PRCC datasets in terms of mAP (rank-1), respectively.
翻訳日:2022-07-19 17:18:05 公開日:2022-07-18
# MPIB:リアルな部分閉塞効果のためのMPPIベースのボケレンダリングフレームワーク

MPIB: An MPI-Based Bokeh Rendering Framework for Realistic Partial Occlusion Effects ( http://arxiv.org/abs/2207.08403v1 )

ライセンス: Link先を確認
Juewen Peng, Jianming Zhang, Xianrui Luo, Hao Lu, Ke Xian, Zhiguo Cao(参考訳) 部分閉塞効果は、カメラの近くのぼやけた物体が半透明な現象であり、隠蔽された背景の部分的な外観をもたらす。 しかし,既存のボケのレンダリング手法では,全フォーカス画像においてオクルード領域の情報の欠如による現実的な部分的オクルージョン効果をシミュレートすることが困難である。 学習可能な3次元シーン表現であるMultiplane Image(MPI)にヒントを得て,MPIBと呼ばれる新しいMPPIベースの高解像度ボケレンダリングフレームワークを導入することで,部分的閉塞に対処する。 そこで本研究ではまず,MPI表現をボケレンダリングに適用する方法について分析する。 そこで本研究では,MPI表現モジュールと背景塗装モジュールを組み合わせた高解像度シーン表現を提案する。 この表現は、制御パラメータに応じて様々なボケ効果をレンダリングするために再利用することができる。 また,データ生成のためのレイトレーシングに基づくボケ発生器の設計を行った。 合成画像と実世界の画像に関する広範な実験は、このフレームワークの有効性と柔軟性を検証する。

Partial occlusion effects are a phenomenon that blurry objects near a camera are semi-transparent, resulting in partial appearance of occluded background. However, it is challenging for existing bokeh rendering methods to simulate realistic partial occlusion effects due to the missing information of the occluded area in an all-in-focus image. Inspired by the learnable 3D scene representation, Multiplane Image (MPI), we attempt to address the partial occlusion by introducing a novel MPI-based high-resolution bokeh rendering framework, termed MPIB. To this end, we first present an analysis on how to apply the MPI representation to bokeh rendering. Based on this analysis, we propose an MPI representation module combined with a background inpainting module to implement high-resolution scene representation. This representation can then be reused to render various bokeh effects according to the controlling parameters. To train and test our model, we also design a ray-tracing-based bokeh generator for data generation. Extensive experiments on synthesized and real-world images validate the effectiveness and flexibility of this framework.
翻訳日:2022-07-19 17:17:29 公開日:2022-07-18
# 局所特徴マッチングを考慮した幾何学の適応的アサインメント

Adaptive Assignment for Geometry Aware Local Feature Matching ( http://arxiv.org/abs/2207.08427v1 )

ライセンス: Link先を確認
Dihe Huang, Ying Chen, Shang Xu, Yong Liu, Wenlong Wu, Yikang Ding, Chengjie Wang, Fan Tang(参考訳) 画像ペアから類似領域を特定して対応することを目的とした局所画像特徴マッチングは、コンピュータビジョンにおいて不可欠な概念である。 既存の画像マッチング手法の多くは、1対1の代入原理に従っており、画像間の局所的特徴間の一意的な対応を保証するために互いに近接する隣人を用いる。 しかし、異なる条件からの画像は大規模なバリエーションや視点の多様化を保ち、1対1の割り当ては密なマッチングにおいて曖昧または欠如の表現を引き起こす可能性がある。 本稿では,まず,軽量特徴対話モジュールを用いて密度の高い特徴を関連付け,ペア画像の同時可視領域を推定し,マッチング提案を予測するパッチレベルの多対一割り当てを行い,最終的に1対1の精細モジュールを用いて精錬する,新しい検出器フリーな局所特徴マッチング手法であるadamatcherを提案する。 広範な実験により、adamatcherはソリッドベースラインを上回り、多くのダウンストリームタスクで最先端の結果を達成していることがわかった。 さらに、多対一の割り当てと1対1のリファインメントモジュールは、SuperGlueのような他のマッチングメソッドのリファインメントネットワークとして使用することで、パフォーマンスをさらに向上させることができる。 コードは出版時に公開される。

Local image feature matching, aiming to identify and correspond similar regions from image pairs, is an essential concept in computer vision. Most existing image matching approaches follow a one-to-one assignment principle and employ mutual nearest neighbor to guarantee unique correspondence between local features across images. However, images from different conditions may hold large-scale variations or viewpoint diversification so that one-to-one assignment may cause ambiguous or missing representations in dense matching. In this paper, we introduce AdaMatcher, a novel detector-free local feature matching method, which first correlates dense features by a lightweight feature interaction module and estimates co-visible area of the paired images, then performs a patch-level many-to-one assignment to predict match proposals, and finally refines them based on a one-to-one refinement module. Extensive experiments show that AdaMatcher outperforms solid baselines and achieves state-of-the-art results on many downstream tasks. Additionally, the many-to-one assignment and one-to-one refinement module can be used as a refinement network for other matching methods, such as SuperGlue, to boost their performance further. Code will be available upon publication.
翻訳日:2022-07-19 17:17:12 公開日:2022-07-18
# 都市規模3次元復元のための効率的なビュークラスタリングと選択

Efficient View Clustering and Selection for City-Scale 3D Reconstruction ( http://arxiv.org/abs/2207.08434v1 )

ライセンス: Link先を確認
Marco Orsingher, Paolo Zani, Paolo Medici, Massimo Bertozzi(参考訳) 画像データセットのサイズは着実に増加しており、大規模な3D再構成手法の実現可能性と効率を損なう。 本稿では,多視点ステレオ(mvs)アルゴリズムを任意に大規模な画像群にスケールアップする新しい手法を提案する。 具体的には、複数の高解像度カメラを備えた移動車両によって取得された一連の映像から、都市全体の3dモデルを再構築する問題をターゲットにする。 当初、提案手法はポーズと幾何学のほぼ均一な分布を利用し、重なり合うクラスタの集合を構築する。 次に、各クラスタにILP(Integer Linear Programming)問題を定式化し、可視性と整合性の両方を保証するビューの最適なサブセットを選択する。 最後に、各クラスタのローカルポイントクラウドを別々に計算してマージする。 クラスタリングはペアの可視情報とは独立しているため、提案アルゴリズムは既存の文献よりも高速に動作し、大規模な並列化を可能にする。 本手法の有効性と拡張性を示すため,都市データに対する大規模なテストについて論じる。

Image datasets have been steadily growing in size, harming the feasibility and efficiency of large-scale 3D reconstruction methods. In this paper, a novel approach for scaling Multi-View Stereo (MVS) algorithms up to arbitrarily large collections of images is proposed. Specifically, the problem of reconstructing the 3D model of an entire city is targeted, starting from a set of videos acquired by a moving vehicle equipped with several high-resolution cameras. Initially, the presented method exploits an approximately uniform distribution of poses and geometry and builds a set of overlapping clusters. Then, an Integer Linear Programming (ILP) problem is formulated for each cluster to select an optimal subset of views that guarantees both visibility and matchability. Finally, local point clouds for each cluster are separately computed and merged. Since clustering is independent from pairwise visibility information, the proposed algorithm runs faster than existing literature and allows for a massive parallelization. Extensive testing on urban data are discussed to show the effectiveness and the scalability of this approach.
翻訳日:2022-07-19 17:16:47 公開日:2022-07-18
# 都市3次元再構築のためのパッチマッチ多視点ステレオの再検討

Revisiting PatchMatch Multi-View Stereo for Urban 3D Reconstruction ( http://arxiv.org/abs/2207.08439v1 )

ライセンス: Link先を確認
Marco Orsingher, Paolo Zani, Paolo Medici, Massimo Bertozzi(参考訳) 本稿では,patchmatch multi-view stereo (mvs) に基づく都市シナリオのイメージベース3次元再構成のための全パイプラインを提案する。 入力画像は、まず市販の視覚SLAMシステムに入力され、PatchMatch最適化の初期化に使用されるカメラポーズとスパースキーポイントを抽出する。 次に,PatchMatchの局所的な性質のバランスをとるために,新たな深度正規整合損失項と大域的精細化アルゴリズムを備えたマルチスケールフレームワークを用いて画素幅の深さと正規度を反復的に計算する。 最後に、大規模ポイントクラウドは、3Dで複数ビュー一貫した見積もりをバックプロジェクションすることによって生成される。 提案手法は,KITTIデータセット上の古典的MVSアルゴリズムと単眼深度ネットワークの両方に対して慎重に評価され,芸術的性能を示す。

In this paper, a complete pipeline for image-based 3D reconstruction of urban scenarios is proposed, based on PatchMatch Multi-View Stereo (MVS). Input images are firstly fed into an off-the-shelf visual SLAM system to extract camera poses and sparse keypoints, which are used to initialize PatchMatch optimization. Then, pixelwise depths and normals are iteratively computed in a multi-scale framework with a novel depth-normal consistency loss term and a global refinement algorithm to balance the inherently local nature of PatchMatch. Finally, a large-scale point cloud is generated by back-projecting multi-view consistent estimates in 3D. The proposed approach is carefully evaluated against both classical MVS algorithms and monocular depth networks on the KITTI dataset, showing state of the art performances.
翻訳日:2022-07-19 17:15:22 公開日:2022-07-18
# 多分野セマンティックセグメンテーションのための自動普遍分類法

Automatic universal taxonomies for multi-domain semantic segmentation ( http://arxiv.org/abs/2207.08445v1 )

ライセンス: Link先を確認
Petra Bevandi\'c, Sini\v{s}a \v{S}egvi\'c(参考訳) 複数のデータセットに対するセマンティックセグメンテーションモデルのトレーニングは、コンピュータビジョンコミュニティに最近多くの関心を呼んだ。 この関心は、高価なアノテーションと複数の視覚領域にまたがる熟練度達成の願望によって動機付けられた。 しかし、確立されたデータセットは互いに互換性のないラベルを持ち、野生における原則的推論を妨害する。 我々は,反復データセット統合による普遍的分類の自動構築によってこの問題に対処した。 本手法は,データセット固有のラベル間のサブセット-スーパーセット関係を検出し,スーパークラスを部分ラベルとして扱うことでサブクラスロジットの学習を支援する。 本稿では,標準データセットの収集実験を行い,先行研究に対する競合一般化性能を示す。

Training semantic segmentation models on multiple datasets has sparked a lot of recent interest in the computer vision community. This interest has been motivated by expensive annotations and a desire to achieve proficiency across multiple visual domains. However, established datasets have mutually incompatible labels which disrupt principled inference in the wild. We address this issue by automatic construction of universal taxonomies through iterative dataset integration. Our method detects subset-superset relationships between dataset-specific labels, and supports learning of sub-class logits by treating super-classes as partial labels. We present experiments on collections of standard datasets and demonstrate competitive generalization performance with respect to previous work.
翻訳日:2022-07-19 17:15:06 公開日:2022-07-18
# 教師なしビデオオブジェクトセグメンテーションのための階層的特徴アライメントネットワーク

Hierarchical Feature Alignment Network for Unsupervised Video Object Segmentation ( http://arxiv.org/abs/2207.08485v1 )

ライセンス: Link先を確認
Gensheng Pei, Yazhou Yao, Guo-Sen Xie, Fumin Shen, Zhenmin Tang, Jinhui Tang(参考訳) 光フローは、教師なしビデオオブジェクトセグメンテーション(UVOS)を進めるための、容易に考案され、貴重なキューである。 従来の手法のほとんどは、UVOS設定でターゲットオブジェクトをセグメント化するための動きと外観の機能を直接抽出して融合する。 しかし、光学フローは本質的に連続するフレーム間の全画素の瞬時速度であるため、運動特性は対応するフレーム内の一次オブジェクトとうまく一致しない。 上記の課題を解決するために,階層的特徴アライメントネットワーク(HFAN)と呼ばれる外観特徴アライメントのための簡潔で実用的で効率的なアーキテクチャを提案する。 具体的には、HFANの重要な利点は、連続的なFeature AlignMent (FAM) モジュールと、外観と動作の特徴を階層的に処理するために利用されるFeature AdaptaTion (FAT) モジュールである。 FAMは、外見と動きの特徴をそれぞれ主目的の意味表現と整合させることができる。 さらにfatは、外観と動きの特徴の適応的な融合のために明示的に設計され、クロスモーダル特徴間の望ましいトレードオフを達成する。 DAVIS-16で新たな最先端性能を達成し、88.7$\mathcal{J}\&\mathcal{F}$ Meanを達成した。

Optical flow is an easily conceived and precious cue for advancing unsupervised video object segmentation (UVOS). Most of the previous methods directly extract and fuse the motion and appearance features for segmenting target objects in the UVOS setting. However, optical flow is intrinsically an instantaneous velocity of all pixels among consecutive frames, thus making the motion features not aligned well with the primary objects among the corresponding frames. To solve the above challenge, we propose a concise, practical, and efficient architecture for appearance and motion feature alignment, dubbed hierarchical feature alignment network (HFAN). Specifically, the key merits in HFAN are the sequential Feature AlignMent (FAM) module and the Feature AdaptaTion (FAT) module, which are leveraged for processing the appearance and motion features hierarchically. FAM is capable of aligning both appearance and motion features with the primary object semantic representations, respectively. Further, FAT is explicitly designed for the adaptive fusion of appearance and motion features to achieve a desirable trade-off between cross-modal features. Extensive experiments demonstrate the effectiveness of the proposed HFAN, which reaches a new state-of-the-art performance on DAVIS-16, achieving 88.7 $\mathcal{J}\&\mathcal{F}$ Mean, i.e., a relative improvement of 3.5% over the best published result.
翻訳日:2022-07-19 17:14:56 公開日:2022-07-18
# ビデオ超解像変換器のアライメント再考

Rethinking Alignment in Video Super-Resolution Transformers ( http://arxiv.org/abs/2207.08494v1 )

ライセンス: Link先を確認
Shuwei Shi, Jinjin Gu, Liangbin Xie, Xintao Wang, Yujiu Yang, Chao Dong(参考訳) 隣接するフレームのアライメントは、ビデオ超解像(VSR)において必須の操作であると考えられている。 最新のVSRトランスを含む先進的なVSRモデルは、一般的によく設計されたアライメントモジュールを備えている。 しかし、自己認識機構の進歩はこの常識に反する可能性がある。 本稿では,vsrトランスフォーマーにおけるアライメントの役割を再考し,いくつかの反直観的な観察を行う。 私たちの実験では、 (i)VSRトランスフォーマーは、不整合ビデオから直接多フレーム情報を利用することができ、 (ii)既存のアライメント法はVSR変換器に有害であることがある。 これらの結果は,アライメントモジュールを除去し,より大きなアライメントウインドウを採用することで,VSRトランスフォーマーの性能を向上できることを示唆している。 しかし、そのような設計は計算負荷を劇的に増加させ、大きな動きには対処できない。 そこで本稿では,画素ではなく画像パッチをアライメントするパッチアライメントと呼ばれる新しい効率的なアライメント手法を提案する。 パッチアライメントを備えたVSRトランスフォーマーは、複数のベンチマークで最先端の性能を示すことができた。 我々の研究は、VSRにおけるマルチフレーム情報の使用方法や、異なるネットワーク/データセットのアライメント方法の選択方法に関する貴重な洞察を提供する。 コードとモデルはhttps://github.com/xpixelgroup/rethinkvsralignmentでリリースされる。

The alignment of adjacent frames is considered an essential operation in video super-resolution (VSR). Advanced VSR models, including the latest VSR Transformers, are generally equipped with well-designed alignment modules. However, the progress of the self-attention mechanism may violate this common sense. In this paper, we rethink the role of alignment in VSR Transformers and make several counter-intuitive observations. Our experiments show that: (i) VSR Transformers can directly utilize multi-frame information from unaligned videos, and (ii) existing alignment methods are sometimes harmful to VSR Transformers. These observations indicate that we can further improve the performance of VSR Transformers simply by removing the alignment module and adopting a larger attention window. Nevertheless, such designs will dramatically increase the computational burden, and cannot deal with large motions. Therefore, we propose a new and efficient alignment method called patch alignment, which aligns image patches instead of pixels. VSR Transformers equipped with patch alignment could demonstrate state-of-the-art performance on multiple benchmarks. Our work provides valuable insights on how multi-frame information is used in VSR and how to select alignment methods for different networks/datasets. Codes and models will be released at https://github.com/XPixelGroup/RethinkVSRAlignment.
翻訳日:2022-07-19 17:14:30 公開日:2022-07-18
# angular gap:モデルキャリブレーションによる画像難易度の不確実性低減

Angular Gap: Reducing the Uncertainty of Image Difficulty through Model Calibration ( http://arxiv.org/abs/2207.08525v1 )

ライセンス: Link先を確認
Bohua Peng, Mobarakol Islam, Mei Tu(参考訳) カリキュラム学習は、簡単なものから難しいものへと進むのが困難である。 しかし, 画像難易度の信頼性が調査されることは稀であり, カリキュラムの有効性に重大な影響を及ぼす可能性がある。 本研究では,超球面学習によって構築された特徴埋め込みとクラスウェイト埋め込みの角距離差に基づく難易度尺度であるAngular Gapを提案する。 難易度推定のために,学習した双曲空間に学習後の手法としてクラスワイドモデル校正を導入する。 これは確率的モデルの校正と超球面学習の角距離推定のギャップを埋める。 CIFAR10-HとImageNetV2の最近の難易度指標よりも、校正されたAngular Gapの方が優れていることを示す。 簡単なサンプルの学習からハードサンプルのマイニングまで,教師なしドメイン適応のためのAngular Gapベースのカリキュラム学習を提案する。 我々はこのカリキュラムを,最先端の自己学習手法であるCycle Self Training (CST)と組み合わせた。 提案手法は,office31およびvisda 2017におけるロバスト表現を学習し,最近のベースラインを上回っている。

Curriculum learning needs example difficulty to proceed from easy to hard. However, the credibility of image difficulty is rarely investigated, which can seriously affect the effectiveness of curricula. In this work, we propose Angular Gap, a measure of difficulty based on the difference in angular distance between feature embeddings and class-weight embeddings built by hyperspherical learning. To ascertain difficulty estimation, we introduce class-wise model calibration, as a post-training technique, to the learnt hyperbolic space. This bridges the gap between probabilistic model calibration and angular distance estimation of hyperspherical learning. We show the superiority of our calibrated Angular Gap over recent difficulty metrics on CIFAR10-H and ImageNetV2. We further propose Angular Gap based curriculum learning for unsupervised domain adaptation that can translate from learning easy samples to mining hard samples. We combine this curriculum with a state-of-the-art self-training method, Cycle Self Training (CST). The proposed Curricular CST learns robust representations and outperforms recent baselines on Office31 and VisDA 2017.
翻訳日:2022-07-19 17:14:12 公開日:2022-07-18
# DID-M3D:モノクロ3次元物体検出のためのインスタンス深さの分離

DID-M3D: Decoupling Instance Depth for Monocular 3D Object Detection ( http://arxiv.org/abs/2207.08531v1 )

ライセンス: Link先を確認
Liang Peng, Xiaopei Wu, Zheng Yang, Haifeng Liu, and Deng Cai(参考訳) 単眼の3D検出は、低コストで設定が簡単であるため、コミュニティから多くの注目を集めている。 rgbイメージを入力として、3d空間内の3dボックスを予測する。 最も難しいサブタスクは、インスタンスの深さ推定である。 先行研究は通常直接推定法を用いる。 しかし,本論文では,RGB画像のインスタンス深度は直観的ではないことを指摘する。 視覚深度ヒントとインスタンス属性ヒントによって結合され、ネットワーク内で直接学習することが困難になる。 そこで本研究では,インスタンス表面深度(視覚深度)とインスタンス属性深度(属性深度)の組み合わせにより,インスタンス深度を再構成する。 視覚深度は、画像上の物体の外観や位置と関連している。 対照的に、属性の深さは、画像上のオブジェクトアフィン変換に不変なオブジェクト固有の属性に依存している。 対応する3次元位置不確かさを視覚深度不確かさと属性深度不確かさに分離する。 異なる種類の深度と関連する不確実性を組み合わせることで、最終的なインスタンス深度を得ることができる。 さらに、単眼3d検出におけるデータ拡張は通常、物理的性質のため制限され、性能向上を阻害する。 提案したインスタンス深度分散戦略に基づき,この問題を緩和することができる。 KITTIの評価により,本手法は新たな最先端の成果を達成し,広範囲にわたるアブレーション研究により,本手法における各成分の有効性が検証された。 コードはhttps://github.com/SPengLiang/DID-M3Dで公開されている。

Monocular 3D detection has drawn much attention from the community due to its low cost and setup simplicity. It takes an RGB image as input and predicts 3D boxes in the 3D space. The most challenging sub-task lies in the instance depth estimation. Previous works usually use a direct estimation method. However, in this paper we point out that the instance depth on the RGB image is non-intuitive. It is coupled by visual depth clues and instance attribute clues, making it hard to be directly learned in the network. Therefore, we propose to reformulate the instance depth to the combination of the instance visual surface depth (visual depth) and the instance attribute depth (attribute depth). The visual depth is related to objects' appearances and positions on the image. By contrast, the attribute depth relies on objects' inherent attributes, which are invariant to the object affine transformation on the image. Correspondingly, we decouple the 3D location uncertainty into visual depth uncertainty and attribute depth uncertainty. By combining different types of depths and associated uncertainties, we can obtain the final instance depth. Furthermore, data augmentation in monocular 3D detection is usually limited due to the physical nature, hindering the boost of performance. Based on the proposed instance depth disentanglement strategy, we can alleviate this problem. Evaluated on KITTI, our method achieves new state-of-the-art results, and extensive ablation studies validate the effectiveness of each component in our method. The codes are released at https://github.com/SPengLiang/DID-M3D.
翻訳日:2022-07-19 17:13:58 公開日:2022-07-18
# UniFormer:Bird's-Eye-Viewにおける空間時間表現のための統合多視点融合変換器

UniFormer: Unified Multi-view Fusion Transformer for Spatial-Temporal Representation in Bird's-Eye-View ( http://arxiv.org/abs/2207.08536v1 )

ライセンス: Link先を確認
Zequn Qin, Jingyu Chen, Chao Chen, Xiaozhi Chen, Xi Li(参考訳) バードアイビュー(Bird's Eye View、BEV)は、空間融合に基づく自律運転のための新しい知覚定式化である。 さらに、時相融合はBEV表現にも導入され、大きな成功を収める。 本研究では,空間的および時間的融合を統一し,それらを統一的な数学的定式化に融合する新しい手法を提案する。 統合核融合は、BEV融合の新しい視点を提供するだけでなく、新たな能力ももたらす。 提案手法により,従来のBEV法では実現が困難であった長距離核融合を支援することが可能となった。 また,我々の研究におけるbev融合は時間適応的であり,時間融合の重みは学習可能である。 対照的に、従来の方法では主に時間融合に固定と等重量を用いる。 さらに、提案された統合核融合は、従来のBEV融合法で失われた情報を避け、機能を完全に活用することができる。 NuScenesデータセットの大規模な実験とアブレーション研究は,提案手法の有効性を示し,本手法は地図分割作業における最先端性能を得る。

Bird's eye view (BEV) representation is a new perception formulation for autonomous driving, which is based on spatial fusion. Further, temporal fusion is also introduced in BEV representation and gains great success. In this work, we propose a new method that unifies both spatial and temporal fusion and merges them into a unified mathematical formulation. The unified fusion could not only provide a new perspective on BEV fusion but also brings new capabilities. With the proposed unified spatial-temporal fusion, our method could support long-range fusion, which is hard to achieve in conventional BEV methods. Moreover, the BEV fusion in our work is temporal-adaptive, and the weights of temporal fusion are learnable. In contrast, conventional methods mainly use fixed and equal weights for temporal fusion. Besides, the proposed unified fusion could avoid information lost in conventional BEV fusion methods and make full use of features. Extensive experiments and ablation studies on the NuScenes dataset show the effectiveness of the proposed method and our method gains the state-of-the-art performance in the map segmentation task.
翻訳日:2022-07-19 17:13:35 公開日:2022-07-18
# 多周波近傍と二重交叉変調によるファインショットきめ細かい画像分類

Few-shot Fine-grained Image Classification via Multi-Frequency Neighborhood and Double-cross Modulation ( http://arxiv.org/abs/2207.08547v1 )

ライセンス: Link先を確認
Hegui Zhu, Zhan Gao, Jiayi Wang, Yange Zhou, Chengqing Li(参考訳) 従来のきめ細かい画像分類は、通常、注釈付き接地構造を持つ大規模な訓練サンプルに依存している。 しかし、いくつかのサブカテゴリは実世界のアプリケーションで利用可能なサンプルが少ない可能性がある。 本稿では,MFN(Multiency Neighborhood)とDouble-cross modulation(DCM)を用いた,数発のきめ細かい画像分類ネットワーク(FicNet)を提案する。 モジュールMFNは、空間領域と周波数領域の情報をキャプチャするために使用される。 そして、自己相似性および多周波成分を抽出して多周波構造表現を生成する。 dcmはbi-crisscrossコンポーネントとdouble 3d cross-attentionコンポーネントを使用して、グローバルコンテキスト情報とカテゴリ間の微妙な関係をそれぞれ考慮して埋め込みプロセスを変調する。 2つの数ショットタスクのための3つのきめ細かいベンチマークデータセットに関する包括的な実験では、FicNetは最先端の手法と比較して優れたパフォーマンスを示している。 特に、"Caltech-UCSD Birds"と"Stanford Cars"の2つのデータセットの実験では、それぞれ93.17\%と95.36\%の分類精度が得られる。 これらは、一般的な細粒度画像分類法が達成できることよりも高い。

Traditional fine-grained image classification typically relies on large-scale training samples with annotated ground-truth. However, some sub-categories may have few available samples in real-world applications. In this paper, we propose a novel few-shot fine-grained image classification network (FicNet) using multi-frequency Neighborhood (MFN) and double-cross modulation (DCM). Module MFN is adopted to capture the information in spatial domain and frequency domain. Then, the self-similarity and multi-frequency components are extracted to produce multi-frequency structural representation. DCM employs bi-crisscross component and double 3D cross-attention components to modulate the embedding process by considering global context information and subtle relationship between categories, respectively. The comprehensive experiments on three fine-grained benchmark datasets for two few-shot tasks verify that FicNet has excellent performance compared to the state-of-the-art methods. Especially, the experiments on two datasets, "Caltech-UCSD Birds" and "Stanford Cars", can obtain classification accuracy 93.17\% and 95.36\%, respectively. They are even higher than that the general fine-grained image classification methods can achieve.
翻訳日:2022-07-19 17:13:16 公開日:2022-07-18
# Few-ShotセグメンテーションのためのDense Cross-Query-and-Support Attention Weighted Mask Aggregation

Dense Cross-Query-and-Support Attention Weighted Mask Aggregation for Few-Shot Segmentation ( http://arxiv.org/abs/2207.08549v1 )

ライセンス: Link先を確認
Xinyu Shi, Dong Wei, Yu Zhang, Donghuan Lu, Munan Ning, Jiashun Chen, Kai Ma, and Yefeng Zheng(参考訳) Few-shot Semantic Segmentation (FSS)の研究は注目されており、ターゲットクラスの注釈付きサポートイメージのみを与えられたクエリイメージにターゲットオブジェクトをセグメントすることを目指している。 この課題の鍵は、クエリとサポートイメージの微妙な相関を利用して、サポートイメージの情報を完全に活用することである。 しかし、既存のほとんどのアプローチは、サポート情報をいくつかのクラスワイドプロトタイプに圧縮するか、または部分的なサポート情報(例えば、フォアグラウンドのみ)をピクセルレベルで使用し、無視できない情報損失を引き起こした。 本稿では,フォアグラウンドと背景情報の両方が,ペア問合せとサポート機能間の多レベルな画素間相関によって完全に活用される,高密度な画素間クロスクエリ・アンド・サポート型注意重み付きマスクアグリゲーション(dcama)を提案する。 トランスフォーマアーキテクチャのスケールド・ドット製品アテンションによって実装されたdcamaは、すべてのクエリピクセルをトークンとして扱い、すべてのサポートピクセルとの類似性を計算し、セグメンテーションラベルをすべてのサポートピクセルのラベルの加算集約として予測する。 dcamaのユニークな定式化に基づいて,nショットセグメンテーションの効率的かつ効果的なワンパス推論を提案し,マスクアグリゲーションのために,すべてのサポート画像の画素を一度に収集する。 実験により,我々のdcamaはpascal-5i,coco-20i,fss-1000の標準fssベンチマークにおいて,従来のベストレコードよりも3.1%,9.7%,3.6%の絶対的改善が達成された。 アブレーション研究はdcamaの設計も検証している。

Research into Few-shot Semantic Segmentation (FSS) has attracted great attention, with the goal to segment target objects in a query image given only a few annotated support images of the target class. A key to this challenging task is to fully utilize the information in the support images by exploiting fine-grained correlations between the query and support images. However, most existing approaches either compressed the support information into a few class-wise prototypes, or used partial support information (e.g., only foreground) at the pixel level, causing non-negligible information loss. In this paper, we propose Dense pixel-wise Cross-query-and-support Attention weighted Mask Aggregation (DCAMA), where both foreground and background support information are fully exploited via multi-level pixel-wise correlations between paired query and support features. Implemented with the scaled dot-product attention in the Transformer architecture, DCAMA treats every query pixel as a token, computes its similarities with all support pixels, and predicts its segmentation label as an additive aggregation of all the support pixels' labels -- weighted by the similarities. Based on the unique formulation of DCAMA, we further propose efficient and effective one-pass inference for n-shot segmentation, where pixels of all support images are collected for the mask aggregation at once. Experiments show that our DCAMA significantly advances the state of the art on standard FSS benchmarks of PASCAL-5i, COCO-20i, and FSS-1000, e.g., with 3.1%, 9.7%, and 3.6% absolute improvements in 1-shot mIoU over previous best records. Ablative studies also verify the design DCAMA.
翻訳日:2022-07-19 17:12:56 公開日:2022-07-18
# 視覚トランスフォーマーの多次元注意

Multi-manifold Attention for Vision Transformers ( http://arxiv.org/abs/2207.08569v1 )

ライセンス: Link先を確認
Dimitrios Konstantinidis, Ilias Papastratis, Kosmas Dimitropoulos, Petros Daras(参考訳) 視覚トランスフォーマーは、画像分類やアクション認識など、いくつかのコンピュータビジョンタスクにおける最先端のパフォーマンスのため、現在非常に人気がある。 畳み込みニューラルネットワーク,階層構造,コンパクト形式を用いて,視覚トランスフォーマーの性能は大幅に改善されているが,トランスフォーマーネットワークのマルチヘッドアテンションから導かれるアテンションマップを改良するために,追加のデータ表現を利用する方法が限られている。 本研究は,トランスフォーマリンネットワークにおける標準的な注意機構を代替する,マルチマニフォールド注意と呼ばれる新しい注意機構を提案する。 提案する注意空間は、3つの異なる多様体、すなわちユークリッド、対称正定値およびグラスマンの入力空間を、異なる統計的および幾何学的性質でモデル化し、高記述的な注意マップの計算のために画像の外観、色、テクスチャを記述する豊富な情報集合を考慮するようにネットワークを導いた。 このようにして、提案する視覚変換器は、識別的特徴に対してより注意を払っていくように誘導され、いくつかのよく知られた画像分類データセットの実験結果に示されるように、分類結果が改善される。

Vision Transformer are very popular nowadays due to their state-of-the-art performance in several computer vision tasks, such as image classification and action recognition. Although the performance of Vision Transformers have been greatly improved by employing Convolutional Neural Networks, hierarchical structures and compact forms, there is limited research on ways to utilize additional data representations to refine the attention map derived from the multi-head attention of a Transformer network. This work proposes a novel attention mechanism, called multi-manifold attention, that can substitute any standard attention mechanism in a Transformer-based network. The proposed attention models the input space in three distinct manifolds, namely Euclidean, Symmetric Positive Definite and Grassmann, with different statistical and geometrical properties, guiding the network to take into consideration a rich set of information that describe the appearance, color and texture of an image, for the computation of a highly descriptive attention map. In this way, a Vision Transformer with the proposed attention is guided to become more attentive towards discriminative features, leading to improved classification results, as shown by the experimental results on several well-known image classification datasets.
翻訳日:2022-07-19 17:11:44 公開日:2022-07-18
# ExAgt: 交通シナリオの表現学習のためのエキスパートガイド強化

ExAgt: Expert-guided Augmentation for Representation Learning of Traffic Scenarios ( http://arxiv.org/abs/2207.08609v1 )

ライセンス: Link先を確認
Lakshman Balasubramanian, Jonas Wurst, Robin Egolf, Michael Botsch, Wolfgang Utschick and Ke Deng(参考訳) 近年,自己指導型学習手法によって表現学習が進められている。 入力データは2つの歪んだビューに拡張され、エンコーダは歪みに不変な表現(クロスビュー予測)を学ぶ。 拡張は、視覚表現を学ぶために、クロスビューの自己教師付き学習フレームワークの重要なコンポーネントの1つです。 本稿では,人間のアノテーションを使わずに学習表現を改善するために,トラヒックシナリオを補完する専門家知識を含む新しい手法であるexagtを提案する。 エキスパートガイドによる拡張は、インフラストラクチャ、egoとトラフィック参加者とのインタラクション、理想的なセンサーモデルに基づいて、自動化された方法で生成される。 ExAgt法は2つの最先端のクロスビュー予測手法に適用され、学習した表現は分類やクラスタリングといった下流タスクでテストされる。 その結果,ExAgt法は,標準拡張法よりも表現学習が向上し,表現空間の安定性が向上した。 コードは \url{https://github.com/lab176344/exagt} で入手できる。

Representation learning in recent years has been addressed with self-supervised learning methods. The input data is augmented into two distorted views and an encoder learns the representations that are invariant to distortions -- cross-view prediction. Augmentation is one of the key components in cross-view self-supervised learning frameworks to learn visual representations. This paper presents ExAgt, a novel method to include expert knowledge for augmenting traffic scenarios, to improve the learnt representations without any human annotation. The expert-guided augmentations are generated in an automated fashion based on the infrastructure, the interactions between the EGO and the traffic participants and an ideal sensor model. The ExAgt method is applied in two state-of-the-art cross-view prediction methods and the representations learnt are tested in downstream tasks like classification and clustering. Results show that the ExAgt method improves representation learning compared to using only standard augmentations and it provides a better representation space stability. The code is available at \url{https://github.com/lab176344/ExAgt}.
翻訳日:2022-07-19 17:11:21 公開日:2022-07-18
# 事前学習によるシーケンス生成としてのイベント検出とキャプションの統一

Unifying Event Detection and Captioning as Sequence Generation via Pre-Training ( http://arxiv.org/abs/2207.08625v1 )

ライセンス: Link先を確認
Qi Zhang and Yuqing Song and Qin Jin(参考訳) 密集したビデオキャプションは、一連のイベントに対して対応するテキスト記述を生成することを目的としており、イベント検出とイベントキャプションという2つのサブタスクに分類することができる。 2つのサブタスクを別々に扱う以前の作業とは異なり、最近の作業は2つのサブタスク間のタスク間の関連付けを強化することに重点を置いている。 しかし,タスク固有のソリューションに大きな違いがあるため,イベント検出とキャプションのためのタスク間インタラクションの設計は容易ではない。 さらに、従来のイベント検出方法は、通常、イベント間の時間的依存関係を無視し、イベントの冗長性や一貫性の問題を引き起こす。 本稿では,この2つの欠陥に対処するため,イベント検出をシーケンス生成タスクとして定義し,イベント検出とキャプションのタスク間関係を自然に強化する統合事前学習および微調整フレームワークを提案する。 このモデルでは,過去のイベントをコンテキストとして予測するため,イベント間の相互依存性を完全に活用し,より多様で一貫したイベントを検出することができる。 ActivityNetデータセットの実験では、我々のモデルは最先端の手法よりも優れており、大規模なビデオテキストデータで事前トレーニングされた場合、さらなる向上が期待できる。 コードは \url{https://github.com/QiQAng/UEDVC} で入手できる。

Dense video captioning aims to generate corresponding text descriptions for a series of events in the untrimmed video, which can be divided into two sub-tasks, event detection and event captioning. Unlike previous works that tackle the two sub-tasks separately, recent works have focused on enhancing the inter-task association between the two sub-tasks. However, designing inter-task interactions for event detection and captioning is not trivial due to the large differences in their task specific solutions. Besides, previous event detection methods normally ignore temporal dependencies between events, leading to event redundancy or inconsistency problems. To tackle above the two defects, in this paper, we define event detection as a sequence generation task and propose a unified pre-training and fine-tuning framework to naturally enhance the inter-task association between event detection and captioning. Since the model predicts each event with previous events as context, the inter-dependency between events is fully exploited and thus our model can detect more diverse and consistent events in the video. Experiments on the ActivityNet dataset show that our model outperforms the state-of-the-art methods, and can be further boosted when pre-trained on extra large-scale video-text data. Code is available at \url{https://github.com/QiQAng/UEDVC}.
翻訳日:2022-07-19 17:11:03 公開日:2022-07-18
# 3次元表現のための表面符号による潜時分割

Latent Partition Implicit with Surface Codes for 3D Representation ( http://arxiv.org/abs/2207.08631v1 )

ライセンス: Link先を確認
Chao Chen, Yu-Shen Liu, Zhihong Han(参考訳) 深い暗黙関数は、様々な3dコンピュータビジョンタスクにおいて顕著な形状モデリング能力を示している。 1つの欠点は、3d形状を複数の部品として表現することが難しいことである。 現在の解は、様々なプリミティブを学習し、空間空間に直接プリミティブをブレンドする。 そこで本研究では, 潜在空間の部分集合として1つの3次元形状を表現するための新しい暗黙表現を, 高精度かつ解釈可能な形状モデリングに導入する。 ここでの私たちの洞察は、部分学習と部分ブレンディングの両方が、空間空間よりも潜在空間の方がずっと簡単に行えるということです。 提案手法は,グローバルな形状モデリングを複数の局所的な部分モデリングに流し込み,グローバルな形状統一を分割する能力から,LPI (Latent Partition Implicit) と命名する。 lpiは表面符号を用いた符号付き距離関数(sdfs)の形状を表す。 各曲面符号は, 中心が表面にある部分を表す潜在符号であり, 形状の固有特性や付加表面特性を柔軟に利用することができる。 最終的にLPIは、形状と形状上の部分の両方を再構築することができる。 LPIはマルチレベル表現であり、トレーニング後に形状を異なる数の部品に分割することができる。 LPIは、真実に署名された距離、点正規あるいは部分分割の監督なしに学習することができる。 LPIは、リコンストラクション精度とモデル解釈可能性の観点から、広く使われているベンチマークで最新の手法より優れている。 私たちのコード、データ、モデルはhttps://github.com/chenchao15/lpiで利用可能です。

Deep implicit functions have shown remarkable shape modeling ability in various 3D computer vision tasks. One drawback is that it is hard for them to represent a 3D shape as multiple parts. Current solutions learn various primitives and blend the primitives directly in the spatial space, which still struggle to approximate the 3D shape accurately. To resolve this problem, we introduce a novel implicit representation to represent a single 3D shape as a set of parts in the latent space, towards both highly accurate and plausibly interpretable shape modeling. Our insight here is that both the part learning and the part blending can be conducted much easier in the latent space than in the spatial space. We name our method Latent Partition Implicit (LPI), because of its ability of casting the global shape modeling into multiple local part modeling, which partitions the global shape unity. LPI represents a shape as Signed Distance Functions (SDFs) using surface codes. Each surface code is a latent code representing a part whose center is on the surface, which enables us to flexibly employ intrinsic attributes of shapes or additional surface properties. Eventually, LPI can reconstruct both the shape and the parts on the shape, both of which are plausible meshes. LPI is a multi-level representation, which can partition a shape into different numbers of parts after training. LPI can be learned without ground truth signed distances, point normals or any supervision for part partition. LPI outperforms the latest methods under the widely used benchmarks in terms of reconstruction accuracy and modeling interpretability. Our code, data and models are available at https://github.com/chenchao15/LPI.
翻訳日:2022-07-19 17:10:40 公開日:2022-07-18
# 室内シーンの高忠実度単視点総合再構築に向けて

Towards High-Fidelity Single-view Holistic Reconstruction of Indoor Scenes ( http://arxiv.org/abs/2207.08656v1 )

ライセンス: Link先を確認
Haolin Liu, Yujian Zheng, Guanying Chen, Shuguang Cui and Xiaoguang Han(参考訳) 本稿では,室内の背景や室内の物体を含む全体的3dシーンを,単視点画像から再構成する新しい枠組みを提案する。 既存の手法では,室内のシーンが重く隠蔽されているため,幾何学的品質の低い室内物体の3次元形状しか生成できない。 そこで本研究では,詳細なオブジェクト再構成のためのインスタンス整列型暗黙関数(InstPIFu)を提案する。 本手法は,インスタンスアウェアメントモジュールと組み合わせて,混在するローカル特徴を隠蔽されたインスタンスに分離する。 さらに,室内背景を3次元境界箱,深度マップ,平面の集合として表現する従来の手法とは異なり,暗黙的な表現によって背景の微細な形状を復元する。 e SUN RGB-D, Pix3D, 3D-FUTURE, 3D-FRONTデータセットの大規模な実験により, この手法は背景および前景のオブジェクト再構成において既存手法よりも優れていることが示された。 私たちのコードとモデルは公開されます。

We present a new framework to reconstruct holistic 3D indoor scenes including both room background and indoor objects from single-view images. Existing methods can only produce 3D shapes of indoor objects with limited geometry quality because of the heavy occlusion of indoor scenes. To solve this, we propose an instance-aligned implicit function (InstPIFu) for detailed object reconstruction. Combining with instance-aligned attention module, our method is empowered to decouple mixed local features toward the occluded instances. Additionally, unlike previous methods that simply represents the room background as a 3D bounding box, depth map or a set of planes, we recover the fine geometry of the background via implicit representation. Extensive experiments on the e SUN RGB-D, Pix3D, 3D-FUTURE, and 3D-FRONT datasets demonstrate that our method outperforms existing approaches in both background and foreground object reconstruction. Our code and model will be made publicly available.
翻訳日:2022-07-19 17:10:14 公開日:2022-07-18
# パッチベース時間冗長最適化によるビデオ超解像の高速化

Boosting Video Super Resolution with Patch-Based Temporal Redundancy Optimization ( http://arxiv.org/abs/2207.08674v1 )

ライセンス: Link先を確認
Yuhao Huang, Hang Dong, Jinshan Pan, Chao Zhu, Yu Guo, Ding Liu, Lean Fu, Fei Wang(参考訳) 既存のビデオ超解像(VSR)アルゴリズムの成功は、主に隣接するフレームからの時間情報を利用する。 しかし,これらの手法では,パッチの時間的冗長性が静止物体や背景に与える影響を議論することはなく,通常,隣接フレーム内のすべての情報を識別することなく利用する。 本稿では,時間的冗長性が情報伝達に悪影響を及ぼし,既存のVSR手法の性能が制限されることを観察する。 本研究の目的は、時間的冗長パッチを最適化した方法で処理することで既存のVSRアルゴリズムを改善することである。 我々は,既存の局所的および非局所的伝播に基づくvsrアルゴリズムの性能を向上させるための,簡易かつ効果的な2つのプラグ・アンド・プレイ手法を開発した。 既存のVSRアルゴリズムの堅牢性と性能をより包括的に評価するために、テストセットとしてさまざまな公開ビデオを含む新しいデータセットも収集する。 広範評価の結果,提案手法は,既存の一般的なデータセットの性能を維持しつつ,野生のシナリオから収集したビデオ上での既存のVSR手法の性能を大幅に向上させることができることがわかった。 コードはhttps://github.com/hyhsimon/boosted-vsrで入手できる。

The success of existing video super-resolution (VSR) algorithms stems mainly exploiting the temporal information from the neighboring frames. However, none of these methods have discussed the influence of the temporal redundancy in the patches with stationary objects and background and usually use all the information in the adjacent frames without any discrimination. In this paper, we observe that the temporal redundancy will bring adverse effect to the information propagation,which limits the performance of the most existing VSR methods. Motivated by this observation, we aim to improve existing VSR algorithms by handling the temporal redundancy patches in an optimized manner. We develop two simple yet effective plug and play methods to improve the performance of existing local and non-local propagation-based VSR algorithms on widely-used public videos. For more comprehensive evaluating the robustness and performance of existing VSR algorithms, we also collect a new dataset which contains a variety of public videos as testing set. Extensive evaluations show that the proposed methods can significantly improve the performance of existing VSR methods on the collected videos from wild scenarios while maintain their performance on existing commonly used datasets. The code is available at https://github.com/HYHsimon/Boosted-VSR.
翻訳日:2022-07-19 17:09:57 公開日:2022-07-18
# Label2Label: マルチ属性学習のための言語モデリングフレームワーク

Label2Label: A Language Modeling Framework for Multi-Attribute Learning ( http://arxiv.org/abs/2207.08677v1 )

ライセンス: Link先を確認
Wanhua Li, Zhexuan Cao, Jianjiang Feng, Jie Zhou, Jiwen Lu(参考訳) オブジェクトは通常、複数の属性に関連付けられ、これらの属性はしばしば高い相関を示す。 属性間の複雑な関係をモデル化することは、複数属性学習にとって大きな課題となる。 本稿では,複雑な属性相関を利用した単純かつ汎用的なフレームワーク label2label を提案する。 Label2Labelは、言語モデリングの観点からのマルチ属性予測の最初の試みである。 具体的には、各属性ラベルをサンプルを記述する"word"として扱う。 各サンプルには複数の属性ラベルがアノテートされているため、これらの"ワード"は自然に無秩序だが意味のある"文"を形成し、対応するサンプルの意味情報を記述する。 ラベル2Labelは、NLPにおける事前学習言語モデルの顕著な成功に触発され、画像条件付きマスク付き言語モデルを導入し、ラベルの「文」から「語」トークンの一部をランダムにマスキングし、マスクされた「文」と画像の特徴によって伝達されるコンテキストに基づいてそれらを回復することを目的としている。 我々の直感は、ニューラルネットワークがコンテキストと残りの属性ヒントに基づいて欠落した属性を推測できる場合、インスタンスの属性関係がよく把握されるということである。 label2labelは概念的にシンプルで経験的に強力です。 タスク固有の事前知識と高度に専門化されたネットワーク設計を組み込まずに,高度にカスタマイズされたドメイン固有手法と比較して,3つの異なるマルチ属性学習タスクの最先端結果を達成する。 コードはhttps://github.com/Li-Wanhua/Label2Labelで入手できる。

Objects are usually associated with multiple attributes, and these attributes often exhibit high correlations. Modeling complex relationships between attributes poses a great challenge for multi-attribute learning. This paper proposes a simple yet generic framework named Label2Label to exploit the complex attribute correlations. Label2Label is the first attempt for multi-attribute prediction from the perspective of language modeling. Specifically, it treats each attribute label as a "word" describing the sample. As each sample is annotated with multiple attribute labels, these "words" will naturally form an unordered but meaningful "sentence", which depicts the semantic information of the corresponding sample. Inspired by the remarkable success of pre-training language models in NLP, Label2Label introduces an image-conditioned masked language model, which randomly masks some of the "word" tokens from the label "sentence" and aims to recover them based on the masked "sentence" and the context conveyed by image features. Our intuition is that the instance-wise attribute relations are well grasped if the neural net can infer the missing attributes based on the context and the remaining attribute hints. Label2Label is conceptually simple and empirically powerful. Without incorporating task-specific prior knowledge and highly specialized network designs, our approach achieves state-of-the-art results on three different multi-attribute learning tasks, compared to highly customized domain-specific methods. Code is available at https://github.com/Li-Wanhua/Label2Label.
翻訳日:2022-07-19 17:09:39 公開日:2022-07-18
# (参考訳) 機械翻訳におけるロバスト強化学習のためのMAD

MAD for Robust Reinforcement Learning in Machine Translation ( http://arxiv.org/abs/2207.08583v1 )

ライセンス: CC BY 4.0
Domenic Donato, Lei Yu, Wang Ling, Chris Dyer(参考訳) 本稿では,新たな分散ポリシー勾配アルゴリズムを導入し,機械翻訳モデルの最適化における学習安定性と一般化性能の観点から,mrtやppoといった既存の報酬対応訓練手順よりも優れていることを示す。 我々のアルゴリズムはMADと呼ばれ(重み付け計算における平均絶対偏差を用いて)、分散データ生成器がワーカーノード上のソース文毎に複数の候補をサンプリングし、中央学習者がポリシーを更新する。 madは、(1)各文が正と負の両方の報酬翻訳例を持つことを保証する条件付き報酬正規化法、(2)条件付きエントロピー正規化として働く新しい堅牢な重要性重み付けスキームである。 各種翻訳タスクの実験では、グリージーデコードとビームサーチの両方を用いてMADアルゴリズムを用いて学習したポリシーがよく機能し、学習されたポリシーはトレーニング中に使用する特定の報酬に敏感であることが示されている。

We introduce a new distributed policy gradient algorithm and show that it outperforms existing reward-aware training procedures such as REINFORCE, minimum risk training (MRT) and proximal policy optimization (PPO) in terms of training stability and generalization performance when optimizing machine translation models. Our algorithm, which we call MAD (on account of using the mean absolute deviation in the importance weighting calculation), has distributed data generators sampling multiple candidates per source sentence on worker nodes, while a central learner updates the policy. MAD depends crucially on two variance reduction strategies: (1) a conditional reward normalization method that ensures each source sentence has both positive and negative reward translation examples and (2) a new robust importance weighting scheme that acts as a conditional entropy regularizer. Experiments on a variety of translation tasks show that policies learned using the MAD algorithm perform very well when using both greedy decoding and beam search, and that the learned policies are sensitive to the specific reward used during training.
翻訳日:2022-07-19 17:08:28 公開日:2022-07-18
# (参考訳) pGMMカーネル回帰とブーストツリーとの比較

pGMM Kernel Regression and Comparisons with Boosted Trees ( http://arxiv.org/abs/2207.08667v1 )

ライセンス: CC BY 4.0
Ping Li and Weijie Zhao(参考訳) 本研究では、(リッジ)回帰の文脈において、pGMM(`powered generalized min-max'')カーネルの利点を実証する。 近年の研究では、pGMMカーネルはロジスティック回帰、サポートベクターマシン、ディープニューラルネットワークといった分類タスクのために広く評価されている。 本稿では, pgmmカーネル回帰と通常のリッジ線形回帰, rbfカーネルリッジ回帰を比較するために, リッジ回帰について実験的に検討する。 おそらく驚くことに、チューニングパラメータ(pGMMカーネルのパワーパラメータの$p=1$)がなくても、pGMMカーネルはすでによく機能している。 さらに、パラメータ $p$ をチューニングすることで、この(疑わしいほど単純な)pgmmカーネルは、ブーストツリーと非常に相性が良い。 強化と強化された木は、機械学習の実践で非常に人気がある。 回帰タスクの場合、典型的には、実践者は$l_2$の損失を最小限にするために$l_2$ boostを使用する。 堅牢性のために、$L_1$ boostが選択されることもある。 本研究では,$L_p$ boost for $p\geq 1$を実装し, ``Fast ABC-Boost'' パッケージに含まれる。 おそらく驚くべきことに、最高のパフォーマンス($L_2$回帰損失)は、しばしば$p>2$で達成され、場合によっては$p\gg 2$である。 この現象はすでにLi et al (UAI 2010) によって k-アネレスト近傍の分類において$L_p$距離を用いて証明されている。 まとめると、$L_p$ boostの実装は、レグレッションアプリケーションでより良い精度を達成するために強化アルゴリズムをチューニングする柔軟性を提供する。

In this work, we demonstrate the advantage of the pGMM (``powered generalized min-max'') kernel in the context of (ridge) regression. In recent prior studies, the pGMM kernel has been extensively evaluated for classification tasks, for logistic regression, support vector machines, as well as deep neural networks. In this paper, we provide an experimental study on ridge regression, to compare the pGMM kernel regression with the ordinary ridge linear regression as well as the RBF kernel ridge regression. Perhaps surprisingly, even without a tuning parameter (i.e., $p=1$ for the power parameter of the pGMM kernel), the pGMM kernel already performs well. Furthermore, by tuning the parameter $p$, this (deceptively simple) pGMM kernel even performs quite comparably to boosted trees. Boosting and boosted trees are very popular in machine learning practice. For regression tasks, typically, practitioners use $L_2$ boost, i.e., for minimizing the $L_2$ loss. Sometimes for the purpose of robustness, the $L_1$ boost might be a choice. In this study, we implement $L_p$ boost for $p\geq 1$ and include it in the package of ``Fast ABC-Boost''. Perhaps also surprisingly, the best performance (in terms of $L_2$ regression loss) is often attained at $p>2$, in some cases at $p\gg 2$. This phenomenon has already been demonstrated by Li et al (UAI 2010) in the context of k-nearest neighbor classification using $L_p$ distances. In summary, the implementation of $L_p$ boost provides practitioners the additional flexibility of tuning boosting algorithms for potentially achieving better accuracy in regression applications.
翻訳日:2022-07-19 16:34:24 公開日:2022-07-18
# 拡張ガーソンアルゴリズムを用いた説明可能なディープリーフネットワークに基づくオートエンコーダ

Explainable Deep Belief Network based Auto encoder using novel Extended Garson Algorithm ( http://arxiv.org/abs/2207.08501v1 )

ライセンス: Link先を確認
Satyam Kumar and Vadlamani Ravi(参考訳) 機械学習の最も難しいタスクは、訓練された浅いニューラルネットワークを解釈することである。 ディープニューラルネットワーク(DNN)は、多くのタスクにおいて印象的な結果をもたらすが、そのような訓練されたディープニューラルネットワークによってどのように決定されるかは、一般的には定かではない。 機能の重要性を提供することは、浅層および深層ニューラルネットワークで使用される最も重要で一般的な解釈技術である。 本稿では,Deep Belief Network based Auto-Encoder (DBNA) を説明するために,ガーソンアルゴリズムのアイデアを拡張したアルゴリズムを開発する。 DBNにおける各入力特徴の寄与を決定するために使用される。 多くの隠れレイヤを持つ任意の種類のニューラルネットワークに使用できる。 本手法の有効性は,文献から抽出した分類データと回帰データの両方で検証した。 この方法で識別される重要な特徴は、wald chi square (\c{hi}2) によって得られた特徴と比較される。 4つの分類データセットのうち2つと5つの回帰データセットのうち2つについて,提案手法は品質の高い特徴を同定し,統計学的に有意な結果を得た。

The most difficult task in machine learning is to interpret trained shallow neural networks. Deep neural networks (DNNs) provide impressive results on a larger number of tasks, but it is generally still unclear how decisions are made by such a trained deep neural network. Providing feature importance is the most important and popular interpretation technique used in shallow and deep neural networks. In this paper, we develop an algorithm extending the idea of Garson Algorithm to explain Deep Belief Network based Auto-encoder (DBNA). It is used to determine the contribution of each input feature in the DBN. It can be used for any kind of neural network with many hidden layers. The effectiveness of this method is tested on both classification and regression datasets taken from literature. Important features identified by this method are compared against those obtained by Wald chi square (\c{hi}2). For 2 out of 4 classification datasets and 2 out of 5 regression datasets, our proposed methodology resulted in the identification of better-quality features leading to statistically more significant results vis-\`a-vis Wald \c{hi}2.
翻訳日:2022-07-19 16:23:02 公開日:2022-07-18
# 大規模知識グラフ埋め込みのためのハードウェア非依存計算法

Hardware-agnostic Computation for Large-scale Knowledge Graph Embeddings ( http://arxiv.org/abs/2207.08544v1 )

ライセンス: Link先を確認
Caglar Demir and Axel-Cyrille Ngonga Ngomo(参考訳) 知識グラフ埋め込み研究は主に、知識グラフの連続表現をリンク予測問題に学習することに焦点を当てている。 近年開発されたフレームワークは研究関連のアプリケーションに効果的に適用できる。 しかし、これらのフレームワークは現実世界のアプリケーションの要求の多くを満たさない。 ナレッジグラフのサイズが大きくなるにつれて、これらのフレームワーク内のコモディティコンピュータからコンピュータクラスタへの計算の移動がより困難になる。 適切なハイパーパラメータ設定を見つけるには、時間と計算予算を実践者に委ねる。 加えて、知識グラフ埋め込みフレームワークにおける連続学習の側面はしばしば無視されるが、連続学習は多くの現実世界(深い)学習駆動アプリケーションにおいて重要な役割を果たす。 これらの制限は、大きな知識グラフに対する公開知識グラフ埋め込みモデルの欠如を説明できる。 我々は,DASK,Pytorch Lightning,Hugging Faceといったフレームワークを基盤として,ハードウェアに依存しない大規模知識グラフの埋め込みを計算するフレームワークを開発した。 当社のフレームワークのオープンソースバージョンと,11.4B以上のパラメータを持つトレーニング済みモデルのハブを提供しています。

Knowledge graph embedding research has mainly focused on learning continuous representations of knowledge graphs towards the link prediction problem. Recently developed frameworks can be effectively applied in research related applications. Yet, these frameworks do not fulfill many requirements of real-world applications. As the size of the knowledge graph grows, moving computation from a commodity computer to a cluster of computers in these frameworks becomes more challenging. Finding suitable hyperparameter settings w.r.t. time and computational budgets are left to practitioners. In addition, the continual learning aspect in knowledge graph embedding frameworks is often ignored, although continual learning plays an important role in many real-world (deep) learning-driven applications. Arguably, these limitations explain the lack of publicly available knowledge graph embedding models for large knowledge graphs. We developed a framework based on the frameworks DASK, Pytorch Lightning and Hugging Face to compute embeddings for large-scale knowledge graphs in a hardware-agnostic manner, which is able to address real-world challenges pertaining to the scale of real application. We provide an open-source version of our framework along with a hub of pre-trained models having more than 11.4 B parameters.
翻訳日:2022-07-19 16:22:46 公開日:2022-07-18
# FunQG: グラフを用いた分子表現学習

FunQG: Molecular Representation Learning Via Quotient Graphs ( http://arxiv.org/abs/2207.08597v1 )

ライセンス: Link先を確認
Hossein Hajiabolhassan, Zahra Taheri, Ali Hojatnia, Yavar Taheri Yeganeh(参考訳) 分子特性の正確な予測を容易にするためには, 分子表現の学習が不可欠である。 分子表現学習におけるグラフニューラルネットワーク(GNN)の顕著な進歩にもかかわらず、それらは一般的に、隣人の爆発、下降、過密、過密といった制限に直面している。 また、gnnは通常、大規模なパラメータ数のため計算の複雑さが高い。 通常、そのような制限は、比較的大きなグラフに直面したり、より深いGNNモデルアーキテクチャを使用したりする際に現れる。 これらの問題を克服する一つのアイデアは、分子グラフを小さく、豊かで、情報に富んだグラフに単純化することである。 そこで本研究では,関数群を利用した新しい分子グラフ粗粒化フレームワークfunqgを提案する。 実験により, 得られた情報グラフは分子グラフよりもはるかに小さいため, GNNの学習に適していることが示された。 我々はFunQGを一般的な分子特性予測ベンチマークに適用し、得られたデータセット上でのGNNアーキテクチャの性能と、元のデータセット上での最先端のベースラインを比較した。 実験により, この手法は, パラメータ数を大幅に削減し, 計算量が少ないことに加えて, 様々なデータセットのベースラインを著しく上回っている。 したがって、FunQGは分子表現学習問題を解決するための単純で費用効率のよい堅牢な方法として利用できる。

Learning expressive molecular representations is crucial to facilitate the accurate prediction of molecular properties. Despite the significant advancement of graph neural networks (GNNs) in molecular representation learning, they generally face limitations such as neighbors-explosion, under-reaching, over-smoothing, and over-squashing. Also, GNNs usually have high computational complexity because of the large-scale number of parameters. Typically, such limitations emerge or increase when facing relatively large-size graphs or using a deeper GNN model architecture. An idea to overcome these problems is to simplify a molecular graph into a small, rich, and informative one, which is more efficient and less challenging to train GNNs. To this end, we propose a novel molecular graph coarsening framework named FunQG utilizing Functional groups, as influential building blocks of a molecule to determine its properties, based on a graph-theoretic concept called Quotient Graph. By experiments, we show that the resulting informative graphs are much smaller than the molecular graphs and thus are good candidates for training GNNs. We apply the FunQG on popular molecular property prediction benchmarks and then compare the performance of a GNN architecture on the obtained datasets with several state-of-the-art baselines on the original datasets. By experiments, this method significantly outperforms previous baselines on various datasets, besides its dramatic reduction in the number of parameters and low computational complexity. Therefore, the FunQG can be used as a simple, cost-effective, and robust method for solving the molecular representation learning problem.
翻訳日:2022-07-19 16:22:28 公開日:2022-07-18
# 一般ノルムにおけるプライベート凸最適化

Private Convex Optimization in General Norms ( http://arxiv.org/abs/2207.08347v1 )

ライセンス: Link先を確認
Sivakanth Gopi, Yin Tat Lee, Daogao Liu, Ruoqi Shen, Kevin Tian(参考訳) 任意のノルム$\normx{\cdot}$におけるリプシッツである凸関数の微分プライベート最適化のための新しいフレームワークを提案する。 我々のアルゴリズムは、密度$\propto \exp(-k(F+\mu r))$、$F$は経験的損失であり、$r$は、$\normx{\cdot}$に対して強く凸な正規化子であり、近年の \cite{GLL22} の非ユークリッド設定への一般化である。 この機構はガウス微分プライバシーを満足し、凸幾何からの局在化ツールを用いてdp-erm(empirical risk minimization)とdp-sco(stochastic convex optimization)の両方を解決する。 我々のフレームワークは、一般的なノルム空間におけるプライベート凸最適化に初めて適用され、プライバシーパラメータ $\eps \to \infty$ としてミラー降下によって達成された非プライベートSCOレートを直接回収する。 アプリケーションとして、すべての$p \in (1, 2)$に対する$\ell_p$ノルムのリプシッツ最適化のために、最初の最適なプライバシユーティリティトレードオフを得る;$p = 1$の場合、私たちは、少なくとも対数係数によって、最近の研究である‘cite{AsiFKT21, BassilyGN21} によって得られるトレードオフを改善する。 我々の$\ell_p$ と schatten-$p$ の最適化フレームワークは、クエリの複雑さが明示的に束縛された多項式時間スプライマーで補完されます。

We propose a new framework for differentially private optimization of convex functions which are Lipschitz in an arbitrary norm $\normx{\cdot}$. Our algorithms are based on a regularized exponential mechanism which samples from the density $\propto \exp(-k(F+\mu r))$ where $F$ is the empirical loss and $r$ is a regularizer which is strongly convex with respect to $\normx{\cdot}$, generalizing a recent work of \cite{GLL22} to non-Euclidean settings. We show that this mechanism satisfies Gaussian differential privacy and solves both DP-ERM (empirical risk minimization) and DP-SCO (stochastic convex optimization), by using localization tools from convex geometry. Our framework is the first to apply to private convex optimization in general normed spaces, and directly recovers non-private SCO rates achieved by mirror descent, as the privacy parameter $\eps \to \infty$. As applications, for Lipschitz optimization in $\ell_p$ norms for all $p \in (1, 2)$, we obtain the first optimal privacy-utility tradeoffs; for $p = 1$, we improve tradeoffs obtained by the recent works \cite{AsiFKT21, BassilyGN21} by at least a logarithmic factor. Our $\ell_p$ norm and Schatten-$p$ norm optimization frameworks are complemented with polynomial-time samplers whose query complexity we explicitly bound.
翻訳日:2022-07-19 16:19:14 公開日:2022-07-18
# ManiFeSt: 小さなデータセットのための Manifold ベースの特徴選択

ManiFeSt: Manifold-based Feature Selection for Small Data Sets ( http://arxiv.org/abs/2207.08574v1 )

ライセンス: Link先を確認
David Cohen, Tal Shnitzer, Yuval Kluger and Ronen Talmon(参考訳) 本稿では,少数サンプル教師付き特徴選択(FS)のための新しい手法を提案する。 本手法は,マルチ機能関係を捉えるカーネルを用いて,まず各クラスの特徴空間の多様体を学習する。 次に、リーマン幾何学に基づいて複合核を計算し、学習された特徴関係の違いを抽出する。 最後に,スペクトル分析に基づくFSスコアを提案する。 多機能アソシエーションを考えると、この手法は設計によって多変量化される。 これにより、特徴の根底にある隠された多様体の抽出が可能になり、オーバーフィッティングを回避し、少数のサンプルFSを容易にすることができる。 提案手法の有効性を実例といくつかのベンチマークで示し,提案手法は競合手法と比較して情報的特徴の選択において高い精度を示す。 さらに,テストデータに適用した場合,FSにより分類が向上し,一般化が向上することを示す。

In this paper, we present a new method for few-sample supervised feature selection (FS). Our method first learns the manifold of the feature space of each class using kernels capturing multi-feature associations. Then, based on Riemannian geometry, a composite kernel is computed, extracting the differences between the learned feature associations. Finally, a FS score based on spectral analysis is proposed. Considering multi-feature associations makes our method multivariate by design. This in turn allows for the extraction of the hidden manifold underlying the features and avoids overfitting, facilitating few-sample FS. We showcase the efficacy of our method on illustrative examples and several benchmarks, where our method demonstrates higher accuracy in selecting the informative features compared to competing methods. In addition, we show that our FS leads to improved classification and better generalization when applied to test data.
翻訳日:2022-07-19 16:18:43 公開日:2022-07-18
# シンメトリフィケーションロバストプロクリスト:定数係数近似と排他的回復

Symmetrized Robust Procrustes: Constant-Factor Approximation and Exact Recovery ( http://arxiv.org/abs/2207.08592v1 )

ライセンス: Link先を確認
Tal Amir, Shahar Kovalsky, Nadav Dym(参考訳) 古典的な$\textit{procrustes}$問題は、与えられた2つの点集合を最小二乗意味で最も整列させる剛体運動(オルトゴナル変換と変換)を見つけることである。 問題である$\textit{robust procrustes}$ は、外れ値に対するロバスト性を改善するために最小二乗の代わりに power-1 目標を使用する重要な変種である。 最小二乗問題の最適解は、Sch\"onemann (1966) にさかのぼる閉形式で容易に計算できるが、パワー1問題ではそのような解は知られていない。 本稿では,ロバスト・プロクルス問題に対する新しい凸緩和法を提案する。 理論的には、この方法がロバストなプロクルス問題に対して$\sqrt{2}$-factorの近似を提供し、適切な仮定の下では、異常値によって汚染された点対応から真の剛体運動を正確に回復できることを証明します。 実際、合成と実ロバストの両方の問題に関する数値実験において、本手法は標準の反復重み付け最小二乗法(irls)と同様に動作する。 しかし,提案アルゴリズムの凸性は,IRLSに容易に対応できない凸ペナルティを付加することができる。 これは大きな利点であり、非剛体形状アライメントや半教師付き言語間単語翻訳などの高次元問題の結果の改善につながった。

The classical $\textit{Procrustes}$ problem is to find a rigid motion (orthogonal transformation and translation) that best aligns two given point-sets in the least-squares sense. The $\textit{Robust Procrustes}$ problem is an important variant, in which a power-1 objective is used instead of least squares to improve robustness to outliers. While the optimal solution of the least-squares problem can be easily computed in closed form, dating back to Sch\"onemann (1966), no such solution is known for the power-1 problem. In this paper we propose a novel convex relaxation for the Robust Procrustes problem. Our relaxation enjoys several theoretical and practical advantages: Theoretically, we prove that our method provides a $\sqrt{2}$-factor approximation to the Robust Procrustes problem, and that, under appropriate assumptions, it exactly recovers the true rigid motion from point correspondences contaminated by outliers. In practice, we find in numerical experiments on both synthetic and real robust Procrustes problems, that our method performs similarly to the standard Iteratively Reweighted Least Squares (IRLS). However the convexity of our algorithm allows incorporating additional convex penalties, which are not readily amenable to IRLS. This turns out to be a substantial advantage, leading to improved results in high-dimensional problems, including non-rigid shape alignment and semi-supervised interlingual word translation.
翻訳日:2022-07-19 16:17:56 公開日:2022-07-18
# リアプノフ関数を持たない強化学習について

On stabilizing reinforcement learning without Lyapunov functions ( http://arxiv.org/abs/2207.08730v1 )

ライセンス: Link先を確認
Pavel Osinenko, Grigory Yaremenko, Georgiy Malaniya(参考訳) 強化学習は、制御工学と機械学習の現代発展の主要な方向の1つである。 微妙な直感、フレキシブルな設定、アプリケーションの容易さは、この方法論の多くの要素のひとつです。 機械学習の立場から見ると、強化学習エージェントの主な強みは、与えられた環境における最適な動作を「獲得」(learn)する能力である。 通常、エージェントはニューラルネットワーク上に構築され、その近似能力によって上記の信念がもたらされる。 しかし,制御工学の観点からは,強化学習には深刻な欠陥がある。 最も重要なことは、エージェント環境閉ループの安定性保証の欠如である。 強化学習の安定化に向けた多くの研究が進められている。 安定性について言えば、有名なリャプノフ理論は事実上の道具である。 したがって、強化学習を安定化させる技術が、いずれにせよ、リャプノフ理論に依存しているのは当然である。 制御理論では、安定化コントローラとリャプノフ函数の間に複雑な接続が存在する。 このようなペアを採用することは、強化学習を安定化させる設計に非常に魅力的である。 しかし、リャプノフ関数の計算は一般に面倒な過程である。 本稿では,そのような機能を全く利用しない安定化強化学習エージェントの構築方法について述べる。 Lyapunov 関数が存在すると仮定するだけであり、これは与えられた系 (read: environment) が安定化可能であるならば当然のことだが、計算する必要はない。

Reinforcement learning remains one of the major directions of the contemporary development of control engineering and machine learning. Nice intuition, flexible settings, ease of application are among the many perks of this methodology. From the standpoint of machine learning, the main strength of a reinforcement learning agent is its ability to ``capture" (learn) the optimal behavior in the given environment. Typically, the agent is built on neural networks and it is their approximation abilities that give rise to the above belief. From the standpoint of control engineering, however, reinforcement learning has serious deficiencies. The most significant one is the lack of stability guarantee of the agent-environment closed loop. A great deal of research was and is being made towards stabilizing reinforcement learning. Speaking of stability, the celebrated Lyapunov theory is the de facto tool. It is thus no wonder that so many techniques of stabilizing reinforcement learning rely on the Lyapunov theory in one way or another. In control theory, there is an intricate connection between a stabilizing controller and a Lyapunov function. Employing such a pair seems thus quite attractive to design stabilizing reinforcement learning. However, computation of a Lyapunov function is generally a cumbersome process. In this note, we show how to construct a stabilizing reinforcement learning agent that does not employ such a function at all. We only assume that a Lyapunov function exists, which is a natural thing to do if the given system (read: environment) is stabilizable, but we do not need to compute one.
翻訳日:2022-07-19 16:17:27 公開日:2022-07-18
# 新型コロナウイルスワクチンに関する物語の分類

Classifying COVID-19 vaccine narratives ( http://arxiv.org/abs/2207.08522v1 )

ライセンス: Link先を確認
Yue Li, Carolina Scarton, Xingyi Song, Kalina Bontcheva (University of Sheffield)(参考訳) 政府の情報キャンペーンやwhoの取り組みにもかかわらず、covid-19ワクチンの寛大さは広範囲に及んでいる。 この原因の1つは、ソーシャルメディアに広く浸透するワクチンの偽情報である。 特に最近の調査では、ワクチンの偽情報が新型コロナウイルスの予防接種に対する市民の負の信頼に影響を与えていることが示されている。 同時に、ファクトチェッカーは、大規模なソーシャルメディアによって、ワクチンの不正情報の検出と追跡に苦労している。 そこで本研究では, 新型コロナウイルスワクチンの主張を7つのカテゴリーの1つに分類する新たなワクチン物語分類タスクについて検討する。 データ拡張アプローチに従って、まず、マイノリティクラスに焦点を当てた、この新しい分類タスクのための新しいデータセットを構築します。 また、ファクトチェックアノテートデータも利用しています。 また,クロスバリデーション下での精度を84%に向上する神経ワクチン物語分類器を提案する。 この分類器は研究者やジャーナリストに公開されている。

COVID-19 vaccine hesitancy is widespread, despite governments' information campaigns and WHO efforts. One of the reasons behind this is vaccine disinformation which widely spreads in social media. In particular, recent surveys have established that vaccine disinformation is impacting negatively citizen trust in COVID-19 vaccination. At the same time, fact-checkers are struggling with detecting and tracking of vaccine disinformation, due to the large scale of social media. To assist fact-checkers in monitoring vaccine narratives online, this paper studies a new vaccine narrative classification task, which categorises COVID-19 vaccine claims into one of seven categories. Following a data augmentation approach, we first construct a novel dataset for this new classification task, focusing on the minority classes. We also make use of fact-checker annotated data. The paper also presents a neural vaccine narrative classifier that achieves an accuracy of 84% under cross-validation. The classifier is publicly available for researchers and journalists.
翻訳日:2022-07-19 16:15:50 公開日:2022-07-18
# 完全訓練可能なガウス微分畳み込み層

Fully trainable Gaussian derivative convolutional layer ( http://arxiv.org/abs/2207.08424v1 )

ライセンス: Link先を確認
Valentin Penaud--Polge (CMM), Santiago Velasco-Forero (CMM), Jesus Angulo (CMM)(参考訳) ガウス核とその誘導体は、以前のいくつかの研究で既に畳み込みニューラルネットワークに使われている。 これらの論文の多くは、固定またはわずかに訓練可能なガウス核の1つまたは複数の基底と微分の有無を線形に組み合わせてフィルタを計算することを提案した。 本稿では,先行研究で遭遇する概念を一般化した異方性・指向性・シフト型ガウス微分核に基づく高レベル構成可能層を提案する。 以上の結果から,提案する層は従来に比べて性能が優れており,画像分類用VGG16や画像セグメンテーション用U-netなど,一般的な深層アーキテクチャにも適用可能であることがわかった。

The Gaussian kernel and its derivatives have already been employed for Convolutional Neural Networks in several previous works. Most of these papers proposed to compute filters by linearly combining one or several bases of fixed or slightly trainable Gaussian kernels with or without their derivatives. In this article, we propose a high-level configurable layer based on anisotropic, oriented and shifted Gaussian derivative kernels which generalize notions encountered in previous related works while keeping their main advantage. The results show that the proposed layer has competitive performance compared to previous works and that it can be successfully included in common deep architectures such as VGG16 for image classification and U-net for image segmentation.
翻訳日:2022-07-19 16:15:34 公開日:2022-07-18
# Inspector: 探索、検出、調査によるPixelベースの自動ゲームテスト

Inspector: Pixel-Based Automated Game Testing via Exploration, Detection, and Investigation ( http://arxiv.org/abs/2207.08379v1 )

ライセンス: Link先を確認
Guoqing Liu, Mengzhang Cai, Li Zhao, Tao Qin, Adrian Brown, Jimmy Bischoff, Tie-Yan Liu(参考訳) deep reinforcement learning (drl) は自動ゲームテストで多くの注目を集めている。 初期の試みはゲームの内部情報をゲーム空間探索に頼っており、現実的な応用には不都合なゲームと深く統合する必要がある。 本研究では,自動ゲームテストの入力としてスクリーンショット/ピクセルのみを用い,ゲームと深く統合することなく容易に異なるゲームに適用可能な汎用ゲームテストエージェント,Inspectorを構築することを提案する。 テストのためにすべてのゲームスペースをカバーすることに加えて、エージェントはゲーム内の重要なオブジェクトと対話するために人間のような行動をとろうとします。 inspectorは純粋にピクセル入力に基づいており、game space explorer、key object detector、human-like object investigatorという3つのキーモジュールで構成されている。 ゲームスペースエクスプローラーは、画素入力を持つ好奇心に基づく報酬関数を用いて、ゲーム空間全体を探索することを目的としている。 キーオブジェクト検出器は、少数のラベル付きスクリーンショットに基づいて、ゲーム内のキーオブジェクトを検出することを目的としている。 人間に似た物体調査員は、模倣学習を通じて重要な物体を調査するために人間の行動を模倣することを目的としている。 我々は2つの人気ビデオゲーム、Shooter GameとAction RPG Gameで実験を行っている。 実験結果は,ゲーム空間の探索,キーオブジェクトの検出,オブジェクトの調査におけるインスペクタの有効性を示す。 さらに、Inspectorは2つのゲームで潜在的なバグを発見することに成功した。 Inspectorのデモビデオはhttps://github.com/Inspector-GameTesting/Inspector-GameTestingで公開されている。

Deep reinforcement learning (DRL) has attracted much attention in automated game testing. Early attempts rely on game internal information for game space exploration, thus requiring deep integration with games, which is inconvenient for practical applications. In this work, we propose using only screenshots/pixels as input for automated game testing and build a general game testing agent, Inspector, that can be easily applied to different games without deep integration with games. In addition to covering all game space for testing, our agent tries to take human-like behaviors to interact with key objects in a game, since some bugs usually happen in player-object interactions. Inspector is based on purely pixel inputs and comprises three key modules: game space explorer, key object detector, and human-like object investigator. Game space explorer aims to explore the whole game space by using a curiosity-based reward function with pixel inputs. Key object detector aims to detect key objects in a game, based on a small number of labeled screenshots. Human-like object investigator aims to mimic human behaviors for investigating key objects via imitation learning. We conduct experiments on two popular video games: Shooter Game and Action RPG Game. Experiment results demonstrate the effectiveness of Inspector in exploring game space, detecting key objects, and investigating objects. Moreover, Inspector successfully discovers two potential bugs in those two games. The demo video of Inspector is available at https://github.com/Inspector-GameTesting/Inspector-GameTesting.
翻訳日:2022-07-19 16:14:51 公開日:2022-07-18
# 製品構成へのインクリメンタルアンサーセットの適用

Applying Incremental Answer Set Solving to Product Configuration ( http://arxiv.org/abs/2207.08599v1 )

ライセンス: Link先を確認
Richard Comploi-Taupe and Giulia Francescutto and Gottfried Schenner(参考訳) 本稿では,製品構成にインクリメンタルな解集合を応用する。 増分的な回答セットの解決は、解答セットプログラミング(ASP.NET)に対する段階的に漸進的なアプローチである。 この技術を使って製品構成の問題を段階的に解決する方法を実証する。 インクリメンタルな解決プロセスのすべてのステップは、事前定義された構成アクションに対応します。 複雑なドメイン固有の設定アクションを使用することで、非決定論のレベルと解決プロセスのパフォーマンスを厳格に制御することができる。 決定論的構成アルゴリズムの動作のシミュレーションやユーザアクションの記述など,製品構成の推論にこの手法の応用例を示す。

In this paper, we apply incremental answer set solving to product configuration. Incremental answer set solving is a step-wise incremental approach to Answer Set Programming (ASP). We demonstrate how to use this technique to solve product configurations problems incrementally. Every step of the incremental solving process corresponds to a predefined configuration action. Using complex domain-specific configuration actions makes it possible to tightly control the level of non-determinism and performance of the solving process. We show applications of this technique for reasoning about product configuration, like simulating the behavior of a deterministic configuration algorithm and describing user actions.
翻訳日:2022-07-19 16:14:26 公開日:2022-07-18
# (参考訳) ベイズ強化学習の情報理論解析

An Information-Theoretic Analysis of Bayesian Reinforcement Learning ( http://arxiv.org/abs/2207.08735v1 )

ライセンス: CC BY 4.0
Amaury Gouverneur, Borja Rodr\'iguez-G\'alvez, Tobias J. Oechtering, and Mikael Skoglund(参考訳) Xu と Raginksy [1] が導入した教師あり学習問題に基づくフレームワークを構築し,モデルに基づくベイズ強化学習問題に対して最も達成可能な性能について検討した。 この目的により、最小ベイズ後悔(MBR)を、収集されたデータから学習するか、環境とその力学を知ることによって得られる最大累積報酬の差として定義する。 我々はこの定義を,カーネルパラメータがエージェントに未知であり,不確実性が先行分布によって表現されるマルコフ決定過程(MDP)としてモデル化された強化学習問題に特化する。 MBR上の上界を導出する1つの方法が提示され、相対エントロピーとワッサーシュタイン距離に基づく特定の境界が与えられる。 次に,MAB(Multi-armed bandit problem)と部分フィードバック問題を伴うオンライン最適化の2つの事例に着目した。 後者の問題に対しては、Russo および Van Roy [2] による現在の情報理論境界の下から、我々の境界が回復できることが示される。

Building on the framework introduced by Xu and Raginksy [1] for supervised learning problems, we study the best achievable performance for model-based Bayesian reinforcement learning problems. With this purpose, we define minimum Bayesian regret (MBR) as the difference between the maximum expected cumulative reward obtainable either by learning from the collected data or by knowing the environment and its dynamics. We specialize this definition to reinforcement learning problems modeled as Markov decision processes (MDPs) whose kernel parameters are unknown to the agent and whose uncertainty is expressed by a prior distribution. One method for deriving upper bounds on the MBR is presented and specific bounds based on the relative entropy and the Wasserstein distance are given. We then focus on two particular cases of MDPs, the multi-armed bandit problem (MAB) and the online optimization with partial feedback problem. For the latter problem, we show that our bounds can recover from below the current information-theoretic bounds by Russo and Van Roy [2].
翻訳日:2022-07-19 16:08:57 公開日:2022-07-18
# (参考訳) 高速abcブースト用パッケージ

Package for Fast ABC-Boost ( http://arxiv.org/abs/2207.08770v1 )

ライセンス: CC BY 4.0
Ping Li and Weijie Zhao(参考訳) 本報告では,過去数年間の一連の増補作業を実装したオープンソースパッケージについて述べる。 特に、パッケージには主に3行のテクニックが含まれており、そのうちの2つは、すでに一般的な高木プラットフォームにおける標準実装である。 (i)ヒストグラムに基づく(機能結合)アプローチは、ツリーの実装を便利かつ効率的にする。 Li et al (2007)では、単純な固定長適応ビンニングアルゴリズムが開発された。 本稿では,このような単純なアルゴリズムが,人気木プラットフォームにおけるより洗練された変種と比較して驚くほど有効であることを示す。 (ii)損失関数の2階微分に基づく木分割に対するLi(20010)の明示的な利得公式は、通常、1階法よりも大幅に改善される。 Li (2010) の利得公式はロジスティック回帰損失のために導出されたが、第二導関数を持つ損失関数の一般公式である。 例えば、オープンソースのパッケージには$p\geq 1$の$l_p$レグレッションも含まれている。 このパッケージの主な貢献は、マルチクラス分類のためのABC-Boost (adaptive base class boosting)である。 Li (2008) の最初の研究は、「基底クラス」を指定して古典的多クラスロジスティック回帰の新しい導関数を導出した。 ベースクラスが適切に選択された場合、精度が大幅に向上する。 主な技術的課題は、ベースクラスを選択するための検索戦略を設計することである。 先行研究は計算コストが高すぎる基本クラスを見つけるために徹底的な探索手順を実装した。 近年、Li and Zhao, 20022) は「Fast ABC-Boost」の統一的な枠組みを提示し、ユーザーがベースクラスの適切な検索空間を効率的に選択できるようにする。 このパッケージは、linux, windows, mac, matlab, R, pythonのインターフェイスを提供する。

This report presents the open-source package which implements the series of our boosting works in the past years. In particular, the package includes mainly three lines of techniques, among which the following two are already the standard implementations in popular boosted tree platforms: (i) The histogram-based (feature-binning) approach makes the tree implementation convenient and efficient. In Li et al (2007), a simple fixed-length adaptive binning algorithm was developed. In this report, we demonstrate that such a simple algorithm is still surprisingly effective compared to more sophisticated variants in popular tree platforms. (ii) The explicit gain formula in Li (20010) for tree splitting based on second-order derivatives of the loss function typically improves, often considerably, over the first-order methods. Although the gain formula in Li (2010) was derived for logistic regression loss, it is a generic formula for loss functions with second-derivatives. For example, the open-source package also includes $L_p$ regression for $p\geq 1$. The main contribution of this package is the ABC-Boost (adaptive base class boosting) for multi-class classification. The initial work in Li (2008) derived a new set of derivatives of the classical multi-class logistic regression by specifying a "base class". The accuracy can be substantially improved if the base class is chosen properly. The major technical challenge is to design a search strategy to select the base class. The prior published works implemented an exhaustive search procedure to find the base class which is computationally too expensive. Recently, a new report (Li and Zhao, 20022) presents a unified framework of "Fast ABC-Boost" which allows users to efficiently choose the proper search space for the base class. The package provides interfaces for linux, windows, mac, matlab, R, python.
翻訳日:2022-07-19 15:40:41 公開日:2022-07-18
# 共通ニューラルネットワークにおける補間、補間、局所一般化

Interpolation, extrapolation, and local generalization in common neural networks ( http://arxiv.org/abs/2207.08648v1 )

ライセンス: Link先を確認
Laurent Bonnasse-Gahot(参考訳) ニューラルネットワークがトレーニングセットを越えて外挿するのに苦労していることを示す、長い歴史がある。 Balestriero et al. (2021) による最近の研究は、補間をトレーニングセットの凸殻に属する状態として定義すること、すなわち、入力またはニューラル空間において、テストセットが、この凸殻の大部分が、データの高次元性のため、よく知られた次元性の呪いを引き起こすことができないことを示す。 ニューラルネットワークは必ずしも外挿モードで動作すると仮定される。 ここでは、典型的なニューラルネットワークの最後の隠れ層の神経活動について研究する。 神経活動の基盤となる内在的な空間を明らかにするためにオートエンコーダを使用することで、この空間は実際には低次元であり、モデルが良くなればなるほど、内在的な空間の次元が小さくなることを示す。 この空間では、テストセットのほとんどのサンプルは実際に訓練セットの凸船体に置かれており、凸船体の定義の下では、モデルが補間体制で機能する。 また, コンベックスの船体が関係する基準になっていないことが示唆された。 トレーニングセットに近接するさまざまな尺度は、実際にはパフォーマンスの正確さに関連している。 したがって、典型的なニューラルネットワークは補間領域で動作しているように見える。 優れた一般化性能は、そのような状況下でニューラルネットワークがうまく機能する能力と結びついている。

There has been a long history of works showing that neural networks have hard time extrapolating beyond the training set. A recent study by Balestriero et al. (2021) challenges this view: defining interpolation as the state of belonging to the convex hull of the training set, they show that the test set, either in input or neural space, cannot lie for the most part in this convex hull, due to the high dimensionality of the data, invoking the well known curse of dimensionality. Neural networks are then assumed to necessarily work in extrapolative mode. We here study the neural activities of the last hidden layer of typical neural networks. Using an autoencoder to uncover the intrinsic space underlying the neural activities, we show that this space is actually low-dimensional, and that the better the model, the lower the dimensionality of this intrinsic space. In this space, most samples of the test set actually lie in the convex hull of the training set: under the convex hull definition, the models thus happen to work in interpolation regime. Moreover, we show that belonging to the convex hull does not seem to be the relevant criteria. Different measures of proximity to the training set are actually better related to performance accuracy. Thus, typical neural networks do seem to operate in interpolation regime. Good generalization performances are linked to the ability of a neural network to operate well in such a regime.
翻訳日:2022-07-19 15:18:35 公開日:2022-07-18
# 自然画像再構成のための脳誘発デコーダ

The Brain-Inspired Decoder for Natural Visual Image Reconstruction ( http://arxiv.org/abs/2207.08591v1 )

ライセンス: Link先を確認
Wenyi Li, Shengjie Zheng, Yufan Liao, Rongqi Hong, Weiliang Chen, Chenggnag He, Xiaojian Li(参考訳) 脳の活動から画像をデコードすることは困難である。 ディープラーニングの開発により、この問題を解決するツールが利用可能である。 デコードされた画像は、神経スパイクのトレインを低レベルの視覚特徴と高レベルのセマンティック情報空間にマッピングすることを目的としている。 近年、スパイク列車からの復号化の研究がいくつかあるが、これらの研究は神経科学の基礎にはあまり関心を持たず、受容野を視覚画像再構成に融合させる研究はほとんどない。 本稿では,スパイク列から視覚画像を再構成するための生物学的特性を有するディープラーニングニューラルネットワークアーキテクチャを提案する。 我々の知る限り、我々は初めて受容的場特性行列を損失関数に統合する手法を実装した。 私たちのモデルは、ニューラルスパイクトから画像へのエンドツーエンドデコーダです。 我々はgaborフィルタを画像生成に用いたオートエンコーダにマージするだけでなく,受容磁場特性を持つ損失関数を提案した。 このデコーダをマカク初代視覚野神経スパイクとサルマンデル網膜神経節細胞(RGC)スパイクを含む2つのデータセットで評価した。 提案手法は,画像の再構成に知覚的特徴を効果的に組み合わせ,ニューラル情報に基づく視覚的再構成への新たなアプローチを提供する。

Decoding images from brain activity has been a challenge. Owing to the development of deep learning, there are available tools to solve this problem. The decoded image, which aims to map neural spike trains to low-level visual features and high-level semantic information space. Recently, there are a few studies of decoding from spike trains, however, these studies pay less attention to the foundations of neuroscience and there are few studies that merged receptive field into visual image reconstruction. In this paper, we propose a deep learning neural network architecture with biological properties to reconstruct visual image from spike trains. As far as we know, we implemented a method that integrated receptive field property matrix into loss function at the first time. Our model is an end-to-end decoder from neural spike trains to images. We not only merged Gabor filter into auto-encoder which used to generate images but also proposed a loss function with receptive field properties. We evaluated our decoder on two datasets which contain macaque primary visual cortex neural spikes and salamander retina ganglion cells (RGCs) spikes. Our results show that our method can effectively combine receptive field features to reconstruct images, providing a new approach to visual reconstruction based on neural information.
翻訳日:2022-07-19 15:18:10 公開日:2022-07-18
# 制約付き微分進化アルゴリズムを用いた大規模行列最適化に基づくマルチマイクログリッドトポロジ設計

Large-scale matrix optimization based multi microgrid topology design with a constrained differential evolution algorithm ( http://arxiv.org/abs/2207.08327v1 )

ライセンス: Link先を確認
Wenhua Li, Shengjun Huang, Tao Zhang, Rui Wang, and Ling Wang(参考訳) バイナリ行列最適化は、例えば、特定の制約の下で電源ラインの総長を最小化するマルチマイクログリッドネットワーク構造設計問題(MGNSDP)など、現実世界で一般的に発生する。 これらの問題に対するグローバルな最適解を見つけることは、大規模でスパースでマルチモーダルであるため、大きな課題に直面している。 伝統的な線形プログラミングは時間がかかり、非線形問題を解くことはできない。 この問題に対処するために, LBMDEと呼ばれる改良された実現可能性規則に基づく微分進化アルゴリズムを提案する。 具体的には, 一般ヒューリスティック解初期化法を最初に提案し, 高品質解を生成する。 次に、バイナリ行列ベースのDEC演算子を導入して子孫を生成する。 この制約に対処するため,我々は環境選択戦略を改良する可能性ルールを提案した。 LBMDEの性能と探索挙動を,一連のベンチマーク問題により検討した。

Binary matrix optimization commonly arise in the real world, e.g., multi-microgrid network structure design problem (MGNSDP), which is to minimize the total length of the power supply line under certain constraints. Finding the global optimal solution for these problems faces a great challenge since such problems could be large-scale, sparse and multimodal. Traditional linear programming is time-consuming and cannot solve nonlinear problems. To address this issue, a novel improved feasibility rule based differential evolution algorithm, termed LBMDE, is proposed. To be specific, a general heuristic solution initialization method is first proposed to generate high-quality solutions. Then, a binary-matrix-based DE operator is introduced to produce offspring. To deal with the constraints, we proposed an improved feasibility rule based environmental selection strategy. The performance and searching behaviors of LBMDE are examined by a set of benchmark problems.
翻訳日:2022-07-19 15:17:31 公開日:2022-07-18
# BrainCog:脳にインスパイアされたAIと脳シミュレーションのためのスパイクニューラルネットワークベースの認知人工知能エンジン

BrainCog: A Spiking Neural Network based Brain-inspired Cognitive Intelligence Engine for Brain-inspired AI and Brain Simulation ( http://arxiv.org/abs/2207.08533v1 )

ライセンス: Link先を確認
Yi Zeng, Dongcheng Zhao, Feifei Zhao, Guobin Shen, Yiting Dong, Enmeng Lu, Qian Zhang, Yinqian Sun, Qian Liang, Yuxuan Zhao, Zhuoya Zhao, Hongjian Fang, Yuwei Wang, Yang Li, Xin Liu, Chengcheng Du, Qingqun Kong, Zizhe Ruan, Weida Bi(参考訳) スパイキングニューラルネットワーク(SNN)は、脳にインスパイアされた人工知能と計算神経科学に広く注目を集めている。 それらは、複数のスケールで脳内の生物学的情報処理をシミュレートするために使用できる。 さらに重要なのは、SNNが脳や認知から人工知能へのインスピレーションをもたらすための適切な抽象化レベルとして機能することです。 本稿では、脳にインスパイアされたAIと脳シミュレーションモデルを作成するために、脳にインスパイアされた認知知エンジン(BrainCog)を提案する。 BrainCogは、さまざまな種類のスパイキングニューロンモデル、学習規則、脳領域などをプラットフォームが提供する必須モジュールとして組み込んでいる。 こうした使い易いモジュールに基づいて、BrainCogは知覚と学習、意思決定、知識表現と推論、モーターコントロール、社会認知など、脳にインスパイアされた様々な認知機能をサポートしている。 これらの脳にインスパイアされたAIモデルは、様々な教師付き、教師なし、強化学習タスクで効果的に検証されており、複数の脳にインスパイアされた認知機能を持つAIモデルを可能にするために使用できる。 脳シミュレーションのためにBrainCogは、意思決定、ワーキングメモリ、ニューラルサーキットの構造シミュレーション、マウス脳、マカク脳、およびヒト脳の全脳構造シミュレーションの関数シミュレーションを実現する。 BORNという名のAIエンジンがBrainCogに基づいて開発されており、BrainCogのコンポーネントをどのように統合してAIモデルやアプリケーションを構築するかを示している。 BrainCogは、生物学的インテリジェンスの性質を解読し、AIを作成するための科学的な探求を可能にするため、脳にインスパイアされたスパイクニューラルネットワークベースのAIを開発し、認知脳を複数のスケールでシミュレートすることを目的としている。 braincogのオンラインリポジトリはhttps://github.com/braincog-xにある。

Spiking neural networks (SNNs) have attracted extensive attentions in Brain-inspired Artificial Intelligence and computational neuroscience. They can be used to simulate biological information processing in the brain at multiple scales. More importantly, SNNs serve as an appropriate level of abstraction to bring inspirations from brain and cognition to Artificial Intelligence. In this paper, we present the Brain-inspired Cognitive Intelligence Engine (BrainCog) for creating brain-inspired AI and brain simulation models. BrainCog incorporates different types of spiking neuron models, learning rules, brain areas, etc., as essential modules provided by the platform. Based on these easy-to-use modules, BrainCog supports various brain-inspired cognitive functions, including Perception and Learning, Decision Making, Knowledge Representation and Reasoning, Motor Control, and Social Cognition. These brain-inspired AI models have been effectively validated on various supervised, unsupervised, and reinforcement learning tasks, and they can be used to enable AI models to be with multiple brain-inspired cognitive functions. For brain simulation, BrainCog realizes the function simulation of decision-making, working memory, the structure simulation of the Neural Circuit, and whole brain structure simulation of Mouse brain, Macaque brain, and Human brain. An AI engine named BORN is developed based on BrainCog, and it demonstrates how the components of BrainCog can be integrated and used to build AI models and applications. To enable the scientific quest to decode the nature of biological intelligence and create AI, BrainCog aims to provide essential and easy-to-use building blocks, and infrastructural support to develop brain-inspired spiking neural network based AI, and to simulate the cognitive brains at multiple scales. The online repository of BrainCog can be found at https://github.com/braincog-x.
翻訳日:2022-07-19 15:17:17 公開日:2022-07-18
# (参考訳) 強化学習政策要約のためのブール決定規則

Boolean Decision Rules for Reinforcement Learning Policy Summarisation ( http://arxiv.org/abs/2207.08651v1 )

ライセンス: CC BY 4.0
James McCarthy, Rahul Nair, Elizabeth Daly, Radu Marinescu, Ivana Dusparic(参考訳) 強化学習(RL)政策の説明可能性については,特に安全性の観点からRLを考える場合,依然として困難な研究課題である。 rlポリシーの決定と意図を理解することは、望ましくないアクションを制限することによって、ポリシーに安全性を組み込む手段を提供する。 本稿では,エージェントのポリシーのポストホックルールに基づく要約を作成するために,ブール決定ルールモデルを提案する。 提案手法は,ラバグリッドワールドの実装を訓練したDQNエージェントを用いて評価し,このグリッドワールドの手作り特徴表現を前提として,シンプルな一般化ルールを作成することができることを示す。 本稿では,このルールベースモデルが生成するルールをエージェントのポリシーに課す制約として利用することにより,rlエージェントのポリシーに安全性を導入する方法を検討するとともに,エージェントのポリシーの簡単なルール要約の作成がrlエージェントのデバッグプロセスにどのように役立つかについて議論する。

Explainability of Reinforcement Learning (RL) policies remains a challenging research problem, particularly when considering RL in a safety context. Understanding the decisions and intentions of an RL policy offer avenues to incorporate safety into the policy by limiting undesirable actions. We propose the use of a Boolean Decision Rules model to create a post-hoc rule-based summary of an agent's policy. We evaluate our proposed approach using a DQN agent trained on an implementation of a lava gridworld and show that, given a hand-crafted feature representation of this gridworld, simple generalised rules can be created, giving a post-hoc explainable summary of the agent's policy. We discuss possible avenues to introduce safety into a RL agent's policy by using rules generated by this rule-based model as constraints imposed on the agent's policy, as well as discuss how creating simple rule summaries of an agent's policy may help in the debugging process of RL agents.
翻訳日:2022-07-19 15:15:48 公開日:2022-07-18
# 半教師付き時間行動セグメンテーションにおける行動親和性と継続性

Leveraging Action Affinity and Continuity for Semi-supervised Temporal Action Segmentation ( http://arxiv.org/abs/2207.08653v1 )

ライセンス: Link先を確認
Guodong Ding and Angela Yao(参考訳) 本稿では,時間的行動分割タスクに対する半教師付き学習手法を提案する。 このタスクの目標は、短いビデオセットだけが密にラベル付けされ、大量のビデオがラベル付けされていない長い手続きビデオで、一時的にアクションを検出し、セグメント化することである。 そこで本研究では,非ラベルデータに対する2つの新しい損失関数,アクションアフィニティ損失とアクション連続損失を提案する。 動作アフィニティ損失はラベル付き集合から誘導される動作優先値を設定することにより、ラベル付きサンプル学習を導く。 アクション連続性損失は、アクションの一時的な連続性を強制する。 さらに、より堅牢で信頼性の高い学習のための粗いアクション境界を構築するための適応境界平滑化(ABS)手法を提案する。 提案した損失関数とABSを3つのベンチマークで評価した。 その結果、ラベル付きデータの低量(5%と10%)でアクションセグメンテーション性能を著しく改善し、50%のラベル付きデータによる完全な監視に匹敵する結果を得た。 さらにABSは、完全に教師付き学習に統合された場合のパフォーマンス向上に成功した。

We present a semi-supervised learning approach to the temporal action segmentation task. The goal of the task is to temporally detect and segment actions in long, untrimmed procedural videos, where only a small set of videos are densely labelled, and a large collection of videos are unlabelled. To this end, we propose two novel loss functions for the unlabelled data: an action affinity loss and an action continuity loss. The action affinity loss guides the unlabelled samples learning by imposing the action priors induced from the labelled set. Action continuity loss enforces the temporal continuity of actions, which also provides frame-wise classification supervision. In addition, we propose an Adaptive Boundary Smoothing (ABS) approach to build coarser action boundaries for more robust and reliable learning. The proposed loss functions and ABS were evaluated on three benchmarks. Results show that they significantly improved action segmentation performance with a low amount (5% and 10%) of labelled data and achieved comparable results to full supervision with 50% labelled data. Furthermore, ABS succeeded in boosting performance when integrated into fully-supervised learning.
翻訳日:2022-07-19 15:08:52 公開日:2022-07-18
# グラフマイニングによる深部多様体学習

Deep Manifold Learning with Graph Mining ( http://arxiv.org/abs/2207.08377v1 )

ライセンス: Link先を確認
Xuelong Li and Ziheng Jiao and Hongyuan Zhang and Rui Zhang(参考訳) グラフ畳み込みネットワーク(graph convolution network, gcn)は、ソーシャルネットワークや引用ネットワークなど、グラフデータセットで優れた成果を上げている。 しかし、これらのフレームワークで決定層として使われるsoftmaxは、勾配降下を通じて、一般に数千のイテレーションで最適化されている。 さらに、グラフノードの内部分布を無視するため、決定層はラベルサポートの少ない半教師付き学習において不十分なパフォーマンスをもたらす可能性がある。 上記の問題に対処するため,グラフマイニングのための非段階的決定層を持つグラフ深層モデルを提案する。 まず、多様体学習はラベル局所構造保存と統合され、ノードのトポロジ情報を取得する。 さらに、非勾配性のため、GCNの決定層としてクローズドフォームソリューションが用いられる。 特に、このグラフモデルに対して共同最適化法が設計され、モデルの収束を極端に加速する。 最後に,提案モデルが現行モデルと比較して最先端性能を達成したことを示す。

Admittedly, Graph Convolution Network (GCN) has achieved excellent results on graph datasets such as social networks, citation networks, etc. However, softmax used as the decision layer in these frameworks is generally optimized with thousands of iterations via gradient descent. Furthermore, due to ignoring the inner distribution of the graph nodes, the decision layer might lead to an unsatisfactory performance in semi-supervised learning with less label support. To address the referred issues, we propose a novel graph deep model with a non-gradient decision layer for graph mining. Firstly, manifold learning is unified with label local-structure preservation to capture the topological information of the nodes. Moreover, owing to the non-gradient property, closed-form solutions is achieved to be employed as the decision layer for GCN. Particularly, a joint optimization method is designed for this graph model, which extremely accelerates the convergence of the model. Finally, extensive experiments show that the proposed model has achieved state-of-the-art performance compared to the current models.
翻訳日:2022-07-19 15:03:45 公開日:2022-07-18
# 構造因果モデル間の抽象化:定義と性質のレビュー

Abstraction between Structural Causal Models: A Review of Definitions and Properties ( http://arxiv.org/abs/2207.08603v1 )

ライセンス: Link先を確認
Fabio Massimo Zennaro(参考訳) 構造因果モデル(scms)は因果システムを扱うために広く普及した形式である。 最近の研究の方向性は、SCM間のマップを定義し、介入整合性の要件を課すことによって、抽象化の異なるレベルで正式にSCMを関連付けることの問題を考察している。 本稿では,SCM間の地図の形式的特性に着目し,これらの特性を適用可能な異なるレイヤ(構造的,分布的)に注目し,これまでに提案されたソリューションのレビューを行う。 これにより、特定のプロパティを他のプロパティに代えて保証することを選択することで、許容されるかもしれない、あるいは許可されない抽象化のファミリーを区別することができます。 このような理解は、より意識的に因果的抽象化の提案を区別できるだけでなく、特定のアプリケーションに関連する抽象化の形式に関して抽象化の定義を調整できる。

Structural causal models (SCMs) are a widespread formalism to deal with causal systems. A recent direction of research has considered the problem of relating formally SCMs at different levels of abstraction, by defining maps between SCMs and imposing a requirement of interventional consistency. This paper offers a review of the solutions proposed so far, focusing on the formal properties of a map between SCMs, and highlighting the different layers (structural, distributional) at which these properties may be enforced. This allows us to distinguish families of abstractions that may or may not be permitted by choosing to guarantee certain properties instead of others. Such an understanding not only allows to distinguish among proposal for causal abstraction with more awareness, but it also allows to tailor the definition of abstraction with respect to the forms of abstraction relevant to specific applications.
翻訳日:2022-07-19 15:02:23 公開日:2022-07-18
# グラフニューラルネットワークにおけるスパーストレーニングのための包括的グラフグラダルプルーニング

Comprehensive Graph Gradual Pruning for Sparse Training in Graph Neural Networks ( http://arxiv.org/abs/2207.08629v1 )

ライセンス: Link先を確認
Chuang Liu, Xueqi Ma, Yinbing Zhan, Liang Ding, Dapeng Tao, Bo Du, Wenbin Hu, Danilo Mandic(参考訳) グラフニューラルネットワーク(GNN)は,グラフデータの指数的に増大するスケールとモデルパラメータの数によって,計算コストの増大に悩まされる傾向にある。 この目的のために、近年のいくつかの研究は、性能レベルを維持しながら推論コストを削減するため、宝くじの仮説(LTH)でGNNをスパース化することに焦点を当てている。 しかし、LTHベースの手法には2つの大きな欠点がある。 1)密集したモデルの徹底的で反復的なトレーニングが必要となり、非常に大きなトレーニング計算コストがかかる。 2) グラフ構造とモデルパラメータのみをトリムするが、大きな冗長性が存在するノードの特徴次元を無視する。 上記の制限を克服するため、我々はCGPと呼ばれるグラフ段階的プルーニングフレームワークを提案する。 これは、トレーニング中のグラフプルーニングパラダイムを1つのトレーニングプロセス内で動的に実行するために設計することで実現される。 LTHに基づく手法とは異なり、提案手法では再学習を必要とせず、計算コストを大幅に削減する。 さらに,グラフ構造,ノード特徴,モデルパラメータといった,GNNの3つのコア要素を包括的にトリムする分離戦略を設計する。 一方, 刈り込み作業の精錬を目的として, 刈り取られた重要なコネクションを再確立するために, CGPフレームワークに再成長プロセスを導入する。 提案するcgpは6つのgnnアーキテクチャにまたがるノード分類タスクを用いて評価されており、その中には、浅いモデル(gcnとgat)、浅いが深いモデル(sgcとappnp)、深層モデル(gcniiとresgcn)があり、挑戦的なopen graphベンチマークによる大規模グラフデータセットを含む、14の現実世界のグラフデータセットがある。 実験の結果,提案手法は既存の手法の精度に適合あるいは超越しながら,トレーニングと推論の効率を大幅に向上させることがわかった。

Graph Neural Networks (GNNs) tend to suffer from high computation costs due to the exponentially increasing scale of graph data and the number of model parameters, which restricts their utility in practical applications. To this end, some recent works focus on sparsifying GNNs with the lottery ticket hypothesis (LTH) to reduce inference costs while maintaining performance levels. However, the LTH-based methods suffer from two major drawbacks: 1) they require exhaustive and iterative training of dense models, resulting in an extremely large training computation cost, and 2) they only trim graph structures and model parameters but ignore the node feature dimension, where significant redundancy exists. To overcome the above limitations, we propose a comprehensive graph gradual pruning framework termed CGP. This is achieved by designing a during-training graph pruning paradigm to dynamically prune GNNs within one training process. Unlike LTH-based methods, the proposed CGP approach requires no re-training, which significantly reduces the computation costs. Furthermore, we design a co-sparsifying strategy to comprehensively trim all three core elements of GNNs: graph structures, node features, and model parameters. Meanwhile, aiming at refining the pruning operation, we introduce a regrowth process into our CGP framework, in order to re-establish the pruned but important connections. The proposed CGP is evaluated by using a node classification task across 6 GNN architectures, including shallow models (GCN and GAT), shallow-but-deep-propagation models (SGC and APPNP), and deep models (GCNII and ResGCN), on a total of 14 real-world graph datasets, including large-scale graph datasets from the challenging Open Graph Benchmark. Experiments reveal that our proposed strategy greatly improves both training and inference efficiency while matching or even exceeding the accuracy of existing methods.
翻訳日:2022-07-19 15:02:10 公開日:2022-07-18
# カーネルヒルベルト空間とガウス過程の再生におけるkullback-leiblerとrenyiの発散

Kullback-Leibler and Renyi divergences in reproducing kernel Hilbert space and Gaussian process settings ( http://arxiv.org/abs/2207.08406v1 )

ライセンス: Link先を確認
Minh Ha Quang(参考訳) 本稿では, ヒルベルト空間上の正のヒルベルト・シュミット作用素間のα対決定式 (log-det) による正規化kullback-leiblerとr\'enyi divergencesの定式化について述べる。 (i)再生成核ヒルベルト空間(rkhs)上で定義される共分散作用素とガウス測度 (ii)二乗可積分なサンプルパスを持つガウス過程。 特性核に対して、最初の設定は完備で分離可能な距離空間上の任意のボレル確率測度の発散に繋がる。 我々は、Alpha Log-Detの発散がヒルベルト-シュミットノルムにおいて連続であることを示し、ヒルベルト空間値の確率変数に対して大数の法則を適用することができる。 その結果、両方の設定において、無限次元の発散は、有限次元のグラム行列/ガウス測度および有限のサンプルデータを用いて、有限次元のバージョンから一貫して効率的に推定され、すべてのケースで「it次元非依存」なサンプル複素量を持つことが示された。 RKHS法は、どちらの設定においても理論解析において中心的な役割を果たす。 数学的定式化は数値実験によって示される。

In this work, we present formulations for regularized Kullback-Leibler and R\'enyi divergences via the Alpha Log-Determinant (Log-Det) divergences between positive Hilbert-Schmidt operators on Hilbert spaces in two different settings, namely (i) covariance operators and Gaussian measures defined on reproducing kernel Hilbert spaces (RKHS); and (ii) Gaussian processes with squared integrable sample paths. For characteristic kernels, the first setting leads to divergences between arbitrary Borel probability measures on a complete, separable metric space. We show that the Alpha Log-Det divergences are continuous in the Hilbert-Schmidt norm, which enables us to apply laws of large numbers for Hilbert space-valued random variables. As a consequence of this, we show that, in both settings, the infinite-dimensional divergences can be consistently and efficiently estimated from their finite-dimensional versions, using finite-dimensional Gram matrices/Gaussian measures and finite sample data, with {\it dimension-independent} sample complexities in all cases. RKHS methodology plays a central role in the theoretical analysis in both settings. The mathematical formulation is illustrated by numerical experiments.
翻訳日:2022-07-19 15:00:25 公開日:2022-07-18
# (参考訳) FakeCLR:データ効率のよいGANで遅延不連続を解決するためのコントラスト学習

FakeCLR: Exploring Contrastive Learning for Solving Latent Discontinuity in Data-Efficient GANs ( http://arxiv.org/abs/2207.08630v1 )

ライセンス: CC BY 4.0
Ziqiang Li, Chaoyue Wang, Heliang Zheng, Jing Zhang, Bin Li(参考訳) データ効率のよいGAN(DE-GAN)は、限られたトレーニングデータで生成モデルを学習することを目的としており、高品質なサンプルを生成する上でいくつかの課題に直面している。 データ強化戦略がトレーニング不安定を緩和しているため、DE-GANの生成性能をさらに向上する方法がホットスポットとなっている。 近年,D-GANの合成品質向上に大きな可能性を示しているが,関連する原理はよく研究されていない。 本稿では,de-gansにおける異なるコントラスト学習戦略を再検討し,比較し,同定する。 (i)現在、生成性能のボトルネックは、潜伏空間の不連続である。 (ii) 他の対照的な学習戦略と比較して, インスタンス摂動は潜在空間連続性に向けられ, デガンに大きな改善をもたらす。 これらの観察に基づいて,摂動した偽サンプルの対比学習のみを適用し,ノイズ関連潜在性拡張,多様性対応キュー,待ち行列の欠落要因という3つの関連するトレーニング手法を考案したfakeclrを提案する。 実験結果から,少数ショット生成と限定データ生成の両面でのアートの新たな状態が明らかとなった。 複数のデータセットで、FakeCLRは既存のDE-GANと比較して15%以上のFID改善を達成している。 コードはhttps://github.com/iceli1007/FakeCLRで入手できる。

Data-Efficient GANs (DE-GANs), which aim to learn generative models with a limited amount of training data, encounter several challenges for generating high-quality samples. Since data augmentation strategies have largely alleviated the training instability, how to further improve the generative performance of DE-GANs becomes a hotspot. Recently, contrastive learning has shown the great potential of increasing the synthesis quality of DE-GANs, yet related principles are not well explored. In this paper, we revisit and compare different contrastive learning strategies in DE-GANs, and identify (i) the current bottleneck of generative performance is the discontinuity of latent space; (ii) compared to other contrastive learning strategies, Instance-perturbation works towards latent space continuity, which brings the major improvement to DE-GANs. Based on these observations, we propose FakeCLR, which only applies contrastive learning on perturbed fake samples, and devises three related training techniques: Noise-related Latent Augmentation, Diversity-aware Queue, and Forgetting Factor of Queue. Our experimental results manifest the new state of the arts on both few-shot generation and limited-data generation. On multiple datasets, FakeCLR acquires more than 15% FID improvement compared to existing DE-GANs. Code is available at https://github.com/iceli1007/FakeCLR.
翻訳日:2022-07-19 14:58:40 公開日:2022-07-18
# STT:Few-Shot Adaptationのためのソフトテンプレートチューニング

STT: Soft Template Tuning for Few-Shot Adaptation ( http://arxiv.org/abs/2207.08408v1 )

ライセンス: Link先を確認
Ping Yu, Wei Wang, Chunyuan Li, Ruiyi Zhang, Zhanpeng Jin, Changyou Chen(参考訳) プロンプトチューニングは、トレーニング済みのモデルを下流のタスクに適応するための非常に効果的なツールです。 しかし、標準的なプロンプトベースの手法は主に下流タスクの十分なデータを扱う。 ダウンストリームの各タスクで限られたデータしか利用できない、数ショットのレギュレーションにその利点が転送できるかどうかはまだ不明だ。 数ショット設定下でのプロンプトチューニングの可能性を示す研究もあるが、離散的なプロンプトの検索や、限られたデータによるソフトプロンプトのチューニングによるメインストリームメソッドは、依然として非常に難しい。 広範な経験的研究を通じて、短時間のチューニングと完全微調整にはまだギャップがあることが分かりました。 このギャップを埋めるため、我々はSoft Template Tuning (STT)と呼ばれる新しいプロンプトチューニングフレームワークを提案する。 STTは手動と自動プロンプトを組み合わせて、下流の分類タスクをマスキング言語モデリングタスクとして扱う。 異なる設定に対する総合的な評価は、STTが追加パラメータを導入することなく、微調整とプロンプトベースのメソッド間のギャップを埋めることができることを示唆している。 さらに、感情分類タスクにおいて、時間と資源を消費する微調整方法よりも優れています。

Prompt tuning has been an extremely effective tool to adapt a pre-trained model to downstream tasks. However, standard prompt-based methods mainly consider the case of sufficient data of downstream tasks. It is still unclear whether the advantage can be transferred to the few-shot regime, where only limited data are available for each downstream task. Although some works have demonstrated the potential of prompt-tuning under the few-shot setting, the main stream methods via searching discrete prompts or tuning soft prompts with limited data are still very challenging. Through extensive empirical studies, we find that there is still a gap between prompt tuning and fully fine-tuning for few-shot learning. To bridge the gap, we propose a new prompt-tuning framework, called Soft Template Tuning (STT). STT combines manual and auto prompts, and treats downstream classification tasks as a masked language modeling task. Comprehensive evaluation on different settings suggests STT can close the gap between fine-tuning and prompt-based methods without introducing additional parameters. Significantly, it can even outperform the time- and resource-consuming fine-tuning method on sentiment classification tasks.
翻訳日:2022-07-19 14:35:03 公開日:2022-07-18
# アラビア語のヘイトスピーチ「AlexU-AIC」-2022年

AlexU-AIC at Arabic Hate Speech 2022: Contrast to Classify ( http://arxiv.org/abs/2207.08557v1 )

ライセンス: Link先を確認
Ahmad Shapiro, Ayman Khalafallah, Marwan Torki(参考訳) FacebookやTwitterなどのソーシャルメディアプラットフォームでのオンラインプレゼンスは、インターネットユーザーにとって日々の習慣になっている。 プラットフォームがユーザーに提供する膨大なサービスにもかかわらず、ユーザーはサイバーいじめに悩まされ、さらに精神的虐待を招き、個人や対象グループに身体的被害をもたらす可能性がある。 本稿では、アラビア・ヘイトスピーチ2022共有タスクワークショップ(OSACT5 2022)に、関連するアラビア・Twitterデータセットを用いて提出する。 共有タスクは3つのサブタスクで構成され、サブタスクAはツイートが攻撃的かどうかを検出することに焦点を当てる。 次に、攻撃的なツイートに対して、サブタスクBは、ツイートがヘイトスピーチであるか否かを検出することに焦点を当てる。 最後に、ヘイトスピーチツイートでは、サブタスクcは6つの異なるクラス間のヘイトスピーチのきめ細かいタイプを検出することに重点を置いている。 トランスフォーマーモデルは分類タスクにおいて効率を証明したが、小さなデータセットや不均衡なデータセットで微調整された場合、過度に適合する問題があった。 この制限を克服するために,コントラスト学習やマルチタスク学習といった複数の訓練パラダイム,分類微調整,トップ5パフォーマーのアンサンブルなどを検討した。 提案手法は,サブタスクA,B,Cにおいてそれぞれ0.841,0.817,0.476のマクロF1平均値を得た。

Online presence on social media platforms such as Facebook and Twitter has become a daily habit for internet users. Despite the vast amount of services the platforms offer for their users, users suffer from cyber-bullying, which further leads to mental abuse and may escalate to cause physical harm to individuals or targeted groups. In this paper, we present our submission to the Arabic Hate Speech 2022 Shared Task Workshop (OSACT5 2022) using the associated Arabic Twitter dataset. The shared task consists of 3 sub-tasks, sub-task A focuses on detecting whether the tweet is offensive or not. Then, For offensive Tweets, sub-task B focuses on detecting whether the tweet is hate speech or not. Finally, For hate speech Tweets, sub-task C focuses on detecting the fine-grained type of hate speech among six different classes. Transformer models proved their efficiency in classification tasks, but with the problem of over-fitting when fine-tuned on a small or an imbalanced dataset. We overcome this limitation by investigating multiple training paradigms such as Contrastive learning and Multi-task learning along with Classification fine-tuning and an ensemble of our top 5 performers. Our proposed solution achieved 0.841, 0.817, and 0.476 macro F1-average in sub-tasks A, B, and C respectively.
翻訳日:2022-07-19 14:34:42 公開日:2022-07-18
# GOAL:Few-Shot Sports Game Summarizationのベンチマークに向けて

GOAL: Towards Benchmarking Few-Shot Sports Game Summarization ( http://arxiv.org/abs/2207.08635v1 )

ライセンス: Link先を確認
Jiaan Wang, Tingyi Zhang, Haoxiang Shi(参考訳) スポーツゲームの要約は、リアルタイムのコメンテータに基づくスポーツニュースの生成を目的としている。 この作業は幅広い研究の関心を集めているが、英語のデータセットが不足しているため、まだ探索が進んでいない。 そこで本稿では,最初の英語スポーツゲーム要約データセットであるgoalをリリースする。 具体的には、103のコメンタリー・ニュースペアがあり、コメンタリーの平均長は2724.9語、ニュースは476.3語である。 さらに、半教師付き環境での研究を支援するため、GOALは2,160の未ラベルの注釈文書も提供している。 GOALに基づいて,抽出ベースラインや抽象ベースラインなど,いくつかのベースラインを構築し,評価する。 実験の結果,この課題は依然として残っている。 我々の研究がスポーツゲーム要約の研究を促進することを願っている。 データセットはhttps://github.com/krystalan/goalでリリースされた。

Sports game summarization aims to generate sports news based on real-time commentaries. The task has attracted wide research attention but is still under-explored probably due to the lack of corresponding English datasets. Therefore, in this paper, we release GOAL, the first English sports game summarization dataset. Specifically, there are 103 commentary-news pairs in GOAL, where the average lengths of commentaries and news are 2724.9 and 476.3 words, respectively. Moreover, to support the research in the semi-supervised setting, GOAL additionally provides 2,160 unlabeled commentary documents. Based on our GOAL, we build and evaluate several baselines, including extractive and abstractive baselines. The experimental results show the challenges of this task still remain. We hope our work could promote the research of sports game summarization. The dataset has been released at https://github.com/krystalan/goal.
翻訳日:2022-07-19 14:34:21 公開日:2022-07-18
# 非対称情報を用いた逆コントラスト学習

Adversarial Contrastive Learning via Asymmetric InfoNCE ( http://arxiv.org/abs/2207.08374v1 )

ライセンス: Link先を確認
Qiying Yu, Jieming Lou, Xianyuan Zhan, Qizhang Li, Wangmeng Zuo, Yang Liu, Jingjing Liu(参考訳) コントラスト学習(CL)は近年,対人学習に応用されている。 このようなプラクティスでは、敵のサンプルをインスタンスの追加的なポジティブなビューとして捉え、互いに合意を最大化することで、敵の堅牢性が向上する。 しかし、逆の摂動はインスタンスレベルのアイデンティティの混乱を引き起こす可能性があり、異なるインスタンスを別々のIDでまとめることでCLのパフォーマンスを阻害する可能性がある。 そこで本研究では,非対称なInfoNCE目標(A-InfoNCE$)を用いて,非対称なサンプルを不平等に扱うことを提案する。 特に、敵はより弱い学習信号を誘発する劣悪な正、あるいは他の負のサンプルと高い対比を示す強硬な負と見なされる。 非対称的な方法では、CLと対向学習の相反する目的の悪影響を効果的に軽減することができる。 実験により,提案手法は計算コストを増すことなく,異なる微調整スキームにまたがる既存のcl法を一貫して上回ることがわかった。 提案されたA-InfoNCEは、他のCLメソッドに容易に拡張できる汎用形式でもある。 コードはhttps://github.com/yqy2001/A-InfoNCEで入手できる。

Contrastive learning (CL) has recently been applied to adversarial learning tasks. Such practice considers adversarial samples as additional positive views of an instance, and by maximizing their agreements with each other, yields better adversarial robustness. However, this mechanism can be potentially flawed, since adversarial perturbations may cause instance-level identity confusion, which can impede CL performance by pulling together different instances with separate identities. To address this issue, we propose to treat adversarial samples unequally when contrasted, with an asymmetric InfoNCE objective ($A-InfoNCE$) that allows discriminating considerations of adversarial samples. Specifically, adversaries are viewed as inferior positives that induce weaker learning signals, or as hard negatives exhibiting higher contrast to other negative samples. In the asymmetric fashion, the adverse impacts of conflicting objectives between CL and adversarial learning can be effectively mitigated. Experiments show that our approach consistently outperforms existing Adversarial CL methods across different finetuning schemes without additional computational cost. The proposed A-InfoNCE is also a generic form that can be readily extended to other CL methods. Code is available at https://github.com/yqy2001/A-InfoNCE.
翻訳日:2022-07-19 14:12:49 公開日:2022-07-18
# 間欠的クライアントを用いた医用画像化のためのフェデレート学習の性能とスカラリティの検討

Study of the performance and scalablity of federated learning for medical imaging with intermittent clients ( http://arxiv.org/abs/2207.08581v1 )

ライセンス: Link先を確認
Judith S\'ainz-Pardo D\'iaz and \'Alvaro L\'opez Garc\'ia(参考訳) フェデレーション学習(federated learning)は、マシンラーニングやディープラーニングを安全な方法で実行するために使用される、データ分散プライバシ保存テクニックである。 本稿では,集約演算子の提示,異なる種類のフェデレーション学習,およびクライアントからのデータの分布に関して考慮すべき課題など,フェデレーション学習に関する理論的側面と,クライアント数が異なるユースケースの徹底的な解析について述べる。 具体的には,オープンデータリポジトリから得られた胸部x線画像を用いて,医用画像解析のユースケースを提案する。 プライバシに関するメリットに加えて,従来のケース(中央集権的アプローチ)に関して,予測(曲線の精度と面積)の改善と実行時間の短縮について検討する。 異なるクライアントはトレーニングデータからシミュレートされ、不均衡な方法で選択される。 3人か10人のクライアントを検討した結果が公開され、それらと集中型のケースとを比較します。 従うべき2つのアプローチは、断続的なクライアントの場合で分析され、実際のシナリオでは、一部のクライアントがトレーニングを離れ、いくつかの新しいクライアントがトレーニングに入る。 テストセットの精度、曲線下領域、実行時間の観点からの結果の進化は、元のデータを分割したクライアント数の増加として示される。 最後に,この分野の改善と今後の取り組みについて述べる。

Federated learning is a data decentralization privacy-preserving technique used to perform machine or deep learning in a secure way. In this paper we present theoretical aspects about federated learning, such as the presentation of an aggregation operator, different types of federated learning, and issues to be taken into account in relation to the distribution of data from the clients, together with the exhaustive analysis of a use case where the number of clients varies. Specifically, a use case of medical image analysis is proposed, using chest X-ray images obtained from an open data repository. In addition to the advantages related to privacy, improvements in predictions (in terms of accuracy and area under the curve) and reduction of execution times will be studied with respect to the classical case (the centralized approach). Different clients will be simulated from the training data, selected in an unbalanced manner, i.e., they do not all have the same number of data. The results of considering three or ten clients are exposed and compared between them and against the centralized case. Two approaches to follow will be analyzed in the case of intermittent clients, as in a real scenario some clients may leave the training, and some new ones may enter the training. The evolution of the results for the test set in terms of accuracy, area under the curve and execution time is shown as the number of clients into which the original data is divided increases. Finally, improvements and future work in the field are proposed.
翻訳日:2022-07-19 14:12:29 公開日:2022-07-18
# ディープラーニングの隠れた進歩:SGDは計算限界付近の親たちを学ぶ

Hidden Progress in Deep Learning: SGD Learns Parities Near the Computational Limit ( http://arxiv.org/abs/2207.08799v1 )

ライセンス: Link先を確認
Boaz Barak, Benjamin L. Edelman, Surbhi Goel, Sham Kakade, Eran Malach, Cyril Zhang(参考訳) データセット、モデルサイズ、トレーニング時間をスケールアップする深層学習手法の能力には、創発的な現象の実証的な証拠が積み重なっている。 これらの資源がどのように統計容量を調節するかについてはいくつかの説明があるが、モデルトレーニングの計算問題に対する影響についてはあまり知られていない。 この研究は、理論計算の障壁となる正準問題群であるn$bitのk$-sparseパリティを学習するレンズを通してそのような探索を行う。 この設定では、データセットのサイズと実行時間をスケールアップする際、ニューラルネットワークは驚くほどの位相遷移を示す。 特に、標準的なトレーニングでは、さまざまなアーキテクチャが$n^{o(k)$の例でスパースパリティを学習し、$n^{o(k)$の反復の後に突然低下する損失(とエラー)曲線を実証する。 これらの正の結果は既知のSQ下界とほぼ一致し、明示的なスパース性プロモーティングを伴わない。 我々はこれらの現象のメカニズムを理論的解析により解明し、SGDが隠れた特徴群($n^{O(k)}$時間で走る自然なアルゴリズム)を見つけるまで、性能の位相遷移は「暗く揺れる」ことによるものではなく、SGDは徐々に人口勾配のフーリエギャップを増幅することを示した。

There is mounting empirical evidence of emergent phenomena in the capabilities of deep learning methods as we scale up datasets, model sizes, and training times. While there are some accounts of how these resources modulate statistical capacity, far less is known about their effect on the computational problem of model training. This work conducts such an exploration through the lens of learning $k$-sparse parities of $n$ bits, a canonical family of problems which pose theoretical computational barriers. In this setting, we find that neural networks exhibit surprising phase transitions when scaling up dataset size and running time. In particular, we demonstrate empirically that with standard training, a variety of architectures learn sparse parities with $n^{O(k)}$ examples, with loss (and error) curves abruptly dropping after $n^{O(k)}$ iterations. These positive results nearly match known SQ lower bounds, even without an explicit sparsity-promoting prior. We elucidate the mechanisms of these phenomena with a theoretical analysis: we find that the phase transition in performance is not due to SGD "stumbling in the dark" until it finds the hidden set of features (a natural algorithm which also runs in $n^{O(k)}$ time); instead, we show that SGD gradually amplifies a Fourier gap in the population gradient.
翻訳日:2022-07-19 14:09:53 公開日:2022-07-18
# MLGOPerf:パフォーマンスを最適化するMLガイドインライナー

MLGOPerf: An ML Guided Inliner to Optimize Performance ( http://arxiv.org/abs/2207.08389v1 )

ライセンス: Link先を確認
Amir H. Ashouri, Mostafa Elhoushi, Yuzhe Hua, Xiang Wang, Muhammad Asif Manzoor, Bryan Chan and Yaoqing Gao(参考訳) 過去25年間、我々はコンパイラ空間への機械学習の広範な応用、選択と位相順序付けの問題を見てきた。 しかし、制限された作業は最先端のコンパイラ、すなわちllvmにアップストリームされ、ユーザが容易にデプロイできるコンパイラの最適化パイプラインに前者をシームレスに統合している。 MLGOは最初のプロジェクトのひとつであり、Reinforcement Learningを使用したMLベースのInlinerを使ってバイナリのコードサイズを削減しようとしているだけだ。 本稿では,LLVM の ML-Inliner を用いて性能を最適化できる初のエンドツーエンドフレームワークである MLGOPerf について述べる。 MLGOのプライマリモデルとして使用されていた再ターゲット強化学習エージェントのトレーニングに使用する報酬を生成するために、セカンダリMLモデルを使用している。 分析中の関数のインライン後のスピードアップを予測し、そうでなければ実用的でないプライマリモデルのための高速なトレーニングフレームワークを可能にする。 実験の結果、MLGOPerfは、SPEC CPU2006とCbenchベンチマークのパフォーマンスのトレーニングにおいて、O3におけるLLVMの最適化に関して、最大1.8%と2.2%を得ることができた。 さらに、提案手法は、ベンチマークのコード領域を自動調整する機会を最大26%増加させ、さらに3.7%のスピードアップ値に変換します。

For the past 25 years, we have witnessed an extensive application of Machine Learning to the Compiler space; the selection and the phase-ordering problem. However, limited works have been upstreamed into the state-of-the-art compilers, i.e., LLVM, to seamlessly integrate the former into the optimization pipeline of a compiler to be readily deployed by the user. MLGO was among the first of such projects and it only strives to reduce the code size of a binary with an ML-based Inliner using Reinforcement Learning. This paper presents MLGOPerf; the first end-to-end framework capable of optimizing performance using LLVM's ML-Inliner. It employs a secondary ML model to generate rewards used for training a retargeted Reinforcement learning agent, previously used as the primary model by MLGO. It does so by predicting the post-inlining speedup of a function under analysis and it enables a fast training framework for the primary model which otherwise wouldn't be practical. The experimental results show MLGOPerf is able to gain up to 1.8% and 2.2% with respect to LLVM's optimization at O3 when trained for performance on SPEC CPU2006 and Cbench benchmarks, respectively. Furthermore, the proposed approach provides up to 26% increased opportunities to autotune code regions for our benchmarks which can be translated into an additional 3.7% speedup value.
翻訳日:2022-07-19 14:09:07 公開日:2022-07-18
# ロバストな視覚的質問応答のためのデータ拡張の再考

Rethinking Data Augmentation for Robust Visual Question Answering ( http://arxiv.org/abs/2207.08739v1 )

ライセンス: Link先を確認
Long Chen and Yuhang Zheng and Jun Xiao(参考訳) Data Augmentation (DA) – 元のトレーニングセットを超えて追加のトレーニングサンプルを生成する – は、言語のバイアスを軽減するために、今日の偏見のないVQAモデルで広く使用されている。 現在主流のda戦略は合成ベースの手法であり、視覚領域/単語を編集するか、スクラッチから再生成することで新しいサンプルを合成する。 しかし、これらの合成サンプルは常に不自然でエラーを起こしやすい。 この問題を回避するため、最近のdaの作業では、無作為な画像と他の人間による質問を組み合わせることで、新たな拡張サンプルを作成している。 残念なことに、強化されたサンプルが妥当な地味な答えを持つことを保証するため、いくつかの質問タイプに対するヒューリスティックなルールを手動で設計し、その一般化能力は極めて制限される。 そこで本研究では,KDDAugと呼ばれるVQAのための知識蒸留に基づくデータ拡張を提案する。 具体的には、まず、任意の質問タイプに容易に適用できる合理的な画像探索ペアの要件を緩和する。 そこで我々は,知識蒸留(KD)に基づく解答代入を設計し,構成された画像対に対して疑似解答を生成する。 KDDAugはモデルに依存しないDA戦略であるため、任意のVQAアーキテクチャにシームレスに組み込むことができる。 複数のバックボーンとベンチマークに関する広範なアブレーション研究は、kddaugの有効性と一般化能力を示している。

Data Augmentation (DA) -- generating extra training samples beyond original training set -- has been widely-used in today's unbiased VQA models to mitigate the language biases. Current mainstream DA strategies are synthetic-based methods, which synthesize new samples by either editing some visual regions/words, or re-generating them from scratch. However, these synthetic samples are always unnatural and error-prone. To avoid this issue, a recent DA work composes new augmented samples by randomly pairing pristine images and other human-written questions. Unfortunately, to guarantee augmented samples have reasonable ground-truth answers, they manually design a set of heuristic rules for several question types, which extremely limits its generalization abilities. To this end, we propose a new Knowledge Distillation based Data Augmentation for VQA, dubbed KDDAug. Specifically, we first relax the requirements of reasonable image-question pairs, which can be easily applied to any question types. Then, we design a knowledge distillation (KD) based answer assignment to generate pseudo answers for all composed image-question pairs, which are robust to both in-domain and out-of-distribution settings. Since KDDAug is a model-agnostic DA strategy, it can be seamlessly incorporated into any VQA architectures. Extensive ablation studies on multiple backbones and benchmarks have demonstrated the effectiveness and generalization abilities of KDDAug.
翻訳日:2022-07-19 14:08:18 公開日:2022-07-18
# DHGE: リンク予測とエンティティタイピングのためのデュアルビューハイパーリレーショナル知識グラフ埋め込み

DHGE: Dual-view Hyper-Relational Knowledge Graph Embedding for Link Prediction and Entity Typing ( http://arxiv.org/abs/2207.08562v1 )

ライセンス: Link先を確認
Haoran Luo, Haihong E, Ling Tan, Xueyuan Lin, Gengxian Zhou, Jundi Li, Tianyu Yao, Kaiyang Wan(参考訳) 知識グラフ(KGs)の表現学習の分野では、超関係事実は主三重と複数の副属性値記述から構成され、三重グラフよりも包括的で特異であると考えられている。 しかし、既存のハイパーリレーショナルkg埋め込みメソッドは、エンティティ間の親和性を表す階層構造を弱めるため、アプリケーションで制限されている。 エンティティのハイパーリレーショナルなインスタンスビューと、エンティティから階層的に抽象化され、ハイパーリレーショナルで階層的な情報を共同モデル化する概念のハイパーリレーショナルオントロジービューを含む、デュアルビューハイパーリレーショナルkg(dh-kg)構造を提案する。 本稿では、まずDH-KG上でリンク予測とエンティティ型付けタスクを定義し、医療データに基づいてWikidataとHTDMから抽出した2つのDH-KGデータセットJW44K-6Kを構築する。 さらに,GRANエンコーダ,HGNN,共同学習に基づくDH-KG埋め込みモデルDHGEを提案する。 実験の結果,DHGEはDH-KGのベースラインモデルより優れていた。 高血圧治療分野におけるこの技術の応用例も紹介する。 私たちのモデルとデータセットは公開されています。

In the field of representation learning on knowledge graphs (KGs), a hyper-relational fact consists of a main triple and several auxiliary attribute value descriptions, which is considered to be more comprehensive and specific than a triple-based fact. However, the existing hyper-relational KG embedding methods in a single view are limited in application due to weakening the hierarchical structure representing the affiliation between entities. To break this limitation, we propose a dual-view hyper-relational KG (DH-KG) structure which contains a hyper-relational instance view for entities and a hyper-relational ontology view for concepts abstracted hierarchically from entities to jointly model hyper-relational and hierarchical information. In this paper, we first define link prediction and entity typing tasks on DH-KG and construct two DH-KG datasets, JW44K-6K extracted from Wikidata and HTDM based on medical data. Furthermore, We propose a DH-KG embedding model DHGE, based on GRAN encoder, HGNN, and joint learning. Experimental results show that DHGE outperforms baseline models on DH-KG. We also provide an example of the application of this technology in the field of hypertension medication. Our model and datasets are publicly available.
翻訳日:2022-07-19 14:07:08 公開日:2022-07-18
# 逆強化学習のためのアクティブ探索

Active Exploration for Inverse Reinforcement Learning ( http://arxiv.org/abs/2207.08645v1 )

ライセンス: Link先を確認
David Lindner and Andreas Krause and Giorgia Ramponi(参考訳) 逆強化学習(IRL)は、専門家によるデモンストレーションから報酬関数を推定する強力なパラダイムである。 多くのirlアルゴリズムは、既知の遷移モデルと、時には既知の専門家ポリシーを必要とするか、少なくとも生成モデルへのアクセスを必要とする。 しかし、これらの仮定は多くの実世界のアプリケーションにとって強すぎるため、環境はシーケンシャルな相互作用によってのみアクセス可能である。 本稿では,未知の環境と専門的政策を積極的に探求し,専門家の報酬関数を迅速に学習し,優れた政策を識別する,新しいIRLアルゴリズムを提案する。 AceIRLは以前の観測結果を用いて、妥当な報酬関数を捕捉する信頼区間を構築し、環境の最も情報性の高い領域に焦点を当てた探索ポリシーを見つける。 AceIRLは、環境の生成モデルを必要としないサンプル複雑な境界を持つ活性IRLへの最初のアプローチである。 AceIRLは、活性IRLのサンプルの複雑さと、最悪の場合の生成モデルとを一致させる。 さらに,aceirlのサンプル複雑性を与えられたirl問題の準最適ギャップに関連付ける問題依存境界を確立する。 我々はアセールをシミュレーションで実験的に評価し,よりナイーブな探索戦略を著しく上回っていることを見出した。

Inverse Reinforcement Learning (IRL) is a powerful paradigm for inferring a reward function from expert demonstrations. Many IRL algorithms require a known transition model and sometimes even a known expert policy, or they at least require access to a generative model. However, these assumptions are too strong for many real-world applications, where the environment can be accessed only through sequential interaction. We propose a novel IRL algorithm: Active exploration for Inverse Reinforcement Learning (AceIRL), which actively explores an unknown environment and expert policy to quickly learn the expert's reward function and identify a good policy. AceIRL uses previous observations to construct confidence intervals that capture plausible reward functions and find exploration policies that focus on the most informative regions of the environment. AceIRL is the first approach to active IRL with sample-complexity bounds that does not require a generative model of the environment. AceIRL matches the sample complexity of active IRL with a generative model in the worst case. Additionally, we establish a problem-dependent bound that relates the sample complexity of AceIRL to the suboptimality gap of a given IRL problem. We empirically evaluate AceIRL in simulations and find that it significantly outperforms more naive exploration strategies.
翻訳日:2022-07-19 14:06:42 公開日:2022-07-18
# (参考訳) dexter:電子医療文書から表内容を抽出するエンド・ツー・エンドシステム

DEXTER: An end-to-end system to extract table contents from electronic medical health documents ( http://arxiv.org/abs/2207.06823v2 )

ライセンス: CC BY 4.0
Nandhinee PR, Harinath Krishnamoorthy, Koushik Srivatsan, Anil Goyal, Sudarsun Santhiappan(参考訳) 本稿では、電子健康記録(EHR)や福利厚生説明(EOB)など、医療医療文書に記載されている表から情報を抽出するエンド・ツー・エンドシステムであるDEXTERを提案する。 DEXTERは4つのサブシステムステージから構成される。 i) 表の検出 二 表型分類 三 細胞の検出及び iv) 細胞内容の抽出。 本稿では,CDeC-Netアーキテクチャを用いた2段階移動学習手法を提案する。 画像サイズに基づくパラメータ化カーネルを用いたテーブル型分類とセル検出のための従来のコンピュータビジョンに基づく手法を行と列の検出のために設計する。 最後に,既存のocrエンジンtessaractを用いて検出されたセルからテキストを抽出する。 本システムを評価するために, 境界, 部分境界, 境界, 色付きテーブルなど, 異なる表構造をカバーする多種多様な文書からなる実世界の医療データセット(Meddata参照)のサンプルを手動でアノテートした。 DeXTERは、アノテートされた実世界の医療データセット上で、市販のAmazon TextractとMicrosoft Azure Form Recognizerシステムより優れていることを実験的に示す。

In this paper, we propose DEXTER, an end to end system to extract information from tables present in medical health documents, such as electronic health records (EHR) and explanation of benefits (EOB). DEXTER consists of four sub-system stages: i) table detection ii) table type classification iii) cell detection; and iv) cell content extraction. We propose a two-stage transfer learning-based approach using CDeC-Net architecture along with Non-Maximal suppression for table detection. We design a conventional computer vision-based approach for table type classification and cell detection using parameterized kernels based on image size for detecting rows and columns. Finally, we extract the text from the detected cells using pre-existing OCR engine Tessaract. To evaluate our system, we manually annotated a sample of the real-world medical dataset (referred to as Meddata) consisting of wide variations of documents (in terms of appearance) covering different table structures, such as bordered, partially bordered, borderless, or coloured tables. We experimentally show that DEXTER outperforms the commercially available Amazon Textract and Microsoft Azure Form Recognizer systems on the annotated real-world medical dataset
翻訳日:2022-07-19 11:35:51 公開日:2022-07-18
# (参考訳) 畳み込みバイパスはより良い視覚トランスフォーマーアダプターです

Convolutional Bypasses Are Better Vision Transformer Adapters ( http://arxiv.org/abs/2207.07039v2 )

ライセンス: CC0 1.0
Shibo Jie and Zhi-Hong Deng(参考訳) Pretrain-then-finetuneパラダイムはコンピュータビジョンで広く採用されている。 しかし、ViT(Vision Transformer)のサイズが指数関数的に大きくなるにつれて、ストレージのオーバーヘッドが重いため、完全な微調整は禁止される。 言語トランスフォーマー上のパラメータ効率変換学習(PETL)によって動機付けられた最近の研究は、事前訓練されたViTに軽量適応モジュール(アダプタ層やプロンプトトークンなど)を挿入し、事前訓練された重みが凍結されている間にのみこれらのモジュールを微調整する。 しかし、これらのモジュールはもともと言語モデルを微調整するために提案された。 vitにうまく移植できたが、その設計にはビジュアルタスクの事前知識が欠けている。 本稿では,適応モジュールとしてViTに畳み込みバイパス(Convpass)を構築することを提案する。 他のPETL法とは異なり、Convpassは畳み込み層のハードコードによる帰納バイアスの恩恵を受けており、特に低データ構造において視覚的タスクに適している。 VTAB-1kベンチマークと数ショットの学習データセットの実験結果は、Convpassが現在の言語指向適応モジュールより優れており、視覚モデルのための視覚指向適応モジュールを調整する必要があることを示している。

The pretrain-then-finetune paradigm has been widely adopted in computer vision. But as the size of Vision Transformer (ViT) grows exponentially, the full finetuning becomes prohibitive in view of the heavier storage overhead. Motivated by parameter-efficient transfer learning (PETL) on language transformers, recent studies attempt to insert lightweight adaptation modules (e.g., adapter layers or prompt tokens) to pretrained ViT and only finetune these modules while the pretrained weights are frozen. However, these modules were originally proposed to finetune language models. Although ported well to ViT, their design lacks prior knowledge for visual tasks. In this paper, we propose to construct Convolutional Bypasses (Convpass) in ViT as adaptation modules, introducing only a small amount (less than 0.5% of model parameters) of trainable parameters to adapt the large ViT. Different from other PETL methods, Convpass benefits from the hard-coded inductive bias of convolutional layers and thus is more suitable for visual tasks, especially in the low-data regime. Experimental results on VTAB-1k benchmark and few-shot learning datasets demonstrate that Convpass outperforms current language-oriented adaptation modules, demonstrating the necessity to tailor vision-oriented adaptation modules for vision models.
翻訳日:2022-07-19 11:25:38 公開日:2022-07-18
# オンデバイス環境音分類のための連続学習

Continual Learning For On-Device Environmental Sound Classification ( http://arxiv.org/abs/2207.07429v2 )

ライセンス: Link先を確認
Yang Xiao, Xubo Liu, James King, Arshdeep Singh, Eng Siong Chng, Mark D. Plumbley, Wenwu Wang(参考訳) 計算資源(例えばモデルサイズ、メモリ実行量)の制限を考えると、破滅的な忘れずに新しいクラスを継続的に学習することは、オンデバイス環境音の分類において難しい問題である。 そこで本研究では,簡便で効率的な連続学習手法を提案する。 本手法は,サンプルごとの分類の不確実性を測定することにより,トレーニングの履歴データを選択する。 具体的には,分類器埋め込みに付加される並列摂動に対して,データの分類確率がどのように変動するかを観察して不確実性を測定する。 このようにして、生データに摂動を追加するよりも計算コストを大幅に削減することができる。 dcase 2019タスク1とesc-50データセットにおける実験結果から,提案手法は,分類精度と計算効率のベースライン連続学習法を上回っており,オンデバイス環境音の分類における壊滅的な忘れ込み問題なく,効率的かつ漸進的に新しいクラスを学習できることを示す。

Continuously learning new classes without catastrophic forgetting is a challenging problem for on-device environmental sound classification given the restrictions on computation resources (e.g., model size, running memory). To address this issue, we propose a simple and efficient continual learning method. Our method selects the historical data for the training by measuring the per-sample classification uncertainty. Specifically, we measure the uncertainty by observing how the classification probability of data fluctuates against the parallel perturbations added to the classifier embedding. In this way, the computation cost can be significantly reduced compared with adding perturbation to the raw data. Experimental results on the DCASE 2019 Task 1 and ESC-50 dataset show that our proposed method outperforms baseline continual learning methods on classification accuracy and computational efficiency, indicating our method can efficiently and incrementally learn new classes without the catastrophic forgetting problem for on-device environmental sound classification.
翻訳日:2022-07-19 11:09:21 公開日:2022-07-18
# (参考訳) 周波数領域における学習可能なプライバシー予算を用いたプライバシー保全型顔認識

Privacy-Preserving Face Recognition with Learnable Privacy Budgets in Frequency Domain ( http://arxiv.org/abs/2207.07316v2 )

ライセンス: CC BY 4.0
Jiazhen Ji, Huan Wang, Yuge Huang, Jiaxiang Wu, Xingkun Xu, Shouhong Ding, ShengChuan Zhang, Liujuan Cao, Rongrong Ji(参考訳) 顔認識技術は、モバイルデバイスのアンロック、コミュニティアクセス制御システム、都市監視など、高い認識精度のために、多くの分野で使用されている。 現在の高い精度は、非常に深いネットワーク構造によって保証されているため、推論のために高い計算能力を持つサードパーティサーバーに顔画像を送信する必要がある。 しかし、顔画像はユーザーの身元情報を視覚的に明らかにする。 このプロセスでは、信頼できないサービスプロバイダと悪意のあるユーザの両方が、個人のプライバシー侵害のリスクを著しく増加させます。 顔認識に対する現在のプライバシー保護アプローチには、推論時間の大幅な増加や認識精度の低下など、多くの副作用が伴うことが多い。 本稿では,周波数領域における差分プライバシーを用いた顔認識手法を提案する。 差分プライバシーの利用により、理論上はプライバシーの保証を提供する。 一方、精度の低下はごくわずかである。 この方法はまず、元の画像を周波数領域に変換し、直流と呼ばれる直接成分を除去する。 そして、差分プライバシーフレームワーク内のバックエンド顔認識ネットワークの損失に基づいて、プライバシ予算割当方法を学習することができる。 最後に、周波数領域の特徴に対応するノイズを追加する。 提案手法は,複数の古典的顔認証テストセットにおいて,広範囲な実験により非常によく機能する。

Face recognition technology has been used in many fields due to its high recognition accuracy, including the face unlocking of mobile devices, community access control systems, and city surveillance. As the current high accuracy is guaranteed by very deep network structures, facial images often need to be transmitted to third-party servers with high computational power for inference. However, facial images visually reveal the user's identity information. In this process, both untrusted service providers and malicious users can significantly increase the risk of a personal privacy breach. Current privacy-preserving approaches to face recognition are often accompanied by many side effects, such as a significant increase in inference time or a noticeable decrease in recognition accuracy. This paper proposes a privacy-preserving face recognition method using differential privacy in the frequency domain. Due to the utilization of differential privacy, it offers a guarantee of privacy in theory. Meanwhile, the loss of accuracy is very slight. This method first converts the original image to the frequency domain and removes the direct component termed DC. Then a privacy budget allocation method can be learned based on the loss of the back-end face recognition network within the differential privacy framework. Finally, it adds the corresponding noise to the frequency domain features. Our method performs very well with several classical face recognition test sets according to the extensive experiments.
翻訳日:2022-07-19 11:08:32 公開日:2022-07-18
# QSAN: 達成可能な量子自己アテンションネットワーク

QSAN: A Near-term Achievable Quantum Self-Attention Network ( http://arxiv.org/abs/2207.07563v2 )

ライセンス: Link先を確認
Ren-xin Zhao and Jinjing Shi and Shichao Zhang(参考訳) 機械学習の重要な構成要素である自己認識機構(SAM)は、量子機械学習の分野では比較的研究されていない。 Inspired by the Variational Quantum Algorithm (VQA) framework and SAM, Quantum Self-Attention Network (QSAN) that can be implemented on a near-term quantum computer is proposed.Theoretically, Quantum Self-Attention Mechanism (QSAM), a novel interpretation of SAM with linearization and logicalization is defined, in which Quantum Logical Similarity (QLS) is presented firstly to impel a better execution of QSAM on quantum computers since inner product operations are replaced with logical operations, and then a QLS-based density matrix named Quantum Bit Self-Attention Score Matrix (QBSASM) is deduced for representing the output distribution effectively. さらに、QSANはQSAMフレームワークに基づいて実装され、その実用的な量子回路は5つのモジュールで設計されている。 最後に、QSANは小さなサンプルデータを持つ量子コンピュータ上でテストされる。 実験の結果,QSANは量子的自然勾配降下フレームワークにおいてより高速に収束し,単語ベクトルに重みを割り当てることができることがわかった。 上記のことは、QSANが量子特性により早く注意を向けることができ、量子自然言語処理(QNLP)の基礎を築いたことを示している。

Self-Attention Mechanism (SAM), an important component of machine learning, has been relatively little investigated in the field of quantum machine learning. Inspired by the Variational Quantum Algorithm (VQA) framework and SAM, Quantum Self-Attention Network (QSAN) that can be implemented on a near-term quantum computer is proposed.Theoretically, Quantum Self-Attention Mechanism (QSAM), a novel interpretation of SAM with linearization and logicalization is defined, in which Quantum Logical Similarity (QLS) is presented firstly to impel a better execution of QSAM on quantum computers since inner product operations are replaced with logical operations, and then a QLS-based density matrix named Quantum Bit Self-Attention Score Matrix (QBSASM) is deduced for representing the output distribution effectively. Moreover, QSAN is implemented based on the QSAM framework and its practical quantum circuit is designed with 5 modules. Finally, QSAN is tested on a quantum computer with a small sample of data. The experimental results show that QSAN can converge faster in the quantum natural gradient descent framework and reassign weights to word vectors. The above illustrates that QSAN is able to provide attention with quantum characteristics faster, laying the foundation for Quantum Natural Language Processing (QNLP).
翻訳日:2022-07-19 10:55:01 公開日:2022-07-18
# 物体追跡の統一に向けて

Towards Grand Unification of Object Tracking ( http://arxiv.org/abs/2207.07078v2 )

ライセンス: Link先を確認
Bin Yan, Yi Jiang, Peize Sun, Dong Wang, Zehuan Yuan, Ping Luo, and Huchuan Lu(参考訳) 本論文では,単一ネットワーク上で同じモデルパラメータを用いて4つのトラッキング問題(sot, mot, vos, mots)を同時に解決できる統一手法であるunicornを提案する。 オブジェクト追跡問題自体の断片的な定義のため、既存のトラッカーはタスクの1つまたは一部に対処し、特定のタスクの特性を過小評価するように開発されている。 対照的にUnicornは、すべてのトラッキングタスクに同じインプット、バックボーン、埋め込み、ヘッドを採用する、統一されたソリューションを提供する。 追跡ネットワークアーキテクチャと学習パラダイムの偉大な統合を初めて達成しました。 Unicornは、LaSOT、TrackingNet、MOT17、BDD100K、DAVIS16-17、MOTS20、BDD100K MOTSを含む8つのトラッキングデータセットにおいて、タスク固有のデータセットよりもパフォーマンスが優れている。 私たちはUnicornが一般的なビジョンモデルに向けた確かなステップとなると信じています。 コードはhttps://github.com/MasterBin-IIAU/Unicornで入手できる。

We present a unified method, termed Unicorn, that can simultaneously solve four tracking problems (SOT, MOT, VOS, MOTS) with a single network using the same model parameters. Due to the fragmented definitions of the object tracking problem itself, most existing trackers are developed to address a single or part of tasks and overspecialize on the characteristics of specific tasks. By contrast, Unicorn provides a unified solution, adopting the same input, backbone, embedding, and head across all tracking tasks. For the first time, we accomplish the great unification of the tracking network architecture and learning paradigm. Unicorn performs on-par or better than its task-specific counterparts in 8 tracking datasets, including LaSOT, TrackingNet, MOT17, BDD100K, DAVIS16-17, MOTS20, and BDD100K MOTS. We believe that Unicorn will serve as a solid step towards the general vision model. Code is available at https://github.com/MasterBin-IIAU/Unicorn.
翻訳日:2022-07-19 10:54:43 公開日:2022-07-18
# XMem: Atkinson-Shiffrinメモリモデルを用いた長期ビデオオブジェクトセグメンテーション

XMem: Long-Term Video Object Segmentation with an Atkinson-Shiffrin Memory Model ( http://arxiv.org/abs/2207.07115v2 )

ライセンス: Link先を確認
Ho Kei Cheng and Alexander G. Schwing(参考訳) 我々は,Atkinson-Shiffrinメモリモデルにインスパイアされた特徴記憶を統一した長ビデオ用ビデオオブジェクトセグメンテーションアーキテクチャXMemを提案する。 ビデオオブジェクトセグメンテーションの以前の作業は、通常、1種類のフィーチャーメモリのみを使用する。 1分以上のビデオの場合、単一の機能メモリモデルはメモリ消費と精度を強くリンクする。 対照的に、atkinson-shiffrinモデルに従い、高速に更新された感覚記憶装置、高分解能の作業記憶装置、コンパクトで持続的な長期記憶装置など、複数の独立で深く接続された特徴記憶装置を組み込んだアーキテクチャを開発した。 本稿では,アクティブに使用されるメモリ要素を長期記憶に日常的に統合するメモリ強化アルゴリズムを開発し,メモリの爆発を回避し,長期予測のための性能低下を最小限に抑える。 新しいメモリ読み込みメカニズムと組み合わせることで、XMemは、短いビデオデータセットの最先端のパフォーマンスをはるかに上回り、短いビデオデータセットの最先端メソッド(長ビデオでは動作しない)と同等である。 コードはhttps://hkchengrex.github.io/XMemで入手できる。

We present XMem, a video object segmentation architecture for long videos with unified feature memory stores inspired by the Atkinson-Shiffrin memory model. Prior work on video object segmentation typically only uses one type of feature memory. For videos longer than a minute, a single feature memory model tightly links memory consumption and accuracy. In contrast, following the Atkinson-Shiffrin model, we develop an architecture that incorporates multiple independent yet deeply-connected feature memory stores: a rapidly updated sensory memory, a high-resolution working memory, and a compact thus sustained long-term memory. Crucially, we develop a memory potentiation algorithm that routinely consolidates actively used working memory elements into the long-term memory, which avoids memory explosion and minimizes performance decay for long-term prediction. Combined with a new memory reading mechanism, XMem greatly exceeds state-of-the-art performance on long-video datasets while being on par with state-of-the-art methods (that do not work on long videos) on short-video datasets. Code is available at https://hkchengrex.github.io/XMem
翻訳日:2022-07-19 10:54:25 公開日:2022-07-18
# 検出からのデカップリング認識:単一ショット自己回復シーンテキストスポッター

Decoupling Recognition from Detection: Single Shot Self-Reliant Scene Text Spotter ( http://arxiv.org/abs/2207.07253v2 )

ライセンス: Link先を確認
Jingjing Wu, Pengyuan Lyu, Guangming Lu, Chengquan Zhang, Kun Yao and Wenjie Pei(参考訳) 典型的なテキストスポッターは2段階スポッティング戦略に従い、まずテキストインスタンスの正確な境界を検出し、次に位置したテキスト領域内でテキスト認識を行う。 このような戦略は大きな進歩を遂げたものの、根本的な制限は2つある。 1) テキスト認識の性能は, テキスト検出の精度に大きく依存し, 検出から認識への潜在的な誤り伝播に繋がる。 2)検出と認識を橋渡しするRoI収穫は,背景からノイズを発生させ,特徴マップからのプールや補間時に情報損失を引き起こす。 本研究では,認識を検出から切り離すことにより,これらの制限を回避する,単発の自己回復シーンテキストスポッター(SRSTS)を提案する。 具体的には、テキストの検出と認識を並行して行い、それらを共有正のアンカーポイントで橋渡しする。 これにより,精度の高いテキスト境界検出が困難であっても,テキストインスタンスを正しく認識することができる。 さらに本手法は,テキスト検出のアノテーションコストを大幅に削減する。 正規形状ベンチマークと任意形状ベンチマークに関する広範囲な実験により,srstsは精度と効率の両面で従来の最先端スポッターと比較できることが示された。

Typical text spotters follow the two-stage spotting strategy: detect the precise boundary for a text instance first and then perform text recognition within the located text region. While such strategy has achieved substantial progress, there are two underlying limitations. 1) The performance of text recognition depends heavily on the precision of text detection, resulting in the potential error propagation from detection to recognition. 2) The RoI cropping which bridges the detection and recognition brings noise from background and leads to information loss when pooling or interpolating from feature maps. In this work we propose the single shot Self-Reliant Scene Text Spotter (SRSTS), which circumvents these limitations by decoupling recognition from detection. Specifically, we conduct text detection and recognition in parallel and bridge them by the shared positive anchor point. Consequently, our method is able to recognize the text instances correctly even though the precise text boundaries are challenging to detect. Additionally, our method reduces the annotation cost for text detection substantially. Extensive experiments on regular-shaped benchmark and arbitrary-shaped benchmark demonstrate that our SRSTS compares favorably to previous state-of-the-art spotters in terms of both accuracy and efficiency.
翻訳日:2022-07-19 10:54:08 公開日:2022-07-18
# 1Dカーネルとしての3Dインスタンス

3D Instances as 1D Kernels ( http://arxiv.org/abs/2207.07372v2 )

ライセンス: Link先を確認
Yizheng Wu, Min Shi, Shuaiyuan Du, Hao Lu, Zhiguo Cao, Weicai Zhong(参考訳) 3dインスタンスのセマンティクス、位置、形状情報をエンコードした1次元ベクトルでインスタンスを表現した3dインスタンス表現をインスタンスカーネルと呼ぶ。 インスタンスカーネルは,通常の3Dインスタンスセグメンテーションパイプラインにおける提案やヒューリスティッククラスタリングアルゴリズムに大きく依存することを避けるために,カーネル全体をスキャンするだけで,マスク推論が容易であることを示す。 インスタンスカーネルのアイデアは、2D/3Dインスタンスセグメンテーションにおける動的畳み込みの成功に触発されている。 しかし、不適切なインスタンスのローカライゼーションがインスタンス表現を著しく劣化させるなど、ポイントクラウドデータの乱れや非構造化の性質のため、3Dインスタンスを表現するのは簡単ではない。 そこで我々は,新しい3Dインスタンスエンコーディングパラダイムを構築した。 まず、潜在的なインスタンスcentroidsが候補としてローカライズされる。 次に、重複候補を集約し、マージセンタロイド周辺のコンテキストを収集してインスタンスカーネルを形成するように、候補マージスキームを考案する。 一度インスタンスカーネルが利用可能になると、インスタンスのカーネルに重みが条件付けられた動的畳み込みを通じてインスタンスマスクを再構築することができる。 パイプライン全体が動的カーネルネットワーク(DKNet)でインスタンス化される。 その結果,DKNetは,ScanNetV2データセットとS3DISデータセットの両方で,より優れたインスタンスローカライゼーションを実現している。 コードはhttps://github.com/w1zheng/dknet。

We introduce a 3D instance representation, termed instance kernels, where instances are represented by one-dimensional vectors that encode the semantic, positional, and shape information of 3D instances. We show that instance kernels enable easy mask inference by simply scanning kernels over the entire scenes, avoiding the heavy reliance on proposals or heuristic clustering algorithms in standard 3D instance segmentation pipelines. The idea of instance kernel is inspired by recent success of dynamic convolutions in 2D/3D instance segmentation. However, we find it non-trivial to represent 3D instances due to the disordered and unstructured nature of point cloud data, e.g., poor instance localization can significantly degrade instance representation. To remedy this, we construct a novel 3D instance encoding paradigm. First, potential instance centroids are localized as candidates. Then, a candidate merging scheme is devised to simultaneously aggregate duplicated candidates and collect context around the merged centroids to form the instance kernels. Once instance kernels are available, instance masks can be reconstructed via dynamic convolutions whose weights are conditioned on instance kernels. The whole pipeline is instantiated with a dynamic kernel network (DKNet). Results show that DKNet outperforms the state of the arts on both ScanNetV2 and S3DIS datasets with better instance localization. Code is available: https://github.com/W1zheng/DKNet.
翻訳日:2022-07-19 10:53:45 公開日:2022-07-18
# ST-P3:空間時間特徴学習によるエンドツーエンドビジョンに基づく自律運転

ST-P3: End-to-end Vision-based Autonomous Driving via Spatial-Temporal Feature Learning ( http://arxiv.org/abs/2207.07601v2 )

ライセンス: Link先を確認
Shengchao Hu and Li Chen and Penghao Wu and Hongyang Li and Junchi Yan and Dacheng Tao(参考訳) 既存の自動運転パラダイムの多くは、タスクの多段階離散パイプラインを含む。 制御信号をよりよく予測し、ユーザ安全性を高めるために、共同空間時空間特徴学習の恩恵を受けるエンドツーエンドアプローチが望ましい。 本稿では,LiDARに基づく入力や暗黙的な設計に関する先駆的な研究があるが,その問題を解釈可能な視覚的設定で定式化する。 特に,ST-P3と呼ばれる,知覚,予測,計画タスクを同時に行うための,より代表的な特徴の集合に対する時空間的特徴学習手法を提案する。 具体的には、鳥の視線変化を知覚するための3次元空間における幾何学情報を保存するために、エゴセントリック・アライメント・アライメント手法を提案し、将来の予測のために過去の動きの変動を考慮に入れた二重経路モデリングを考案した。 我々の知る限りでは、私たちはまず、解釈可能なエンドツーエンドの自動運転システムの各部分を体系的に調査する。 オープンループ nuScenes データセットとクローズループ CARLA シミュレーションを用いて,従来の最先端技術に対するアプローチをベンチマークした。 その結果,本手法の有効性が示された。 ソースコード、モデル、プロトコルの詳細はhttps://github.com/openperceptionx/st-p3で公開されている。

Many existing autonomous driving paradigms involve a multi-stage discrete pipeline of tasks. To better predict the control signals and enhance user safety, an end-to-end approach that benefits from joint spatial-temporal feature learning is desirable. While there are some pioneering works on LiDAR-based input or implicit design, in this paper we formulate the problem in an interpretable vision-based setting. In particular, we propose a spatial-temporal feature learning scheme towards a set of more representative features for perception, prediction and planning tasks simultaneously, which is called ST-P3. Specifically, an egocentric-aligned accumulation technique is proposed to preserve geometry information in 3D space before the bird's eye view transformation for perception; a dual pathway modeling is devised to take past motion variations into account for future prediction; a temporal-based refinement unit is introduced to compensate for recognizing vision-based elements for planning. To the best of our knowledge, we are the first to systematically investigate each part of an interpretable end-to-end vision-based autonomous driving system. We benchmark our approach against previous state-of-the-arts on both open-loop nuScenes dataset as well as closed-loop CARLA simulation. The results show the effectiveness of our method. Source code, model and protocol details are made publicly available at https://github.com/OpenPerceptionX/ST-P3.
翻訳日:2022-07-19 10:53:24 公開日:2022-07-18
# 確率的市場ゲーム

Stochastic Market Games ( http://arxiv.org/abs/2207.07388v2 )

ライセンス: Link先を確認
Kyrill Schmid, Lenz Belzner, Robert M\"uller, Johannes Tochtermann, Claudia Linhoff-Popien(参考訳) 自律運転やファクトリー・アズ・ア・サービスのようなマルチエージェントシステムの最も関連する将来の応用は、エージェントが相反する目標を持つ可能性がある混合動機的シナリオを示す。 これらの設定では、エージェントは、過剰な欲望行動のような独立した学習の下での協調の観点から望ましくない結果を学ぶ可能性が高い。 本研究は,現実社会に動機づけられ,エージェントが協力的になるためのインセンティブを提供するために,市場力を活用することを提案する。 囚人のジレンマの反復版で示されるように、提案された市場の定式化はゲームのダイナミクスを変え、一貫して協調政策を学ぶことができる。 さらに,各種エージェントの空間的および時間的拡張設定におけるアプローチの評価を行った。 我々は、市場の存在が、トレーディング活動を通じて、総合的な結果とエージェント個人のリターンの両方を改善できることを実証的に見出す。

Some of the most relevant future applications of multi-agent systems like autonomous driving or factories as a service display mixed-motive scenarios, where agents might have conflicting goals. In these settings agents are likely to learn undesirable outcomes in terms of cooperation under independent learning, such as overly greedy behavior. Motivated from real world societies, in this work we propose to utilize market forces to provide incentives for agents to become cooperative. As demonstrated in an iterated version of the Prisoner's Dilemma, the proposed market formulation can change the dynamics of the game to consistently learn cooperative policies. Further we evaluate our approach in spatially and temporally extended settings for varying numbers of agents. We empirically find that the presence of markets can improve both the overall result and agent individual returns via their trading activities.
翻訳日:2022-07-19 10:52:58 公開日:2022-07-18