このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220528となっている論文です。

PDF登録状況(公開日: 20220528)

TitleAuthorsAbstract論文公表日・翻訳日
# 開2次非エルミート系における非慣習定常状態と位相相

Unconventional steady states and topological phases in an open two-level non-Hermitian system ( http://arxiv.org/abs/2004.03703v4 )

ライセンス: Link先を確認
Jian Xu and Youneng Guo(参考訳) デコヒーレンスと非ハーミティシティは開量子系の2つの異なる効果である。 両者とも多くの興味深い現象を引き起こした。 本稿では,ベクトル化リンドブラッド方程式を解くことにより,開二層非エルミート系の散逸環境への結合を理論的に検討する。 このスキームは、利益、損失、散逸を伴う幅広いオープンシステムに対処する強力なフレームワークを提供する。 以上の結果から,非ハーモシティとデコヒーレンスとの相互作用により,新たな例外点(EP)と定常状態が存在することが示唆された。 さらに、フェルミ弧に対応する固有値の零実部(Re[\lambda]=0$)を持つ固有状態の新しいタイプの位相特性も示す。 フェルミアーク状態にある固有状態の位相は、散逸環境の影響を受けない位相 $|\pi/2|$ を持つことが明らかとなった。 本研究は,非エルミートオープンシステムの興味をそそる性質をさらに解明し,理解するための有望なアプローチを提供する。

Decoherence and non-Hermiticity are two different effects of the open quantum systems. Both of them have triggered many interesting phenomena. In this paper, we theoretically study an open two-level non-Hermitian system coupling to a dissipative environment by solving the vectorized Lindblad equation. This scheme provides us a powerful framework to address widespread open systems with gain, loss and dissipation. Our results show that there exist a new class of exceptional points (EPs) and steady states due to the interplay between non-Hermiticity and decoherence. Furthermore, we also demonstrate new-type topological properties of eigenstates with zero real-part of eigenvalues ($Re[\lambda]=0$) which are corresponding to Fermi arcs. It is revealed that the phases of eigenstates located in Fermi arcs regime have a topological phase $|\pi/2|$ which is totally unaffected by the dissipative environment. Our results provide a promising approach for further uncovering and understanding the intriguing properties of non-Hermitian open systems.
翻訳日:2023-05-26 04:01:16 公開日:2022-05-28
# 単一サーバおよびマルチサーバブラインド量子計算プロトコルの等価性

Equivalence of Single-server and Multiple-servers Blind Quantum Computation Protocols ( http://arxiv.org/abs/2106.05547v2 )

ライセンス: Link先を確認
Yuichi Sano(参考訳) 量子コンピュータは高価であるため、それを利用したい個人は、量子コンピュータを持っている人に計算を委譲することでそれを行おうとしている。 量子コンピュータユーザが計算を量子サーバに委譲するとき、彼らは計算に関する情報をサーバーから隠したいと考えている。 サーバから計算に関する情報を隠蔽しながら計算を委譲するプロトコルを {\sl blind quantum computing protocol} と呼ぶ。 シングルサーバの盲点量子計算プロトコルに関する以前の研究では、ユーザーは量子能力を持つ必要があった。 従来のマルチサーバの盲点量子計算プロトコルの研究では、ユーザーは古典的な能力だけではならず、サーバ間通信に制限を課す必要があった。 古典ユーザとマルチサーバブラインド量子計算プロトコルを持つ単一サーバブラインド量子計算プロトコルは知られていないので、サーバ同士が自由に通信できる。 これらのプロトコルの存在は等価であることを示す。

Because quantum computers are expensive, it is envisaged that individuals who want to utilize them would do so by delegating their calculations to someone who has a quantum computer. When quantum computer users delegate computations to quantum servers, they wish to keep information about their calculations hidden from the servers. The protocol of delegating a calculation while hiding information about the calculation from the server is called {\sl blind quantum computation protocol}. Prior research on single-server's blind quantum computation protocol required users to have quantum capabilities. Prior research on multiple-servers' blind quantum computation protocols required users to have just classical capabilities but imposed limits on the server-to-server communication. There are no known single-server blind quantum computation protocols with a classical user and multiple-servers blind quantum computation protocols that allows servers to communicate freely with each other. We show that the existence of these protocols is equivalence.
翻訳日:2023-03-27 02:08:48 公開日:2022-05-28
# Bose-Hubbardモデルの新しい解法

Solving the Bose-Hubbard model in new ways ( http://arxiv.org/abs/2106.09324v3 )

ライセンス: Link先を確認
A. P. Sowa and J. Fransson(参考訳) 近傍の相互作用を持つボソンの配列に対するBose-Hubbardモデルの解析手法を提案する。 これはモデルを構成する生成および消滅演算子の数論的な実装に基づいている。 このアプローチの利点の1つは、任意の精度で計算を容易にし、ほぼ完全な数値実験を可能にすることである。 特に、このタイプの有限系における量子相転移の厳密なコンピュータ支援証明を提供する。 さらに,正有理数の乗法群に対する調和解析を通じて無限アレーの性質を調べる。 これは、基礎となるフォック空間をヘッケ空間の無限テンソル積、すなわち非負の周波数調和の重ね合わせである二乗可積分周期函数の空間として再キャストする同型を与える。 この同型の下で、数論的な生成と消滅作用素は円上の調和振動子のカストラップモデルにマッピングされる。 また,局所異方性場を持つスピンモーメントの配列を手元に持つモデルとの親和性も強調することができる。 これは、手元にあるモデルにマッピングできる興味深い物理システムを特定する。

We introduce a new method for analysing the Bose-Hubbard model for an array of bosons with nearest neighbor interactions. It is based on a number-theoretic implementation of the creation and annihilation operators that constitute the model. One of the advantages of this approach is that it facilitates computation with arbitrary accuracy, enabling nearly perfect numerical experimentation. In particular, we provide a rigorous computer assisted proof of quantum phase transitions in finite systems of this type. Furthermore, we investigate properties of the infinite array via harmonic analysis on the multiplicative group of positive rationals. This furnishes an isomorphism that recasts the underlying Fock space as an infinite tensor product of Hecke spaces, i.e., spaces of square-integrable periodic functions that are a superposition of non-negative frequency harmonics. Under this isomorphism, the number-theoretic creation and annihilation operators are mapped into the Kastrup model of the harmonic oscillator on the circle. It also enables us to highlight a kinship of the model at hand with an array of spin moments with a local anisotropy field. This identifies an interesting physical system that can be mapped into the model at hand.
翻訳日:2023-03-26 10:58:57 公開日:2022-05-28
# 散逸系連続相転移における定常感受性

Steady-state susceptibility in continuous phase transitions of dissipative systems ( http://arxiv.org/abs/2201.04430v2 )

ライセンス: Link先を確認
Xingli Li, Yan Li and Jiasen Jin(参考訳) 本研究では,連続相転移における散逸系の定常状態に伴う忠実性およびトレース距離感受性の臨界挙動について検討する。 2次元正方格子上の散逸スピン1/2xyzモデルと駆動散逸カー発振器の2つの典型的なモデルについて検討した。 忠実性とトレース距離の感受性は,両モデルにおける相転移の臨界点付近の特異な挙動を呈することがわかった。 臨界制御パラメータのスケーリングから抽出された臨界点からシステムサイズや非線形性は、熱力学的限界において、既存の結果とよく一致する。

In this work, we explore the critical behaviors of fidelity susceptibility and trace distance susceptibility associated to the steady states of dissipative systems at continuous phase transitions. We investigate on two typical models, one is the dissipative spin-1/2 XYZ model on two-dimensional square lattice and the other is a driven-dissipative Kerr oscillator. We find that the susceptibilities of fidelity and trace distance exhabit singular behaviors near the critical points of phase transitions in both models. The critical points, in thermodynamic limit, extracted from the scalings of the critical controlling parameters to the system size or nonlinearity agree well with the existed results.
翻訳日:2023-03-01 08:47:58 公開日:2022-05-28
# 単光子散乱は2光子計測技術との相違を考慮できる

Single Photon Scattering Can Account for the Discrepancies Between Entangled Two-Photon Measurement Techniques ( http://arxiv.org/abs/2202.11764v3 )

ライセンス: Link先を確認
Bryce P. Hickam, Manni He, Nathan Harper, Szilard Szoke, Scott Cushing(参考訳) 絡み合った光子対は2光子吸収の線形化と効率の向上を予測され、連続波レーザーダイオードは超高速の時間分解分光と非線形過程を駆動する。 様々な理論的な研究と実験的な測定にもかかわらず、エンタングルメント強化相互作用断面積の値に関する矛盾は続いている。 2光子励起現象の前、中、後の絡み合った光子状態を時間的、スペクトル的に特徴づける分光計が構築されている。 仮想状態経路を持つロドミン6g分子では、全ての絡み合った2光子相互作用は、古典的な単一光子散乱事象と等しいか低いことが分かる。 この結果は、異なる測定手法で報告された様々な2光子吸収断面積の差を説明できる。 報告された測定器は、古典的および絡み合った効果を明白に分離することができるため、非線形および多光子交絡分光の増大分野において重要である。

Entangled photon pairs are predicted to linearize and increase the efficiency of two-photon absorption, allowing continuous wave laser diodes to drive ultrafast time-resolved spectroscopy and nonlinear processes. Despite a range of theoretical studies and experimental measurements, inconsistencies persist about the value of the entanglement enhanced interaction cross section. A spectrometer is constructed that can temporally and spectrally characterize the entangled photon state before, during, and after any potential two-photon excitation event. For the molecule Rhodamine 6G, which has a virtual state pathway, any entangled two-photon interaction is found to be equal to or lower than classical, single photon scattering events. This result can account for the discrepancies between the wide variety of entangled two-photon absorption cross sections reported from different measurement techniques. The reported instrumentation can unambiguously separate classical and entangled effects and therefore is of importance for the growing field of nonlinear and multiphoton entangled spectroscopy.
翻訳日:2023-02-24 03:35:07 公開日:2022-05-28
# スピンおよび軌道光電流のヘリシティ分解に関するもう1回

One more time on the helicity decomposition of spin and orbital optical currents ( http://arxiv.org/abs/2203.11455v2 )

ライセンス: Link先を確認
Andrea Aiello(参考訳) 光波の線形運動量密度のヘリシティ表現は、同軸および非同軸の伝搬状態における単色光学場に対してよく理解されている。 本稿では、この表現を非単色光学場に一般化する。 単色の場合とは異なり、ポインティングベクトルを$c^2$で割った線形運動量密度は、電気的・磁気的貢献の平均化によって強制されるいわゆる電磁民主主義であっても、右利きの項と左利きの項の合計とは分離しない。 しかし、準単色光の場合、この分離は時間経過後にほぼ復元される。 この論文は、80ドルの誕生日にマイケル・ベリー卿に捧げられたものである。

The helicity representation of the linear momentum density of a light wave is well understood for monochromatic optical fields in both paraxial and non-paraxial regimes of propagation. In this note we generalize such representation to nonmonochromatic optical fields. We find that, differently from the monochromatic case, the linear momentum density, aka the Poynting vector divided by $c^2$, does not separate into the sum of right-handed and left-handed terms, even when the so-called electric-magnetic democracy in enforced by averaging the electric and magnetic contributions. However, for quasimonochromatic light, such a separation is approximately restored after time-averaging. This paper is dedicated to Sir Michael Berry on the occasion of his $80$th birthday.
翻訳日:2023-02-21 03:07:06 公開日:2022-05-28
# 完全連結重み付きグラフのラプラシアン行列の固有問題を解く量子アルゴリズム

A quantum algorithm for solving eigenproblem of the Laplacian matrix of a fully connected weighted graph ( http://arxiv.org/abs/2203.14451v2 )

ライセンス: Link先を確認
Hai-Ling Liu, Su-Juan Qin, Lin-Chun Wan, Chao-Hua Yu, Shi-Jie Pan, Fei Gao, and Qiao-Yan Wen(参考訳) 完全連結重み付きグラフのラプラシアン行列の固有問題を解くことは、データサイエンス、機械学習、画像処理などに広く応用できる。 しかし、これは高価な行列演算を必要とするため、非常に難しい。 本稿では,各頂点とそのノルムの要素が,量子ランダムアクセスメモリデータ構造を介して効率的にアクセス可能であるという仮定に基づいて,効率の良い量子アルゴリズムを提案する。 具体的には、ブロック符号化フレームワークに基づく最適ハミルトンシミュレーション手法を採用し、ラプラシア行列の量子シミュレーションを実装する。 そして、量子位相推定アルゴリズムにより、ラプラシア行列の固有値と固有ベクトルを抽出する。 アルゴリズム全体のコアは、ラプラシア行列のブロックエンコーディングを構築することである。 そこで本研究では,重み行列と次数行列の情報をそれぞれ含む演算子のブロックエンコーディングを構築する方法を提案し,さらにラプラシア行列のブロックエンコーディングを得る。 古典的手法と比較して,本アルゴリズムは頂点数に対する多項式の高速化と,各頂点の次元に対する指数的速度アップを有する。 また,本アルゴリズムは対称(非対称)正規化ラプラシアン行列の固有問題を解くために拡張可能であることを示した。

Solving eigenproblem of the Laplacian matrix of a fully connected weighted graph has wide applications in data science, machine learning, and image processing, etc. However, this is very challenging because it involves expensive matrix operations. Here, we propose an efficient quantum algorithm to solve it based on a assumption that the element of each vertex and its norms can be effectively accessed via a quantum random access memory data structure. Specifically, we adopt the optimal Hamiltonian simulation technique based on the block-encoding framework to implement the quantum simulation of the Laplacian matrix. Then, the eigenvalues and eigenvectors of the Laplacian matrix are extracted by the quantum phase estimation algorithm. The core of our entire algorithm is to construct the block-encoding of the Laplacian matrix. To achieve this, we propose in detail how to construct the block-encodings of operators containing the information of the weight matrix and the degree matrix respectively, and further obtain the block-encoding of the Laplacian matrix. Compared with its classical counterpart, our algorithm has a polynomial speedup on the number of vertices and an exponential speedup on the dimension of each vertex. We also show that our algorithm can be extended to solve the eigenproblem of symmetric (non-symmetric) normalized Laplacian matrix.
翻訳日:2023-02-20 12:06:18 公開日:2022-05-28
# 非線形駆動による量子アニーリングの性能評価

Assessing the performance of quantum annealing with nonlinear driving ( http://arxiv.org/abs/2203.17009v2 )

ライセンス: Link先を確認
Artur Soriani, Pierre Naz\'e, Marcus V. S. Bonan\c{c}a, Bart{\l}omiej Gardas and Sebastian Deffner(参考訳) 現在の世代の量子アニールは、すでに問題解決器として成功したことが証明されている。 しかし、量子アニーリングはまだ初期段階にあり、準最適適用性がある。 例えば、今日まで、アニーリングプロトコルが与えられた固有スペクトラムの最も少ないダイアバティックな励起を引き起こし、普遍的に最適な戦略が存在するかどうかという疑問は未解決である。 そこで,本稿では,量子アニーリングの場として機能する完全可解モデルである横磁場イジングチェーンに適用する非線形プロトコルから発生するダイアバティック励起について解析的および数値的に検討する。 本分析では, 従来の研究で議論された動的位相を抑え, 促進する複数の駆動方式に着目した。 むしろ驚くべきことに、システムの量子臨界点における交差と停止の両方のために、進化の'pauses'でパラダイム的なキブル・ズレックの挙動を抑えることができる。

Current generation quantum annealers have already proven to be successful problem-solvers. Yet, quantum annealing is still very much in its infancy, with suboptimal applicability. For instance, to date it is still an open question which annealing protocol causes the fewest diabatic excitations for a given eigenspectrum, and even whether there is a universally optimal strategy. Therefore, in this paper, we report analytical and numerical studies of the diabatic excitations arising from nonlinear protocols applied to the transverse field Ising chain, the exactly solvable model that serves as a quantum annealing playground. Our analysis focuses on several driving schemes that inhibit or facilitate the dynamic phases discussed in a previous work. Rather remarkably, we find that the paradigmatic Kibble-Zurek behavior can be suppressed with ``pauses'' in the evolution, both for crossing and for stopping at the quantum critical point of the system.
翻訳日:2023-02-20 05:12:47 公開日:2022-05-28
# ネットネイティブ契約システムの構築

Building net-native agreement systems ( http://arxiv.org/abs/2205.14290v1 )

ライセンス: Link先を確認
Joshua Z. Tan and Luke V. Miller(参考訳) 合意と契約は至る所にあるが、それらは法的および社会的機関の層と層の上に構築されている。 ソフトウェアはこのスタックにゆっくりと入り込んでいます。 本稿では,デジタル合意システムを理解・分解するための汎用モデルであるcon agreement pathsと,net-native agreement systemを構築するためのオープンソースソフトウェアサービスcon agreement engineを紹介する。 私たちは、クラウドファンディングエッセイのアプリであるScarce Knowledgeと、ユーザがTwitterの契約を形成および強制するためのボットであるTwitter Social Capitalの2つの例を構築して、合意エンジンを実証した。

Agreements and contracts are everywhere, but they are built on layers and layers of legal and social institutions. Software is slowly entering into this stack. In this article, we introduce agreement paths, a general model for understanding and decomposing digital agreement systems, and Agreement Engine, an open-source software service for building net-native agreement systems. We demonstrate Agreement Engine by building two example agreement systems: Scarce Knowledge, an app for crowdfunding essays, and Twitter Social Capital, a bot that allows users to form and enforce Twitter agreements.
翻訳日:2023-02-19 17:17:29 公開日:2022-05-28
# 畳み込みニューラルネットワークによる絡み合い検出における効率的な可観測演算子の探索

Finding efficient observable operators in entanglement detection via convolutional neural network ( http://arxiv.org/abs/2205.13376v2 )

ライセンス: Link先を確認
Zi-Qi Lian, You-Yang Zhou, Liu-Jun Wang, Qing Chen(参考訳) 量子情報では、エンタングルメントを効率的に検出することが重要である。 一般に、状態密度行列を得るためには量子トモグラフィーが必要である。 しかし、多くの測定リソースを消費し、鍵となるのは、どのように消費を減らすかである。 本稿では,ニューラルネットワークの畳み込み層と,量子力学における可観測演算子の平均値との関係を明らかにした。 次に,2量子ビット量子系の絡み合い検出に応用可能な分岐畳み込みニューラルネットワークを提案する。 ここでは、ワーナー状態、一般化されたワーナー状態、一般2量子状態の絡み合いを検出し、検出に適した可観測作用素を自動的に見つけることができる。 プライベートな研究と比較して、本手法は特定の形態の量子状態に対してより少ない精度で高精度に測定できる。 その結果,畳み込みニューラルネットワークは,量子エンタングルメントを効率的に検出するのに非常に有用であることがわかった。

In quantum information, it is of high importance to efficiently detect entanglement. Generally, it needs quantum tomography to obtain state density matrix. However, it would consumes a lot of measurement resources, and the key is how to reduce the consumption. In this paper, we discovered the relationship between convolutional layer of artificial neural network and the average value of an observable operator in quantum mechanics. Then we devise a branching convolutional neural network which can be applied to detect entanglement in 2-qubit quantum system. Here, we detect the entanglement of Werner state, generalized Werner state and general 2-qubit states, and observable operators which are appropriate for detection can be automatically found. Beside, compared with privious works, our method can achieve higher accuracy with fewer measurements for quantum states with specific form. The results show that the convolutional neural network is very useful for efficiently detecting quantum entanglement.
翻訳日:2023-02-11 16:37:08 公開日:2022-05-28
# daubechies wavelet分子軌道を用いた分子特性の高精度かつ効率的な量子計算:実験データに対するベンチマーク研究

Accurate and Efficient Quantum Computations of Molecular Properties Using Daubechies Wavelet Molecular Orbitals: A Benchmark Study against Experimental Data ( http://arxiv.org/abs/2205.14476v1 )

ライセンス: Link先を確認
Cheng-Lin Hong, Ting Tsai, Jyh-Pin Chou, Peng-Jen Chen, Pei-Kai Tsai, Yu-Cheng Chen, En-Jui Kuo, David Srolovitz, Alice Hu, Yuan-Chung Cheng, and Hsi-Sheng Goan(参考訳) 量子計算(QC)は量子化学の有望な数値計算法とされているが、量子コンピュータにおける量子化学計算の現在の応用は小さな分子に限られている。 この制限は、より多くの量子ビットを構築し、操作する技術的な問題と、分子系のサイズが大きくなると量子回路における量子ゲートの複雑な操作に説明できる。 その結果,QCの実現には必要量子ビット数を削減する必要がある。 現在、最小のSTO-3G基底集合は、最小数のスピン軌道を必要とするため、ベンチマーク研究で一般的に用いられる。 しかしながら、STO-3Gの精度は概して低く、有用な予測は得られない。 分子電子特性のqcsの高精度かつ効率的な手法として, daubechies wavelet関数を採用することを提案する。 ダウビーウェーブレット基底から構築された最小基底集合は、スピン軌道の数を最小に保ちながら分子ハミルトニアンをよりよく記述することで正確な結果が得られることを示した。 daubechies ウェーブレットによるハミルトニアンの改良により、量子計算アルゴリズムを用いて h$_2$ と lih の振動周波数を計算し、結果が実験データとよく一致していることを示す。 その結果, 計算コストはSTO-3G計算と同じであるのに対して, cc-pVDZベースセットを用いた完全構成相互作用計算と精度が同等となる量子計算が達成された。 そこで本研究では,分子系の効率的なQCに対する分子ハミルトニアンのより効率的かつ正確な表現を提供し,実験結果と一致した予測が,短期量子コンピュータで利用可能な量子資源で達成できることを初めて証明した。

Although quantum computation (QC) is regarded as a promising numerical method for computational quantum chemistry, current applications of quantum-chemistry calculations on quantum computers are limited to small molecules. This limitation can be ascribed to technical problems in building and manipulating more qubits and the associated complicated operations of quantum gates in a quantum circuit when the size of the molecular system becomes large. As a result, reducing the number of required qubits is necessary to make QC practical. Currently, the minimal STO-3G basis set is commonly used in benchmark studies because it requires the minimum number of spin orbitals. Nonetheless, the accuracy of using STO-3G is generally low and thus cannot provide useful predictions. We propose to adopt Daubechies wavelet functions as an accurate and efficient method for QCs of molecular electronic properties. We demonstrate that a minimal basis set constructed from Daubechies wavelet basis can yield accurate results through a better description of the molecular Hamiltonian, while keeping the number of spin orbitals minimal. With the improved Hamiltonian through Daubechies wavelets, we calculate vibrational frequencies for H$_2$ and LiH using quantum-computing algorithm to show that the results are in excellent agreement with experimental data. As a result, we achieve quantum calculations in which accuracy is comparable with that of the full configuration interaction calculation using the cc-pVDZ basis set, whereas the computational cost is the same as that of a STO-3G calculation. Thus, our work provides a more efficient and accurate representation of the molecular Hamiltonian for efficient QCs of molecular systems, and for the first time demonstrates that predictions in agreement with experimental measurements are possible to be achieved with quantum resources available in near-term quantum computers.
翻訳日:2023-02-11 11:29:21 公開日:2022-05-28
# 強集束光共振器における高次モードの計算および実験的解析

A Computational and Experimental Analysis of Higher Order Modes in a Strongly Focusing Optical Cavity ( http://arxiv.org/abs/2205.14435v1 )

ライセンス: Link先を確認
Mehmet \"Onc\"u, Mohsen Izadyari, \"Ozg\"ur E. M\"ustecapl{\i}o\u{g}lu and Kadir Durak(参考訳) ほぼ同心状態にある光学キャビティは、空洞QEDアプリケーションのような高精度な実験を行うための基本的なツールである。 残念ながら、強い集中体制は高次モードを興奮させる傾向がある。 高次モードの励起は、現実的な強い集束キャビティを避けるために困難であり、これらのモードが密接な間隔にある場合、全体のキャビティ線幅が著しく拡大する。 本研究では,光モード分解を正則近似を用いた共振器固有モードに分解するための計算手法を提案する。 得られたモデルを用いてキャビティ透過の強度とスペクトル分布を再現できることが示されている。 その結果、より完全なリアルな近心空洞の処理が可能となる。

Optical cavities operating in the near-concentric regime are the fundamental tools to perform high precision experiments like cavity QED applications. A strong focusing regime unfortunately is prone to excite higher-order modes. Higher-order mode excitation is challenging to avoid for the realistic strong focusing cavities, and if these modes are closely spaced, overall cavity linewidth gets significantly broadened. In this study, a computational method alongside the experiment is provided for the optical mode decomposition into cavity eigenmodes with justified approximations. It is shown that it is possible to recreate the intensity and spectral profile of the cavity transmission, with the provided model. As a result, a more complete treatment of the realistic near-concentric cavities can be done.
翻訳日:2023-02-11 11:28:49 公開日:2022-05-28
# 3レベル系における狭帯域・広帯域複合パルス

Narrowband and passband composite pulses in the three-level system ( http://arxiv.org/abs/2205.14432v1 )

ライセンス: Link先を確認
Cheng Zhang, Li-Tuo Shen, Jie Song, Yan Xia, and Zhi-Cheng Shi(参考訳) 本研究では, 複合パルスの考え方に基づいて, 狭帯域 (NB) とパスパンド (PB) の配列を3レベルシステムで構築することを提案する。 現在のシーケンスは、遷移確率の対応するエラー項を無効にすることで設計される。 さらに,エラー項を絶対排除できない場合に,シーケンスの最適解を求めるためにフィルタ関数を推進した。 3レベルシステムが2レベルのシステムに還元される場合とは異なり、ここでは、シーケンスを確立するために、すべてのシステム状態のダイナミクスを含む。 例として、所望の励起プロファイルを持つ完全集団逆転を実現するために、強度変調と位相変調という2種類の変調を用いる。 また,励起状態への漏れが極端に少ない任意の個体群移動のための複合パルス列を作成する。 数値シミュレーションにより、現在のシーケンスは不正確な波形と小さな変形に対して堅牢であることが示された。 そこで本研究では,励起プロファイルの柔軟な選択性を備えた複合パルス列の設計手順を提案する。

In this work, based on the idea of composite pulses, we propose to construct the narrowband (NB) and the passpand (PB) sequences in the three-level system. The current sequences are designed by nullifying the corresponding error terms of the transition probability. Moreover, we put forward the filter function to search for the optimum solution of the sequence when the error terms cannot be absolutely eliminated. Unlike the case where the three-level system reduces to a two-level one, we here involve the dynamics of all system states to establish the sequences. As examples, two kinds of modulations, the strength modulation and the phase modulation, are employed for realizing complete population inversion with a desired excitation profile. We also create the composite pulses sequence for arbitrary population transfer with extremely low leakage to the excited state. The numerical simulations demonstrate that the current sequences are robust against inaccurate waveform and tiny detuning. Therefore, this work provides a feasible design procedure for the composite pulses sequence with flexible selectivity of the excitation profiles.
翻訳日:2023-02-11 11:28:38 公開日:2022-05-28
# 不定因果順序の一般化測定による熱デバイス

Thermal devices powered by generalized measurements with indefinite causal order ( http://arxiv.org/abs/2205.14406v1 )

ライセンス: Link先を確認
Pedro R. Dieguez, Vinicius F. Lisboa, Roberto M. Serra(参考訳) 量子制御デバイスは、2つの一般的な量子演算を演算アプリケーションに対して一定の順序を関連付けることができないように実行することができるシナリオを作成することができる。 このような不定因果順序は、量子熱デバイスにおいて非自明な効果を生み出すために研究することができる。 本研究では, 熱や作業形態でエネルギーを交換する, 調整可能な強度パラメータを持つ一般的な測定チャネルからなる熱測定装置について検討する。 この測定ベース装置は、測定強度設定に従って、ヒートエンジン、サーマルアクセル、冷蔵庫として動作することができる。 2つの測定チャネルの量子スイッチを使用することで、不定因果順序によって起動される熱装置を探索する。 また, 不連続な因果順序構造に対するコヒーレント制御が, 温度測定装置の動作状態を変え, オーダスイッチのアンコヒーレント制御のシナリオと比較した場合, 優位性をもたらす可能性についても論じる。

A quantum-controlled device may produce a scenario in which two general quantum operations can be performed in a such way that it is not possible to associate a definite order for the operations application. Such an indefinite causal order can be explored to produce nontrivial effects in quantum thermal devices. We investigate a measurement-powered thermal device that consists of generalized measurement channels with adjustable intensity parameters, where energy is exchanged with the apparatus in the form of work or heat. The measurement-based device can operate as a heat engine, a thermal accelerator, or a refrigerator, according to a measurement intensity setting. By employing a quantum switch of two measurement channels, we explore a thermal device fueled by an indefinite causal order. We also discuss how a coherent control over an indefinite causal order structure can change the operating regimes of the measurement-powered thermal device to produce an advantage when compared to a scenario with an incoherent control of the order switch.
翻訳日:2023-02-11 11:28:21 公開日:2022-05-28
# ボース系の励起のフォノンと光ロートン分岐

Phonon and optical-roton branches of excitations of the Bose system ( http://arxiv.org/abs/2205.14391v1 )

ライセンス: Link先を確認
Yu.M. Poluektov and A.A. Soroka(参考訳) 多数のボース粒子の系では、場演算子の平均に対する結合方程式の連鎖が得られる。 1つの場作用素の平均と0温度での2つの作用素の積の平均のみが考慮される近似において、動的方程式の閉系が導出される。 粒子間の相互作用ポテンシャルの有限範囲を考慮し、多粒子ボース系の基本励起スペクトルを計算し、音分枝と運動量ゼロのエネルギーギャップを持つ光分枝の2つの分枝を持つことを示した。 高密度では、両方の枝は非単調であり、ロートンのようなミニマを持つ。 スペクトルのフォノン部分の分散が考慮される。 中性子散乱実験の計算と解析により、超流動he-4におけるランダウ分散曲線の複雑な構造について述べることができる。

For a system of a large number of Bose particles, a chain of coupled equations for the averages of field operators is obtained. In the approximation where only the averages of one field operator and the averages of products of two operators at zero temperature are taken into account, there is derived a closed system of dynamic equations. Taking into account the finite range of the interaction potential between particles, the spectrum of elementary excitations of a many-particle Bose system is calculated, and it is shown that it has two branches: a sound branch and an optical branch with an energy gap at zero momentum. At high density, both branches are nonmonotonic and have the roton-like minima. The dispersion of the phonon part of the spectrum is considered. The performed calculations and analysis of experiments on neutron scattering allow to make a statement about the complex structure of the Landau dispersion curve in the superfluid He-4.
翻訳日:2023-02-11 11:28:06 公開日:2022-05-28
# イオンチャネルの選択性と輸送に関する量子コヒーレンス

Quantum coherence on selectivity and transport of ion channels ( http://arxiv.org/abs/2205.14389v1 )

ライセンス: Link先を確認
Mina Seifi, Ali Soltanmanesh, Afshin Shafiee(参考訳) 近年、イオンチャネル選択性フィルタは、イオン選択と伝導過程を説明するのに適した量子コヒーレンスを示すことが示唆されている。 カリウムチャネルは多くの生理的過程において重要な役割を果たす。 主な生理機能の一つは、K+イオンを膜から細胞へ効率よく高選択的に移動させることである。 これを行うには、イオンチャネルは高度に選択的でなければならず、特定のイオンだけが膜を通過でき、他のイオンを阻止できる。 本研究はイオンチャネルにおけるホッピング速度とコヒーレンス維持の関係について検討する試みである。 3レベルシステムを記述するためにlindblad方程式を用いて、異なる量子レジームにおける結果を調べる。 蒸留性コヒーレンスと2次コヒーレンス関数について検討した。 デコヒーレンス時間後、蒸留可能なコヒーレンスがゼロから振動すると同時に、コヒーレンス関数の挙動は、高いスループット率のイオンチャネル内でシステムがコヒーレンスである点を明確に示している。

Recently, it has been suggested that ion channel selectivity filter may exhibit quantum coherence, which may be appropriate to explain ion selection and conduction processes. Potassium channels play a vital role in many physiological processes. One of their main physiological functions is the efficient and highly selective transfer of K+ ions through the membranes into the cells. To do this, ion channels must be highly selective, allowing only certain ions to pass through the membrane, while preventing the others. The present research is an attempt to investigate the relationship between hopping rate and maintaining coherence in ion channels. Using the Lindblad equation to describe a three-level system, the results in different quantum regimes are examined. We studied the distillable coherence and the second order coherence function of the system. The oscillation of distillable coherence from zero, after the decoherence time, and also the behavior of the coherence function clearly show the point that the system is coherent in ion channels with high throughput rates.
翻訳日:2023-02-11 11:27:53 公開日:2022-05-28
# ランダムIsing Chainにおけるマルチパーティの絡み合い

Multipartite Entanglement in the Random Ising Chain ( http://arxiv.org/abs/2205.14306v1 )

ライセンス: Link先を確認
Jay S. Zou, Helen S. Ansell and Istv\'an A. Kov\'acs(参考訳) 複数のサブシステムの絡み合いの定量化は、相互作用する量子システムにおいて難しいオープンな問題である。 ここでは、距離$r=\alpha\ell$で区切られた長さ$\ell$の2つのサブシステムに注目し、臨界ランダムイジング鎖におけるその絡み合う負性({\cal E}$)と相互情報({\cal I}$)を定量化する。 平均値 ${\cal E}$ と ${\cal I}$ は共にスケール不変で普遍的、すなわち障害の形式とは独立である。 一定の${\cal e}(\alpha)$ と ${\cal i}(\alpha)$ は、漸近的に厳密な強障害再正規化群法を用いて任意の距離に対して与えられる。 我々の結果は、クリーンイジングモデルと、スピン-$\frac{1}{2}$ランダムハイゼンベルク鎖やランダムxx鎖のような一重項基底状態のランダムスピン鎖の両方と定性的に異なる。 ランダム一重項状態に対して、${\cal i}(\alpha)/{\cal e}(\alpha)=2$であるが、ランダムイジングチェーンでは、この普遍比は$\alpha$-dependentである。 このシステム間の偏差は、1つのサブシステムの絡み合いエントロピーの挙動とは対照的であり、様々なランダムな臨界連鎖とクリーンモデルが同じ定性的挙動を与える。 したがって、マルチパーティ・エンタングルメントの研究は、単一のサブシステムから学べるものを超えて、ランダム量子システムにおいて追加の普遍的な情報を提供する。

Quantifying entanglement of multiple subsystems is a challenging open problem in interacting quantum systems. Here, we focus on two subsystems of length $\ell$ separated by a distance $r=\alpha\ell$ and quantify their entanglement negativity (${\cal E}$) and mutual information (${\cal I}$) in critical random Ising chains. Both the disorder averaged ${\cal E}$ and ${\cal I}$ are found to be scale-invariant and universal, i.e. independent of the form of disorder. We find a constant ${\cal E}(\alpha)$ and ${\cal I}(\alpha)$ over any distances, using the asymptotically exact strong disorder renormalization group method. Our results are qualitatively different from both those in the clean Ising model and random spin chains of a singlet ground state, like the spin-$\frac{1}{2}$ random Heisenberg chain and the random XX chain. While for random singlet states ${\cal I}(\alpha)/{\cal E}(\alpha)=2$, in the random Ising chain this universal ratio is strongly $\alpha$-dependent. This deviation between systems contrasts with the behavior of the entanglement entropy of a single subsystem, for which the various random critical chains and clean models give the same qualitative behavior. Therefore, studying multipartite entanglement provides additional universal information in random quantum systems, beyond what we can learn from a single subsystem.
翻訳日:2023-02-11 11:27:22 公開日:2022-05-28
# dsg-net: 3次元形状生成のための構造と形状の学習

DSG-Net: Learning Disentangled Structure and Geometry for 3D Shape Generation ( http://arxiv.org/abs/2008.05440v4 )

ライセンス: Link先を確認
Jie Yang, Kaichun Mo, Yu-Kun Lai, Leonidas J. Guibas, Lin Gao(参考訳) D形状生成はコンピュータグラフィックスの基本的な操作である。 特に最近の深層生成モデルでは大きな進歩があったが、リッチな幾何学的詳細と複雑な構造を持つ高品質な形状を制御可能な方法で合成することは依然として困難である。 DSG-Netは,形状,形状,構造の2つの重要な側面を相乗的に符号化し,生成した形状の可視性を確保するとともに,可能な限り不整合性も確保する,3次元形状の非交絡構造および幾何メッシュ表現を学習するディープニューラルネットワークである。 これは、構造(幾何学)の補間や幾何学(構造)の不変性の維持など、不整合制御を持つ新しい形状生成アプリケーションの範囲をサポートする。 これを実現するために,各レベルの単射写像を用いて,変動オートエンコーダ(VAE)による構造と幾何学を階層的に同時に学習する。 このようにして、異なる潜在空間における幾何学と構造を効果的に符号化し、それらの整合性を保証する。 葉のレベルでは、部分幾何学は条件付き部分VAEを用いて表現され、構造コンテキストを条件として導かれる高品質な幾何学的詳細を符号化する。 本手法は,制御可能な生成アプリケーションだけでなく,高品質な合成形状を生成できる。 コードはhttps://github.com/IGLICT/DSG-Netで公開されている。

D shape generation is a fundamental operation in computer graphics. While significant progress has been made, especially with recent deep generative models, it remains a challenge to synthesize high-quality shapes with rich geometric details and complex structure, in a controllable manner. To tackle this, we introduce DSG-Net, a deep neural network that learns a disentangled structured and geometric mesh representation for 3D shapes, where two key aspects of shapes, geometry, and structure, are encoded in a synergistic manner to ensure plausibility of the generated shapes, while also being disentangled as much as possible. This supports a range of novel shape generation applications with disentangled control, such as interpolation of structure (geometry) while keeping geometry (structure) unchanged. To achieve this, we simultaneously learn structure and geometry through variational autoencoders (VAEs) in a hierarchical manner for both, with bijective mappings at each level. In this manner, we effectively encode geometry and structure in separate latent spaces, while ensuring their compatibility: the structure is used to guide the geometry and vice versa. At the leaf level, the part geometry is represented using a conditional part VAE, to encode high-quality geometric details, guided by the structure context as the condition. Our method not only supports controllable generation applications but also produces high-quality synthesized shapes, outperforming state-of-the-art methods. The code has been released at https://github.com/IGLICT/DSG-Net.
翻訳日:2022-10-31 05:59:16 公開日:2022-05-28
# 切り離されたパレートフロントの多重勾配降下に基づくデータ駆動型進化的多目的最適化

Data-Driven Evolutionary Multi-Objective Optimization Based on Multiple-Gradient Descent for Disconnected Pareto Fronts ( http://arxiv.org/abs/2205.14344v1 )

ライセンス: Link先を確認
Renzhi Chen, Ke Li(参考訳) データ駆動進化的多目的最適化(emo)は、高価な目的関数を持つ多目的最適化問題の効果的なアプローチとして認識されている。 本研究は,'正規'三角形様パレートオプティカルフロント(pf)の問題に対して,pfが切り離されたセグメントからなる場合,その性能は著しく低下する可能性がある。 さらに、現在のデータ駆動EMOにおける子孫の再生は、代理モデルの潜伏情報を完全に活用していない。 本稿では,これらの考察を念頭に,多段階降下に基づくデータ駆動型EMOアルゴリズムを提案する。 最新のサロゲートモデルによって提供される正則性情報を活用することにより、収束保証付きよく分散された候補解の集合を段階的に探索することができる。 さらに、infillの基準は、高価な客観的機能評価を行うための有望なソリューションのバッチを推奨している。 335ドルのベンチマークテスト問題インスタンスを分離したpfsを用いた実験により,提案手法が4つのピアアルゴリズムに対して有効であることを実証した。

Data-driven evolutionary multi-objective optimization (EMO) has been recognized as an effective approach for multi-objective optimization problems with expensive objective functions. The current research is mainly developed for problems with a 'regular' triangle-like Pareto-optimal front (PF), whereas the performance can significantly deteriorate when the PF consists of disconnected segments. Furthermore, the offspring reproduction in the current data-driven EMO does not fully leverage the latent information of the surrogate model. Bearing these considerations in mind, this paper proposes a data-driven EMO algorithm based on multiple-gradient descent. By leveraging the regularity information provided by the up-to-date surrogate model, it is able to progressively probe a set of well distributed candidate solutions with a convergence guarantee. In addition, its infill criterion recommends a batch of promising candidate solutions to conduct expensive objective function evaluations. Experiments on $33$ benchmark test problem instances with disconnected PFs fully demonstrate the effectiveness of our proposed method against four selected peer algorithms.
翻訳日:2022-06-26 15:20:56 公開日:2022-05-28
# 制約付き進化的多目的最適化に制約違反を用いることは本当に必要か?

Do We Really Need to Use Constraint Violation in Constrained Evolutionary Multi-Objective Optimization? ( http://arxiv.org/abs/2205.14349v1 )

ライセンス: Link先を確認
Shuang Li, Ke Li, Wei Li(参考訳) 制約違反は、制約付き多目的最適化問題を解決するための進化的多目的最適化アルゴリズムを設計するためのビルディングブロックである。 しかし、現実世界のブラックボックス最適化シナリオでは、制約違反に近づかないことは珍しくない。 環境選択機構が制約違反に基づいて構築されている既存の制約付き進化的多目的最適化アルゴリズムが、制約関数の定式化が不明な場合に機能するかどうかは不明である。 このことを念頭に置いて,本研究では,制約違反をクリップ値で置き換える変種をベースラインとして,広く使用されている4つの制約付き多目的最適化アルゴリズムを取り上げる。 総合的および実世界のベンチマークテスト問題の両方について実験した結果,制約違反が環境選択の指針として用いられない場合,選択アルゴリズムの性能は大きな影響を及ぼさないことがわかった。

Constraint violation has been a building block to design evolutionary multi-objective optimization algorithms for solving constrained multi-objective optimization problems. However, it is not uncommon that the constraint violation is hardly approachable in real-world black-box optimization scenarios. It is unclear that whether the existing constrained evolutionary multi-objective optimization algorithms, whose environmental selection mechanism are built upon the constraint violation, can still work or not when the formulations of the constraint functions are unknown. Bearing this consideration in mind, this paper picks up four widely used constrained evolutionary multi-objective optimization algorithms as the baseline and develop the corresponding variants that replace the constraint violation by a crisp value. From our experiments on both synthetic and real-world benchmark test problems, we find that the performance of the selected algorithms have not been significantly influenced when the constraint violation is not used to guide the environmental selection.
翻訳日:2022-06-26 15:20:40 公開日:2022-05-28
# 生物進化と遺伝的アルゴリズム:抽象タイル自己組織化の空間を探索する

Biological Evolution and Genetic Algorithms: Exploring the Space of Abstract Tile Self-Assembly ( http://arxiv.org/abs/2205.15311v1 )

ライセンス: Link先を確認
Christian Schroeder de Witt(参考訳) グラフィック処理ユニット(GPU)を用いて、物理的に動機付けられた遺伝的アルゴリズム(GA)と自己集合のタイルモデル(JaTAM)の完全列挙を実現する。 GAは7.7、JaTAMは2.9のCPU上での最先端実装のパフォーマンス向上を観察する。 テストベッド適合度関数を用いてGA実装の正しさを実証し,2つのタイルタイプに基づいてよく知られた検索空間を$S_{2,8}$に分類することで,JaTAM実装を検証する。 性能向上により、3つのタイルタイプに基づいてより大きな検索空間 $s^{32}_{3,8}$ の分類が可能になった。 2つのタイル型に基づく構造は、複雑な生態系においても単純な生物が好まれることを示している。 発見された最大の構造のモジュラリティは、最初の順序で$s_{2,8}$が$s_{3,8}$のビルディングブロックを形成するという仮定を動機付ける。 進化力学の今後の研究において,GPUが重要な役割を果たす可能性がある。

A physically-motivated genetic algorithm (GA) and full enumeration for a tile-based model of self-assembly (JaTAM) is implemented using a graphics processing unit (GPU). We observe performance gains with respect to state-of-the-art implementations on CPU of factor 7.7 for the GA and 2.9 for JaTAM. The correctness of our GA implementation is demonstrated using a test-bed fitness function, and our JaTAM implementation is verified by classifying a well-known search space $S_{2,8}$ based on two tile types. The performance gains achieved allow for the classification of a larger search space $S^{32}_{3,8}$ based on three tile types. The prevalence of structures based on two tile types demonstrates that simple organisms emerge preferrably even in complex ecosystems. The modularity of the largest structures found motivates the assumption that to first order, $S_{2,8}$ forms the building blocks of $S_{3,8}$. We conclude that GPUs may play an important role in future studies of evolutionary dynamics.
翻訳日:2022-06-26 15:20:23 公開日:2022-05-28
# (参考訳) 敵対的バックドア攻撃に対する貢献者対応対策

Contributor-Aware Defenses Against Adversarial Backdoor Attacks ( http://arxiv.org/abs/2206.03583v1 )

ライセンス: CC BY 4.0
Glenn Dawson, Muhammad Umer, Robi Polikar(参考訳) 画像分類のためのディープニューラルネットワークは、敵の攻撃に弱いことが知られている。 近年注目されている攻撃の1つは、特定の事例の標的の誤分類を行う能力を示す敵対的バックドア攻撃である。 特にバックドア攻撃は、モデルにバックドアトリガーパターンと偽ラベルの間のスプリアスな関係を学習させようとするものである。 この脅威に対応するために、数多くの防御策が提案されているが、バックドア攻撃に対する防御はバックドアパターン検出に重点を置いている。 本稿では,敵の存在が暗黙的に複数のデータベースコントリビュータの存在を認める,敵設定の再コンテキスト化を提案する。 そして、コントリビュータ意識の軽微な仮定の下で、この知識を活用して、偽ラベル協会を破壊することによって、バックドア攻撃を防げる。 本稿では, 半教師付きアンサンブルを利用した複数の潜在的データソースの存在下での学習と, 対人トリガーによる偽ラベルのフィルタリングを, クラウドから学習するためのコントリビュータ対応のユニバーサル・ディフェンス・フレームワークを提案する。 重要なことは、この防御戦略はバックドアパターン設計に非依存であり、トレーニングまたは推論の間、敵の識別またはバックドアパターン検出を実行する必要がない。 本研究は,複数の同時敵からの敵のバックドア攻撃に対する枠組みの堅牢性を示すものである。

Deep neural networks for image classification are well-known to be vulnerable to adversarial attacks. One such attack that has garnered recent attention is the adversarial backdoor attack, which has demonstrated the capability to perform targeted misclassification of specific examples. In particular, backdoor attacks attempt to force a model to learn spurious relations between backdoor trigger patterns and false labels. In response to this threat, numerous defensive measures have been proposed; however, defenses against backdoor attacks focus on backdoor pattern detection, which may be unreliable against novel or unexpected types of backdoor pattern designs. We introduce a novel re-contextualization of the adversarial setting, where the presence of an adversary implicitly admits the existence of multiple database contributors. Then, under the mild assumption of contributor awareness, it becomes possible to exploit this knowledge to defend against backdoor attacks by destroying the false label associations. We propose a contributor-aware universal defensive framework for learning in the presence of multiple, potentially adversarial data sources that utilizes semi-supervised ensembles and learning from crowds to filter the false labels produced by adversarial triggers. Importantly, this defensive strategy is agnostic to backdoor pattern design, as it functions without needing -- or even attempting -- to perform either adversary identification or backdoor pattern detection during either training or inference. Our empirical studies demonstrate the robustness of the proposed framework against adversarial backdoor attacks from multiple simultaneous adversaries.
翻訳日:2022-06-12 22:21:22 公開日:2022-05-28
# (参考訳) MixMIM:効率的な視覚表現学習のための混合・マスク画像モデリング

MixMIM: Mixed and Masked Image Modeling for Efficient Visual Representation Learning ( http://arxiv.org/abs/2205.13137v2 )

ライセンス: CC BY 4.0
Jihao Liu, Xin Huang, Yu Liu, Hongsheng Li(参考訳) 本研究では,様々な階層型視覚変換器に適用可能なMIM法であるMixMIM(Mixed and Masked Image Modeling)を提案する。 既存のMIM法は、入力トークンのランダムなサブセットを特別なMASKシンボルに置き換え、劣化した画像から元の画像トークンを再構成することを目的としている。 しかし,MASKシンボルの使用によってトレーニングが大幅に遅くなり,マスク比が大きい(例えばBeiTの40%)ため,トレーニングファインタニングの不整合が生じることがわかった。 対照的に、ある画像のマスクされたトークンを別の画像の目に見えるトークン、すなわち混合画像に置き換える。 次に、混合入力から元の2つの画像を再構成する二重再構成を行い、効率を大幅に向上させる。 MixMIMは様々なアーキテクチャに適用できるが、本論文ではよりシンプルだがより強力な階層変換器を探索し、MixMIM-B, -L, -Hでスケールする。 実験により、MixMIMは高品質な視覚表現を効率的に学習できることが示されている。 特に、88Mパラメータを持つMixMIM-Bは600エポックで事前トレーニングすることで、ImageNet-1K上で85.1%のトップ-1精度を達成する。 さらに、他の6つのデータセットでの転送パフォーマンスは、MixMIMが従来のMIMメソッドよりもFLOP/パフォーマンストレードオフが優れていることを示している。 コードはhttps://github.com/Sense-X/MixMIMで入手できる。

In this study, we propose Mixed and Masked Image Modeling (MixMIM), a simple but efficient MIM method that is applicable to various hierarchical Vision Transformers. Existing MIM methods replace a random subset of input tokens with a special MASK symbol and aim at reconstructing original image tokens from the corrupted image. However, we find that using the MASK symbol greatly slows down the training and causes training-finetuning inconsistency, due to the large masking ratio (e.g., 40% in BEiT). In contrast, we replace the masked tokens of one image with visible tokens of another image, i.e., creating a mixed image. We then conduct dual reconstruction to reconstruct the original two images from the mixed input, which significantly improves efficiency. While MixMIM can be applied to various architectures, this paper explores a simpler but stronger hierarchical Transformer, and scales with MixMIM-B, -L, and -H. Empirical results demonstrate that MixMIM can learn high-quality visual representations efficiently. Notably, MixMIM-B with 88M parameters achieves 85.1% top-1 accuracy on ImageNet-1K by pretraining for 600 epochs, setting a new record for neural networks with comparable model sizes (e.g., ViT-B) among MIM methods. Besides, its transferring performances on the other 6 datasets show MixMIM has better FLOPs / performance tradeoff than previous MIM methods. Code is available at https://github.com/Sense-X/MixMIM.
翻訳日:2022-06-05 09:04:27 公開日:2022-05-28
# (参考訳) So3krates -- 任意の長さスケール上の高次幾何学的相互作用に対する自己注意

So3krates -- Self-attention for higher-order geometric interactions on arbitrary length-scales ( http://arxiv.org/abs/2205.14276v1 )

ライセンス: CC BY 4.0
J. Thorben Frank, Oliver T. Unke, Klaus-Robert M\"uller(参考訳) 量子化学における機械学習法の適用により、従来のab-initio法では計算に難解な多数の化学現象の研究が可能となった。 しかし、分子や物質の量子力学的性質は非局所電子効果に依存しており、効率的なモデリングが困難であるためしばしば無視される。 本研究は、関連する非局所的効果を回復する基礎となる物理に適応した注意の修正機構を提案する。 球面調和座標(SPHC)を導入し、分子内の各原子の高次幾何学情報を反映し、SPHC空間における非局所的な注意の定式化を可能にする。 提案したモデルであるSo3krates – 自己注意に基づくメッセージパッシングニューラルネットワーク – は、原子的特徴から幾何学的情報を分離し、注意機構に独立して対応できるようにする。 他の公開手法とは対照的に、so3kratesは任意の長さスケール上の非局所量子力学的効果を記述することができる。 さらに,高次幾何相関の包含によりデータ効率が向上し,一般化が向上することを示す。 So3kratesは、一般的なベンチマークで最先端のパフォーマンスにマッチまたは超え、特にパラメータ(0.25-0.4x)をかなり少なくし、同時にトレーニングで6-14x、推論で2-11x)を他のモデルと比較する。

The application of machine learning methods in quantum chemistry has enabled the study of numerous chemical phenomena, which are computationally intractable with traditional ab-initio methods. However, some quantum mechanical properties of molecules and materials depend on non-local electronic effects, which are often neglected due to the difficulty of modeling them efficiently. This work proposes a modified attention mechanism adapted to the underlying physics, which allows to recover the relevant non-local effects. Namely, we introduce spherical harmonic coordinates (SPHCs) to reflect higher-order geometric information for each atom in a molecule, enabling a non-local formulation of attention in the SPHC space. Our proposed model So3krates -- a self-attention based message passing neural network -- uncouples geometric information from atomic features, making them independently amenable to attention mechanisms. We show that in contrast to other published methods, So3krates is able to describe non-local quantum mechanical effects over arbitrary length scales. Further, we find evidence that the inclusion of higher-order geometric correlations increases data efficiency and improves generalization. So3krates matches or exceeds state-of-the-art performance on popular benchmarks, notably, requiring a significantly lower number of parameters (0.25--0.4x) while at the same time giving a substantial speedup (6--14x for training and 2--11x for inference) compared to other models.
翻訳日:2022-06-05 02:29:55 公開日:2022-05-28
# (参考訳) 高速物体配置評価

Fast Object Placement Assessment ( http://arxiv.org/abs/2205.14280v1 )

ライセンス: CC0 1.0
Li Niu, Qingyang Liu, Zhenchen Liu, Jiangtong Li(参考訳) オブジェクト配置評価(OPA)は、挿入された前景オブジェクトの配置(スケール、位置など)の観点から合成画像の合理性スコアを予測することを目的としている。 しかし、すべての合理的な位置を列挙するために、一対のスケールされた前景と背景が与えられた場合、既存のOPAモデルは、その前景を背景のそれぞれの場所に配置し、得られた合成画像をモデルに1回ずつ渡す必要がある。 本研究では,高速OPAと呼ばれる新しいタスクについて検討する。 具体的には、前景と背景をスケールして、モデルを一度だけ通過し、すべての場所の合理性スコアを予測します。 そこで本研究では, 高速OPAモデルと低速OPAモデルの性能ギャップを埋めるため, いくつかの革新(前景動的フィルタ, バックグラウンド事前転送, 複合機能模倣)を生かした高速OPAモデルを提案する。 OPAデータセットの大規模な実験は、提案した高速OPAモデルが遅いOPAモデルと同等に動作するが、はるかに高速に動作することを示す。

Object placement assessment (OPA) aims to predict the rationality score of a composite image in terms of the placement (e.g., scale, location) of inserted foreground object. However, given a pair of scaled foreground and background, to enumerate all the reasonable locations, existing OPA model needs to place the foreground at each location on the background and pass the obtained composite image through the model one at a time, which is very time-consuming. In this work, we investigate a new task named as fast OPA. Specifically, provided with a scaled foreground and a background, we only pass them through the model once and predict the rationality scores for all locations. To accomplish this task, we propose a pioneering fast OPA model with several innovations (i.e., foreground dynamic filter, background prior transfer, and composite feature mimicking) to bridge the performance gap between slow OPA model and fast OPA model. Extensive experiments on OPA dataset show that our proposed fast OPA model performs on par with slow OPA model but runs significantly faster.
翻訳日:2022-06-05 02:02:10 公開日:2022-05-28
# (参考訳) データ分析のためのベイズ学習の再考:スポーシティ・アウェア・モデリングにおける先行と推論の技法

Rethinking Bayesian Learning for Data Analysis: The Art of Prior and Inference in Sparsity-Aware Modeling ( http://arxiv.org/abs/2205.14283v1 )

ライセンス: CC BY 4.0
Lei Cheng, Feng Yin, Sergios Theodoridis, Sotirios Chatzis and Tsung-Hui Chang(参考訳) 信号処理と機械学習のためのスパースモデリングは、20年以上にわたって科学研究の焦点となっている。 中でも,教師付きスパーシティアウェア学習は,次の2つの主要な経路からなる。 a)差別的な方法及び方法 b) 生成方法 後者はベイズ法(Bayesian method)として広く知られ、実行された予測に対する不確実性評価を可能にする。 さらに,パラメータ推定に係わる不確かさを画定するユニークな能力により,事前情報の利用が良好で,モデルにロバスト性も自然に導入できる。 さらに、採用前のハイパーパラメータをトレーニングデータを介して学習することができる。 分散学習を実装する上で重要な点は、識別的手法の関数正規化器の選択とベイズ学習の事前分布の選択である。 過去10年ほどにわたって、ディープラーニングに関する激しい研究により、差別的な技術に重点が置かれてきた。 しかし、ディープニューラルネットワークの設計に新たな光を当て、ベイジアンモデルとの確固たるつながりを確立し、ベイジアンテンソル分解のような教師なし学習のための新しいパスを刺激するベイジアン手法が復活しつつある。 この記事の目標は2つある。 まず、統一的な方法でレビューするために、スペーサリティプロモーティングの先例を、ディープニューラルネットワーク、ガウス過程、テンソル分解という、非常に人気のある3つのデータモデリングツールに組み込むことが最近の進歩である。 第2に、それらの関連する推論手法を、最適化によるエビデンス最大化と変分推論手法を含むさまざまな側面からレビューする。 また, 小型データジレンマ, 自動モデル構造探索, 自然予測の不確実性評価などの課題についても論じる。 典型的な信号処理と機械学習タスクが実証される。

Sparse modeling for signal processing and machine learning has been at the focus of scientific research for over two decades. Among others, supervised sparsity-aware learning comprises two major paths paved by: a) discriminative methods and b) generative methods. The latter, more widely known as Bayesian methods, enable uncertainty evaluation w.r.t. the performed predictions. Furthermore, they can better exploit related prior information and naturally introduce robustness into the model, due to their unique capacity to marginalize out uncertainties related to the parameter estimates. Moreover, hyper-parameters associated with the adopted priors can be learnt via the training data. To implement sparsity-aware learning, the crucial point lies in the choice of the function regularizer for discriminative methods and the choice of the prior distribution for Bayesian learning. Over the last decade or so, due to the intense research on deep learning, emphasis has been put on discriminative techniques. However, a come back of Bayesian methods is taking place that sheds new light on the design of deep neural networks, which also establish firm links with Bayesian models and inspire new paths for unsupervised learning, such as Bayesian tensor decomposition. The goal of this article is two-fold. First, to review, in a unified way, some recent advances in incorporating sparsity-promoting priors into three highly popular data modeling tools, namely deep neural networks, Gaussian processes, and tensor decomposition. Second, to review their associated inference techniques from different aspects, including: evidence maximization via optimization and variational inference methods. Challenges such as small data dilemma, automatic model structure search, and natural prediction uncertainty evaluation are also discussed. Typical signal processing and machine learning tasks are demonstrated.
翻訳日:2022-06-05 01:56:19 公開日:2022-05-28
# (参考訳) 言語モデルを用いたマイナショットサブゴール計画

Few-shot Subgoal Planning with Language Models ( http://arxiv.org/abs/2205.14288v1 )

ライセンス: CC BY-SA 4.0
Lajanugen Logeswaran, Yao Fu, Moontae Lee, Honglak Lee(参考訳) 事前訓練された大規模言語モデルは、多くの言語理解ベンチマークで成功している。 本研究は,実環境における行動計画の予測能力について検討する。 テキスト命令が与えられた場合、事前訓練された言語モデルにエンコードされた言語は、きめ細かいサブゴール列を推測できることを示す。 近年のサブゴナル・インスペクションを強く仮定する手法とは対照的に,本実験では,微調整の必要なく,少数のトレーニングシーケンスから詳細なサブゴラル・シーケンスを推論できる言語モデルを示した。 さらに,環境からのインタラクションとフィードバックに基づいて,言語モデル予測を再現する簡単な手法を提案する。 事前学習したナビゲーションと視覚的推論コンポーネントを組み合わせることで,ALFREDベンチマークにおけるサブゴール予測とタスク完了の競合性能を,よりサブゴールの監督を前提とした従来の手法と比較した。

Pre-trained large language models have shown successful progress in many language understanding benchmarks. This work explores the capability of these models to predict actionable plans in real-world environments. Given a text instruction, we show that language priors encoded in pre-trained language models allow us to infer fine-grained subgoal sequences. In contrast to recent methods which make strong assumptions about subgoal supervision, our experiments show that language models can infer detailed subgoal sequences from few training sequences without any fine-tuning. We further propose a simple strategy to re-rank language model predictions based on interaction and feedback from the environment. Combined with pre-trained navigation and visual reasoning components, our approach demonstrates competitive performance on subgoal prediction and task completion in the ALFRED benchmark compared to prior methods that assume more subgoal supervision.
翻訳日:2022-06-05 01:55:02 公開日:2022-05-28
# (参考訳) リップ領域はリップ読み取りに十分か?

Is Lip Region-of-Interest Sufficient for Lipreading? ( http://arxiv.org/abs/2205.14295v1 )

ライセンス: CC BY 4.0
Jing-Xuan Zhang and Gen-Shun Wan and Jia Pan(参考訳) 口唇の領域(ROI)は、通常、口唇の視覚入力に使用される。 顔の唇を除く部分は通常、視覚的音声認識とは無関係で冗長であると考えられているため、顔全体を視覚入力として採用する作品はほとんどない。 しかし、顔には話し手の頭の位置、感情、アイデンティティなど、唇よりも詳細な情報が含まれている。 顔全体を利用した強力な特徴抽出器を訓練すれば,このような情報が視覚音声認識の恩恵を受ける可能性がある。 本研究は,自己教師型学習によるリップリーディングに顔全体を採用することを提案する。 AV-HuBERTというマルチモーダルな自己教師型学習フレームワークを実験で採用した。 その結果, 視覚入力としてリップを用いたベースライン法と比較して, 唇読解作業における単語誤り率 (WER) は16%減少した。 自己指導型事前トレーニングがなければ, 顔入力を用いたモデルは, 訓練データが少ない場合(30時間), トレーニングデータが多い場合(433時間)に, リップ入力を用いた場合(30時間)より高いWERを達成した。

Lip region-of-interest (ROI) is conventionally used for visual input in the lipreading task. Few works have adopted the entire face as visual input because lip-excluded parts of the face are usually considered to be redundant and irrelevant to visual speech recognition. However, faces contain much more detailed information than lips, such as speakers' head pose, emotion, identity etc. We argue that such information might benefit visual speech recognition if a powerful feature extractor employing the entire face is trained. In this work, we propose to adopt the entire face for lipreading with self-supervised learning. AV-HuBERT, an audio-visual multi-modal self-supervised learning framework, was adopted in our experiments. Our experimental results showed that adopting the entire face achieved 16% relative word error rate (WER) reduction on the lipreading task, compared with the baseline method using lip as visual input. Without self-supervised pretraining, the model with face input achieved a higher WER than that using lip input in the case of limited training data (30 hours), while a slightly lower WER when using large amount of training data (433 hours).
翻訳日:2022-06-05 01:36:23 公開日:2022-05-28
# (参考訳) fake it until you make: スコアに基づく生成モデルによる近分布のノベルティ検出

Fake It Till You Make It: Near-Distribution Novelty Detection by Score-Based Generative Models ( http://arxiv.org/abs/2205.14297v1 )

ライセンス: CC BY 4.0
Hossein Mirzaei, Mohammadreza Salehi, Sajjad Shahabi, Efstratios Gavves, Cees G. M. Snoek, Mohammad Sabokrou, Mohammad Hossein Rohban(参考訳) 画像に基づく新規性検出を目指す。 かなりの進歩にもかかわらず、既存のモデルは、通常と異常なサンプルの違いが微妙であるいわゆる「near-distribution」設定の下で、失敗または劇的な低下に直面している。 まず, 配電条件下での既存手法の性能の最大20%低下を実演する。 次に、スコアに基づく生成モデルを用いて、合成近分布異常データを生成する。 これらのデータを通常のサンプルと区別するために、我々のモデルは微調整される。 我々は,この戦略の定量的かつ定性的な評価を行い,その結果を様々なGANモデルと比較する。 医用画像, 物体分類, 品質管理などの多様な応用において, データセットの広範な実験を行い, 近分布と標準新奇性検出の両手法の有効性を評価した。 その結果,本手法は既存モデルに比べて大幅に改善し,近分布と標準新奇性検出性能との差を一貫して減少させることがわかった。 提案手法は,9つのノベルティ検出ベンチマークにおいて,ほぼ分布するノベルティ検出を6%改善し,最先端のノベルティ検出を1%から5%パスする。 コードリポジトリはhttps://github.com/rohban-lab/fitymiで入手できる。

We aim for image-based novelty detection. Despite considerable progress, existing models either fail or face a dramatic drop under the so-called ``near-distribution" setting, where the differences between normal and anomalous samples are subtle. We first demonstrate existing methods experience up to 20\% decrease in performance in the near-distribution setting. Next, we propose to exploit a score-based generative model to produce synthetic near-distribution anomalous data. Our model is then fine-tuned to distinguish such data from the normal samples. We provide a quantitative as well as qualitative evaluation of this strategy, and compare the results with a variety of GAN-based models. Effectiveness of our method for both the near-distribution and standard novelty detection is assessed through extensive experiments on datasets in diverse applications such as medical images, object classification, and quality control. This reveals that our method considerably improves over existing models, and consistently decreases the gap between the near-distribution and standard novelty detection performance. Overall, our method improves the near-distribution novelty detection by 6% and passes the state-of-the-art by 1% to 5% across nine novelty detection benchmarks. The code repository is available at https://github.com/rohban-lab/FITYMI
翻訳日:2022-06-05 01:28:30 公開日:2022-05-28
# (参考訳) MC-GEN:プライベートデータ生成のためのマルチレベルクラスタリング

MC-GEN:Multi-level Clustering for Private Synthetic Data Generation ( http://arxiv.org/abs/2205.14298v1 )

ライセンス: CC BY 4.0
Mingchen Li, Di Zhuang, and J. Morris Chang(参考訳) 今日では、機械学習は、生データを科学や産業のプロセスで有用な情報に変える最も一般的な技術の1つだ。 機械学習モデルのパフォーマンスは、しばしばデータセットのサイズに依存する。 企業や研究機関は通常、データの不足を避けるためにデータを共有または交換する。 しかし、プライベート情報を含むオリジナルのデータセットを共有すると、プライバシーが漏洩する可能性がある。 代用として類似した特徴を持つ合成データセットを利用することは、プライバシー問題を回避するためのソリューションのひとつだ。 識別プライバシーは、機密情報を含む個々のデータレコードを保護するために強力なプライバシー保証を提供する。 複数の分類タスクに対して、差分プライバシー保証の下で、プライバシを保存する合成データ生成手法MC-GENを提案する。 MC-GENは、多レベルクラスタ化されたデータに基づいて微分プライベートな生成モデルを構築し、合成データセットを生成する。 また,差分プライバシーから導入したノイズを低減し,実用性の向上を図る。 実験評価では,mc-genのパラメータ効果を評価し,既存の3つの方法と比較した。 その結果, MC-GENは, 複数の分類タスクにおいて, 一定のプライバシー保証の下で有意な効果が得られた。

Nowadays, machine learning is one of the most common technology to turn raw data into useful information in scientific and industrial processes. The performance of the machine learning model often depends on the size of dataset. Companies and research institutes usually share or exchange their data to avoid data scarcity. However, sharing original datasets that contain private information can cause privacy leakage. Utilizing synthetic datasets which have similar characteristics as a substitute is one of the solutions to avoid the privacy issue. Differential privacy provides a strong privacy guarantee to protect the individual data records which contain sensitive information. We propose MC-GEN, a privacy-preserving synthetic data generation method under differential privacy guarantee for multiple classification tasks. MC-GEN builds differentially private generative models on the multi-level clustered data to generate synthetic datasets. Our method also reduced the noise introduced from differential privacy to improve the utility. In experimental evaluation, we evaluated the parameter effect of MC-GEN and compared MC-GEN with three existing methods. Our results showed that MC-GEN can achieve significant effectiveness under certain privacy guarantees on multiple classification tasks.
翻訳日:2022-06-05 01:12:46 公開日:2022-05-28
# (参考訳) 非均一データを用いたニューラルネットワーク学習における周波数バイアスの4次視点

A Quadrature Perspective on Frequency Bias in Neural Network Training with Nonuniform Data ( http://arxiv.org/abs/2205.14300v1 )

ライセンス: CC BY 4.0
Annan Yu, Yunan Yang, Alex Townsend(参考訳) 過パラメータニューラルネットワーク(nns)の小さな一般化誤差は、勾配に基づくアルゴリズムが高周波残差を減らす前に低周波ミスフィットを最小限に抑える周波数バイアス現象によって部分的に説明することができる。 ニューラル・タンジェント・カーネル (NTK) を用いて、データは一定あるいは一点の確率密度から引き出される訓練のための理論的に厳密な分析を提供することができる。 ほとんどのトレーニングデータセットはそのような分布から引き出されていないので、NTKモデルとデータ依存の二次規則を用いて、完全に一様でないデータに与えられるNNトレーニングの周波数バイアスを理論的に定量化する。 損失関数を慎重に選択したソボレフノルムに置き換えることで、NNトレーニングにおける固有周波数バイアスをさらに増幅、減衰、逆バランス、あるいは逆転させることができる。

Small generalization errors of over-parameterized neural networks (NNs) can be partially explained by the frequency biasing phenomenon, where gradient-based algorithms minimize the low-frequency misfit before reducing the high-frequency residuals. Using the Neural Tangent Kernel (NTK), one can provide a theoretically rigorous analysis for training where data are drawn from constant or piecewise-constant probability densities. Since most training data sets are not drawn from such distributions, we use the NTK model and a data-dependent quadrature rule to theoretically quantify the frequency biasing of NN training given fully nonuniform data. By replacing the loss function with a carefully selected Sobolev norm, we can further amplify, dampen, counterbalance, or reverse the intrinsic frequency biasing in NN training.
翻訳日:2022-06-05 01:01:57 公開日:2022-05-28
# (参考訳) CLIP誘導学習によるマルチモーダルフェイクニュース検出

Multimodal Fake News Detection via CLIP-Guided Learning ( http://arxiv.org/abs/2205.14304v1 )

ライセンス: CC BY 4.0
Yangming Zhou, Qichao Ying, Zhenxing Qian, Sheng Li and Xinpeng Zhang(参考訳) マルチモーダルフェイクニュース検出は、社会科学における多くの研究関心を惹きつけている。 既存の多くのアプローチでは、一助的特徴の融合を導くための調整された注意機構が導入されている。 しかし、これらの機能の類似性がどう計算され、それがfndの意思決定プロセスにどのように影響するかは、まだ疑問の余地がある。 さらに、偽ニュース検出における事前訓練されたマルチモーダル特徴学習モデルの可能性を十分に活用していない。 本稿では,FND-CLIPフレームワーク,すなわちコントラスト言語-画像事前学習(CLIP)に基づくマルチモーダルフェイクニュース検出ネットワークを提案する。 対象とするマルチモーダルニュースから,ResNetベースのエンコーダ,BERTベースのエンコーダ,および2つのペアワイズCLIPエンコーダを用いて,画像とテキストから深層表現を抽出する。 マルチモーダル特徴は、2つのモーダルの標準化されたクロスモーダル類似性によって重み付けられたCLIP生成特徴の連結である。 抽出した特徴を最終分類器に供給する前に冗長性低減のためにさらに処理する。 特徴を適応的に重み付けし集約するモーダリティ・アテンション・モジュールを導入する。 我々は、典型的なフェイクニュースデータセットについて広範な実験を行った。 その結果,提案フレームワークは偽ニュース検出のための重要な機能をマイニングする能力が向上した。 提案するfnd-clipは,従来の作品よりも優れた性能,すなわちweibo,politifact,gossipcopにおける0.7\%,6.8\%,1.3\%の改善を達成できる。 さらに、CLIPベースの学習がマルチモーダル機能選択の柔軟性を向上させることを正当化しています。

Multimodal fake news detection has attracted many research interests in social forensics. Many existing approaches introduce tailored attention mechanisms to guide the fusion of unimodal features. However, how the similarity of these features is calculated and how it will affect the decision-making process in FND are still open questions. Besides, the potential of pretrained multi-modal feature learning models in fake news detection has not been well exploited. This paper proposes a FND-CLIP framework, i.e., a multimodal Fake News Detection network based on Contrastive Language-Image Pretraining (CLIP). Given a targeted multimodal news, we extract the deep representations from the image and text using a ResNet-based encoder, a BERT-based encoder and two pair-wise CLIP encoders. The multimodal feature is a concatenation of the CLIP-generated features weighted by the standardized cross-modal similarity of the two modalities. The extracted features are further processed for redundancy reduction before feeding them into the final classifier. We introduce a modality-wise attention module to adaptively reweight and aggregate the features. We have conducted extensive experiments on typical fake news datasets. The results indicate that the proposed framework has a better capability in mining crucial features for fake news detection. The proposed FND-CLIP can achieve better performances than previous works, i.e., 0.7\%, 6.8\% and 1.3\% improvements in overall accuracy on Weibo, Politifact and Gossipcop, respectively. Besides, we justify that CLIP-based learning can allow better flexibility on multimodal feature selection.
翻訳日:2022-06-05 00:10:29 公開日:2022-05-28
# (参考訳) ensemble2: evt-ensembleフレームワークによる通信ネットワークにおける季節kpiの異常検出

Ensemble2: Anomaly Detection via EVT-Ensemble Framework for Seasonal KPIs in Communication Network ( http://arxiv.org/abs/2205.14305v1 )

ライセンス: CC BY 4.0
Shi-Yang Wang(参考訳) KPI異常検出はネットワーク管理システムの重要な機能である。 従来の方法は事前知識を必要とするか、手動でしきい値を設定する。 このような欠点を克服するために,アンサンブル学習を応用したEnsemble2フレームワークを提案する。 一方、極値理論に基づいて閾値を自動的に調整する。 モデルは本番データセット上でテストされ、その有効性を検証する。 さらに、オンライン学習を使用してモデルを最適化し、最終的にintel i5プラットフォーム上で10pts/sの速度で実行します。

KPI anomaly detection is one important function of network management system. Traditional methods either require prior knowledge or manually set thresholds. To overcome these shortcomings, we propose the Ensemble2 framework, which applies ensemble learning to improve exogenous capabilities. Meanwhile, automatically adjusts thresholds based on extreme value theory. The model is tested on production datasets to verify its effectiveness. We further optimize the model using online learning, and finally running at a speed of ~10 pts/s on an Intel i5 platform.
翻訳日:2022-06-04 23:52:27 公開日:2022-05-28
# (参考訳) 自己サンプル型プログラムと部分修正型プログラムからの学習

Learning from Self-Sampled Correct and Partially-Correct Programs ( http://arxiv.org/abs/2205.14318v1 )

ライセンス: CC BY 4.0
Ansong Ni, Jeevana Priya Inala, Chenglong Wang, Oleksandr Polozov, Christopher Meek, Dragomir Radev, Jianfeng Gao(参考訳) プログラム合成は、ユーザ仕様に準拠した実行可能なプログラムを生成することを目的としている。 しばしば同じユーザ仕様を満たす複数のプログラムが存在するが、既存のニューラルプログラム合成モデルは、ログライクな範囲を最大化することによって、単一の参照プログラムからのみ学習される。 これにより、トレーニング中に1つのソリューションを繰り返し見ているため、モデルはその予測に過度に自信を持つことになります。 これにより、複数の試行が許可された場合でも、見当たらない例の一般化が不十分になる。 この問題を軽減するため,本モデルでは,学習中にサンプリングを行い,ゴールド実行結果が得られる自己サンプリングされたプログラムと,中間実行状態が他のプログラムと一致する部分的修正プログラムの両方から学習することを提案する。 自己サンプリング型プログラムと部分修正型プログラムを併用することで,学習とサンプリングプロセスのガイドに役立ち,プログラム空間のより効率的な探索が可能になることを示す。 さらに,サンプル毎に複数のプログラムから学習を支援するために,さまざまなトレーニング目標を検討し,パフォーマンスに大きな影響を与えることを見出した。 MathQA と GSM8K データセットを用いた実験により,提案手法は MLE を用いた単一の参照プログラムからの学習と比較して,pass@k の性能を3.1%から12.3%向上させることがわかった。

Program synthesis aims to generate executable programs that are consistent with the user specification. While there are often multiple programs that satisfy the same user specification, existing neural program synthesis models are often only learned from one reference program by maximizing its log-likelihood. This causes the model to be overly confident in its predictions as it sees the single solution repeatedly during training. This leads to poor generalization on unseen examples, even when multiple attempts are allowed. To mitigate this issue, we propose to let the model perform sampling during training and learn from both self-sampled fully-correct programs, which yield the gold execution results, as well as partially-correct programs, whose intermediate execution state matches another correct program. We show that our use of self-sampled correct and partially-correct programs can benefit learning and help guide the sampling process, leading to more efficient exploration of the program space. Additionally, we explore various training objectives to support learning from multiple programs per example and find they greatly affect the performance. Experiments on the MathQA and GSM8K datasets show that our proposed method improves the pass@k performance by 3.1% to 12.3% compared to learning from a single reference program with MLE.
翻訳日:2022-06-04 23:44:15 公開日:2022-05-28
# (参考訳) RIAV-MVS:マルチビューステレオ用非対称ボリュームのリカレントインデクシング

RIAV-MVS: Recurrent-Indexing an Asymmetric Volume for Multi-View Stereo ( http://arxiv.org/abs/2205.14320v1 )

ライセンス: CC BY-SA 4.0
Changjiang Cai, Pan Ji, Yi Xu(参考訳) 本稿では,マルチビューステレオ(MVS)の学習に基づくアプローチ,すなわち,ポーズ付きマルチビュー画像を用いて参照フレームの深さマップを推定する手法を提案する。 私たちの中核的な考え方は、"学習から最適化"のパラダイムを活用して、平面スウィーピングのコストボリュームを反復的にインデクシングし、畳み込みGated Recurrent Unit(GRU)を通じて深度マップを回帰することです。 コストボリュームはマルチビュー幾何学のエンコーディングにおいて重要な役割を果たすため、ピクセルレベルとフレームレベルの両方でその構成を改善することを目指している。 画素レベルでは、参照画像に(ソース画像ではなく)トランスフォーマーブロックを導入することにより、シームーズネットワーク(通常、MVSで画像特徴を抽出するために使用される)の対称性を破ることを提案する。 このような非対称ボリュームにより、ネットワークは参照画像からグローバルな特徴を抽出し、深さマップを予測することができる。 参照画像とソース画像の間のポーズの不正確性の観点から、フレームレベルのコスト量を本質的に補正する相対的なポーズを補正するために、残存ポーズネットワークを組み込むことを提案する。 我々は,実世界のmvsデータセットに関する広範囲な実験を行い,この手法がデータセット内評価とデータセット間一般化の両面で最先端の性能を実現することを示す。

In this paper, we present a learning-based approach for multi-view stereo (MVS), i.e., estimate the depth map of a reference frame using posed multi-view images. Our core idea lies in leveraging a "learning-to-optimize" paradigm to iteratively index a plane-sweeping cost volume and regress the depth map via a convolutional Gated Recurrent Unit (GRU). Since the cost volume plays a paramount role in encoding the multi-view geometry, we aim to improve its construction both in pixel- and frame- levels. In the pixel level, we propose to break the symmetry of the Siamese network (which is typically used in MVS to extract image features) by introducing a transformer block to the reference image (but not to the source images). Such an asymmetric volume allows the network to extract global features from the reference image to predict its depth map. In view of the inaccuracy of poses between reference and source images, we propose to incorporate a residual pose network to make corrections to the relative poses, which essentially rectifies the cost volume in the frame-level. We conduct extensive experiments on real-world MVS datasets and show that our method achieves state-of-the-art performance in terms of both within-dataset evaluation and cross-dataset generalization.
翻訳日:2022-06-04 23:18:08 公開日:2022-05-28
# (参考訳) 独立学習によるマルチエージェントデータベース

Multi-agent Databases via Independent Learning ( http://arxiv.org/abs/2205.14323v1 )

ライセンス: CC BY 4.0
Chi Zhang, Olga Papaemmanouil, Josiah Hanna(参考訳) 機械学習はデータベース研究において、クエリ最適化やワークロードスケジューリング、物理設計など、オプティマイザ、スケジューラ、物理デザイナといった重要なデータベースコンポーネントに限らず、多数のタスクの有効性を改善するために急速に使用されている。 現在研究対象となっているのは、ひとつのタスクに責任を持つ1つのデータベースコンポーネントを、学習ベースで置き換えることだ。 しかし、クエリのパフォーマンスは単一のコンポーネントのパフォーマンスによってではなく、複数のコンポーネントの協調によって決定される。 そのため、学習ベースのデータベースコンポーネントは、トレーニングと実行の両方で協調して、最終的なパフォーマンス目標を満たすポリシーを開発する必要がある。 そこで本論文では,“エンドツーエンドのクエリ待ち時間を改善するために協調的に動作する,さまざまな学習コンポーネントからなるデータベースを設計することは可能か? この質問に答えるために、我々は、学習クエリスケジューラと学習クエリオプティマイザを組み込んだ概念実証システムであるmadb(multi-agent db)を紹介する。 MADBは協調的なマルチエージェント強化学習アプローチを利用して,2つのコンポーネントが意思決定のコンテキストを相互に交換し,クエリレイテンシの低減に協力的に取り組むことを可能にする。 予備的な結果は、MADBが学習したコンポーネントの非協調的な統合よりも優れていることを示している。

Machine learning is rapidly being used in database research to improve the effectiveness of numerous tasks included but not limited to query optimization, workload scheduling, physical design, etc. essential database components, such as the optimizer, scheduler, and physical designer. Currently, the research focus has been on replacing a single database component responsible for one task by its learning-based counterpart. However, query performance is not simply determined by the performance of a single component, but by the cooperation of multiple ones. As such, learned based database components need to collaborate during both training and execution in order to develop policies that meet end performance goals. Thus, the paper attempts to address the question "Is it possible to design a database consisting of various learned components that cooperatively work to improve end-to-end query latency?". To answer this question, we introduce MADB (Multi-Agent DB), a proof-of-concept system that incorporates a learned query scheduler and a learned query optimizer. MADB leverages a cooperative multi-agent reinforcement learning approach that allows the two components to exchange the context of their decisions with each other and collaboratively work towards reducing the query latency. Preliminary results demonstrate that MADB can outperform the non-cooperative integration of learned components.
翻訳日:2022-06-04 22:55:33 公開日:2022-05-28
# (参考訳) 低リソース多言語音声認識のための適応型アクティベーションネットワーク

Adaptive Activation Network For Low Resource Multilingual Speech Recognition ( http://arxiv.org/abs/2205.14326v1 )

ライセンス: CC BY 4.0
Jian Luo, Jianzong Wang, Ning Cheng, Zhenpeng Zheng, Jing Xiao(参考訳) 低リソース自動音声認識(ASR)は、ディープラーニングのASRモデルは、通常大量のトレーニングデータを必要とするため、有用だが厄介な作業である。 既存のモデルは、大きなソース言語を事前学習し、低リソースのターゲット言語に転送することで、ボトルネック(bn)層を確立した。 本研究では,ASRモデルの上位層に適応活性化ネットワークを導入し,異なる言語に異なるアクティベーション関数を適用した。 また,(1)言語間学習,(2)活性化関数をソース言語からターゲット言語に置き換える,(2)多言語学習,(2)接続主義時空間分類(ctc)の損失と異なる言語との関係を共同で学習する,という2つの学習方法を提案した。 IARPA Babelデータセットに関する実験により、我々のアプローチは、オフスクラッチトレーニングや従来のボトルネック機能に基づく手法よりも優れていることを示した。 さらに、言語横断学習と多言語学習を組み合わせることで、多言語音声認識の性能をさらに向上させることができる。

Low resource automatic speech recognition (ASR) is a useful but thorny task, since deep learning ASR models usually need huge amounts of training data. The existing models mostly established a bottleneck (BN) layer by pre-training on a large source language, and transferring to the low resource target language. In this work, we introduced an adaptive activation network to the upper layers of ASR model, and applied different activation functions to different languages. We also proposed two approaches to train the model: (1) cross-lingual learning, replacing the activation function from source language to target language, (2) multilingual learning, jointly training the Connectionist Temporal Classification (CTC) loss of each language and the relevance of different languages. Our experiments on IARPA Babel datasets demonstrated that our approaches outperform the from-scratch training and traditional bottleneck feature based methods. In addition, combining the cross-lingual learning and multilingual learning together could further improve the performance of multilingual speech recognition.
翻訳日:2022-06-04 22:45:58 公開日:2022-05-28
# (参考訳) 正則化によるロバストマルコフ決定プロセスの効率的な政策反復

Efficient Policy Iteration for Robust Markov Decision Processes via Regularization ( http://arxiv.org/abs/2205.14327v1 )

ライセンス: CC BY 4.0
Navdeep Kumar, Kfir Levy, Kaixin Wang, Shie Mannor(参考訳) ロバスト・マルコフ決定プロセス(MDP)は、システムダイナミクスが変化している、あるいは部分的にしか知られていない決定問題をモデル化するための一般的なフレームワークを提供する。 最近の研究は、長方形 $L_p$ 頑健な MDP と正規化された MDP の等価性を確立し、標準の MDP と同じレベルの効率を享受する規則化されたポリシー反復スキームを導出した。 しかし、政策改善のステップについて明確な理解が欠けている。 例えば、欲張り政策は確率的であることはわかっていますが、それぞれの行動がこの欲張り政策にどのように影響するかはほとんどわかりません。 本研究では,政策改善のステップに着目し,欲望政策と最適ロバストベルマン作用素の具体的形式を導出する。 欲求政策は、その確率性の新たな特徴を提供するトップ$k$アクションのいくつかの組み合わせと密接に関連していることがわかった。 組み合わせの正確な性質は不確かさ集合の形に依存する。 さらに,外部最適化サブルーチンに切り替えることなく,単純なバイナリ検索によってポリシー改善のステップを効率的に計算することができる。 さらに、$l_1、l_2$、および$l_\infty$ロバストなmdpでは、バイナリ検索を取り除き、最適なロバストなベルマン演算子を正確に評価することもできます。 我々の研究は、正規化ポリシー反復により、正方形$L_p$ロバストMDPの解法に関する既存の結果を大幅に拡張し、サンプルベースのモデルフリーアルゴリズムに容易に適用できる。

Robust Markov decision processes (MDPs) provide a general framework to model decision problems where the system dynamics are changing or only partially known. Recent work established the equivalence between \texttt{s} rectangular $L_p$ robust MDPs and regularized MDPs, and derived a regularized policy iteration scheme that enjoys the same level of efficiency as standard MDPs. However, there lacks a clear understanding of the policy improvement step. For example, we know the greedy policy can be stochastic but have little clue how each action affects this greedy policy. In this work, we focus on the policy improvement step and derive concrete forms for the greedy policy and the optimal robust Bellman operators. We find that the greedy policy is closely related to some combination of the top $k$ actions, which provides a novel characterization of its stochasticity. The exact nature of the combination depends on the shape of the uncertainty set. Furthermore, our results allow us to efficiently compute the policy improvement step by a simple binary search, without turning to an external optimization subroutine. Moreover, for $L_1, L_2$, and $L_\infty$ robust MDPs, we can even get rid of the binary search and evaluate the optimal robust Bellman operators exactly. Our work greatly extends existing results on solving \texttt{s}-rectangular $L_p$ robust MDPs via regularized policy iteration and can be readily adapted to sample-based model-free algorithms.
翻訳日:2022-06-04 22:31:56 公開日:2022-05-28
# (参考訳) 音声強化に基づくキーワードスポッティングのための教師なし学習

Speech Augmentation Based Unsupervised Learning for Keyword Spotting ( http://arxiv.org/abs/2205.14329v1 )

ライセンス: CC BY 4.0
Jian Luo, Jianzong Wang, Ning Cheng, Haobin Tang, Jing Xiao(参考訳) 本稿では,キーワードスポッティング(kws)タスクのための教師なし学習に基づく音声強調手法について検討した。 KWSは有用な音声アプリケーションであるが、ラベル付きデータにも大きく依存する。 我々は、KWSタスクを実行するためにCNN-Attentionアーキテクチャを設計した。 CNN層は局所的な音響特性に焦点を合わせ、アテンション層は長期依存をモデル化する。 KWSモデルのロバスト性を改善するため,教師なし学習手法も提案した。 教師なしの損失は、オリジナルの音声特徴と拡張音声特徴の類似性と、音声再構成情報に基づいている。 教師なし学習では2つの音声強調法が検討されている: 速度と強度である。 Google Speech Commands V2 Datasetの実験では、我々のCNN-Attentionモデルが競合する結果を示している。 さらに,教師なし学習の強化により,kwsタスクの分類精度が向上した。 本実験では,強化型教師なし学習を用いて,cpc,apc,mpcなどの教師なし学習法よりも優れた性能を実現する。

In this paper, we investigated a speech augmentation based unsupervised learning approach for keyword spotting (KWS) task. KWS is a useful speech application, yet also heavily depends on the labeled data. We designed a CNN-Attention architecture to conduct the KWS task. CNN layers focus on the local acoustic features, and attention layers model the long-time dependency. To improve the robustness of KWS model, we also proposed an unsupervised learning method. The unsupervised loss is based on the similarity between the original and augmented speech features, as well as the audio reconstructing information. Two speech augmentation methods are explored in the unsupervised learning: speed and intensity. The experiments on Google Speech Commands V2 Dataset demonstrated that our CNN-Attention model has competitive results. Moreover, the augmentation based unsupervised learning could further improve the classification accuracy of KWS task. In our experiments, with augmentation based unsupervised learning, our KWS model achieves better performance than other unsupervised methods, such as CPC, APC, and MPC.
翻訳日:2022-06-04 22:30:38 公開日:2022-05-28
# (参考訳) 効率的なビュー合成のための微分点ベース放射場

Differentiable Point-Based Radiance Fields for Efficient View Synthesis ( http://arxiv.org/abs/2205.14330v1 )

ライセンス: CC BY 4.0
Qiang Zhang, Seung-Hwan Baek, Szymon Rusinkiewicz, Felix Heide(参考訳) 効率的な新規ビュー合成のための微分可能レンダリングアルゴリズムを提案する。 学習点表現に賛成してボリュームベースの表現から離れることで、トレーニングと推論の両方において、メモリと実行時の桁違い以上の既存のメソッドを改善します。 この方法は、一様にサンプリングされたランダムな点クラウドから始まり、ポイント毎の位置とビュー依存の外観を学習し、微分可能なsplatベースのレンダラを使用して、一連の入力画像にマッチするモデルを発展させる。 提案手法は,トレーニングと推論の両方において最大300倍高速であり,品質の犠牲は少なく,静的シーンでは10mb以下のメモリを使用する。 ダイナミックなシーンでは,STNeRFより2桁早く,ほぼインタラクティブなレートでレンダリングし,時間的コヒーレンシの正則化を伴わずとも高画質と時間的コヒーレンスを維持する。

We propose a differentiable rendering algorithm for efficient novel view synthesis. By departing from volume-based representations in favor of a learned point representation, we improve on existing methods more than an order of magnitude in memory and runtime, both in training and inference. The method begins with a uniformly-sampled random point cloud and learns per-point position and view-dependent appearance, using a differentiable splat-based renderer to evolve the model to match a set of input images. Our method is up to 300x faster than NeRF in both training and inference, with only a marginal sacrifice in quality, while using less than 10~MB of memory for a static scene. For dynamic scenes, our method trains two orders of magnitude faster than STNeRF and renders at near interactive rate, while maintaining high image quality and temporal coherence even without imposing any temporal-coherency regularizers.
翻訳日:2022-06-04 22:16:48 公開日:2022-05-28
# (参考訳) ゲーティングドロップアウト:疎活性化変圧器の通信効率向上

Gating Dropout: Communication-efficient Regularization for Sparsely Activated Transformers ( http://arxiv.org/abs/2205.14336v1 )

ライセンス: CC BY 4.0
Rui Liu, Young Jin Kim, Alexandre Muzio, Barzan Mozafari, Hany Hassan Awadalla(参考訳) 混合専門家(moe)のような緩やかにアクティベートされたトランスフォーマーは、計算コストを大幅に増加させることなく、モデルサイズを劇的に増やすことができる無謀なスケーリング能力によって大きな関心を集めている。 これを実現するため、MoEモデルはトランスフォーマー内のフィードフォワードサブレイヤをMixture-of-Expertsサブレイヤに置き換え、ゲーティングネットワークを使用して各トークンを割り当てられた専門家にルーティングする。 このようなモデルの効率的なトレーニングには、さまざまなマシンに専門家とトークンを分散する必要があるため、このルーティング戦略は、トークンと割り当てられた専門家が異なるマシンにいることから、大きなマシン間通信コストを発生させることが多い。 本稿では,トークンがゲーティングネットワークを無視し,ローカルマシンに留まり,マシン間通信を減少させる, \emph{gating dropout} を提案する。 従来のドロップアウトと同様に,ゲーティングドロップアウトはトレーニング中に正規化効果があり,一般化性能が向上することを示した。 多言語機械翻訳作業におけるゲーティングドロップアウトの有効性を検証する。 その結果,ガティングドロップアウトは壁時計時間収束率を高速化し,様々なモデルサイズやデータセットのbleuスコアを向上し,最先端のmoeモデルを改善した。

Sparsely activated transformers, such as Mixture of Experts (MoE), have received great interest due to their outrageous scaling capability which enables dramatical increases in model size without significant increases in computational cost. To achieve this, MoE models replace the feedforward sub-layer with Mixture-of-Experts sub-layer in transformers and use a gating network to route each token to its assigned experts. Since the common practice for efficient training of such models requires distributing experts and tokens across different machines, this routing strategy often incurs huge cross-machine communication cost because tokens and their assigned experts likely reside in different machines. In this paper, we propose \emph{Gating Dropout}, which allows tokens to ignore the gating network and stay at their local machines, thus reducing the cross-machine communication. Similar to traditional dropout, we also show that Gating Dropout has a regularization effect during training, resulting in improved generalization performance. We validate the effectiveness of Gating Dropout on multilingual machine translation tasks. Our results demonstrate that Gating Dropout improves a state-of-the-art MoE model with faster wall-clock time convergence rates and better BLEU scores for a variety of model sizes and datasets.
翻訳日:2022-06-04 22:00:59 公開日:2022-05-28
# (参考訳) 高速事前学習のためのオブジェクト指向マスク付きオートエンコーダ

Object-wise Masked Autoencoders for Fast Pre-training ( http://arxiv.org/abs/2205.14338v1 )

ライセンス: CC BY 4.0
Jiantao Wu and Shentong Mo(参考訳) ラベルのない画像に対する自己教師付き事前学習は、最近画像分類において有望な性能を達成した。 トランスフォーマーベースの手法であるViTとMAEの成功は、バックボーンアーキテクチャと自己管理タスクの設計にコミュニティの関心を惹きつける。 本研究では,現在のマスキング画像符号化モデルが,単一のオブジェクト表現ではなく,シーン全体のすべてのオブジェクト間の基礎的な関係を学習することを示す。 したがって、これらの手法は自己教師付き事前学習に多くの計算時間をもたらす。 この問題を解決するために,興味のある領域マスクを用いた選択的再構成によるオブジェクト表現学習のための非オブジェクトパッチをドロップする,新しいオブジェクト選択と分割戦略を提案する。 この手法をObjMAEと呼ぶ。 4つの一般的なデータセットに対する大規模な実験は、競争性能を達成しつつ計算コストを72%削減する上で、我々のモデルの有効性を示した。 さらに,対象物間関係と対象物内関係について検討し,後者が自己指導型事前学習に不可欠であることを確認した。

Self-supervised pre-training for images without labels has recently achieved promising performance in image classification. The success of transformer-based methods, ViT and MAE, draws the community's attention to the design of backbone architecture and self-supervised task. In this work, we show that current masked image encoding models learn the underlying relationship between all objects in the whole scene, instead of a single object representation. Therefore, those methods bring a lot of compute time for self-supervised pre-training. To solve this issue, we introduce a novel object selection and division strategy to drop non-object patches for learning object-wise representations by selective reconstruction with interested region masks. We refer to this method ObjMAE. Extensive experiments on four commonly-used datasets demonstrate the effectiveness of our model in reducing the compute cost by 72% while achieving competitive performance. Furthermore, we investigate the inter-object and intra-object relationship and find that the latter is crucial for self-supervised pre-training.
翻訳日:2022-06-04 21:42:28 公開日:2022-05-28
# (参考訳) 反射軌道を用いた分岐境界最適化のための強化学習

Reinforcement Learning for Branch-and-Bound Optimisation using Retrospective Trajectories ( http://arxiv.org/abs/2205.14345v1 )

ライセンス: CC BY 4.0
Christopher W. F. Parsonson, Alexandre Laterre, Thomas D. Barrett(参考訳) 混合整数線形プログラム(MILP)としてフレーム化された組合せ最適化問題は、現実世界の様々なアプリケーションに広く分布する。 標準分岐バウンド(B&B)アルゴリズムは、ますます制約されたサブプロブレムの探索木を構築することにより、MILPを正確に解く。 実際には、その解法時間パフォーマンスは、次の変数を制約('ブランチ')に選択するといったヒューリスティックに依存している。 最近、機械学習(ML)が分岐のための有望なパラダイムとして登場した。 しかし、事前の成果は強化学習(RL)の適用に苦慮しており、スパース報酬、探究の困難さ、部分的な観測可能性などを重要な課題として挙げている。 代わりに、ML手法の先導者は、新しいポリシーの発見を妨げ、高価なデータラベリングを必要とする模倣学習(IL)による高品質の手作りヒューリスティックを近似する。 本稿では,RLの分岐に対する単純かつ効果的なアプローチであるレトロ分岐を提案する。 探索木をサブツリーに含まれる複数のパスに再構成することにより、エージェントはより予測可能な次の状態の短い軌跡から学習することができる。 4つの組み合わせタスクの実験において,本手法は専門家の指導や事前学習を必要とせず,学習とブランチを可能にする。 我々は現在の最先端のRL分岐アルゴリズムを3~5倍に上回り、500の制約と1000の変数を持つMILP上での最高のILメソッドのパフォーマンスの20%以内に到達します。

Combinatorial optimisation problems framed as mixed integer linear programmes (MILPs) are ubiquitous across a range of real-world applications. The canonical branch-and-bound (B&B) algorithm seeks to exactly solve MILPs by constructing a search tree of increasingly constrained sub-problems. In practice, its solving time performance is dependent on heuristics, such as the choice of the next variable to constrain ('branching'). Recently, machine learning (ML) has emerged as a promising paradigm for branching. However, prior works have struggled to apply reinforcement learning (RL), citing sparse rewards, difficult exploration, and partial observability as significant challenges. Instead, leading ML methodologies resort to approximating high quality handcrafted heuristics with imitation learning (IL), which precludes the discovery of novel policies and requires expensive data labelling. In this work, we propose retro branching; a simple yet effective approach to RL for branching. By retrospectively deconstructing the search tree into multiple paths each contained within a sub-tree, we enable the agent to learn from shorter trajectories with more predictable next states. In experiments on four combinatorial tasks, our approach enables learning-to-branch without any expert guidance or pre-training. We outperform the current state-of-the-art RL branching algorithm by 3-5x and come within 20% of the best IL method's performance on MILPs with 500 constraints and 1000 variables, with ablations verifying that our retrospectively constructed trajectories are essential to achieving these results.
翻訳日:2022-06-04 21:28:46 公開日:2022-05-28
# (参考訳) WaveMix-Lite:画像解析のための資源効率の高いニューラルネットワーク

WaveMix-Lite: A Resource-efficient Neural Network for Image Analysis ( http://arxiv.org/abs/2205.14375v1 )

ライセンス: CC BY 4.0
Pranav Jeevan, Kavitha Viswanathan, Amit Sethi(参考訳) ニューラルネットワークの画像解析タスクを一般化する能力の高まりは、パラメータやレイヤの数の増加、データセットのサイズ、トレーニングとテストの計算、gpu ramといったコストがかかっている。 我々は、リソースを少なくしながら、同時代のトランスフォーマーや畳み込みニューラルネットワーク(CNN)と同等に一般化できる新しいアーキテクチャ、WaveMix-Liteを導入する。 WaveMix-Liteは2次元離散ウェーブレット変換を用いて画素の空間情報を効率的に混合する。 wavemix-liteは多彩でスケーラブルなアーキテクチャフレームワークで、画像分類やセマンティクスセグメンテーションなど、トランスフォーマーやcnnとは異なり、アーキテクチャの変更を必要とせずに、複数のビジョンタスクに使用できる。 単一のgpuでトレーニングしながら、複数の精度ベンチマークを満たしたり、超えたりすることができる。 例えば、5つのemnistデータセットで最先端の精度を達成し、imagenet-1k(64$\times$64イメージ)でcnnとtransformersを上回り、cityscapes validation setで75.32 %のmiouを達成し、同等のcnnやtransformersのgpuramの5分の1以下を使用した。 実験の結果,ニューラルアーキテクチャの畳み込み要素は画像のシフト不変性を利用するが,新しいタイプの層(ウェーブレット変換など)は物体のスケール不変性や有限空間範囲といった画像のさらなる特性を利用することができることがわかった。

Gains in the ability to generalize on image analysis tasks for neural networks have come at the cost of increased number of parameters and layers, dataset sizes, training and test computations, and GPU RAM. We introduce a new architecture -- WaveMix-Lite -- that can generalize on par with contemporary transformers and convolutional neural networks (CNNs) while needing fewer resources. WaveMix-Lite uses 2D-discrete wavelet transform to efficiently mix spatial information from pixels. WaveMix-Lite seems to be a versatile and scalable architectural framework that can be used for multiple vision tasks, such as image classification and semantic segmentation, without requiring significant architectural changes, unlike transformers and CNNs. It is able to meet or exceed several accuracy benchmarks while training on a single GPU. For instance, it achieves state-of-the-art accuracy on five EMNIST datasets, outperforms CNNs and transformers in ImageNet-1K (64$\times$64 images), and achieves an mIoU of 75.32 % on Cityscapes validation set, while using less than one-fifth the number parameters and half the GPU RAM of comparable CNNs or transformers. Our experiments show that while the convolutional elements of neural architectures exploit the shift-invariance property of images, new types of layers (e.g., wavelet transform) can exploit additional properties of images, such as scale-invariance and finite spatial extents of objects.
翻訳日:2022-06-04 20:38:40 公開日:2022-05-28
# (参考訳) 都市におけるパンデミックのためのエージェントベースシミュレータの深層学習による空間的エミュレーション

Deep Learning-based Spatially Explicit Emulation of an Agent-Based Simulator for Pandemic in a City ( http://arxiv.org/abs/2205.14396v1 )

ライセンス: CC BY 4.0
Varun Madhavan, Adway Mitra, Partha Pratim Chakrabarti(参考訳) エージェントベースモデルは、都市におけるパンデミックの拡散など、物理的または社会的プロセスのシミュレーションに非常に有用である。 このようなモデルは、個人(エージェント)の行動とその相互作用を特定し、都市の地理とデモグラフィに基づいて、そのような相互作用に基づいて感染の過程をパラメータ化する。 しかし、そのようなモデルは非常に高価であり、複雑度はエージェントの総数において線形であることが多い。 これは、しばしばポリシー計画やモデルパラメータ推定のために何百回も実行されなければならないシミュレーションにおけるそのようなモデルの使用を著しく制限する。 別の方法は、エージェントベースシミュレータの出力を初期条件とパラメータに基づいて予測できる代理モデルであるエミュレータを開発することである。 本稿では,そのようなエージェントベースモデルを高精度にエミュレートできる拡張畳み込みニューラルネットワークに基づく深層学習モデルについて述べる。 エージェントベースモデルではなくこのモデルを使用することで,シミュレーションの速度が大幅に向上し,観測に対するキャリブレーションの迅速化と,より広範なシナリオ解析が可能になる。 感染した個体の位置は総数ではなくシミュレートされるので、我々が考慮するモデルは空間的に明らかである。 私たちのエミュレーションフレームワークのもう1つの側面は、都市を複数の小さな重なり合うブロックに分割し、エミュレーションを並列に実行し、その結果をマージする分割・コンカのアプローチである。 これにより、同じエミュレータが任意の大きさの都市でも機能し、オリジナルのシミュレータと比較してエミュレータの時間的複雑さを大幅に改善できる。

Agent-Based Models are very useful for simulation of physical or social processes, such as the spreading of a pandemic in a city. Such models proceed by specifying the behavior of individuals (agents) and their interactions, and parameterizing the process of infection based on such interactions based on the geography and demography of the city. However, such models are computationally very expensive, and the complexity is often linear in the total number of agents. This seriously limits the usage of such models for simulations, which often have to be run hundreds of times for policy planning and even model parameter estimation. An alternative is to develop an emulator, a surrogate model that can predict the Agent-Based Simulator's output based on its initial conditions and parameters. In this paper, we discuss a Deep Learning model based on Dilated Convolutional Neural Network that can emulate such an agent based model with high accuracy. We show that use of this model instead of the original Agent-Based Model provides us major gains in the speed of simulations, allowing much quicker calibration to observations, and more extensive scenario analysis. The models we consider are spatially explicit, as the locations of the infected individuals are simulated instead of the gross counts. Another aspect of our emulation framework is its divide-and-conquer approach that divides the city into several small overlapping blocks and carries out the emulation in them parallelly, after which these results are merged together. This ensures that the same emulator can work for a city of any size, and also provides significant improvement of time complexity of the emulator, compared to the original simulator.
翻訳日:2022-06-04 20:14:15 公開日:2022-05-28
# (参考訳) Snapture -- 静的および動的ハンドジェスチャ認識を併用したニューラルアーキテクチャ

Snapture -- A Novel Neural Architecture for Combined Static and Dynamic Hand Gesture Recognition ( http://arxiv.org/abs/2205.15862v1 )

ライセンス: CC BY 4.0
Hassan Ali, Doreen Jirak, Stefan Wermter(参考訳) ロボットは人々の日常生活にもっと関与することが期待されているため、直感的なユーザーインターフェースを実現するフレームワークが要求される。 ハンドジェスチャー認識システムは自然なコミュニケーション方法を提供しており、シームレスなヒューマンロボットインタラクション(HRI)の不可欠な部分である。 近年、ディープラーニングによる計算モデルの膨大な進化が目撃されている。 しかし、最先端モデルは、エンブレムや共同音声など、さまざまなジェスチャー領域にまたがる拡張に不足している。 本稿では,新しい手ジェスチャー認識システムを提案する。 我々のアーキテクチャは静的なジェスチャーと動的ジェスチャーの両方の学習を可能にし、そのピーク時にジェスチャーパフォーマンスのいわゆる「スナップショット」をキャプチャすることで、ダイナミックな動きとハンドポーズを統合する。 さらに,ジェスチャーの動作プロファイルを分析し,その動的特性を明らかにすることで,動作量に基づいて静的チャネルを制御できる手法を提案する。 CNNLSTMベースラインと比較して,2つのジェスチャベンチマークに対するアプローチが優れていることを示す。 また、パフォーマンス改善のためのSnaptureアーキテクチャの可能性を明らかにするジェスチャークラスに基づく分析も提供します。 モジュラ実装により,HRIシナリオの重要な手がかりである表情やヘッドトラッキングといった,他のマルチモーダルデータをひとつのアーキテクチャに統合することが可能になる。 そこで本研究は,ロボットとの非言語コミュニケーションのためのジェスチャー認識研究と機械学習応用の両方に貢献する。

As robots are expected to get more involved in people's everyday lives, frameworks that enable intuitive user interfaces are in demand. Hand gesture recognition systems provide a natural way of communication and, thus, are an integral part of seamless Human-Robot Interaction (HRI). Recent years have witnessed an immense evolution of computational models powered by deep learning. However, state-of-the-art models fall short in expanding across different gesture domains, such as emblems and co-speech. In this paper, we propose a novel hybrid hand gesture recognition system. Our architecture enables learning both static and dynamic gestures: by capturing a so-called "snapshot" of the gesture performance at its peak, we integrate the hand pose along with the dynamic movement. Moreover, we present a method for analyzing the motion profile of a gesture to uncover its dynamic characteristics and which allows regulating a static channel based on the amount of motion. Our evaluation demonstrates the superiority of our approach on two gesture benchmarks compared to a CNNLSTM baseline. We also provide an analysis on a gesture class basis that unveils the potential of our Snapture architecture for performance improvements. Thanks to its modular implementation, our framework allows the integration of other multimodal data like facial expressions and head tracking, which are important cues in HRI scenarios, into one architecture. Thus, our work contributes both to gesture recognition research and machine learning applications for non-verbal communication with robots.
翻訳日:2022-06-04 19:59:49 公開日:2022-05-28
# (参考訳) 自己教師あり表現学習による衛星画像分類のためのデータ生成

Data Generation for Satellite Image Classification Using Self-Supervised Representation Learning ( http://arxiv.org/abs/2205.14418v1 )

ライセンス: CC BY 4.0
Sarun Gulyanon, Wasit Limprasert, Pokpong Songmuang, Rachada Kongkachandra(参考訳) 監視されたディープニューラルネットワークは、リモートセンシング領域における多くのタスクの最先端技術であり、そのような技術には入力とラベルのペアからなるデータセットが必要である。 一方、商業目的と学術目的の両方で利用可能な生の衛星画像は多数存在する。 そこで本研究では,衛星画像分類作業におけるラベル付きデータ問題に対して,自己教師付き学習技術に基づくプロセスを導入し,衛星画像パッチの合成ラベルを作成する。 これらの合成ラベルは、既存の教師付き学習技術のトレーニングデータセットとして使用できる。 実験では,合成ラベルで訓練されたモデルが実ラベルで訓練されたモデルと類似した性能を示すことを示した。 また,合成ラベルの作成過程において,汎用性と知識伝達性を有する視覚表現ベクトルを得る。

Supervised deep neural networks are the-state-of-the-art for many tasks in the remote sensing domain, against the fact that such techniques require the dataset consisting of pairs of input and label, which are rare and expensive to collect in term of both manpower and resources. On the other hand, there are abundance of raw satellite images available both for commercial and academic purposes. Hence, in this work, we tackle the insufficient labeled data problem in satellite image classification task by introducing the process based on the self-supervised learning technique to create the synthetic labels for satellite image patches. These synthetic labels can be used as the training dataset for the existing supervised learning techniques. In our experiments, we show that the models trained on the synthetic labels give similar performance to the models trained on the real labels. And in the process of creating the synthetic labels, we also obtain the visual representation vectors that are versatile and knowledge transferable.
翻訳日:2022-06-04 19:56:10 公開日:2022-05-28
# (参考訳) メタセマンティクス学習を用いた3dモデルシェープネットコア分類

3D-model ShapeNet Core Classification using Meta-Semantic Learning ( http://arxiv.org/abs/2205.15869v1 )

ライセンス: CC BY 4.0
Farid Ghareh Mohammadi, Cheng Chen, Farzan Shenavarmasouleh, M. Hadi Amini, Beshoy Morkos, and Hamid R. Arabnia(参考訳) 学習目的の3dポイントクラウドモデルを理解することは、自動運転システムのような現実世界の識別に必須の課題となっている。 深層学習を用いた様々なソリューションが、ポイントクラウドセグメンテーション、オブジェクト検出、分類のために提案されている。 しかし、これらの手法はしばしばかなりの数のモデルパラメータを必要とし、計算コストが高い。 与えられた3次元データポイントのセマンティック次元を研究し,メタセマンティックラーニング(Meta-SeL)と呼ばれる効率的な手法を提案する。 Meta-SeLは2つの入力された3Dローカルポイント(入力3Dモデルと部分分割ラベル)を活用する統合フレームワークであり、多くの3D認識タスクに対して時間とコスト効率と正確なプロジェクションモデルを提供する。 その結果,Meta-SeLは他の複雑な最先端技術と比較して競争性能が向上することが示された。 さらに、ランダムシャッフル不変であるMeta-SeLは、ジッタリングノイズと同様に翻訳にも耐性がある。

Understanding 3D point cloud models for learning purposes has become an imperative challenge for real-world identification such as autonomous driving systems. A wide variety of solutions using deep learning have been proposed for point cloud segmentation, object detection, and classification. These methods, however, often require a considerable number of model parameters and are computationally expensive. We study a semantic dimension of given 3D data points and propose an efficient method called Meta-Semantic Learning (Meta-SeL). Meta-SeL is an integrated framework that leverages two input 3D local points (input 3D models and part-segmentation labels), providing a time and cost-efficient, and precise projection model for a number of 3D recognition tasks. The results indicate that Meta-SeL yields competitive performance in comparison with other complex state-of-the-art work. Moreover, being random shuffle invariant, Meta-SeL is resilient to translation as well as jittering noise.
翻訳日:2022-06-04 19:42:11 公開日:2022-05-28
# (参考訳) パラメータ効率と学生フレンドリな知識蒸留

Parameter-Efficient and Student-Friendly Knowledge Distillation ( http://arxiv.org/abs/2205.15308v1 )

ライセンス: CC0 1.0
Jun Rao, Xv Meng, Liang Ding, Shuhan Qi, Dacheng Tao(参考訳) 知識蒸留(KD)は、大きな教師モデルから小さな学生に知識を伝達するために広く使われており、教師のパラメータはトレーニング中に固定(あるいは部分的に)されている。 近年の研究では、このモードが不一致モデル容量による知識伝達の困難を引き起こす可能性があることが示されている。 ミスマッチ問題を解決するために, オンライン蒸留など, 教師と学生の合同学習法が提案されているが, 常に高価な計算コストを必要とする。 本稿では,比較的少数の部分パラメータを更新することにより,効率的な知識伝達を実現するために,パラメータ効率が高く,学生に優しい知識蒸留法PESF-KDを提案する。 技術的には,まず予測分布間のシャープネスギャップとしてミスマッチを数学的に定式化し,そのギャップをソフトラベルの適切な滑らかさで狭めることができることを示す。 次に,教師のためのアダプタモジュールを導入し,適切なスムーズさでソフトラベルを得るためのアダプタを更新する。 各種ベンチマーク実験により,PESF-KDは高度オンライン蒸留法と比較して,競争力のある結果が得られる一方で,トレーニングコストを大幅に削減できることが示された。 コードは受理時にリリースされる。

Knowledge distillation (KD) has been extensively employed to transfer the knowledge from a large teacher model to the smaller students, where the parameters of the teacher are fixed (or partially) during training. Recent studies show that this mode may cause difficulties in knowledge transfer due to the mismatched model capacities. To alleviate the mismatch problem, teacher-student joint training methods, e.g., online distillation, have been proposed, but it always requires expensive computational cost. In this paper, we present a parameter-efficient and student-friendly knowledge distillation method, namely PESF-KD, to achieve efficient and sufficient knowledge transfer by updating relatively few partial parameters. Technically, we first mathematically formulate the mismatch as the sharpness gap between their predictive distributions, where we show such a gap can be narrowed with the appropriate smoothness of the soft label. Then, we introduce an adapter module for the teacher and only update the adapter to obtain soft labels with appropriate smoothness. Experiments on a variety of benchmarks show that PESF-KD can significantly reduce the training cost while obtaining competitive results compared to advanced online distillation methods. Code will be released upon acceptance.
翻訳日:2022-06-04 19:33:07 公開日:2022-05-28
# (参考訳) 可視化のための知覚的最適色選択

Perceptually Optimized Color Selection for Visualization ( http://arxiv.org/abs/2205.14472v1 )

ライセンス: CC BY 4.0
Subhrajyoti Maji and John Dingliana(参考訳) 科学的可視化のための最適な知覚コントラストで色を自動的に選択するEDM(Equilibrium Distribution Model)を提案する。 可視化タスクで強調すべき特徴がいくつかあるとすれば,本手法はcielabカラースペース内の均等に分散した点を導出して,色を特徴に割り当てることで,色間の最小ユークリッド距離を最適化する。 提案手法では,他の色選択法が一般的に失敗する非常に多くの特徴に対して,高い知覚コントラストを持つ色を割り当てることができる。 提案手法は広範に使用されているハーモニック色選択方式と比較し,最大20種類の特徴を視覚化するための適切な色コントラストが得られる一方で,平衡スキームは極めて優れたコントラストを提供し,最大100種類の特徴を視覚化するための知覚コントラストを実現する。

We propose an approach, called the Equilibrium Distribution Model (EDM), for automatically selecting colors with optimum perceptual contrast for scientific visualization. Given any number of features that need to be emphasized in a visualization task, our approach derives evenly distributed points in the CIELAB color space to assign colors to the features so that the minimum Euclidean Distance among the colors are optimized. Our approach can assign colors with high perceptual contrast even for very high numbers of features, where other color selection methods typically fail. We compare our approach with the widely used Harmonic color selection scheme and demonstrate that while the harmonic scheme can achieve reasonable color contrast for visualizing up to 20 different features, our Equilibrium scheme provides significantly better contrast and achieves perceptible contrast for visualizing even up to 100 unique features.
翻訳日:2022-06-04 19:17:11 公開日:2022-05-28
# (参考訳) efficient-adam: 複雑性分析による通信効率の高い分散adam

Efficient-Adam: Communication-Efficient Distributed Adam with Complexity Analysis ( http://arxiv.org/abs/2205.14473v1 )

ライセンス: CC BY 4.0
Congliang Chen, Li Shen, Wei Liu and Zhi-Quan Luo(参考訳) 分散適応確率勾配法は、ディープラーニングモデルの訓練など、大規模非凸最適化に広く用いられている。 しかし、$\varepsilon$-stationary 点を求める際の通信複雑性は、非凸条件ではほとんど分析されていない。 本研究では,確率的非凸最適化のためのパラメータサーバモデルにおいて,通信効率の高い分散Adamを新たに提案する。 具体的には,作業者とサーバ間の通信コストを削減するため,双方向量子化方式を効率的なadamに組み込む。 同時に、サーバとワーカの両方の双方向量子化によるバイアスを低減するために、双方向エラーフィードバック戦略を採用します。 加えて,量子化演算子のクラスで提案する効率的なadamの反復複雑性を確立し,$\varepsilon$-stationary point が達成された場合,サーバとワーカー間の通信の複雑さをさらに特徴づける。 最後に,おもちゃの確率凸最適化問題を解くために効率的なadamを適用し,実世界のビジョンと言語タスクでディープラーニングモデルをトレーニングする。 理論的な保証とともに広範な実験は、効率的なアダムの利点を正当化する。

Distributed adaptive stochastic gradient methods have been widely used for large-scale nonconvex optimization, such as training deep learning models. However, their communication complexity on finding $\varepsilon$-stationary points has rarely been analyzed in the nonconvex setting. In this work, we present a novel communication-efficient distributed Adam in the parameter-server model for stochastic nonconvex optimization, dubbed {\em Efficient-Adam}. Specifically, we incorporate a two-way quantization scheme into Efficient-Adam to reduce the communication cost between the workers and server. Simultaneously, we adopt a two-way error feedback strategy to reduce the biases caused by the two-way quantization on both the server and workers, respectively. In addition, we establish the iteration complexity for the proposed Efficient-Adam with a class of quantization operators, and further characterize its communication complexity between the server and workers when an $\varepsilon$-stationary point is achieved. Finally, we apply Efficient-Adam to solve a toy stochastic convex optimization problem and train deep learning models on real-world vision and language tasks. Extensive experiments together with a theoretical guarantee justify the merits of Efficient Adam.
翻訳日:2022-06-04 19:12:52 公開日:2022-05-28
# (参考訳) 遺伝的にプライベートな合成データを用いたノイズアウェア統計推論

Noise-Aware Statistical Inference with Differentially Private Synthetic Data ( http://arxiv.org/abs/2205.14485v1 )

ライセンス: CC BY 4.0
Ossi R\"ais\"a (1), Joonas J\"alk\"o (2), Samuel Kaski (2 and 3), Antti Honkela (1) ((1) University of Helsinki, (2) Aalto University, (3) University of Manchester)(参考訳) 差分プライバシー(DP)下での合成データの生成は、データプライバシコミュニティで多くの注目を集めているが、合成データの分析は、はるかに少ない。 既存の研究では、DP合成データをまるで本物であるかのように分析するだけでは、人口レベルの有効な推測が得られないことが示されている。 例えば、信頼区間は狭すぎるので、簡単な実験で示します。 本研究では,多重計算の分野からの合成データ解析技術とノイズ認識ベイズモデルを用いた合成データ生成をパイプラインNA+MIに組み込むことにより,DP合成データから人口レベルの推定精度の正確な推定を可能にする。 限界クエリからの離散データ生成のためのna+miを実装するために,最大エントロピーの原理を用いて,ノイズ対応型合成データ生成アルゴリズムnasu-mqを開発した。 本実験は,DP合成データから正確な信頼区間を生成可能であることを示す。 この間隔は、DPノイズによる追加の不確実性を正確に捉えるために、より厳密なプライバシーによってより広くなる。

While generation of synthetic data under differential privacy (DP) has received a lot of attention in the data privacy community, analysis of synthetic data has received much less. Existing work has shown that simply analysing DP synthetic data as if it were real does not produce valid inferences of population-level quantities. For example, confidence intervals become too narrow, which we demonstrate with a simple experiment. We tackle this problem by combining synthetic data analysis techniques from the field of multiple imputation, and synthetic data generation using noise-aware Bayesian modeling into a pipeline NA+MI that allows computing accurate uncertainty estimates for population-level quantities from DP synthetic data. To implement NA+MI for discrete data generation from marginal queries, we develop a novel noise-aware synthetic data generation algorithm NAPSU-MQ using the principle of maximum entropy. Our experiments demonstrate that the pipeline is able to produce accurate confidence intervals from DP synthetic data. The intervals become wider with tighter privacy to accurately capture the additional uncertainty stemming from DP noise.
翻訳日:2022-06-04 19:11:25 公開日:2022-05-28
# (参考訳) ブロックチェーンベース非ファンジブルトークン(NFT)におけるプラジャリズム検出のための近似パターンマッチングのための新しい高性能手法

A New High-Performance Approach to Approximate Pattern-Matching for Plagiarism Detection in Blockchain-Based Non-Fungible Tokens (NFTs) ( http://arxiv.org/abs/2205.14492v1 )

ライセンス: CC BY 4.0
Ciprian Pungila, Darius Galis, Viorel Negru(参考訳) 我々は,NDFAに基づく手法を用いて,従来の類似度と比べ,性能を著しく向上させる,近似パターンマッチングを高速かつ革新的な手法を提案する。 ブロックチェーンベースのNFT(Non-fungible tokens)のコンテキストにおいて、私たちのアプローチの利点を概説する。 提案手法を,複数の実世界のシナリオで提示し,議論し,検証し,比較する。また,盗作検出によく用いられる類似性尺度を用いて,検出プロセス全体の精度にほとんど妥協なく,テストのスペクトル全体にわたって,大幅なスループット向上を観察する。 本手法は, プラジャリズム検出のためのパターンマッチングに適しており, 今後の改善に向けた研究の方向性を概説する。

We are presenting a fast and innovative approach to performing approximate pattern-matching for plagiarism detection, using an NDFA-based approach that significantly enhances performance compared to other existing similarity measures. We outline the advantages of our approach in the context of blockchain-based non-fungible tokens (NFTs). We present, formalize, discuss and test our proposed approach in several real-world scenarios and with different similarity measures commonly used in plagiarism detection, and observe significant throughput enhancements throughout the entire spectrum of tests, with little to no compromises on the accuracy of the detection process overall. We conclude that our approach is suitable and adequate to perform approximate pattern-matching for plagiarism detection, and outline research directions for future improvements.
翻訳日:2022-06-04 18:48:03 公開日:2022-05-28
# (参考訳) SuperVoice:人間の音声における超音波エネルギーを用いたテキスト非依存話者検証

SuperVoice: Text-Independent Speaker Verification Using Ultrasound Energy in Human Speech ( http://arxiv.org/abs/2205.14496v1 )

ライセンス: CC BY 4.0
Hanqing Guo, Qiben Yan, Nikolay Ivanov, Ying Zhu, Li Xiao, Eric J. Hunter(参考訳) ボイスアクティベートシステムは、さまざまなデスクトップ、モバイル、IoT(Internet-of-Things)デバイスに統合されている。 しかし、悪意のある攻撃者が被害者の声を合成したり、単にリプレイしたりする、不正行為やリプレイ攻撃などの音声偽造攻撃は、セキュリティ上の懸念を増している。 既存の話者検証手法では、音声コマンドの可聴周波数範囲から抽出したスペクトル特徴を用いて個々の話者を識別する。 しかし、それらはしばしば高いエラー率と/または長い遅延を持つ。 本稿では,超音波周波数帯における人間の発話の特徴を精査し,人間の音声研究の新しい方向性について検討する。 本研究は,20kHzから48kHzまでの高周波超音波成分(音声摩擦剤など)が,話者検証の安全性と精度を大幅に向上させることを示す。 本稿では,特徴融合機構を備えた2ストリームdnnアーキテクチャを用いた話者照合システムsupervoiceを提案する。 本システムをテストするために,127人の参加者から12時間音声(8,950音声サンプル)の音声データセットを作成する。 さらに,第2のスプーフ音声データセットを作成し,そのセキュリティを評価する。 制御された録音と実世界のアプリケーションとのバランスをとるために、音声録音は2つの静かな部屋から7つのスマートフォンと超音波マイクを含む8つの異なる録音装置によって収集される。 評価の結果,SuPERVOICEは話者検証作業において0.58%の誤り率を達成し,受信した発話を120ミリ秒で検証し,既存の話者検証システムよりも優れていた。 さらに、処理時間91ms以内では、5つの異なるスピーカによって起動されるリプレイ攻撃を検出する際に、SuPERVOICEは0%のエラー率を達成する。

Voice-activated systems are integrated into a variety of desktop, mobile, and Internet-of-Things (IoT) devices. However, voice spoofing attacks, such as impersonation and replay attacks, in which malicious attackers synthesize the voice of a victim or simply replay it, have brought growing security concerns. Existing speaker verification techniques distinguish individual speakers via the spectrographic features extracted from an audible frequency range of voice commands. However, they often have high error rates and/or long delays. In this paper, we explore a new direction of human voice research by scrutinizing the unique characteristics of human speech at the ultrasound frequency band. Our research indicates that the high-frequency ultrasound components (e.g. speech fricatives) from 20 to 48 kHz can significantly enhance the security and accuracy of speaker verification. We propose a speaker verification system, SUPERVOICE that uses a two-stream DNN architecture with a feature fusion mechanism to generate distinctive speaker models. To test the system, we create a speech dataset with 12 hours of audio (8,950 voice samples) from 127 participants. In addition, we create a second spoofed voice dataset to evaluate its security. In order to balance between controlled recordings and real-world applications, the audio recordings are collected from two quiet rooms by 8 different recording devices, including 7 smartphones and an ultrasound microphone. Our evaluation shows that SUPERVOICE achieves 0.58% equal error rate in the speaker verification task, it only takes 120 ms for testing an incoming utterance, outperforming all existing speaker verification systems. Moreover, within 91 ms processing time, SUPERVOICE achieves 0% equal error rate in detecting replay attacks launched by 5 different loudspeakers.
翻訳日:2022-06-04 18:38:53 公開日:2022-05-28
# (参考訳) 量子生成モデルへの非線形性の導入

Introducing Non-Linearity into Quantum Generative Models ( http://arxiv.org/abs/2205.14506v1 )

ライセンス: CC BY 4.0
Kaitlin Gili, Mykolas Sveistrys, Chris Ballance(参考訳) 孤立量子系の進化は線形であり、量子回路を生成的機械学習モデルとして利用するものを含め、量子アルゴリズムは可逆的である。 しかしながら、ニューラルネットワークに基づくような、最も成功した古典的生成モデルの中には、高度に非線形で可逆なダイナミクスを含むものもある。 本稿では、ニューラルネットワーク構造を介する非線形活性化を標準ボルンマシンフレームワークである量子ニューロンボーンマシン(qnbm)に付加するモデルを導入することにより、量子生成モデリングにおけるこれらのダイナミクスの効果を考察する。 これを実現するために,従来導入されていた量子ニューロンサブルーチンを用いて,中間回路計測と古典制御を行う。 QNBMの導入後,4つの出力ニューロンと様々な入力層と隠蔽層を持つ3層QNBMをトレーニングすることにより,ネットワークサイズに依存する性能について検討した。 次に、非線形QNBMと線形量子回路ボルンマシン(QCBM)を比較した。 同一の時間とメモリ資源を各モデルに割り当て、QNBMが要求するキュービットオーバーヘッドが唯一の大きな違いとなるようにします。 グラデーションベーストレーニングでは,両モデルとも自明な一様確率分布を学習できるが,より難解な分布のクラスでは,qnbmは類似数の可変パラメータを持つqcbmよりも約3倍の誤差率を達成できることを示した。 したがって、非線形性は量子生成モデルにおいて有用な資源であることを示し、QNBMを優れた生成性能と量子優位性を持つ新しいモデルとして挙げた。

The evolution of an isolated quantum system is linear, and hence quantum algorithms are reversible, including those that utilize quantum circuits as generative machine learning models. However, some of the most successful classical generative models, such as those based on neural networks, involve highly non-linear and thus non-reversible dynamics. In this paper, we explore the effect of these dynamics in quantum generative modeling by introducing a model that adds non-linear activations via a neural network structure onto the standard Born Machine framework - the Quantum Neuron Born Machine (QNBM). To achieve this, we utilize a previously introduced Quantum Neuron subroutine, which is a repeat-until-success circuit with mid-circuit measurements and classical control. After introducing the QNBM, we investigate how its performance depends on network size, by training a 3-layer QNBM with 4 output neurons and various input and hidden layer sizes. We then compare our non-linear QNBM to the linear Quantum Circuit Born Machine (QCBM). We allocate similar time and memory resources to each model, such that the only major difference is the qubit overhead required by the QNBM. With gradient-based training, we show that while both models can easily learn a trivial uniform probability distribution, on a more challenging class of distributions, the QNBM achieves an almost 3x smaller error rate than a QCBM with a similar number of tunable parameters. We therefore show that non-linearity is a useful resource in quantum generative models, and we put forth the QNBM as a new model with good generative performance and potential for quantum advantage.
翻訳日:2022-06-04 18:15:10 公開日:2022-05-28
# (参考訳) 加算高次因子化機

Additive Higher-Order Factorization Machines ( http://arxiv.org/abs/2205.14515v1 )

ライセンス: CC BY 4.0
David R\"ugamer(参考訳) ビッグデータと解釈可能な機械学習の時代において、アプローチは大規模に動作し、同時にメソッドの内部動作の数学的理解を可能にする必要がある。 データの非線形性を考慮した大規模アプリケーションには本質的に解釈可能な半パラメトリック回帰手法が存在するが、そのモデルの複雑さは制限されていることが多い。 主な制限の1つはこれらのモデルにおける相互作用の欠如であり、それらはより良い解釈可能性のためではなく、維持不可能な計算コストのために含まれている。 この欠点に対処するために、因子化アプローチを用いてスケーラブルな高階テンソル製品スプラインモデルを導出する。 本手法は非線形特徴効果のすべての(高次)相互作用を含ませつつ、相互作用のないモデルに比例する計算コストを持つことができる。 我々は,本手法が既存手法よりも顕著にスケールし,有意義な罰則を導出し,さらに理論的側面を議論することを証明する。 合成データと実データの両方を用いて予測および推定性能について検討する。

In the age of big data and interpretable machine learning, approaches need to work at scale and at the same time allow for a clear mathematical understanding of the method's inner workings. While there exist inherently interpretable semi-parametric regression techniques for large-scale applications to account for non-linearity in the data, their model complexity is still often restricted. One of the main limitations are missing interactions in these models, which are not included for the sake of better interpretability, but also due to untenable computational costs. To address this shortcoming, we derive a scalable high-order tensor product spline model using a factorization approach. Our method allows to include all (higher-order) interactions of non-linear feature effects while having computational costs proportional to a model without interactions. We prove both theoretically and empirically that our methods scales notably better than existing approaches, derive meaningful penalization schemes and also discuss further theoretical aspects. We finally investigate predictive and estimation performance both with synthetic and real data.
翻訳日:2022-06-04 17:59:21 公開日:2022-05-28
# (参考訳) シミュレーションにおける高忠実度nlte不透明度再現法としての転送学習

Transfer Learning as a Method to Reproduce High-Fidelity NLTE Opacities in Simulations ( http://arxiv.org/abs/2205.14520v1 )

ライセンス: CC BY 4.0
Michael D. Vander Wal and Ryan G. McClarren and Kelli D. Humbird(参考訳) 高エネルギー密度物理のシミュレーションは、しばしば非局所熱力学平衡(NLTE)不純物データを必要とする。 しかし、このデータは比較的低い忠実度で生産するには高価である。 さらに高忠実度では不透明度計算が全体の計算時間の95%に寄与する。 この比率は大きな割合に達することもある。 ニューラルネットワークは、低忠実度データの標準的な計算を置き換えるために使用することができ、ニューラルネットワークは人工的な高忠実度スペクトルを再現するためにトレーニングすることができる。 本研究では,転送学習による高忠実度クリプトンスペクトルの再現を訓練した新しいニューラルネットワークアーキテクチャをシミュレーションに利用できることを示す。 さらに、ホロラウムのピーク放射温度を19.4倍の速さで約1~4倍の相対%誤差を達成しつつ、これを達成できることが示されている。

Simulations of high-energy density physics often need non-local thermodynamic equilibrium (NLTE) opacity data. This data, however, is expensive to produce at relatively low-fidelity. It is even more so at high-fidelity such that the opacity calculations can contribute ninety-five percent of the total computation time. This proportion can even reach large proportions. Neural networks can be used to replace the standard calculations of low-fidelity data, and the neural networks can be trained to reproduce artificial, high-fidelity opacity spectra. In this work, it is demonstrated that a novel neural network architecture trained to reproduce high-fidelity krypton spectra through transfer learning can be used in simulations. Further, it is demonstrated that this can be done while achieving a relative percent error of the peak radiative temperature of the hohlraum of approximately 1\% to 4\% while achieving a 19.4x speed up.
翻訳日:2022-06-04 17:57:59 公開日:2022-05-28
# (参考訳) supmae:supervised masked autoencoderは効率的な視覚学習者

SupMAE: Supervised Masked Autoencoders Are Efficient Vision Learners ( http://arxiv.org/abs/2205.14540v1 )

ライセンス: CC BY 4.0
Feng Liang, Yangguang Li, Diana Marculescu(参考訳) 自己教師付きマスク付きオートエンコーダ(mae)が,コンピュータビジョンの新しい事前学習パラダイムとして登場している。 MAEは、ローカルパッチの再構築を通じて暗黙的にセマンティクスを学習する。 本論文は,MAEフレームワークに明示的な監督,すなわちゴールデンラベルを組み込んだものである。 提案する教師付きmae (supmae) は,すべての画像パッチが使用される標準教師付き事前トレーニングとは異なり,画像パッチの可視部分のみを分類に利用する。 SupMAEは効率が良く、ViT-B/16モデルでImageNetで評価した場合、30%の計算しか使用しない。 提案する成分を検証するため, 詳細なアブレーション研究を行った。

Self-supervised Masked Autoencoders (MAE) are emerging as a new pre-training paradigm in computer vision. MAE learns semantics implicitly via reconstructing local patches, requiring thousands of pre-training epochs to achieve favorable performance. This paper incorporates explicit supervision, i.e., golden labels, into the MAE framework. The proposed Supervised MAE (SupMAE) only exploits a visible subset of image patches for classification, unlike the standard supervised pre-training where all image patches are used. SupMAE is efficient and can achieve comparable performance with MAE using only 30% compute when evaluated on ImageNet with the ViT-B/16 model. Detailed ablation studies are conducted to verify the proposed components.
翻訳日:2022-06-04 17:49:14 公開日:2022-05-28
# (参考訳) スパイキングニューロンネットワークのための時間支援ベクター

Temporal support vectors for spiking neuronal networks ( http://arxiv.org/abs/2205.14544v1 )

ライセンス: CC BY 4.0
Ran Rubin and Haim Sompolinsky(参考訳) ニューラルネットワークがタスクを実行することを学習する場合、多くの場合、タスクと整合した多くのシナプス接続が存在する。 しかし、少数の可能なソリューションだけが入力のノイズに頑健であり、タスクのパフォーマンスを新しい入力に一般化することができる。 このような優れた解を見つけることは、一般および神経回路における学習システムの重要な目標である。 静的入力と出力で動作するシステムでは、問題に対するよく知られたアプローチは、サポートベクターマシン(svm)のような大きなマージンメソッドである。 決定面からデータベクトルの距離を最大化することで、これらの解は雑音に対する頑健性を高め、一般化能力を高めることができる。 さらに、カーネル法を用いることで、SVMは非線形決定曲面を必要とする分類タスクを実行できる。 しかしながら、スパイクニューラルネットワークやその他の連続時間しきい値交差システムのようなイベントベースの出力を持つ力学系では、この最適性基準は入力と出力の強い時間相関のために適用できない。 本稿では,静的SVM - The Temporal Support Vector Machine (T-SVM) の新たな拡張について紹介する。 T-SVMは、新しい構造である動的マージンを最大化するソリューションを見つける。 我々はT-SVMとそのカーネル拡張がスパイキングニューロンの堅牢なシナプス重みベクトルを生成し、シナプス入力の非線形空間積分を必要とするタスクの学習を可能にすることを示す。 非線形核を持つt-svmを,神経樹の非線形性と広範な形態の計算的役割の新しいモデルとして提案する。

When neural circuits learn to perform a task, it is often the case that there are many sets of synaptic connections that are consistent with the task. However, only a small number of possible solutions are robust to noise in the input and are capable of generalizing their performance of the task to new inputs. Finding such good solutions is an important goal of learning systems in general and neuronal circuits in particular. For systems operating with static inputs and outputs, a well known approach to the problem is the large margin methods such as Support Vector Machines (SVM). By maximizing the distance of the data vectors from the decision surface, these solutions enjoy increased robustness to noise and enhanced generalization abilities. Furthermore, the use of the kernel method enables SVMs to perform classification tasks that require nonlinear decision surfaces. However, for dynamical systems with event based outputs, such as spiking neural networks and other continuous time threshold crossing systems, this optimality criterion is inapplicable due to the strong temporal correlations in their input and output. We introduce a novel extension of the static SVMs - The Temporal Support Vector Machine (T-SVM). The T-SVM finds a solution that maximizes a new construct - the dynamical margin. We show that T-SVM and its kernel extensions generate robust synaptic weight vectors in spiking neurons and enable their learning of tasks that require nonlinear spatial integration of synaptic inputs. We propose T-SVM with nonlinear kernels as a new model of the computational role of the nonlinearities and extensive morphologies of neuronal dendritic trees.
翻訳日:2022-06-04 17:39:49 公開日:2022-05-28
# FaIRCoP:コントラストパーソナライゼーションを用いた顔画像検索

FaIRCoP: Facial Image Retrieval using Contrastive Personalization ( http://arxiv.org/abs/2205.15870v1 )

ライセンス: Link先を確認
Devansh Gupta, Aditya Saini, Drishti Bhasin, Sarthak Bhagat, Shagun Uppal, Rishi Raj Jain, Ponnurangam Kumaraguru, Rajiv Ratn Shah(参考訳) 属性から顔画像を取得することは、顔認識や被疑者識別などの様々なシステムにおいて重要な役割を果たす。 他の画像検索タスクと比較して、顔の特徴を記述することに関わる主観性が高いため、顔画像検索はより困難である。 既存の手法では,提案した画像とユーザのメンタルイメージの特徴を,自然言語などの高レベルな監督によって比較する。 対照的に,提案手法では,ユーザのフィードバックを利用して対象画像に類似あるいは類似したラベルを付けることにより,比較的単純なバイナリ管理手法を提案する。 このような監督により、各ユーザの類似性に関するパーソナライズされた概念をカプセル化するために、コントラスト学習パラダイムを活用できる。 そこで本研究では,ユーザのフィードバックによって最適化された新しい損失関数を提案する。 提案手法の有効性を,ユーザフィードバックと大規模ユーザスタディをシミュレートするために,慎重に設計したテストベッドを用いて検証する。 実験により,本手法はパーソナライズを反復的に改善し,コンバージェンスを高速化し,レコメンデーション関連性を向上し,ユーザ満足度を向上することを示した。 提案フレームワークは,顔画像検索をリアルタイムに行うユーザフレンドリーなWebインターフェースも備えている。

Retrieving facial images from attributes plays a vital role in various systems such as face recognition and suspect identification. Compared to other image retrieval tasks, facial image retrieval is more challenging due to the high subjectivity involved in describing a person's facial features. Existing methods do so by comparing specific characteristics from the user's mental image against the suggested images via high-level supervision such as using natural language. In contrast, we propose a method that uses a relatively simpler form of binary supervision by utilizing the user's feedback to label images as either similar or dissimilar to the target image. Such supervision enables us to exploit the contrastive learning paradigm for encapsulating each user's personalized notion of similarity. For this, we propose a novel loss function optimized online via user feedback. We validate the efficacy of our proposed approach using a carefully designed testbed to simulate user feedback and a large-scale user study. Our experiments demonstrate that our method iteratively improves personalization, leading to faster convergence and enhanced recommendation relevance, thereby, improving user satisfaction. Our proposed framework is also equipped with a user-friendly web interface with a real-time experience for facial image retrieval.
翻訳日:2022-06-01 12:27:30 公開日:2022-05-28
# テンソル畳み込みニューラルネットワークのための統一重み初期化パラダイム

A Unified Weight Initialization Paradigm for Tensorial Convolutional Neural Networks ( http://arxiv.org/abs/2205.15307v1 )

ライセンス: Link先を確認
Yu Pan, Zeyong Su, Ao Liu, Jingquan Wang, Nannan Li, Zenglin Xu(参考訳) Tensorial Convolutional Neural Networks (TCNN) はモデルパラメータの削減や一般化能力の向上に力を入れている。 しかし、TCNNの探索は重量初期化法でも妨げられる。 具体的に言うと、xavier や kaiming initialization のような一般的な初期化法は、通常は tcnn の適切な重み付けを生成しない。 一方、特定のアーキテクチャ(例えばテンソル環ネット)にはアドホックなアプローチがあるが、他のテンソル分解法(例えばcpやタッカー分解)とともにtcnnには適用できない。 そこで本稿では,xavier法とカイミング法を一般化し,任意のtcnnに適用可能な普遍的重み初期化パラダイムを提案する。 具体的には,tcnnの逆行プロセスを等価な畳み込みプロセスに変換するために,まず再生変換を行う。 そして,前処理と後処理の畳み込み演算子に基づいて,TCNNにおける特徴と勾配の分散を制御できる統一パラダイムを構築した。 したがって,様々なTCNNに対して,ファンインとファンアウトの初期化を導出することができる。 我々のパラダイムはTCNNのトレーニングを安定させ、より高速な収束とより良い結果をもたらすことを実証する。

Tensorial Convolutional Neural Networks (TCNNs) have attracted much research attention for their power in reducing model parameters or enhancing the generalization ability. However, exploration of TCNNs is hindered even from weight initialization methods. To be specific, general initialization methods, such as Xavier or Kaiming initialization, usually fail to generate appropriate weights for TCNNs. Meanwhile, although there are ad-hoc approaches for specific architectures (e.g., Tensor Ring Nets), they are not applicable to TCNNs with other tensor decomposition methods (e.g., CP or Tucker decomposition). To address this problem, we propose a universal weight initialization paradigm, which generalizes Xavier and Kaiming methods and can be widely applicable to arbitrary TCNNs. Specifically, we first present the Reproducing Transformation to convert the backward process in TCNNs to an equivalent convolution process. Then, based on the convolution operators in the forward and backward processes, we build a unified paradigm to control the variance of features and gradients in TCNNs. Thus, we can derive fan-in and fan-out initialization for various TCNNs. We demonstrate that our paradigm can stabilize the training of TCNNs, leading to faster convergence and better results.
翻訳日:2022-06-01 12:24:36 公開日:2022-05-28
# 微分的プライベート共分散再訪

Differentially Private Covariance Revisited ( http://arxiv.org/abs/2205.14324v1 )

ライセンス: Link先を確認
Wei Dong, Yuting Liang, Ke Yi(参考訳) 本稿では, 微分プライバシー下での共分散推定のために, フロベニウスノルムの観点から, (1) 標準ガウス機構である$\tilde{o}(d/n)$ を改良する$\tilde{o}(d^{1/4}/\sqrt{n})$ という最悪のケースバウンド, (2) 値が$\sqrt{d}$-factor でアートの状態を改善するようなトレースに敏感なバウンド, (3) よりインスタンス固有の結果を与えるテール感性バウンドの3つの新しい誤差境界を提案する。 対応するアルゴリズムは単純で効率的である。 実験の結果,先行作業よりも大幅な改善が得られた。

In this paper, we present three new error bounds, in terms of the Frobenius norm, for covariance estimation under differential privacy: (1) a worst-case bound of $\tilde{O}(d^{1/4}/\sqrt{n})$, which improves the standard Gaussian mechanism $\tilde{O}(d/n)$ for the regime $d>\widetilde{\Omega}(n^{2/3})$; (2) a trace-sensitive bound that improves the state of the art by a $\sqrt{d}$-factor, and (3) a tail-sensitive bound that gives a more instance-specific result. The corresponding algorithms are also simple and efficient. Experimental results show that they offer significant improvements over prior work.
翻訳日:2022-05-31 18:41:53 公開日:2022-05-28
# ニューラルコードインテリジェンスモデル理解のための構文誘導型プログラムリダクション

Syntax-Guided Program Reduction for Understanding Neural Code Intelligence Models ( http://arxiv.org/abs/2205.14374v1 )

ライセンス: Link先を確認
Md Rafiqul Islam Rabin, Aftab Hussain, Mohammad Amin Alipour(参考訳) neural code intelligence (ci)モデルは不透明なブラックボックスであり、予測に使用する機能についてはほとんど情報を提供していない。 この不透明さは、彼らの予測に不信をもたらし、安全クリティカルなアプリケーションで広く採用されるのを妨げる可能性がある。 近年,CIモデルの透明性向上のために,入力プログラムの主要な特徴を特定するための入力プログラム削減手法が提案されている。 しかし、このアプローチは構文を意識せず、プログラミング言語の文法を考慮しない。 本稿では,入力プログラムの文法を考慮した構文誘導型プログラム削減手法を提案する。 入力プログラムの種類によって異なる複数のモデルに対する実験により,構文誘導型プログラム削減手法がより高速であり,縮小プログラムにおいてキートークンのセットがより小さいことを示す。 また,鍵トークンは,最大65%の入力プログラムに対して,逆の例を生成するのに使用できることを示した。

Neural code intelligence (CI) models are opaque black-boxes and offer little insight on the features they use in making predictions. This opacity may lead to distrust in their prediction and hamper their wider adoption in safety-critical applications. Recently, input program reduction techniques have been proposed to identify key features in the input programs to improve the transparency of CI models. However, this approach is syntax-unaware and does not consider the grammar of the programming language. In this paper, we apply a syntax-guided program reduction technique that considers the grammar of the input programs during reduction. Our experiments on multiple models across different types of input programs show that the syntax-guided program reduction technique is faster and provides smaller sets of key tokens in reduced programs. We also show that the key tokens could be used in generating adversarial examples for up to 65% of the input programs.
翻訳日:2022-05-31 18:41:31 公開日:2022-05-28
# 次元の呪いのないニューラルネットワークによる関数の近似

Approximation of Functionals by Neural Network without Curse of Dimensionality ( http://arxiv.org/abs/2205.14421v1 )

ライセンス: Link先を確認
Yahong Yang and Yang Xiang(参考訳) 本稿では,無限次元空間から有限次元空間への写像である近似関数へのニューラルネットワークを確立する。 ニューラルネットワークの近似誤差は$o(1/\sqrt{m})$であり、ここで$m$はネットワークのサイズであり、次元の呪いを克服する。 近似の鍵となるアイデアは、函数のバロン空間を定義することである。

In this paper, we establish a neural network to approximate functionals, which are maps from infinite dimensional spaces to finite dimensional spaces. The approximation error of the neural network is $O(1/\sqrt{m})$ where $m$ is the size of networks, which overcomes the curse of dimensionality. The key idea of the approximation is to define a Barron space of functionals.
翻訳日:2022-05-31 18:41:15 公開日:2022-05-28
# 分散saddle point問題に対する圧縮通信を用いた確率的勾配法

Stochastic Gradient Methods with Compressed Communication for Decentralized Saddle Point Problems ( http://arxiv.org/abs/2205.14452v1 )

ライセンス: Link先を確認
Chhavi Sharma, Vishnu Narayanan, P. Balamurugan(参考訳) 本稿では,分散化環境でのサドル点問題のクラスを(中央サーバなしで)解くための2つの確率勾配アルゴリズムを提案する。 提案アルゴリズムは, 圧縮情報交換を用いた確率勾配/確率分散縮小勾配オークルを用いて, 線形・線形・通信の計算・通信複雑性を初めて達成し, 分散環境での非平滑な強凸サドル点問題の解法である。 最初のアルゴリズムは、一般的な確率的設定のための圧縮(C-RDPSG)を用いたRestartベースの分散確率勾配法である。 We provide rigorous theoretical guarantees of C-RDPSG with gradient computation complexity and communication complexity of order $\mathcal{O}( (1+\delta)^4 \frac{1}{L^2}{\kappa_f^2}\kappa_g^2 \frac{1}{\epsilon} )$, to achieve an $\epsilon$-accurate saddle-point solution, where $\delta$ denotes the compression factor, $\kappa_f$ and $\kappa_g$ denote respectively the condition numbers of objective function and communication graph, and $L$ denotes the smoothness parameter of the smooth part of the objective function. 次に、次数$\mathcal{O}((1+\delta)\kappa_f^2 \kappa_g \log(\frac{1}{\epsilon})$の勾配計算複雑性と通信複雑性を示す有限和設定に対して、圧縮(C-DPSVRG)を用いた分散確率確率分散勾配アルゴリズムを提案する。 大規模な数値実験により,提案アルゴリズムの競合性能が示され,理論結果への支持が得られた。

We propose two stochastic gradient algorithms to solve a class of saddle-point problems in a decentralized setting (without a central server). The proposed algorithms are the first to achieve sub-linear/linear computation and communication complexities using respectively stochastic gradient/stochastic variance reduced gradient oracles with compressed information exchange to solve non-smooth strongly-convex strongly-concave saddle-point problems in decentralized setting. Our first algorithm is a Restart-based Decentralized Proximal Stochastic Gradient method with Compression (C-RDPSG) for general stochastic settings. We provide rigorous theoretical guarantees of C-RDPSG with gradient computation complexity and communication complexity of order $\mathcal{O}( (1+\delta)^4 \frac{1}{L^2}{\kappa_f^2}\kappa_g^2 \frac{1}{\epsilon} )$, to achieve an $\epsilon$-accurate saddle-point solution, where $\delta$ denotes the compression factor, $\kappa_f$ and $\kappa_g$ denote respectively the condition numbers of objective function and communication graph, and $L$ denotes the smoothness parameter of the smooth part of the objective function. Next, we present a Decentralized Proximal Stochastic Variance Reduced Gradient algorithm with Compression (C-DPSVRG) for finite sum setting which exhibits gradient computation complexity and communication complexity of order $\mathcal{O}((1+\delta)\kappa_f^2 \kappa_g \log(\frac{1}{\epsilon}))$. Extensive numerical experiments show competitive performance of the proposed algorithms and provide support to the theoretical results obtained.
翻訳日:2022-05-31 18:41:08 公開日:2022-05-28
# Happenstance: セマンティック検索を利用して、Reddit上のロシア・ウクライナ戦争に関するロシア国営メディアのナラティブを追跡

Happenstance: Utilizing Semantic Search to Track Russian State Media Narratives about the Russo-Ukrainian War On Reddit ( http://arxiv.org/abs/2205.14484v1 )

ライセンス: Link先を確認
Hans W. A. Hanley, Deepak Kumar, Zakir Durumeric(参考訳) ロシア連邦がウクライナに侵攻してから数週間の間に、ロシアは誤った情報や完全に偽の情報を流した情報を発信している。 本研究では,ロシア政府から英語話者への最も顕著な偽情報物語を理解するために,協調情報キャンペーンについて検討する。 そこで我々はまず,9つの異なるロシアの偽情報サイトと,新しいロシアの「ファクトチェック」ウェブサイト waronfakes.com が発行する記事に対して,大文字モデルMPNetを用いて文レベルの話題分析を行う。 katehon.comのような小さなウェブサイトは、後に他の偽情報サイトから反響を受けたトピックを生成するのに非常に効果的であった。 ロシアの情報ナラティブを分析した結果、r/russiaと他の10の政治サブredditに関するナラティブと議論のトピックとの対応を分析した。 MPNetとセマンティックサーチアルゴリズムを用いて、これらのサブレディットのコメントを、我々の偽情報Webサイトから抽出したトピックの集合にマッピングし、r/ロシアコメントの39.6%がロシアの偽情報Webサイトの物語に対応していることがわかった。

In the buildup to and in the weeks following the Russian Federation's invasion of Ukraine, Russian disinformation outlets output torrents of misleading and outright false information. In this work, we study the coordinated information campaign to understand the most prominent disinformation narratives touted by the Russian government to English-speaking audiences. To do this, we first perform sentence-level topic analysis using the large-language model MPNet on articles published by nine different Russian disinformation websites and the new Russian "fact-checking" website waronfakes.com. We show that smaller websites like katehon.com were highly effective at producing topics that were later echoed by other disinformation sites. After analyzing the set of Russian information narratives, we analyze their correspondence with narratives and topics of discussion on the r/Russia and 10 other political subreddits. Using MPNet and a semantic search algorithm, we map these subreddits' comments to the set of topics extracted from our set of disinformation websites, finding that 39.6% of r/Russia comments corresponded to narratives from Russian disinformation websites, compared to 8.86% on r/politics.
翻訳日:2022-05-31 18:40:35 公開日:2022-05-28
# CDFの機能的線形回帰

Functional Linear Regression of CDFs ( http://arxiv.org/abs/2205.14545v1 )

ライセンス: Link先を確認
Qian Zhang, Anuran Makur, and Kamyar Azizzadenesheli(参考訳) 累積分布関数(CDF)の推定は、予測や意思決定におけるリスク評価など、多くの下流アプリケーションにおいて重要な学習課題である。 文脈依存型CDFの線形結合から各データ点をサンプリングする文脈依存CDFの機能回帰について検討した。 本稿では,CDFを至る所で正確に推定する推定手法を提案する。 特に、$d$ のベースを持つ$n$ サンプルを与えられた場合、固定設計、ランダム設計、逆のコンテキストケースに対して$\widetilde o(\sqrt{d/n})$ の上限推定誤差を示す。 また、マッチング情報理論の下界を導出し、CDF機能回帰の最小最適性を確立する。 本研究では,データ生成プロセスにミスマッチがあるような不可知な設定について検討する。 提案する推定器の誤差をミスマッチ誤差の観点で特徴付け,モデルミスマッチの下で推定器が適切に処理されていることを示す。

The estimation of cumulative distribution functions (CDF) is an important learning task with a great variety of downstream applications, e.g., risk assessments in predictions and decision making. We study functional regression of contextual CDFs where each data point is sampled from a linear combination of context dependent CDF bases. We propose estimation methods that estimate CDFs accurately everywhere. In particular, given $n$ samples with $d$ bases, we show estimation error upper bounds of $\widetilde O(\sqrt{d/n})$ for fixed design, random design, and adversarial context cases. We also derive matching information theoretic lower bounds, establishing minimax optimality for CDF functional regression. To complete our study, we consider agnostic settings where there is a mismatch in the data generation process. We characterize the error of the proposed estimator in terms of the mismatched error, and show that the estimator is well-behaved under model mismatch.
翻訳日:2022-05-31 18:39:06 公開日:2022-05-28
# 深層学習によるサブタスク分類に基づくロボットによる協調掘削のための適応型アドミタンス制御

An adaptive admittance controller for collaborative drilling with a robot based on subtask classification via deep learning ( http://arxiv.org/abs/2205.14457v1 )

ライセンス: Link先を確認
Pouya P. Niaz, Berk Guler, Alireza Madani, Yusuf Aydin, Cagatay Basdogan(参考訳) 本稿では,人工ニューラルネットワーク(ann)モデルに基づく教師付き学習手法を提案し,硬い環境との接触を伴う人間-ロボット間インタラクション(phri)タスクにおけるサブタスクのリアルタイム分類を行う。 ここでは,pHRIタスクのサブタスクとして,アイドル,ドライビング,コンタクトの3つを考える。 この分類に基づいて、人間とロボットの相互作用を調節するアクセタンスコントローラのパラメータをリアルタイムで調整し、運転段階においてロボットが操作者に対してより透明になり(すなわち抵抗が小さく)、接触段階においてより安定したものにする。 アイドルフェーズは主にタスクの開始を検出するために使用される。 実験の結果、annモデルは12人の被験者に対して98%の精度で異なるアドミタンス制御条件下でサブタスクを検出できることが示されている。 最後に,提案するサブタスク分類器に基づくアドミタンス適応により,駆動相での人間の労力(すなわち高い透明性)が20%低減し,接触相での掘削時の振動振幅(すなわち高い安定性)が25%低下することを示した。

In this paper, we propose a supervised learning approach based on an Artificial Neural Network (ANN) model for real-time classification of subtasks in a physical human-robot interaction (pHRI) task involving contact with a stiff environment. In this regard, we consider three subtasks for a given pHRI task: Idle, Driving, and Contact. Based on this classification, the parameters of an admittance controller that regulates the interaction between human and robot are adjusted adaptively in real time to make the robot more transparent to the operator (i.e. less resistant) during the Driving phase and more stable during the Contact phase. The Idle phase is primarily used to detect the initiation of task. Experimental results have shown that the ANN model can learn to detect the subtasks under different admittance controller conditions with an accuracy of 98% for 12 participants. Finally, we show that the admittance adaptation based on the proposed subtask classifier leads to 20% lower human effort (i.e. higher transparency) in the Driving phase and 25% lower oscillation amplitude (i.e. higher stability) during drilling in the Contact phase compared to an admittance controller with fixed parameters.
翻訳日:2022-05-31 17:59:57 公開日:2022-05-28
# マルチスセナリオとマルチタスク探索のためのエキスパート自動選択

Automatic Expert Selection for Multi-Scenario and Multi-Task Search ( http://arxiv.org/abs/2205.14321v1 )

ライセンス: Link先を確認
Xinyu Zou, Zhi Hu, Yiming Zhao, Xuchu Ding, Zhongyi Liu, Chenliang Li, Aixin Sun(参考訳) マルチシナリオ学習(MSL)は、サービスのプロバイダがユーザの地理的領域によって異なるユーザセクターのサービスを分離することで、ユーザの細かな要求に対処することを可能にする。 各シナリオでは、MTL(Multi-task Learning)として知られるレートと変換レートをクリックして、複数のタスク固有のターゲットを最適化する必要がある。 MSL と MTL の最近のソリューションは、主にMMOE (Multi-gate Mixed-of-experts) アーキテクチャに基づいている。 MMoEの構造は通常静的であり、その設計にはドメイン固有の知識が必要であり、MSLとMLLの両方を扱うのがより効果的である。 本稿では,AESM^{2} という名前のマルチシナリオとマルチタスク検索のための新しい自動エキスパート選択フレームワークを提案する。 AESM^{2}はMSLとMLLの両方を統合フレームワークに統合し、自動構造学習を行う。 具体的には、AESM^{2}はマルチシナリオ層にマルチタスク層を積み重ねる。 この階層設計により、異なるシナリオ間の固有の接続を柔軟に確立できると同時に、異なるタスクに対する高レベルの特徴抽出もサポートします。 各マルチシナリオ/マルチタスク層において、各入力に対してシナリオ/タスク固有の共有専門家を自動的に識別する新しい専門家選択アルゴリズムが提案されている。 2つの実世界の大規模データセットに対する実験は、強いベースラインのバッテリー上でのAESM^{2}の有効性を示す。 オンラインA/Bテストでは、複数のメトリクスで大幅にパフォーマンスが向上する。 現在、AESM^{2}は主要なトラフィックを提供するためにオンラインでデプロイされている。

Multi-scenario learning (MSL) enables a service provider to cater for users' fine-grained demands by separating services for different user sectors, e.g., by user's geographical region. Under each scenario there is a need to optimize multiple task-specific targets e.g., click through rate and conversion rate, known as multi-task learning (MTL). Recent solutions for MSL and MTL are mostly based on the multi-gate mixture-of-experts (MMoE) architecture. MMoE structure is typically static and its design requires domain-specific knowledge, making it less effective in handling both MSL and MTL. In this paper, we propose a novel Automatic Expert Selection framework for Multi-scenario and Multi-task search, named AESM^{2}. AESM^{2} integrates both MSL and MTL into a unified framework with an automatic structure learning. Specifically, AESM^{2} stacks multi-task layers over multi-scenario layers. This hierarchical design enables us to flexibly establish intrinsic connections between different scenarios, and at the same time also supports high-level feature extraction for different tasks. At each multi-scenario/multi-task layer, a novel expert selection algorithm is proposed to automatically identify scenario-/task-specific and shared experts for each input. Experiments over two real-world large-scale datasets demonstrate the effectiveness of AESM^{2} over a battery of strong baselines. Online A/B test also shows substantial performance gain on multiple metrics. Currently, AESM^{2} has been deployed online for serving major traffic.
翻訳日:2022-05-31 17:50:53 公開日:2022-05-28
# Laplace hypoPINN:低中心局所化のための物理インフォームドニューラルネットワークとその予測不確実性

Laplace HypoPINN: Physics-Informed Neural Network for hypocenter localization and its predictive uncertainty ( http://arxiv.org/abs/2205.14439v1 )

ライセンス: Link先を確認
Muhammad Izzatullah, Isa Eren Yildirim, Umair Bin Waheed, Tariq Alkhalifah(参考訳) 数年にわたり、自動低中心位置決めのためのいくつかの技術が提案されている。 これらの手法には, 局所最小値に閉じ込められるようなトレードオフ計算効率と受容性があるが, 頑健なローカライゼーション性能を実現し, リアルタイムマイクロサイスミックモニタリングの明確な目標を達成できる可能性を秘めている別のアプローチが必要である。 物理インフォームドニューラルネットワーク(PINN)は、関連する初期条件や境界条件とともに偏微分方程式(PDE)を解くフレキシブルで汎用的なフレームワークとして現場に現れた。 我々は,低心局在のためのpinnベースのインバージョンフレームワークであるhypopinnを開発し,その予測の不確かさを推定するための近似ベイズフレームワークを提案する。 本研究は、HypoPINNを用いた低中心位置の予測と、Laplace近似を用いて、HypoPINNの重みとバイアスのランダムな実現から不確かさの伝播を研究することに焦点を当てる。 位置予測に最適化された重み付けを得るために,我々はhypopinnを訓練する。 次に,ラプラス近似を用いて後方サンプリングを行うために最適化されたhyppinnの重みの共分散行列を近似する。 後部サンプルは、HypoPINNの重量の様々な実現を示している。 最後に、これらの重みの実現に伴う中心の位置を予測し、それらの実現から生じる不確実性伝播について検討する。 オーストラリアにおけるOtwayプロジェクトに基づくOtway速度モデルの利用など,いくつかの数値例を通して,本手法の特徴を実証する。

Several techniques have been proposed over the years for automatic hypocenter localization. While those techniques have pros and cons that trade-off computational efficiency and the susceptibility of getting trapped in local minima, an alternate approach is needed that allows robust localization performance and holds the potential to make the elusive goal of real-time microseismic monitoring possible. Physics-informed neural networks (PINNs) have appeared on the scene as a flexible and versatile framework for solving partial differential equations (PDEs) along with the associated initial or boundary conditions. We develop HypoPINN -- a PINN-based inversion framework for hypocenter localization and introduce an approximate Bayesian framework for estimating its predictive uncertainties. This work focuses on predicting the hypocenter locations using HypoPINN and investigates the propagation of uncertainties from the random realizations of HypoPINN's weights and biases using the Laplace approximation. We train HypoPINN to obtain the optimized weights for predicting hypocenter location. Next, we approximate the covariance matrix at the optimized HypoPINN's weights for posterior sampling with the Laplace approximation. The posterior samples represent various realizations of HypoPINN's weights. Finally, we predict the locations of the hypocenter associated with those weights' realizations to investigate the uncertainty propagation that comes from those realisations. We demonstrate the features of this methodology through several numerical examples, including using the Otway velocity model based on the Otway project in Australia.
翻訳日:2022-05-31 17:50:30 公開日:2022-05-28
# Espresso: システムの観点からのグラディエント圧縮の再考

Espresso: Revisiting Gradient Compression from the System Perspective ( http://arxiv.org/abs/2205.14465v1 )

ライセンス: Link先を確認
Zhuang Wang, Haibin Lin, Yibo Zhu, T. S. Eugene Ng(参考訳) 分散ディープラーニング(DDL)における通信ボトルネックに対処するための,GC(Gradient compression)は有望なアプローチである。 しかし、テンソル間の複雑な相互作用のため、DDLにGCを適用するための最適圧縮戦略を見つけることは困難である。 GCの利点を完全に解き放つには、2つの疑問に対処する必要がある。 1)DDL訓練業務のテンソル間の全ての圧縮戦略と対応する相互作用をどう表現するか。 2)準最適圧縮戦略を迅速に選択する方法 本稿では,これらの質問に答えるためにエスプレッソを提案する。 まず、すべての圧縮戦略を表現する決定木抽象化を設計し、時間軸テンソル計算、通信、および圧縮のための経験モデルを開発し、テンソル間の複雑な相互作用をespressoが導出できるようにする。 次に、テンソル相互作用を分析して戦略を排除し優先順位付けし、cpuへの圧縮を最適にオフロードする圧縮決定アルゴリズムを設計する。 実験評価の結果,espresso は ddl のトレーニングジョブに対して最大 77% のトレーニングスループット向上が期待できることがわかった。 さらに、圧縮戦略を選択するのに必要な計算時間はミリ秒単位で測定され、選択した戦略は最適からわずか数パーセントである。

Gradient compression (GC) is a promising approach to addressing the communication bottleneck in distributed deep learning (DDL). However, it is challenging to find the optimal compression strategy for applying GC to DDL because of the intricate interactions among tensors. To fully unleash the benefits of GC, two questions must be addressed: 1) How to express all compression strategies and the corresponding interactions among tensors of any DDL training job? 2) How to quickly select a near-optimal compression strategy? In this paper, we propose Espresso to answer these questions. It first designs a decision tree abstraction to express all the compression strategies and develops empirical models to timeline tensor computation, communication, and compression to enable Espresso to derive the intricate interactions among tensors. It then designs a compression decision algorithm that analyzes tensor interactions to eliminate and prioritize strategies and optimally offloads compression to CPUs. Experimental evaluations show that Espresso can improve the training throughput over the start-of-the-art compression-enabled system by up to 77% for representative DDL training jobs. Moreover, the computational time needed to select the compression strategy is measured in milliseconds, and the selected strategy is only a few percent from optimal.
翻訳日:2022-05-31 17:50:05 公開日:2022-05-28
# TFLEX: 時間的知識グラフを用いた複雑な推論のための時間的特徴論理埋め込みフレームワーク

TFLEX: Temporal Feature-Logic Embedding Framework for Complex Reasoning over Temporal Knowledge Graph ( http://arxiv.org/abs/2205.14307v1 )

ライセンス: Link先を確認
Xueyuan Lin, Chengjin Xu, Haihong E, Fenglong Su, Gengxian Zhou, Tianyi Hu, Ningyuan Li, Mingzhi Sun, Haoran Luo(参考訳) 知識グラフ(KG)に対するマルチホップ論理推論は、多くの人工知能タスクにおいて基本的な役割を果たす。 静的なKGを推論するための最近の複雑なクエリ埋め込み(CQE)手法は、時間的知識グラフ(TKG)が完全には研究されていない。 TKGに対する推論には2つの課題がある。 1. クエリはエンティティやタイムスタンプに答えるべきです。 2. 演算子は、エンティティセット上のセットロジックとタイムスタンプセット上の時間ロジックの両方を考慮するべきである。 このギャップを埋めるために、TKGのマルチホップ論理的推論問題を定義する。 生成した3つのデータセットから,時間的複雑なクエリに対応するための時間的特徴論理埋め込みフレームワークTFLEXを提案する。 ベクトル論理を用いて時間的特徴論理埋め込みの論理部分を計算し、エンティティセット上の一階論理(FOL)の全ての操作を自然にモデル化する。 さらに,タイムスタンプセット上のベクトル論理を拡張し,(後,前,間)3つの余分な時間演算子に対応する。 多数のクエリパターンの実験により,本手法の有効性が示された。

Multi-hop logical reasoning over knowledge graph (KG) plays a fundamental role in many artificial intelligence tasks. Recent complex query embedding (CQE) methods for reasoning focus on static KGs, while temporal knowledge graphs (TKGs) have not been fully explored. Reasoning over TKGs has two challenges: 1. The query should answer entities or timestamps; 2. The operators should consider both set logic on entity set and temporal logic on timestamp set. To bridge this gap, we define the multi-hop logical reasoning problem on TKGs. With generated three datasets, we propose the first temporal CQE named Temporal Feature-Logic Embedding framework (TFLEX) to answer the temporal complex queries. We utilize vector logic to compute the logic part of Temporal Feature-Logic embeddings, thus naturally modeling all First-Order Logic (FOL) operations on entity set. In addition, our framework extends vector logic on timestamp set to cope with three extra temporal operators (After, Before and Between). Experiments on numerous query patterns demonstrate the effectiveness of our method.
翻訳日:2022-05-31 16:56:56 公開日:2022-05-28
# 道路信号認識のためのスパイクニューラルネットワークによる効果的なフェデレーション学習

Efficient Federated Learning with Spike Neural Networks for Traffic Sign Recognition ( http://arxiv.org/abs/2205.14315v1 )

ライセンス: Link先を確認
Kan Xie, Zhe Zhang, Bo Li, Jiawen Kang, Dusit Niyato, Shengli Xie, Yi Wu(参考訳) 自動運転車の普及が徐々に進み、車両が正しい運転判断を賢くし、交通標識を正しく認識して交通規則に従うことがますます重要になっている。 しかし、iot(internet of vehicle, iov)上での機械学習に基づくトラヒックサイン認識では、分散車両からの大量のトラヒックサインデータがモデルトレーニングのための集中型サーバに収集される必要があり、多くのロケーションプライバシ情報を含むトラヒックサインデータによって、重大なプライバシーリークリスクが発生する。 この問題に対処するため,我々はまず,プライバシー保護型フェデレート学習を活用し,生のトラヒックサインデータを共有せずに正確な認識モデルの協調学習を行う。 しかしながら、ほとんどの機器の限られたコンピューティングとエネルギー資源のため、車両が複雑な人工知能タスクを継続的に実行することは困難である。 そこで我々は,次世代ニューラルネットワークである次世代のニューラルネットワークであるエネルギー効率と高速モデルトレーニングのための交通標識認識に強力なスパイクニューラルネットワーク(SNN)を導入し,IoVシナリオに適用した。 さらに,ニューロン受容野に基づくsnsの新しい符号化方式を考案し,交通標識の画素および空間次元から情報を抽出し,高精度な学習を実現する。 数値計算の結果,提案するフェデレーションSNNは,従来のフェデレーション畳み込みニューラルネットワークよりも精度,ノイズ免疫,エネルギー効率に優れていた。

With the gradual popularization of self-driving, it is becoming increasingly important for vehicles to smartly make the right driving decisions and autonomously obey traffic rules by correctly recognizing traffic signs. However, for machine learning-based traffic sign recognition on the Internet of Vehicles (IoV), a large amount of traffic sign data from distributed vehicles is needed to be gathered in a centralized server for model training, which brings serious privacy leakage risk because of traffic sign data containing lots of location privacy information. To address this issue, we first exploit privacy-preserving federated learning to perform collaborative training for accurate recognition models without sharing raw traffic sign data. Nevertheless, due to the limited computing and energy resources of most devices, it is hard for vehicles to continuously undertake complex artificial intelligence tasks. Therefore, we introduce powerful Spike Neural Networks (SNNs) into traffic sign recognition for energy-efficient and fast model training, which is the next generation of neural networks and is practical and well-fitted to IoV scenarios. Furthermore, we design a novel encoding scheme for SNNs based on neuron receptive fields to extract information from the pixel and spatial dimensions of traffic signs to achieve high-accuracy training. Numerical results indicate that the proposed federated SNN outperforms traditional federated convolutional neural networks in terms of accuracy, noise immunity, and energy efficiency as well.
翻訳日:2022-05-31 16:56:38 公開日:2022-05-28
# リストデコダブルスパース平均推定

List-Decodable Sparse Mean Estimation ( http://arxiv.org/abs/2205.14337v1 )

ライセンス: Link先を確認
Shiwei Zeng and Jie Shen(参考訳) 統計学において、ロバスト平均推定は最も重要な問題の1つである: サンプルの集合である$\{x_1, \dots, x_n\} \subset \mathbb{R}^d$ が与えられたとき、ある分布から$\alpha$の分画が引き出され、残りは逆向きに破壊される。 最近の研究の関心の高まりは、$\alpha \in (0, \frac12]$ というリスト決定可能な設定に焦点をあてており、目標の平均を少なくとも1つ近似する有限個の推定値を出力することを目的としている。 本稿では,基礎となる分布がガウスであり,目標平均が$k$-sparseであることを考える。 我々の主な貢献は、サンプル複雑性が$O\big(\mathrm{poly}(k, \log d)\big)$、つまり次元の多対数性を楽しむ最初の多項式時間アルゴリズムである。 アルゴリズムの主成分の1つは、低次スパース多項式を用いて外層をフィルタすることである。

Robust mean estimation is one of the most important problems in statistics: given a set of samples $\{x_1, \dots, x_n\} \subset \mathbb{R}^d$ where an $\alpha$ fraction are drawn from some distribution $D$ and the rest are adversarially corrupted, it aims to estimate the mean of $D$. A surge of recent research interest has been focusing on the list-decodable setting where $\alpha \in (0, \frac12]$, and the goal is to output a finite number of estimates among which at least one approximates the target mean. In this paper, we consider that the underlying distribution is Gaussian and the target mean is $k$-sparse. Our main contribution is the first polynomial-time algorithm that enjoys sample complexity $O\big(\mathrm{poly}(k, \log d)\big)$, i.e. poly-logarithmic in the dimension. One of the main algorithmic ingredients is using low-degree sparse polynomials to filter outliers, which may be of independent interest.
翻訳日:2022-05-31 16:56:15 公開日:2022-05-28
# グラフ上での半教師あり学習の設定再考

Rethinking the Setting of Semi-supervised Learning on Graphs ( http://arxiv.org/abs/2205.14403v1 )

ライセンス: Link先を確認
Ziang Li, Ming Ding, Weikai Li, Zihan Wang, Ziyu Zeng, Yukuo Cen, Jie Tang(参考訳) グラフ上の半教師付き学習の現在の設定は、モデルに対して過度にチューニングされるハイパーパラメーターのリスクがあるため、不公平な比較をもたらす可能性がある。 本稿では,検証セットのラベル情報を利用して性能を向上させるハイパーパラメータのチューニングの影響について述べる。 過度に調整されたハイパーパラメータの限界を探索するために,超パラメータの余剰グループを通した検証セットのラベル情報を完全に活用するアプローチであるValidUtilを提案する。 ValidUtilでは、GCNでさえコラで85.8%の精度が得られる。 オーバーチューニングを避けるため、トレーニングセットと検証セットをマージし、4つのデータセットからなるi.d.グラフベンチマーク(IGB)を構築する。 各データセットは、評価分散を低減するために、大きなグラフからサンプリングされた100のi.d.グラフを含む。 実験の結果, IGB はグラフ上の半教師あり学習のための従来のデータセットよりも安定なベンチマークであることが示唆された。

We argue that the present setting of semisupervised learning on graphs may result in unfair comparisons, due to its potential risk of over-tuning hyper-parameters for models. In this paper, we highlight the significant influence of tuning hyper-parameters, which leverages the label information in the validation set to improve the performance. To explore the limit of over-tuning hyperparameters, we propose ValidUtil, an approach to fully utilize the label information in the validation set through an extra group of hyper-parameters. With ValidUtil, even GCN can easily get high accuracy of 85.8% on Cora. To avoid over-tuning, we merge the training set and the validation set and construct an i.i.d. graph benchmark (IGB) consisting of 4 datasets. Each dataset contains 100 i.i.d. graphs sampled from a large graph to reduce the evaluation variance. Our experiments suggest that IGB is a more stable benchmark than previous datasets for semisupervised learning on graphs.
翻訳日:2022-05-31 16:55:52 公開日:2022-05-28
# 非定常変圧器:時系列予測における定常性再考

Non-stationary Transformers: Rethinking the Stationarity in Time Series Forecasting ( http://arxiv.org/abs/2205.14415v1 )

ライセンス: Link先を確認
Yong Liu, Haixu Wu, Jianmin Wang, Mingsheng Long(参考訳) トランスフォーマーは、そのグローバルレンジモデリング能力により、時系列予測において大きな力を発揮している。 しかし、それらの性能は、時間とともにジョイント分布が変化する非定常実世界データ上で著しく低下する可能性がある。 以前の研究は主に、予測可能性を高めるために元の系列の非定常性を減らすために定常化を採用する。 しかし、本質的な非定常性を欠いた固定化されたシリーズは、現実世界のバーストイベントの予測には役に立たない。 過定常化と呼ばれるこの問題により、トランスフォーマーは、異なる系列に対して識別不能な時間的注意を発生させ、深層モデルの予測能力を妨げる。 直列予測可能性とモデル能力のジレンマに対処するために,直列固定化と非定常注意という2つの相互依存モジュールを持つ汎用フレームワークとして非定常トランスフォーマーを提案する。 具体的には、直列定常化は各入力の統計を統一し、より良い予測可能性のために復元された統計で出力を変換する。 過定常化に対処するために,非定常的非定常的情報を時間依存に復元するために,非定常的系列から学習した顕著な注意を近似することにより考案した。 我々の非定常トランスフォーマーフレームワークは、トランスフォーマーの49.43%、インフォーマーの47.34%、リフォーマーの46.89%を減らし、主要なトランスフォーマーのマージンを大きく向上させる。

Transformers have shown great power in time series forecasting due to their global-range modeling ability. However, their performance can degenerate terribly on non-stationary real-world data in which the joint distribution changes over time. Previous studies primarily adopt stationarization to reduce the non-stationarity of original series for better predictability. But the stationarized series deprived of inherent non-stationarity can be less instructive for real-world bursty events forecasting. This problem, termed over-stationarization in this paper, leads Transformers to generate indistinguishable temporal attentions for different series and impedes the predictive capability of deep models. To tackle the dilemma between series predictability and model capability, we propose Non-stationary Transformers as a generic framework with two interdependent modules: Series Stationarization and De-stationary Attention. Concretely, Series Stationarization unifies the statistics of each input and converts the output with restored statistics for better predictability. To address over-stationarization, De-stationary Attention is devised to recover the intrinsic non-stationary information into temporal dependencies by approximating distinguishable attentions learned from unstationarized series. Our Non-stationary Transformers framework consistently boosts mainstream Transformers by a large margin, which reduces 49.43% MSE on Transformer, 47.34% on Informer, and 46.89% on Reformer, making them the state-of-the-art in time series forecasting.
翻訳日:2022-05-31 16:53:51 公開日:2022-05-28
# 複数のインスタンスニューラルネットワークを越える:局所パターン集約に基づくディープラーニングモデル

Go Beyond Multiple Instance Neural Networks: Deep-learning Models based on Local Pattern Aggregation ( http://arxiv.org/abs/2205.14428v1 )

ライセンス: Link先を確認
Linpeng Jin(参考訳) 深部畳み込みニューラルネットワーク(CNN)は、臨床心電図(ECG)、話者非依存の音声、複雑な画像の処理にブレークスルーをもたらした。 しかし、典型的なCNNは固定された入力サイズを必要とするが、実際は可変サイズのデータを処理するのが一般的である。 長い短期記憶(LSTM)のようなリカレントネットワークは制限を排除できるが、計算の複雑さに悩まされている。 本稿では,これらの問題を効果的に扱うために,局所的なパターン集約に基づくディープラーニングモデルを提案する。 LPANetと呼ばれる新しいネットワーク構造には、トリミングと集約操作が組み込まれている。 これらの新機能により、LPANetはモデルパラメータのチューニングの難しさを低減し、一般化性能を向上させる傾向がある。 本手法の有効性を実証するため, 早期心室収縮検出問題に適用し, 実験結果から, CNN や LSTM などの古典的ネットワークモデルと比較して, 提案手法が一定の優位性を示した。

Deep convolutional neural networks (CNNs) have brought breakthroughs in processing clinical electrocardiograms (ECGs), speaker-independent speech and complex images. However, typical CNNs require a fixed input size while it is common to process variable-size data in practical use. Recurrent networks such as long short-term memory (LSTM) are capable of eliminating the restriction, but suffer from high computational complexity. In this paper, we propose local pattern aggregation-based deep-learning models to effectively deal with both problems. The novel network structure, called LPANet, has cropping and aggregation operations embedded into it. With these new features, LPANet can reduce the difficulty of tuning model parameters and thus tend to improve generalization performance. To demonstrate the effectiveness, we applied it to the problem of premature ventricular contraction detection and the experimental results shows that our proposed method has certain advantages compared to classical network models, such as CNN and LSTM.
翻訳日:2022-05-31 16:53:27 公開日:2022-05-28
# 街路からの建築物の視覚認識と住宅の脆弱性

Visual Perception of Building and Household Vulnerability from Streets ( http://arxiv.org/abs/2205.14460v1 )

ライセンス: Link先を確認
Chaofeng Wang, Sarah Elizabeth Antos, Jessica Grayson Gosling Goldsmith, Luis Miguel Triveno(参考訳) 発展途上国では、コードの構築は時代遅れまたは強制されないことが多い。 その結果、住宅の大部分が準標準的であり、自然災害や気候関連の出来事に弱い。 住宅の質を評価することは公共政策や民間投資を知らせる鍵である。 標準アセスメント手法は通常、高コストのためにサンプル/パイロットベースでのみ実施されるか、あるいは完成時には、推奨更新標準への準拠が欠如していることや、重要な方針やビジネス上の決定を行うために必要な詳細レベルを持つほとんどのユーザにはアクセスできないため、時代遅れになる傾向がある。 そこで本稿では,最初のキャプチャと将来の更新に費用効率が良く,ブロックレベルで信頼性の高い評価フレームワークを提案する。 このフレームワークは、ストリートビュー画像とディープラーニングを組み合わせた既存の作業を補完し、建物情報を自動的に抽出し、住宅特性の識別を支援する。 そして、スケーラビリティと高いレベルの信頼性の可能性を確認します。 そこで我々は, 住宅単位および住宅水準におけるデータ粒度の最大レベルを合成する指標を作成し, モデルによる予測を, より低い予算で, 選択された領域で, 脆弱性条件を近似するために利用できるかどうかを評価する。 その結果,画像からの予測は指標と明確に相関していることがわかった。

In developing countries, building codes often are outdated or not enforced. As a result, a large portion of the housing stock is substandard and vulnerable to natural hazards and climate related events. Assessing housing quality is key to inform public policies and private investments. Standard assessment methods are typically carried out only on a sample / pilot basis due to its high costs or, when complete, tend to be obsolete due to the lack of compliance with recommended updating standards or not accessible to most users with the level of detail needed to take key policy or business decisions. Thus, we propose an evaluation framework that is cost-efficient for first capture and future updates, and is reliable at the block level. The framework complements existing work of using street view imagery combined with deep learning to automatically extract building information to assist the identification of housing characteristics. We then check its potential for scalability and higher level reliability. For that purpose, we create an index, which synthesises the highest possible level of granularity of data at the housing unit and at the household level at the block level, and assess whether the predictions made by our model could be used to approximate vulnerability conditions with a lower budget and in selected areas. Our results indicated that the predictions from the images are clearly correlated with the index.
翻訳日:2022-05-31 16:53:09 公開日:2022-05-28
# タスク非依存型継続的強化学習: 単純なベースラインの評価

Task-Agnostic Continual Reinforcement Learning: In Praise of a Simple Baseline ( http://arxiv.org/abs/2205.14495v1 )

ライセンス: Link先を確認
Massimo Caccia, Jonas Mueller, Taesup Kim, Laurent Charlin, Rasool Fakoor(参考訳) 標準のrl課題にタスク非依存主義による部分的可観測性が組み合わさったタスク非依存型連続強化学習(tacrl)と、非定常的なタスク列で学習する継続学習(cl)のさらなる困難について検討する。 本稿では,TACRL法と従来の文献で規定したソフトな上限値を比較する。非定常データ分布を扱う必要のないマルチタスク学習(MTL)法と,完全な可観測性の下で動作可能なタスク認識法である。 TACRL(replay-based recurrent RL, replay-based recurrent RL, 3RL)の既往のベースラインとして,部分観測可能性に対処する再帰機構とCLの破滅的忘れに対処する経験的再生機構をRLアルゴリズムに拡張した。 一連のRLタスクにおける経験的性能について検討し、3RLマッチングとMTLおよびタスク対応ソフトアッパーバウンドを克服する驚くべき結果を得た。 継続的かつタスクに依存しない学習研究のこの転換点を説明する仮説を提示する。 我々の仮説は、多タスクおよび連続学習ベンチマークMeta-Worldの大規模研究を通じて、連続制御タスクにおいて経験的に検証されている。 勾配コンフリクトを含む異なるトレーニング統計を解析することにより、3RLのアウトパフォーマンスが、新しいタスクが前のタスクとどのように関係しているかを素早く推測し、転送を可能にする能力に起因することを示す。

We study task-agnostic continual reinforcement learning (TACRL) in which standard RL challenges are compounded with partial observability stemming from task agnosticism, as well as additional difficulties of continual learning (CL), i.e., learning on a non-stationary sequence of tasks. Here we compare TACRL methods with their soft upper bounds prescribed by previous literature: multi-task learning (MTL) methods which do not have to deal with non-stationary data distributions, as well as task-aware methods, which are allowed to operate under full observability. We consider a previously unexplored and straightforward baseline for TACRL, replay-based recurrent RL (3RL), in which we augment an RL algorithm with recurrent mechanisms to address partial observability and experience replay mechanisms to address catastrophic forgetting in CL. Studying empirical performance in a sequence of RL tasks, we find surprising occurrences of 3RL matching and overcoming the MTL and task-aware soft upper bounds. We lay out hypotheses that could explain this inflection point of continual and task-agnostic learning research. Our hypotheses are empirically tested in continuous control tasks via a large-scale study of the popular multi-task and continual learning benchmark Meta-World. By analyzing different training statistics including gradient conflict, we find evidence that 3RL's outperformance stems from its ability to quickly infer how new tasks relate with the previous ones, enabling forward transfer.
翻訳日:2022-05-31 16:52:47 公開日:2022-05-28
# 分類のための最適決定図

Optimal Decision Diagrams for Classification ( http://arxiv.org/abs/2205.14500v1 )

ライセンス: Link先を確認
Alexandre M. Florio, Pedro Martins, Maximilian Schiffer, Thiago Serra, Thibaut Vidal(参考訳) 分類のための決定図は、内部接続がトレーニング時に決定され、その幅は、その深さとともに指数関数的に成長しないため、決定木に対していくつかの顕著な利点がある。 したがって、決定図は通常、内部ノードにおけるデータの断片化の傾向が低い。 しかし、これらの分類器を訓練する本来の複雑さは、広く普及する上で長年の障壁となった。 本研究では,数理プログラミングの観点から最適決定図(ODD)の学習について検討する。 本稿では,新しい学習用混合整数線形プログラミングモデルを導入し,その実用上重要なデータセットへの適用性を示す。 さらに,このモデルがフェアネス,パシモニー,安定性といった概念に対して容易に拡張できることを示す。 本稿では,ODDを短時間で学習することが可能であり,ODDが最適決定木よりも精度が高く,精度の低下を伴わずに安定性を向上できることを示す。

Decision diagrams for classification have some notable advantages over decision trees, as their internal connections can be determined at training time and their width is not bound to grow exponentially with their depth. Accordingly, decision diagrams are usually less prone to data fragmentation in internal nodes. However, the inherent complexity of training these classifiers acted as a long-standing barrier to their widespread adoption. In this context, we study the training of optimal decision diagrams (ODDs) from a mathematical programming perspective. We introduce a novel mixed-integer linear programming model for training and demonstrate its applicability for many datasets of practical importance. Further, we show how this model can be easily extended for fairness, parsimony, and stability notions. We present numerical analyses showing that our model allows training ODDs in short computational times, and that ODDs achieve better accuracy than optimal decision trees, while allowing for improved stability without significant accuracy losses.
翻訳日:2022-05-31 16:52:18 公開日:2022-05-28
# マルチクラスECGのためのメトリクスベース説明(CSUME)を用いたコアセット選択

Core-set Selection Using Metrics-based Explanations (CSUME) for multiclass ECG ( http://arxiv.org/abs/2205.14508v1 )

ライセンス: Link先を確認
Sagnik Dakshit, Barbara Mukami Maweu, Sristi Dakshit, Balakrishnan Prabhakaran(参考訳) 不規則な心臓リズムの検出などの深層学習に基づく医療意思決定支援システムの導入は、品質データへのアクセスの欠如やデータの収集やアノテーションに関連する高コストといった課題によって妨げられている。 大量の医療データの収集と処理は継続的なプロセスである。 data-hungry deep learning model(dl)の性能は、データの量と品質に大きく依存する。 データ量の必要性は研究を通じて十分に確立されているものの,高品質なデータの選択によってディープラーニングモデルの性能が向上することを示す。 本研究では,心電図(ECG)データをケーススタディとして,マルチクラスの心電図データから最も情報性の高いデータサンプルを選択するアルゴリズム開発者のためのモデル性能改善手法を提案する。 当社のCore-Set選択手法は,メトリクスに基づく説明を用いて,最も情報性の高いECGデータサンプルを選択する。 これはまた、ディープラーニングモデルのパフォーマンス向上のために、サンプルが他よりも有益であると選択された理由に関する理解(アルゴリズム開発者にとって)を提供する。 実験の結果,9.67%と8.69%の精度とリコール改善が得られ,トレーニングデータボリュームは50%減少した。 さらに,提案手法は,データストリームからのECGサンプルの品質とアノテーションを主張する。 モデル学習に寄与しない個々のデータサンプルの自動検出を可能にし、モデルパフォーマンスに悪影響を最小化する。 さらに、異なるデータセットとディープラーニングアーキテクチャを実験することで、このアプローチの潜在的な一般化可能性についても論じる。

The adoption of deep learning-based healthcare decision support systems such as the detection of irregular cardiac rhythm is hindered by challenges such as lack of access to quality data and the high costs associated with the collection and annotation of data. The collection and processing of large volumes of healthcare data is a continuous process. The performance of data-hungry Deep Learning models (DL) is highly dependent on the quantity and quality of the data. While the need for data quantity has been established through research adequately, we show how a selection of good quality data improves deep learning model performance. In this work, we take Electrocardiogram (ECG) data as a case study and propose a model performance improvement methodology for algorithm developers, that selects the most informative data samples from incoming streams of multi-class ECG data. Our Core-Set selection methodology uses metrics-based explanations to select the most informative ECG data samples. This also provides an understanding (for algorithm developers) as to why a sample was selected as more informative over others for the improvement of deep learning model performance. Our experimental results show a 9.67% and 8.69% precision and recall improvement with a significant training data volume reduction of 50%. Additionally, our proposed methodology asserts the quality and annotation of ECG samples from incoming data streams. It allows automatic detection of individual data samples that do not contribute to model learning thus minimizing possible negative effects on model performance. We further discuss the potential generalizability of our approach by experimenting with a different dataset and deep learning architecture.
翻訳日:2022-05-31 16:52:03 公開日:2022-05-28
# 非自己回帰翻訳における参照選択による多変量蒸留

One Reference Is Not Enough: Diverse Distillation with Reference Selection for Non-Autoregressive Translation ( http://arxiv.org/abs/2205.14333v1 )

ライセンス: Link先を確認
Chenze Shao and Xuanfu Wu and Yang Feng(参考訳) 非自己回帰型ニューラルマシン翻訳(nat)はマルチモダリティ問題に苦しむ: ソース文は複数の正しい翻訳があるかもしれないが、損失関数は参照文によってのみ計算される。 シーケンスレベルの知識蒸留は、ターゲットを自己回帰モデルから出力に置き換えることで、ターゲットをより決定論的にする。 しかし, 蒸留データセットの多モード性問題はまだ無視できない。 さらに、特定の教師から学ぶことでモデル能力の上限が制限され、natモデルのポテンシャルが制限される。 本稿では,1つの参照だけでは不十分であり,NATのためのDDRSを用いた多種多様な蒸留を提案する。 具体的には,まず,多様な機械翻訳のためのseeddivという手法を提案する。これにより,各文に対して複数の高品質な参照翻訳を含むデータセットを生成することができる。 トレーニング中、NAT出力とすべての参照を比較し、モデルをトレーニングするためにNAT出力に最も適しているものを選択する。 広く使われている機械翻訳ベンチマークの実験では、WMT14 En-Deで1つの復号パスで29.82 BLEUを達成するDDRSの有効性を示し、NATの最先端性能を1 BLEU以上向上させた。 ソースコード:https://github.com/ictnlp/DDRS-NAT

Non-autoregressive neural machine translation (NAT) suffers from the multi-modality problem: the source sentence may have multiple correct translations, but the loss function is calculated only according to the reference sentence. Sequence-level knowledge distillation makes the target more deterministic by replacing the target with the output from an autoregressive model. However, the multi-modality problem in the distilled dataset is still nonnegligible. Furthermore, learning from a specific teacher limits the upper bound of the model capability, restricting the potential of NAT models. In this paper, we argue that one reference is not enough and propose diverse distillation with reference selection (DDRS) for NAT. Specifically, we first propose a method called SeedDiv for diverse machine translation, which enables us to generate a dataset containing multiple high-quality reference translations for each source sentence. During the training, we compare the NAT output with all references and select the one that best fits the NAT output to train the model. Experiments on widely-used machine translation benchmarks demonstrate the effectiveness of DDRS, which achieves 29.82 BLEU with only one decoding pass on WMT14 En-De, improving the state-of-the-art performance for NAT by over 1 BLEU. Source code: https://github.com/ictnlp/DDRS-NAT
翻訳日:2022-05-31 16:22:43 公開日:2022-05-28
# 文書レベル関係抽出のためのエンティティ・メンションに対する関係特有な注意

Relation-Specific Attentions over Entity Mentions for Enhanced Document-Level Relation Extraction ( http://arxiv.org/abs/2205.14393v1 )

ライセンス: Link先を確認
Jiaxin Yu and Deqing Yang and Shuyu Tian(参考訳) 従来の文レベルの関係抽出と比較して、文書レベルの関係抽出は、文書内のエンティティを複数回言及し、複数の関係に関連付けるというより難しい作業である。 しかし、文書レベルの関係抽出のほとんどの方法は、言及レベルの特徴とエンティティレベルの特徴を区別せず、引用レベルの特徴をエンティティレベルの特徴に集約するために単純なプーリング操作を適用するだけである。 結果として、エンティティの異なる言及間の明確な意味が見過ごされる。 この問題に対処するため,本論文では,候補関係に関する異なるエンティティの言及に対して選択的に注目するRSMANを提案する。 このようにして、真に関係の分類に有利な実体の柔軟性と関係特有の表現が得られる。 2つのベンチマークデータセットに対する広範な実験により、RSMANはいくつかのバックボーンモデルに対して、特にドキュメントに複数の言及がある場合、最先端のパフォーマンスを達成するための大幅な改善をもたらすことが示されています。

Compared with traditional sentence-level relation extraction, document-level relation extraction is a more challenging task where an entity in a document may be mentioned multiple times and associated with multiple relations. However, most methods of document-level relation extraction do not distinguish between mention-level features and entity-level features, and just apply simple pooling operation for aggregating mention-level features into entity-level features. As a result, the distinct semantics between the different mentions of an entity are overlooked. To address this problem, we propose RSMAN in this paper which performs selective attentions over different entity mentions with respect to candidate relations. In this manner, the flexible and relation-specific representations of entities are obtained which indeed benefit relation classification. Our extensive experiments upon two benchmark datasets show that our RSMAN can bring significant improvements for some backbone models to achieve state-of-the-art performance, especially when an entity have multiple mentions in the document.
翻訳日:2022-05-31 16:20:18 公開日:2022-05-28
# BAN-Cap: 多目的イングリッシュバンガラ画像記述データセット

BAN-Cap: A Multi-Purpose English-Bangla Image Descriptions Dataset ( http://arxiv.org/abs/2205.14462v1 )

ライセンス: Link先を確認
Mohammad Faiyaz Khan, S.M. Sadiq-Ur-Rahman Shifath, Md Saiful Islam(参考訳) コンピュータが視覚情報の理解と文字表現への変換を効率的に行うようになるにつれて、自動キャプションのようなタスクに対する研究がここ数年で大きな進歩を遂げている。 研究のほとんどが単言語で英語に与えられているが、バングラのようなリソース制約のある言語は、主に標準データセットの欠如のため、焦点を外している。 この問題に対処するため,Flickr8kデータセットに続いて新たなデータセットであるBAN-Capを提示し,アノテータが提供した画像のBanglaキャプションを収集する。 我々のデータセットは、異なる背景を持つ訓練を受けた人々によって注釈付けされた、幅広い種類の画像キャプションスタイルを表す。 バングラ画像キャプションにおけるデータセットの定量的・定性的解析と最近のモデルのベースライン評価について述べる。 テキスト拡張の効果を調査し,コンテキスト化単語置換(cwr)を用いた適応的注意ベースモデルがバングラ画像キャプションの最先端モデルに匹敵することを示す。 また,このデータセットの多目的性,特にバングラ・イングリッシュとイングリッシュ・バングラの機械翻訳について述べる。 このデータセットとすべてのモデルは、さらなる研究に役立つだろう。

As computers have become efficient at understanding visual information and transforming it into a written representation, research interest in tasks like automatic image captioning has seen a significant leap over the last few years. While most of the research attention is given to the English language in a monolingual setting, resource-constrained languages like Bangla remain out of focus, predominantly due to a lack of standard datasets. Addressing this issue, we present a new dataset BAN-Cap following the widely used Flickr8k dataset, where we collect Bangla captions of the images provided by qualified annotators. Our dataset represents a wider variety of image caption styles annotated by trained people from different backgrounds. We present a quantitative and qualitative analysis of the dataset and the baseline evaluation of the recent models in Bangla image captioning. We investigate the effect of text augmentation and demonstrate that an adaptive attention-based model combined with text augmentation using Contextualized Word Replacement (CWR) outperforms all state-of-the-art models for Bangla image captioning. We also present this dataset's multipurpose nature, especially on machine translation for Bangla-English and English-Bangla. This dataset and all the models will be useful for further research.
翻訳日:2022-05-31 16:20:01 公開日:2022-05-28
# wt-mvsnet:マルチビューステレオ用ウィンドウベースのトランスフォーマー

WT-MVSNet: Window-based Transformers for Multi-view Stereo ( http://arxiv.org/abs/2205.14319v1 )

ライセンス: Link先を確認
Jinli Liao, Yikang Ding, Yoli Shavit, Dihe Huang, Shihao Ren, Jia Guo, Wensen Feng, Kai Zhang(参考訳) 近年,多視点ステレオの性能向上のために,長距離機能インタラクションを実現するトランスフォーマが提案されている。 本研究では,マルチビューステレオにおける局所的特徴マッチングとグローバル特徴集約のためのウィンドウベーストランスフォーマ(wt)を提案する。 我々は,ウィンドウベースのエピポーラ変換器 (WET) を導入し, エピポーラ制約を用いることで, マッチング冗長性を低減した。 点間マッチングは誤ったカメラのポーズやキャリブレーションに敏感であるため、エピポーラ線近傍の窓にマッチする。 第2のShifted WTは、コストボリューム内でグローバル情報を集約するために使用される。 本稿では,3次元畳み込みを置き換えた新しいCT(Cost Transformer)を提案する。 複数視点からの推定深度マップの制約を改善するため,多視点整合性が満たされない不確実な領域を罰する新たな幾何整合損失(Geo Loss)を設計する。 WTマルチビューステレオ手法(WT-MVSNet)は,複数のデータセットにまたがって最先端の性能を実現し,タンクとテンプルのベンチマークで1^{st}$をランク付けする。

Recently, Transformers were shown to enhance the performance of multi-view stereo by enabling long-range feature interaction. In this work, we propose Window-based Transformers (WT) for local feature matching and global feature aggregation in multi-view stereo. We introduce a Window-based Epipolar Transformer (WET) which reduces matching redundancy by using epipolar constraints. Since point-to-line matching is sensitive to erroneous camera pose and calibration, we match windows near the epipolar lines. A second Shifted WT is employed for aggregating global information within cost volume. We present a novel Cost Transformer (CT) to replace 3D convolutions for cost volume regularization. In order to better constrain the estimated depth maps from multiple views, we further design a novel geometric consistency loss (Geo Loss) which punishes unreliable areas where multi-view consistency is not satisfied. Our WT multi-view stereo method (WT-MVSNet) achieves state-of-the-art performance across multiple datasets and ranks $1^{st}$ on Tanks and Temples benchmark.
翻訳日:2022-05-31 16:13:19 公開日:2022-05-28
# Point RCNN: 回転物体検出のためのアングルフリーフレームワーク

Point RCNN: An Angle-Free Framework for Rotated Object Detection ( http://arxiv.org/abs/2205.14328v1 )

ライセンス: Link先を確認
Qiang Zhou, Chaohui Yu, Zhibin Wang, Hao Li(参考訳) 空中画像における回転物体検出は、任意方向、大規模かつアスペクト比のばらつき、オブジェクトの極端な密度のために依然として困難である。 既存の回転物体検出法は、主に角度に基づく検出器に依存している。 しかし、角度回帰は長期の境界問題に容易に悩まされる。 この問題に対処するために,主に PointRPN と PointReg から構成される Point RCNN と呼ばれる,純粋に角度のないオブジェクト検出フレームワークを提案する。 特に、ポイントRPNは、学習された代表点を粗い方法で変換し、RepPointsによって動機付けられた正確な回転RoIs(RRoIs)を生成する。 学習したRRoIに基づいて、PointRegはより正確な検出のためにコーナーポイントリファインメントを実行する。 加えて、航空画像はカテゴリーで非常に不均衡であり、既存の手法はこの問題をほとんど無視している。 本稿では,レアカテゴリの画像の再サンプリングがトレーニングを安定させ,さらに検出性能を向上させることを実験的に検証する。 実験により,我々のポイントrcnnは,dota-v1.0,dota-v1.5,hrsc2016などの一般的な空中データセットにおいて,新たな最先端検出性能を実現することを実証した。

Rotated object detection in aerial images is still challenging due to arbitrary orientations, large scale and aspect ratio variations, and extreme density of objects. Existing state-of-the-art rotated object detection methods mainly rely on angle-based detectors. However, angle regression can easily suffer from the long-standing boundary problem. To tackle this problem, we propose a purely angle-free framework for rotated object detection, called Point RCNN, which mainly consists of PointRPN and PointReg. In particular, PointRPN generates accurate rotated RoIs (RRoIs) by converting the learned representative points with a coarse-to-fine manner, which is motivated by RepPoints. Based on the learned RRoIs, PointReg performs corner points refinement for more accurate detection. In addition, aerial images are often severely unbalanced in categories, and existing methods almost ignore this issue. In this paper, we also experimentally verify that re-sampling the images of the rare categories will stabilize training and further improve the detection performance. Experiments demonstrate that our Point RCNN achieves the new state-of-the-art detection performance on commonly used aerial datasets, including DOTA-v1.0, DOTA-v1.5, and HRSC2016.
翻訳日:2022-05-31 16:12:59 公開日:2022-05-28
# v4d:4次元新規ビュー合成のためのvoxel

V4D: Voxel for 4D Novel View Synthesis ( http://arxiv.org/abs/2205.14332v1 )

ライセンス: Link先を確認
Wanshui Gan, Hongbin Xu, Yi Huang, Shifeng Chen, Naoto Yokoya(参考訳) ニューラルレイディアンス場は3次元静的シーンにおける新しいビュー合成タスクにおいて画期的なブレークスルーをもたらした。 しかし、4次元の状況(例えば動的シーン)では、既存の手法の性能はニューラルネットワークの能力によって制限され、一般的には多層パーセプトロンネットワーク(mlp)である。 本稿では、3Dボクセルが2つのフォーマットを持つV4Dと略される3Dボクセルによる4Dニューラルラジアンス場をモデル化する手法を提案する。 まず、境界付けられた3d空間を定期的にモデル化し、次にタイムインデックスでサンプル化された局所3d特徴を使用して密度場とテクスチャ場をモデル化する。 2つめはルックアップテーブル(luts)形式のピクセルレベルのリファインメントで、ボリュームレンダリングによって生成された擬似表面をガイダンス情報として活用し、2dピクセルレベルのリファインメントマッピングを学ぶ。 LUTsベースの改良モジュールは計算コストの少ない性能向上を実現し,新しいビュー合成タスクにおいてプラグイン・アンド・プレイモジュールとして機能する。 また、4Dデータに対するより効率的な条件付き位置符号化を提案し、計算負荷を無視して性能向上を実現する。 大規模な実験により,提案手法は最先端の性能を高いマージンで達成することを示した。 最後に,提案するv4dは,トレーニングフェーズとテストフェーズの両方において計算フレンドリな手法であり,トレーニングフェーズでは2倍,推論フェーズでは10倍高速である。

Neural radiance fields have made a remarkable breakthrough in the novel view synthesis task at the 3D static scene. However, for the 4D circumstance (e.g., dynamic scene), the performance of the existing method is still limited by the capacity of the neural network, typically in a multilayer perceptron network (MLP). In this paper, we present the method to model the 4D neural radiance field by the 3D voxel, short as V4D, where the 3D voxel has two formats. The first one is to regularly model the bounded 3D space and then use the sampled local 3D feature with the time index to model the density field and the texture field. The second one is in look-up tables (LUTs) format that is for the pixel-level refinement, where the pseudo-surface produced by the volume rendering is utilized as the guidance information to learn a 2D pixel-level refinement mapping. The proposed LUTs-based refinement module achieves the performance gain with a little computational cost and could serve as the plug-and-play module in the novel view synthesis task. Moreover, we propose a more effective conditional positional encoding toward the 4D data that achieves performance gain with negligible computational burdens. Extensive experiments demonstrate that the proposed method achieves state-of-the-art performance by a large margin. At last, the proposed V4D is also a computational-friendly method in both the training and testing phase, where we achieve 2 times faster in the training phase and 10 times faster in the inference phase compared with the state-of-the-art method.
翻訳日:2022-05-31 16:12:38 公開日:2022-05-28
# ディエンス予測のためのマルチクエリ変換器を用いたマルチタスク学習

Multi-Task Learning with Multi-query Transformer for Dense Prediction ( http://arxiv.org/abs/2205.14354v1 )

ライセンス: Link先を確認
Yangyang Xu, Xiangtai Li, Haobo Yuan, Yibo Yang, Jing Zhang, Yunhai Tong, Lefei Zhang, Dacheng Tao(参考訳) 従来のマルチタスク密集予測研究では、複数段階のマルチモーダル蒸留やタスク毎のタスク関係コンテキストの探索といった複雑なパイプラインが開発された。 これらの手法を超えた中核的な洞察は、各タスク間の相互効果を最大化することである。 最近のクエリベースのトランスフォーマーに触発されて、異なるタスクからの複数のクエリーを備え、複数のタスク間の推論を容易にし、クロスタスクパイプラインをシンプルにする、multi-query transformer(mqtransformer)というシンプルなパイプラインを提案しました。 異なるタスク間でピクセル当たりの密接なコンテキストをモデル化するのではなく、タスクに関連したコンテキストをエンコードする複数のクエリを通じてタスク間の推論を行うタスク固有のプロキシを求める。 MQTransformerは、共有エンコーダ、クロスタスクアテンション、共有デコーダの3つの主要なコンポーネントで構成されている。 まず、各タスクをタスク関連およびスケール対応クエリでモデル化し、次に、特徴抽出器によって出力される画像特徴とタスク関連クエリ特徴の両方を共有エンコーダに供給し、画像特徴からクエリ特徴を符号化する。 第2に,複数のタスク間の依存関係を推論するためのクロスタスクアテンションモジュールを,同じスケールの異なるタスクと,同じタスクの異なるスケールを含む2つの視点から設計する。 次に、共有デコーダを使用して、異なるタスクから推論されたクエリ機能を使って、画像機能を徐々に洗練します。 2つの高密度予測データセット (NYUD-v2 と PASCAL-Context) の大規模な実験結果から,提案手法は有効な手法であり,最先端の結果が得られることが示された。 コードは利用可能だ。

Previous multi-task dense prediction studies developed complex pipelines such as multi-modal distillations in multiple stages or searching for task relational contexts for each task. The core insight beyond these methods is to maximize the mutual effects between each task. Inspired by the recent query-based Transformers, we propose a simpler pipeline named Multi-Query Transformer (MQTransformer) that is equipped with multiple queries from different tasks to facilitate the reasoning among multiple tasks and simplify the cross task pipeline. Instead of modeling the dense per-pixel context among different tasks, we seek a task-specific proxy to perform cross-task reasoning via multiple queries where each query encodes the task-related context. The MQTransformer is composed of three key components: shared encoder, cross task attention and shared decoder. We first model each task with a task-relevant and scale-aware query, and then both the image feature output by the feature extractor and the task-relevant query feature are fed into the shared encoder, thus encoding the query feature from the image feature. Secondly, we design a cross task attention module to reason the dependencies among multiple tasks and feature scales from two perspectives including different tasks of the same scale and different scales of the same task. Then we use a shared decoder to gradually refine the image features with the reasoned query features from different tasks. Extensive experiment results on two dense prediction datasets (NYUD-v2 and PASCAL-Context) show that the proposed method is an effective approach and achieves the state-of-the-art result. Code will be available.
翻訳日:2022-05-31 16:12:12 公開日:2022-05-28
# 半監督プログレッシブ・教師による顔表情認識の促進

Boosting Facial Expression Recognition by A Semi-Supervised Progressive Teacher ( http://arxiv.org/abs/2205.14361v1 )

ライセンス: Link先を確認
Jing Jiang and Weihong Deng(参考訳) 本稿では,半教師付き学習を生かして,領域内顔表情認識(FER)の性能向上を目指す。 大規模ラベル付きデータとディープラーニングは画像認識の性能を大幅に向上させた。 しかし、FERのパフォーマンスは、トレーニングデータや誤ったアノテーション(ラベルノイズなど)が欠如しているため、まだ理想的ではない。 既存のwild FERデータセットのうち、信頼性の高いデータセットには、堅牢な深層モデルのトレーニングに不十分なデータが含まれている。 この問題に対処するために,信頼度の高いFERデータセットと大規模未ラベル表現画像を有効訓練に用いる半教師付き学習アルゴリズム,Progressive Teacher (PT)を提案する。 一方,PT は FER におけるデータ不足を緩和する半教師付き学習手法を導入している。 一方、ラベル付きトレーニングサンプルを自動的に段階的に選択し、ラベルノイズを緩和する。 PTは、教師付き分類損失の計算に選択されたクリーンラベル付きデータと教師なし整合損失のラベルなしデータを使用する。 RAF-DB と FERPlus を用いた実験により,RAF-DB で89.57% の精度で最先端の性能が得られることを確認した。 さらに,合成雑音率が30%に達すると,ptアルゴリズムの性能は4.37%低下する。

In this paper, we aim to improve the performance of in-the-wild Facial Expression Recognition (FER) by exploiting semi-supervised learning. Large-scale labeled data and deep learning methods have greatly improved the performance of image recognition. However, the performance of FER is still not ideal due to the lack of training data and incorrect annotations (e.g., label noises). Among existing in-the-wild FER datasets, reliable ones contain insufficient data to train robust deep models while large-scale ones are annotated in lower quality. To address this problem, we propose a semi-supervised learning algorithm named Progressive Teacher (PT) to utilize reliable FER datasets as well as large-scale unlabeled expression images for effective training. On the one hand, PT introduces semi-supervised learning method to relieve the shortage of data in FER. On the other hand, it selects useful labeled training samples automatically and progressively to alleviate label noise. PT uses selected clean labeled data for computing the supervised classification loss and unlabeled data for unsupervised consistency loss. Experiments on widely-used databases RAF-DB and FERPlus validate the effectiveness of our method, which achieves state-of-the-art performance with accuracy of 89.57% on RAF-DB. Additionally, when the synthetic noise rate reaches even 30%, the performance of our PT algorithm only degrades by 4.37%.
翻訳日:2022-05-31 16:09:59 公開日:2022-05-28
# 局所的弱特徴センシングとgan前処理によるポーズ変化顔の復元品質の向上

Enhancing Quality of Pose-varied Face Restoration with Local Weak Feature Sensing and GAN Prior ( http://arxiv.org/abs/2205.14377v1 )

ライセンス: Link先を確認
Kai Hu, Yu Liu, Renhe Liu, Wei Lu, Gang Yu, Bin Fu(参考訳) 顔意味指導(顔のランドマーク、顔のパースマップ、顔のヒートマップなど)や顔生成逆境ネットワーク(gan)は、近年、ブラインド・フェイス・リバイバル(bfr)で広く使われている。 既存のbfr手法は一般的なケースでは良好な性能を発揮するが、重度の劣化やポーズ変化(見上げ、見下し、笑うなど)のある顔画像に適用した場合のレジリエンスは限られている。 そこで本研究では,前向きに顔を生成するブラインドフェイス修復ネットワークを提案する。 提案するネットワークは主に非対称コーデックとstylegan2プリエントネットワークで構成される。 非対称コーデックでは、混合マルチパス残差ブロック(MMRB)を用いて、入力画像の弱いテクスチャ特徴を徐々に抽出し、ネットワークのテクスチャの整合性と信頼性を向上させる。 さらに、MMRBブロックは他のネットワークでもプラグイン・アンド・プレイできる。 また, 顔修復作業において, 目標に近い分布に適合し, 訓練安定性を維持するために, 新たな自己指導型トレーニング戦略を考案した。 合成および実世界のデータセットに関する広範囲な実験により,本モデルは,顔の復元や超解像タスクに先行する技術よりも優れた性能を達成でき,多彩なポーズや表情で重度に劣化した顔画像に対処できることを示した。

Facial semantic guidance (facial landmarks, facial parsing maps, facial heatmaps, etc.) and facial generative adversarial networks (GAN) prior have been widely used in blind face restoration (BFR) in recent years. Although existing BFR methods have achieved good performance in ordinary cases, these solutions have limited resilience when applied to face images with serious degradation and pose-varied (look up, look down, laugh, etc.) in real-world scenarios. In this work, we propose a well-designed blind face restoration network with generative facial prior. The proposed network is mainly comprised of an asymmetric codec and StyleGAN2 prior network. In the asymmetric codec, we adopt a mixed multi-path residual block (MMRB) to gradually extract weak texture features of input images, which can improve the texture integrity and authenticity of our networks. Furthermore, the MMRB block can also be plug-and-play in any other network. Besides, a novel self-supervised training strategy is specially designed for face restoration tasks to fit the distribution closer to the target and maintain training stability. Extensive experiments over synthetic and real-world datasets demonstrate that our model achieves superior performance to the prior art for face restoration and face super-resolution tasks and can tackle seriously degraded face images in diverse poses and expressions.
翻訳日:2022-05-31 16:09:38 公開日:2022-05-28
# 時間パターンを利用した骨格行動認識の強化

Strengthening Skeletal Action Recognizers via Leveraging Temporal Patterns ( http://arxiv.org/abs/2205.14405v1 )

ライセンス: Link先を確認
Zhenyue Qin and Dongwoo Kim and Yang Liu and Saeed Anwar and Tom Gedeon(参考訳) スケルトン配列はコンパクトで軽量である。 多くの骨格に基づく行動認識器がヒトの行動の分類のために提案されている。 本研究では,既存のモデルと互換性のあるコンポーネントを組み込むことを目標とし,精度の向上を図る。 この目的のために、離散コサイン符号化(DCE)と時間損失(CRL)という2つの時間的アクセサリーを設計する。 dceは、周波数領域からの動きパターンを分析するモデルを容易にし、同時に信号ノイズの影響を緩和する。 CRLは、シーケンスの時系列順序を明示的にキャプチャするためにネットワークをガイドする。 これらの2つのコンポーネントは、多くの最近提案されたアクション認識器に精度の向上を約束し、2つの大きなベンチマークデータセット(NTU60とNTU120)で新しい最先端(SOTA)精度を達成する。

Skeleton sequences are compact and lightweight. Numerous skeleton-based action recognizers have been proposed to classify human behaviors. In this work, we aim to incorporate components that are compatible with existing models and further improve their accuracy. To this end, we design two temporal accessories: discrete cosine encoding (DCE) and chronological loss (CRL). DCE facilitates models to analyze motion patterns from the frequency domain and meanwhile alleviates the influence of signal noise. CRL guides networks to explicitly capture the sequence's chronological order. These two components consistently endow many recently-proposed action recognizers with accuracy boosts, achieving new state-of-the-art (SOTA) accuracy on two large benchmark datasets (NTU60 and NTU120).
翻訳日:2022-05-31 16:09:12 公開日:2022-05-28
# 自己監督型軽視変換器の概観

A Closer Look at Self-supervised Lightweight Vision Transformers ( http://arxiv.org/abs/2205.14443v1 )

ライセンス: Link先を確認
Shaoru Wang, Jin Gao, Zeming Li, Jian Sun, Weiming Hu(参考訳) 大規模視覚変換器(ViT)の自己教師型学習を事前学習法として実現した。 しかし、これらの事前学習パラダイムが軽量なViTの性能をいかに促進するかは、かなり研究されていない。 本研究では、主にマスク画像モデリングに基づくMAE(MaE-lite)を用いて、VT-Tiny(5.7M)を用いたImageNet上で78.4%の精度で、高性能なViTを事前学習するためのレシピを作成する。 さらに,imagenet と他の分類タスクにおいて,コントラスト学習に基づくmoco-v3 など,他の完全教師付き,自己教師付き事前学習システムの開発とベンチマークを行った。 このような事前学習の効果を分析・明らかにし,データ不足のダウンストリームタスクにおいて,事前学習モデルの下層が上位層よりも重要となることを明らかにした。 最後に, 上位モデルの事前学習表現との比較により, 事前学習中の蒸留戦略が開発され, 事前学習表現も改善され, 下流性能がさらに向上した。 コードとモデルは公開される予定だ。

Self-supervised learning on large-scale Vision Transformers (ViTs) as pre-training methods has achieved promising downstream performance. Yet, how such pre-training paradigms promote lightweight ViTs' performance is considerably less studied. In this work, we mainly produce recipes for pre-training high-performance lightweight ViTs using masked-image-modeling-based MAE, namely MAE-lite, which achieves 78.4% top-1 accuracy on ImageNet with ViT-Tiny (5.7M). Furthermore, we develop and benchmark other fully-supervised and self-supervised pre-training counterparts, e.g., contrastive-learning-based MoCo-v3, on both ImageNet and other classification tasks. We analyze and clearly show the effect of such pre-training, and reveal that properly-learned lower layers of the pre-trained models matter more than higher ones in data-sufficient downstream tasks. Finally, by further comparing with the pre-trained representations of the up-scaled models, a distillation strategy during pre-training is developed to improve the pre-trained representations as well, leading to further downstream performance improvement. The code and models will be made publicly available.
翻訳日:2022-05-31 16:08:58 公開日:2022-05-28
# ロバスト概念学習のための視覚的スーパーオーディネート抽象化

Visual Superordinate Abstraction for Robust Concept Learning ( http://arxiv.org/abs/2205.14444v1 )

ライセンス: Link先を確認
Qi Zheng, Chaoyue Wang, Dadong Wang, Dacheng Tao(参考訳) 概念学習は、視覚言語タスクの基本となる言語意味論と結びついた視覚表現を構成する。 有望な進展はあったが、既存の概念学習者は推論中に属性摂動や分布外構成に弱い。 視覚概念の固有の意味的階層、例えば \{red, blue,...\} $\in$ `color' 部分空間と立方体 $\in$ `shape' を探索する失敗のボトルネックについて説明する。 本稿では,意味認識型視覚サブ空間(視覚的スーパーオーディネート)を明示的にモデル化するための視覚的スーパーオーディネート抽象化フレームワークを提案する。 自然視覚質問応答データのみを用いて,まず言語的視点から意味階層を取得し,その後に言語階層の指導のもとに相互排他的視覚重ね合わせを探索する。 また,視覚上層部における概念の識別と独立性を高めるために,準中心視覚概念クラスタリングとスーパーオーディネートショートカット学習スキームを提案する。 様々な条件下でのフレームワークの優位性を示す実験により, 摂動理論の解答精度を7.5 %, 合成一般化試験の解答精度を15.6 %向上させることができた。

Concept learning constructs visual representations that are connected to linguistic semantics, which is fundamental to vision-language tasks. Although promising progress has been made, existing concept learners are still vulnerable to attribute perturbations and out-of-distribution compositions during inference. We ascribe the bottleneck to a failure of exploring the intrinsic semantic hierarchy of visual concepts, e.g. \{red, blue,...\} $\in$ `color' subspace yet cube $\in$ `shape'. In this paper, we propose a visual superordinate abstraction framework for explicitly modeling semantic-aware visual subspaces (i.e. visual superordinates). With only natural visual question answering data, our model first acquires the semantic hierarchy from a linguistic view, and then explores mutually exclusive visual superordinates under the guidance of linguistic hierarchy. In addition, a quasi-center visual concept clustering and a superordinate shortcut learning schemes are proposed to enhance the discrimination and independence of concepts within each visual superordinate. Experiments demonstrate the superiority of the proposed framework under diverse settings, which increases the overall answering accuracy relatively by 7.5\% on reasoning with perturbations and 15.6\% on compositional generalization tests.
翻訳日:2022-05-31 16:08:37 公開日:2022-05-28
# DeepRM:6Dポッドリファインメントのためのディープリカレントマッチング

DeepRM: Deep Recurrent Matching for 6D Pose Refinement ( http://arxiv.org/abs/2205.14474v1 )

ライセンス: Link先を確認
Alexander Avery, Andreas Savakis(参考訳) RGB画像からの剛体物体の高精度な6Dポーズ推定は、ロボティクスや拡張現実において重要な課題である。 この問題に対処するため,我々は6次元ポーズリファインメントのための新しいリカレントネットワークアーキテクチャであるdeeprmを提案する。 DeepRMは、初期粗いポーズ推定を利用して、ターゲットオブジェクトの合成画像をレンダリングする。 レンダリングされた画像は観測された画像と一致し、以前のポーズ推定を更新するための剛性変換を予測する。 このプロセスは繰り返して、各イテレーションで見積もりを漸進的に洗練します。 LSTMユニットは、各改良工程を通じて情報を伝達するために使用され、全体的な性能が大幅に向上する。 多くの2段階のパースペクティブnポイントベースのソリューションとは対照的に、deeprmはエンドツーエンドでトレーニングされ、精度と効率のために単一のパラメータでチューニング可能なスケーラブルなバックボーンを使用する。 トレーニング中に、観察された画像と合成画像の間の光の流れを予測するために、マルチスケールの光フローヘッドが追加される。 光フロー予測はトレーニングプロセスを安定化させ、ポーズ推定のタスクに関連する特徴の学習を強制する。 その結果、deeprmは広く受け入れられている2つの挑戦的データセットで最先端のパフォーマンスを達成できた。

Precise 6D pose estimation of rigid objects from RGB images is a critical but challenging task in robotics and augmented reality. To address this problem, we propose DeepRM, a novel recurrent network architecture for 6D pose refinement. DeepRM leverages initial coarse pose estimates to render synthetic images of target objects. The rendered images are then matched with the observed images to predict a rigid transform for updating the previous pose estimate. This process is repeated to incrementally refine the estimate at each iteration. LSTM units are used to propagate information through each refinement step, significantly improving overall performance. In contrast to many 2-stage Perspective-n-Point based solutions, DeepRM is trained end-to-end, and uses a scalable backbone that can be tuned via a single parameter for accuracy and efficiency. During training, a multi-scale optical flow head is added to predict the optical flow between the observed and synthetic images. Optical flow prediction stabilizes the training process, and enforces the learning of features that are relevant to the task of pose estimation. Our results demonstrate that DeepRM achieves state-of-the-art performance on two widely accepted challenging datasets.
翻訳日:2022-05-31 16:08:12 公開日:2022-05-28
# プライベートリンク推論攻撃に対する大規模プライバシ保護ネットワーク

Large-Scale Privacy-Preserving Network Embedding against Private Link Inference Attacks ( http://arxiv.org/abs/2205.14440v1 )

ライセンス: Link先を確認
Xiao Han, Leye Wang, Junjie Wu, Yuncong Yang(参考訳) ネットワーク埋め込みは低次元情報ベクトルによるネットワークノードを表す。 一般的には下流の様々なタスクに有効であるが、隠れたプライベートリンクなどのネットワークのプライベート情報を漏洩させる可能性がある。 本稿では,プライベートリンク推論攻撃に対して,プライバシ保護ネットワークを組み込むという新たな問題に対処する。 基本的に、リンクの追加や削除によって元のネットワークを混乱させることを提案し、乱れたネットワークで生成された埋め込みは、プライベートリンクに関する情報を漏らすことなく、様々な下流タスクに高いユーティリティを持つことができることを期待する。 この目的に向けて,我々はまず,候補ネットワークの摂動によって生じるプライバシ利得とユーティリティ損失を定量化する一般的な測定方法を提案し,反復的に最適なプライバシ利用トレードオフを伴う最適摂動ソリューションを特定するためのppneフレームワークを設計した。 さらに,PPNEを高速化し,そのスケーラビリティを確保するための多くの手法を提案する。 例えば、ディープウォークやラインを含むスキップグラム埋め込みメソッドは、クローズドフォーム埋め込み結果によるマトリックス分解と見なすことができるので、各イテレーションにおける候補ネットワークの摂動ごとに繰り返し発生する時間消費埋め込みトレーニングを避けるために、効率的なプライバシーゲインとユーティリティ損失近似法を考案する。 実生活のネットワークデータセット(数百万のノードを含む)の実験では、PPNEは実用性を犠牲にし、より高いプライバシ保護を得ることで、ベースラインを上回っている。

Network embedding represents network nodes by a low-dimensional informative vector. While it is generally effective for various downstream tasks, it may leak some private information of networks, such as hidden private links. In this work, we address a novel problem of privacy-preserving network embedding against private link inference attacks. Basically, we propose to perturb the original network by adding or removing links, and expect the embedding generated on the perturbed network can leak little information about private links but hold high utility for various downstream tasks. Towards this goal, we first propose general measurements to quantify privacy gain and utility loss incurred by candidate network perturbations; we then design a PPNE framework to identify the optimal perturbation solution with the best privacy-utility trade-off in an iterative way. Furthermore, we propose many techniques to accelerate PPNE and ensure its scalability. For instance, as the skip-gram embedding methods including DeepWalk and LINE can be seen as matrix factorization with closed form embedding results, we devise efficient privacy gain and utility loss approximation methods to avoid the repetitive time-consuming embedding training for every candidate network perturbation in each iteration. Experiments on real-life network datasets (with up to millions of nodes) verify that PPNE outperforms baselines by sacrificing less utility and obtaining higher privacy protection.
翻訳日:2022-05-31 15:32:20 公開日:2022-05-28
# 非凸確率ミニマックス問題に対する一様収束と一般化

Uniform Convergence and Generalization for Nonconvex Stochastic Minimax Problems ( http://arxiv.org/abs/2205.14278v1 )

ライセンス: Link先を確認
Siqi Zhang, Yifan Hu, Liang Zhang, Niao He(参考訳) 本稿では,非凸(強)-凹(NC-SC/NC-C)確率最小値最適化のための一様収束および一般化境界について検討する。 まず, 経験的ミニマックス問題と人口ミニマックス問題の間の一様収束を定め, $\tilde{\mathcal{o}}(d\kappa^2\epsilon^{-2})$ と $\tilde{\mathcal{o}}(d\epsilon^{-4})$ をそれぞれ nc-sc と nc-c の設定で示し, $d$ を次元数, $\kappa$ を条件数とする。 我々の知る限り、これは確率的ミニマックス最適化における一階定常性によって測定される最初の一様収束である。 この一様収束に基づいて,nc-sc および nc-c における確率的ミニマックス最適化のための近似定常点を求めるのに必要なサンプルと勾配の複雑度について考察した。

This paper studies the uniform convergence and generalization bounds for nonconvex-(strongly)-concave (NC-SC/NC-C) stochastic minimax optimization. We first establish the uniform convergence between the empirical minimax problem and the population minimax problem and show the $\tilde{\mathcal{O}}(d\kappa^2\epsilon^{-2})$ and $\tilde{\mathcal{O}}(d\epsilon^{-4})$ sample complexities respectively for the NC-SC and NC-C settings, where $d$ is the dimension number and $\kappa$ is the condition number. To the best of our knowledge, this is the first uniform convergence measured by the first-order stationarity in stochastic minimax optimization. Based on the uniform convergence, we shed light on the sample and gradient complexities required for finding an approximate stationary point for stochastic minimax optimization in the NC-SC and NC-C settings.
翻訳日:2022-05-31 15:27:03 公開日:2022-05-28
# 低次元における通常最小方形の検討

Provably Auditing Ordinary Least Squares in Low Dimensions ( http://arxiv.org/abs/2205.14284v1 )

ライセンス: Link先を確認
Ankur Moitra and Dhruv Rohatgi(参考訳) 通常の最小二乗線形回帰から導かれる結論の安定性を測定することは極めて重要であるが、ほとんどの指標は局所的安定性(すなわちデータの無限小変化に対して)を測定するか、統計的仮定の下でのみ解釈できる。 最近の研究は、単純で大域的、有限個の安定性メートル法を提案している: 分析を再実行するために必要となるサンプルの最小数、具体的には推定レグレッサーの特定の係数の符号が変化することを意味する結論を覆す。 しかし、自明な指数時間アルゴリズムの他に、この計量を計算するための唯一のアプローチは、合理的で検証可能な仮定の下で証明可能な保証が欠如している厳密なヒューリスティックである。 共変量の数が一定だがサンプル数が大きい低次元のレジームでは、この計量を確実に推定(分数バージョン)するための効率的なアルゴリズムが存在することを示す。 アルゴリズムをボストン・ハウジング・データセットに適用し、回帰分析を行い、グリーディ・ヒューリスティックよりも3ドル高い確率で安定性を推定し、サンプルの大半を落として安定性を証明できる分析を行った。

Measuring the stability of conclusions derived from Ordinary Least Squares linear regression is critically important, but most metrics either only measure local stability (i.e. against infinitesimal changes in the data), or are only interpretable under statistical assumptions. Recent work proposes a simple, global, finite-sample stability metric: the minimum number of samples that need to be removed so that rerunning the analysis overturns the conclusion, specifically meaning that the sign of a particular coefficient of the estimated regressor changes. However, besides the trivial exponential-time algorithm, the only approach for computing this metric is a greedy heuristic that lacks provable guarantees under reasonable, verifiable assumptions; the heuristic provides a loose upper bound on the stability and also cannot certify lower bounds on it. We show that in the low-dimensional regime where the number of covariates is a constant but the number of samples is large, there are efficient algorithms for provably estimating (a fractional version of) this metric. Applying our algorithms to the Boston Housing dataset, we exhibit regression analyses where we can estimate the stability up to a factor of $3$ better than the greedy heuristic, and analyses where we can certify stability to dropping even a majority of the samples.
翻訳日:2022-05-31 15:26:38 公開日:2022-05-28
# 混合整数最適化によるカーネルSVM分類の特徴部分選択

Feature subset selection for kernel SVM classification via mixed-integer optimization ( http://arxiv.org/abs/2205.14325v1 )

ライセンス: Link先を確認
Ryuta Tamura, Yuichi Takano, Ryuhei Miyashiro(参考訳) 非線形カーネルサポートベクトルマシン(SVM)における特徴部分選択のための混合整数最適化(MIO)手法について検討した。 1970年代に線形回帰について最初に提案されたこのアプローチは、最近最適化アルゴリズムとコンピュータハードウェアの進歩とともにスポットライトに移行した。 本研究の目的は,カーネルSVM分類に最適な機能のサブセットを選択するためのMIOアプローチを確立することである。 高次元特徴空間における2つの応答クラスのセントロイド間の距離であるカーネル・ターゲットアライメントを用いて,サブセット選択の性能を測定する。 特徴部分集合選択のためのカーネルターゲットアライメントに基づくMILO(mixed-integer linear optimization)の定式化を提案し,このMILO問題を最適化ソフトウェアを用いて最適に解くことができる。 また、MILO計算を高速化するため、MILO問題の縮小版を導出する。 実験の結果,MILOの定式化には計算効率がよいことがわかった。 さらに,データインスタンスが比較的少ない場合に,線形SVMに基づくMILOの定式化や再帰的特徴除去よりも優れていることもしばしばある。

We study the mixed-integer optimization (MIO) approach to feature subset selection in nonlinear kernel support vector machines (SVMs) for binary classification. First proposed for linear regression in the 1970s, this approach has recently moved into the spotlight with advances in optimization algorithms and computer hardware. The goal of this paper is to establish an MIO approach for selecting the best subset of features for kernel SVM classification. To measure the performance of subset selection, we use the kernel-target alignment, which is the distance between the centroids of two response classes in a high-dimensional feature space. We propose a mixed-integer linear optimization (MILO) formulation based on the kernel-target alignment for feature subset selection, and this MILO problem can be solved to optimality using optimization software. We also derive a reduced version of the MILO problem to accelerate our MILO computations. Experimental results show good computational efficiency for our MILO formulation with the reduced problem. Moreover, our method can often outperform the linear-SVM-based MILO formulation and recursive feature elimination in prediction performance, especially when there are relatively few data instances.
翻訳日:2022-05-31 15:25:10 公開日:2022-05-28
# 順列感性グラフニューラルネットワークへの深入り

Going Deeper into Permutation-Sensitive Graph Neural Networks ( http://arxiv.org/abs/2205.14368v1 )

ライセンス: Link先を確認
Zhongyu Huang, Yingheng Wang, Chaozhuo Li, Huiguang He(参考訳) 隣接行列の置換に対する不変性、すなわちグラフ同型はグラフニューラルネットワーク(GNN)の包括的な要件である。 従来、この前提条件はメッセージの集約時にノード置換上の不変操作によって満たされる。 しかし、そのような不変性は隣接するノード間の関係を無視し、GNNの表現性を阻害する可能性がある。 本研究では,隣接ノード間の対関係を捉えるために,置換群を介する効率的な置換感受性凝集機構を考案する。 提案手法は2次元ワイスフェイラー・リーマングラフ同型テストよりも厳密に強力であり、3-WLテストよりも強力であることを示す。 さらに,本手法が線形サンプリング複雑性を実現することを証明する。 複数の合成および実世界のデータセットに関する総合的な実験は、我々のモデルの優位性を実証している。

The invariance to permutations of the adjacency matrix, i.e., graph isomorphism, is an overarching requirement for Graph Neural Networks (GNNs). Conventionally, this prerequisite can be satisfied by the invariant operations over node permutations when aggregating messages. However, such an invariant manner may ignore the relationships among neighboring nodes, thereby hindering the expressivity of GNNs. In this work, we devise an efficient permutation-sensitive aggregation mechanism via permutation groups, capturing pairwise correlations between neighboring nodes. We prove that our approach is strictly more powerful than the 2-dimensional Weisfeiler-Lehman (2-WL) graph isomorphism test and not less powerful than the 3-WL test. Moreover, we prove that our approach achieves the linear sampling complexity. Comprehensive experiments on multiple synthetic and real-world datasets demonstrate the superiority of our model.
翻訳日:2022-05-31 15:24:50 公開日:2022-05-28
# 履歴制限付きオンライン学習

History-Restricted Online Learning ( http://arxiv.org/abs/2205.14519v1 )

ライセンス: Link先を確認
Jon Schneider and Kiran Vodrahalli(参考訳) 本稿では,歴史に制約のないオンライン学習アルゴリズムの概念を紹介する。 オンライン学習アルゴリズム $\mathcal{A}$ が$M$-history-restricted であるとは、その時の出力 $t$ が$M$以前の報酬の関数として書けることをいう。 このタイプのオンライン学習アルゴリズムは、多くの観点から考えると、非常に自然である: それらは人間のエージェントのより良いモデルであり、長期的な情報を保存しないかもしれない。 まず,平均ベース非レグレット学習アルゴリズム(例えば,過去$m$ラウンドにわたってヘッジを実行する)から履歴制限付きアルゴリズムを構築するための自然なアプローチが失敗し,そのようなアルゴリズムが線形後悔を引き起こすことを実証する。 そして、履歴制限付きアルゴリズムを構築し、1回あたりの後悔が$\theta(1/\sqrt{m})$となるようにします。 最後に、履歴制限のあるオンライン学習者が他の非学習アルゴリズムと比較して好適な性能を持つ分布を実証的に探求する。

We introduce the concept of history-restricted no-regret online learning algorithms. An online learning algorithm $\mathcal{A}$ is $M$-history-restricted if its output at time $t$ can be written as a function of the $M$ previous rewards. This class of online learning algorithms is quite natural to consider from many perspectives: they may be better models of human agents and they do not store long-term information (thereby ensuring ``the right to be forgotten''). We first demonstrate that a natural approach to constructing history-restricted algorithms from mean-based no-regret learning algorithms (e.g. running Hedge over the last $M$ rounds) fails, and that such algorithms incur linear regret. We then construct a history-restricted algorithm that achieves a per-round regret of $\Theta(1/\sqrt{M})$, which we complement with a tight lower bound. Finally, we empirically explore distributions where history-restricted online learners have favorable performance compared to other no-regret algorithms.
翻訳日:2022-05-31 15:24:37 公開日:2022-05-28
# ラベルノイズを用いたディープラーニング:階層的アプローチ

Deep Learning with Label Noise: A Hierarchical Approach ( http://arxiv.org/abs/2205.14299v1 )

ライセンス: Link先を確認
Li Chen, Ningyuan Huang, Cong Mu, Hayden S. Helm, Kate Lytvynets, Weiwei Yang, Carey E. Priebe(参考訳) ディープニューラルネットワークはラベルノイズの影響を受けやすい。 メタラーニングや正規化といったロバスト性を改善する既存の手法は通常、ネットワークアーキテクチャに大きな変更や最適化手順の注意深く調整する必要がある。 本研究では,ディープラーニングモデルの学習時にラベル階層を組み込んだ単純な階層的手法を提案する。 このアプローチでは,ネットワークアーキテクチャや最適化手順の変更は不要である。 シミュレーションおよび実データと様々なラベルノイズタイプを用いて階層ネットワークを調査した。 我々の階層的アプローチは、ラベルノイズによる学習において、通常のディープニューラルネットワークを改善する。 事前学習されたモデルと階層的アプローチを組み合わせることで、実世界の騒がしいデータセットにおける最先端のパフォーマンスを実現します。

Deep neural networks are susceptible to label noise. Existing methods to improve robustness, such as meta-learning and regularization, usually require significant change to the network architecture or careful tuning of the optimization procedure. In this work, we propose a simple hierarchical approach that incorporates a label hierarchy when training the deep learning models. Our approach requires no change of the network architecture or the optimization procedure. We investigate our hierarchical network through a wide range of simulated and real datasets and various label noise types. Our hierarchical approach improves upon regular deep neural networks in learning with label noise. Combining our hierarchical approach with pre-trained models achieves state-of-the-art performance in real-world noisy datasets.
翻訳日:2022-05-31 14:47:12 公開日:2022-05-28
# フロント・サイドビュー画像からの3次元身体形状と衣服形状の推定

Estimation of 3D Body Shape and Clothing Measurements from Frontal- and Side-view Images ( http://arxiv.org/abs/2205.14347v1 )

ライセンス: Link先を確認
Kundan Sai Prabhu Thota, Sungho Suh, Bo Zhou, Paul Lukowicz(参考訳) 3次元人体形状と衣服寸法の推定はファッション業界における仮想試着やサイズ推奨問題において重要であるが、公開可能な現実的なデータセットの欠如、複数のカメラ解像度でのあいまいさ、定義不能な人間の形状空間など、いくつかの条件により、常に困難な問題となっている。 既存の研究はこれらの問題に対する様々な解決策を提案したが、複雑さと制約のために業界適応には成功しなかった。 本稿では,その複雑さと課題を解決するため,前面画像と側面画像から形状と測定値の両方を推定する簡易かつ効果的なアーキテクチャを提案する。 2つの多視点画像からシルエットセグメンテーションを活用し,セグメント化シルエットから低次元特徴を学習する自動エンコーダネットワークを実装した。 次に,体形状と測定値の推定にカーネルベースの正規化回帰モジュールを採用する。 実験結果から,提案手法は,合成データセット,nomo-3d-400-scansデータセット,rgb画像において,異なるカメラで撮影された人間の競合結果が得られることが示された。

The estimation of 3D human body shape and clothing measurements is crucial for virtual try-on and size recommendation problems in the fashion industry but has always been a challenging problem due to several conditions, such as lack of publicly available realistic datasets, ambiguity in multiple camera resolutions, and the undefinable human shape space. Existing works proposed various solutions to these problems but could not succeed in the industry adaptation because of complexity and restrictions. To solve the complexity and challenges, in this paper, we propose a simple yet effective architecture to estimate both shape and measures from frontal- and side-view images. We utilize silhouette segmentation from the two multi-view images and implement an auto-encoder network to learn low-dimensional features from segmented silhouettes. Then, we adopt a kernel-based regularized regression module to estimate the body shape and measurements. The experimental results show that the proposed method provides competitive results on the synthetic dataset, NOMO-3d-400-scans Dataset, and RGB Images of humans captured in different cameras.
翻訳日:2022-05-31 14:47:03 公開日:2022-05-28
# マジックのように見える: GANで新しいカードのイラストを作るためのトランスファー学習

Looks Like Magic: Transfer Learning in GANs to Generate New Card Illustrations ( http://arxiv.org/abs/2205.14442v1 )

ライセンス: Link先を確認
Matheus K. Venturelli, Pedro H. Gomes, J\^onatas Wehrmann(参考訳) 本稿では,magicstylegan と magicstylegan-ada という,最先端のstylegan2 と stylegan2 ada の2つのモデルを用いて,ゲーム "magic: the gathering" カードの広大な宇宙に対する新たなイラストを作成することを提案する。 これは特に、人間、生物、アーティファクト、風景といったこれらのイラストにみられる様々な要素のために、長年にわたって様々なアーティストによって作られたイメージの芸術スタイルが多様であることは言うまでもなく、困難な課題である。 その課題を解決するため,我々はmtgという新しいデータセットを導入し,多様なカードタイプから数千のイラストを抽出し,メタデータを豊富に活用した。 得られた集合は、現実的かつ幻想的なイラストの両方で作られた無数のデータセットである。 しかし、多様性の影響を調べるために、森林、島、顔、人間といった特定の種類の概念を含むサブセットも導入しました。 我々は、DCGANのような単純なモデルでは、任意の設定で適切なイラストを生成することを学べないことを示す。 一方、提案した全てのサブセットを使ってMAGICSTYLEGANのインスタンスをトレーニングし、高品質なイラストを作成できる。 StyleGan2の事前訓練済みの機能がターゲットドメインにどの程度転送できるかを理解するために実験を行う。 訓練されたモデルでは、データセットから実際の画像を現実的に表現するノイズベクトルの特定のインスタンスを見つけることができる。 さらに,我々の主張を裏付ける定量的および定性的な研究を行い,MAGICSTYLEGANがマジックイラストを生成する最先端のアプローチであることを実証した。 最後に, 生成学習研究の分野ではまだ未研究の分野である GAN における転帰学習に関する諸特性について述べる。

In this paper, we propose MAGICSTYLEGAN and MAGICSTYLEGAN-ADA - both incarnations of the state-of-the-art models StyleGan2 and StyleGan2 ADA - to experiment with their capacity of transfer learning into a rather different domain: creating new illustrations for the vast universe of the game "Magic: The Gathering" cards. This is a challenging task especially due to the variety of elements present in these illustrations, such as humans, creatures, artifacts, and landscapes - not to mention the plethora of art styles of the images made by various artists throughout the years. To solve the task at hand, we introduced a novel dataset, named MTG, with thousands of illustration from diverse card types and rich in metadata. The resulting set is a dataset composed by a myriad of both realistic and fantasy-like illustrations. Although, to investigate effects of diversity we also introduced subsets that contain specific types of concepts, such as forests, islands, faces, and humans. We show that simpler models, such as DCGANs, are not able to learn to generate proper illustrations in any setting. On the other side, we train instances of MAGICSTYLEGAN using all proposed subsets, being able to generate high quality illustrations. We perform experiments to understand how well pre-trained features from StyleGan2 can be transferred towards the target domain. We show that in well trained models we can find particular instances of noise vector that realistically represent real images from the dataset. Moreover, we provide both quantitative and qualitative studies to support our claims, and that demonstrate that MAGICSTYLEGAN is the state-of-the-art approach for generating Magic illustrations. Finally, this paper highlights some emerging properties regarding transfer learning in GANs, which is still a somehow under-explored field in generative learning research.
翻訳日:2022-05-31 14:46:42 公開日:2022-05-28
# 変分トランスフォーマー:画像キャプションにおける精度と多様性のトレードオフを超えた枠組み

Variational Transformer: A Framework Beyond the Trade-off between Accuracy and Diversity for Image Captioning ( http://arxiv.org/abs/2205.14458v1 )

ライセンス: Link先を確認
Longzhen Yang, Shaohua Shang, Yihang Liu, Yitao Peng, Lianghua He(参考訳) 正確さと多様性は、自然および意味的に正しいキャプションを生成する上で重要な2つの特徴である。 トレードオフのギャップにより、一方が崩壊し、他方が強化されるよう多くの努力がなされている。 しかし、妥協は進展しない。 多様性の低下によりキャプターはリピータとなり、精度の低下により偽のアドバイザとなる。 本研究では,新しい変分変換器のフレームワークを用いて,精度と多様性を同時に向上する。 正確性を確保するために,エンコーダに異なる場面で正確な言語情報と対象関係を学習するよう指示する"auto-selectable gmm"と共に,"invisible information prior"を導入する。 多様性を確保するため,RLベースのトレーニングプロセスにおいて,より多様な候補をより高い報酬で維持する"Range-Median Reward"ベースラインを提案する。 実験の結果,本手法はベースラインに比べて1.1~4.8%の精度(CIDEr)と多様性(自己CIDEr)の同時促進を実現していることがわかった。 また,本手法は,新たに提案するトレードオフギャップの測定結果よりも優れており,少なくとも3.55パーセントの促進が期待できる。

Accuracy and Diversity are two essential metrizable manifestations in generating natural and semantically correct captions. Many efforts have been made to enhance one of them with another decayed due to the trade-off gap. However, compromise does not make the progress. Decayed diversity makes the captioner a repeater, and decayed accuracy makes it a fake advisor. In this work, we exploit a novel Variational Transformer framework to improve accuracy and diversity simultaneously. To ensure accuracy, we introduce the "Invisible Information Prior" along with the "Auto-selectable GMM" to instruct the encoder to learn the precise language information and object relation in different scenes. To ensure diversity, we propose the "Range-Median Reward" baseline to retain more diverse candidates with higher rewards during the RL-based training process. Experiments show that our method achieves the simultaneous promotion of accuracy (CIDEr) and diversity (self-CIDEr), up to 1.1 and 4.8 percent, compared with the baseline. Also, our method outperforms others under the newly proposed measurement of the trade-off gap, with at least 3.55 percent promotion.
翻訳日:2022-05-31 14:46:10 公開日:2022-05-28
# CyCLIP: サイクルコントラスト言語-画像事前学習

CyCLIP: Cyclic Contrastive Language-Image Pretraining ( http://arxiv.org/abs/2205.14459v1 )

ライセンス: Link先を確認
Shashank Goel, Hritik Bansal, Sumit Bhatia, Ryan A. Rossi, Vishwa Vinay, Aditya Grover(参考訳) ペア画像テキストデータに対するコントラスト表現学習の最近の進歩は、ゼロショット分類と分布ロバスト性のための最先端性能を達成するCLIPのようなモデルにつながっている。 このようなモデルは通常、下流推論タスクのために画像とテキスト表現空間で共同推論を必要とする。 従来の信念とは対照的に,標準のコントラスト目標で学習した画像表現とテキスト表現は交換可能ではなく,一貫性のない下流予測につながる可能性がある。 この問題を軽減するために,画像空間とテキスト空間において幾何的整合性を持つように学習された表現を明示的に最適化するコントラスト表現学習フレームワークであるCyCLIPを提案する。 特に,一貫した表現は明示的対称性によって学習可能であることを示す。 (a)2つの不一致な画像テキスト対(相互整合性)と類似性 b)画像-画像対とテキスト-テキスト対(モーダル整合性)の類似性。 実験により,CLIPに比べてCyCLIPの一貫性が向上し,標準ベンチマーク(CIFAR-10, CIFAR-100, ImageNet1K)のゼロショット分類精度が10%-24%,様々な自然分布シフトに対するロバストネスが10%-27%に向上したことを示す。 コードはhttps://github.com/goel-shashank/CyCLIPで入手できる。

Recent advances in contrastive representation learning over paired image-text data have led to models such as CLIP that achieve state-of-the-art performance for zero-shot classification and distributional robustness. Such models typically require joint reasoning in the image and text representation spaces for downstream inference tasks. Contrary to prior beliefs, we demonstrate that the image and text representations learned via a standard contrastive objective are not interchangeable and can lead to inconsistent downstream predictions. To mitigate this issue, we formalize consistency and propose CyCLIP, a framework for contrastive representation learning that explicitly optimizes for the learned representations to be geometrically consistent in the image and text space. In particular, we show that consistent representations can be learned by explicitly symmetrizing (a) the similarity between the two mismatched image-text pairs (cross-modal consistency); and (b) the similarity between the image-image pair and the text-text pair (in-modal consistency). Empirically, we show that the improved consistency in CyCLIP translates to significant gains over CLIP, with gains ranging from 10%-24% for zero-shot classification accuracy on standard benchmarks (CIFAR-10, CIFAR-100, ImageNet1K) and 10%-27% for robustness to various natural distribution shifts. The code is available at https://github.com/goel-shashank/CyCLIP.
翻訳日:2022-05-31 14:45:47 公開日:2022-05-28
# Divide to Adapt: Black-Box予測子のドメイン適応に対する確認バイアスの緩和

Divide to Adapt: Mitigating Confirmation Bias for Domain Adaptation of Black-Box Predictors ( http://arxiv.org/abs/2205.14467v1 )

ライセンス: Link先を確認
Jianfei Yang, Xiangyu Peng, Kai Wang, Zheng Zhu, Jiashi Feng, Lihua Xie, Yang You(参考訳) black-box predictor(dabp)のドメイン適応は、ソースドメインでトレーニングされたblack-box predictorによって監視されたラベルなしのターゲットドメインでモデルを学ぶことを目的としている。 ソースドメインデータと予測パラメータの両方にアクセスする必要はないため、標準ドメイン適応におけるデータのプライバシとポータビリティの問題に対処する。 既存のdabpアプローチは、主にブラックボックス予測器 \emph{i.e.} からのモデル蒸留に依存しており、ノイズの多いターゲットドメイン予測でモデルを訓練しているが、予測ノイズから蓄積された確認バイアスは必然的に導入される。 このようなバイアスを軽減するため,知識蒸留と雑音ラベル学習を1つのコヒーレントな枠組みに組み込む新しい手法BETAを提案する。 これは新しい分割・適応戦略によって実現される。 BETAは、ターゲットドメインをノイズが少なく、適応が難しいサブドメインに分割する。 そして、相互に学習するツインネットワークをデプロイし、お互いの予測エラーをフィルタリングし、容易にハードなサブドメインから徐々に改善する。 このため、BETAはノイズラベルを効果的に浄化し、エラー蓄積を低減する。 理論的には、BETAの目標誤差はサブドメインの雑音比を小さくすることで最小化される。 広範な実験は、すべてのdabpベンチマークで既存のメソッドよりもベータの方が優れており、ソースドメインデータを使用する標準ドメイン適応メソッドと同等である。

Domain Adaptation of Black-box Predictors (DABP) aims to learn a model on an unlabeled target domain supervised by a black-box predictor trained on a source domain. It does not require access to both the source-domain data and the predictor parameters, thus addressing the data privacy and portability issues of standard domain adaptation. Existing DABP approaches mostly rely on model distillation from the black-box predictor, \emph{i.e.}, training the model with its noisy target-domain predictions, which however inevitably introduces the confirmation bias accumulated from the prediction noises. To mitigate such bias, we propose a new method, named BETA, to incorporate knowledge distillation and noisy label learning into one coherent framework. This is enabled by a new divide-to-adapt strategy. BETA divides the target domain into an easy-to-adapt subdomain with less noise and a hard-to-adapt subdomain. Then it deploys mutually-teaching twin networks to filter the predictor errors for each other and improve them progressively, from the easy to hard subdomains. As such, BETA effectively purifies the noisy labels and reduces error accumulation. We theoretically show that the target error of BETA is minimized by decreasing the noise ratio of the subdomains. Extensive experiments demonstrate BETA outperforms existing methods on all DABP benchmarks, and is even comparable with the standard domain adaptation methods that use the source-domain data.
翻訳日:2022-05-31 14:45:24 公開日:2022-05-28
# 結合TgNN代理モデルによる多孔質媒質中の二相流の不確かさ定量化

Uncertainty quantification of two-phase flow in porous media via coupled-TgNN surrogate model ( http://arxiv.org/abs/2205.14301v1 )

ライセンス: Link先を確認
Jian Li, Dongxiao Zhang, Tianhao He, Qiang Zheng(参考訳) 地下二相流の不確実性定量化(UQ)は通常、様々な条件下でのフォワードシミュレーションの多数の実行を必要とする。 本研究では,理論誘導ニューラルネットワーク(TgNN)をベースとした新しいサロゲートモデルを構築し,良好な精度で計算効率を向上させる。 提案手法の中核となる概念は,ネットワーク上の2つのブロックをブリッジすることである。 彼らは2相流方程式における圧力と水飽和のカップリング特性を反映した結合型TgNNモデルを実現する。 TgNNモデルはラベル付きデータだけでなく、基礎となる科学理論や経験則(例えば、支配方程式、確率的パラメータフィールド、境界条件と初期条件、井戸条件、専門家知識)を損失関数に追加成分として組み込んでいる。 2相流問題に対するTgNNに基づく代理モデルの性能は、ラベル付きデータとコロケーション点の数、およびデータノイズの存在によって検証される。 提案するtgnn-based surrogateモデルは,結合非線形二相流問題を解く効果的な方法を提供し,純粋データ駆動サーロゲートモデルと比較して精度と頑健性を示す。 正確なTgNNベースの代理モデルとモンテカルロ法を組み合わせることで、UQタスクを最小コストで実行し、統計量を評価することができる。 確率場の不均一性はサロゲートモデルの結果に強く影響するため、ニューラルネットワークの入力に対応する分散と相関長を追加して予測能力を維持する。 その結果, 地下二相流におけるUQ問題の精度, 安定性, 効率性はTgNNに基づくサロゲートモデルにより達成できた。

Uncertainty quantification (UQ) of subsurface two-phase flow usually requires numerous executions of forward simulations under varying conditions. In this work, a novel coupled theory-guided neural network (TgNN) based surrogate model is built to facilitate computation efficiency under the premise of satisfactory accuracy. The core notion of this proposed method is to bridge two separate blocks on top of an overall network. They underlie the TgNN model in a coupled form, which reflects the coupling nature of pressure and water saturation in the two-phase flow equation. The TgNN model not only relies on labeled data, but also incorporates underlying scientific theory and experiential rules (e.g., governing equations, stochastic parameter fields, boundary and initial conditions, well conditions, and expert knowledge) as additional components into the loss function. The performance of the TgNN-based surrogate model for two-phase flow problems is tested by different numbers of labeled data and collocation points, as well as the existence of data noise. The proposed TgNN-based surrogate model offers an effective way to solve the coupled nonlinear two-phase flow problem and demonstrates good accuracy and strong robustness when compared with the purely data-driven surrogate model. By combining the accurate TgNN-based surrogate model with the Monte Carlo method, UQ tasks can be performed at a minimum cost to evaluate statistical quantities. Since the heterogeneity of the random fields strongly impacts the results of the surrogate model, corresponding variance and correlation length are added to the input of the neural network to maintain its predictive capacity. The results show that the TgNN-based surrogate model achieves satisfactory accuracy, stability, and efficiency in UQ problems of subsurface two-phase flow.
翻訳日:2022-05-31 14:38:44 公開日:2022-05-28
# フェアラベルクラスタリング

Fair Labeled Clustering ( http://arxiv.org/abs/2205.14358v1 )

ライセンス: Link先を確認
Seyed A. Esmaeili, Sharmila Duppala, John P. Dickerson, Brian Brubach(参考訳) 様々なフェアネスの概念の下でクラスタリングの基本的な問題のために多くのアルゴリズムが作成されている。 おそらく、現在研究されている最も一般的な概念の族は群フェアネスであり、比例群表現はすべてのクラスターで保証される。 このような状況下でのクラスタ化の下流適用と,グループフェア性を保証する方法を考えることで,この方向を拡張する。 具体的には、意思決定者がクラスタリングアルゴリズムを実行し、各クラスタの中央を検査し、対応するクラスタの適切な結果(ラベル)を決定する共通設定を検討する。 例えば、採用する場合には、正(hire)と負(reject)の2つの結果があり、各クラスタには2つの結果のうちの1つが割り当てられる。 このような設定でグループフェア性を確保するためには、すべてのラベルに比例するグループ表現を希望するが、グループフェアクラスタリングで行われているように、すべてのクラスタで必ずしもそうではない。 このような問題に対するアルゴリズムを提供し,グループフェアクラスタリングにおけるnp-hard対応とは対照的に,効率的な解法を実現できることを示す。 また, 計量空間における中心の位置に関係なく, 意思決定者が自由にクラスタにラベルを割り当てることができるような, モチベーションの高い代替設定も検討する。 この設定は,問題に対する追加的な制約により計算困難から容易への興味深い遷移を示す。 さらに、制約パラメータが自然の値を取ると、常に最適なクラスタリングを達成し、期待される公正性制約を満たすこの設定に対するランダム化アルゴリズムを示す。 最後に,実世界のデータセットで実験を行い,アルゴリズムの有効性を検証する。

Numerous algorithms have been produced for the fundamental problem of clustering under many different notions of fairness. Perhaps the most common family of notions currently studied is group fairness, in which proportional group representation is ensured in every cluster. We extend this direction by considering the downstream application of clustering and how group fairness should be ensured for such a setting. Specifically, we consider a common setting in which a decision-maker runs a clustering algorithm, inspects the center of each cluster, and decides an appropriate outcome (label) for its corresponding cluster. In hiring for example, there could be two outcomes, positive (hire) or negative (reject), and each cluster would be assigned one of these two outcomes. To ensure group fairness in such a setting, we would desire proportional group representation in every label but not necessarily in every cluster as is done in group fair clustering. We provide algorithms for such problems and show that in contrast to their NP-hard counterparts in group fair clustering, they permit efficient solutions. We also consider a well-motivated alternative setting where the decision-maker is free to assign labels to the clusters regardless of the centers' positions in the metric space. We show that this setting exhibits interesting transitions from computationally hard to easy according to additional constraints on the problem. Moreover, when the constraint parameters take on natural values we show a randomized algorithm for this setting that always achieves an optimal clustering and satisfies the fairness constraints in expectation. Finally, we run experiments on real world datasets that validate the effectiveness of our algorithms.
翻訳日:2022-05-31 14:38:15 公開日:2022-05-28
# 粒状一般化可変精度粗集合と合理的近似

Granular Generalized Variable Precision Rough Sets and Rational Approximations ( http://arxiv.org/abs/2205.14365v1 )

ライセンス: Link先を確認
Mani A and Sushmita Mitra(参考訳) 近年の研究論文において、第一著者により、粒度の次数集合とその一般化に合理的近似を導入、研究している。 合理性の概念は、文脈で用いられる粒度、部分的視点、近似の間の関係するオントロジーとコヒーレンスによって決定される。 また、前述の論文(s)で、彼女によってフレームワークが紹介されている。 VPRSの手順に従って構築された粒状近似は、ある条件下で古典的な視点から構築されたものよりも合理的である可能性が高い。 これは前者のいくつかの一般化に対して継続されるが、そのような条件の形式的特徴付けは以前に出版された文献では利用できない。 本研究では, 問題の理論的側面を批判的に検討し, 粒状vprの一様一般化を導入し, 粒状粗さ集合との新たな接続を証明し, 実質的部分集合の適切な概念を導入し, フレームワークとの互換性の程度にアクセスする。 さらに,クラスタ検証,画像分割,動的ソートなどのメタ応用が提案されている。 基本的な仮定が説明され、可読性のための追加の例が構築される。

Rational approximations are introduced and studied in granular graded sets and generalizations thereof by the first author in recent research papers. The concept of rationality is determined by related ontologies and coherence between granularity, parthood perspective and approximations used in the context. In addition, a framework is introduced by her in the mentioned paper(s). Granular approximations constructed as per the procedures of VPRS are likely to be more rational than those constructed from a classical perspective under certain conditions. This may continue to hold for some generalizations of the former; however, a formal characterization of such conditions is not available in the previously published literature. In this research, theoretical aspects of the problem are critically examined, uniform generalizations of granular VPRS are introduced, new connections with granular graded rough sets are proved, appropriate concepts of substantial parthood are introduced, and their extent of compatibility with the framework is accessed. Furthermore, meta applications to cluster validation, image segmentation and dynamic sorting are invented. Basic assumptions made are explained, and additional examples are constructed for readability.
翻訳日:2022-05-31 14:37:49 公開日:2022-05-28
# ゼロオーバーヘッドによるDNNの信頼性向上のためのフォールト・アウェア設計とトレーニング

Fault-Aware Design and Training to Enhance DNNs Reliability with Zero-Overhead ( http://arxiv.org/abs/2205.14420v1 )

ライセンス: Link先を確認
Niccol\`o Cavagnero, Fernando Dos Santos, Marco Ciccone, Giuseppe Averta, Tatiana Tommasi, Paolo Rech(参考訳) ディープニューラルネットワーク(DNN)は、臨床画像から予測産業保守や自動運転まで、幅広い技術的進歩を可能にする。 しかし,近年の研究では,過渡的ハードウェア故障がモデル予測を劇的に悪化させる可能性が示唆されている。 例えば、放射線によって引き起こされる誤った予測確率は、大規模にdnnsモデルの安全な展開を妨げるほど高く、効率的で効果的なハードニングソリューションの必要性を示唆する。 本研究では,トレーニングとモデル設計の両面で信頼性の問題に取り組むことを提案する。 まず,バニラモデルが過渡的障害の影響を強く受けていることを示し,性能が最大37%低下することを示した。 したがって、DNNの再設計と再訓練に基づく3つのゼロオーバーヘッドソリューションを提供し、DNNの信頼性を1桁まで向上させることができる。 我々は,各硬化成分の性能向上を定量化するために,広範囲なアブレーション研究を行い,その成果を補完する。

Deep Neural Networks (DNNs) enable a wide series of technological advancements, ranging from clinical imaging, to predictive industrial maintenance and autonomous driving. However, recent findings indicate that transient hardware faults may corrupt the models prediction dramatically. For instance, the radiation-induced misprediction probability can be so high to impede a safe deployment of DNNs models at scale, urging the need for efficient and effective hardening solutions. In this work, we propose to tackle the reliability issue both at training and model design time. First, we show that vanilla models are highly affected by transient faults, that can induce a performances drop up to 37%. Hence, we provide three zero-overhead solutions, based on DNN re-design and re-train, that can improve DNNs reliability to transient faults up to one order of magnitude. We complement our work with extensive ablation studies to quantify the gain in performances of each hardening component.
翻訳日:2022-05-31 14:37:31 公開日:2022-05-28
# ロバストな分子画像認識:グラフ生成アプローチ

Robust Molecular Image Recognition: A Graph Generation Approach ( http://arxiv.org/abs/2205.14311v1 )

ライセンス: Link先を確認
Yujie Qian, Zhengkai Tu, Jiang Guo, Connor W. Coley, Regina Barzilay(参考訳) 分子画像認識は化学文献からの情報抽出における基本課題である。 以前のデータ駆動モデルは、それを画像からシーケンスへのタスクとして定式化し、そのグラフィカル表現から分子(例えば、スマイル弦)のシーケンシャルな表現を生成する。 特定のベンチマークで適切に機能するが、これらのモデルは、分子画像がスタイル、品質、化学パターンが異なる現実世界では堅牢ではない。 本稿では,分子グラフを構成するために,原子と結合とその幾何学的レイアウトを明示的に予測する新しいグラフ生成手法を提案する。 我々は、ドメインシフトに対するモデルの堅牢性を高めるために、分子と画像のデータ強化戦略を開発する。 我々のモデルは化学制約を組み込む柔軟性があり、SMILESよりも解釈可能な予測を生成する。 合成および現実的な分子画像を用いた実験では,5つのベンチマークで84-93%の精度を得た。 また, 人による評価を行い, 化学者が画像から分子構造を抽出するのに要する時間を約50%短縮することを示した。

Molecular image recognition is a fundamental task in information extraction from chemistry literature. Previous data-driven models formulate it as an image-to-sequence task, to generate a sequential representation of the molecule (e.g. SMILES string) from its graphical representation. Although they perform adequately on certain benchmarks, these models are not robust in real-world situations, where molecular images differ in style, quality, and chemical patterns. In this paper, we propose a novel graph generation approach that explicitly predicts atoms and bonds, along with their geometric layouts, to construct the molecular graph. We develop data augmentation strategies for molecules and images to increase the robustness of our model against domain shifts. Our model is flexible to incorporate chemistry constraints, and produces more interpretable predictions than SMILES. In experiments on both synthetic and realistic molecular images, our model significantly outperforms previous models, achieving 84-93% accuracy on five benchmarks. We also conduct human evaluation and show that our model reduces the time for a chemist to extract molecular structures from images by roughly 50%.
翻訳日:2022-05-31 14:24:13 公開日:2022-05-28
# Point-M2AE:階層型ポイントクラウド事前学習のためのマルチスケールマスクオートエンコーダ

Point-M2AE: Multi-scale Masked Autoencoders for Hierarchical Point Cloud Pre-training ( http://arxiv.org/abs/2205.14401v1 )

ライセンス: Link先を確認
Renrui Zhang, Ziyu Guo, Peng Gao, Rongyao Fang, Bin Zhao, Dong Wang, Yu Qiao, Hongsheng Li(参考訳) Masked Autoencoders (MAE) は、言語と2次元画像変換器の自己教師付き事前学習において大きな可能性を示している。 しかし、不規則な点雲の3d表現を学習するためにマスク付き自動エンコーディングをどのように利用するかという疑問はまだ残っていない。 本稿では,3次元点雲の階層的自己教師型学習のためのマルチスケールMAE事前学習フレームワークであるPoint-M2AEを提案する。 MAEの標準変換器とは異なり、エンコーダとデコーダをピラミッドアーキテクチャに修正し、空間的ジオメトリを段階的にモデル化し、3次元形状の細粒度と高レベルのセマンティクスをキャプチャする。 ポイントトークンを段階的にダウンサンプリングするエンコーダでは、スケールをまたいだ一貫した可視領域を生成するためのマルチスケールマスキング戦略を設計し、近隣パターンに焦点を合わせるために局所的な空間自己保持機構を採用する。 マルチスケールのトークン伝搬により、軽量デコーダは、エンコーダからのスキップ接続を補完するポイントトークンを徐々にサンプリングし、グローバルからローカルへの視点で再構築を促進する。 3次元表現学習におけるPoint-M2AEの最先端性能を示す実験を行った。 事前トレーニング後の凍結エンコーダにより、Point-M2AEはModelNet40上の線形SVMの92.9%の精度を達成した。 下流のタスクを微調整することで、Point-M2AEはScanObjectNNの86.43%の精度を達成し、+3.36%は第2のベットに到達した。 コードはhttps://github.com/ZrrSkywalker/Point-M2AEで入手できる。

Masked Autoencoders (MAE) have shown great potentials in self-supervised pre-training for language and 2D image transformers. However, it still remains an open question on how to exploit masked autoencoding for learning 3D representations of irregular point clouds. In this paper, we propose Point-M2AE, a strong Multi-scale MAE pre-training framework for hierarchical self-supervised learning of 3D point clouds. Unlike the standard transformer in MAE, we modify the encoder and decoder into pyramid architectures to progressively model spatial geometries and capture both fine-grained and high-level semantics of 3D shapes. For the encoder that downsamples point tokens by stages, we design a multi-scale masking strategy to generate consistent visible regions across scales, and adopt a local spatial self-attention mechanism to focus on neighboring patterns. By multi-scale token propagation, the lightweight decoder gradually upsamples point tokens with complementary skip connections from the encoder, which further promotes the reconstruction from a global-to-local perspective. Extensive experiments demonstrate the state-of-the-art performance of Point-M2AE for 3D representation learning. With a frozen encoder after pre-training, Point-M2AE achieves 92.9% accuracy for linear SVM on ModelNet40, even surpassing some fully trained methods. By fine-tuning on downstream tasks, Point-M2AE achieves 86.43% accuracy on ScanObjectNN, +3.36% to the second-best, and largely benefits the few-shot classification, part segmentation and 3D object detection with the hierarchical pre-training scheme. Code will be available at https://github.com/ZrrSkywalker/Point-M2AE.
翻訳日:2022-05-31 14:23:43 公開日:2022-05-28
# MDMLP:MLPを用いた小さなデータセット上のスクラッチからの画像分類

MDMLP: Image Classification from Scratch on Small Datasets with MLP ( http://arxiv.org/abs/2205.14477v1 )

ライセンス: Link先を確認
Tian Lv, Chongyang Bai, Chaojie Wang(参考訳) 注意機構は自然言語処理やコンピュータビジョンタスクのゴーツーテクニックとなっている。 近年,マルチ層パーセプトロン(MLP)をベースとしたMLP-Mixerおよび他のMLPアーキテクチャは,CNNやアテンション技術と比較しても強力であり,新たな研究方向性がもたらされている。 しかしながら、mlpベースのネットワークの能力は、大量のトレーニングデータに大きく依存しており、視覚トランスフォーマー(vit)やconvnetsと比較して説明能力が不足している。 小さなデータセットでトレーニングすると、通常、ConvNetsよりも劣った結果が得られる。 それを解決するために、我々は (i)MDMLP(MDMLP)は、概念的にシンプルで軽量なMLPベースのアーキテクチャで、小型データセットをスクラッチからトレーニングする際にはSOTAを実現する。 (II)MLPに基づく新規かつ効率的な注意機構であるMDAttnTool(MDAttnTool)。 強力なデータ拡張がなくても、MDMLPは0.3MパラメータでCIFAR10上で90.90%の精度を達成し、MLP-Mixerは85.45%と17.1Mパラメータで達成している。 さらに、軽量のMDAttnToolは画像中のオブジェクトをハイライトし、説明力を示している。 私たちのコードはhttps://github.com/Amoza-Theodore/MDMLP.comで利用可能です。

The attention mechanism has become a go-to technique for natural language processing and computer vision tasks. Recently, the MLP-Mixer and other MLP-based architectures, based simply on multi-layer perceptrons (MLPs), are also powerful compared to CNNs and attention techniques and raises a new research direction. However, the high capability of the MLP-based networks severely relies on large volume of training data, and lacks of explanation ability compared to the Vision Transformer (ViT) or ConvNets. When trained on small datasets, they usually achieved inferior results than ConvNets. To resolve it, we present (i) multi-dimensional MLP (MDMLP), a conceptually simple and lightweight MLP-based architecture yet achieves SOTA when training from scratch on small-size datasets; (ii) multi-dimension MLP Attention Tool (MDAttnTool), a novel and efficient attention mechanism based on MLPs. Even without strong data augmentation, MDMLP achieves 90.90% accuracy on CIFAR10 with only 0.3M parameters, while the well-known MLP-Mixer achieves 85.45% with 17.1M parameters. In addition, the lightweight MDAttnTool highlights objects in images, indicating its explanation power. Our code is available at https://github.com/Amoza-Theodore/MDMLP.
翻訳日:2022-05-31 14:23:00 公開日:2022-05-28
# BadDet: オブジェクト検出のバックドア攻撃

BadDet: Backdoor Attacks on Object Detection ( http://arxiv.org/abs/2205.14497v1 )

ライセンス: Link先を確認
Shih-Han Chan, Yinpeng Dong, Jun Zhu, Xiaolu Zhang, Jun Zhou(参考訳) ディープラーニングモデルは、自動運転や監視など、現実世界のさまざまなアプリケーションにデプロイされている。 しかし、これらのモデルは敵の環境に弱い。 バックドア攻撃は、トレーニングデータの一部にバックドアトリガーを注入する深刻なセキュリティ脅威として現れており、トレーニングされたモデルは正常な入力で振る舞うが、特定のトリガーが現れると誤った予測を与える。 バックドア攻撃は画像分類に焦点が当てられているが、対象物検出に対するバックドア攻撃は検討されていない。 オブジェクト検出は、自動運転のような様々なセキュリティに敏感なアプリケーションにおいて重要なモジュールとして採用されている。 そのため、物体検出に対するバックドア攻撃は人命や財産に深刻な脅威をもたらす可能性がある。 対象物検出のための4種類のバックドア攻撃を提案する。 1) オブジェクト生成攻撃: トリガーはターゲットクラスのオブジェクトを誤って生成することができる。 2 地域過誤分類攻撃:トリガーは、周囲の物体の予測を目標クラスに変更することができる。 3) グローバルミス分類攻撃: 単一のトリガーは、画像内のすべてのオブジェクトの予測をターゲットクラスに変更することができる。 4) オブジェクトの障害攻撃: トリガーは、ターゲットクラスのオブジェクトを検出するのに失敗する可能性がある。 対象物検出に対する4つのバックドア攻撃を評価するための適切な指標を開発した。 我々は、異なるデータセット上で、Faster-RCNNとYOLOv3という2つの典型的なオブジェクト検出モデルを用いて実験を行う。 さらに重要なことは、別の良性データセットを微調整しても、オブジェクト検出モデルに隠されたバックドアを除去できないことを示しています。 このようなバックドア攻撃に対する防御策として,エントロピーをベースとした実行時検出フレームワークである Detector Cleanse を提案する。

Deep learning models have been deployed in numerous real-world applications such as autonomous driving and surveillance. However, these models are vulnerable in adversarial environments. Backdoor attack is emerging as a severe security threat which injects a backdoor trigger into a small portion of training data such that the trained model behaves normally on benign inputs but gives incorrect predictions when the specific trigger appears. While most research in backdoor attacks focuses on image classification, backdoor attacks on object detection have not been explored but are of equal importance. Object detection has been adopted as an important module in various security-sensitive applications such as autonomous driving. Therefore, backdoor attacks on object detection could pose severe threats to human lives and properties. We propose four kinds of backdoor attacks for object detection task: 1) Object Generation Attack: a trigger can falsely generate an object of the target class; 2) Regional Misclassification Attack: a trigger can change the prediction of a surrounding object to the target class; 3) Global Misclassification Attack: a single trigger can change the predictions of all objects in an image to the target class; and 4) Object Disappearance Attack: a trigger can make the detector fail to detect the object of the target class. We develop appropriate metrics to evaluate the four backdoor attacks on object detection. We perform experiments using two typical object detection models -- Faster-RCNN and YOLOv3 on different datasets. More crucially, we demonstrate that even fine-tuning on another benign dataset cannot remove the backdoor hidden in the object detection model. To defend against these backdoor attacks, we propose Detector Cleanse, an entropy-based run-time detection framework to identify poisoned testing samples for any deployed object detector.
翻訳日:2022-05-31 14:22:35 公開日:2022-05-28
# ニューラルモデル近似による近似条件被覆

Approximate Conditional Coverage via Neural Model Approximations ( http://arxiv.org/abs/2205.14310v1 )

ライセンス: Link先を確認
Allen Schmaltz and Danielle Rasooly(参考訳) 分布のない条件付きカバレッジは理論的には不可能であり、標準的な分割型アプローチのカバレッジを保証する交換可能性の仮定はドメインシフトに違反する。 これらの課題を踏まえ、実験的に信頼性の高い近似条件付きカバレッジを得るためのデータ駆動手法の提案と解析を行い、各テストポイントのラベルごとに独自の量子しきい値を算出する。 学習セット上でのknnモデル近似とホールドアウトキャリブレーションセットからの制約付きサンプルに対する近似から予測信頼性を推定する強信号を用いてこれを達成する。 We demonstrate the potential for substantial (and otherwise unknowable) under-coverage with split-conformal alternatives with marginal coverage guarantees when not taking these distances and constraints into account with protein secondary structure prediction, grammatical error detection, sentiment classification, and fact verification, covering supervised sequence labeling, zero-shot sequence labeling (i.e., feature detection), document classification (with sparsity/interpretability constraints), and retrieval-classification, including class-imbalanced and domain-shifted settings.

Constructing reliable prediction sets is an obstacle for applications of neural models: Distribution-free conditional coverage is theoretically impossible, and the exchangeability assumption underpinning the coverage guarantees of standard split-conformal approaches is violated on domain shifts. Given these challenges, we propose and analyze a data-driven procedure for obtaining empirically reliable approximate conditional coverage, calculating unique quantile thresholds for each label for each test point. We achieve this via the strong signals for prediction reliability from KNN-based model approximations over the training set and approximations over constrained samples from the held-out calibration set. We demonstrate the potential for substantial (and otherwise unknowable) under-coverage with split-conformal alternatives with marginal coverage guarantees when not taking these distances and constraints into account with protein secondary structure prediction, grammatical error detection, sentiment classification, and fact verification, covering supervised sequence labeling, zero-shot sequence labeling (i.e., feature detection), document classification (with sparsity/interpretability constraints), and retrieval-classification, including class-imbalanced and domain-shifted settings.
翻訳日:2022-05-31 14:18:50 公開日:2022-05-28
# 教師なし文要約探索による非自己回帰モデル学習

Learning Non-Autoregressive Models from Search for Unsupervised Sentence Summarization ( http://arxiv.org/abs/2205.14521v1 )

ライセンス: Link先を確認
Puyuan Liu, Chenyang Huang, Lili Mou(参考訳) テキスト要約は、入力テキストの短い要約を生成することを目的としている。 本研究では,非自己回帰的非教師付き要約(NAUS)アプローチを提案する。 我々のNAUSはまず、ヒューリスティックに定義されたスコアに対する編集ベースの検索を行い、擬似グラウンドトゥルスとして要約を生成する。 そして、検索結果に基づいてエンコーダのみの非自己回帰変換器を訓練する。 また,要約タスクにおいて重要な長さ制御復号化のための動的プログラミング手法を提案する。 2つのデータセットの実験では、NAUSは教師なしの要約のために最先端のパフォーマンスを達成するが、推論効率は大幅に改善している。 さらに,提案アルゴリズムは,明示的な長さ移動要約生成を行うことができる。

Text summarization aims to generate a short summary for an input text. In this work, we propose a Non-Autoregressive Unsupervised Summarization (NAUS) approach, which does not require parallel data for training. Our NAUS first performs edit-based search towards a heuristically defined score, and generates a summary as pseudo-groundtruth. Then, we train an encoder-only non-autoregressive Transformer based on the search result. We also propose a dynamic programming approach for length-control decoding, which is important for the summarization task. Experiments on two datasets show that NAUS achieves state-of-the-art performance for unsupervised summarization, yet largely improving inference efficiency. Further, our algorithm is able to perform explicit length-transfer summary generation.
翻訳日:2022-05-31 14:18:34 公開日:2022-05-28
# 非自己回帰文要約のための文字レベル長制御アルゴリズム

A Character-Level Length-Control Algorithm for Non-Autoregressive Sentence Summarization ( http://arxiv.org/abs/2205.14522v1 )

ライセンス: Link先を確認
Puyuan Liu, Xiang Zhang, Lili Mou(参考訳) 文要約は、長文を主幹を保持する短い文に圧縮することを目的としており、見出し生成のような広範囲の現実世界の応用がある。 従来の研究では,要約の主評価基準であるROUGEスコアを改善するための様々な手法が開発されているが,要約長の制御はあまり注目されていない。 本研究では,要約のための明示的な文字レベル長制御の新たな問題に対処し,コネクショニスト時間分類(ctc)モデルに基づく動的プログラミングアルゴリズムを提案する。 その結果,より高いルージュスコアが得られるだけでなく,より完全な文が得られることがわかった。

Sentence summarization aims at compressing a long sentence into a short one that keeps the main gist, and has extensive real-world applications such as headline generation. In previous work, researchers have developed various approaches to improve the ROUGE score, which is the main evaluation metric for summarization, whereas controlling the summary length has not drawn much attention. In our work, we address a new problem of explicit character-level length control for summarization, and propose a dynamic programming algorithm based on the Connectionist Temporal Classification (CTC) model. Results show that our approach not only achieves higher ROUGE scores but also yields more complete sentences.
翻訳日:2022-05-31 14:17:34 公開日:2022-05-28
# 分散ネットワークのための分散整合性保存を用いたディープ組込みクラスタリング

Deep Embedded Clustering with Distribution Consistency Preservation for Attributed Networks ( http://arxiv.org/abs/2205.14303v1 )

ライセンス: Link先を確認
Yimei Zheng, Caiyan Jia, Jian Yu, Xuanya Li(参考訳) 現実世界の多くの複雑なシステムは属性ネットワークによって特徴づけられる。 これらのネットワークの潜在的な情報をマイニングするために,ノード表現とクラスタを同時に取得するディープ・組込みクラスタリングが近年注目されている。 異なるビューにおけるデータの一貫性の仮定の下では、ネットワークトポロジとノード属性のクラスタ構造は、属性付きネットワークに対して一貫性を持つべきである。 しかし、ネットワークトポロジーとノード属性のノード表現を別々にエンコードする一方で、表現ベクトル上のノードをクラスタリングしてそのビューから学習するにもかかわらず、既存の多くの方法がこの特性を無視している。 そこで本研究では,属性ネットワークに対するエンドツーエンドの深層クラスタリングモデルを提案する。 グラフオートエンコーダとノード属性オートエンコーダを使用して、ノード表現とクラスタ割り当てをそれぞれ学習する。 さらに,2つのビューのクラスタ分布の潜在的一貫性を維持するために,分布整合性制約を導入する。 いくつかのデータセットに関する広範囲な実験により、提案されたモデルが最先端の手法よりも著しく優れた性能または競合性能を達成できることが示されている。 ソースコードはhttps://github.com/Zhengymm/DCPにある。

Many complex systems in the real world can be characterized by attributed networks. To mine the potential information in these networks, deep embedded clustering, which obtains node representations and clusters simultaneously, has been paid much attention in recent years. Under the assumption of consistency for data in different views, the cluster structure of network topology and that of node attributes should be consistent for an attributed network. However, many existing methods ignore this property, even though they separately encode node representations from network topology and node attributes meanwhile clustering nodes on representation vectors learnt from one of the views. Therefore, in this study, we propose an end-to-end deep embedded clustering model for attributed networks. It utilizes graph autoencoder and node attribute autoencoder to respectively learn node representations and cluster assignments. In addition, a distribution consistency constraint is introduced to maintain the latent consistency of cluster distributions of two views. Extensive experiments on several datasets demonstrate that the proposed model achieves significantly better or competitive performance compared with the state-of-the-art methods. The source code can be found at https://github.com/Zhengymm/DCP.
翻訳日:2022-05-31 14:15:25 公開日:2022-05-28
# フェデレートニューラルバンド

Federated Neural Bandit ( http://arxiv.org/abs/2205.14309v1 )

ライセンス: Link先を確認
Zhongxiang Dai, Yao Shu, Arun Verma, Flint Xiaofeng Fan, Bryan Kian Hsiang Low, Patrick Jaillet(参考訳) ニューラルネットワーク(NN)の強力な表現力を活用して報酬を予測する能力によって、最近のニューラルネットワークのコンテキスト的帯域幅の研究は、魅力的なパフォーマンスを実現している。 文脈的バンドイットの多くの応用は、生の観察を共有せずに協力する複数のエージェントを含み、連合的文脈的バンドイットの設定を引き起こす。 フェデレーション・コンテクスト・バンディットの既存の作品は線形あるいはカーネル化されたバンディットに依存しており、複雑な実世界の報酬関数をモデル化する際には不足する可能性がある。 本稿では,federated neural-upper confidence bound (fn-ucb)アルゴリズムを提案する。 フェデレートされた設定をよりうまく活用するために、我々は2つの UCB の重み付けの組み合わせを採用する: $\text{UCB}^{a}$ は、他のエージェントからの観察を加速するために、他のエージェントからの観察を(生の観察を共有することなく)追加的に使用できるようにする。 特に、理論解析によって要求される2つのUCB間の重みは、最初に加速探索のために$\text{UCB}^{a}$を強調し、正確な報酬予測のためにNNを訓練するのに十分な観測が得られた後で$\text{UCB}^{b}$に依存するという興味深い解釈に導かれる。 我々は,FN-UCBの累積後悔と通信ラウンド数の両方について,線形上界を証明し,その競合性能を示す実証実験を行った。

Recent works on neural contextual bandit have achieved compelling performances thanks to their ability to leverage the strong representation power of neural networks (NNs) for reward prediction. Many applications of contextual bandit involve multiple agents who collaborate without sharing raw observations, giving rise to the setting of federated contextual bandit. Existing works on federated contextual bandit rely on linear or kernelized bandit, which may fall short when modeling complicated real-world reward functions. In this regard, we introduce the federated neural-upper confidence bound (FN-UCB) algorithm. To better exploit the federated setting, we adopt a weighted combination of two UCBs: $\text{UCB}^{a}$ allows every agent to additionally use the observations from the other agents to accelerate exploration (without sharing raw observations); $\text{UCB}^{b}$ uses an NN with aggregated parameters for reward prediction in a similar way as federated averaging for supervised learning. Notably, the weight between the two UCBs required by our theoretical analysis is amenable to an interesting interpretation, which emphasizes $\text{UCB}^{a}$ initially for accelerated exploration and relies more on $\text{UCB}^{b}$ later after enough observations have been collected to train the NNs for accurate reward prediction (i.e., reliable exploitation). We prove sub-linear upper bounds on both the cumulative regret and the number of communication rounds of FN-UCB, and use empirical experiments to demonstrate its competitive performances.
翻訳日:2022-05-31 14:14:33 公開日:2022-05-28
# 深部強化学習を用いた構造化データの生存分析

Survival Analysis on Structured Data using Deep Reinforcement Learning ( http://arxiv.org/abs/2205.14331v1 )

ライセンス: Link先を確認
Renith G, Harikrishna Warrier, Yogesh Gupta(参考訳) サバイバル分析は,入力データに基づく不要事象の発生を分析することで,製造分野において重要な役割を担っている。 予測メンテナンスは、生存分析の一部であり、異なるセンサーや機器からの現在の受信データに基づいてデバイス障害を見つけるのに役立つ。 ディープラーニング技術は、ある程度の予測メンテナンス問題の自動化に用いられたが、アルゴリズムが学習しなかった入力データのデバイス障害を予測するのにはあまり役に立たない。 ニューラルネットワークは、過去の学習した入力特徴に基づいて出力を予測するため、入力特徴のばらつきが大きい場合にはうまく動作しない。 モデルの性能は入力データの変化の発生によって低下し、最終的にアルゴリズムはデバイス障害の予測に失敗する。 この問題は、既存のディープラーニングアルゴリズムよりも正確にデバイス障害を予測できるアルゴリズムによって解決できる。 提案手法は、入力機能に基づいてデバイス障害を分類するDouble Deep Q Network(DDQN)と呼ばれるDeep Reinforcement Learningアルゴリズムの実装を含む。 このアルゴリズムは、入力特徴の異なるバリエーションを学習することができ、入力データに基づいてデバイスが失敗するかどうかを予測するのにロバストである。 提案したDDQNモデルは、限られたあるいは少ない量の入力データで訓練される。 トレーニングされたモデルは、他のディープラーニングや機械学習モデルと比較して、大量のテストデータを効率的に予測し、良好に実行した。

Survival analysis is playing a major role in manufacturing sector by analyzing occurrence of any unwanted event based on the input data. Predictive maintenance, which is a part of survival analysis, helps to find any device failure based on the current incoming data from different sensor or any equipment. Deep learning techniques were used to automate the predictive maintenance problem to some extent, but they are not very helpful in predicting the device failure for the input data which the algorithm had not learned. Since neural network predicts the output based on previous learned input features, it cannot perform well when there is more variation in input features. Performance of the model is degraded with the occurrence of changes in input data and finally the algorithm fails in predicting the device failure. This problem can be solved by our proposed method where the algorithm can predict the device failure more precisely than the existing deep learning algorithms. The proposed solution involves implementation of Deep Reinforcement Learning algorithm called Double Deep Q Network (DDQN) for classifying the device failure based on the input features. The algorithm is capable of learning different variation of the input feature and is robust in predicting whether the device will fail or not based on the input data. The proposed DDQN model is trained with limited or lesser amount of input data. The trained model predicted larger amount of test data efficiently and performed well compared to other deep learning and machine learning models.
翻訳日:2022-05-31 14:14:03 公開日:2022-05-28
# 深層モデルに基づく強化学習のための多元トランスファー学習

Multi-Source Transfer Learning for Deep Model-Based Reinforcement Learning ( http://arxiv.org/abs/2205.14410v1 )

ライセンス: Link先を確認
Remo Sasso, Matthia Sabatelli, Marco A. Wiering(参考訳) 深層モデルに基づく強化学習の最近の進歩により、エージェントは視覚的観察から高次元環境の世界モデルを構築することにより、エージェントがより効率的にサンプルを作成できるようになる。 以前のタスクから知識を再利用することは、より優れたデータ効率を達成するための別のアプローチである。 本稿では,世界モデルから得られる環境の簡易表現が,多元トランスファー学習のメリットを享受するためのいくつかの手法を導入することにより,トランスファー学習の機会を期待できることを示す。 マルチタスクとマルチエージェントの両方の設定から関連する知識を多ソースソースとして自律的に抽出する手法が提案され、スクラッチから学習するよりも性能が大幅に向上した。 提案手法を適用・拡張する2つの新しい手法として,分数変換学習とユニバーサルオートエンコーダによる普遍的特徴空間を提案する。 本手法は,視覚連続制御タスクのための最先端世界モデルベースアルゴリズムであるdreamer上で多領域実験を行うことにより,異なる状態,報酬,行動空間を持つ異なるドメインからの転送学習を可能にする。

Recent progress in deep model-based reinforcement learning allows agents to be significantly more sample efficient by constructing world models of high-dimensional environments from visual observations, which enables agents to learn complex behaviours in summarized lower-dimensional spaces. Reusing knowledge from relevant previous tasks is another approach for achieving better data-efficiency, which becomes especially more likely when information of multiple previously learned tasks is accessible. We show that the simplified representations of environments resulting from world models provide for promising transfer learning opportunities, by introducing several methods that facilitate world model agents to benefit from multi-source transfer learning. Methods are proposed for autonomously extracting relevant knowledge from both multi-task and multi-agent settings as multi-source origins, resulting in substantial performance improvements compared to learning from scratch. We introduce two additional novel techniques that enable and enhance the proposed approaches respectively: fractional transfer learning and universal feature spaces from a universal autoencoder. We demonstrate that our methods enable transfer learning from different domains with different state, reward, and action spaces by performing extensive and challenging multi-domain experiments on Dreamer, the state-of-the-art world model based algorithm for visual continuous control tasks.
翻訳日:2022-05-31 14:13:42 公開日:2022-05-28
# 最適かつ説明可能な表現空間再構成のためのグループワイド強化特徴生成

Group-wise Reinforcement Feature Generation for Optimal and Explainable Representation Space Reconstruction ( http://arxiv.org/abs/2205.14526v1 )

ライセンス: Link先を確認
Dongjie Wang, Yanjie Fu, Kunpeng Liu, Xiaolin Li, Yan Solihin(参考訳) 表現空間は、データポイントがベクトル化され、距離が計算され、パターンが特徴づけられ、幾何学的構造が埋め込まれた環境である。 優れた表現空間を抽出することは、次元の呪いに対処し、モデルの一般化を改善し、データの分散を克服し、古典モデルの可用性を高めるために重要である。 機能工学や表現学習のような既存の文献は、完全な自動化(例えば、集中労働や経験的な経験に大きく依存する)、説明可能な明示性(例えば、トレーサブルな再構築プロセスと説明可能な新機能)、柔軟な最適(例えば、最適な特徴空間再構成は下流のタスクに埋め込まれない)の達成に限られている。 機械学習タスクの空間再構築における自動化、明示性、最適な課題を同時に解決できるだろうか? この質問に答えるために,グループ指向の強化生成視点を提案する。 表現空間の再構成をネストした特徴生成と選択の対話的プロセスに再構成し,特徴生成は意味のある,明示的な特徴を新たに生成し,特徴選択は余分な特徴を排除し,特徴量を制御する。 本研究では,3つのカスケードマルコフ決定プロセスを活用するカスケード強化学習法を開発し,特徴量選択と機能交差の自動化のための最適生成ポリシーを学習する。 我々は,機能群,操作群,その他の機能群を横断するグループ別生成戦略をデザインし,新たな特徴を生成し,探索効率の向上とカスケード剤の報酬信号の増強を可能にする戦略を見出す。 最後に, システムの有効性, 効率, トレーサビリティ, 明示性を実証するための実験を行った。

Representation (feature) space is an environment where data points are vectorized, distances are computed, patterns are characterized, and geometric structures are embedded. Extracting a good representation space is critical to address the curse of dimensionality, improve model generalization, overcome data sparsity, and increase the availability of classic models. Existing literature, such as feature engineering and representation learning, is limited in achieving full automation (e.g., over heavy reliance on intensive labor and empirical experiences), explainable explicitness (e.g., traceable reconstruction process and explainable new features), and flexible optimal (e.g., optimal feature space reconstruction is not embedded into downstream tasks). Can we simultaneously address the automation, explicitness, and optimal challenges in representation space reconstruction for a machine learning task? To answer this question, we propose a group-wise reinforcement generation perspective. We reformulate representation space reconstruction into an interactive process of nested feature generation and selection, where feature generation is to generate new meaningful and explicit features, and feature selection is to eliminate redundant features to control feature sizes. We develop a cascading reinforcement learning method that leverages three cascading Markov Decision Processes to learn optimal generation policies to automate the selection of features and operations and the feature crossing. We design a group-wise generation strategy to cross a feature group, an operation, and another feature group to generate new features and find the strategy that can enhance exploration efficiency and augment reward signals of cascading agents. Finally, we present extensive experiments to demonstrate the effectiveness, efficiency, traceability, and explicitness of our system.
翻訳日:2022-05-31 14:13:20 公開日:2022-05-28
# スパース高次相互作用モデルのための信頼マシン

A Confidence Machine for Sparse High-Order Interaction Model ( http://arxiv.org/abs/2205.14317v1 )

ライセンス: Link先を確認
Diptesh Das, Eugene Ndiaye and Ichiro Takeuchi(参考訳) 高精度な意思決定のための予測モデルでは、予測者は正確さだけでなく信頼性も必要である。 共形予測 (cp) は、理論的な仮定を少なくして予測結果の信頼を得るための有望なアプローチである。 いわゆるFull-CPが設定した信頼度を得るためには,予測結果の可能なすべての値に対して予測器を適合させる必要がある。 ランダムフォレスト(rfs)やニューラルネットワーク(nns)のような複雑な予測器では、データが適合する部分と信頼度を計算する部分の2つの部分に分割される場合に、スプリットcpが使用されることが多い。 残念なことに、サンプルサイズが小さいため、slit-cp は信頼セット計算と同様に full-cp よりも劣っている。 本稿では,変数間の高次相互作用を考慮に入れた疎高次相互作用モデル(SHIM)の完全なCPを開発する。 我々は,ホモトピーマイニングと呼ばれる新しい手法を導入することで,シムのフルcpの計算課題を解決する。 数値実験により、ShiMはRFやNNのような複雑な予測器と同じくらい正確であり、完全CPの優れた統計的パワーを享受できることを示した。

In predictive modeling for high-stake decision-making, predictors must be not only accurate but also reliable. Conformal prediction (CP) is a promising approach for obtaining the confidence of prediction results with fewer theoretical assumptions. To obtain the confidence set by so-called full-CP, we need to refit the predictor for all possible values of prediction results, which is only possible for simple predictors. For complex predictors such as random forests (RFs) or neural networks (NNs), split-CP is often employed where the data is split into two parts: one part for fitting and another to compute the confidence set. Unfortunately, because of the reduced sample size, split-CP is inferior to full-CP both in fitting as well as confidence set computation. In this paper, we develop a full-CP of sparse high-order interaction model (SHIM), which is sufficiently flexible as it can take into account high-order interactions among variables. We resolve the computational challenge for full-CP of SHIM by introducing a novel approach called homotopy mining. Through numerical experiments, we demonstrate that SHIM is as accurate as complex predictors such as RF and NN and enjoys the superior statistical power of full-CP.
翻訳日:2022-05-31 14:09:53 公開日:2022-05-28
# グラフ上の協調確率比の推定

Collaborative likelihood-ratio estimation over graphs ( http://arxiv.org/abs/2205.14461v1 )

ライセンス: Link先を確認
Alejandro de la Concha and Argyris Kalogeratos and Nicolas Vayatis(参考訳) 2つの未知の確率密度関数 (pdfs)、$p$および$p'$) から i.d の観測を仮定すると、可能性比推定 (LRE) は、2つの pdf を比較するためのエレガントなアプローチである。 本稿では,固定グラフの各ノード $v$ が未知のノード固有の pdf である $p_v$ と $p'_v$ から得られる観測データにアクセスすることを前提として,各ノードのそれぞれの$p_v$ と $p'_v$ を比較し,グラフ構造によって提供される情報を統合することを目的とする。 この設定は、グラフがノードワイズ推定タスク間である種の「類似性」を伝達するときに興味深いもので、ノードが協調して個々のタスクをより効率的に解決し、一方、ノード間でのデータ共有を制限しようとしていることを示唆している。 我々の主な貢献はグラフベースのLREのための分散非パラメトリックフレームワークであるGRULSIFであり、これはf分割関数、カーネル法、マルチタスク学習といった新しい方法で組み込まれている。 LREのいくつかの応用の中で、グラフベースの学習フレームワークの概念実証を開発するために、2サンプル仮説テストを選択する。 実験では,各ノードに独立して適用し,グラフ構造を無視する最先端の非パラメトリック統計テストに対するアプローチの性能を比較した。

Assuming we have i.i.d observations from two unknown probability density functions (pdfs), $p$ and $p'$, the likelihood-ratio estimation (LRE) is an elegant approach to compare the two pdfs just by relying on the available data, and without knowing the pdfs explicitly. In this paper we introduce a graph-based extension of this problem: Suppose each node $v$ of a fixed graph has access to observations coming from two unknown node-specific pdfs, $p_v$ and $p'_v$; the goal is then to compare the respective $p_v$ and $p'_v$ of each node by also integrating information provided by the graph structure. This setting is interesting when the graph conveys some sort of `similarity' between the node-wise estimation tasks, which suggests that the nodes can collaborate to solve more efficiently their individual tasks, while on the other hand trying to limit the data sharing among them. Our main contribution is a distributed non-parametric framework for graph-based LRE, called GRULSIF, that incorporates in a novel way elements from f-divengence functionals, Kernel methods, and Multitask Learning. Among the several applications of LRE, we choose the two-sample hypothesis testing to develop a proof of concept for our graph-based learning framework. Our experiments compare favorably the performance of our approach against state-of-the-art non-parametric statistical tests that apply at each node independently, and thus disregard the graph structure.
翻訳日:2022-05-31 14:09:33 公開日:2022-05-28
# VAEに基づく表現学習の改善

Improving VAE-based Representation Learning ( http://arxiv.org/abs/2205.14539v1 )

ライセンス: Link先を確認
Mingtian Zhang and Tim Z. Xiao and Brooks Paige and David Barber(参考訳) 変分オートエンコーダ(VAE)のような潜在変数モデルは、画像の表現を学習するために一般的に使用される。 しかしながら、セマンティック分類のような下流タスクでは、VAEが学習した表現は他の非ラテント変数モデルよりも競争力が少ない。 これは、潜在変数モデルが表現学習に基本的に不適当であるかもしれないという憶測を導いた。 本研究では, 優れた表現に必要な特性と, 異なるVAE構造選択が学習特性に与える影響について検討する。 局所的な特徴を学習するデコーダを使用することで、残余のグローバルな特徴を潜伏者によってうまく捉え、下流の分類タスクの性能を大幅に向上させることができることを示す。 さらに,提案モデルを半教師付き学習タスクに適用し,データ効率の向上を示す。

Latent variable models like the Variational Auto-Encoder (VAE) are commonly used to learn representations of images. However, for downstream tasks like semantic classification, the representations learned by VAE are less competitive than other non-latent variable models. This has led to some speculations that latent variable models may be fundamentally unsuitable for representation learning. In this work, we study what properties are required for good representations and how different VAE structure choices could affect the learned properties. We show that by using a decoder that prefers to learn local features, the remaining global features can be well captured by the latent, which significantly improves performance of a downstream classification task. We further apply the proposed model to semi-supervised learning tasks and demonstrate improvements in data efficiency.
翻訳日:2022-05-31 14:09:05 公開日:2022-05-28
# 単語の不確かさを表現するためのモデル

Teaching Models to Express Their Uncertainty in Words ( http://arxiv.org/abs/2205.14334v1 )

ライセンス: Link先を確認
Stephanie Lin, Jacob Hilton, Owain Evans(参考訳) GPT-3モデルでは,モデルロジットを使わずに,自然言語による解答の不確実性を表現することができることを示す。 質問が与えられると、このモデルは答えと信頼のレベル(例えば「90%信頼」や「高い信頼」)の両方を生成する。 これらのレベルは、よく校正された確率にマップされる。 このモデルは分布シフト下でも適度に調整され、人間の例を模倣するよりも、自身の答えの不確実性に敏感である。 我々の知る限り、モデルが自然言語で自身の解答について校正された不確実性を表現したのはこれが初めてである。 キャリブレーションのテストには、CalibratedMathのタスクスイートを紹介します。 本研究では,モデルロジットから抽出した不確かさと,単語(verbalized probability)で表される不確かさの校正を比較した。 どちらの種類の不確実性も分布シフト下でのキャリブレーションを一般化することができる。 また, GPT-3のキャリブレーションを一般化する能力は, その解答に対する認識の不確実性と相関する事前学習された潜伏表現に依存することを示す。

We show that a GPT-3 model can learn to express uncertainty about its own answers in natural language -- without use of model logits. When given a question, the model generates both an answer and a level of confidence (e.g. "90% confidence" or "high confidence"). These levels map to probabilities that are well calibrated. The model also remains moderately calibrated under distribution shift, and is sensitive to uncertainty in its own answers, rather than imitating human examples. To our knowledge, this is the first time a model has been shown to express calibrated uncertainty about its own answers in natural language. For testing calibration, we introduce the CalibratedMath suite of tasks. We compare the calibration of uncertainty expressed in words ("verbalized probability") to uncertainty extracted from model logits. Both kinds of uncertainty are capable of generalizing calibration under distribution shift. We also provide evidence that GPT-3's ability to generalize calibration depends on pre-trained latent representations that correlate with epistemic uncertainty over its answers.
翻訳日:2022-05-31 13:26:51 公開日:2022-05-28
# quic-fl: フェデレーション学習のための素早い非偏り圧縮

QUIC-FL: Quick Unbiased Compression for Federated Learning ( http://arxiv.org/abs/2205.13341v2 )

ライセンス: Link先を確認
Ran Ben Basat, Shay Vargaftik, Amit Portnoy, Gil Einziger, Yaniv Ben-Itzhak, Michael Mitzenmacher(参考訳) 分散平均推定(DME)はコミュニケーション効率のよいフェデレーション学習における基礎的な構成要素である。 DMEでは、クライアントはパラメータサーバに可逆的に圧縮された勾配を通信し、平均を見積もってモデルを更新する。 art dme技術は非バイアス量子化法を応用し、推定誤差が大きくなり、バイアス量子化法が適用され、その結果、サーバは各勾配を個別にデコードし、集約時間を著しく遅くする。 本稿では,すべての世界のベストを達成できるDMEアルゴリズムQUIC-FLを提案する。 QUIC-FLはバイアスがなく、高速な集約時間を提供し、最も正確な(スローアグリゲーション)DME技術と競合する。 これを実現するために、我々は標準解法を用いて、最適に近い非バイアス量子化スキームを設計できる新しい方法で問題を定式化する。

Distributed Mean Estimation (DME) is a fundamental building block in communication efficient federated learning. In DME, clients communicate their lossily compressed gradients to the parameter server, which estimates the average and updates the model. State of the art DME techniques apply either unbiased quantization methods, resulting in large estimation errors, or biased quantization methods, where unbiasing the result requires that the server decodes each gradient individually, which markedly slows the aggregation time. In this paper, we propose QUIC-FL, a DME algorithm that achieves the best of all worlds. QUIC-FL is unbiased, offers fast aggregation time, and is competitive with the most accurate (slow aggregation) DME techniques. To achieve this, we formalize the problem in a novel way that allows us to use standard solvers to design near-optimal unbiased quantization schemes.
翻訳日:2022-05-31 11:40:46 公開日:2022-05-28
# ハイパーグラフ分割の最近の進歩

More Recent Advances in (Hyper)Graph Partitioning ( http://arxiv.org/abs/2205.13202v2 )

ライセンス: Link先を確認
\"Umit V. \c{C}ataly\"urek, Karen D. Devine, Marcelo Fonseca Faraj, Lars Gottesb\"uren, Tobias Heuer, Henning Meyerhenke, Peter Sanders, Sebastian Schlag, Christian Schulz, Daniel Seemaier, Dorothea Wagner(参考訳) 近年、バランスのとれた(ハイパー)グラフ分割アルゴリズムの設計と評価において重要な進歩がなされている。 我々は,過去10年間のバランスのとれた(ハイパー)グラフ分割のための実用的なアルゴリズムの動向と今後の研究動向について調査する。 私たちの仕事は、そのトピックに関する以前の調査の更新として役立ちます。 特にこの調査は、ハイパーグラフのパーティショニングとストリーミングアルゴリズムをカバーすることで、以前の調査を拡張し、並列アルゴリズムにさらに重点を置いている。

In recent years, significant advances have been made in the design and evaluation of balanced (hyper)graph partitioning algorithms. We survey trends of the last decade in practical algorithms for balanced (hyper)graph partitioning together with future research directions. Our work serves as an update to a previous survey on the topic. In particular, the survey extends the previous survey by also covering hypergraph partitioning and streaming algorithms, and has an additional focus on parallel algorithms.
翻訳日:2022-05-31 11:37:47 公開日:2022-05-28