このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220620となっている論文です。

PDF登録状況(公開日: 20220620)

TitleAuthorsAbstract論文公表日・翻訳日
# 3次元点源におけるディラック方程式の内部境界条件

Interior-Boundary Conditions for the Dirac Equation at Point Sources in 3 Dimensions ( http://arxiv.org/abs/2006.16755v2 )

ライセンス: Link先を確認
Joscha Henheik, Roderich Tumulka(参考訳) 粒子生成を伴うハミルトニアンの紫外線拡散を避けるための最近提案されたアプローチは、内部境界条件(IBC)に基づいている。 このアプローチは非相対論的場合、すなわちラプラス作用素に対してうまく機能する。 本稿では,このアプローチをdirac演算子に適用する方法について検討する。 これは既に1次元、より一般的にはコディメンション-1境界で成功しているものの、3次元の点源の状況はコディメンション-3境界に対応する。 そのような境界に対して、ディラック作用素は境界条件に対応する3dにおける点相互作用を許さないことが知られているので境界条件を許さないと期待できる。 実際、この予想は、原点に粒子を持つ構成で IBC を持つディラック作用素に対応するような(切り離された)フォック空間上に自己共役作用素が存在しないことを証明することによって確認する。 しかし、我々はまた、ディラック作用素と十分に強いクーロンポテンシャルによって与えられる構成とは別に、IBC を持つ自己共役作用素(原点に粒子を持つ構成からなる境界)が存在することを示す肯定的な結果を示す。

A recently proposed approach for avoiding the ultraviolet divergence of Hamiltonians with particle creation is based on interior-boundary conditions (IBCs). The approach works well in the non-relativistic case, that is, for the Laplacian operator. Here, we study how the approach can be applied to Dirac operators. While this has been done successfully already in 1 space dimension, and more generally for codimension-1 boundaries, the situation of point sources in 3 dimensions corresponds to a codimension-3 boundary. One would expect that, for such a boundary, Dirac operators do not allow for boundary conditions because they are known not to allow for point interactions in 3d, which also correspond to a boundary condition. And indeed, we confirm this expectation here by proving that there is no self-adjoint operator on (a truncated) Fock space that would correspond to a Dirac operator with an IBC at configurations with a particle at the origin. However, we also present a positive result showing that there are self-adjoint operators with IBC (on the boundary consisting of configurations with a particle at the origin) that are, away from those configurations, given by a Dirac operator plus a sufficiently strong Coulomb potential.
翻訳日:2023-05-12 01:13:57 公開日:2022-06-20
# ノイズチャネル上の量子鍵分布

Quantum key distribution over noisy channels ( http://arxiv.org/abs/2107.01962v4 )

ライセンス: Link先を確認
Hao Shu, Chang-Yue Zhang, Yue-Qiu Chen, Zhu-Jun Zheng, Shao-Ming Fei(参考訳) 量子鍵分布(QKD)は、量子情報理論の最も有名な応用である。 QKDのアイデアは理解が難しいわけではないが、実用的な実装では、例えばチャネルのノイズなど、多くの問題を解決する必要がある。 従来の研究は通常、チャネルの推定を議論し、ノイズの強度に依存して実現可能性と効率が向上するエラー修正手順や、全ての状態が蒸留できない状態の大量消費に繋がった蒸留手順を補助するなど、エラー修正手順を採用している。 本稿では,ポーリ雑音,振幅減衰雑音,位相減衰雑音,集合雑音,混合雑音などのノイズチャネル上でのqkdについて,蒸留を伴わない強度で検討することを目的とした。 本研究では,QKDプロトコルを任意の強度ノイズチャネルの誤差なく実装するテスト状態法を提案する。

Quantum key distribution(QKD) might be the most famous application of quantum information theory. The idea of QKD is not difficult to understand but in practical implements, many problems are needed to be solved, for example, the noise of the channels. Previous works usually discuss the estimate of the channels and employ error correcting procedures, whose feasibility and efficiency depend on the strength of the noise, or assisting with entanglement distillation procedures, which are often result in a large consumption of states while no all states can be distilled. This paper aims to study QKD over noisy channels including Pauli noises, amplitude damping noises, phase damping noises, collective noises as well as mixtures of them, in any strength without distillations. We provide a method, called testing state method, to implement QKD protocols without errors over arbitrarily strength noisy channels.
翻訳日:2023-03-23 09:07:56 公開日:2022-06-20
# 量子通信理論の深み:超増感・超活性化・因果活性化

How Deep the Theory of Quantum Communications Goes: Superadditivity, Superactivation and Causal Activation ( http://arxiv.org/abs/2108.07108v3 )

ライセンス: Link先を確認
Seid Koudia, Angela Sara Cacciapuoti, Kyrylo Simonov, Marcello Caleffi(参考訳) 量子通信理論では、より深い構造が最近明らかにされ、この能力は、古典的世界では対応しない現象(超加法的、超活性化、因果的活性化)による情報伝達のチャネル能力を完全に特徴づけるものではないことを示した。 この構造がどの程度深いのかはまだ完全には解明されていないが、コミュニケーションエンジニアリングコミュニティはコミュニケーションの基本的な限界を理解し、導出するためにこれらの現象の意味を所有することが重要である。 したがって,本論文の目的は,読者に対して,関連する文献やコミュニケーション工学的観点からの目立った結果への簡単なアクセスとガイドを提供することによって,これらの現象に光を当てることである。

In the theory of quantum communications, a deeper structure has been recently unveiled, showing that the capacity does not completely characterize the channel ability to transmit information due to phenomena -- namely, superadditivity, superactivation and causal activation -- with no counterpart in the classical world. Although how deep goes this structure is yet to be fully uncovered, it is crucial for the communication engineering community to own the implications of these phenomena for understanding and deriving the fundamental limits of communications. Hence, the aim of this treatise is to shed light on these phenomena by providing the reader with an easy access and guide towards the relevant literature and the prominent results from a communication engineering perspective.
翻訳日:2023-03-18 07:41:37 公開日:2022-06-20
# マルチアーム量子バンディット:量子状態の学習特性における探索と活用

Multi-armed quantum bandits: Exploration versus exploitation when learning properties of quantum states ( http://arxiv.org/abs/2108.13050v3 )

ライセンス: Link先を確認
Josep Lumbreras and Erkka Haapasalo and Marco Tomamichel(参考訳) 量子状態の性質のオンライン学習における探索と搾取のトレードオフの研究を開始する。 未知の量子状態へのシーケンシャルなオラクルアクセスが与えられた場合、各ラウンドでは、状態(報酬)に対する期待値の最大化を目的とした一連のアクションから観測可能なものを選択することが義務付けられます。 前回のラウンドから得られた未知の状態に関する情報は、徐々に行動の選択を改善するために使用され、与えられたアクションセット(後悔)によって得られる報酬と最大報酬の間のギャップを減少させることができる。 最適学習者が必要となる累積後悔について,様々な情報理論の下限を提供し,少なくともラウンド数の平方根として拡張可能であることを示す。 また,利用可能な行動数と基礎となる空間の次元に対する累積的後悔の依存性についても検討した。 さらに,有限個の腕と一般的な混合状態を持つ包帯に対して最適な戦略を示す。

We initiate the study of tradeoffs between exploration and exploitation in online learning of properties of quantum states. Given sequential oracle access to an unknown quantum state, in each round, we are tasked to choose an observable from a set of actions aiming to maximize its expectation value on the state (the reward). Information gained about the unknown state from previous rounds can be used to gradually improve the choice of action, thus reducing the gap between the reward and the maximal reward attainable with the given action set (the regret). We provide various information-theoretic lower bounds on the cumulative regret that an optimal learner must incur, and show that it scales at least as the square root of the number of rounds played. We also investigate the dependence of the cumulative regret on the number of available actions and the dimension of the underlying space. Moreover, we exhibit strategies that are optimal for bandits with a finite number of arms and general mixed states.
翻訳日:2023-03-16 19:20:33 公開日:2022-06-20
# 量子多体スカーとヒルベルト空間のフラグメンテーション:正確な結果のレビュー

Quantum Many-Body Scars and Hilbert Space Fragmentation: A Review of Exact Results ( http://arxiv.org/abs/2109.00548v2 )

ライセンス: Link先を確認
Sanjay Moudgalya, B. Andrei Bernevig, Nicolas Regnault(参考訳) ライドベルク原子シミュレーターとAffleck-Kennedy-Lieb-Tasaki(AKLT)のスピン-1鎖モデルの両方で量子多体スカー(QMBS)が発見されたことで、エルゴディディティの弱い違反は、まだ豊富な実験と理論物理学につながることが示されている。 本稿では, フェルミオンハバードモデルなどの簡単な例を用いて, 孤立量子系におけるqmbsによる弱エルゴディク性破れの正確な結果の教育的紹介と概要について述べる。 また、QMBSを示すシステムの多元性を包含するために提案されている様々なメカニズムと統一形式について論じる。 我々は、特定の初期状態の正確な復元につながる等間隔タワーの例と、QMBSの孤立した例を取り上げる。 最後に,Hilbert Space Fragmentationを概観し,より多様なエルゴード的・非エルゴード的行動を示す現象について考察し,QMBSとの関係について考察する。

The discovery of Quantum Many-Body Scars (QMBS) both in Rydberg atom simulators and in the Affleck-Kennedy-Lieb-Tasaki (AKLT) spin-1 chain model, have shown that a weak violation of ergodicity can still lead to rich experimental and theoretical physics. In this review, we provide a pedagogical introduction to and an overview of the exact results on weak ergodicity breaking via QMBS in isolated quantum systems with the help of simple examples such as the fermionic Hubbard model. We also discuss various mechanisms and unifying formalisms that have been proposed to encompass the plethora of systems exhibiting QMBS. We cover examples of equally-spaced towers that lead to exact revivals for particular initial states, as well as isolated examples of QMBS. Finally, we review Hilbert Space Fragmentation, a related phenomenon where systems exhibit a richer variety of ergodic and non-ergodic behaviors, and discuss its connections to QMBS.
翻訳日:2023-03-16 10:53:53 公開日:2022-06-20
# 真空及び熱状態における量子場理論相互作用におけるランダウアーの原理

Landauer's principle in Qubit-Cavity quantum field theory Interaction in Vacuum and Thermal States ( http://arxiv.org/abs/2109.08391v3 )

ライセンス: Link先を確認
Hao Xu, Yen Chin Ong, Man-Hong Yung(参考訳) ランドウアーの原理は、量子情報科学への関心が高まり、ここ数年で注目を集めている。 しかし、量子場論(QFT)の文脈におけるその妥当性と妥当性は驚くほど未解明のままである。 本稿では, 空洞QFTの初期状態が真空状態あるいは熱状態となるような, 量子キャビティQFT相互作用におけるランダウアーの原理を摂動的に考察する。 真空の場合、QFTは常に熱を吸収し、励起状態にジャンプする。 静止状態の量子ビットではエントロピーは減少するが、量子ビットが加速するとエネルギーも得られ、unruh効果によってエントロピーが増加する。 熱状態については、QFTはその温度とキュービットの初期状態に応じて熱を吸収して放出することができ、高次の摂動は初期状態をより高くまたは低い状態に励起または放出することができる。 ランドウアーの原理は我々が考える全てのケースにおいて有効である。 この論文は、QFTと重力理論におけるランダウアーの原理の今後の探求の道を開くことを願っている。

Landauer's principle has seen a boom of interest in the last few years due to the growing interest in quantum information sciences. However, its relevance and validity in the contexts of quantum field theory (QFT) remain surprisingly unexplored. In the present paper, we consider Landauer's principle in qubit-cavity QFT interaction perturbatively, in which the initial state of the cavity QFT is chosen to be a vacuum or thermal state. In the vacuum case, the QFT always absorbs heat and jumps to excited states. For the qubit at rest, its entropy decreases, whereas if the qubit accelerates, it may also gain energy and it increases its entropy due to the Unruh effect. For the thermal state, the QFT can both absorb and release heat, depending on its temperature and the initial state of the qubit, and the higher-order perturbations can excite or deexcite the initial state to a higher or lower state. Landauer's principle is valid in all the cases we consider. We hope that this paper will pave the way for future explorations of Landauer's principle in QFT and gravity theories.
翻訳日:2023-03-14 11:45:29 公開日:2022-06-20
# 超伝導回路における創発的$\mathbb{Z}_2$ゲージ不変性の観察

Observation of Emergent $\mathbb{Z}_2$ Gauge Invariance in a Superconducting Circuit ( http://arxiv.org/abs/2111.05048v2 )

ライセンス: Link先を確認
Zhan Wang, Zi-Yong Ge, Zhongcheng Xiang, Xiaohui Song, Rui-Zhen Huang, Pengtao Song, Xue-Yi Guo, Luhong Su, Kai Xu, Dongning Zheng, and Heng Fan(参考訳) 格子ゲージ理論(LGTs)は多体物理学において最も基礎的な主題の1つであり、近年量子シミュレーションにおいてかなりの研究関心を集めている。 ここでは, 10個のトランスモン量子ビットを持つ1次元超伝導回路の創発的$\mathbb{Z}_2$ゲージ不変性について実験的に検討する。 各キュービットにスタッガーされた長手および横手フィールドを正確に調整することにより、LGTとゲージ破れ項を含む実効ハミルトニアンを構築する。 対応するマターセクタは局在を示すことができ、3量子ビット演算子が存在し、低エネルギーのレジームでは、期待値が長期間ノンゼロを保てる。 上記の局所化は体場の閉じ込めと見なすことができ、3体作用素は$\mathbb{Z}_2$ gauge generatorである。 これらの実験結果は、実効ハミルトニアンにおいてゲージ構造が存在しないにもかかわらず、$\mathbb{Z}_2$ゲージ不変性が低エネルギーな状態において依然として現れることを示した。 本研究は、創発的ゲージ不変性を持つ量子多体系におけるリッチ物理を理論的および実験的に研究する方法を提供する。

Lattice gauge theories (LGTs) are one of the most fundamental subjects in many-body physics, and has recently attracted considerable research interests in quantum simulations. Here we experimentally investigate the emergent $\mathbb{Z}_2$ gauge invariance in a 1D superconducting circuit with 10 transmon qubits. By precisely adjusting staggered longitudinal and transverse fields to each qubit, we construct an effective Hamiltonian containing an LGT and gauge-broken terms. The corresponding matter sector can exhibit a localization, and there also exists a 3-qubit operator, of which the expectation value can retain nonzero for a long time in low-energy regimes. The above localization can be regarded as the confinement of matter fields, and the 3-body operator is the $\mathbb{Z}_2$ gauge generator. These experimental results demonstrate that, despite the absence of gauge structure in the effective Hamiltonian, $\mathbb{Z}_2$ gauge invariance can still emerge in low-energy regimes. Our work provides a method for both theoretically and experimentally studying the rich physics in quantum many-body systems with emergent gauge invariance.
翻訳日:2023-03-08 18:16:55 公開日:2022-06-20
# フロッケ非エルミート系の対称性と位相分類

Symmetry and topological classification of Floquet non-Hermitian systems ( http://arxiv.org/abs/2112.06715v3 )

ライセンス: Link先を確認
Chun-Hui Liu, Haiping Hu, Shu Chen(参考訳) フロッケ工学の最近の実験的進歩とオープンシステムにおける散逸の制御は、静的およびエルミート類似物なしで新しい現象を調整できる前例のない柔軟性をもたらした。 様々なフロッケ位相と非エルミート位相相によって表される。 基底対称性に基づく静的・フロケエルミート系または静的非エルミート系のトポロジカル分類は、ここ数年でよく確立されている。 しかし、Floquet non-Hermitian (FNH) 位相のコヒーレントな理解と分類はまだ達成されていない。 ここでは、54倍一般化ベルナール・レクレア対称性クラスと任意の空間次元に対して、FNH位相帯域を$K$-理論を用いて体系的に分類する。 この分類は、フロケ作用素のスペクトルギャップ(Floquet operator (FO) angle-gapped and FO angle-gapless)の2つの異なるシナリオを区別する。 結果は2つの周期表にまとめられ、それぞれ54倍のGBL対称性クラスを含む。 提案手法は,静的・フロケエルミートおよび静的非エルミート位相のないFNH位相を明らかにする。 その結果,Floquet Hermitian Topological InsulatorとFloquet Unitaryの周期表が自然に生成されることがわかった。 この枠組みはボソニック系の位相相を特徴づけるのにも応用できる。 1次元および2次元フェルミオン/ボソニック系の具体例を示す。 そして、トポロジカル不変量の意味とその物理的帰結を解明する。 本稿は、FNHトポロジカルバンドの包括的探査の基礎となるものである。 そして、周期駆動、非ハーミティティー、およびバンドトポロジーの合成から生じるユニークな現象や機能を明らかにするための幅広い道を開く。

Recent experimental advances in Floquet engineering and controlling dissipation in open systems have brought about unprecedented flexibility in tailoring novel phenomena without any static and Hermitian analogues. It can be epitomized by the various Floquet and non-Hermitian topological phases. Topological classifications of either static/Floquet Hermitian or static non-Hermitian systems based on the underlying symmetries have been well established in the past several years. However, a coherent understanding and classification of Floquet non-Hermitian (FNH) topological phases have not been achieved yet. Here we systematically classify FNH topological bands for 54-fold generalized Bernard-LeClair (GBL)symmetry classes and arbitrary spatial dimensions using $K$-theory. The classification distinguishes two different scenarios of the Floquet operator's spectrum gaps [dubbed as Floquet operator (FO) angle-gapped and FO angle-gapless]. The results culminate into two periodic tables, each containing 54-fold GBL symmetry classes. Our scheme reveals FNH topological phases without any static/Floquet Hermitian and static non-Hermitian counterparts. And our results naturally produce the periodic tables of Floquet Hermitian topological insulators and Floquet unitaries. The framework can also be applied to characterize the topological phases of bosonic systems. We provide concrete examples of one and two-dimensionalfermionic/bosonic systems. And we elucidate the meaning of the topological invariants and their physical consequences. Our paper lays the foundation for a comprehensive exploration of FNH topological bands. And it opens a broad avenue toward uncovering unique phenomena and functionalities emerging from the synthesis of periodic driving, non-Hermiticity, and band topology.
翻訳日:2023-03-04 16:42:20 公開日:2022-06-20
# レーザー誘起電子・振動コヒーレンスのab initioシミュレーション

Ab initio simulation of laser-induced electronic and vibrational coherence ( http://arxiv.org/abs/2112.11083v2 )

ライセンス: Link先を確認
Jannis Krumland, Matheus Jacobs, and Caterina Cocchi(参考訳) 最近超高速分光法によって達成された原子分解能は、対応する理論的進歩を要求する。 ehrenfest dynamicsを用いた実時間時間依存密度汎関数理論(rt-tddft)は、サブピコ秒状態におけるレーザー励起物質の電子的および振動力学を研究するための精度と計算コストの最適なトレードオフを提供する。 しかし、このアプローチは、物理学において重要な熱効果やゼロ点エネルギーを考慮できない。 本稿では、RT-TDDFT+Ehrenfestに基づく量子半古典法を用いて、凝縮物中のレーザー誘起電子及び振動コヒーレンスをシミュレートする。 炭素共役分子の例では、核量子分布の初期構成によるアンサンブル吸収は、単一軌道RT-TDDFT+Ehrenfestの多くの欠点を修正し、電子コヒーレンスを減衰させ、励起状態間の超高速非断熱結合を導入する。 サンプル構成の数は化合物のサイズや剛性によって減少するので、平均場アプローチが輝く大規模システムでは計算コストは適度である。 シミュレーションにおける時間依存パルスの明示的な包含は、実験結果とは独立なコヒーレント非線形分光法の第一原理研究の第一段階となる。

The atomistic resolution recently achieved by ultrafast spectroscopies demands corresponding theoretical advances. Real-time time-dependent density-functional theory (RT-TDDFT) with Ehrenfest dynamics offers an optimal trade-off between accuracy and computational costs to study electronic and vibrational dynamics of laser-excited materials in the sub-picosecond regime. However, this approach is unable to account for thermal effects or zero-point energies which are crucial in the physics involved. Herein, we adopt a quantum-semiclassical method based on RT-TDDFT+Ehrenfest to simulate laser-induced electronic and vibrational coherences in condensed matter. With the example of carbon-conjugated molecules, we show that ensemble-averaging with initial configurations from a nuclear quantum distribution remedies many shortcomings of single-trajectory RT-TDDFT+Ehrenfest, damping electronic coherence and introducing ultrafast non-adiabatic coupling between excited states. As the number of sampled configurations decreases with size and rigidity of the compounds, computational costs remain moderate for large systems for which mean-field approaches shine. The explicit inclusion of a time-dependent pulse in the simulations makes this method a prime advance for first-principles studies of coherent nonlinear spectroscopy as an independent counterpart to experimental results.
翻訳日:2023-03-03 22:46:04 公開日:2022-06-20
# 中性原子プロセッサの量子ネットワークのためのアーキテクチャ

An architecture for quantum networking of neutral atom processors ( http://arxiv.org/abs/2202.01634v3 )

ライセンス: Link先を確認
C. B. Young, A. Safari, P. Huft, J. Zhang, E. Oh, R. Chinnarasu, and M. Saffman(参考訳) 量子プロセッサの遠隔絡み合いネットワークの開発は、量子情報科学において際立った課題である。 本稿では,光捕捉原子量子ビットアレイと光子収集のための高速光学の統合に基づく,中性原子量子コンピュータの遠隔絡み合いのための2種アーキテクチャを提案し,解析する。 原子の1種は原子-光子の絡み合いに使われ、他の種は局所的な処理を行う。 レンズを用いた自由空間光子収集と、近心・遠距離共振キャビティの2つの光学的アプローチについて、遠隔エンタングルメント生成の達成率を比較した。 レーザー冷却とキャビティ内のトラップにより、ソース領域からの原子の機械的輸送が不要になり、高速な繰り返しが可能である。 キャビティファインスの最適化値を用いて, 実験可能なパラメータに対して, 10^3~\rm s^{-1}$ の遠方絡み発生率を予測した。

Development of a network for remote entanglement of quantum processors is an outstanding challenge in quantum information science. We propose and analyze a two-species architecture for remote entanglement of neutral atom quantum computers based on integration of optically trapped atomic qubit arrays with fast optics for photon collection. One of the atomic species is used for atom-photon entanglement, and the other species provides local processing. We compare the achievable rates of remote entanglement generation for two optical approaches: free space photon collection with a lens and a near-concentric, long working distance resonant cavity. Laser cooling and trapping within the cavity removes the need for mechanical transport of atoms from a source region, which allows for a fast repetition rate. Using optimized values of the cavity finesse, remote entanglement generation rates $> 10^3~\rm s^{-1}$ are predicted for experimentally feasible parameters.
翻訳日:2023-02-26 23:07:46 公開日:2022-06-20
# ブラッグ回折誘起レトロフレクティブ原子干渉計における信号の不完全性

Bragg-diffraction-induced imperfections of the signal in retroreflective atom interferometers ( http://arxiv.org/abs/2203.07017v2 )

ライセンス: Link先を確認
Jens Jenewein, Sabrina Hartmann, Albert Roura, Enno Giese(参考訳) ブラッグ型光パルス原子干渉計における不完全な原子-光学的操作の効果を詳細に検討した。 オフ共鳴高次回折は、人口減少、急激な干渉計経路、回折相をもたらす。 経路依存形式論では、数値的に様々な効果を研究し、外部位相や重力によって引き起こされる干渉信号を解析する。 逆反射系における1次単色と2重ブラッグ回折を比較する。 ダブルブラッグ回折では、位相不完全化は3経路干渉によるビートを引き起こす。 回折相のいくつかの効果は、二重回折の外部出口ポートの人口を増加させることで回避できる。

We present a detailed study of the effects of imperfect atom-optical manipulation in Bragg-based light-pulse atom interferometers. Off-resonant higher-order diffraction leads to population loss, spurious interferometer paths, and diffraction phases. In a path-dependent formalism, we study numerically various effects and analyze the interference signal caused by an external phase or gravity. We compare first-order single and double Bragg diffraction in retroreflective setups. In double Bragg diffraction, phase imperfections lead to a beating due to three-path interference. Some effects of diffraction phases can be avoided by adding the population of the outer exit ports of double diffraction.
翻訳日:2023-02-22 03:36:30 公開日:2022-06-20
# 近距離原子移動を用いた2次元欠陥フリー2種原子配列再構成アルゴリズム

Efficient two-dimensional defect-free dual-species atom arrays rearrangement algorithm with near-fewest atom moves ( http://arxiv.org/abs/2203.11890v3 )

ライセンス: Link先を確認
Zhi-Jin Tao, Li-Geng Yu, Peng-Xu, Jia-Yi Hou, Xiao-Dong He and Ming-Sheng Zhan(参考訳) 光トワイザーにおける双種単一原子配列は、量子コンピューティングと量子シミュレーションのプラットフォームとしての単一種原子配列よりもいくつかの利点がある。 したがって、数百以上の原子番号を持つ欠陥のない二重種単一原子配列を作成することが不可欠である。 最近の実験で示されたように、確率的にロードされた2種の原子配列を任意の要求された構成に再構成する効率的なアルゴリズムを設計することが主な困難である。 本稿では,原子移動の最小値を求めるために,ヒューリスティック接続最適化アルゴリズム(HCOA)を提案する。 本アルゴリズムは,無向グラフにおける調音点を用いた接続の最適化を,アトム移動経路の配置に重要な考慮事項として導入する。 数百原子の配列サイズと様々な構成でテストした結果、アルゴリズムは高い成功率(>97%)、低い原子移動率、優れたスケーラビリティ、柔軟性を示している。 さらに,再配置中の原子損失問題を解決するための相補的なステップを提案した。

Dual-species single-atom array in optical tweezers has several advantages over the single-species atom array as a platform for quantum computing and quantum simulation. Thus, creating the defect-free dual-species single-atom array with atom numbers over hundreds is essential. As recent experiments demonstrated, one of the main difficulties lies in designing an efficient algorithm to rearrange the stochastically loaded dual-species atoms arrays into arbitrary demanded configurations. We propose a heuristic connectivity optimization algorithm (HCOA) to provide the near-fewest number of atom moves. Our algorithm introduces the concept of using articulation points in an undirected graph to optimize connectivity as a critical consideration for arranging the atom moving paths. Tested in array size of hundreds atoms and various configurations, our algorithm shows a high success rate (> 97%), low extra atom moves ratio, good scalability, and flexibility. Furthermore, we proposed a complementary step to solve the problem of atom loss during the rearrangement.
翻訳日:2023-02-21 02:49:07 公開日:2022-06-20
# ドイツのAIスタートアップとAI倫理 - 社会技術革新の評価と実装にソーシャルプラクティスレンズを使う

German AI Start-Ups and AI Ethics: Using A Social Practice Lens for Assessing and Implementing Socio-Technical Innovation ( http://arxiv.org/abs/2206.09978v1 )

ライセンス: Link先を確認
Mona Sloane, Janina Zakrzewski(参考訳) 現在のAI倫理談話には、AI実践者が倫理を理解し、倫理的関心事、特にAIスタートアップの文脈において、社会的に組織化して倫理的懸念を運用する方法を理解するための実証的研究のギャップがある。 このギャップは、学術研究、イノベーション、アプリケーション間の分離のリスクを増大させる。 このリスクは、AIシステムの潜在的な損害を特定し、軽減するための圧力が、公正性、説明責任、透明性のために社会技術革新を評価し、実装する緊急の必要性を生み出したとして、急速に実現される。 社会実践理論に基づいて、我々は、AI研究者、実践家、規制官が既存の文化的理解、歴史、倫理的AIの社会的実践を体系的に分析し、社会技術革新を効果的に実施するための適切な戦略を定義することができるフレームワークを介して、このニーズに対処する。 私たちの貢献は3倍です 1)倫理的AIを理解するための実践的アプローチを導入する。 2) ドイツのAIスタートアップにおける倫理の運用に関する調査から得られた経験的知見から,AI倫理と社会実践が,その特定の文化的・歴史的文脈において理解されなければならないことを明らかにする。 3)実証実験の結果から,倫理的AIの実践は原則,ニーズ,物語,物質化,文化系譜に分解され,社会技術革新を考える上で有用な背景を形成することが示唆された。

Within the current AI ethics discourse, there is a gap in empirical research on understanding how AI practitioners understand ethics and socially organize to operationalize ethical concerns, particularly in the context of AI start-ups. This gap intensifies the risk of a disconnect between scholarly research, innovation, and application. This risk materializes acutely as mounting pressures to identify and mitigate the potential harms of AI systems have created an urgent need to assess and implement socio-technical innovation for fairness, accountability, and transparency. Building on social practice theory, we address this need via a framework that allows AI researchers, practitioners, and regulators to systematically analyze existing cultural understandings, histories, and social practices of ethical AI to define appropriate strategies for effectively implementing socio-technical innovations. Our contributions are threefold: 1) we introduce a practice-based approach for understanding ethical AI; 2) we present empirical findings from our study on the operationalization of ethics in German AI start-ups to underline that AI ethics and social practices must be understood in their specific cultural and historical contexts; and 3) based on our empirical findings, we suggest that ethical AI practices can be broken down into principles, needs, narratives, materializations, and cultural genealogies to form a useful backdrop for considering socio-technical innovations.
翻訳日:2023-02-19 17:52:35 公開日:2022-06-20
# アプリのGDPRのコストは? プラットフォームデータなしでは勉強できない

The Cost of the GDPR for Apps? Nearly Impossible to Study without Platform Data ( http://arxiv.org/abs/2206.09734v1 )

ライセンス: Link先を確認
Konrad Kollnig, Reuben Binns(参考訳) Jan{\ss}en氏らが最近発表した 'GDPR and the Lost Generation of Innovative Apps' は、2018年5月のGDPR導入前後にGoogle Play Storeのアプリの3分の1がこのアプリストアから姿を消したことを観察している。 著者は「GDPRが原因である」と推測する。 GDPRがアプリ経済に与える影響は、研究にとって重要な分野である。 残念ながら、この論文には制御条件とキー変数が欠けている。 その結果、本稿で報告されているアプリエグジットへの影響は過大評価される可能性が高い。 GDPR以外にも、Play Storeでこうした変化を説明する要因は他にもあると思います。

A recently published pre-print titled 'GDPR and the Lost Generation of Innovative Apps' by Jan{\ss}en et al. observes that a third of apps on the Google Play Store disappeared from this app store around the introduction of the GDPR in May 2018. The authors deduce 'that GDPR is the cause'. The effects of the GDPR on the app economy are an important field to study. Unfortunately, the paper currently lacks a control condition and a key variable. As a result, the effects on app exits reported in the paper are likely overestimated, as we will discuss. We believe there are other factors which may better explain these changes in the Play Store aside from the GDPR.
翻訳日:2023-02-19 17:51:57 公開日:2022-06-20
# 信頼できるエッジインテリジェンスを目指して:ボイスアクティベートサービスから

Towards Trustworthy Edge Intelligence: Insights from Voice-Activated Services ( http://arxiv.org/abs/2206.09523v1 )

ライセンス: Link先を確認
W.T. Hutiri, A.Y. Ding(参考訳) 監視資本主義の時代には、新しいスマートサービスの設計を信頼度に固定することが緊急かつ重要である。 AIとエッジコンピューティングの分野を統合したエッジインテリジェンスは、スマートサービスにとって重要な技術だ。 したがって、信頼できるエッジインテリジェンスは優先的な研究課題である。 しかし、エッジインテリジェンスを信頼できるものにするのは、必ずしも前向きではない。 本稿では,音声アクティベートサービスの具体的な応用シナリオにおいて,信頼に値するエッジインテリジェンスの要件を検討する。 まず、AIとIoTの信頼性特性を共同で考慮した、信頼できるエッジインテリジェンスのための統合フレーミングを提案します。 次に,音声アクティベーションサービスにおける有形ケーススタディの結果について,プライバシ,セキュリティ,公平性という3つの重要な信頼性属性の相互依存性を示す。 第3に,経験的および分析的な知見に基づいて,信頼に値するエッジインテリジェンスのための重要な研究領域を示す課題とオープン質問を強調する。

In an age of surveillance capitalism, anchoring the design of emerging smart services in trustworthiness is urgent and important. Edge Intelligence, which brings together the fields of AI and Edge computing, is a key enabling technology for smart services. Trustworthy Edge Intelligence should thus be a priority research concern. However, determining what makes Edge Intelligence trustworthy is not straight forward. This paper examines requirements for trustworthy Edge Intelligence in a concrete application scenario of voice-activated services. We contribute to deepening the understanding of trustworthiness in the emerging Edge Intelligence domain in three ways: firstly, we propose a unified framing for trustworthy Edge Intelligence that jointly considers trustworthiness attributes of AI and the IoT. Secondly, we present research outputs of a tangible case study in voice-activated services that demonstrates interdependencies between three important trustworthiness attributes: privacy, security and fairness. Thirdly, based on the empirical and analytical findings, we highlight challenges and open questions that present important future research areas for trustworthy Edge Intelligence.
翻訳日:2023-02-19 17:51:48 公開日:2022-06-20
# ブロック型ビジュアルプログラミングタスクのための {solution synthesis} から {student attempt synthesis} へ

From {Solution Synthesis} to {Student Attempt Synthesis} for Block-Based Visual Programming Tasks ( http://arxiv.org/abs/2205.01265v2 )

ライセンス: Link先を確認
Adish Singla, Nikitas Theodoropoulos(参考訳) ブロックベースのビジュアルプログラミング環境は、初心者にコンピューティングの概念を導入するためにますます使われている。 プログラミングタスクがオープンで概念的であることを考えると、初心者の学生はこれらの環境で学習する際に苦労することが多い。 AIによるプログラミングの家庭教師は、苦労している学生を自動で支援し、この可能性を実現するためにいくつかのコンポーネントを必要としている。 学生モデルの重要な構成要素,特に生徒の行動予測(合成)に対する誤解を自動的に推測する能力について検討した。 そこで,本研究では,ある学生に対して,一定の参照課題に対する学生の試みを観察した後,新たな目標課題に対する学生の試みを合成する,という課題に着目した,新しいベンチマーク「snsyn」を提案する。 この課題は、プログラム合成と類似しているが、 {solution} (すなわち、専門家が書くプログラム)を合成するのではなく、 {student attempt} (すなわち、ある学生が書くプログラム)を合成することが目的である。 まず、人間の専門家(TutorSS)がベンチマークで高いパフォーマンスを達成できることを示し、一方、単純なベースラインでは性能が低かった。 そこで我々は、TutorSSとのギャップを埋めるため、2つのニューラル/シンボリック技術(NeurSSとSymSS)を開発した。

Block-based visual programming environments are increasingly used to introduce computing concepts to beginners. Given that programming tasks are open-ended and conceptual, novice students often struggle when learning in these environments. AI-driven programming tutors hold great promise in automatically assisting struggling students, and need several components to realize this potential. We investigate the crucial component of student modeling, in particular, the ability to automatically infer students' misconceptions for predicting (synthesizing) their behavior. We introduce a novel benchmark, StudentSyn, centered around the following challenge: For a given student, synthesize the student's attempt on a new target task after observing the student's attempt on a fixed reference task. This challenge is akin to that of program synthesis; however, instead of synthesizing a {solution} (i.e., program an expert would write), the goal here is to synthesize a {student attempt} (i.e., program that a given student would write). We first show that human experts (TutorSS) can achieve high performance on the benchmark, whereas simple baselines perform poorly. Then, we develop two neuro/symbolic techniques (NeurSS and SymSS) in a quest to close this gap with TutorSS.
翻訳日:2023-02-19 16:39:16 公開日:2022-06-20
# 話者自動認識におけるバイアス

Bias in Automated Speaker Recognition ( http://arxiv.org/abs/2201.09486v2 )

ライセンス: Link先を確認
Wiebke Toussaint Hutiri and Aaron Ding(参考訳) 自動話者認識は、データ処理を使用して話者を音声で識別する。 現在、自動話者認識は何十億ものスマートデバイスやコールセンタなどのサービスにデプロイされている。 顔認識や自然言語処理などの関連分野における大規模な展開と既知のバイアス源にもかかわらず、自動話者認識のバイアスは体系的に研究されていない。 自動話者認識における音声バイオメトリックおよび中核的タスクである話者検証の機械学習開発ワークフローにおけるバイアスの詳細な実験的および分析的研究について述べる。 機械学習の害源を理解するための確立された枠組みに基づいて、有名なVoxCeleb Speaker Recognition Challengeにおいて、データ生成、モデル構築、実装を含むすべての開発段階でバイアスが存在することを示す。 最も影響を受けるのは女性話者と非米国国籍であり、パフォーマンスが著しく低下する。 この知見を活かし,話者認識におけるバイアス軽減のための実用的な提案を行い,今後の研究方向性について概説する。

Automated speaker recognition uses data processing to identify speakers by their voice. Today, automated speaker recognition is deployed on billions of smart devices and in services such as call centres. Despite their wide-scale deployment and known sources of bias in related domains like face recognition and natural language processing, bias in automated speaker recognition has not been studied systematically. We present an in-depth empirical and analytical study of bias in the machine learning development workflow of speaker verification, a voice biometric and core task in automated speaker recognition. Drawing on an established framework for understanding sources of harm in machine learning, we show that bias exists at every development stage in the well-known VoxCeleb Speaker Recognition Challenge, including data generation, model building, and implementation. Most affected are female speakers and non-US nationalities, who experience significant performance degradation. Leveraging the insights from our findings, we make practical recommendations for mitigating bias in automated speaker recognition, and outline future research directions.
翻訳日:2023-02-19 14:26:51 公開日:2022-06-20
# ソブリンデータ交換課題の緩和 - プライバシと認証の強化技術の適用へのマッピング

Mitigating Sovereign Data Exchange Challenges: A Mapping to Apply Privacy- and Authenticity-Enhancing Technologies ( http://arxiv.org/abs/2207.01513v1 )

ライセンス: Link先を確認
Kaja Schmidt and Gonzalo Munilla Garrido and Alexander M\"uhle and Christoph Meinel(参考訳) 機密データや個人データを共有することによる有害な影響は、機関のデータ交換への意欲を妨げる可能性がある。 したがって、機関は、認証強化技術(aets)とプライバシー強化技術(pets)を、自己やユーザのデータの主権を損なうことなく、第三者とデータを共有する主権データ交換(sde)に従事させる。 しかし、これらの技術はしばしば技術的に複雑であり、採用を妨げる。 SDEにおけるPETとAETの選択を支援し,研究者や実践者が取り組むべきSDE課題を強調するために,本研究では,課題指向技術マッピングを実証的に構築する。 まず,系統的な文献レビューと専門家インタビューを実施し,SDEの課題を整理する。 次に、PETとAETをSDEの課題にマッピングし、どの技術がどの課題を緩和できるかを特定する。 我々は三角測量を通して地図を検証する。 最も重大な課題はデータの使用とアクセス制御であるが、petとaetsの大多数はデータ処理の問題に焦点を当てている。

Harmful repercussions from sharing sensitive or personal data can hamper institutions' willingness to engage in data exchange. Thus, institutions consider Authenticity Enhancing Technologies (AETs) and Privacy-Enhancing Technologies (PETs) to engage in Sovereign Data Exchange (SDE), i.e., sharing data with third parties without compromising their own or their users' data sovereignty. However, these technologies are often technically complex, which impedes their adoption. To support practitioners select PETs and AETs for SDE use cases and highlight SDE challenges researchers and practitioners should address, this study empirically constructs a challenge-oriented technology mapping. First, we compile challenges of SDE by conducting a systematic literature review and expert interviews. Second, we map PETs and AETs to the SDE challenges and identify which technologies can mitigate which challenges. We validate the mapping through investigator triangulation. Although the most critical challenge concerns data usage and access control, we find that the majority of PETs and AETs focus on data processing issues.
翻訳日:2023-02-19 09:41:32 公開日:2022-06-20
# 位置依存有効質量を持つ半圧高調波振動子モデルのフシミ関数

The Husimi function of a semiconfined harmonic oscillator model with a position-dependent effective mass ( http://arxiv.org/abs/2204.02039v2 )

ライセンス: Link先を確認
E.I. Jafarov, A.M. Jafarova and S.M. Nagiyev(参考訳) 位置依存有効質量を持つ半畳み調和振動子モデルの位相空間表現を構築する。 我々は, 振動子モデルの定常状態に対するフシミ分布関数を, 適用外等質場を用いない場合にも検討した。 得られた関数は放物型シリンダー関数の二重和で表される。 異なる特殊な場合や制限関係についても論じている。

The phase space representation for a semiconfined harmonic oscillator model with a position-dependent effective mass is constructed. We have found the Husimi distribution function for the stationary states of the oscillator model under consideration for both cases without and with the applied external homogeneous field. The obtained function is expressed through the double sum of the parabolic cylinder function. Different special cases and the limit relations are discussed, too.
翻訳日:2023-02-18 05:41:15 公開日:2022-06-20
# 時間ビン符号化ガウス粒子サンプリング装置を用いた高密度サブグラフの試作

Experimentally finding dense subgraphs using a time-bin encoded Gaussian boson sampling device ( http://arxiv.org/abs/2204.05254v2 )

ライセンス: Link先を確認
S. Sempere-Llagostera, R. B. Patel, I. A. Walmsley and W. S. Kolthammer(参考訳) gaussian boson sampling (gbs) は、光子数分解検出器を用いたマルチモード非古典ガウス状態からのサンプルの描画に基づく量子コンピューティングの概念である。 当初は量子優位性を達成するための短期的アプローチとして提案されていたが、グラフ特徴の計算や分子ビブロニックスペクトルなどのいくつかの応用が提案されている。 初めて、時間ビン符号化干渉計を用いてGBSを実験的に実装し、サンプルを抽出してグラフ内の高密度部分グラフの探索を強化する。 その結果,10個のノードを含むグラフにおいて,3と4のサブグラフの古典的手法よりも改善が見られた。 さらに、光回路における不完全性の役割とアルゴリズムの性能について数値的に検討する。

Gaussian Boson Sampling (GBS) is a quantum computing concept based on drawing samples from a multimode nonclassical Gaussian state using photon-number resolving detectors. It was initially posed as a near-term approach aiming to achieve quantum advantage, but several applications have been proposed ever since, such as the calculation of graph features or molecular vibronic spectra, among others. For the first time, we use a time-bin encoded interferometer to implement GBS experimentally and extract samples to enhance the search for dense subgraphs in a graph. Our results indicate an improvement over classical methods for subgraphs of sizes three and four in a graph containing ten nodes. In addition, we numerically explore the role of imperfections in the optical circuit and on the performance of the algorithm.
翻訳日:2023-02-17 08:12:07 公開日:2022-06-20
# 単一原子用大型光トラップアレイの単純受動的設計

A simple, passive design for large optical trap arrays for single atoms ( http://arxiv.org/abs/2204.07788v3 )

ライセンス: Link先を確認
P. Huft, Y. Song, T. M. Graham, K. Jooya, S. Deshpande, C. Fang, M. Kats, and M. Saffman(参考訳) 本稿では,新しい4fフィルタとカスタムトランスミッションマスクを用いた2次元光トラップアレイにおいて,アクティブな装置を使わずにコールド原子をトラップする手法を提案する。 このアプローチは、明るいトラップや暗いトラップの配列を生成するために、あるいは2種類のトラップを形成するための単一の波長を同時に生成するために使用することができる。 約1つのCs原子をほぼゼロ強度の領域に約1つのガウスプロファイルトラップでロードする1225個のダークトラップサイトからなる2次元アレイを作成した。 さらに, 周期的光学格子のタルボット効果によって生じる, 集束外閉じ込め原子の問題に対する簡単な解法を示す。 高出力かつ低コストのスペクトルおよび空間広帯域レーザーを用いることで、焦点外干渉を緩和し、talbot平面トラップをほぼ完全に除去する。

We present an approach for trapping cold atoms in a 2D optical trap array generated with a novel 4f filtering scheme and custom transmission mask without any active device. The approach can be used to generate arrays of bright or dark traps, or both simultaneously with a single wavelength for forming two-species traps. We demonstrate the design by creating a 2D array of 1225 dark trap sites, where single Cs atoms are loaded into regions of near-zero intensity in an approximately Gaussian profile trap. Moreover, we demonstrate a simple solution to the problem of out-of-focus trapped atoms, which occurs due to the Talbot effect in periodic optical lattices. Using a high power yet low cost spectrally and spatially broadband laser, out-of-focus interference is mitigated, leading to near perfect removal of Talbot plane traps.
翻訳日:2023-02-16 19:09:59 公開日:2022-06-20
# 希土類ドープ結晶の高共役状態におけるコヒーレントスピンダイナミクス

Coherent spin dynamics of rare-earth doped crystals in the high-cooperativity regime ( http://arxiv.org/abs/2206.04027v2 )

ライセンス: Link先を確認
Joseph Alexander, Gavin Dold, Oscar W. Kennedy, Mantas \v{S}im\.enas, James O'Sullivan, Christoph W. Zollitsch, Sacha Welinski, Alban Ferrier, Elo\"ise Lafitte-Houssat, Tobias Lindstr\"om, Philippe Goldner, John J. L. Morton(参考訳) 希土類ドープ結晶は長いコヒーレンス時間を持ち、マイクロ波と光子の量子インターフェースを提供する可能性がある。 このような応用はスピンアンサンブルとマイクロ波空洞との間の高い協調性から恩恵を受けており、これはスピンコヒーレンス寿命に影響を与える希土類イオン濃度の増加を動機付けている。 我々は、2つの希少スピン種である$^{145}$NdとYbをY$_{2}$SiO$_{5}$にドープし、温度範囲1.2Kから14mKの高協調系における平面マイクロ波共振器と結合してスピンダイナミクスを測定する。 我々は、共鳴スピンから生じる瞬時拡散や、環境中の不純物電子および核スピンからの温度依存性のスペクトル拡散を含む関連するデコヒーレンス機構を同定する。 低温限界におけるYb系におけるスペクトル拡散の影響を緩和する2つの手法を探索し、第1に、磁場1Tで不純物スピンダイナミクスを抑制し、第2に、低効率g因子の遷移を用いて、そのような力学に対する感度を低下させる。 最後に、ゼロ場における$^{171}$Yb 系の 'clock transition' が、コヒーレンス時間を$T_{2} = 6(1)$ ms に拡張するためにどのように使用できるかを実証する。

Rare-earth doped crystals have long coherence times and the potential to provide quantum interfaces between microwave and optical photons. Such applications benefit from a high cooperativity between the spin ensemble and a microwave cavity -- this motivates an increase in the rare earth ion concentration which in turn impacts the spin coherence lifetime. We measure spin dynamics of two rare-earth spin species, $^{145}$Nd and Yb doped into Y$_{2}$SiO$_{5}$, coupled to a planar microwave resonator in the high cooperativity regime, in the temperature range 1.2 K to 14 mK. We identify relevant decoherence mechanisms including instantaneous diffusion arising from resonant spins and temperature-dependent spectral diffusion from impurity electron and nuclear spins in the environment. We explore two methods to mitigate the effects of spectral diffusion in the Yb system in the low-temperature limit, first, using magnetic fields of up to 1 T to suppress impurity spin dynamics and, second, using transitions with low effective g-factors to reduce sensitivity to such dynamics. Finally, we demonstrate how the `clock transition' present in the $^{171}$Yb system at zero field can be used to increase coherence times up to $T_{2} = 6(1)$ ms.
翻訳日:2023-02-10 04:10:40 公開日:2022-06-20
# 地中準備のためのハバードモデルの変分対断駆動

Variational counterdiabatic driving of the Hubbard model for ground-state preparation ( http://arxiv.org/abs/2206.07597v2 )

ライセンス: Link先を確認
Q Xie, Kazuhiro Seki and Seiji Yunoki(参考訳) 反断熱(cd)プロトコルは、駆動過程を通して励起状態への遷移を抑制する補助断熱ゲージポテンシャル(agp)を呼び出すことにより、量子状態の高速駆動を可能にする。 通常、元のアンヘルプハミルトニアンの全スペクトルは正確な agp を構築するための前提条件であり、cdプロトコルは多体系では極めて困難である。 本稿では、最近P. W. Claeysらによって提案された変分CDプロトコルを適用する。 [phys. rev. lett. 123, 090602 (2019)] 1つの空間次元における2成分フェルミオンハバードモデル。 このプロトコルは、ネストした通勤者の列として表される近似 AGP に係わる。 近似 AGP における最適変分パラメータは、これらの可換作用素の2乗フロベニウスノルムによって係数が与えられる線形方程式の集合を満たすことを示す。 計算可能な反復行列-ベクトル乗算から逃れる厳密なアルゴリズムを考案し、解析的表現においてネストした可換子とcdハミルトニアンを評価する。 次に、1次元のハバードモデルのCD駆動を、ドライブオーダー$l \leqslant 3$で、最大$L = 14$サイトまで調べる。 本研究は,ハバードモデルに対する変分CDプロトコルの有用性を実証し,多体系の高速地中準備への道筋を示すものである。

Counterdiabatic (CD) protocols enable fast driving of quantum states by invoking an auxiliary adiabatic gauge potential (AGP) that suppresses transitions to excited states throughout the driving process. Usually, the full spectrum of the original unassisted Hamiltonian is a prerequisite for constructing the exact AGP, which implies that CD protocols are extremely difficult for many-body systems. Here, we apply a variational CD protocol recently proposed by P. W. Claeys et al. [Phys. Rev. Lett. 123, 090602 (2019)] to a two-component fermionic Hubbard model in one spatial dimension. This protocol engages an approximated AGP expressed as a series of nested commutators. We show that the optimal variational parameters in the approximated AGP satisfy a set of linear equations whose coefficients are given by the squared Frobenius norms of these commutators. We devise an exact algorithm that escapes the formidable iterative matrix-vector multiplications and evaluates the nested commutators and the CD Hamiltonian in analytic representations. We then examine the CD driving of the one-dimensional Hubbard model up to $L = 14$ sites with driving order $l \leqslant 3$. Our results demonstrate the usefulness of the variational CD protocol to the Hubbard model and permit a possible route towards fast ground-state preparation for many-body systems.
翻訳日:2023-02-09 07:10:01 公開日:2022-06-20
# 単一量子ビットreaped量子状態トモグラフィ

Single-Qubit Reaped Quantum State Tomography ( http://arxiv.org/abs/2206.09562v1 )

ライセンス: Link先を確認
Mahn-Soo Choi(参考訳) 量子状態トモグラフィーは未知の状態を決定する実験方法である。 これは、量子情報の資源とプロセッサの検証に必須であるだけでなく、量子力学の基礎に関して、それ自体が重要である。 測定対象の観測可能量は膨大であり、データ後処理の指数関数的な複雑さが原因で、大規模システムでは標準手法が解明されてきた。 そこで本研究では,システムのサイズに関わらず,観測可能な3つ(システムとポインタとの共同動作)の計測を必要とする新しい量子状態トモグラフィー手法を提案する。 システムは単一の量子ビットの「ポインタ」に結合され、システムの測定によってシステムの波動関数はポインタに「受信」される。 その後、ポインター上の標準2状態トモグラフィーと古典的な後処理を用いてシステムの量子状態の再構成を行う。 また,統計的に不完全なデータから状態を推定するための効率的でスケーラブルな反復的最大度アルゴリズムを開発した。

Quantum state tomography is the experimental procedure of determining an unknown state. It is not only essential for the verification of resources and processors of quantum information but is also important in its own right with regard to the foundation of quantum mechanics. Standard methods have been elusive for large systems because of the enormous number of observables to be measured and the exponential complexity of data post-processing. Here, we propose a new scheme of quantum state tomography that requires the measurement of only three observables (acting jointly on the system and pointer) regardless of the size of the system. The system is coupled to a "pointer" of single qubit, and the wavefunction of the system is "reaped" onto the pointer upon the measurement of the system. Subsequently, standard two-state tomography on the pointer and classical post-processing are used to reconstruct the quantum state of the system. We also developed an efficient and scalable iterative maximum likelihood algorithm to estimate states from statistically incomplete data.
翻訳日:2023-02-08 19:02:09 公開日:2022-06-20
# 2次元デルタ関数点散乱器の特異性フリーな処理とその概念的意義

Singularity-free treatment of delta-function point scatterers in two dimensions and its conceptual implications ( http://arxiv.org/abs/2206.09763v1 )

ライセンス: Link先を確認
Farhang Loran and Ali Mostafazadeh(参考訳) 2次元において、デルタ関数ポテンシャルに対する散乱問題の標準的な処理である $v(\mathbf{r})=\mathfrak{z}\,\delta(\mathbf{r})$ は対数特異点をもたらすが、これは結合定数 $\mathfrak{z}$ の正規化によって取り除かれる。 近年,定常散乱(DFSS)の動的定式化を開発し,このポテンシャルの特異性のない処理を行っている。 DFSSの暗黙的正則化特性に責任を負う基本的なメカニズムを解明し、この問題に対する標準的なアプローチで遭遇する対数特異性を回避する。 この問題に対する標準的な処理は、検出器のスクリーンと平行な運動量を持つ散乱波への寄与を考慮に入れているため、この特異点の別の解釈を提供する。 この特異点を取り除くために使われる正規化スキームは、これらの非物理的貢献を減らし、DFSSはこの目的を達成するための組み込み力学を持つ。

In two dimensions, the standard treatment of the scattering problem for a delta-function potential, $v(\mathbf{r})=\mathfrak{z}\,\delta(\mathbf{r})$, leads to a logarithmic singularity which is subsequently removed by a renormalization of the coupling constant $\mathfrak{z}$. Recently, we have developed a dynamical formulation of stationary scattering (DFSS) which offers a singularity-free treatment of this potential. We elucidate the basic mechanism responsible for the implicit regularization property of DFSS that makes it avoid the logarithmic singularity one encounters in the standard approach to this problem. We provide an alternative interpretation of this singularity showing that it arises, because the standard treatment of the problem takes into account contributions to the scattered wave whose momentum is parallel to the detectors' screen. The renormalization schemes used for removing this singularity has the effect of subtracting these unphysical contributions, while DFSS has a built-in mechanics that achieves this goal.
翻訳日:2023-02-08 18:59:45 公開日:2022-06-20
# 量子安定化器符号の幾何学的グラフ理論

Geometric Graph-Theoretic Aspects of Quantum Stabilizer Codes ( http://arxiv.org/abs/2206.09726v1 )

ライセンス: Link先を確認
Carlo Cafaro(参考訳) 本稿では,2値量子安定化符号に関連付けられたグラフ構築のための体系的な手順を提案する。 この手順は以下の3段階のプロセスによって特徴づけられる。 まず、安定化器コードは、コードワード安定化(CWS)量子コードとして実現される。 第2に、CWS符号の標準形式を決定し、第3に、入力頂点をグラフにアタッチする。 本手法の有効性を検証するため,任意の単一ビット誤りのリソース効率の誤り訂正のためのマルチキュービット符号化演算子を特徴とするゴッテマン安定化符号を実装した。 最後に、gottesman 8量子ビット量子安定化コードの誤り訂正機能は、もともとschlingemannとwernerによって提唱されたグラフ理論の用語で検証される。

We propose a systematic procedure for the construction of graphs associated with binary quantum stabilizer codes. The procedure is characterized by means of the following three step process. First, the stabilizer code is realized as a codeword-stabilized (CWS) quantum code. Second, the canonical form of the CWS code is determined and third, the input vertices are attached to the graphs. In order to verify the effectiveness of the procedure, we implement the Gottesman stabilizer code characterized by multi-qubit encoding operators for the resource-efficient error correction of arbitrary single-qubit errors. Finally, the error-correcting capabilities of the Gottesman eight-qubit quantum stabilizer code is verified in graph-theoretic terms as originally advocated by Schlingemann and Werner.
翻訳日:2023-02-08 18:59:13 公開日:2022-06-20
# 分離型キャリアによる多部絡み合い分布の一手法

A scheme for multipartite entanglement distribution via separable carriers ( http://arxiv.org/abs/2206.09701v1 )

ライセンス: Link先を確認
Alessandro Laneve, Hannah McAleese and Mauro Paternostro(参考訳) ネットワークのノード間の絡み合いを確実に分散する能力は、効果的な量子通信プロトコルの開発と有用な量子ネットワークの実現に必須の要件である。 異なる文脈において、2つのリモートシステムは、遠方の粒子に対して常に分離可能な状態にあるキャリアシステムとの局所的な相互作用によって絡み合うことが証明されている。 我々は,任意のネットワークノードに適用可能な分離可能なキャリアによる絡み合い分布戦略を開発し,様々な絡み合い分布パターンを実現する。 我々のプロトコルはマルチパーティの絡み合いをもたらすが、処理を仲介するキャリアは常にネットワークに対して分離可能な状態である。 本稿では,提案手法の柔軟性を示す実例と,プロトコルの実験的実証のための原理スキームを提案する。

The ability to reliably distribute entanglement among the nodes of a network is an essential requirement for the development of effective quantum communication protocols and the realization of useful quantum networks. It has been demonstrated, in different contexts, that two remote systems can be entangled via local interactions with a carrier system that always remains in a separable state with respect to such distant particles. We develop a strategy for entanglement distribution via separable carriers that can be applied to any number of network nodes to achieve various entanglement distribution patterns. We show that our protocol results in multipartite entanglement, while the carrier mediating the process is always in a separable state with respect to the network. We provide examples showcasing the flexibility of our approach and propose a scheme of principle for the experimental demonstration of the protocol.
翻訳日:2023-02-08 18:58:57 公開日:2022-06-20
# ランダムジオメトリーにおける二重ユニタリ回路

Dual unitary circuits in random geometries ( http://arxiv.org/abs/2206.09665v1 )

ライセンス: Link先を確認
Yusuf Kasim, Toma\v{z} Prosen(参考訳) 近年導入された2重ユニタリブリックワーク回路は、微調整可能なエルゴディク性と混合性を持つ、正確に可解な量子カオス多体系として認識されている。 ここでは、回路格子の正則性は正確な可解性には不可欠ではないことを示す。 本研究では,2次元(ミカド)の直線のランダムな配置の交差点にランダムな2ビットの二重ユニタリゲートを配置し,局所作用素の時空間相関関数の分散を解析的に計算する回路を考える。 平均の相関器はゲートの局所的ハールランダム性により消滅する。 結果は2つのランダムなミカド設定に対して物理的に動機付けることができる。 第一は、運動的な交差で相互作用を経験する内部量子度を持つ自由粒子の熱状態に対応し、第二は回転対称(ランダムユークリッド)時空を表す。

Recently introduced dual unitary brickwork circuits have been recognised as paradigmatic exactly solvable quantum chaotic many-body systems with tunable degree of ergodicity and mixing. Here we show that regularity of the circuit lattice is not crucial for exact solvability. We consider a circuit where random 2-qubit dual unitary gates sit at intersections of random arrangements of straight lines in two dimensions (mikado) and analytically compute the variance of the spatio-temporal correlation function of local operators. Note that the average correlator vanishes due to local Haar randomness of the gates. The result can be physically motivated for two random mikado settings. The first corresponds to the thermal state of free particles carrying internal qubit degrees of freedom which experience interaction at kinematic crossings, while the second represents rotationally symmetric (random euclidean) space-time.
翻訳日:2023-02-08 18:58:22 公開日:2022-06-20
# 2光干渉LiDARイメージング

Two-Photon Interference LiDAR Imaging ( http://arxiv.org/abs/2206.09661v1 )

ライセンス: Link先を確認
Robbie Murray and Ashley Lyons(参考訳) 光コヒーレンス・トモグラフィ(OCT)は、バイオイメージングのためのミクロンスケールの深さ分解能を提供する重要な3Dイメージング技術である。 この解像度は、検知エレクトロニクスのインパルス応答によりミリメートルスケールに制限される場合が多い光検出およびランシング(LiDAR)において達成されたことをはるかに上回っている。 しかし、例えば機械的な動きから生じるLiDARシーンにおけるコヒーレンスの欠如は、OCTを事実上実現不可能にする。 ここでは、高レベルの安定性を必要とせず、OCT深度分解能を実現するLiDARに量子干渉によるアプローチを提案する。 我々は、70 {\mu}mの効果的なインパルス応答で深度イメージング能力を実証し、従来のLiDAR手法よりも高分解能で範囲と多重反射を識別できることを示した。 この強化された解像度は、3D顔認証におけるLiDARの道を開くとともに、小さな特徴の検出/追跡に加えて、障害物を通した画像や非視線イメージングのようなより複雑な飛行時間法の性能を高める。

Optical Coherence Tomography (OCT) is a key 3D imaging technology that provides micron scale depth resolution for bio-imaging. This resolution substantially surpasses what it typically achieved in Light Detection and Ranging (LiDAR) which is often limited to the millimetre scale due to the impulse response of the detection electronics. However, the lack of coherence in LiDAR scenes, arising from mechanical motion for example, make OCT practically infeasible. Here we present a quantum interference inspired approach to LiDAR which achieves OCT depth resolutions without the need for high levels of stability. We demonstrate depth imaging capabilities with an effective impulse response of 70 {\mu}m, thereby allowing ranging and multiple reflections to be discerned with much higher resolution than conventional LiDAR approaches. This enhanced resolution opens up avenues for LiDAR in 3D facial recognition, and small feature detection/tracking as well as enhancing the capabilities of more complex time-of-flight methods such as imaging through obscurants and non-line-of-sight imaging.
翻訳日:2023-02-08 18:58:08 公開日:2022-06-20
# パラメトリゼーション量子回路の古典的分割

Classical Splitting of Parametrized Quantum Circuits ( http://arxiv.org/abs/2206.09641v1 )

ライセンス: Link先を確認
Cenk T\"uys\"uz, Giuseppe Clemente, Arianna Crippa, Tobias Hartung, Stefan K\"uhn, Karl Jansen(参考訳) バレンプラトーは、変動量子アルゴリズムを使用して大規模量子システムをシミュレートしたり、従来の機械学習アルゴリズムを置き換えたりする大きな障害である。 それらは、表現性、絡み合い、可観測物の局所性、さらにはハードウェアノイズなど、複数の要因によって引き起こされる。 本研究では,不規則な高原を避けるために,ans\"atze or parametrized quantum circuitの古典的分割を提案する。 古典的な分割は、$N$ qubit ansatz を $\mathcal{O}(\log N)$ qubits からなる多重 ans\"atze に分割することで実現される。 このようなアンサッツは不毛高原を避けるために用いられる。 数値実験により結果をサポートし,古典データセットと量子データセットのバイナリ分類を行う。 次に,変分量子シミュレーションと互換性のある ansatz の拡張を提案する。 最後に、勾配に基づく最適化とハードウェア実装の高速化、ノイズと並列化に対する堅牢性について論じ、古典的な分割をノイズの多い中間スケール量子(NISQ)アプリケーションに理想的なツールにする。

Barren plateaus appear to be a major obstacle to using variational quantum algorithms to simulate large-scale quantum systems or replace traditional machine learning algorithms. They can be caused by multiple factors such as expressivity, entanglement, locality of observables, or even hardware noise. We propose classical splitting of ans\"atze or parametrized quantum circuits to avoid barren plateaus. Classical splitting is realized by splitting an $N$ qubit ansatz to multiple ans\"atze that consists of $\mathcal{O}(\log N)$ qubits. We show that such an ansatz can be used to avoid barren plateaus. We support our results with numerical experiments and perform binary classification on classical and quantum datasets. Then, we propose an extension of the ansatz that is compatible with variational quantum simulations. Finally, we discuss a speed-up for gradient-based optimization and hardware implementation, robustness against noise and parallelization, making classical splitting an ideal tool for noisy intermediate scale quantum (NISQ) applications.
翻訳日:2023-02-08 18:57:47 公開日:2022-06-20
# ページ曲線と対称性

Page curve and symmetries ( http://arxiv.org/abs/2206.09633v1 )

ライセンス: Link先を確認
Pak Hang Chris Lau, Toshifumi Noumi, Yuhei Takii, Kotaro Tamaoka(参考訳) ブラックホール蒸発の量子過程とその対称性に対する影響に動機づけられ、ランダムダイナミクスを持つ量子ビット系をブラックホールのおもちゃモデルとして考える。 対称性を解いたエントロピーを計算し、その意味を議論する。 まず電荷が保存された場合を考え、対称性が解かれたエントロピーを計算する。 ページ曲線の対称性分解類似物を導出する。 次に、対称性が明示的に破れ、電荷が保存されない場合を考える。 これはブラックホールの蒸発における大域対称性の破れのおもちゃモデルとして機能する。 単純な枠組みにもかかわらず、対称性を解いたエントロピーは、クォービットモデルにおけるブラックホールの蒸発の類似過程において、様々な興味深い特徴を捉えている。

Motivated by the quantum process of black hole evaporation and its implications for symmetries, we consider a qubit system with a random dynamics as a toy model of black hole. We compute its symmetry-resolved entropies and discuss its implications. We first consider the case where charges are conserved and compute the symmetry-resolved entropies. We derive a symmetry-resolved analogue of the Page curve. We then consider the case where symmetry is explicitly broken and charges are no longer conserved. It serves as a toy model for global symmetry breaking in black hole evaporation. Despite the simple framework, the symmetry-resolved entropies capture various interesting features during the analogous process of black hole evaporation in our qubit model.
翻訳日:2023-02-08 18:57:27 公開日:2022-06-20
# 矩形断面を有する導波路QEDセットアップにおける遅延効果と暗黒状態

Retardation effect and dark state in a waveguide QED setup with rectangle cross section ( http://arxiv.org/abs/2206.09565v1 )

ライセンス: Link先を確認
Yang Xue and Zhihai Wang(参考訳) 本稿では,矩形断面を持つ準1次元導波路と結合する2原子系のダイナミクスについて検討する。 導波路は異なるTMモードとTEモードをサポートし、前者は原子の双極子モーメントをオンデマンドで選択することで環境として機能する。 このような環境は原子の相互作用と集団散逸を引き起こす。 2つの原子が導波路の中央に位置する場合、原子の1つをオフセンターに移動させることで破壊される遅延効果が観察される。 暗黒状態機構を介して系の完全な散逸を保存するため、原子の接続が導波路の軸に垂直であるスキームを提案する。 我々の研究は、最先端の導波路構造に基づく量子情報処理に役立ちたい。

In this paper, we investigate the dynamics of a two-atom system which couples to a quasi-one dimensional waveguide with rectangle cross section. The waveguide supports different TM and TE modes and the former ones play as environment by on-demand choosing the dipole moment of the atoms. Such environment induces the interaction and collective dissipation of the atoms. When both of the two atoms are located in the middle of the waveguide, we observe a retardation effect, which is broken by moving one of the atom to be off-centered. To preserve the complete dissipation of the system via dark state mechanism, we propose a scheme where the connection of the atoms are perpendicular to the axis of the waveguide. We hope our study will be useful in quantum information processing based on state-to-art waveguide structure.
翻訳日:2023-02-08 18:57:01 公開日:2022-06-20
# 再帰的変分級法に基づく分子・物質特性計算のための短期量子アルゴリズム

A Near-Term Quantum Algorithm for Computing Molecular and Materials Properties based on Recursive Variational Series Methods ( http://arxiv.org/abs/2206.09881v1 )

ライセンス: Link先を確認
Phillip W. K. Jensen, Peter D. Johnson, and Alexander A. Kunitsa(参考訳) 分子と物質の物性の決定は量子コンピューティングの第一の応用の一つである。 この分野の大きな疑問は: 実用的価値の問題を解決するために、不完全な短期量子コンピュータをどのように使うのか? 近距離量子デバイスを用いて分子の特性を推定する量子アルゴリズムを提案する。 この方法は帰納的変分級数推定法であり、チェビシェフ多項式の項で興味のある作用素を拡張し、変分量子アルゴリズムを用いて展開の各項を評価する。 本手法は,エネルギー領域における1粒子グリーン関数と時間領域における自己相関関数を計算し,既存の手法よりも有利な点を見出した。

Determining properties of molecules and materials is one of the premier applications of quantum computing. A major question in the field is: how might we use imperfect near-term quantum computers to solve problems of practical value? We propose a quantum algorithm to estimate properties of molecules using near-term quantum devices. The method is a recursive variational series estimation method, where we expand an operator of interest in terms of Chebyshev polynomials, and evaluate each term in the expansion using a variational quantum algorithm. We test our method by computing the one-particle Green's function in energy domain and the autocorrelation function in time domain, finding some advantages to this approach over existing methods.
翻訳日:2023-02-08 18:49:52 公開日:2022-06-20
# 無限線上のリンドブラジアンのスペクトル:三対角ローラン行列による非エルミートから全進化へ

Spectra of Lindbladians on the infinite line: From non-Hermitian to full evolution via tridiagonal Laurent matrices ( http://arxiv.org/abs/2206.09879v1 )

ライセンス: Link先を確認
Frederik Ravn Klausen and Albert H. Werner(参考訳) 無限直線上の単粒子変換不変リンドブラッド作用素のスペクトルを決定する。 離散ラプラシアンによってハミルトン作用素が与えられ、リンドブラッド作用素がランク$r$、有限範囲、相互の変換である場合には、ランク$r$-摂動を持つ有限範囲双無限ローレント行列の直積分としてのリンドブラッド作用素の表現を得る。 直接積分を解析することにより、一般の場合の完全スペクトルを厳密に決定し、デファス、コヒーレントホッピングなど、いくつかの種類の散逸に対して明示的に計算する。 さらに、このスペクトルに関する詳細な情報を用いて、ギャップレス性、残留スペクトルの欠如、有限体積スペクトルの無限体積スペクトルへの収束条件を示す。 この議論はアンダーソン・ハミルトンの場合に拡張され、オープン量子系における局所化に関連するリンドブラディアンの研究を可能にした。

We determine the spectra of single-particle translation-invariant Lindblad operators on the infinite line. In the case where the Hamiltonian is given by the discrete Laplacian and the Lindblad operators are rank $r$, finite range and translates of each other, we obtain a representation of the Lindbladian as a direct integral of finite range bi-infinite Laurent matrices with rank-$r$-perturbations. By analyzing the direct integral we rigorously determine the complete spectrum in the general case and calculate it explicitly for several types of dissipation e.g. dephasing, coherent hopping. We further use the detailed information about the spectrum to prove gaplessness, absence of residual spectrum and a condition for convergence of finite volume spectra to their infinite volume counterparts. We finally extend the discussion to the case of the Anderson Hamiltonian, which enables us to study a Lindbladian recently associated to localization in open quantum systems.
翻訳日:2023-02-08 18:49:40 公開日:2022-06-20
# 非線形シュロディンガー方程式の摂動理論

Perturbation theory for nonlinear Schrodinger equations ( http://arxiv.org/abs/2206.09826v1 )

ライセンス: Link先を確認
Andrea Sacchetti(参考訳) グロス・ピタエフスキー非線形シュロディンガー方程式の非線形項を線形問題の孤立離散固有値の摂動として扱い、レイリー・シュロディンガー級数を得る。 このパワー系列は、非線形項の強度を表すパラメータがしきい値よりも絶対値が小さいときに収束することが証明され、非線形シュロディンガー方程式の定常解を与える。

Treating the nonlinear term of the Gross-Pitaevskii nonlinear Schrodinger equation as a perturbation of an isolated discrete eigenvalue of the linear problem one obtains a Rayleigh-Schrodinger power series. This power series is proved to be convergent when the parameter representing the intensity of the nonlinear term is less in absolute value than a threshold value, and it gives a stationary solution to the nonlinear Schrodinger equation.
翻訳日:2023-02-08 18:48:38 公開日:2022-06-20
# 固有状態のリャプノフ指数によって制限される固有値

Eigenvalues restricted by Lyapunov exponent of eigenstates ( http://arxiv.org/abs/2206.09803v1 )

ライセンス: Link先を確認
Tong Liu and Xu Xia(参考訳) 我々は、固有状態のリャプノフ指数が固有値に制限を与えることを指摘する。 したがって、非エルミート系に関して、対称性がなくても、非保存的ハミルトニアンは固有状態のリアプノフ指数が固有値の虚部を阻害する限り、実スペクトルを示すことができる。 我々の発見は非エルミート物理学研究の新しい道を開く。

We point out that the Lyapunov exponent of the eigenstate places restrictions on the eigenvalue. Consequently, with regard to non-Hermitian systems, even without any symmetry, the non-conservative Hamiltonians can exhibit real spectra as long as Lyapunov exponents of eigenstates inhibit imaginary parts of eigenvalues. Our findings open up a new route to study non-Hermitian physics.
翻訳日:2023-02-08 18:48:32 公開日:2022-06-20
# 非線形ラビモデルに対する統一的アプローチ

A unified approach to the nonlinear Rabi models ( http://arxiv.org/abs/2206.09799v1 )

ライセンス: Link先を確認
Liwei Duan(参考訳) 2光子、2モードおよび強度依存rabiモデルの研究に解析的アプローチを適用した。 Su(1,1) リー代数により、これらはすべて$\mathcal{Z}_2$対称性を持つ同じハミルトニアンに統一することができる。 有限次元の固有状態に対応するいくつかの厳密な孤立解が存在する。 孤立解の他に、正規スペクトルはG-函数の根を見つけることで達成できる。 対応する固有状態は無限次元である。 固有状態の係数が指数減衰挙動を示すことは注目に値する。 崩壊率は結合強度の増加とともに減少する。 結合強度がスペクトル崩壊点 $g \rightarrow \omega / 2$ となると、減衰率はゼロになり、波動関数の収束が妨げられる。 この研究は、非線形量子光学における新しい物理学の分析方法である。

An analytical approach is proposed and applied to study the two-photon, two-mode and intensity-dependent Rabi models. By virtue of the su(1,1) Lie algebra, all of them can be unified to the same Hamiltonian with $\mathcal{Z}_2$ symmetry. There exist some exact isolated solutions which correspond to eigenstates with finite dimensions. Beyond the isolated solutions, the regular spectrum can be achieved by finding the roots of the G-function. The corresponding eigenstates are of infinite dimension. It is noteworthy that the coefficients of the eigenstates present an exponential decay behavior. The decay rates decrease with the increase of the coupling strength. When the coupling strength tends to the spectral collapse point $g \rightarrow \omega / 2$, the decay rate tends to zero which prevents the convergence of the wave functions. This work paves a way for the analysis of the novel physics in nonlinear quantum optics.
翻訳日:2023-02-08 18:48:24 公開日:2022-06-20
# Kan拡張を用いたリソースモノトンの拡張

Extending resource monotones using Kan extensions ( http://arxiv.org/abs/2206.09784v1 )

ライセンス: Link先を確認
Robin Cockett, Isabelle Jianing Geng, Carlo Maria Scandolo, Priyaa Varshinee Srinivasan(参考訳) 本稿では,gour と tomamichel が提案した資源理論のための単調の拡張に関する枠組みを一般化する。 資源理論のモノトーンは、資源の効用または値を表す理論において、実数を各資源に割り当てる。 グールとトミシェルは、資源理論がより大きな理論に完全に忠実に埋め込まれるときに、集合論的枠組みを用いて単調を拡張できる問題を研究した。 1つのリソース理論を1つの完全かつ忠実な包含ではなく別のリソース理論への関手変換が存在する場合のシナリオへの単調拡張の計算問題を一般化することができる。 本稿では,(一点的に)kan拡張が,モノトーンの拡張を記述・計算するための精密な分類フレームワークを提供することを示す。 カン拡張を用いて単調拡張を設定するため、資源理論の枠組みとして分割圏 (pCat) を導入し、資源理論間の関係を定式化する。 モノトンを pCat 関手として$([0,\infty], \leq)$ と記述し、カン拡大を用いて任意の pCat 関手に沿って拡張するモノトンを記述する。 本手法は,二成分純状態の絡み合いモノトンを二成分混合状態へ拡張し,古典的発散を量子集合へ拡張し,非一様モノトンを古典確率論から量子論へ拡張することにより,我々の枠組みがどのように機能するかを示す。

In this paper we generalize the framework proposed by Gour and Tomamichel regarding extensions of monotones for resource theories. A monotone for a resource theory assigns a real number to each resource in the theory signifying the utility or the value of the resource. Gour and Tomamichel studied the problem of extending monotones using set-theoretical framework when a resource theory embeds fully and faithfully into the larger theory. One can generalize the problem of computing monotone extensions to scenarios when there exists a functorial transformation of one resource theory to another instead of just a full and faithful inclusion. In this article, we show that (point-wise) Kan extensions provide a precise categorical framework to describe and compute such extensions of monotones. To set up monontone extensions using Kan extensions, we introduce partitioned categories (pCat) as a framework for resource theories and pCat functors to formalize relationship between resource theories. We describe monotones as pCat functors into $([0,\infty], \leq)$, and describe extending monotones along any pCat functor using Kan extensions. We show how our framework works by applying it to extend entanglement monotones for bipartite pure states to bipartite mixed states, to extend classical divergences to the quantum setting, and to extend a non-uniformity monotone from classical probabilistic theory to quantum theory.
翻訳日:2023-02-08 18:47:59 公開日:2022-06-20
# 核多体問題に対する隠れ核子ニューラルネットワーク量子状態

Hidden-nucleons neural-network quantum states for the nuclear many-body problem ( http://arxiv.org/abs/2206.10021v1 )

ライセンス: Link先を確認
A. Lovato, C. Adams, G. Carleo, N. Rocco(参考訳) ニューラルネットワークの量子状態の隠れフェルミ群を一般化し、連続的および離散的自由度の両方を包含し、核多体シュル=オディンガー方程式を体系的に即興的に解く。 元のヒルベルト空間に隠れた核子を加えることで、スレーター・ジャストロウアンサッツと比較して神経ネットワークアーキテクチャの表現性が大幅に増大することを示した。 また、パリティや時間反転といった波動関数点対称性を明示的に符号化する利点についても論じる。 改良された最適化手法とサンプリング技術を利用して、隠れた核子アンサッツは、光核における数値的な超球面調和法や、$^{16}$Oにおける補助場拡散モンテカルロに匹敵する精度を達成する。 核子数の多項式スケーリングにより、この方法は中質量核の量子モンテカルロの研究を高精度に行うことができる。

We generalize the hidden-fermion family of neural network quantum states to encompass both continuous and discrete degrees of freedom and solve the nuclear many-body Schr\"odinger equation in a systematically improvable fashion. We demonstrate that adding hidden nucleons to the original Hilbert space considerably augments the expressivity of the neural-network architecture compared to the Slater-Jastrow ansatz. The benefits of explicitly encoding in the wave function point symmetries such as parity and time-reversal are also discussed. Leveraging on improved optimization methods and sampling techniques, the hidden-nucleon ansatz achieves an accuracy comparable to the numerically-exact hyperspherical harmonic method in light nuclei and to the auxiliary field diffusion Monte Carlo in $^{16}$O. Thanks to its polynomial scaling with the number of nucleons, this method opens the way to highly-accurate quantum Monte Carlo studies of medium-mass nuclei.
翻訳日:2023-02-08 18:40:10 公開日:2022-06-20
# メタラーニングディジタイズ型量子最適化

Meta-Learning Digitized-Counterdiabatic Quantum Optimization ( http://arxiv.org/abs/2206.09966v1 )

ライセンス: Link先を確認
Pranav Chandarana, Pablo S. Vieites, Narendra N. Hegade, Enrique Solano, Yue Ban, and Xi Chen(参考訳) 変分量子アルゴリズムを用いた最適化タスクの解決は、現在のノイズの多い中間量子デバイスの重要な応用として現れている。 しかし、これらのアルゴリズムは適切なアンサッツや適切な初期パラメータなど、いくつかの困難に直面している。 本研究では,リカレントニューラルネットワークを用いたメタラーニング手法を用いて,変分最適化に適した初期パラメータを求める問題に取り組む。 我々は,この手法を,反断熱プロトコルを用いて最先端QAOAを改善するディジタルカウンセバティック量子近似アルゴリズム (DC-QAOA) を用いて検討した。 メタラーニングとDC-QAOAを組み合わせることで、MaxCut問題やSherrington-Kirkpatrickモデルなど、異なるモデルに対する最適な初期パラメータを見つけることができる。 最適化の繰り返し回数の減少と性能の向上を図り、近距離デバイスのための機械学習手法にショートカット・トゥ・アディバティティティの原則を組み込むことにより、最適な初期パラメータを持つショートディープ回路アンサッツを設計した。

Solving optimization tasks using variational quantum algorithms has emerged as a crucial application of the current noisy intermediate-scale quantum devices. However, these algorithms face several difficulties like finding suitable ansatz and appropriate initial parameters, among others. In this work, we tackle the problem of finding suitable initial parameters for variational optimization by employing a meta-learning technique using recurrent neural networks. We investigate this technique with the recently proposed digitized-counterdiabatic quantum approximate optimization algorithm (DC-QAOA) that utilizes counterdiabatic protocols to improve the state-of-the-art QAOA. The combination of meta learning and DC-QAOA enables us to find optimal initial parameters for different models, such as MaxCut problem and the Sherrington-Kirkpatrick model. Decreasing the number of iterations of optimization as well as enhancing the performance, our protocol designs short depth circuit ansatz with optimal initial parameters by incorporating shortcuts-to-adiabaticity principles into machine learning methods for the near-term devices.
翻訳日:2023-02-08 18:39:54 公開日:2022-06-20
# ニュートンクレードルスペクトル

Newton Cradle Spectra ( http://arxiv.org/abs/2206.09927v1 )

ライセンス: Link先を確認
Barbara \v{S}oda, Achim Kempf(参考訳) 有限次元ヒルベルト空間において、自己随伴作用素の追加とユニタリ作用素の乗算の下での固有値と固有ベクトルの挙動について、広く適用可能な非摂動的結果を示す。 この目的のために、これらの演算をニュートンのクレードル内の球面と同様に固有値が動く基本1パラメータプロセスに分解する。 特殊症例として, レベル反発とコーシーインターレースを回復する。 応用例を2つ紹介する。 断熱的量子コンピューティングに応用し,アルゴリズムの複雑性と計算速度の低下を狭義に関連付ける新しいツールを得る。 情報理論に応用して、情報の連続的および離散的表現の同値性を確立する理論であるシャノンサンプリング理論の一般化を得る。 シャノンサンプリングの新しい一般化は、様々な情報密度と有限長の信号に適用される。

We present broadly applicable nonperturbative results on the behavior of eigenvalues and eigenvectors under the addition of self-adjoint operators and under the multiplication of unitary operators, in finite-dimensional Hilbert spaces. To this end, we decompose these operations into elementary 1-parameter processes in which the eigenvalues move similarly to the spheres in Newton's cradle. As special cases, we recover level repulsion and Cauchy interlacing. We discuss two examples of applications. Applied to adiabatic quantum computing, we obtain new tools to relate algorithmic complexity to computational slowdown through gap narrowing. Applied to information theory, we obtain a generalization of Shannon sampling theory, the theory that establishes the equivalence of continuous and discrete representations of information. The new generalization of Shannon sampling applies to signals of varying information density and finite length.
翻訳日:2023-02-08 18:38:39 公開日:2022-06-20
# モデル物理学における機械学習の利用:概要

Using Machine Learning for Model Physics: an Overview ( http://arxiv.org/abs/2002.00416v2 )

ライセンス: Link先を確認
Vladimir Krasnopolsky, Aleksei A. Belochitski(参考訳) 概観では、汎用数学的対象(マッピング)を導入し、モデル物理学のパラメータ化との関係を解説する。 マッピングのエミュレートや近似に使用できる機械学習(ML)ツールが導入されている。 既存のパラメータ化をエミュレートするためのmlの応用、新しいパラメータ化の開発、物理的制約の確保、開発アプリケーションの精度の制御について述べる。 開発者が標準パラメータ化パラダイムを越えられるようなMLアプローチについても議論されている。

In the overview, a generic mathematical object (mapping) is introduced, and its relation to model physics parameterization is explained. Machine learning (ML) tools that can be used to emulate and/or approximate mappings are introduced. Applications of ML to emulate existing parameterizations, to develop new parameterizations, to ensure physical constraints, and control the accuracy of developed applications are described. Some ML approaches that allow developers to go beyond the standard parameterization paradigm are discussed.
翻訳日:2023-01-04 20:14:40 公開日:2022-06-20
# 機械翻訳への事前学習型単言語モデルと多言語モデルの適用

Recipes for Adapting Pre-trained Monolingual and Multilingual Models to Machine Translation ( http://arxiv.org/abs/2004.14911v2 )

ライセンス: Link先を確認
Asa Cooper Stickland, Xian Li, Marjan Ghazvininejad(参考訳) モノリンガルデータの事前学習と機械翻訳(mt)の微調整は近年成功を収めているが、与えられたmtタスクに対して事前学習されたモデルを最大限に活用する方法はまだ不明である。 本稿では,MT 上で事前学習したモデルの微調整を行う際の凍結パラメータの利点と欠点について検討する。 1)英語単言語データのみに基づいて訓練されたモデルBARTを微調整した。 2)25言語からのモノリンガルデータに基づいて訓練したモデル,mBART。 BARTでは、モデルパラメータの大部分を凍結し、追加の位置埋め込みを追加することで、最高のパフォーマンスを得ることができます。 mBARTでは、ほとんどの言語ペアがエンコーダで、ほとんどのデコーダはフリーズされているため、素早い微調整のパフォーマンスにマッチまたは向上します。 エンコーダ・デコーダの注意パラメータは微調整に最も重要である。 ベトナム語から英語へのドメイン外トレーニングに制約を加えると、微調整ベースラインよりも大きな改善が見られます。

There has been recent success in pre-training on monolingual data and fine-tuning on Machine Translation (MT), but it remains unclear how to best leverage a pre-trained model for a given MT task. This paper investigates the benefits and drawbacks of freezing parameters, and adding new ones, when fine-tuning a pre-trained model on MT. We focus on 1) Fine-tuning a model trained only on English monolingual data, BART. 2) Fine-tuning a model trained on monolingual data from 25 languages, mBART. For BART we get the best performance by freezing most of the model parameters, and adding extra positional embeddings. For mBART we match or outperform the performance of naive fine-tuning for most language pairs with the encoder, and most of the decoder, frozen. The encoder-decoder attention parameters are most important to fine-tune. When constraining ourselves to an out-of-domain training set for Vietnamese to English we see the largest improvements over the fine-tuning baseline.
翻訳日:2022-12-08 04:34:24 公開日:2022-06-20
# 凸ポリトープに対するランダムマッピング関数を用いた組合せベイズ最適化

Combinatorial Bayesian Optimization with Random Mapping Functions to Convex Polytopes ( http://arxiv.org/abs/2011.13094v2 )

ライセンス: Link先を確認
Jungtaek Kim, Seungjin Choi, Minsu Cho(参考訳) ベイズ最適化は、高価なブラックボックス関数のグローバル最適化の問題を解決する一般的な方法である。 これは目的関数の確率的サロゲートモデルに依存しており、目的関数を次に評価する場所を決定するために獲得関数が構築される。 一般に、ガウス過程回帰によるベイズ最適化は連続空間上で作用する。 入力変数が分類的あるいは離散的である場合、追加の注意が必要である。 一般的なアプローチは、組合せ爆発問題を引き起こすカテゴリ変数に対して1-hotエンコードまたはブール表現を使用することである。 本稿では,大きな組合せ空間においてうまく動作する組合せ空間におけるベイズ最適化手法を提案する。 主なアイデアは、連続空間内の凸ポリトープに組合せ空間を埋め込むランダムマッピングを使用することであり、その上ですべての本質的なプロセスを実行し、組合せ空間におけるブラックボックス最適化の解を求める。 本稿では,組合せベイズ最適化アルゴリズムについて述べる。 数値実験により,本手法は既存手法と比較して良好な性能を示した。

Bayesian optimization is a popular method for solving the problem of global optimization of an expensive-to-evaluate black-box function. It relies on a probabilistic surrogate model of the objective function, upon which an acquisition function is built to determine where next to evaluate the objective function. In general, Bayesian optimization with Gaussian process regression operates on a continuous space. When input variables are categorical or discrete, an extra care is needed. A common approach is to use one-hot encoded or Boolean representation for categorical variables which might yield a combinatorial explosion problem. In this paper we present a method for Bayesian optimization in a combinatorial space, which can operate well in a large combinatorial space. The main idea is to use a random mapping which embeds the combinatorial space into a convex polytope in a continuous space, on which all essential process is performed to determine a solution to the black-box optimization in the combinatorial space. We describe our combinatorial Bayesian optimization algorithm and present its regret analysis. Numerical experiments demonstrate that our method shows satisfactory performance compared to existing methods.
翻訳日:2022-09-20 08:30:43 公開日:2022-06-20
# 終端重みのない有限水平最適化に基づく制御の安定性

Stability of Finite Horizon Optimisation based Control without Terminal Weight ( http://arxiv.org/abs/2011.14193v3 )

ライセンス: Link先を確認
Wen-Hua Chen(参考訳) 本稿では,有限地平線上でのコスト関数の最適化により制御動作が生成されるモデル予測制御(MPC)の安定性解析ツールを提案する。 地平線が制限されているが終端重量を持たないmpcの安定性解析は、よく知られた課題である。 ステージコストに関連する補助的なワンステップ最適化、すなわち最適なワンステップ値関数(osvf)に基づいて、新しい値関数を定義する。 OSVF が(局所)制御リャプノフ函数 (CLF) であれば、有限地平面 MPC を漸近的に安定にすることができる。 より具体的には、OSFVのCLF特性を利用して、契約型端末セットを構築することにより、新しい安定化MPCアルゴリズム(CMPC)を提案する。 CMPC は再帰的に実現可能であり,OSVF が CLF である条件下での安定性を保証する。 この条件の検証と最大終端集合の推定について述べる。 提案した安定性条件と対応するCMPCアルゴリズムの有効性を示す数値的な例を示す。

This paper presents a stability analysis tool for model predictive control (MPC) where control action is generated by optimising a cost function over a finite horizon. Stability analysis of MPC with a limited horizon but without terminal weight is a well known challenging problem. We define a new value function based on an auxiliary one-step optimisation related to stage cost, namely optimal one-step value function (OSVF). It is shown that a finite horizon MPC can be made to be asymptotically stable if OSVF is a (local) control Lyapunov function (CLF). More specifically, by exploiting the CLF property of OSFV to construct a contractive terminal set, a new stabilising MPC algorithm (CMPC) is proposed. We show that CMPC is recursively feasible and guarantees stability under the condition that OSVF is a CLF. Checking this condition and estimation of the maximal terminal set are discussed. Numerical examples are presented to demonstrate the effectiveness of the proposed stability condition and corresponding CMPC algorithm.
翻訳日:2022-09-19 19:30:09 公開日:2022-06-20
# (参考訳) wi-fiでワイヤレスセンシングを体験するチュートリアル

Hands-on Wireless Sensing with Wi-Fi: A Tutorial ( http://arxiv.org/abs/2206.09532v1 )

ライセンス: CC BY 4.0
Zheng Yang, Yi Zhang, Guoxuan Chi, Guidong Zhang(参考訳) 無線通信技術の急速な発展に伴い、無線アクセスポイント(AP)とモノのインターネット(IoT)デバイスは、我々の周辺に広く展開されてきた。 様々な種類の無線信号(Wi-Fi、LoRa、LTEなど)が、私たちの生活空間と作業空間を埋めています。 従来の研究では、電波が伝播過程(反射、回折、散乱など)中に空間構造によって変調され、受信機に重畳されていることが示されている。 この観測により、受信した無線信号に基づいて周囲の環境を再構築することができる。 ワイヤレスセンシングは、人間とコンピュータのインタラクションのためのジェスチャー認識、医療のためのバイタルサインモニタリング、セキュリティ管理のための侵入検知など、幅広いアプリケーションを可能にする新しい技術である。 視覚ベースやIMUベースのセンシングなどの他のセンシングパラダイムと比較すると、無線センシングソリューションには、高カバレッジ、広範性、低コスト、悪質な光やテクスチャのシナリオ下での堅牢性といったユニークな利点がある。 加えて、無線センシングソリューションは一般に計算オーバーヘッドとデバイスサイズの両方の観点から軽量である。 このチュートリアルはWi-Fiセンシングを例に挙げる。 データ収集、信号処理、特徴抽出、モデル設計の理論的原則とコード実装の両方を導入している。 さらに、このチュートリアルでは、最先端のディープラーニングモデル(例えば、CNN、RNN、および敵学習モデル)とその無線センシングシステムへの応用を強調している。 このチュートリアルでは、他の研究分野の人々がワイヤレスセンシング研究に参入し、その理論、設計、実装スキルについてより深く学び、ワイヤレスセンシング研究分野の繁栄を促進することを望んでいる。

With the rapid development of wireless communication technology, wireless access points (AP) and internet of things (IoT) devices have been widely deployed in our surroundings. Various types of wireless signals (e.g., Wi-Fi, LoRa, LTE) are filling out our living and working spaces. Previous researches reveal the fact that radio waves are modulated by the spatial structure during the propagation process (e.g., reflection, diffraction, and scattering) and superimposed on the receiver. This observation allows us to reconstruct the surrounding environment based on received wireless signals, called "wireless sensing". Wireless sensing is an emerging technology that enables a wide range of applications, such as gesture recognition for human-computer interaction, vital signs monitoring for health care, and intrusion detection for security management. Compared with other sensing paradigms, such as vision-based and IMU-based sensing, wireless sensing solutions have unique advantages such as high coverage, pervasiveness, low cost, and robustness under adverse light and texture scenarios. Besides, wireless sensing solutions are generally lightweight in terms of both computation overhead and device size. This tutorial takes Wi-Fi sensing as an example. It introduces both the theoretical principles and the code implementation of data collection, signal processing, features extraction, and model design. In addition, this tutorial highlights state-of-the-art deep learning models (e.g., CNN, RNN, and adversarial learning models) and their applications in wireless sensing systems. We hope this tutorial will help people in other research fields to break into wireless sensing research and learn more about its theories, designs, and implementation skills, promoting prosperity in the wireless sensing research field.
翻訳日:2022-07-04 02:23:30 公開日:2022-06-20
# (参考訳) 未転写手書き文書のオープンセット分類

Open Set Classification of Untranscribed Handwritten Documents ( http://arxiv.org/abs/2206.13342v1 )

ライセンス: CC BY 4.0
Jos\'e Ram\'on Prieto, Juan Jos\'e Flores, Enrique Vidal, Alejandro H. Toselli, David Garrido, Carlos Alonso(参考訳) 重要な写本の大量のデジタルページイメージが世界中のアーカイブに保存されている。 その量は非常に大きいので、アーキビストが文書のほとんどを必要なメタデータで適切にタグ付けすることは、一般的に不可能であり、アーカイブの適切な組織化や、学者や一般大衆による効果的な探索が容易である。 ドキュメントのクラスまたは ``typology'' はおそらくメタデータに含まれる最も重要なタグである。 技術的問題は、文書の自動分類の1つであり、各文書は、画像のテキスト内容によって、転写されていない手書きのテキスト画像からなる。 この手法は,手書きテキスト画像が示す本質的な単語レベルの不確かさを効果的に表現できる比較的新しい技術である `probabilistic indexing' に基づいている。 本稿は,スペインのArchivo Host\'orico Provincial de C'adizの複雑な記譜集に対するこのアプローチの性能評価を行い,有望な結果を得たものである。

Huge amounts of digital page images of important manuscripts are preserved in archives worldwide. The amounts are so large that it is generally unfeasible for archivists to adequately tag most of the documents with the required metadata so as to low proper organization of the archives and effective exploration by scholars and the general public. The class or ``typology'' of a document is perhaps the most important tag to be included in the metadata. The technical problem is one of automatic classification of documents, each consisting of a set of untranscribed handwritten text images, by the textual contents of the images. The approach considered is based on ``probabilistic indexing'', a relatively novel technology which allows to effectively represent the intrinsic word-level uncertainty exhibited by handwritten text images. We assess the performance of this approach on a large collection of complex notarial manuscripts from the Spanish Archivo Host\'orico Provincial de C\'adiz, with promising results.
翻訳日:2022-07-04 02:22:00 公開日:2022-06-20
# 聴覚情報を用いたビデオサリエンシー検出に関する包括的調査:聴覚と視覚の一貫性が鍵である!

A Comprehensive Survey on Video Saliency Detection with Auditory Information: the Audio-visual Consistency Perceptual is the Key! ( http://arxiv.org/abs/2206.13390v1 )

ライセンス: Link先を確認
Chenglizhao Chen and Mengke Song and Wenfeng Song and Li Guo and Muwei Jian(参考訳) video saliency detection (vsd)は、ビデオクリップ内の最も魅力的なオブジェクト/モノ/パターンを素早く見つけ出すことを目的としている。 既存のVSD関連の作業は主に視覚システムに依存しているが、オーディオの側面にはあまり注意を払わなかった。 また、人間の知覚機構を模倣する最も代表的な研究テーマの1つであるAVSD(Audio-visual saliency Detection)は、その初期段階にあり、特に唾液検出の観点からは、既存の調査論文では触れられていない。 そこで本論文の最終的な目標は,視聴覚融合と塩分検出のギャップを埋めるための広範なレビューを提供することである。 さらに、このレビューの別のハイライトとして、AVSDディープモデルの性能を直接決定できる重要な要因について深い洞察を提供し、長年見過ごされてきた問題であるオーディオ・視覚整合度(AVC)が、唾液度検出を行う際の視覚的効果に直接的な影響を与えると主張している。 さらに、AVC問題を将来のフォロワーにとってより実用的で価値の高いものにするために、既存のAVSDデータセットにフレームワイドのAVCラベルを追加した。 これらの改良データセットに基づいて,avsdタスクにおけるavcの重要性を根拠として,広範な定量的評価を行った。 言い換えれば、私たちのアイデアと新しいセットは、予備とガイドラインを備えた便利なプラットフォームとして機能し、これらすべてが、最先端(SOTA)のパフォーマンスをさらに促進するための将来の作業を促進する非常に有望なものです。

Video saliency detection (VSD) aims at fast locating the most attractive objects/things/patterns in a given video clip. Existing VSD-related works have mainly relied on the visual system but paid less attention to the audio aspect, while, actually, our audio system is the most vital complementary part to our visual system. Also, audio-visual saliency detection (AVSD), one of the most representative research topics for mimicking human perceptual mechanisms, is currently in its infancy, and none of the existing survey papers have touched on it, especially from the perspective of saliency detection. Thus, the ultimate goal of this paper is to provide an extensive review to bridge the gap between audio-visual fusion and saliency detection. In addition, as another highlight of this review, we have provided a deep insight into key factors which could directly determine the performances of AVSD deep models, and we claim that the audio-visual consistency degree (AVC) -- a long-overlooked issue, can directly influence the effectiveness of using audio to benefit its visual counterpart when performing saliency detection. Moreover, in order to make the AVC issue more practical and valuable for future followers, we have newly equipped almost all existing publicly available AVSD datasets with additional frame-wise AVC labels. Based on these upgraded datasets, we have conducted extensive quantitative evaluations to ground our claim on the importance of AVC in the AVSD task. In a word, both our ideas and new sets serve as a convenient platform with preliminaries and guidelines, all of which are very potential to facilitate future works in promoting state-of-the-art (SOTA) performance further.
翻訳日:2022-07-04 01:22:23 公開日:2022-06-20
# 交叉型トランスフォーマーGAN : アルツハイマー病に対する脳構造制御型深部Fusing Framework

Cross-Modal Transformer GAN: A Brain Structure-Function Deep Fusing Framework for Alzheimer's Disease ( http://arxiv.org/abs/2206.13393v1 )

ライセンス: Link先を確認
Junren Pan, Shuqiang Wang(参考訳) 異なる種類の神経画像データの相互融合は、アルツハイマー病(AD)の進行を予測する大きな可能性を示している。 しかし、ニューロイメージングに応用されている既存の手法のほとんどは、マルチモーダルニューロ画像から機能的および構造的情報を効率的に融合することができない。 本研究では, 静止状態機能型磁気共鳴画像 (rs-fmri) に含まれる機能情報と拡散テンソル画像 (dti) に含まれる構造情報を融合する新しいクロスモーダルトランスフォーマタ生成逆ネットワーク (ct-gan) を提案する。 本発明のバイアテンション機構は,機能情報と構造情報とを効率的にマッチングし,RS-fMRIおよびDTIから補完情報を抽出する能力を最大化することができる。 構造的特徴と機能的特徴の間の深い相補的情報を捉えることにより,提案するct-ganは,adの生体マーカーとして使用できるad関連脳結合を検出することができる。 実験の結果,提案モデルは分類性能を向上させるだけでなく,広告関連脳結合を効果的に検出できることがわかった。

Cross-modal fusion of different types of neuroimaging data has shown great promise for predicting the progression of Alzheimer's Disease(AD). However, most existing methods applied in neuroimaging can not efficiently fuse the functional and structural information from multi-modal neuroimages. In this work, a novel cross-modal transformer generative adversarial network(CT-GAN) is proposed to fuse functional information contained in resting-state functional magnetic resonance imaging (rs-fMRI) and structural information contained in Diffusion Tensor Imaging (DTI). The developed bi-attention mechanism can match functional information to structural information efficiently and maximize the capability of extracting complementary information from rs-fMRI and DTI. By capturing the deep complementary information between structural features and functional features, the proposed CT-GAN can detect the AD-related brain connectivity, which could be used as a bio-marker of AD. Experimental results show that the proposed model can not only improve classification performance but also detect the AD-related brain connectivity effectively.
翻訳日:2022-07-04 01:21:51 公開日:2022-06-20
# CS$^2$:ミニマルヒューマン・インターベンションによる画像とアノテーションの制御可能かつ同時合成

CS$^2$: A Controllable and Simultaneous Synthesizer of Images and Annotations with Minimal Human Intervention ( http://arxiv.org/abs/2206.13394v1 )

ライセンス: Link先を確認
Xiaodan Xing, Jiahao Huang, Yang Nan, Yinzhe Wu, Chengjia Wang, Zhifan Gao, Simon Walsh, Guang Yang(参考訳) 画像データの削除とそれに対応する専門家アノテーションは、AI診断モデルのトレーニング能力を制限するとともに、パフォーマンスを阻害する可能性がある。 このようなデータとラベルの不足に対処するため、トレーニングデータセットを増強する生成モデルが開発されている。 以前提案された生成モデルは、通常手動で調整されたアノテーション(セグメンテーションマスクなど)を必要とする。 しかし、これらの前ラベルベースの手法は幻覚を誘発し、下流の臨床課題を誤解させる可能性があるが、手作業による調整は有意で主観的である可能性がある。 そこで本研究では,手動調整と事前ラベル付けを避けるために,実写画像と対応するアノテーションを同時に生成する新しい制御可能同時合成器(CS$^2$)を提案する。 cs$^2$モデルは、covid-19患者から収集された高分解能ct(hrct)データを用いて訓練、検証され、ヒトの介入を最小限に抑える効率的な感染分節化を実現する。 私たちの貢献には 1)参照ct画像からスタイル情報と教師なしセグメンテーションマスクから構造情報の両方を受信する条件付き画像合成ネットワーク、 2)これらの合成画像を同時にセグメンテーションするための対応するセグメンテーションマスク合成ネットワーク。 新型コロナウイルス(covid-19)患者から収集したhrctスキャンによる実験により, cs$^2$モデルが現実的な合成データセットにつながり, 感染症のセグメント化結果が期待できることが示された。

The destitution of image data and corresponding expert annotations limit the training capacities of AI diagnostic models and potentially inhibit their performance. To address such a problem of data and label scarcity, generative models have been developed to augment the training datasets. Previously proposed generative models usually require manually adjusted annotations (e.g., segmentation masks) or need pre-labeling. However, studies have found that these pre-labeling based methods can induce hallucinating artifacts, which might mislead the downstream clinical tasks, while manual adjustment could be onerous and subjective. To avoid manual adjustment and pre-labeling, we propose a novel controllable and simultaneous synthesizer (dubbed CS$^2$) in this study to generate both realistic images and corresponding annotations at the same time. Our CS$^2$ model is trained and validated using high resolution CT (HRCT) data collected from COVID-19 patients to realize an efficient infections segmentation with minimal human intervention. Our contributions include 1) a conditional image synthesis network that receives both style information from reference CT images and structural information from unsupervised segmentation masks, and 2) a corresponding segmentation mask synthesis network to automatically segment these synthesized images simultaneously. Our experimental studies on HRCT scans collected from COVID-19 patients demonstrate that our CS$^2$ model can lead to realistic synthesized datasets and promising segmentation results of COVID infections compared to the state-of-the-art nnUNet trained and fine-tuned in a fully supervised manner.
翻訳日:2022-07-04 01:21:31 公開日:2022-06-20
# 深層学習に基づくsem画像の欠陥分類と検出

Deep Learning-Based Defect Classification and Detection in SEM Images ( http://arxiv.org/abs/2206.13505v1 )

ライセンス: Link先を確認
Bappaditya Deya, Dipam Goswamif, Sandip Haldera, Kasem Khalilb, Philippe Leraya, and Magdy A. Bayoumi(参考訳) 本研究では,アグレッシブピッチと薄型レジスト(High NAアプリケーション)の異なる欠陥カテゴリを正確に分類,検出,ローカライズする,新しいアンサンブル深層学習モデルを提案する。 特に、異なるResNet、VGGNetアーキテクチャをバックボーンとして使用するRetinaNetモデルをトレーニングし、これらのモデルの精度と、ブリッジ、ブレーク、ライン崩壊といった異なるタイプの欠陥パターンを持つSEM画像におけるそれらの性能解析の比較を示す。 最後に,異なるモデルからの出力予測を組み合わせることで,欠陥の分類と検出の精度を向上させるための選好に基づくアンサンブル戦略を提案する。 CDSEM画像は本質的にかなりのノイズを含むため、詳細な特徴情報はノイズによって隠蔽されることが多い。 特定のレジストプロファイルでは、マイクロブリッジ、フットリング、ブレイク、および可能性のあるブレークゾーンを区別することが課題である。 そこで我々は, 教師なし機械学習モデルを用いて, SEM画像から偽陽性の欠陥を除去し, 構造画素に対する確率的雑音の影響を最適化し, 精度向上と欠陥検査の強化を実現した。 我々は,同じ訓練モデルで欠陥検査を繰り返すとともに,従来のノイズ/デノベート画像ペアの手法と対比して,ロバスト性と精度の比較分析を行った。 提案手法は,最も難解な欠陥クラスの平均精度測定値(mAP)の改善を示す。 本研究では,SEM画像の様々な欠陥型を高精度に分類し,高精度に局所化するための,頑健な教師付き深層学習訓練手法を開発した。 提案手法は定量的にも定性的にも有効性を示す。

This proposes a novel ensemble deep learning-based model to accurately classify, detect and localize different defect categories for aggressive pitches and thin resists (High NA applications).In particular, we train RetinaNet models using different ResNet, VGGNet architectures as backbone and present the comparison between the accuracies of these models and their performance analysis on SEM images with different types of defect patterns such as bridge, break and line collapses. Finally, we propose a preference-based ensemble strategy to combine the output predictions from different models in order to achieve better performance on classification and detection of defects. As CDSEM images inherently contain a significant level of noise, detailed feature information is often shadowed by noise. For certain resist profiles, the challenge is also to differentiate between a microbridge, footing, break, and zones of probable breaks. Therefore, we have applied an unsupervised machine learning model to denoise the SEM images to remove the False-Positive defects and optimize the effect of stochastic noise on structured pixels for better metrology and enhanced defect inspection. We repeated the defect inspection step with the same trained model and performed a comparative analysis for "robustness" and "accuracy" metric with conventional approach for both noisy/denoised image pair. The proposed ensemble method demonstrates improvement of the average precision metric (mAP) of the most difficult defect classes. In this work we have developed a novel robust supervised deep learning training scheme to accurately classify as well as localize different defect types in SEM images with high degree of accuracy. Our proposed approach demonstrates its effectiveness both quantitatively and qualitatively.
翻訳日:2022-07-04 01:21:00 公開日:2022-06-20
# 多クラス画像分類のための深層強化アクティブラーニング

Deep reinforced active learning for multi-class image classification ( http://arxiv.org/abs/2206.13391v1 )

ライセンス: Link先を確認
Emma Slade, Kim M. Branson(参考訳) 高精度な医療画像分類は、より多くのデータを取得するコストと既存の画像のラベル付けに必要な時間と専門知識によって制限される。 本稿では,医療画像分類にアクティブラーニングを適用し,より大規模なデータから最小限のサブセット上でのモデル性能を最大化する手法を提案する。 本稿では,畳み込みニューラルネットワークから予測に基づいて画像にラベル付けするアクティブラーニングクエリ戦略を学習するために,深層強化学習に基づく新しいアクティブラーニングフレームワークを提案する。 我々のフレームワークは、deep-qネットワークの定式化を修正し、分類器の潜在空間における幾何学的引数に基づくデータの選択を可能にし、バッチベースのアクティブラーニング設定で高精度なマルチクラス分類を可能にし、エージェントが多様なデータポイントをラベル付けできるようにします。 本稿では,2つの医用画像データセットに適用し,最新の画像分類のための強化学習に基づく能動的学習手法と標準クエリ戦略との比較を行った。

High accuracy medical image classification can be limited by the costs of acquiring more data as well as the time and expertise needed to label existing images. In this paper, we apply active learning to medical image classification, a method which aims to maximise model performance on a minimal subset from a larger pool of data. We present a new active learning framework, based on deep reinforcement learning, to learn an active learning query strategy to label images based on predictions from a convolutional neural network. Our framework modifies the deep-Q network formulation, allowing us to pick data based additionally on geometric arguments in the latent space of the classifier, allowing for high accuracy multi-class classification in a batch-based active learning setting, enabling the agent to label datapoints that are both diverse and about which it is most uncertain. We apply our framework to two medical imaging datasets and compare with standard query strategies as well as the most recent reinforcement learning based active learning approach for image classification.
翻訳日:2022-07-04 00:50:53 公開日:2022-06-20
# 伝達学習と注意に基づく深層ニューラルネットワークを用いたリモートセンシング画像分類

Remote Sensing Image Classification using Transfer Learning and Attention Based Deep Neural Network ( http://arxiv.org/abs/2206.13392v1 )

ライセンス: Link先を確認
Lam Pham, Khoa Tran, Dat Ngo, Jasmin Lampert, Alexander Schindler(参考訳) リモートセンシング画像シーン分類(remote sensing image scene classification, rsisc)の課題は、その内容に基づいて、リモートセンシング画像を意味カテゴリーのグループに分類することを目的としており、都市計画、自然災害検出、環境モニタリング、植生マッピング、地理空間オブジェクト検出など、幅広いアプリケーションにおいて重要な役割を担っている。 過去数年間、rsiscタスクに焦点を当てた研究コミュニティは、さまざまなデータセットを公開すると同時に、rsiscの課題に対処するためのさまざまなアプローチを提案している。 近年、ほぼ提案されているRSISCシステムは、画像処理と機械学習を用いた従来のアプローチよりも強力で優れたディープラーニングモデルに基づいている。 本稿では、ディープラーニング技術のパワーを活用し、様々なディープニューラルネットワークアーキテクチャを評価し、RSISCシステムの性能に影響を及ぼす主な要因を示す。 包括的分析から,伝達学習手法とマルチヘッドアテンション方式を応用した,深層学習に基づくRSISCフレームワークを提案する。 提案したディープラーニングフレームワークは、ベンチマークNWPU-RESISC45データセットに基づいて評価され、最先端システムと競合し、リアルタイムアプリケーションの可能性を示す94.7%の最高の分類精度を達成する。

The task of remote sensing image scene classification (RSISC), which aims at classifying remote sensing images into groups of semantic categories based on their contents, has taken the important role in a wide range of applications such as urban planning, natural hazards detection, environment monitoring,vegetation mapping, or geospatial object detection. During the past years, research community focusing on RSISC task has shown significant effort to publish diverse datasets as well as propose different approaches to deal with the RSISC challenges. Recently, almost proposed RSISC systems base on deep learning models which prove powerful and outperform traditional approaches using image processing and machine learning. In this paper, we also leverage the power of deep learning technology, evaluate a variety of deep neural network architectures, indicate main factors affecting the performance of a RSISC system. Given the comprehensive analysis, we propose a deep learning based framework for RSISC, which makes use of the transfer learning technique and multihead attention scheme. The proposed deep learning framework is evaluated on the benchmark NWPU-RESISC45 dataset and achieves the best classification accuracy of 94.7% which shows competitive to the state-of-the-art systems and potential for real-life applications.
翻訳日:2022-07-04 00:50:36 公開日:2022-06-20
# 付加配列からの歩行周期の再構築と人間の同定

Gait Cycle Reconstruction and Human Identification from Occluded Sequences ( http://arxiv.org/abs/2206.13395v1 )

ライセンス: Link先を確認
Abhishek Paul, Manav Mukesh Jain, Jinesh Jain, Pratik Chattopadhyay(参考訳) コンピュータビジョンに基づく技術を用いて監視サイトで撮影された映像からの歩行に基づく人物識別は、通常これらの歩行シーケンスは閉塞で腐敗しており、歩行の完全なサイクルが常に利用可能であるとは限らないため、非常に困難である。 本研究では,歩行認識を行う前に,隠蔽されたフレームを入力シーケンスで再構築する有効なニューラルネットワークモデルを提案する。 具体的には、各隠蔽フレームの前後方向の埋め込みをLSTMネットワークを用いて予測し、次に残留ブロックと畳み込み層のネットワークを用いて2つのLSTMからの予測を融合する。 LSTMは平均二乗損失を最小限に抑えるために訓練されるが、核融合ネットワークは、接地構造と再構成されたサンプルの間の画素単位のクロスエントロピー損失を最適化するために訓練される。 提案手法の評価は,OU-ISIR LPおよびCASIA-BデータとTUM-IITKGPデータ中の実包摂配列から生成された合成包摂配列を用いて行った。 提案手法の有効性は,一般的な歩行認識手法を用いて,Diceスコアと歩行に基づく認識精度を用いて検証されている。 歩行認識における既存のオクルージョンハンドリング手法との比較研究は,提案したオクルージョン再構築手法が他よりも優れていることを示す。

Gait-based person identification from videos captured at surveillance sites using Computer Vision-based techniques is quite challenging since these walking sequences are usually corrupted with occlusion, and a complete cycle of gait is not always available. In this work, we propose an effective neural network-based model to reconstruct the occluded frames in an input sequence before carrying out gait recognition. Specifically, we employ LSTM networks to predict an embedding for each occluded frame both from the forward and the backward directions, and next fuse the predictions from the two LSTMs by employing a network of residual blocks and convolutional layers. While the LSTMs are trained to minimize the mean-squared loss, the fusion network is trained to optimize the pixel-wise cross-entropy loss between the ground-truth and the reconstructed samples. Evaluation of our approach has been done using synthetically occluded sequences generated from the OU-ISIR LP and CASIA-B data and real-occluded sequences present in the TUM-IITKGP data. The effectiveness of the proposed reconstruction model has been verified through the Dice score and gait-based recognition accuracy using some popular gait recognition methods. Comparative study with existing occlusion handling methods in gait recognition highlights the superiority of our proposed occlusion reconstruction approach over the others.
翻訳日:2022-07-04 00:49:45 公開日:2022-06-20
# 非理想交叉におけるスパイクニューラルネットワークのロバスト性の検討

Examining the Robustness of Spiking Neural Networks on Non-ideal Memristive Crossbars ( http://arxiv.org/abs/2206.09599v1 )

ライセンス: Link先を確認
Abhiroop Bhattacharjee, Youngeun Kim, Abhishek Moitra, and Priyadarshini Panda(参考訳) Spiking Neural Networks(SNN)は、最近、非同期、スパース、バイナリ情報処理のため、Artificial Neural Networks(ANN)の低消費電力代替として登場した。 省エネ性とスループットを向上させるため、SNNはMultiply-and-Accumulate (MAC)操作をアナログ領域で実現し、新たなNVM(Non-Volatile-Memory)デバイスで実装することができる。 SNNと間欠的クロスバーとの互換性にもかかわらず、本質的クロスバーの非理想性と確率性がSNNの性能に及ぼす影響についてはほとんど研究されていない。 本稿では,非理想的クロスバー上でのSNNのロバスト性を包括的に解析する。 本研究では,SNNの学習アルゴリズムを用いて学習したSNNについて検討する。 以上の結果から,複数ステップにわたる繰り返しクロスバー計算は誤りの蓄積を招き,SNN推論における性能低下を招いた。 さらに,少ない時間ステップで訓練したSNNは,間欠的なクロスバーに展開する際の精度が向上することを示す。

Spiking Neural Networks (SNNs) have recently emerged as the low-power alternative to Artificial Neural Networks (ANNs) owing to their asynchronous, sparse, and binary information processing. To improve the energy-efficiency and throughput, SNNs can be implemented on memristive crossbars where Multiply-and-Accumulate (MAC) operations are realized in the analog domain using emerging Non-Volatile-Memory (NVM) devices. Despite the compatibility of SNNs with memristive crossbars, there is little attention to study on the effect of intrinsic crossbar non-idealities and stochasticity on the performance of SNNs. In this paper, we conduct a comprehensive analysis of the robustness of SNNs on non-ideal crossbars. We examine SNNs trained via learning algorithms such as, surrogate gradient and ANN-SNN conversion. Our results show that repetitive crossbar computations across multiple time-steps induce error accumulation, resulting in a huge performance drop during SNN inference. We further show that SNNs trained with a smaller number of time-steps achieve better accuracy when deployed on memristive crossbars.
翻訳日:2022-06-26 14:51:08 公開日:2022-06-20
# (参考訳) ai機能の誤用

The Fallacy of AI Functionality ( http://arxiv.org/abs/2206.09511v1 )

ライセンス: CC BY 4.0
Inioluwa Deborah Raji, I. Elizabeth Kumar, Aaron Horowitz, Andrew D. Selbst(参考訳) デプロイされたAIシステムは、しばしば機能しない。 それらは無差別に構築され、無差別に展開され、軽蔑的に宣伝される。 しかし、この事実にもかかわらず、学者、報道機関、政策立案者は機能にあまり注意を払わない。 このことは、"倫理的"なデプロイメントやバリューアラインなデプロイメントに焦点を絞った技術的および政策的なソリューションにつながります。与えられたシステム機能が機能するか、あるいは何のメリットも与えないという、以前の質問をスキップすることが多いのです。さまざまなタイプの機能障害の障害を説明するために、ケーススタディのセットを分析して、既知のAI機能問題の分類を作成します。 そして、機能に注目が集まると、しばしば見過ごされ、より容易に利用できるようになるポリシーや組織的な反応を指差します。 機能は有意義なaiポリシーの課題であり、影響を受けるコミュニティをアルゴリズムによる害から守るための第一歩として機能する。

Deployed AI systems often do not work. They can be constructed haphazardly, deployed indiscriminately, and promoted deceptively. However, despite this reality, scholars, the press, and policymakers pay too little attention to functionality. This leads to technical and policy solutions focused on "ethical" or value-aligned deployments, often skipping over the prior question of whether a given system functions, or provides any benefits at all.To describe the harms of various types of functionality failures, we analyze a set of case studies to create a taxonomy of known AI functionality issues. We then point to policy and organizational responses that are often overlooked and become more readily available once functionality is drawn into focus. We argue that functionality is a meaningful AI policy challenge, operating as a necessary first step towards protecting affected communities from algorithmic harm.
翻訳日:2022-06-25 18:41:41 公開日:2022-06-20
# (参考訳) C^*$-algebra Net: ニューラルネットワークパラメータを$C^*$-algebraに一般化する新しいアプローチ

$C^*$-algebra Net: A New Approach Generalizing Neural Network Parameters to $C^*$-algebra ( http://arxiv.org/abs/2206.09513v1 )

ライセンス: CC BY 4.0
Yuka Hashimoto, Zhao Wang, and Tomoko Matsu(参考訳) ニューラルネットワークモデルのパラメータを$c^*$-algebra-valuedに一般化する新しいフレームワークを提案する。 C^*$-algebra は複素数の空間の一般化である。 典型的な例はコンパクト空間上の連続函数の空間である。 この一般化により、複数のモデルを連続的に組み合わせ、回帰や統合といった機能にツールを使うことができる。 その結果,データの特徴を効率的に学習し,モデルを継続的に問題に適用することができる。 我々は,密度推定や少数ショット学習といった実践的な問題にフレームワークを適用し,限られたサンプル数でもデータの特徴を学習できることを示す。 新しいフレームワークは、一般的なニューラルネットワークモデルに$c^*$-algebraの理論を適用する可能性を強調している。

We propose a new framework that generalizes the parameters of neural network models to $C^*$-algebra-valued ones. $C^*$-algebra is a generalization of the space of complex numbers. A typical example is the space of continuous functions on a compact space. This generalization enables us to combine multiple models continuously and use tools for functions such as regression and integration. Consequently, we can learn features of data efficiently and adapt the models to problems continuously. We apply our framework to practical problems such as density estimation and few-shot learning and show that our framework enables us to learn features of data even with a limited number of samples. Our new framework highlights the potential possibility of applying the theory of $C^*$-algebra to general neural network models.
翻訳日:2022-06-25 17:45:43 公開日:2022-06-20
# (参考訳) 分散検出のための複数テストフレームワーク

Multiple Testing Framework for Out-of-Distribution Detection ( http://arxiv.org/abs/2206.09522v1 )

ライセンス: CC BY 4.0
Akshayaa Magesh, Venugopal V. Veeravalli, Anirban Roy, Susmit Jha(参考訳) 本研究では,学習アルゴリズムの出力を推定時に信頼できるかどうかを検知するOOD(Out-of-Distribution)検出の問題について検討する。 OOD検出のためのいくつかの試験が先行研究で提案されているが、この問題を研究するための正式な枠組みが欠如している。 我々は,OOD検出のための強力なテスト構築のための洞察を提供する,入力分布と学習アルゴリズムの両方を含むOOD概念の定義を提案する。 共形p-値を用いた学習アルゴリズムから,様々な統計情報を体系的に組み合わせた多重仮説テスト法を提案する。 さらに, 流通中のサンプルをOODと誤分類する可能性を強く保証する。 実験では、前処理で提案したしきい値ベースのテストは、特定の環境では良好に動作するが、異なるタイプのOODインスタンスでは均一に機能しないことがわかった。 対照的に,複数の統計値を組み合わせた提案手法は,異なるデータセットとニューラルネットワークに対して均一に機能する。

We study the problem of Out-of-Distribution (OOD) detection, that is, detecting whether a learning algorithm's output can be trusted at inference time. While a number of tests for OOD detection have been proposed in prior work, a formal framework for studying this problem is lacking. We propose a definition for the notion of OOD that includes both the input distribution and the learning algorithm, which provides insights for the construction of powerful tests for OOD detection. We propose a multiple hypothesis testing inspired procedure to systematically combine any number of different statistics from the learning algorithm using conformal p-values. We further provide strong guarantees on the probability of incorrectly classifying an in-distribution sample as OOD. In our experiments, we find that threshold-based tests proposed in prior work perform well in specific settings, but not uniformly well across different types of OOD instances. In contrast, our proposed method that combines multiple statistics performs uniformly well across different datasets and neural networks.
翻訳日:2022-06-25 17:08:54 公開日:2022-06-20
# (参考訳) 調整シグモイド関数と2-Simplexスクラッチによる時間リンク予測

Temporal Link Prediction via Adjusted Sigmoid Function and 2-Simplex Sructure ( http://arxiv.org/abs/2206.09529v1 )

ライセンス: CC BY 4.0
Ruizhi Zhang, Qiaozi Wang, Qiming Yang and Wei Wei(参考訳) 時間的ネットワークリンク予測は,ネットワーク科学の分野において重要な課題であり,実用シナリオにおいて幅広い応用がある。 ネットワークの進化機構を明らかにすることはリンク予測に不可欠であり、歴史的情報を時間的リンクに効果的に活用し、ネットワーク構造の高次パターンを効率的に抽出する方法は重要な課題である。 そこで本稿では,シグモイド関数と2-simplex structure (tlpss) を調整した新しい時間的リンク予測モデルを提案する。 調整されたシグモイド崩壊モードは、エッジの活性、減衰、安定状態を考慮して、情報のライフサイクルに適切に適合する。 さらに,単純な高次構造からなる潜在行列配列を導入し,スパースネットワークで実現可能なリンク予測法の性能を向上させる。 情報と高次構造のライフサイクルを組み合わせることで,動的ネットワークにおける時間的・構造的情報の整合性を満たすことで,TLPSSの全体的な性能を実現する。 6つの実世界のデータセットにおける実験結果は,tlpsの有効性を示し,提案モデルはリンク予測の性能を,他のベースライン法と比較して平均15%向上させる。

Temporal network link prediction is an important task in the field of network science, and has a wide range of applications in practical scenarios. Revealing the evolutionary mechanism of the network is essential for link prediction, and how to effectively utilize the historical information for temporal links and efficiently extract the high-order patterns of network structure remains a vital challenge. To address these issues, in this paper, we propose a novel temporal link prediction model with adjusted sigmoid function and 2-simplex structure (TLPSS). The adjusted sigmoid decay mode takes the active, decay and stable states of edges into account, which properly fits the life cycle of information. Moreover, the latent matrix sequence is introduced, which is composed of simplex high-order structure, to enhance the performance of link prediction method since it is highly feasible in sparse network. Combining the life cycle of information and simplex high-order structure, the overall performance of TLPSS is achieved by satisfying the consistency of temporal and structural information in dynamic networks. Experimental results on six real-world datasets demonstrate the effectiveness of TLPSS, and our proposed model improves the performance of link prediction by an average of 15% compared to other baseline methods.
翻訳日:2022-06-25 16:54:21 公開日:2022-06-20
# (参考訳) 高速かつスローな抽出:時間間情報を用いたユーザアクション埋め込み

Extracting Fast and Slow: User-Action Embedding with Inter-temporal Information ( http://arxiv.org/abs/2206.09535v1 )

ライセンス: CC BY 4.0
Akira Matsui, Emilio Ferrara(参考訳) 近年の技術開発に伴い、人間の時間的行動に関する詳細なデータが利用可能になっている。 人間の動的行動データをマイニングする多くの手法が提案され、研究や企業にとって貴重な洞察を明らかにしている。 しかし、ほとんどの方法は行動のシーケンスのみを分析し、行動間の時間間隔などの時間間情報を全体論的に研究しない。 行動時間間隔と行動時間は相互依存するが、時間と行動の異なる性質を持つため、それらを統合することは困難である。 この課題を克服するために,ユーザアクションを時間間情報(時間間隔)で分析する統一手法を提案する。 ユーザの行動シーケンスとその時間間隔を同時に埋め込んで,時間的情報とともに動作の低次元表現を得る。 本稿では,3つの実世界のデータセットを用いて,ユーザの動作を時間的文脈で特徴付ける手法を提案する。 本稿では,行動系列と時間的ユーザ行動情報の明示的なモデル化により,解釈可能な解析が実現することを示す。

With the recent development of technology, data on detailed human temporal behaviors has become available. Many methods have been proposed to mine those human dynamic behavior data and revealed valuable insights for research and businesses. However, most methods analyze only sequence of actions and do not study the inter-temporal information such as the time intervals between actions in a holistic manner. While actions and action time intervals are interdependent, it is challenging to integrate them because they have different natures: time and action. To overcome this challenge, we propose a unified method that analyzes user actions with intertemporal information (time interval). We simultaneously embed the user's action sequence and its time intervals to obtain a low-dimensional representation of the action along with intertemporal information. The paper demonstrates that the proposed method enables us to characterize user actions in terms of temporal context, using three real-world data sets. This paper demonstrates that explicit modeling of action sequences and inter-temporal user behavior information enable successful interpretable analysis.
翻訳日:2022-06-25 16:37:20 公開日:2022-06-20
# (参考訳) DualCoOp: 限定アノテーションによるマルチラベル認識への高速適応

DualCoOp: Fast Adaptation to Multi-Label Recognition with Limited Annotations ( http://arxiv.org/abs/2206.09541v1 )

ライセンス: CC BY 4.0
Ximeng Sun, Ping Hu and Kate Saenko(参考訳) 低ラベル方式で画像に対してMLR(multi-label recognition)を解くことは、多くの現実世界のアプリケーションにおいて難しい課題である。 近年の研究では、画像ラベルの不足を補うためにテキスト空間と視覚空間のアライメントを学習しているが、利用可能なMLRアノテーションの量が限られているため精度が低下している。 本研究では、数百万の補助画像テキストペアで事前訓練されたテキストと視覚の強いアライメントを活用し、部分ラベルMLRとゼロショットMLRの統一フレームワークとしてデュアルコンテキスト最適化(DualCoOp)を提案する。 DualCoOpは、言語入力(即ちプロンプト)の一部として、クラス名と正および負のコンテキストを符号化する。 DualCoOpは、事前訓練されたビジョン言語フレームワークで非常に学習可能なオーバーヘッドしか導入しないため、アノテーションや目に見えないクラスが制限されたマルチラベル認識タスクに迅速に適応できる。 2つの挑戦的な低ラベル設定における標準マルチラベル認識ベンチマークの実験は、最先端手法に対するアプローチの利点を示している。

Solving multi-label recognition (MLR) for images in the low-label regime is a challenging task with many real-world applications. Recent work learns an alignment between textual and visual spaces to compensate for insufficient image labels, but loses accuracy because of the limited amount of available MLR annotations. In this work, we utilize the strong alignment of textual and visual features pretrained with millions of auxiliary image-text pairs and propose Dual Context Optimization (DualCoOp) as a unified framework for partial-label MLR and zero-shot MLR. DualCoOp encodes positive and negative contexts with class names as part of the linguistic input (i.e. prompts). Since DualCoOp only introduces a very light learnable overhead upon the pretrained vision-language framework, it can quickly adapt to multi-label recognition tasks that have limited annotations and even unseen classes. Experiments on standard multi-label recognition benchmarks across two challenging low-label settings demonstrate the advantages of our approach over state-of-the-art methods.
翻訳日:2022-06-25 16:24:46 公開日:2022-06-20
# (参考訳) 線形時相論理制約によるポリシー最適化

Policy Optimization with Linear Temporal Logic Constraints ( http://arxiv.org/abs/2206.09546v1 )

ライセンス: CC BY 4.0
Cameron Voloshin, Hoang M. Le, Swarat Chaudhuri, Yisong Yue(参考訳) 線形時間論理(LTL)制約を用いた政策最適化(PO)問題について検討する。 LTLの言語は、スカラーコスト関数としてエンコードするのが不自然なタスクの柔軟な記述を可能にする。 我々は,LTL制約のPOを体系的なフレームワークとみなし,タスク仕様を政策選択から切り離し,コストシェーピングの標準の代替品とみなす。 生成モデルへのアクセスにより、タスク満足度とコスト最適性の両方を(到達可能性問題への還元を通じて)保証する、サンプル複雑性分析を楽しむモデルベースのアプローチを開発する。 実験によって,本アルゴリズムは低サンプル状態でも高い性能を達成できる。

We study the problem of policy optimization (PO) with linear temporal logic (LTL) constraints. The language of LTL allows flexible description of tasks that may be unnatural to encode as a scalar cost function. We consider LTL-constrained PO as a systematic framework, decoupling task specification from policy selection, and an alternative to the standard of cost shaping. With access to a generative model, we develop a model-based approach that enjoys a sample complexity analysis for guaranteeing both task satisfaction and cost optimality (through a reduction to a reachability problem). Empirically, our algorithm can achieve strong performance even in low sample regimes.
翻訳日:2022-06-25 16:06:54 公開日:2022-06-20
# (参考訳) RGB-Dサルエント物体検出のための動的メッセージ伝搬ネットワーク

Dynamic Message Propagation Network for RGB-D Salient Object Detection ( http://arxiv.org/abs/2206.09552v1 )

ライセンス: CC BY 4.0
Baian Chen, Zhilei Chen, Xiaowei Hu, Jun Xu, Haoran Xie, Mingqiang Wei, Jing Qin(参考訳) 本稿では,RGB画像と特徴レベルでの深度マップ間のメッセージパッシングを制御し,RGBと深度の両方の長範囲の意味的コンテキストと幾何学的情報を探索することにより,RGB-D有意物体検出のための新しいディープニューラルネットワークフレームワークを提案する。 これを実現するために、動的メッセージ伝搬(DMP)モジュールをグラフニューラルネットワークと変形可能な畳み込みで定式化し、コンテキスト情報を動的に学習し、メッセージ伝搬制御のためのフィルタ重みと親和性行列を自動的に予測する。 さらに,このモジュールをsiameseベースのネットワークに組み込み,rgb画像と深度マップをそれぞれ処理し,mff(multi-level feature fusion)モジュールを設計し,改良されたrgbと深度特徴のクロスレベル情報を探索する。 rgb-dサルエント物体検出のための6つのベンチマークデータセットにおける17の最先端手法と比較した結果,本手法は定量的および視覚的に他の手法よりも優れていることがわかった。

This paper presents a novel deep neural network framework for RGB-D salient object detection by controlling the message passing between the RGB images and depth maps on the feature level and exploring the long-range semantic contexts and geometric information on both RGB and depth features to infer salient objects. To achieve this, we formulate a dynamic message propagation (DMP) module with the graph neural networks and deformable convolutions to dynamically learn the context information and to automatically predict filter weights and affinity matrices for message propagation control. We further embed this module into a Siamese-based network to process the RGB image and depth map respectively and design a multi-level feature fusion (MFF) module to explore the cross-level information between the refined RGB and depth features. Compared with 17 state-of-the-art methods on six benchmark datasets for RGB-D salient object detection, experimental results show that our method outperforms all the others, both quantitatively and visually.
翻訳日:2022-06-25 16:05:44 公開日:2022-06-20
# (参考訳) 微分プライバシーのためのシャッフルガウス機構

Shuffle Gaussian Mechanism for Differential Privacy ( http://arxiv.org/abs/2206.09569v1 )

ライセンス: CC BY 4.0
Seng Pei Liew, Tsubasa Takahashi(参考訳) 差分プライバシー(DP)のシャッフルモデルにおけるガウス機構について検討した。 $$ \epsilon(\lambda) \leq \frac{1}{\lambda-1}\log\left(\frac{e^{-\lambda/2\sigma^2}}{n^\lambda}\sum_{\substack{k_1+\dotsc+k_n=\lambda;\\k_1,\dotsc,k_n\geq 0}}\binom{\lambda! }{k_1,\dotsc,k_n}e^{\sum_{i=1}^nk_i^2/2\sigma^2}\right)$$ 我々はさらに RDP がシャッフルなしでガウス RDP によって厳密に上界であることを証明する。 シャッフルガウシアン RDP は複数のDP機構を構成するのに有利であり、シャッフルモデルのプライバシー保証における最先端の近似DP合成定理に対する改善を示す。 さらに,本研究を,分散/フェデレート学習を目的としたプロトコルであるサブサンプリングシャッフル機構と,最近提案されたシャッフルチェックイン機構に拡張する。 最後に、これらのメカニズムに関する実証的研究を行い、厳密なユーザのプライバシーを保証するために、分散学習フレームワークの下でシャッフルガウス機構を用いる効果を実証する。

We study Gaussian mechanism in the shuffle model of differential privacy (DP). Particularly, we characterize the mechanism's R\'enyi differential privacy (RDP), showing that it is of the form: $$ \epsilon(\lambda) \leq \frac{1}{\lambda-1}\log\left(\frac{e^{-\lambda/2\sigma^2}}{n^\lambda}\sum_{\substack{k_1+\dotsc+k_n=\lambda;\\k_1,\dotsc,k_n\geq 0}}\binom{\lambda!}{k_1,\dotsc,k_n}e^{\sum_{i=1}^nk_i^2/2\sigma^2}\right) $$ We further prove that the RDP is strictly upper-bounded by the Gaussian RDP without shuffling. The shuffle Gaussian RDP is advantageous in composing multiple DP mechanisms, where we demonstrate its improvement over the state-of-the-art approximate DP composition theorems in privacy guarantees of the shuffle model. Moreover, we extend our study to the subsampled shuffle mechanism and the recently proposed shuffled check-in mechanism, which are protocols geared towards distributed/federated learning. Finally, an empirical study of these mechanisms is given to demonstrate the efficacy of employing shuffle Gaussian mechanism under the distributed learning framework to guarantee rigorous user privacy.
翻訳日:2022-06-25 15:35:15 公開日:2022-06-20
# (参考訳) Guardian Angel:視覚障害者のための新しい歩行支援

Guardian Angel: A Novel Walking Aid for the Visually Impaired ( http://arxiv.org/abs/2206.09570v1 )

ライセンス: CC BY 4.0
Ko-Wei Tai, HuaYen Lee, Hsin-Huei Chen, Jeng-Sheng Yeh, Ming Ouhyoung(参考訳) この研究は、視覚障害者が複雑な交通環境の危険を避けるのを助けるandroidアプリguardian angelを紹介している。 このシステムは、事前訓練されたYOLOモデルによる物体検出、距離推定、移動方向推定により、周囲の車両に関する情報を提供し、高価な専用装置を使わずに潜在的な危険を警告する。 8人の被験者による実験から,スマートフォンを用いたアプリによる歩行者横断実験の満足度は,99%未満の信頼レベルである場合よりも優れていた。 道路を横断するのに要する時間は、平均してシステムの支援によって短くなりますが、実験によって大きな差は得られません。 アプリはGoogle Play Storeで公開されており、無料で公開されている。

This work introduces Guardian Angel, an Android App that assists visually impaired people to avoid danger in complex traffic environment. The system, consisting of object detection by pretrained YOLO model, distance estimation and moving direction estimation, provides information about surrounding vehicles and alarms users of potential danger without expensive special purpose device. With an experiment of 8 subjects, we corroborate that in terms of satisfaction score in pedestrian-crossing experiment with the assistance of our App using a smartphone is better than when without under 99% confidence level. The time needed to cross a road is shorter on average with the assistance of our system, however, not reaching significant difference by our experiment. The App has been released in Google Play Store, open to the public for free.
翻訳日:2022-06-25 15:16:41 公開日:2022-06-20
# (参考訳) C-SENN: 対照的な自己説明型ニューラルネットワーク

C-SENN: Contrastive Self-Explaining Neural Network ( http://arxiv.org/abs/2206.09575v1 )

ライセンス: CC BY 4.0
Yoshihide Sawada, Keigo Nakamura(参考訳) 本研究では、教師なし概念を学習する自己説明型ニューラルネットワーク(SENN)を用いて、人々が自動的に理解しやすい概念を取得する。 概念学習において、隠れた層は出力に関連する言語可能な特徴を保持しており、説明が必要な実環境に適応する場合に重要である。 しかし、SENNが出力する概念の解釈性は、自律運転シナリオのような一般的な設定では低下することが知られている。 そこで本研究では,コントラスト学習と概念学習を組み合わせることで,概念の可読性とタスクの精度を向上させる。 このモデルをContrastive Self-Explaining Neural Network (C-SENN)と呼ぶ。

In this study, we use a self-explaining neural network (SENN), which learns unsupervised concepts, to acquire concepts that are easy for people to understand automatically. In concept learning, the hidden layer retains verbalizable features relevant to the output, which is crucial when adapting to real-world environments where explanations are required. However, it is known that the interpretability of concepts output by SENN is reduced in general settings, such as autonomous driving scenarios. Thus, this study combines contrastive learning with concept learning to improve the readability of concepts and the accuracy of tasks. We call this model Contrastive Self-Explaining Neural Network (C-SENN).
翻訳日:2022-06-25 15:13:07 公開日:2022-06-20
# (参考訳) 第5回YouTube-VOSチャレンジ2022:ビデオオブジェクトのセグメンテーション

5th Place Solution for YouTube-VOS Challenge 2022: Video Object Segmentation ( http://arxiv.org/abs/2206.09585v1 )

ライセンス: CC BY 4.0
Wangwang Yang, Jinming Su, Yiting Duan, Tingyi Guo and Junfeng Luo(参考訳) ビデオオブジェクトセグメンテーション(VOS)は、ディープラーニングの台頭とともに大きな進歩を遂げた。 しかし、類似した物体は容易に混乱し、小さな物体を見つけるのが困難であるなど、まだいくつかの厄介な問題が残っている。 これらの問題の解決とVOSの性能向上のために,本課題に対して,単純かつ効果的な解法を提案する。 このソリューションでは,まずyoutube-vosデータセットの分布を分析し,公開静的およびビデオセグメンテーションデータセットを導入することでデータセットを補完する。 そして,異なる特性を持つ3つのネットワークアーキテクチャを改善し,複数のネットワークを訓練し,映像中のオブジェクトの異なる特性を学習する。 その後、私たちは単純な方法ですべての結果を統合し、異なるモデルが相互に補完することを保証します。 最後に、正確な境界を持つ正確なビデオオブジェクトセグメンテーションを保証するために微妙な後処理を行う。 Youtube-VOSデータセットの大規模な実験は、提案されたソリューションが、YouTube-VOS 2022テストセットで86.1%のスコアで最先端のパフォーマンスを達成することを示している。

Video object segmentation (VOS) has made significant progress with the rise of deep learning. However, there still exist some thorny problems, for example, similar objects are easily confused and tiny objects are difficult to be found. To solve these problems and further improve the performance of VOS, we propose a simple yet effective solution for this task. In the solution, we first analyze the distribution of the Youtube-VOS dataset and supplement the dataset by introducing public static and video segmentation datasets. Then, we improve three network architectures with different characteristics and train several networks to learn the different characteristics of objects in videos. After that, we use a simple way to integrate all results to ensure that different models complement each other. Finally, subtle post-processing is carried out to ensure accurate video object segmentation with precise boundaries. Extensive experiments on Youtube-VOS dataset show that the proposed solution achieves the state-of-the-art performance with an 86.1% overall score on the YouTube-VOS 2022 test set, which is 5th place on the video object segmentation track of the Youtube-VOS Challenge 2022.
翻訳日:2022-06-25 15:04:51 公開日:2022-06-20
# (参考訳) マルチエージェントからマルチロボットへ:マルチロボット強化学習のためのスケーラブルなトレーニングと評価プラットフォーム

From Multi-agent to Multi-robot: A Scalable Training and Evaluation Platform for Multi-robot Reinforcement Learning ( http://arxiv.org/abs/2206.09590v1 )

ライセンス: CC BY 4.0
Zhiuxan Liang, Jiannong Cao, Shan Jiang, Divya Saxena, Jinlin Chen, Huafeng Xu(参考訳) マルチエージェント強化学習(MARL)は、過去数十年間、学術や産業から広く注目を集めてきた。 MARLの基本的な問題の1つは、異なるアプローチを包括的に評価する方法である。 既存のMARL手法の多くは、ビデオゲームまたは単純化シミュレーションシナリオで評価される。 これらの手法が現実世界のシナリオ、特にマルチロボットシステムでどのように機能するかはまだ不明である。 本稿では,マルチロボット強化学習(MRRL)のためのスケーラブルなエミュレーションプラットフォームSMARTを提案する。 SMARTは2つのコンポーネントから構成される。 1) 様々な複雑な相互作用シナリオを訓練や実験のために提供するシミュレーション環境 2)現実的な性能評価のための実世界のマルチロボットシステム。 さらにSMARTはアルゴリズム実装のためのプラグイン・アンド・プレイのエージェント環境APIを提供している。 当社のプラットフォームの実践性を説明するために,協調運転車線変更シナリオを事例として検討する。 ケーススタディとして,これまで考えられなかったmrrlのユニークな課題をいくつかまとめる。 最後に, シミュレーション環境, 関連するベンチマークタスク, 最先端のベースラインをオープンソース化し, MRRL研究を奨励し, 強化する。

Multi-agent reinforcement learning (MARL) has been gaining extensive attention from academia and industries in the past few decades. One of the fundamental problems in MARL is how to evaluate different approaches comprehensively. Most existing MARL methods are evaluated in either video games or simplistic simulated scenarios. It remains unknown how these methods perform in real-world scenarios, especially multi-robot systems. This paper introduces a scalable emulation platform for multi-robot reinforcement learning (MRRL) called SMART to meet this need. Precisely, SMART consists of two components: 1) a simulation environment that provides a variety of complex interaction scenarios for training and 2) a real-world multi-robot system for realistic performance evaluation. Besides, SMART offers agent-environment APIs that are plug-and-play for algorithm implementation. To illustrate the practicality of our platform, we conduct a case study on the cooperative driving lane change scenario. Building off the case study, we summarize several unique challenges of MRRL, which are rarely considered previously. Finally, we open-source the simulation environments, associated benchmark tasks, and state-of-the-art baselines to encourage and empower MRRL research.
翻訳日:2022-06-25 14:56:21 公開日:2022-06-20
# (参考訳) ラベルなしデータからの構造化知識を用いたドメイン適応テキスト分類

Domain-Adaptive Text Classification with Structured Knowledge from Unlabeled Data ( http://arxiv.org/abs/2206.09591v1 )

ライセンス: CC BY 4.0
Tian Li, Xiang Chen, Zhen Dong, Weijiang Yu, Yijun Yan, Kurt Keutzer, Shanghang Zhang(参考訳) ドメイン適応型テキスト分類は、新しいドメインに適応するために高価なラベル付きデータを必要とするため、大規模な事前学習された言語モデルでは難しい問題である。 既存の作品は通常、ドメイン間の単語間の暗黙の関係を活用できない。 本稿では,単語レベルの意味関係を活用し,ドメイン適応性を高めるため,構造化知識を用いたドメイン適応法(dask)を提案する。 DASKはまず、ピボット項(ドメインに依存しない単語)とターゲットドメイン内の非ピボット項の関係をキャプチャする知識グラフを構築する。 トレーニング中、daskはピボット関連の知識グラフ情報をソースドメインのテキストに注入する。 下流タスクでは、これらの知識注入されたテキストは、知識注入されたテキストデータを処理できるBERT変種に入力される。 知識注入により、我々のモデルはピボットとの関係に応じて非ピボットのドメイン不変の特徴を学習する。 DASKは、疑似ラベルを用いたトレーニング中に、候補ピボットの極性スコアを介して動的に推論することで、ピボットがドメイン不変の振る舞いを持つことを保証する。 我々はDASKを多岐にわたるクロスドメイン感情分類タスクで検証し、20の異なるドメインペアのベースラインよりも最大2.9%の絶対的なパフォーマンス改善を観察する。 コードはhttps://github.com/hikaru-nara/DASK.comで公開される。

Domain adaptive text classification is a challenging problem for the large-scale pretrained language models because they often require expensive additional labeled data to adapt to new domains. Existing works usually fails to leverage the implicit relationships among words across domains. In this paper, we propose a novel method, called Domain Adaptation with Structured Knowledge (DASK), to enhance domain adaptation by exploiting word-level semantic relationships. DASK first builds a knowledge graph to capture the relationship between pivot terms (domain-independent words) and non-pivot terms in the target domain. Then during training, DASK injects pivot-related knowledge graph information into source domain texts. For the downstream task, these knowledge-injected texts are fed into a BERT variant capable of processing knowledge-injected textual data. Thanks to the knowledge injection, our model learns domain-invariant features for non-pivots according to their relationships with pivots. DASK ensures the pivots to have domain-invariant behaviors by dynamically inferring via the polarity scores of candidate pivots during training with pseudo-labels. We validate DASK on a wide range of cross-domain sentiment classification tasks and observe up to 2.9% absolute performance improvement over baselines for 20 different domain pairs. Code will be made available at https://github.com/hikaru-nara/DASK.
翻訳日:2022-06-25 14:34:41 公開日:2022-06-20
# (参考訳) SPBERTQA:医療用テキスト用文変換器を用いた2段階質問回答システム

SPBERTQA: A Two-Stage Question Answering System Based on Sentence Transformers for Medical Texts ( http://arxiv.org/abs/2206.09600v1 )

ライセンス: CC BY 4.0
Nhung Thi-Hong Nguyen, Phuong Phan-Dieu Ha, Luan Thanh Nguyen, Kiet Van Nguyen, Ngan Luu-Thuy Nguyen(参考訳) 質問応答(qa)システムは近年爆発的な注目を集めている。 しかし、ベトナムのQAタスクには多くのデータセットがない。 重要なことに、医療領域にはデータセットはほとんどありません。 そこで我々はベトナムの医療質問回答データセット(ViHealthQA)を構築し,この課題に対して10,015件の質問回答パスペアを作成した。 本稿では,MNR損失をBM25と組み合わせたSBERT(Sentence-BERT)に基づく2段階QAシステムを提案する。 そして,様々な単語モデルを用いて多様な実験を行い,システムの性能評価を行った。 その結果,従来の手法よりも優れた性能が得られた。

Question answering (QA) systems have gained explosive attention in recent years. However, QA tasks in Vietnamese do not have many datasets. Significantly, there is mostly no dataset in the medical domain. Therefore, we built a Vietnamese Healthcare Question Answering dataset (ViHealthQA), including 10,015 question-answer passage pairs for this task, in which questions from health-interested users were asked on prestigious health websites and answers from highly qualified experts. This paper proposes a two-stage QA system based on Sentence-BERT (SBERT) using multiple negatives ranking (MNR) loss combined with BM25. Then, we conduct diverse experiments with many bag-of-words models to assess our system's performance. With the obtained results, this system achieves better performance than traditional methods.
翻訳日:2022-06-25 14:19:41 公開日:2022-06-20
# (参考訳) リアルタイムビデオセグメンテーションのための歪み認識型ネットワークプルーニングと特徴再利用

Distortion-Aware Network Pruning and Feature Reuse for Real-time Video Segmentation ( http://arxiv.org/abs/2206.09604v1 )

ライセンス: CC BY 4.0
Hyunsu Rhee, Dongchan Min, Sunil Hwang, Bruno Andreis, Sung Ju Hwang(参考訳) リアルタイムビデオセグメンテーションは、自動運転やロボット制御など、多くの現実世界のアプリケーションにとって重要なタスクである。 最先端セマンティックセグメンテーションモデルは、目覚ましい性能にもかかわらずリアルタイムアプリケーションには重すぎることが多いため、研究者は、精度の低下を犠牲にしてリアルタイムのスピードを達成するために、高速なトレードオフを持つ軽量アーキテクチャを提案した。 本稿では,ビデオの時間的局所性を利用して,リアルタイム視覚タスクのスキップ接続によるアーキテクチャの高速化を実現する新しいフレームワークを提案する。 具体的には、各フレームの到着時に、前のフレームから特徴を変換し、特定の空間的ビンで再利用する。 次に、現在のフレームの領域におけるバックボーンネットワークの部分計算を行い、現在のフレームと前のフレームの時間差をキャプチャする。 これは、フレーム間の歪みに基づいてどのブロックをドロップするかを決定するゲーティング機構を使用して、残余ブロックを動的にドロップアウトする。 我々は,複数のバックボーンネットワークを用いたビデオ意味セマンティクスセグメンテーションベンチマークにおいて,空間-時空間マスク生成器(stmg)の有効性を検証し,精度を最小に抑え,推定を高速化することを示す。

Real-time video segmentation is a crucial task for many real-world applications such as autonomous driving and robot control. Since state-of-the-art semantic segmentation models are often too heavy for real-time applications despite their impressive performance, researchers have proposed lightweight architectures with speed-accuracy trade-offs, achieving real-time speed at the expense of reduced accuracy. In this paper, we propose a novel framework to speed up any architecture with skip-connections for real-time vision tasks by exploiting the temporal locality in videos. Specifically, at the arrival of each frame, we transform the features from the previous frame to reuse them at specific spatial bins. We then perform partial computation of the backbone network on the regions of the current frame that captures temporal differences between the current and previous frame. This is done by dynamically dropping out residual blocks using a gating mechanism which decides which blocks to drop based on inter-frame distortion. We validate our Spatial-Temporal Mask Generator (STMG) on video semantic segmentation benchmarks with multiple backbone networks, and show that our method largely speeds up inference with minimal loss of accuracy.
翻訳日:2022-06-25 14:07:29 公開日:2022-06-20
# (参考訳) s2rl: 深いマルチエージェント強化学習では、すべての状態を認識する必要がありますか?

S2RL: Do We Really Need to Perceive All States in Deep Multi-Agent Reinforcement Learning? ( http://arxiv.org/abs/2206.11054v1 )

ライセンス: CC BY 4.0
Shuang Luo, Yinchuan Li, Jiahui Li, Kun Kuang, Furui Liu, Yunfeng Shao, Chao Wu(参考訳) 協調型マルチエージェント強化学習(MARL)は多くの実践的応用で広く使われており、各エージェントはそれぞれの観察に基づいて決定を行う。 ほとんどの主流の方法は、分散化されたローカルユーティリティ関数をモデル化する際に、各ローカル観測を全体として扱う。 しかし、局所的な観測情報がさらに複数のエンティティに分割されるという事実を無視し、そのエンティティの一部だけがモデル推論に役立ちます。 さらに、異なるエンティティの重要性は時間とともに変化する可能性がある。 分散ポリシーの性能を向上させるために、局所的な情報の特徴を捉えるために注意機構が用いられる。 それでも、既存の注意モデルは密接な完全連結グラフに依存しており、重要な状態をよりよく認識することはできない。 そこで本研究では,局所観測における無関係情報を捨てるためにスパースアテンション機構を利用したスパース状態に基づくmarl(s2rl)フレームワークを提案する。 局所効用関数は, 自己注意機構と疎注意機構を別々に用いて推定し, 中心批評家の標準継手値関数と補助継手値関数とに結合する。 私たちはs2rlフレームワークをプラグアンドプレイモジュールとして設計し、様々な方法に適用できるほど汎用的です。 StarCraft IIの大規模な実験により、S2RLは多くの最先端の手法の性能を大幅に改善できることが示された。

Collaborative multi-agent reinforcement learning (MARL) has been widely used in many practical applications, where each agent makes a decision based on its own observation. Most mainstream methods treat each local observation as an entirety when modeling the decentralized local utility functions. However, they ignore the fact that local observation information can be further divided into several entities, and only part of the entities is helpful to model inference. Moreover, the importance of different entities may change over time. To improve the performance of decentralized policies, the attention mechanism is used to capture features of local information. Nevertheless, existing attention models rely on dense fully connected graphs and cannot better perceive important states. To this end, we propose a sparse state based MARL (S2RL) framework, which utilizes a sparse attention mechanism to discard irrelevant information in local observations. The local utility functions are estimated through the self-attention and sparse attention mechanisms separately, then are combined into a standard joint value function and auxiliary joint value function in the central critic. We design the S2RL framework as a plug-and-play module, making it general enough to be applied to various methods. Extensive experiments on StarCraft II show that S2RL can significantly improve the performance of many state-of-the-art methods.
翻訳日:2022-06-25 13:45:57 公開日:2022-06-20
# (参考訳) グラフニューラルネットワークを用いたB\"uchi Automataの解析

Analyzing B\"uchi Automata with Graph Neural Networks ( http://arxiv.org/abs/2206.09619v1 )

ライセンス: CC BY 4.0
Christophe Stammet, Prisca Dotti, Ulrich Ultes-Nitsche and Andreas Fischer(参考訳) b\"uchi automata on infinite words present many interesting problems, and often used to program verification and model checking (英語) b\"uchi automataのこれらの問題の多くは計算が難しいため、学習ベースのデータ駆動分析が従来のアルゴリズムを使うよりも効率的かどうかという疑問を投げかけている。 b\"uchi automataはグラフで表現できるので、グラフニューラルネットワークはそのような学習に基づく分析の自然な選択である。 本稿では,自動生成されたランダムオートマトンデータセット上での学習において,グラフニューラルネットワークを用いてb\"uchi automataの基本特性を確実に予測する方法を示す。

B\"uchi Automata on infinite words present many interesting problems and are used frequently in program verification and model checking. A lot of these problems on B\"uchi automata are computationally hard, raising the question if a learning-based data-driven analysis might be more efficient than using traditional algorithms. Since B\"uchi automata can be represented by graphs, graph neural networks are a natural choice for such a learning-based analysis. In this paper, we demonstrate how graph neural networks can be used to reliably predict basic properties of B\"uchi automata when trained on automatically generated random automata datasets.
翻訳日:2022-06-25 13:29:38 公開日:2022-06-20
# (参考訳) 異種室内家具の配置生成

Generating Diverse Indoor Furniture Arrangements ( http://arxiv.org/abs/2206.10608v1 )

ライセンス: CC BY 4.0
Ya-Chuan Hsu, Matthew C. Fontaine, Sam Earle, Maria Edwards, Julian Togelius, Stefanos Nikolaidis(参考訳) 人為的な家具配置データから室内家具の配置を生成する手法を提案する。 本手法は, 室内の家具の総価格や設置品数など, 特定多様性を目標とした配置を作成する。 現実的な家具配置を生成するため,人間設計レイアウト上でGAN(Generative Adversarial Network)を訓練する。 配置の特定の多様性を目標として,品質多様性アルゴリズムを用いてGANの潜伏空間を最適化し,多様な配置コレクションを生成する。 実験により, 設計したレイアウトに類似しているが, 価格や家具の部品数によって異なる配置が発見された。

We present a method for generating arrangements of indoor furniture from human-designed furniture layout data. Our method creates arrangements that target specified diversity, such as the total price of all furniture in the room and the number of pieces placed. To generate realistic furniture arrangement, we train a generative adversarial network (GAN) on human-designed layouts. To target specific diversity in the arrangements, we optimize the latent space of the GAN via a quality diversity algorithm to generate a diverse arrangement collection. Experiments show our approach discovers a set of arrangements that are similar to human-designed layouts but varies in price and number of furniture pieces.
翻訳日:2022-06-25 13:20:37 公開日:2022-06-20
# (参考訳) 共役勾配法に基づく多様な逆攻撃

Diversified Adversarial Attacks based on Conjugate Gradient Method ( http://arxiv.org/abs/2206.09628v1 )

ライセンス: CC BY 4.0
Keiichiro Yamamura, Haruki Sato, Nariaki Tateiwa, Nozomi Hata, Toru Mitsutake, Issa Oe, Hiroki Ishikura, Katsuki Fujisawa(参考訳) ディープラーニングモデルは、敵の例に対して脆弱であり、そのような例を生成するために使用される敵攻撃は、かなりの研究関心を集めている。 最も急降下率の高い既存手法は高い攻撃成功率を達成したが、不条件問題により性能が低下することがある。 この制限に対処するために,この種の問題に有効な共役勾配法(CG)法を用い,自動共役勾配法(ACG)攻撃というCG法に触発された新たな攻撃アルゴリズムを提案する。 最新のロバストモデルを用いた大規模評価実験の結果、ほとんどのモデルにおいて、AIGは既存のSOTAアルゴリズムであるAuto-PGD (APGD) よりも少ないイテレーションで、より敵対的な例を見つけることができた。 本研究では, ACG と APGD の探索性能の違いを多様化と強化の観点から検討し,多様性度を定量化するための多様性指数 (DI) と呼ばれる尺度を定義した。 この指標を用いた多様性の分析から,提案手法のより多様な探索により,攻撃成功率を著しく向上させることを示す。

Deep learning models are vulnerable to adversarial examples, and adversarial attacks used to generate such examples have attracted considerable research interest. Although existing methods based on the steepest descent have achieved high attack success rates, ill-conditioned problems occasionally reduce their performance. To address this limitation, we utilize the conjugate gradient (CG) method, which is effective for this type of problem, and propose a novel attack algorithm inspired by the CG method, named the Auto Conjugate Gradient (ACG) attack. The results of large-scale evaluation experiments conducted on the latest robust models show that, for most models, ACG was able to find more adversarial examples with fewer iterations than the existing SOTA algorithm Auto-PGD (APGD). We investigated the difference in search performance between ACG and APGD in terms of diversification and intensification, and define a measure called Diversity Index (DI) to quantify the degree of diversity. From the analysis of the diversity using this index, we show that the more diverse search of the proposed method remarkably improves its attack success rate.
翻訳日:2022-06-25 13:16:12 公開日:2022-06-20
# (参考訳) ニューラル・アクティベーション・パターン(NAP) : 学習概念の視覚的説明可能性

Neural Activation Patterns (NAPs): Visual Explainability of Learned Concepts ( http://arxiv.org/abs/2206.10611v1 )

ライセンス: CC BY 4.0
Alex B\"auerle, Daniel J\"onsson, Timo Ropinski(参考訳) ニューラルネットワークの内部動作を解読する鍵は、モデルが何を学んだかを理解することである。 学習した特徴を発見するための手法は、活性化値の分析に基づいており、現在の技術は、ニューロンレベルで興味深い特徴を明らかにするために、高い活性化値の分析に焦点を当てている。 しかし、高いアクティベーション値の解析は層レベルの概念発見を制限する。 本稿では,アクティベーション分布全体を考慮した手法を提案する。 ニューラルネットワーク層の高次元活性化空間内で同様の活性化プロファイルを抽出することにより、同様に扱われる入力のグループを見つける。 これらの入力グループは、ニューラルネットワークアクティベーションパターン(nap)を表し、学習層の概念を視覚化し、解釈するのに使うことができる。 我々は、事前訓練されたモデルからNAPを抽出できるフレームワークをリリースし、NAPの分析に使用できる視覚検査ツールを提供する。 提案手法を様々なネットワークで検証し,ニューラルネットワークの活性化値を解析するための既存の手法を補完する方法を示す。

A key to deciphering the inner workings of neural networks is understanding what a model has learned. Promising methods for discovering learned features are based on analyzing activation values, whereby current techniques focus on analyzing high activation values to reveal interesting features on a neuron level. However, analyzing high activation values limits layer-level concept discovery. We present a method that instead takes into account the entire activation distribution. By extracting similar activation profiles within the high-dimensional activation space of a neural network layer, we find groups of inputs that are treated similarly. These input groups represent neural activation patterns (NAPs) and can be used to visualize and interpret learned layer concepts. We release a framework with which NAPs can be extracted from pre-trained models and provide a visual introspection tool that can be used to analyze NAPs. We tested our method with a variety of networks and show how it complements existing methods for analyzing neural network activation values.
翻訳日:2022-06-25 12:43:01 公開日:2022-06-20
# (参考訳) 逆強化学習におけるベンチマーク制約推論

Benchmarking Constraint Inference in Inverse Reinforcement Learning ( http://arxiv.org/abs/2206.09670v1 )

ライセンス: CC BY 4.0
Guiliang Liu, Yudong Luo, Ashish Gaurav, Kasra Rezaee and Pascal Poupart(参考訳) 強化学習(RL)エージェントを物理システムにデプロイする場合、これらのエージェントが基礎となる制約を十分に認識する必要がある。 しかし、現実の多くの問題では、専門家エージェント(例えば人間)が従う制約は、RLエージェントに数学的に、未知に指定することがしばしば困難である。 これらの問題に対処するために、制約逆強化学習(CIRL)は制約付きマルコフ決定過程(CMDP)の形式主義を考察し、制約関数を学習することで専門家による実証から制約を推定する。 新たな研究トピックとして、CIRLは一般的なベンチマークを持たず、以前の研究は手作りの環境(グリッドワールドなど)でアルゴリズムをテストした。 本稿では,ロボット制御と自律運転という2つの主要なアプリケーション領域の文脈において,CIRLベンチマークを構築する。 我々は,各環境に関連する制約を設計し,それらの制約を尊重する専門家の軌跡に基づいて,異なるアルゴリズムの制約を回復する能力について実証的に研究する。 確率力学を扱うために,制約分布を推定する変分法を提案し,その性能をベンチマーク上の他のCIRLベースラインと比較して示す。 CIRLアルゴリズムのパフォーマンスを再現するための情報を含むこのベンチマークは、https://github.com/Guiliang/CIRL-benchmarks-publicで公開されている。

When deploying Reinforcement Learning (RL) agents into a physical system, we must ensure that these agents are well aware of the underlying constraints. In many real-world problems, however, the constraints followed by expert agents (e.g., humans) are often hard to specify mathematically and unknown to the RL agents. To tackle these issues, Constraint Inverse Reinforcement Learning (CIRL) considers the formalism of Constrained Markov Decision Processes (CMDPs) and estimates constraints from expert demonstrations by learning a constraint function. As an emerging research topic, CIRL does not have common benchmarks, and previous works tested their algorithms with hand-crafted environments (e.g., grid worlds). In this paper, we construct a CIRL benchmark in the context of two major application domains: robot control and autonomous driving. We design relevant constraints for each environment and empirically study the ability of different algorithms to recover those constraints based on expert trajectories that respect those constraints. To handle stochastic dynamics, we propose a variational approach that infers constraint distributions, and we demonstrate its performance by comparing it with other CIRL baselines on our benchmark. The benchmark, including the information for reproducing the performance of CIRL algorithms, is publicly available at https://github.com/Guiliang/CIRL-benchmarks-public
翻訳日:2022-06-25 12:27:16 公開日:2022-06-20
# (参考訳) テキストスタイル転送におけるコンテンツ保存における名前付きエンティティの役割の研究

Studying the role of named entities for content preservation in text style transfer ( http://arxiv.org/abs/2206.09676v1 )

ライセンス: CC BY 4.0
Nikolay Babakov, David Dale, Varvara Logacheva, Irina Krotova, Alexander Panchenko(参考訳) テキストスタイル転送技術は自然言語処理で人気を博し、テキストのデトキシフィケーション、感傷、形式的転送といった様々な応用方法を見つけている。 しかし、既存のアプローチの大部分は、公共プラットフォーム、音楽、娯楽におけるオンラインコミュニケーションのようなドメインでテストされたが、個人的な計画の手配(例えば、フライトの予約やレストランのテーブルの予約など)のようなタスク指向生産システムで典型的なドメインには適用されなかった。 このギャップを埋めるために、この領域で形式性転移を研究します。 我々は、このドメインのテキストは名前付きエンティティでいっぱいであり、テキストの本来の感覚を維持するために非常に重要であることに注意した。 実際、例えば、誰かがフライトの目的地都市を通信する場合は、変更するべきではない。 そこで我々は,形式的テキストスタイル転送のためのコンテンツ保存における名前付きエンティティの役割に集中する。 テキストスタイル転送におけるコンテンツ類似度評価のための新しいデータセットを収集する。 これはタスク指向の対話のコーパスから取られ、本番環境で使用する前にスタイル転送モデルをテストするのに特に役立つ、現実的な要求に関連する多くの重要なエンティティを含んでいる。 また,事前学習した形式伝達モデルの誤り解析を行い,テキストスタイル転送におけるベースラインコンテンツ類似度尺度の性能向上のために名前付きエンティティに関する情報を用いた簡易手法を提案する。

Text style transfer techniques are gaining popularity in Natural Language Processing, finding various applications such as text detoxification, sentiment, or formality transfer. However, the majority of the existing approaches were tested on such domains as online communications on public platforms, music, or entertainment yet none of them were applied to the domains which are typical for task-oriented production systems, such as personal plans arrangements (e.g. booking of flights or reserving a table in a restaurant). We fill this gap by studying formality transfer in this domain. We noted that the texts in this domain are full of named entities, which are very important for keeping the original sense of the text. Indeed, if for example, someone communicates the destination city of a flight it must not be altered. Thus, we concentrate on the role of named entities in content preservation for formality text style transfer. We collect a new dataset for the evaluation of content similarity measures in text style transfer. It is taken from a corpus of task-oriented dialogues and contains many important entities related to realistic requests that make this dataset particularly useful for testing style transfer models before using them in production. Besides, we perform an error analysis of a pre-trained formality transfer model and introduce a simple technique to use information about named entities to enhance the performance of baseline content similarity measures used in text style transfer.
翻訳日:2022-06-25 12:08:48 公開日:2022-06-20
# (参考訳) タイ語におけるミススペル意味論

Misspelling Semantics In Thai ( http://arxiv.org/abs/2206.09680v1 )

ライセンス: CC BY 4.0
Pakawat Nakwijit, Matthew Purver(参考訳) ユーザー生成コンテンツはミススペルでいっぱいです。 単なるランダムノイズではなく、多くのミススペルには言語理解タスクに活用できる隠れた意味論が含まれていると仮定する。 本稿では,タイ国におけるミススペルの微粒化コーパスについて,ミススペルの意図とその意味を解析し,コーパスで観察されるミススペルのパターンをよりよく理解するために提案する。 さらに,ミススペルのセマンティクスを組み込む手法として,ミススペル平均埋め込み (mae) とミススペル意味トークン (mst) を紹介する。 ミススペルリングによる追加的なセマンティクスは、micro f1スコアを0.4-2%まで上昇させるが、盲目的にミススペルを正規化することは有害で最適ではない。

User-generated content is full of misspellings. Rather than being just random noise, we hypothesise that many misspellings contain hidden semantics that can be leveraged for language understanding tasks. This paper presents a fine-grained annotated corpus of misspelling in Thai, together with an analysis of misspelling intention and its possible semantics to get a better understanding of the misspelling patterns observed in the corpus. In addition, we introduce two approaches to incorporate the semantics of misspelling: Misspelling Average Embedding (MAE) and Misspelling Semantic Tokens (MST). Experiments on a sentiment analysis task confirm our overall hypothesis: additional semantics from misspelling can boost the micro F1 score up to 0.4-2%, while blindly normalising misspelling is harmful and suboptimal.
翻訳日:2022-06-25 11:58:21 公開日:2022-06-20
# (参考訳) for$^2$m:メッシュ表面の折りたたみの認識と修復。 3次元オブジェクト劣化への応用

FoR$^2$M: Recognition and Repair of Foldings in Mesh Surfaces. Application to 3D Object Degradation ( http://arxiv.org/abs/2206.09699v1 )

ライセンス: CC BY 4.0
K. Sfikas, P. Perakis and T. Theoharis(参考訳) 三角形のメッシュは3dオブジェクトの最も一般的な表現であるが、多くのメッシュ表面は、それらを適切に表示または処理するための挑戦を表す位相特異点を含んでいる。 そのような特異点の1つは、走査手順やオフセットなどの変形変換によって生成されたメッシュ表面に存在する自己切断である。 メッシュの折りたたみは、メッシュ表面の折りたたみ部分に関して3dモデルの顔が交差して反転する、メッシュ表面自己接合の特別なケースで構成されている。 メッシュ面の折りたたみの認識と修復のための新しい手法が提示され、折りたたみ領域を効率的に検出するために折りたたみの構造的特性を利用する。 検出後、折りたたみを除去し、3dモデルの形状に基づいて作成する隙間を充填する。 提案手法は, 単純なメッシュ表面表現に直接適用できるが, 3次元メッシュの埋め込みは行わない(すなわち, ボキセル化, 投影)。 提案手法の目標は,オペレータに与えられた元の構造を最も効率的な方法で保持する方法でメッシュ劣化処理を容易にすることである。

Triangular meshes are the most popular representations of 3D objects, but many mesh surfaces contain topological singularities that represent a challenge for displaying or further processing them properly. One such singularity is the self-intersections that may be present in mesh surfaces that have been created by a scanning procedure or by a deformation transformation, such as off-setting. Mesh foldings comprise a special case of mesh surface self-intersections, where the faces of the 3D model intersect and become reversed, with respect to the unfolded part of the mesh surface. A novel method for the recognition and repair of mesh surface foldings is presented, which exploits the structural characteristics of the foldings in order to efficiently detect the folded regions. Following detection, the foldings are removed and any gaps so created are filled based on the geometry of the 3D model. The proposed method is directly applicable to simple mesh surface representations while it does not perform any embedding of the 3D mesh (i.e. voxelization, projection). Target of the proposed method is to facilitate mesh degradation procedures in a fashion that retains the original structure, given the operator, in the most efficient manner.
翻訳日:2022-06-25 11:43:04 公開日:2022-06-20
# (参考訳) l_0,l_1)-smoothness条件下でのミラー付きスタイン変分勾配降下の収束に関する一考察

A Note on the Convergence of Mirrored Stein Variational Gradient Descent under $(L_0,L_1)-$Smoothness Condition ( http://arxiv.org/abs/2206.09709v1 )

ライセンス: CC BY 4.0
Lukang Sun, Peter Richt\'arik(参考訳) 本稿では,Mirrored Stein Variational Gradient Method~(MSVGD)という,人口制限の降下補題を確立する。 この降下補題はMSVGDの経路情報に頼るのではなく、ミラー分布 $\nabla\Psi_{\#}\pi\propto\exp(-V)$ に対する単純な仮定に依存する。 解析により,MSVGDは非平滑な$V$でより広範な制約付きサンプリング問題に適用可能であることが示された。 また、人口制限msvgdの複雑さについても、次元$d$で検討する。

In this note, we establish a descent lemma for the population limit Mirrored Stein Variational Gradient Method~(MSVGD). This descent lemma does not rely on the path information of MSVGD but rather on a simple assumption for the mirrored distribution $\nabla\Psi_{\#}\pi\propto\exp(-V)$. Our analysis demonstrates that MSVGD can be applied to a broader class of constrained sampling problems with non-smooth $V$. We also investigate the complexity of the population limit MSVGD in terms of dimension $d$.
翻訳日:2022-06-25 11:26:20 公開日:2022-06-20
# (参考訳) メタリビューによるcar-t細胞治療時のサイトカインストーム検出

Metareview-informed Explainable Cytokine Storm Detection during CAR-T cell Therapy ( http://arxiv.org/abs/2206.10612v1 )

ライセンス: CC BY-SA 4.0
Alex Bogatu, Magdalena Wysocka, Oskar Wysocki, Holly Butterworth, Donal Landers, Elaine Kilgour, Andre Freitas(参考訳) サイトカイン放出症候群 (Cytokine Release syndrome, CRS) は、癌治療において有望な結果を示すキメラ抗原受容体療法の副作用の一つである。 出現すると、CRSは患者間で類似性を示す傾向にある特定のサイトカインおよびケモカインプロファイルの分析によって同定される。 In this paper, we exploit these similarities using machine learning algorithms and set out to pioneer a meta--review informed method for the identification of CRS based on specific cytokine peak concentrations and evidence from previous clinical studies. We argue that such methods could support clinicians in analyzing suspect cytokine profiles by matching them against CRS knowledge from past clinical studies, with the ultimate aim of swift CRS diagnosis. During evaluation with real--world CRS clinical data, we emphasize the potential of our proposed method of producing interpretable results, in addition to being effective in identifying the onset of cytokine storm.

Cytokine release syndrome (CRS), also known as cytokine storm, is one of the most consequential adverse effects of chimeric antigen receptor therapies that have shown promising results in cancer treatment. When emerging, CRS could be identified by the analysis of specific cytokine and chemokine profiles that tend to exhibit similarities across patients. In this paper, we exploit these similarities using machine learning algorithms and set out to pioneer a meta--review informed method for the identification of CRS based on specific cytokine peak concentrations and evidence from previous clinical studies. We argue that such methods could support clinicians in analyzing suspect cytokine profiles by matching them against CRS knowledge from past clinical studies, with the ultimate aim of swift CRS diagnosis. During evaluation with real--world CRS clinical data, we emphasize the potential of our proposed method of producing interpretable results, in addition to being effective in identifying the onset of cytokine storm.
翻訳日:2022-06-25 10:49:26 公開日:2022-06-20
# (参考訳) 自己監督型視覚学習の可視化と理解

Visualizing and Understanding Self-Supervised Vision Learning ( http://arxiv.org/abs/2206.09753v1 )

ライセンス: CC BY 4.0
Fawaz Sammani, Boris Joukovsky, Nikos Deligiannis(参考訳) 自己監督型視覚学習はディープラーニングに革命をもたらし、ドメインにおける次の大きな課題となり、大規模コンピュータビジョンベンチマークにおける教師付きメソッドとのギャップを急速に埋めている。 現在のモデルとトレーニングデータが指数関数的に増加すると、これらのモデルの説明と理解が重要になります。 視覚タスクにおける自己教師型学習の領域における説明可能な人工知能の問題について検討し、自己監督と内部動作で訓練されたネットワークを理解するための方法を提案する。 自己監督型視覚プレテキストタスクの多様性を考えると、同一画像の2つの視点から学習するパラダイムの理解に焦点を絞り、主にそのプリテキストタスクを理解することを目的としている。 我々の研究は類似性学習を説明することに焦点を当てており、他のすべての前文タスクにも容易に拡張できる。 我々は、SimCLRとBarlow Twinsの2つの人気自己教師型ビジョンモデルについて研究する。 摂動に基づく手法(条件性咬合,文脈非依存条件性咬合,対方向咬合),対話型カメラ,特徴量可視化,モデル差分可視化,平均変換,ピクセル不変性)の計6つのモデルを可視化し,理解する手法を開発した。 最後に,1つの画像を含む教師付き画像分類システム用に調整された既知の評価基準を,2つの画像が関与する自己教師付き学習領域に翻訳することにより,これらの説明を評価する。 コード https://github.com/fawazsammani/xai-ssl

Self-Supervised vision learning has revolutionized deep learning, becoming the next big challenge in the domain and rapidly closing the gap with supervised methods on large computer vision benchmarks. With current models and training data exponentially growing, explaining and understanding these models becomes pivotal. We study the problem of explainable artificial intelligence in the domain of self-supervised learning for vision tasks, and present methods to understand networks trained with self-supervision and their inner workings. Given the huge diversity of self-supervised vision pretext tasks, we narrow our focus on understanding paradigms which learn from two views of the same image, and mainly aim to understand the pretext task. Our work focuses on explaining similarity learning, and is easily extendable to all other pretext tasks. We study two popular self-supervised vision models: SimCLR and Barlow Twins. We develop a total of six methods for visualizing and understanding these models: Perturbation-based methods (conditional occlusion, context-agnostic conditional occlusion and pairwise occlusion), Interaction-CAM, Feature Visualization, Model Difference Visualization, Averaged Transforms and Pixel Invaraince. Finally, we evaluate these explanations by translating well-known evaluation metrics tailored towards supervised image classification systems involving a single image, into the domain of self-supervised learning where two images are involved. Code is at: https://github.com/fawazsammani/xai-ssl
翻訳日:2022-06-25 10:47:21 公開日:2022-06-20
# (参考訳) nlpにおける正方偏差:研究多様体の多次元探索に向けて

Square One Bias in NLP: Towards a Multi-Dimensional Exploration of the Research Manifold ( http://arxiv.org/abs/2206.09755v1 )

ライセンス: CC BY 4.0
Sebastian Ruder, Ivan Vuli\'c, Anders S{\o}gaard(参考訳) 原型的nlp実験はラベル付き英語データの標準アーキテクチャを訓練し、公平性、解釈性、計算効率といった他の次元を考慮せずに精度を最適化する。 我々は、最近のNLP研究論文のマニュアル分類を通して、これが事実であることを示すとともに、これを正方形の実験装置と呼ぶ。 NLP研究は、例えば、精度だけでなく、公正性や解釈可能性にも焦点をあてるだけでなく、通常は単一の次元に沿っている。 例えば多言語を対象とする作業の多くは正確さのみを考慮し、公平性や解釈可能性に関する作業は英語のみを考慮している。 我々は,最近のNLP研究論文とACLテスト・オブ・タイム賞受賞者の手動分類を通じてこれを示す。 ほとんどの研究の1次元性は、NLPリサーチサーチスペースのごく一部しか探索していないことを意味する。 四角いバイアスは、研究者が誤った結論を導いたり、無分別な選択をしたり、研究多様体上で未探究の方向を約束したり、より多次元的な研究を可能にするために実用的な推奨を行った歴史的および最近の例を提供する。 我々はアノテーションの結果をオープンソース化し、https://github.com/google-research/url-nlpでさらなる分析を可能にする。

The prototypical NLP experiment trains a standard architecture on labeled English data and optimizes for accuracy, without accounting for other dimensions such as fairness, interpretability, or computational efficiency. We show through a manual classification of recent NLP research papers that this is indeed the case and refer to it as the square one experimental setup. We observe that NLP research often goes beyond the square one setup, e.g, focusing not only on accuracy, but also on fairness or interpretability, but typically only along a single dimension. Most work targeting multilinguality, for example, considers only accuracy; most work on fairness or interpretability considers only English; and so on. We show this through manual classification of recent NLP research papers and ACL Test-of-Time award recipients. Such one-dimensionality of most research means we are only exploring a fraction of the NLP research search space. We provide historical and recent examples of how the square one bias has led researchers to draw false conclusions or make unwise choices, point to promising yet unexplored directions on the research manifold, and make practical recommendations to enable more multi-dimensional research. We open-source the results of our annotations to enable further analysis at https://github.com/google-research/url-nlp
翻訳日:2022-06-25 10:36:59 公開日:2022-06-20
# (参考訳) 作物分類のための時間ゲーテッド畳み込みニューラルネットワーク

Time Gated Convolutional Neural Networks for Crop Classification ( http://arxiv.org/abs/2206.09756v1 )

ライセンス: CC BY 4.0
Longlong Weng, Yashu Kang, Kezhao Jiang, Chunlei Chen(参考訳) 本稿では,時系列情報とゲーティング機構を活用し,作物分類問題に対する最先端の枠組みであるtgcnn(time gated convolutional neural network)を提案する。 さらに、入力データの次元を拡大してスペクトル情報を活用するために、いくつかの植生指標を構築した。 tgcnnでは、空間的(チャネル的)と時間的(ステップ的)の相関が考慮される。 具体的には,このデータセットにおいてステップワイズ情報がより重要であることを示す予備分析を行った。 最後に、ゲーティング機構は高次関係を捉えるのに役立つ。 我々のTGCNNソリューションは、それぞれ0.973$F1スコア、0.977$AUC ROC、0.948$IoUを得る。 さらに、別のローカルタスク(ケニア、ブラジル、トーゴ)で他の3つのベンチマークを上回っている。 この地球観測時系列分類作業において,TGCNNが有利であることを示す実験を行った。

This paper presented a state-of-the-art framework, Time Gated Convolutional Neural Network (TGCNN) that takes advantage of temporal information and gating mechanisms for the crop classification problem. Besides, several vegetation indices were constructed to expand dimensions of input data to take advantage of spectral information. Both spatial (channel-wise) and temporal (step-wise) correlation are considered in TGCNN. Specifically, our preliminary analysis indicates that step-wise information is of greater importance in this data set. Lastly, the gating mechanism helps capture high-order relationship. Our TGCNN solution achieves $0.973$ F1 score, $0.977$ AUC ROC and $0.948$ IoU, respectively. In addition, it outperforms three other benchmarks in different local tasks (Kenya, Brazil and Togo). Overall, our experiments demonstrate that TGCNN is advantageous in this earth observation time series classification task.
翻訳日:2022-06-25 10:14:56 公開日:2022-06-20
# (参考訳) 機械学習対応システムのパースペクティブベース仕様に向けて

Towards Perspective-Based Specification of Machine Learning-Enabled Systems ( http://arxiv.org/abs/2206.09760v1 )

ライセンス: CC BY 4.0
Hugo Villamizar, Marcos Kalinowski, and Helio Lopes(参考訳) マシンラーニング(ML)チームは、モデルのパフォーマンスが十分ではないことに気付くため、プロジェクトに取り組むことが多い。 実際、ML対応システムの成功には、データのビジネス問題との整合、MLタスクへの変換、アルゴリズムの実験、モデルの評価、ユーザからのデータのキャプチャなどが含まれる。 文献によると、ml対応のシステムはそのような懸念に対する正確な仕様に基づいて構築されることはほとんどなく、mlチームは誤った仮定のために不一致に陥り、そのようなシステムの品質やプロジェクト全体の成功に影響を及ぼす可能性がある。 本稿では,この問題に対処するため,ML対応システムを特定するための視点ベースアプローチに向けた取り組みについて述べる。 このアプローチでは、目標、ユーザエクスペリエンス、インフラストラクチャ、モデル、データという5つの視点にグループ化された45のML関心事のセットを分析する。 本論文の主な貢献は、ML対応システムを特定するのに役立つ2つの新しいアーティファクトを提供することである。 i)視点に基づくMLタスクと関心図 (ii)パースペクティブベースのML仕様テンプレート。

Machine learning (ML) teams often work on a project just to realize the performance of the model is not good enough. Indeed, the success of ML-enabled systems involves aligning data with business problems, translating them into ML tasks, experimenting with algorithms, evaluating models, capturing data from users, among others. Literature has shown that ML-enabled systems are rarely built based on precise specifications for such concerns, leading ML teams to become misaligned due to incorrect assumptions, which may affect the quality of such systems and overall project success. In order to help addressing this issue, this paper describes our work towards a perspective-based approach for specifying ML-enabled systems. The approach involves analyzing a set of 45 ML concerns grouped into five perspectives: objectives, user experience, infrastructure, model, and data. The main contribution of this paper is to provide two new artifacts that can be used to help specifying ML-enabled systems: (i) the perspective-based ML task and concern diagram and (ii) the perspective-based ML specification template.
翻訳日:2022-06-25 10:10:08 公開日:2022-06-20
# (参考訳) bilingual by default: 音声アシスタントとバイリンガルユーザエクスペリエンス作成におけるコードスイッチの役割

Bilingual by default: Voice Assistants and the role of code-switching in creating a bilingual user experience ( http://arxiv.org/abs/2206.09765v1 )

ライセンス: CC BY 4.0
Helin Cihan, Yunhan Wu, Paola Pe\~na, Justin Edwards, Benjamin Cowan(参考訳) ボイスアシスタントのような会話型ユーザーインタフェースは非常に人気がある。 しかし、それらはデフォルトでは単言語で、バイリンガルの対話体験に対するサポートや感受性が欠如しているように設計されている。 本稿では,バイリンガルユーザのためのvaインタラクションにおいて直面する言語生成の課題について述べる。 我々は、コードスイッチングのようなバイリンガルインタラクションで見られる現象を促進することで、バイリンガルユーザーにとってより包括的で改善されたユーザーエクスペリエンスを育むことができると論じる。 また、複数の言語認識をサポートし、音声出力におけるコード切り換えの好みに敏感であることにより、これを実現する方法も検討する。

Conversational User Interfaces such as Voice Assistants are hugely popular. Yet they are designed to be monolingual by default, lacking support for, or sensitivity to, the bilingual dialogue experience. In this provocation paper, we highlight the language production challenges faced in VA interaction for bilingual users. We argue that, by facilitating phenomena seen in bilingual interaction, such as code-switching, we can foster a more inclusive and improved user experience for bilingual users. We also explore ways that this might be achieved, through the support of multiple language recognition as well as being sensitive to the preferences of code-switching in speech output.
翻訳日:2022-06-25 10:02:23 公開日:2022-06-20
# (参考訳) 道路カメラを用いた自動運転のためのリアルタイムフルスタックトラヒックシーン知覚

Real-time Full-stack Traffic Scene Perception for Autonomous Driving with Roadside Cameras ( http://arxiv.org/abs/2206.09770v1 )

ライセンス: CC BY 4.0
Zhengxia Zou, Rusheng Zhang, Shengyin Shen, Gaurav Pandey, Punarjay Chakravarty, Armin Parchami, Henry X. Liu(参考訳) 道路カメラを用いた交通シーン知覚のための新しい実用的枠組みを提案する。 提案フレームワークは, 物体検出, 物体位置推定, 物体追跡, マルチカメラ情報融合を含む, インフラストラクチャ支援自動運転のための道路側認識パイプラインのフルスタックをカバーする。 従来の視覚ベースの認識フレームワークは、トレーニング時に深度オフセットや3Dアノテーションに依存していたが、モジュラーデカップリング設計を採用し、ランドマークベースの3Dローカライゼーション手法を導入し、検出とローカライゼーションをうまく分離し、モデルが2Dアノテーションのみに基づいて容易にトレーニングできるようにした。 提案フレームワークは、ピンホールまたは魚眼レンズを備えた光学カメラまたは熱カメラに適用される。 私たちのフレームワークはEllsworth Rd.とState St.にある2車線のラウンドアラウンドでデプロイされています。 ann arbor, mi, usa, 7x24リアルタイム交通流モニタリングと高精度車両軌道抽出を提供する。 システムは、全コンポーネントのエンドツーエンド遅延が20ミリ秒未満の低消費電力エッジコンピューティングデバイス上で効率よく動作する。

We propose a novel and pragmatic framework for traffic scene perception with roadside cameras. The proposed framework covers a full-stack of roadside perception pipeline for infrastructure-assisted autonomous driving, including object detection, object localization, object tracking, and multi-camera information fusion. Unlike previous vision-based perception frameworks rely upon depth offset or 3D annotation at training, we adopt a modular decoupling design and introduce a landmark-based 3D localization method, where the detection and localization can be well decoupled so that the model can be easily trained based on only 2D annotations. The proposed framework applies to either optical or thermal cameras with pinhole or fish-eye lenses. Our framework is deployed at a two-lane roundabout located at Ellsworth Rd. and State St., Ann Arbor, MI, USA, providing 7x24 real-time traffic flow monitoring and high-precision vehicle trajectory extraction. The whole system runs efficiently on a low-power edge computing device with all-component end-to-end delay of less than 20ms.
翻訳日:2022-06-25 09:54:10 公開日:2022-06-20
# (参考訳) 因果関係を学習する積極的学習

Actively learning to learn causal relationships ( http://arxiv.org/abs/2206.09777v1 )

ライセンス: CC BY-SA 4.0
Chentian Jiang and Christopher G. Lucas(参考訳) 人はどのように積極的に学習するか? つまり、長期的な学習を促進し、より有益な将来の行動を選択するために、人々はいつ、いつ、どのように行動を選択するのか? 我々はこれらの疑問を活発な因果学習の領域で探求する。 我々は, 因果関係だけでなく, 因果関係のオーバーハイポテーゼ ($\unicode{x2014}$abstract beliefs) についても, 複数の状況にまたがる因果関係を仮定し, それぞれの状況における具体性をどのように学習するかを制約することにより, 過去のモデルを超えた階層ベイズモデルを提案する。 14個のサブジェクト間操作を用いた2つのアクティブな"blicket detector"実験では,参加者行動の質的傾向と個人差に基づくモデルの比較が支持された。 本研究は,能動的因果学習問題に共通する抽象的類似性が存在する場合,その類似性について簡単に学習し,転用できることを示す。 さらに、これらの過剰な仮説を利用して長期的なアクティブラーニングを促進する。

How do people actively learn to learn? That is, how and when do people choose actions that facilitate long-term learning and choosing future actions that are more informative? We explore these questions in the domain of active causal learning. We propose a hierarchical Bayesian model that goes beyond past models by predicting that people pursue information not only about the causal relationship at hand but also about causal overhypotheses$\unicode{x2014}$abstract beliefs about causal relationships that span multiple situations and constrain how we learn the specifics in each situation. In two active "blicket detector" experiments with 14 between-subjects manipulations, our model was supported by both qualitative trends in participant behavior and an individual-differences-based model comparison. Our results suggest when there are abstract similarities across active causal learning problems, people readily learn and transfer overhypotheses about these similarities. Moreover, people exploit these overhypotheses to facilitate long-term active learning.
翻訳日:2022-06-25 09:41:26 公開日:2022-06-20
# (参考訳) convex space learningは、より小さなデータセットにおける表型不均衡分類のディープジェネレーションオーバーサンプリングを改善する

Convex space learning improves deep-generative oversampling for tabular imbalanced classification on smaller datasets ( http://arxiv.org/abs/2206.09812v1 )

ライセンス: CC BY 4.0
Kristian Schultz, Saptarshi Bej, Waldemar Hahn, Markus Wolfien, Prashant Srivastava, Olaf Wolkenhauer(参考訳) データは一般に表形式で格納される。 いくつかの研究分野(バイオメディカル、フォールト/フルート検出など)は、小さな不均衡な表データに弱い。 このようなデータで機械学習を監督することは、クラスの不均衡のためにしばしば困難であり、さらに課題に加わる。 合成データ生成、すなわちオーバーサンプリングは、分類器の性能向上に使用される一般的な治療法である。 LoRASやProWRASのような最先端の線形補間手法は、マイノリティクラスの凸空間から合成サンプルを生成して、そのような場合の分類器の性能を向上させることができる。 generative adversarial network (gans) は、合成サンプル生成のための一般的なディープラーニングアプローチである。 GANは合成画像生成に広く用いられているが、不均衡な分類の文脈における表データのスコープは十分に調査されていない。 本稿では,小規模の表型データセットにおける不均衡分類問題に対して,マイノリティクラスの凸空間から合成サンプルを生成する線形補間法と比較して,既存の深層生成モデルでは性能が劣ることを示す。 本稿では,凸空間学習の概念と深部生成モデルを組み合わせた深部生成モデルを提案する。 ConVGeNは、少数クラスのサンプルの凸結合の係数を学習し、合成データが多数派と十分に異なるようにする。 提案したモデルであるConvGeNは,既存の線形補間手法と同等でありながら,既存の深部生成モデルと比較して,そのような小さなデータセットの不均衡な分類を改善することを実証する。 さらに,データ不均衡の範囲外であっても,合成表データ生成にモデルをどのように利用するかについて議論し,凸空間学習の全体的適用性を改善する。

Data is commonly stored in tabular format. Several fields of research (e.g., biomedical, fault/fraud detection), are prone to small imbalanced tabular data. Supervised Machine Learning on such data is often difficult due to class imbalance, adding further to the challenge. Synthetic data generation i.e. oversampling is a common remedy used to improve classifier performance. State-of-the-art linear interpolation approaches, such as LoRAS and ProWRAS can be used to generate synthetic samples from the convex space of the minority class to improve classifier performance in such cases. Generative Adversarial Networks (GANs) are common deep learning approaches for synthetic sample generation. Although GANs are widely used for synthetic image generation, their scope on tabular data in the context of imbalanced classification is not adequately explored. In this article, we show that existing deep generative models perform poorly compared to linear interpolation approaches generating synthetic samples from the convex space of the minority class, for imbalanced classification problems on tabular datasets of small size. We propose a deep generative model, ConvGeN combining the idea of convex space learning and deep generative models. ConVGeN learns the coefficients for the convex combinations of the minority class samples, such that the synthetic data is distinct enough from the majority class. We demonstrate that our proposed model ConvGeN improves imbalanced classification on such small datasets, as compared to existing deep generative models while being at par with the existing linear interpolation approaches. Moreover, we discuss how our model can be used for synthetic tabular data generation in general, even outside the scope of data imbalance, and thus, improves the overall applicability of convex space learning.
翻訳日:2022-06-25 09:40:24 公開日:2022-06-20
# (参考訳) 重み付き波高予測のための回帰による超越確率予測

Exceedance Probability Forecasting via Regression for Significant Wave Height Forecasting ( http://arxiv.org/abs/2206.09821v1 )

ライセンス: CC BY 4.0
Vitor Cerqueira, Luis Torgo(参考訳) 波高予測は、海洋データ分析において重要な問題である。 有意な波高の予測は、波からのエネルギー生産を推定するために不可欠である。 さらに,大波のタイムリーな予測は,船舶の通過などの海洋活動の安全を確保するために重要である。 本研究では,波高の極端値を予測するタスクを,超越確率予測問題として検討する。 そこで,本研究では,有意な波高が予め定義されたしきい値を超える確率を推定する。 この課題は通常確率的二項分類モデルを用いて解決される。 そこで本研究では,予測モデルに基づく新しい手法を提案する。 本手法は,今後の観測結果の予測を利用して,累積分布関数に従って超過確率を推定する。 カナダハリファックスの海岸に設置したブイからのデータを用いて実験を行った。 その結果,提案手法は超越確率予測の最先端手法よりも優れていることが示唆された。

Significant wave height forecasting is a key problem in ocean data analytics. Predicting the significant wave height is crucial for estimating the energy production from waves. Moreover, the timely prediction of large waves is important to ensure the safety of maritime operations, e.g. passage of vessels. We frame the task of predicting extreme values of significant wave height as an exceedance probability forecasting problem. Accordingly, we aim at estimating the probability that the significant wave height will exceed a predefined threshold. This task is usually solved using a probabilistic binary classification model. Instead, we propose a novel approach based on a forecasting model. The method leverages the forecasts for the upcoming observations to estimate the exceedance probability according to the cumulative distribution function. We carried out experiments using data from a buoy placed in the coast of Halifax, Canada. The results suggest that the proposed methodology is better than state-of-the-art approaches for exceedance probability forecasting.
翻訳日:2022-06-25 09:13:57 公開日:2022-06-20
# (参考訳) 仕事に適したツール: 機械学習におけるオープンソースの監査ツール

The Right Tool for the Job: Open-Source Auditing Tools in Machine Learning ( http://arxiv.org/abs/2206.10613v1 )

ライセンス: CC BY 4.0
Cherie M Poland(参考訳) 近年,機械学習,AI倫理,アルゴリズム監査の公平性に関する議論が増えている。 多くのエンティティは、公正性と説明責任のためのベースラインルーブリックを確立するためのフレームワークガイダンスを開発した。 しかし、議論の高まりや複数のフレームワークにもかかわらず、アルゴリズムとデータ監査はいまだに実行が困難である。 多くのオープンソース監査ツールが利用可能だが、ユーザはツールや便利なもの、アクセス方法に常に気付いていない。 モデル監査と評価は機械学習のスキルとしてあまり強調されない。 また、これらのツールが積極的に採用される理由は、機械学習におけるより公正な欲求を越えている。 我々の高度に結びついたグローバル社会には、世論の認識と好意に肯定的な社会的問題がある。 これらのツールをより深く認識し、積極的に活用する理由は、プログラマ、データサイエンティスト、エンジニア、研究者、ユーザ、AIおよび機械学習製品のコンシューマーの連続体に役立ちます。 インプットとアウトプットの差分、その発生方法、そして機械学習におけるFATE(フェアネス、説明責任、透明性、倫理)を促進するためにできることをよりよく理解することが重要である。 オープンソースの監査ツールに自由にアクセスできることによって、機械学習の最も基本的なレベルで公平性評価の障壁が取り除かれる。 本稿は,これらのツールの利用を緊急に行う必要性を強調することを目的としている。 ここで強調されている模範的なツールはオープンソースで、ソフトウェアやコードベースのリポジトリがあり、誰でもすぐに使える。

In recent years, discussions about fairness in machine learning, AI ethics and algorithm audits have increased. Many entities have developed framework guidance to establish a baseline rubric for fairness and accountability. However, in spite of increased discussions and multiple frameworks, algorithm and data auditing still remain difficult to execute in practice. Many open-source auditing tools are available, but users aren't always aware of the tools, what they are useful for, or how to access them. Model auditing and evaluation are not frequently emphasized skills in machine learning. There are also legal reasons for the proactive adoption of these tools that extend beyond the desire for greater fairness in machine learning. There are positive social issues of public perception and goodwill that matter in our highly connected global society. Greater awareness of these tools and the reasons for actively utilizing them may be helpful to the entire continuum of programmers, data scientists, engineers, researchers, users and consumers of AI and machine learning products. It is important for everyone to better understand the input and output differentials, how they are occurring, and what can be done to promote FATE (fairness, accountability, transparency, and ethics) in machine- and deep learning. The ability to freely access open-source auditing tools removes barriers to fairness assessment at the most basic levels of machine learning. This paper aims to reinforce the urgent need to actually use these tools and provides motivations for doing so. The exemplary tools highlighted herein are open-source with software or code-base repositories available that can be used immediately by anyone worldwide.
翻訳日:2022-06-25 09:00:14 公開日:2022-06-20
# (参考訳) ビジネス文書情報抽出 : 実践ベンチマークに向けて

Business Document Information Extraction: Towards Practical Benchmarks ( http://arxiv.org/abs/2206.11229v1 )

ライセンス: CC BY 4.0
Maty\'a\v{s} Skalick\'y, \v{S}t\v{e}p\'an \v{S}imsa, Michal U\v{r}i\v{c}\'a\v{r}, Milan \v{S}ulc(参考訳) 半構造化文書からの情報抽出は、摩擦のないビジネス・ツー・ビジネス(B2B)通信に不可欠である。 文書情報抽出(IE)に関する機械学習の問題は何十年にもわたって研究されてきたが、多くの一般的な問題定義やベンチマークはドメイン固有の側面やB2B文書通信を自動化するための実践的ニーズを反映していない。 ドキュメントIE問題、データセット、ベンチマークの状況についてレビューする。 共通定義に欠けている実践的側面を強調し,鍵情報局所化・抽出(KILE)問題とラインアイテム認識(LIR)問題を定義する。 半構造化ビジネスドキュメントにieを文書化するには、関連するデータセットやベンチマークが欠如している。 我々は、合成データを含む利用可能なドキュメントの潜在的なソースについて論じる。

Information extraction from semi-structured documents is crucial for frictionless business-to-business (B2B) communication. While machine learning problems related to Document Information Extraction (IE) have been studied for decades, many common problem definitions and benchmarks do not reflect domain-specific aspects and practical needs for automating B2B document communication. We review the landscape of Document IE problems, datasets and benchmarks. We highlight the practical aspects missing in the common definitions and define the Key Information Localization and Extraction (KILE) and Line Item Recognition (LIR) problems. There is a lack of relevant datasets and benchmarks for Document IE on semi-structured business documents as their content is typically legally protected or sensitive. We discuss potential sources of available documents including synthetic data.
翻訳日:2022-06-25 08:43:41 公開日:2022-06-20
# (参考訳) ラベルノイズ(確率的)勾配降下は二次パラメトリゼーションのためのラッソを暗黙的に解く

Label noise (stochastic) gradient descent implicitly solves the Lasso for quadratic parametrisation ( http://arxiv.org/abs/2206.09841v1 )

ライセンス: CC BY 4.0
Loucas Pillaud-Vivien, Julien Reygner, Nicolas Flammarion(参考訳) 過パラメータニューラルネットワークの成功を説明するためには、トレーニングアルゴリズムの暗黙のバイアスを理解することが重要である。 本稿では,2次パラメータモデルのトレーニングダイナミクスにおけるラベルノイズの役割について,その連続時間バージョンを通して検討する。 我々は確率的流れによって選択される解を明示的に特徴付け、ラッソプログラムを暗黙的に解くことを証明する。 解析を完全完了させるためには, 力学に対する非漸近収束保証と, 回復支援条件を提供する。 理論的主張を支持する実験結果も提示する。 本研究は,構造化雑音がより優れた一般化を誘導し,実際に観測される確率力学のより大きな性能を説明するのに役立つという事実を浮き彫りにする。

Understanding the implicit bias of training algorithms is of crucial importance in order to explain the success of overparametrised neural networks. In this paper, we study the role of the label noise in the training dynamics of a quadratically parametrised model through its continuous time version. We explicitly characterise the solution chosen by the stochastic flow and prove that it implicitly solves a Lasso program. To fully complete our analysis, we provide nonasymptotic convergence guarantees for the dynamics as well as conditions for support recovery. We also give experimental results which support our theoretical claims. Our findings highlight the fact that structured noise can induce better generalisation and help explain the greater performances of stochastic dynamics as observed in practice.
翻訳日:2022-06-25 08:26:44 公開日:2022-06-20
# (参考訳) 効率的なFew-Shot画像分類のための文脈的スキーズ・アンド・エキサイティング

Contextual Squeeze-and-Excitation for Efficient Few-Shot Image Classification ( http://arxiv.org/abs/2206.09843v1 )

ライセンス: CC BY 4.0
Massimiliano Patacchiola, John Bronskill, Aliaksandra Shysheya, Katja Hofmann, Sebastian Nowozin, Richard E. Turner(参考訳) 近年、低データ体制におけるタスク間の効果的な知識伝達を必要とするユーザ中心のアプリケーションが増えている。 例えばパーソナライズでは、特定のユーザに属する少数のラベル付きデータを学習することで、事前訓練されたシステムが適応される。 この設定は計算の複雑さが低い場合、高い精度を必要とするため、paretoの精度のフロンティアは対等である。 適応コストが重要な役割を果たす。 本稿では,このParetoフロンティアを,2つの重要なコントリビューションを持つ数ショット画像分類設定にプッシュする。 i) 事前学習されたニューラルネットワークを新しいタスクで調整し、ユーザデータの単一のフォワードパス(コンテキスト)でパフォーマンスを大幅に向上させる、Contextual Squeeze-and-Excitation (CaSE)と呼ばれる新しい適応ブロック。 (II) メタトレーニングされたCaSEブロックと微調整ルーチンを利用して効率よく適応するアッパーキャッシュと呼ばれるコーディネートダイスに基づくハイブリッドトレーニングプロトコル。 UpperCaSEは、VTAB+MDの26のデータセットと挑戦的な実世界のパーソナライゼーションベンチマーク(ORBIT)上で、メタラーナーと比較して新しい最先端の精度を実現し、桁違いの低い適応コストのオーダーで、主要な微調整手法とのギャップを狭める。

Recent years have seen a growth in user-centric applications that require effective knowledge transfer across tasks in the low-data regime. An example is personalization, where a pretrained system is adapted by learning on small amounts of labeled data belonging to a specific user. This setting requires high accuracy under low computational complexity, therefore the Pareto frontier of accuracy vs.~adaptation cost plays a crucial role. In this paper we push this Pareto frontier in the few-shot image classification setting with two key contributions: (i) a new adaptive block called Contextual Squeeze-and-Excitation (CaSE) that adjusts a pretrained neural network on a new task to significantly improve performance with a single forward pass of the user data (context), and (ii) a hybrid training protocol based on Coordinate-Descent called UpperCaSE that exploits meta-trained CaSE blocks and fine-tuning routines for efficient adaptation. UpperCaSE achieves a new state-of-the-art accuracy relative to meta-learners on the 26 datasets of VTAB+MD and on a challenging real-world personalization benchmark (ORBIT), narrowing the gap with leading fine-tuning methods with the benefit of orders of magnitude lower adaptation cost.
翻訳日:2022-06-25 08:25:33 公開日:2022-06-20
# (参考訳) M&M Mix:マルチモーダル・マルチビュー・トランスフォーマー・アンサンブル

M&M Mix: A Multimodal Multiview Transformer Ensemble ( http://arxiv.org/abs/2206.09852v1 )

ライセンス: CC BY 4.0
Xuehan Xiong, Anurag Arnab, Arsha Nagrani, Cordelia Schmid(参考訳) 本報告では,2022年のEpic-Kitchens Action Recognition Challengeにおける優勝ソリューションの背景について述べる。 私たちのアプローチは、ビデオ認識のためのマルチビュートランスフォーマー(mtv)という最近の研究に基づいており、マルチモーダル入力に適応しています。 我々の最終提出は、バックボーンサイズと入力モードの異なるマルチモーダルMTV(M&M)モデルのアンサンブルで構成される。 私たちのアプローチは、アクションクラスにおけるテストセットで52.8%のtop-1精度を達成しました。

This report describes the approach behind our winning solution to the 2022 Epic-Kitchens Action Recognition Challenge. Our approach builds upon our recent work, Multiview Transformer for Video Recognition (MTV), and adapts it to multimodal inputs. Our final submission consists of an ensemble of Multimodal MTV (M&M) models varying backbone sizes and input modalities. Our approach achieved 52.8% Top-1 accuracy on the test set in action classes, which is 4.1% higher than last year's winning entry.
翻訳日:2022-06-25 08:00:53 公開日:2022-06-20
# (参考訳) コロナウイルス「YouTube」と「TikTok」の音声データセットの紹介

COVYT: Introducing the Coronavirus YouTube and TikTok speech dataset featuring the same speakers with and without infection ( http://arxiv.org/abs/2206.11045v1 )

ライセンス: CC BY 4.0
Andreas Triantafyllopoulos, Anastasia Semertzidou, Meishu Song, Florian B. Pokorny, Bj\"orn W. Schuller(参考訳) 新型コロナウイルス(COVID-19)のパンデミックから2年以上経っても、世界中の医療システムに疫病が流行し続けており、資源が不足し、人命を主張している。 当初から、さまざまなAIベースの新型コロナウイルス検出およびモニタリングツールが、タイムリーな診断を通じて感染の潮流を抑えるために追求されてきた。 特に、コンピュータオーディションは非侵襲的でコスト効率が高く、環境にやさしい、発声音による新型コロナウイルス感染検出の選択肢として提案されている。 しかし、他のAI手法と同様に、コンピュータ監査も利用可能なデータの量と品質に大きく依存しており、大規模なCOVID-19サウンドデータセットは、そのようなデータに敏感な性質があるため、取得が困難である。 そのために、65人の話者から8時間以上のスピーチを含む公開ソースから収集された新しいCOVID-19データセットであるCOVYTデータセットを紹介した。 他の既存のCOVID-19サウンドデータセットと比較すると、COVYTデータセットのユニークな特徴は、全65話者から陽性と陰性の両方のサンプルを含むことである。 音声記述子を用いた完全話者特性バランスデータに基づいて、新型コロナウイルスの音響的発現を分析し、公正な音声に基づくCOVID-19検出のための適切なパーティショニング戦略に光を当てるいくつかの分類シナリオについて検討する。

More than two years after its outbreak, the COVID-19 pandemic continues to plague medical systems around the world, putting a strain on scarce resources, and claiming human lives. From the very beginning, various AI-based COVID-19 detection and monitoring tools have been pursued in an attempt to stem the tide of infections through timely diagnosis. In particular, computer audition has been suggested as a non-invasive, cost-efficient, and eco-friendly alternative for detecting COVID-19 infections through vocal sounds. However, like all AI methods, also computer audition is heavily dependent on the quantity and quality of available data, and large-scale COVID-19 sound datasets are difficult to acquire -- amongst other reasons -- due to the sensitive nature of such data. To that end, we introduce the COVYT dataset -- a novel COVID-19 dataset collected from public sources containing more than 8 hours of speech from 65 speakers. As compared to other existing COVID-19 sound datasets, the unique feature of the COVYT dataset is that it comprises both COVID-19 positive and negative samples from all 65 speakers. We analyse the acoustic manifestation of COVID-19 on the basis of these perfectly speaker characteristic balanced `in-the-wild' data using interpretable audio descriptors, and investigate several classification scenarios that shed light into proper partitioning strategies for a fair speech-based COVID-19 detection.
翻訳日:2022-06-25 07:40:04 公開日:2022-06-20
# (参考訳) 視覚障害者のための新しい3次元ナビゲーション法

A Novel Three-Dimensional Navigation Method for the Visually Impaired ( http://arxiv.org/abs/2206.11136v1 )

ライセンス: CC BY 4.0
Stanley Shen(参考訳) 世界保健機関(who)によると、視覚障害は世界の約220億人に影響を及ぼすと推定されている。 視覚障害者は現在、ホワイト杖やGPS(Global Positioning System)ベースのナビゲーションなど、視界の感覚を置き換えるためにナビゲーション補助に頼らなければならないが、どちらも屋内ではうまく機能しない。 ホワイト杖は部屋内のユーザの位置を決定するのに使用できないが、GPSはしばしば屋内で接続を失い、方向情報を提供しないため、どちらも屋内使用には適さない。 そこで本研究では,複雑な室内環境を通した非接触ナビゲーションを実現する3dイメージングソリューションの開発を目指している。 メモリの53.1%しか必要とせず、前のアプローチに比べて31%の誤差でユーザの位置と向きを特定でき、処理速度は125%速くなる。 また、従来の最先端モデルよりも60.2%高い精度で障害物を検出でき、メモリの41%しか必要とせず、処理速度は260%である。 人間の被験者とテストする場合、このデバイスは環境中の障害物との衝突を94.5%削減し、歩行速度を48.3%向上させることができる。 全体として、この研究は視覚障害者のための3dベースのナビゲーションシステムを示している。 このアプローチは、携帯電話のようなさまざまなモバイルの低消費電力デバイスで使用することができ、この研究が誰にでもアクセス可能であることを保証する。

According to the World Health Organization, visual impairment is estimated to affect approximately 2.2 billion people worldwide. The visually impaired must currently rely on navigational aids to replace their sense of sight, like a white cane or GPS (Global Positioning System) based navigation, both of which fail to work well indoors. The white cane cannot be used to determine a user's position within a room, while GPS can often lose connection indoors and does not provide orientation information, making both approaches unsuitable for indoor use. Therefore, this research seeks to develop a 3D-imaging solution that enables contactless navigation through a complex indoor environment. The device can pinpoint a user's position and orientation with 31% less error compared to previous approaches while requiring only 53.1% of the memory, and processing 125% faster. The device can also detect obstacles with 60.2% more accuracy than the previous state-of-the-art models while requiring only 41% of the memory and processing 260% faster. When testing with human participants, the device allows for a 94.5% reduction in collisions with obstacles in the environment and allows for a 48.3% increase in walking speed, showing that my device enables safer and more rapid navigation for the visually impaired. All in all, this research demonstrates a 3D-based navigation system for the visually impaired. The approach can be used by a wide variety of mobile low-power devices, like cell phones, ensuring this research remains accessible to all.
翻訳日:2022-06-25 07:15:55 公開日:2022-06-20
# MRIニューロイメージングを用いた人工知能を用いた自閉症スペクトラム障害の自動検出

Automatic Autism Spectrum Disorder Detection Using Artificial Intelligence Methods with MRI Neuroimaging: A Review ( http://arxiv.org/abs/2206.11233v1 )

ライセンス: Link先を確認
Parisa Moridian, Navid Ghassemi, Mahboobeh Jafari, Salam Salloum-Asfar, Delaram Sadeghi, Marjane Khodatars, Afshin Shoeibi, Abbas Khosravi, Sai Ho Ling, Abdulhamit Subasi, Sara A Abdulla, Roohallah Alizadehsani, Juan M. Gorriz, U. Rajendra Acharya(参考訳) 自閉症スペクトラム障害(Autism spectrum disorder、ASD)は、小児期に出現する多様な徴候と症状を特徴とする脳疾患である。 ASDはまた、感染した個人のコミュニケーション障害や反復行動と関連している。 神経画像のモダリティや心理検査など、様々なALD検出方法が開発されている。 これらの方法のうち磁気共鳴画像法 (mri) は医師にとって極めて重要である。 臨床医はASDを正確に診断するためにMRIモダリティに依存している。 MRIモダリティは、機能的(fMRI)および構造的(sMRI)神経画像法を含む非侵襲的な方法である。 しかし, fMRI と sMRI で ASD を診断するプロセスは, 時間を要することが多く, 人工知能(AI)に基づくコンピュータ支援設計システム (CADS) がいくつか開発されている。 従来の機械学習(ML)とディープラーニング(DL)は、ASDの診断に使用されるAIの最も一般的なスキームである。 本研究はAIを用いたASDの自動検出の見直しを目的とする。 MRIモダリティを用いたASD自動診断のためのML技術を用いて開発されたいくつかのCADSについて概説する。 ASDの自動診断モデルの開発には,DL技術の利用が極めて限られている。 dlを用いて開発された研究の概要は付録に記載されている。 そして、MRIとAI技術を用いたASDの自動診断における課題を詳述する。 さらに,ALDの診断にMLとDLを用いたグラフィカルな比較を行った。 我々は、AI技術とMRIによるニューロイメージングを用いて、将来的なASD検出手法を提案する。

Autism spectrum disorder (ASD) is a brain condition characterized by diverse signs and symptoms that appear in early childhood. ASD is also associated with communication deficits and repetitive behavior in affected individuals. Various ASD detection methods have been developed, including neuroimaging modalities and psychological tests. Among these methods, magnetic resonance imaging (MRI) imaging modalities are of paramount importance to physicians. Clinicians rely on MRI modalities to diagnose ASD accurately. The MRI modalities are non-invasive methods that include functional (fMRI) and structural (sMRI) neuroimaging methods. However, the process of diagnosing ASD with fMRI and sMRI for specialists is often laborious and time-consuming; therefore, several computer-aided design systems (CADS) based on artificial intelligence (AI) have been developed to assist the specialist physicians. Conventional machine learning (ML) and deep learning (DL) are the most popular schemes of AI used for diagnosing ASD. This study aims to review the automated detection of ASD using AI. We review several CADS that have been developed using ML techniques for the automated diagnosis of ASD using MRI modalities. There has been very limited work on the use of DL techniques to develop automated diagnostic models for ASD. A summary of the studies developed using DL is provided in the appendix. Then, the challenges encountered during the automated diagnosis of ASD using MRI and AI techniques are described in detail. Additionally, a graphical comparison of studies using ML and DL to diagnose ASD automatically is discussed. We conclude by suggesting future approaches to detecting ASDs using AI techniques and MRI neuroimaging.
翻訳日:2022-06-23 16:33:39 公開日:2022-06-20
# QUBO式におけるペナルティ重み:置換問題

Penalty Weights in QUBO Formulations: Permutation Problems ( http://arxiv.org/abs/2206.11040v1 )

ライセンス: Link先を確認
Mayowa Ayodele(参考訳) 量子コンピュータや他の特殊なハードウェアで動くよう設計された最適化アルゴリズムは近年研究の関心を集めている。 これらの解法の多くは、二項および二次形式にある問題のみを最適化することができる。 したがって、二次非拘束二元最適化(qubo)は、これらの解法で使われる一般的な定式化である。 組み合わさった最適化問題は、例えば旅行セールスマンの問題のように、自然に置換として表される。 しかし、バイナリ変数を用いた置換問題のエンコードにはいくつかの課題がある。 多くのQUBOソルバはシングルフリップソルバであるため、有効な置換に復号できない解を生成することができる。 実現可能なソリューションを生み出すためのバイアスを生み出すには、ペナルティウェイトを使用します。 様々な問題に対して静的なペナルティ重みを設定するプロセスは簡単ではない。 これは、値が小さすぎると解法によって実現不可能な解が返され、大きすぎる値が収束が遅くなる可能性があるためである。 本研究では,QUBO定式化における刑罰重みの設定法について検討した。 本研究では,既存の手法よりも有望な結果をもたらすペナルティ重みを計算する新しい静的手法を提案する。

Optimisation algorithms designed to work on quantum computers or other specialised hardware have been of research interest in recent years. Many of these solver can only optimise problems that are in binary and quadratic form. Quadratic Unconstrained Binary Optimisation (QUBO) is therefore a common formulation used by these solvers. There are many combinatorial optimisation problems that are naturally represented as permutations e.g., travelling salesman problem. Encoding permutation problems using binary variables however presents some challenges. Many QUBO solvers are single flip solvers, it is therefore possible to generate solutions that cannot be decoded to a valid permutation. To create bias towards generating feasible solutions, we use penalty weights. The process of setting static penalty weights for various types of problems is not trivial. This is because values that are too small will lead to infeasible solutions being returned by the solver while values that are too large may lead to slower convergence. In this study, we explore some methods of setting penalty weights within the context of QUBO formulations. We propose new static methods of calculating penalty weights which lead to more promising results than existing methods.
翻訳日:2022-06-23 16:20:06 公開日:2022-06-20
# 社会サービス提供の分析へのオントロジー的アプローチ

An Ontological Approach to Analysing Social Service Provisioning ( http://arxiv.org/abs/2206.11061v1 )

ライセンス: Link先を確認
Mark S. Fox and Bart Gajderowicz and Daniela Rosu and Alina Turner and Lester Lyu(参考訳) 本稿では,スマートシティにおけるソーシャルサービスの評価・管理に必要な存在論的概念を紹介する。 ここでは、重要なステークホルダー、すなわち社会的目的の組織と彼らが提供するクライアントの視点に焦点を当てます。 ここで提示されるコンパスオントロジーは、who(stakeholder)、what(必要、満足、成果)、how(service、event)、コントリビューション(tracking resources)といったキーディメンションに関連する新しい概念を導入することで、共通インパクトデータ標準を拡張する。 論文はまず、主要な利害関係者、サービス、成果、イベント、ニーズ、ニーズ、そしてその定義について紹介する。 第二に、重要な利害関係者が提起した質問の種類を説明するために、能力質問のサブセットが提示される。 第3に、Compassベースのナレッジグラフ上で実行されるSPARQLクエリを提示し、その結果を分析して、質問に答える機能を評価する。

This paper introduces ontological concepts required to evaluate and manage the coverage of social services in a Smart City context. Here, we focus on the perspective of key stakeholders, namely social purpose organizations and the clients they serve. The Compass ontology presented here extends the Common Impact Data Standard by introducing new concepts related to key dimensions: the who (Stakeholder), the what (Need, Need Satisfier, Outcome), the how (Service, Event), and the contributions (tracking resources). The paper first introduces key stakeholders, services, outcomes, events, needs and need satisfiers, along with their definitions. Second, a subset of competency questions are presented to illustrate the types of questions key stakeholders have posed. Third, the extension's ability to answer questions is evaluated by presenting SPARQL queries executed on a Compass-based knowledge graph and analysing their results.
翻訳日:2022-06-23 16:19:49 公開日:2022-06-20
# 医療データのオートエンコーダに基づく属性雑音処理方法

Autoencoder-based Attribute Noise Handling Method for Medical Data ( http://arxiv.org/abs/2206.10609v1 )

ライセンス: Link先を確認
Thomas Ranvier (LIRIS, DM2L), Haytham Elgazel (LIRIS, DM2L), Emmanuel Coquery (LIRIS), Khalid Benabdeslem (LIRIS, DM2L)(参考訳) 医療データセットは、特に属性ノイズ、すなわち欠落値や誤った値の対象となる。 属性ノイズは、主に学習パフォーマンスに有害であることが知られている。 将来の学習性能を最大化するには、推論の前に属性ノイズを扱うことが優先される。 本稿では,属性雑音による混合型表データ補正が可能な簡易オートエンコーダ型前処理法を提案する。 表データに属性ノイズを扱う他の方法は存在しない。 提案手法は, 実世界の医療データセットにおいて, 最先端の計算法とノイズ補正法の両方に優れることを示した。

Medical datasets are particularly subject to attribute noise, that is, missing and erroneous values. Attribute noise is known to be largely detrimental to learning performances. To maximize future learning performances it is primordial to deal with attribute noise before any inference. We propose a simple autoencoder-based preprocessing method that can correct mixed-type tabular data corrupted by attribute noise. No other method currently exists to handle attribute noise in tabular data. We experimentally demonstrate that our method outperforms both state-of-the-art imputation methods and noise correction methods on several real-world medical datasets.
翻訳日:2022-06-23 14:51:43 公開日:2022-06-20
# 機械学習アルゴリズムを説明責任で注文するな! ユーザ中心による性能と説明可能性の調査

Stop ordering machine learning algorithms by their explainability! A user-centered investigation of performance and explainability ( http://arxiv.org/abs/2206.10610v1 )

ライセンス: Link先を確認
Lukas-Valentin Herm, Kai Heinrich, Jonas Wanner, Christian Janiesch(参考訳) 機械学習アルゴリズムは、現代のインテリジェントシステムにおける高度な意思決定を可能にする。 研究は、モデルのパフォーマンスと説明可能性の間にトレードオフがあることを示している。 高いパフォーマンスを持つ機械学習モデルは、しばしばより複雑なアルゴリズムに基づいており、説明可能性やその逆は欠落している。 しかし、エンドユーザーの観点から、このトレードオフの実証的な証拠はほとんどありません。 2つのユーザ実験を行い,実証的なエビデンスの提供を目指している。 2つの異なるデータセットを使用して、まず5つの一般的な機械学習アルゴリズムのトレードオフを測定する。 第二に、ハイパフォーマンスな複雑なモデルの意思決定ロジックの理解を高めることを目的とした、説明可能な人工知能強化のエンドユーザ認識の問題に対処する。 我々の結果はトレードオフ曲線の広範な仮定から分岐し、モデル性能と説明可能性の間のトレードオフがエンドユーザの認識においてはるかに緩やかであることを示します。 これは、仮定されたモデル解釈可能性とは対照的である。 さらに、例えば、データの複雑さのために、トレードオフは状況的であることが分かりました。 第2の実験の結果、説明可能な人工知能の強化は説明可能性を高めるのに有効であるが、このタイプの説明はエンドユーザの知覚に不可欠な役割を担っていることがわかった。

Machine learning algorithms enable advanced decision making in contemporary intelligent systems. Research indicates that there is a tradeoff between their model performance and explainability. Machine learning models with higher performance are often based on more complex algorithms and therefore lack explainability and vice versa. However, there is little to no empirical evidence of this tradeoff from an end user perspective. We aim to provide empirical evidence by conducting two user experiments. Using two distinct datasets, we first measure the tradeoff for five common classes of machine learning algorithms. Second, we address the problem of end user perceptions of explainable artificial intelligence augmentations aimed at increasing the understanding of the decision logic of high-performing complex models. Our results diverge from the widespread assumption of a tradeoff curve and indicate that the tradeoff between model performance and explainability is much less gradual in the end user's perception. This is a stark contrast to assumed inherent model interpretability. Further, we found the tradeoff to be situational for example due to data complexity. Results of our second experiment show that while explainable artificial intelligence augmentations can be used to increase explainability, the type of explanation plays an essential role in end user perception.
翻訳日:2022-06-23 14:51:33 公開日:2022-06-20
# 反復ゲームにおける適応的パートナー戦略と協調する学習の不可能性について

On the Impossibility of Learning to Cooperate with Adaptive Partner Strategies in Repeated Games ( http://arxiv.org/abs/2206.10614v1 )

ライセンス: Link先を確認
Robert Loftin and Frans A. Oliehoek(参考訳) エージェントが私たちの行動に適応する能力を持っている場合、他のエージェントと協力することを学ぶことは困難です。 協調的な環境下での学習の実践的および理論的アプローチは、通常、他のエージェントの行動が定常的であると仮定する。 この研究の目的は、現実の応用では成り立たないような制約的な仮定なしに、他のエージェントと確実に協力できるかどうかを理解することである。 これは、たとえパートナーが定常戦略と協調することが保証されているとしても、学習アルゴリズムが反復行列ゲームで可能なすべての適応的パートナーと確実に協力することを学べないことを示しています。 これらの結果に触発され、適応的パートナーが我々の行動に合理的に適応するという考えを捉え、潜在的に代替的な仮定について議論する。

Learning to cooperate with other agents is challenging when those agents also possess the ability to adapt to our own behavior. Practical and theoretical approaches to learning in cooperative settings typically assume that other agents' behaviors are stationary, or else make very specific assumptions about other agents' learning processes. The goal of this work is to understand whether we can reliably learn to cooperate with other agents without such restrictive assumptions, which are unlikely to hold in real-world applications. Our main contribution is a set of impossibility results, which show that no learning algorithm can reliably learn to cooperate with all possible adaptive partners in a repeated matrix game, even if that partner is guaranteed to cooperate with some stationary strategy. Motivated by these results, we then discuss potential alternative assumptions which capture the idea that an adaptive partner will only adapt rationally to our behavior.
翻訳日:2022-06-23 14:51:16 公開日:2022-06-20
# good time to ask: 具体化されたビジュアルナビゲーションの助けを求める学習フレームワーク

Good Time to Ask: A Learning Framework for Asking for Help in Embodied Visual Navigation ( http://arxiv.org/abs/2206.10606v1 )

ライセンス: Link先を確認
Jenny Zhang, Samson Yu, Jiafei Duan, Cheston Tan(参考訳) 実際には、未知の場所にある物体を見つけるために空間全体を探索するよりも助けを求める方が効率的であることが多い。 本稿では,エージェントが視覚的ナビゲーションタスクに積極的に支援を求めることを可能にする学習フレームワークを提案する。 教師がいつもいるとは限らない現実のシナリオをエミュレートするために,フィードバックが常に利用できるとは限らない訓練カリキュラムを提案する。 我々は,目標がどこにあるのかの不確実性尺度を定式化し,経験的結果を用いて,フィードバックが得られない場合,エージェントが効果的に支援を求めることを学ぶ。

In reality, it is often more efficient to ask for help than to search the entire space to find an object with an unknown location. We present a learning framework that enables an agent to actively ask for help in such embodied visual navigation tasks, where the feedback informs the agent of where the goal is in its view. To emulate the real-world scenario that a teacher may not always be present, we propose a training curriculum where feedback is not always available. We formulate an uncertainty measure of where the goal is and use empirical results to show that through this approach, the agent learns to ask for help effectively while remaining robust when feedback is not available.
翻訳日:2022-06-23 14:06:43 公開日:2022-06-20
# MASER: 経験的リプレイバッファから生成されたサブゴールによるマルチエージェント強化学習

MASER: Multi-Agent Reinforcement Learning with Subgoals Generated from Experience Replay Buffer ( http://arxiv.org/abs/2206.10607v1 )

ライセンス: Link先を確認
Jeewon Jeon, Woojun Kim, Whiyoung Jung, Youngchul Sung(参考訳) 本稿では,スパース報酬を伴う協調型マルチエージェント強化学習(MARL)について考察する。 そこで本研究では,経験的再生バッファから生成したサブゴールを持つMASER:MARLを提案する。 MARLの分散実行と一貫したQ値分解を伴う集中トレーニングの仮定において、MASERは個別のQ値と総Q値の両方を考慮して経験再生バッファから複数のエージェントに対する適切なサブゴールを自動生成する。 そこで、MASERは、Qラーニングに関連する行動表現に基づいて、各エージェント固有の報酬を個別に設計し、エージェントが共同行動値を最大化しながらサブゴールに達するようにする。 MASERは、他の最先端のMARLアルゴリズムと比較して、StarCraft IIマイクロマネジメントベンチマークを著しく上回っている。

In this paper, we consider cooperative multi-agent reinforcement learning (MARL) with sparse reward. To tackle this problem, we propose a novel method named MASER: MARL with subgoals generated from experience replay buffer. Under the widely-used assumption of centralized training with decentralized execution and consistent Q-value decomposition for MARL, MASER automatically generates proper subgoals for multiple agents from the experience replay buffer by considering both individual Q-value and total Q-value. Then, MASER designs individual intrinsic reward for each agent based on actionable representation relevant to Q-learning so that the agents reach their subgoals while maximizing the joint action value. Numerical results show that MASER significantly outperforms StarCraft II micromanagement benchmark compared to other state-of-the-art MARL algorithms.
翻訳日:2022-06-23 14:06:30 公開日:2022-06-20
# (参考訳) DisCoVQA:ビデオ品質評価のための時間歪みコンテンツ変換器

DisCoVQA: Temporal Distortion-Content Transformers for Video Quality Assessment ( http://arxiv.org/abs/2206.09853v1 )

ライセンス: CC BY 4.0
Haoning Wu, Chaofeng Chen, Liang Liao, Jingwen Hou, Wenxiu Sun, Qiong Yan, Weisi Lin(参考訳) フレーム間の時間的関係と映像品質評価(VQA)への影響は,既存の作品では未検討である。 これらの関係は、ビデオ品質に2つの重要な効果をもたらす。 第一に、いくつかの時間変動(揺らぎ、フリック、急激なシーン遷移など)は時間歪みを引き起こし、余分な品質劣化を引き起こすが、他の変動(例えば意味のある出来事に関連するもの)は起こらない。 第二に、人間の視覚システムは、しばしば異なる内容のフレームに対して異なる注意を払っており、その結果、ビデオ全体の品質に異なる重要性をもたらす。 本稿では,この2つの課題に対処するために,トランスフォーマーの時系列モデリング能力を活かした,新しい効率的なトランスフォーマーベースのVQA手法を提案する。 時間的変動をよりよく区別し、時間的歪みを捉えるために、変換器を用いた時空間歪み抽出(STDE)モジュールを設計する。 時間品質に配慮するために,エンコーダデコーダライクな時間コンテンツトランス (tct) を提案する。 また,このモジュールの学習効率と効率を向上させるため,TCTの入力長を削減するため,特徴量の時間的サンプリングも導入した。 STDEとTCTで構成され、提案されているビデオ品質評価のためのテンポラル歪み変換器(DisCoVQA)は、追加の事前トレーニングデータセットを使わずに、いくつかのVQAベンチマークで最先端のパフォーマンスに達し、既存の方法よりも最大10%優れた一般化能力を持つ。 また,提案モデルにおける各部分の有効性を証明するための広範囲なアブレーション実験を行い,提案モジュールがこれらの時間的問題をモデル化する意図を達成できることを可視化する。 コードとトレーニング済みの重みを後で公開します。

The temporal relationships between frames and their influences on video quality assessment (VQA) are still under-studied in existing works. These relationships lead to two important types of effects for video quality. Firstly, some temporal variations (such as shaking, flicker, and abrupt scene transitions) are causing temporal distortions and lead to extra quality degradations, while other variations (e.g. those related to meaningful happenings) do not. Secondly, the human visual system often has different attention to frames with different contents, resulting in their different importance to the overall video quality. Based on prominent time-series modeling ability of transformers, we propose a novel and effective transformer-based VQA method to tackle these two issues. To better differentiate temporal variations and thus capture the temporal distortions, we design a transformer-based Spatial-Temporal Distortion Extraction (STDE) module. To tackle with temporal quality attention, we propose the encoder-decoder-like temporal content transformer (TCT). We also introduce the temporal sampling on features to reduce the input length for the TCT, so as to improve the learning effectiveness and efficiency of this module. Consisting of the STDE and the TCT, the proposed Temporal Distortion-Content Transformers for Video Quality Assessment (DisCoVQA) reaches state-of-the-art performance on several VQA benchmarks without any extra pre-training datasets and up to 10% better generalization ability than existing methods. We also conduct extensive ablation experiments to prove the effectiveness of each part in our proposed model, and provide visualizations to prove that the proposed modules achieve our intention on modeling these temporal issues. We will publish our codes and pretrained weights later.
翻訳日:2022-06-23 13:32:55 公開日:2022-06-20
# (参考訳) ゴール推論におけるマルチエージェント協調のためのpromise活用に向けて

Towards Using Promises for Multi-Agent Cooperation in Goal Reasoning ( http://arxiv.org/abs/2206.09864v1 )

ライセンス: CC BY-SA 4.0
Daniel Swoboda, Till Hofmann, Tarik Viehmann, Gerhard Lakemeyer(参考訳) 移動ロボットの推論と計画は、世界が時間とともに進化し、ロボットの目標が変わるため、難しい問題である。 この問題に対処する1つのテクニックは、エージェントが行動の理由だけでなく、どの目標を追求するかという目標推論である。 単一エージェントのゴール推論は広く研究されているが、分散されたマルチエージェントのゴール推論には、特に分散環境での課題が伴う。 このような文脈では、協調行動を可能にする何らかの形態の協調が必要である。 以前の目標推論アプローチでは、エージェントの世界モデルを他のエージェントと共有している。 しかし、エージェントの目標とその意図は一般に共有されない。 本稿では,この制限に対処する手法を提案する。 既存の目標推論フレームワークを拡張し、エージェントが将来ある時点で事実が真実であることを約束する約束を通じて、複数のエージェント間の協調行動を可能にすることを提案する。 これらの約束を共有することで、他のエージェントは世界の現在の状況だけでなく、次の目標を決定する際の他のエージェントの意図も考慮することができる。 一般的に使用されるゴール改善メカニズムであるゴールライフサイクルに、約束をどのように組み込むかを説明する。 次に、PDDL計画からタイムドイニシャルリテラル(TIL)に接続することで、特定の目標を計画する際に、約束がどのように使用できるかを示す。 最後に, 簡易なロジスティクスシナリオにおけるプロトタイプ実装の評価を行った。

Reasoning and planning for mobile robots is a challenging problem, as the world evolves over time and thus the robot's goals may change. One technique to tackle this problem is goal reasoning, where the agent not only reasons about its actions, but also about which goals to pursue. While goal reasoning for single agents has been researched extensively, distributed, multi-agent goal reasoning comes with additional challenges, especially in a distributed setting. In such a context, some form of coordination is necessary to allow for cooperative behavior. Previous goal reasoning approaches share the agent's world model with the other agents, which already enables basic cooperation. However, the agent's goals, and thus its intentions, are typically not shared. In this paper, we present a method to tackle this limitation. Extending an existing goal reasoning framework, we propose enabling cooperative behavior between multiple agents through promises, where an agent may promise that certain facts will be true at some point in the future. Sharing these promises allows other agents to not only consider the current state of the world, but also the intentions of other agents when deciding on which goal to pursue next. We describe how promises can be incorporated into the goal life cycle, a commonly used goal refinement mechanism. We then show how promises can be used when planning for a particular goal by connecting them to timed initial literals (TILs) from PDDL planning. Finally, we evaluate our prototypical implementation in a simplified logistics scenario.
翻訳日:2022-06-23 13:06:27 公開日:2022-06-20
# (参考訳) アルゴリズムフェアネスと垂直値:IRS税監査モデルによる所得フェアネス

Algorithmic Fairness and Vertical Equity: Income Fairness with IRS Tax Audit Models ( http://arxiv.org/abs/2206.09875v1 )

ライセンス: CC BY 4.0
Emily Black, Hadi Elzayn, Alexandra Chouldechova, Jacob Goldin, Daniel E. Ho(参考訳) 本研究では、米国内国歳入庁(IRS)による税務監査選択を通知するシステムの文脈におけるアルゴリズムフェアネスの問題を検討する。 アルゴリズム的公正の分野は、主に個人と同じように扱うという概念に基づいて発展してきたが、我々は代わりに、多くの公共政策の設定において公平の中心となる、個人間の関係性の違いを適切に考慮する垂直的公平性の概念を探求する。 米国の個人所得税体系の設計に適用される垂直株式は、異なる所得水準の納税者に対する税と執行負担の公平な配分に関係している。 財務省とirsとのユニークなコラボレーションにより、匿名の個人納税者マイクロデータ、リスク選択による監査、そして2010-14年のランダム監査にアクセスして、税管理における垂直的株式について調査しています。 特に,監査選択における現代的機械学習手法の利用が,垂直的公平性にどのように影響するかを評価する。 まず、より柔軟な機械学習(分類)手法の使用が、より単純なモデルとは対照的に、監査負担を高所得者から中所得者へとシフトさせる方法を示す。 第2に,既存のアルゴリズム的公平性は収入の格差を軽減できるが,高いコストをパフォーマンスに生ずる可能性があることを示す。 第3に,報告不足のリスクを分類や回帰問題として扱うかの選択が極めて重要であることを示す。 下位報告を予測するための分類から回帰モデルへの移行は、収益を増加させながら、監査の負担を大幅に高所得個人にシフトさせる。 最後に,監査分布形成における差分監査コストの役割について検討する。 投資に対するリターンの焦点が狭いことは、垂直株式を損なう可能性がある。 この結果は,公共部門全体でのアルゴリズムツールの設計に影響を及ぼす。

This study examines issues of algorithmic fairness in the context of systems that inform tax audit selection by the United States Internal Revenue Service (IRS). While the field of algorithmic fairness has developed primarily around notions of treating like individuals alike, we instead explore the concept of vertical equity -- appropriately accounting for relevant differences across individuals -- which is a central component of fairness in many public policy settings. Applied to the design of the U.S. individual income tax system, vertical equity relates to the fair allocation of tax and enforcement burdens across taxpayers of different income levels. Through a unique collaboration with the Treasury Department and IRS, we use access to anonymized individual taxpayer microdata, risk-selected audits, and random audits from 2010-14 to study vertical equity in tax administration. In particular, we assess how the use of modern machine learning methods for selecting audits may affect vertical equity. First, we show how the use of more flexible machine learning (classification) methods -- as opposed to simpler models -- shifts audit burdens from high to middle-income taxpayers. Second, we show that while existing algorithmic fairness techniques can mitigate some disparities across income, they can incur a steep cost to performance. Third, we show that the choice of whether to treat risk of underreporting as a classification or regression problem is highly consequential. Moving from classification to regression models to predict underreporting shifts audit burden substantially toward high income individuals, while increasing revenue. Last, we explore the role of differential audit cost in shaping the audit distribution. We show that a narrow focus on return-on-investment can undermine vertical equity. Our results have implications for the design of algorithmic tools across the public sector.
翻訳日:2022-06-23 12:50:43 公開日:2022-06-20
# (参考訳) OODトレーニングデータに基づく分布外検出の分解:同じコア量の組合せを推定する多くの方法

Breaking Down Out-of-Distribution Detection: Many Methods Based on OOD Training Data Estimate a Combination of the Same Core Quantities ( http://arxiv.org/abs/2206.09880v1 )

ライセンス: CC BY-SA 4.0
Julian Bitterwolf, Alexander Meinke, Maximilian Augustin, Matthias Hein(参考訳) 信頼性の高い機械学習では、分散タスクとは無関係な入力であるout-of-distribution(ood)入力を認識することが重要な問題である。 近年,分布外検出法が多数提案されている。 本研究の目的は,OOD検出手法の暗黙的なスコアリング機能を識別すると同時に,共通の目的を認識することである。 我々は,OOD検出スコアを学習するために,トレーニング中にSurrogate OODデータを使用するメソッドのサブクラスに注目する。 内分布と外分布の2値差はOOD検出問題のいくつかの異なる定式化と等価であることを示す。 標準分類器で共有方式で訓練すると、この二分判別器は、アウリエ露光と同様のOOD検出性能に達する。 さらに, エネルギーベースood検出器の訓練や背景クラスの追加に使用するものと類似した, トレーニングとテストアウト分散が同一である場合において, 理論上最適のスコアリング関数と非自明な方法で異なる暗黙的スコアリング機能を有することを示す。 実際には、まったく同じ方法でトレーニングされた場合、これらのメソッドはすべて同じように振る舞う。

It is an important problem in trustworthy machine learning to recognize out-of-distribution (OOD) inputs which are inputs unrelated to the in-distribution task. Many out-of-distribution detection methods have been suggested in recent years. The goal of this paper is to recognize common objectives as well as to identify the implicit scoring functions of different OOD detection methods. We focus on the sub-class of methods that use surrogate OOD data during training in order to learn an OOD detection score that generalizes to new unseen out-distributions at test time. We show that binary discrimination between in- and (different) out-distributions is equivalent to several distinct formulations of the OOD detection problem. When trained in a shared fashion with a standard classifier, this binary discriminator reaches an OOD detection performance similar to that of Outlier Exposure. Moreover, we show that the confidence loss which is used by Outlier Exposure has an implicit scoring function which differs in a non-trivial fashion from the theoretically optimal scoring function in the case where training and test out-distribution are the same, which again is similar to the one used when training an Energy-Based OOD detector or when adding a background class. In practice, when trained in exactly the same way, all these methods perform similarly.
翻訳日:2022-06-23 12:49:37 公開日:2022-06-20
# (参考訳) KOLOMVERSE: KRISOが海洋宇宙における物体検出のための大規模画像データセットを公開

KOLOMVERSE: KRISO open large-scale image dataset for object detection in the maritime universe ( http://arxiv.org/abs/2206.09885v1 )

ライセンス: CC BY 4.0
Abhilasha Nanda, Sung Won Cho, Hyeopwoo Lee, Jin Hyoung Park(参考訳) 長年にわたり、様々なオブジェクト検出タスクのためにデータセットが開発されてきた。 海上領域における物体検出は、船舶の安全と航行に不可欠である。 しかしながら、海事領域にはまだ公開可能な大規模データセットが不足している。 この課題を克服するために,KRISO (Korea Research Institute of Ships and Ocean Engineering) による海洋領域における物体検出のための大規模画像データセット KOLOMVERSE を提案する。 韓国の21の海域から撮影した5,845時間分の映像データを収集した。 精巧なデータ品質評価プロセスを通じて,映像データから約2,151,470枚の4k解像度画像を収集した。 このデータセットは、天気、時間、照明、オクルージョン、視点、背景、風速、可視性といった様々な環境を考慮する。 KOLOMVERSEは5つのクラス(船、ブイ、魚網ブイ、灯台、風力発電)から構成されている。 データセットには3840$\times$2160ピクセルのイメージがあり、私たちの知る限り、海洋ドメインにおけるオブジェクト検出のための公開データセットとしては最大である。 対象検出実験を行い、トレーニング済みの最先端アーキテクチャを用いてデータセットの評価を行い、データセットの有効性と有用性を示した。 データセットは以下の通りである。 \url{https://github.com/MaritimeDataset/KOLOMVERSE}。

Over the years, datasets have been developed for various object detection tasks. Object detection in the maritime domain is essential for the safety and navigation of ships. However, there is still a lack of publicly available large-scale datasets in the maritime domain. To overcome this challenge, we present KOLOMVERSE, an open large-scale image dataset for object detection in the maritime domain by KRISO (Korea Research Institute of Ships and Ocean Engineering). We collected 5,845 hours of video data captured from 21 territorial waters of South Korea. Through an elaborate data quality assessment process, we gathered around 2,151,470 4K resolution images from the video data. This dataset considers various environments: weather, time, illumination, occlusion, viewpoint, background, wind speed, and visibility. The KOLOMVERSE consists of five classes (ship, buoy, fishnet buoy, lighthouse and wind farm) for maritime object detection. The dataset has images of 3840$\times$2160 pixels and to our knowledge, it is by far the largest publicly available dataset for object detection in the maritime domain. We performed object detection experiments and evaluated our dataset on several pre-trained state-of-the-art architectures to show the effectiveness and usefulness of our dataset. The dataset is available at: \url{https://github.com/MaritimeDataset/KOLOMVERSE}.
翻訳日:2022-06-23 11:38:08 公開日:2022-06-20
# (参考訳) Nocturne:マルチエージェント学習を現実世界に一歩近づけるためのスケーラブルな駆動ベンチマーク

Nocturne: a scalable driving benchmark for bringing multi-agent learning one step closer to the real world ( http://arxiv.org/abs/2206.09889v1 )

ライセンス: CC BY 4.0
Eugene Vinitsky, Nathan Lichtl\'e, Xiaomeng Yang, Brandon Amos, Jakob Foerster(参考訳) 部分可観測性下でマルチエージェント協調を研究するための新しい2次元駆動シミュレータである \textit{nocturne} を導入する。 Nocturneの焦点は、コンピュータビジョンの計算オーバーヘッドや画像からの特徴抽出を伴わずに、実世界のマルチエージェント環境での推論と心の理論の研究を可能にすることである。 このシミュレーターのエージェントは、人間の視覚知覚制約を模倣して、シーンの邪魔されたビューのみを観察する。 カメラ入力を使用して人間のような観察を直接レンダリングすることでボトルネックとなる既存のベンチマークとは異なり、Nocturneは、C++バックエンドで可視機能のベクトル化セットを計算するために効率的な交差点メソッドを使用している。 オープンソーストラジェクトリとマップデータを用いて,実世界の運転データから任意のトラジェクトリやシーンをロード・再生するシミュレータを構築した。 この環境を用いて強化学習および模倣学習エージェントをベンチマークし、エージェントが人間レベルの協調能力からかなり離れており、専門家の軌跡から大きく逸脱していることを示す。

We introduce \textit{Nocturne}, a new 2D driving simulator for investigating multi-agent coordination under partial observability. The focus of Nocturne is to enable research into inference and theory of mind in real-world multi-agent settings without the computational overhead of computer vision and feature extraction from images. Agents in this simulator only observe an obstructed view of the scene, mimicking human visual sensing constraints. Unlike existing benchmarks that are bottlenecked by rendering human-like observations directly using a camera input, Nocturne uses efficient intersection methods to compute a vectorized set of visible features in a C++ back-end, allowing the simulator to run at $2000+$ steps-per-second. Using open-source trajectory and map data, we construct a simulator to load and replay arbitrary trajectories and scenes from real-world driving data. Using this environment, we benchmark reinforcement-learning and imitation-learning agents and demonstrate that the agents are quite far from human-level coordination ability and deviate significantly from the expert trajectories.
翻訳日:2022-06-23 11:22:13 公開日:2022-06-20
# (参考訳) 変分オートエンコーダを用いた潜時変動モデルの検討

Latent Variable Modelling Using Variational Autoencoders: A survey ( http://arxiv.org/abs/2206.09891v1 )

ライセンス: CC BY 4.0
Vasanth Kalingeri(参考訳) 確率分布により、実践者はデータの隠れた構造を明らかにし、限定されたデータを使って教師付き学習問題を解決するモデルを構築することができる。 本報告の焦点は,大規模複雑なデータセットの確率分布を学習するための変分オートエンコーダである。 この報告は変分オートエンコーダの理論的理解を提供し、この分野における現在の研究を統合する。 報告書は複数の章に分けられ、第1章では問題を紹介し、変分オートエンコーダを記述し、この分野の主要な研究方向を特定する。 第2章、第3章、第4章、第5章は各研究領域の詳細を掘り下げる。 第6章は報告書をまとめ、今後の作業の方向性を提案する。 機械学習の基本的なアイデアを持っているが、機械学習研究の一般的なテーマについて学びたい読者は、レポートの恩恵を受けることができる。 このレポートでは、確率分布の学習に関する中心的なアイデアと、これを理解可能にするために行ったこと、ディープラーニングが現在どのように適用されているかの詳細について説明している。 このレポートは、このサブフィールドに貢献したい人のための、穏やかな紹介でもある。

A probability distribution allows practitioners to uncover hidden structure in the data and build models to solve supervised learning problems using limited data. The focus of this report is on Variational autoencoders, a method to learn the probability distribution of large complex datasets. The report provides a theoretical understanding of variational autoencoders and consolidates the current research in the field. The report is divided into multiple chapters, the first chapter introduces the problem, describes variational autoencoders and identifies key research directions in the field. Chapters 2, 3, 4 and 5 dive into the details of each of the key research areas. Chapter 6 concludes the report and suggests directions for future work. A reader who has a basic idea of machine learning but wants to learn about general themes in machine learning research can benefit from the report. The report explains central ideas on learning probability distributions, what people did to make this tractable and goes into details around how deep learning is currently applied. The report also serves a gentle introduction for someone looking to contribute to this sub-field.
翻訳日:2022-06-23 11:06:22 公開日:2022-06-20
# (参考訳) 学生のマルチフェアネスと心的制約-トピックグループ問題

Multiple Fairness and Cardinality constraints for Students-Topics Grouping Problem ( http://arxiv.org/abs/2206.09895v1 )

ライセンス: CC BY 4.0
Tai Le Quy, Gunnar Friege and Eirini Ntoutsi(参考訳) グループワークは、学生が好みに基づいてトピック固有のグループに分けられる教育環境において一般的な活動である。 グループ化は可能な限り学生の願望を反映すべきである。 通常、結果のグループは、様々なグループで学生がより良く学ぶことを示唆しているため、性別や人種のような保護された属性の観点からバランスを取る必要がある。 さらに、群濃度のバランスは、群間での公平なワークロード分布に必須の要件である。 本稿では,学生を非重複グループに分割するマルチフェア容量化問題(mfc)を紹介し,バランスの取れた集団濃度(下限と上限)を確保しつつ,保護属性の観点から構成員の多様性を最大化する。 MFCグループ化のためのヒューリスティック手法とknapsackに基づく手法の2つのアプローチを提案する。 実データセットと半合成データセットを用いた実験により,提案手法が学生の嗜好を満足させ,濃度と保護属性に関するバランスよく多様なグループをそれぞれ提供できることを示した。

Group work is a prevalent activity in educational settings, where students are often divided into topic-specific groups based on their preferences. The grouping should reflect the students' aspirations as much as possible. Usually, the resulting groups should also be balanced in terms of protected attributes like gender or race since studies indicate that students might learn better in a diverse group. Moreover, balancing the group cardinalities is also an essential requirement for fair workload distribution across the groups. In this paper, we introduce the multi-fair capacitated (MFC) grouping problem that fairly partitions students into non-overlapping groups while ensuring balanced group cardinalities (with a lower bound and an upper bound), and maximizing the diversity of members in terms of protected attributes. We propose two approaches: a heuristic method and a knapsack-based method to obtain the MFC grouping. The experiments on a real dataset and a semi-synthetic dataset show that our proposed methods can satisfy students' preferences well and deliver balanced and diverse groups regarding cardinality and the protected attribute, respectively.
翻訳日:2022-06-23 11:05:25 公開日:2022-06-20
# (参考訳) Voxel-MAE:大規模点雲の事前学習のためのマスク付きオートエンコーダ

Voxel-MAE: Masked Autoencoders for Pre-training Large-scale Point Clouds ( http://arxiv.org/abs/2206.09900v1 )

ライセンス: CC BY 4.0
Chen Min and Dawei Zhao and Liang Xiao and Yiming Nie and Bin Dai(参考訳) マスクベースの事前学習は、手作業で注釈を付けずに、画像、ビデオ、言語で自己教師あり学習に成功している。 しかし,情報冗長データとして3次元物体検出の分野ではまだ研究されていない。 3次元物体検出における点雲は大規模であるため、入力点雲を再構築することは不可能である。 本稿では,大規模ポイント雲事前学習のためのマスクボクセル分類ネットワークを提案する。 私たちの重要なアイデアは、点雲をボクセル表現に分割し、ボクセルが点雲を含むかどうかを分類することです。 この単純な戦略により、ネットワークはオブジェクトの形状を認識し、3Dオブジェクト検出の性能を向上させる。 3次元物体検出器(SECOND, CenterPoint, PV-RCNN)による3つの一般的なデータセット(KITTI, Waymo, nuScenes)に対する事前学習モデルの有効性を示す。 コードはhttps: //github.com/chaytonmin/Voxel-MAEで公開されている。

Mask-based pre-training has achieved great success for self-supervised learning in image, video and language, without manually annotated supervision. However, as information redundant data, it has not yet been studied in the field of 3D object detection. As the point clouds in 3D object detection is large-scale, it is impossible to reconstruct the input point clouds. In this paper, we propose a mask voxel classification network for large-scale point clouds pre-training. Our key idea is to divide the point clouds into voxel representations and classify whether the voxel contains point clouds. This simple strategy makes the network to be voxel-aware of the object shape, thus improving the performance of 3D object detection. Extensive experiments show great effectiveness of our pre-trained model with 3D object detectors (SECOND, CenterPoint, and PV-RCNN) on three popular datasets (KITTI, Waymo, and nuScenes). Codes are publicly available at https: //github.com/chaytonmin/Voxel-MAE.
翻訳日:2022-06-23 10:52:26 公開日:2022-06-20
# (参考訳) 尾のみ--凸系における平均ケース普遍性とロバスト性

Only Tails Matter: Average-Case Universality and Robustness in the Convex Regime ( http://arxiv.org/abs/2206.09901v1 )

ライセンス: CC BY 4.0
Leonardo Cunha, Gauthier Gidel, Fabien Pedregosa, Damien Scieurand Courtney Paquette(参考訳) 最近開発された最適化手法の平均ケース解析により、通常の最悪の結果よりも細粒度で代表的な収束解析が可能になる。 それと引き換えに、この分析はデータ生成プロセスに関するより正確な仮説、すなわち問題に関連するランダム行列の期待スペクトル分布(esd)の知識を仮定する必要がある。 この研究は、ESDの端付近の固有値の濃度が問題の漸近平均複雑性を決定することを示している。 この濃度に関する事前情報は、ESDの完全な知識よりも基礎的な仮定である。 この近似濃度は、最悪のシナリオ収束の粗さと制限的な前の平均ケース分析の中間点である。 また、この濃度に関する仮説の下で漸近的に最適であり、esdがベータ分布に従うとグローバルに最適である一般化されたchebyshev法も導入する。 我々はその性能を勾配降下やネステロフのスキームのような古典的な最適化アルゴリズムと比較し、平均的な文脈ではネステロフの手法は漸近的にほぼ最適であることを示す。

The recently developed average-case analysis of optimization methods allows a more fine-grained and representative convergence analysis than usual worst-case results. In exchange, this analysis requires a more precise hypothesis over the data generating process, namely assuming knowledge of the expected spectral distribution (ESD) of the random matrix associated with the problem. This work shows that the concentration of eigenvalues near the edges of the ESD determines a problem's asymptotic average complexity. This a priori information on this concentration is a more grounded assumption than complete knowledge of the ESD. This approximate concentration is effectively a middle ground between the coarseness of the worst-case scenario convergence and the restrictive previous average-case analysis. We also introduce the Generalized Chebyshev method, asymptotically optimal under a hypothesis on this concentration and globally optimal when the ESD follows a Beta distribution. We compare its performance to classical optimization algorithms, such as gradient descent or Nesterov's scheme, and we show that, in the average-case context, Nesterov's method is universally nearly optimal asymptotically.
翻訳日:2022-06-23 10:40:46 公開日:2022-06-20
# (参考訳) ORFD:オフロード自由空間検出のためのデータセットとベンチマーク

ORFD: A Dataset and Benchmark for Off-Road Freespace Detection ( http://arxiv.org/abs/2206.09907v1 )

ライセンス: CC BY 4.0
Chen Min and Weizhong Jiang and Dawei Zhao and Jiaolong Xu and Liang Xiao and Yiming Nie and Bin Dai(参考訳) フリースペース検出は自動運転技術の重要な要素であり、軌道計画において重要な役割を果たす。 過去10年間で、ディープラーニングに基づく自由空間検出手法が実証された。 しかし、これらの取り組みは都市道路環境に焦点を当てており、オフロードベンチマークの欠如によりオフロード自由空間検出に特化したディープラーニングベースの手法はほとんどなかった。 本稿では,このorfdデータセットについて述べる。このデータセットは,我々の知る限りでは,最初のオフロード自由空間検出データセットである。 データセットは、異なるシーン(森林、農地、草地、田園地帯)、異なる気象条件(日光、雨、霧、雪)、異なる光環境(明るい光、日光、トワイライト、暗闇)で収集され、12,198個のライダーポイント雲とrgb画像対と、横断可能領域、非横断可能領域、到達不能領域を詳細に注釈した。 本稿では,自由空間検出タスクのための大きな受容場の必要性を満たすために,局地情報とグローバル情報を集約するためにトランスフォーマアーキテクチャを統合するoff-netという新しいネットワークを提案する。 また,正確なオフロード自由空間検出のために,LiDARとRGB画像情報を動的に融合するクロスアテンションを提案する。 データセットとコードはhttps://github.com/chaytonmin/OFF-Net.comで公開されている。

Freespace detection is an essential component of autonomous driving technology and plays an important role in trajectory planning. In the last decade, deep learning-based free space detection methods have been proved feasible. However, these efforts were focused on urban road environments and few deep learning-based methods were specifically designed for off-road free space detection due to the lack of off-road benchmarks. In this paper, we present the ORFD dataset, which, to our knowledge, is the first off-road free space detection dataset. The dataset was collected in different scenes (woodland, farmland, grassland, and countryside), different weather conditions (sunny, rainy, foggy, and snowy), and different light conditions (bright light, daylight, twilight, darkness), which totally contains 12,198 LiDAR point cloud and RGB image pairs with the traversable area, non-traversable area and unreachable area annotated in detail. We propose a novel network named OFF-Net, which unifies Transformer architecture to aggregate local and global information, to meet the requirement of large receptive fields for free space detection tasks. We also propose the cross-attention to dynamically fuse LiDAR and RGB image information for accurate off-road free space detection. Dataset and code are publicly available athttps://github.com/chaytonmin/OFF-Net.
翻訳日:2022-06-23 10:20:39 公開日:2022-06-20
# (参考訳) 多言語HateCheck:多言語Hate音声検出モデルのための機能テスト

Multilingual HateCheck: Functional Tests for Multilingual Hate Speech Detection Models ( http://arxiv.org/abs/2206.09917v1 )

ライセンス: CC BY 4.0
Paul R\"ottger, Haitham Seelawi, Debora Nozza, Zeerak Talat, Bertie Vidgen(参考訳) ヘイトスピーチ検出モデルは通常、ホールドアウトテストセットで評価される。 しかし、これはヘイトスピーチデータセットの体系的なギャップとバイアスが増大しているため、モデルパフォーマンスの不完全で、潜在的に誤解を招く恐れがある。 より客観的な診断洞察を可能にするために、近年の研究はヘイトスピーチ検出モデルの機能テストを導入した。 しかし、これらのテストは現在、英語コンテンツにのみ存在するため、世界中の何十億もの人々が話している他の言語において、より効果的なモデルの開発を支援することはできない。 この問題に対処するために,多言語ヘイトスピーチ検出モデルのための機能テストスイートであるMultilingual HateCheck(MHC)を紹介する。 MHCは、他のヘイトスピーチデータセットよりも多くの言語である10言語にわたる34の機能をカバーしている。 MHCの有用性を説明するために,ハイパフォーマンスな多言語ヘイトスピーチ検出モデルの訓練とテストを行い,モノリンガルおよびクロスランガルアプリケーションにおいて重要なモデルの弱点を明らかにする。

Hate speech detection models are typically evaluated on held-out test sets. However, this risks painting an incomplete and potentially misleading picture of model performance because of increasingly well-documented systematic gaps and biases in hate speech datasets. To enable more targeted diagnostic insights, recent research has thus introduced functional tests for hate speech detection models. However, these tests currently only exist for English-language content, which means that they cannot support the development of more effective models in other languages spoken by billions across the world. To help address this issue, we introduce Multilingual HateCheck (MHC), a suite of functional tests for multilingual hate speech detection models. MHC covers 34 functionalities across ten languages, which is more languages than any other hate speech dataset. To illustrate MHC's utility, we train and test a high-performing multilingual hate speech detection model, and reveal critical model weaknesses for monolingual and cross-lingual applications.
翻訳日:2022-06-23 10:09:16 公開日:2022-06-20
# (参考訳) 量子機械学習チャネルの識別

Quantum machine learning channel discrimination ( http://arxiv.org/abs/2206.09933v1 )

ライセンス: CC BY 4.0
Andrey Kardashin and Anna vlasova and Anastasia Pervishko and Dmitry Yudin and Jacob Biamonte(参考訳) 量子チャネル識別問題において、入力状態をチャネル経由で送信し、出力状態を測定することによって、与えられた数の量子チャネルを区別する。 本研究は、変分量子回路およびそのようなチャネルを識別するための機械学習技術の適用について研究する。 特に私たちは (i)変分量子コンピューティングの枠組みにこの課題を組み込む実践的実装 (ii)変動量子回路に基づく量子分類器の訓練、及び (iii)量子カーネル推定手法の適用。 これら3つのチャネル識別手法をテストするために,2つの異なる非分極因子を持つ一対の絡み込み破壊チャネルと脱分極チャネルを検討した。 アプローチのために i) 広範に議論されている並列戦略と逐次戦略を用いて量子チャネル識別問題を解く。 量子リソースが少ない方が収束性が良くなるという点で後者の利点を示す。 変分量子分類器を用いた量子チャネル識別 (ii) ランダムかつ混合な入力状態や単純な変動回路でも動作可能である。 カーネルに基づく分類手法 また、(iii)は、非分極因子の固定値だけでなく、その範囲に関連付けられた非分極チャネルを判別できるため、有効である。 さらに、よく使われるカーネルの1つを単純に修正することで、このアプローチの効率が大幅に向上することを発見した。 最後に, チャネル識別の変分法の性能は, 出力状態の積の痕跡に依存することが明らかとなった。 これらの結果は、量子機械学習が、物理ノイズプロセスを表すようなチャネルの識別に利用できることを示している。

In the problem of quantum channel discrimination, one distinguishes between a given number of quantum channels, which is done by sending an input state through a channel and measuring the output state. This work studies applications of variational quantum circuits and machine learning techniques for discriminating such channels. In particular, we explore (i) the practical implementation of embedding this task into the framework of variational quantum computing, (ii) training a quantum classifier based on variational quantum circuits, and (iii) applying the quantum kernel estimation technique. For testing these three channel discrimination approaches, we considered a pair of entanglement-breaking channels and the depolarizing channel with two different depolarization factors. For the approach (i), we address solving the quantum channel discrimination problem using widely discussed parallel and sequential strategies. We show the advantage of the latter in terms of better convergence with less quantum resources. Quantum channel discrimination with a variational quantum classifier (ii) allows one to operate even with random and mixed input states and simple variational circuits. The kernel-based classification approach (iii) is also found effective as it allows one to discriminate depolarizing channels associated not with just fixed values of the depolarization factor, but with ranges of it. Additionally, we discovered that a simple modification of one of the commonly used kernels significantly increases the efficiency of this approach. Finally, our numerical findings reveal that the performance of variational methods of channel discrimination depends on the trace of the product of the output states. These findings demonstrate that quantum machine learning can be used to discriminate channels, such as those representing physical noise processes.
翻訳日:2022-06-23 09:42:10 公開日:2022-06-20
# (参考訳) トンプソンサンプリングは拡散過程を効率的に制御する

Thompson Sampling Efficiently Learns to Control Diffusion Processes ( http://arxiv.org/abs/2206.09977v1 )

ライセンス: CC BY 4.0
Mohamad Kazem Shirani Faradonbeh, Mohamad Sadegh Shirani Faradonbeh, Mohsen Bayati(参考訳) 線形確率微分方程式に従って進化する拡散過程は、連続時間動的決定モデルの重要なファミリーである。 最適政策は、ドリフト行列に関する完全な確実性の下で、彼らにとってよく研究されている。 しかし、従来の離散時間解析手法は適用できないため、不確定なドリフト行列を持つ拡散過程のデータ駆動制御についてはほとんど知られていない。 また,この課題は探索・搾取トレードオフを含む強化学習問題と見なすことができるが,システム安定性の確保は最適な政策を設計するための基本的な要素である。 人気のあるトンプソンサンプリングアルゴリズムは, 最適動作を高速に学習し, 後悔の2乗根のみを伴い, 短時間で安定化する。 我々の知る限りでは、この結果は拡散過程制御問題におけるトンプソンサンプリングの最初の結果である。 航空機と血糖コントロールの2つの設定から,実パラメータ行列を用いた実験シミュレーションにより理論的結果を検証する。 さらに,トンプソンサンプリングは最先端のアルゴリズムに比べて後悔を著しく改善し,トンプソンサンプリングはよりガードされた方法で探索することが示唆された。 理論解析では,ドリフトパラメータの局所幾何構造と拡散過程の最適制御を関連付けた,ある最適性多様体のキャラクタリゼーションを行う。 私たちはこのテクニックがより広い関心を持つことを期待しています。

Diffusion processes that evolve according to linear stochastic differential equations are an important family of continuous-time dynamic decision-making models. Optimal policies are well-studied for them, under full certainty about the drift matrices. However, little is known about data-driven control of diffusion processes with uncertain drift matrices as conventional discrete-time analysis techniques are not applicable. In addition, while the task can be viewed as a reinforcement learning problem involving exploration and exploitation trade-off, ensuring system stability is a fundamental component of designing optimal policies. We establish that the popular Thompson sampling algorithm learns optimal actions fast, incurring only a square-root of time regret, and also stabilizes the system in a short time period. To the best of our knowledge, this is the first such result for Thompson sampling in a diffusion process control problem. We validate our theoretical results through empirical simulations with real parameter matrices from two settings of airplane and blood glucose control. Moreover, we observe that Thompson sampling significantly improves (worst-case) regret, compared to the state-of-the-art algorithms, suggesting Thompson sampling explores in a more guarded fashion. Our theoretical analysis involves characterization of a certain optimality manifold that ties the local geometry of the drift parameters to the optimal control of the diffusion process. We expect this technique to be of broader interest.
翻訳日:2022-06-23 08:54:07 公開日:2022-06-20
# (参考訳) 小データセット間の量子ニューラルネットワークのハイパーパラメータの重要性

Hyperparameter Importance of Quantum Neural Networks Across Small Datasets ( http://arxiv.org/abs/2206.09992v1 )

ライセンス: CC BY 4.0
Charles Moussa, Jan N. van Rijn, Thomas B\"ack, Vedran Dunjko(参考訳) 制限された量子コンピュータが徐々に現実化していくにつれ、有意義な第一応用の探索が強まる。 この領域において、より研究されたアプローチの1つは、機械学習モデルの基礎となる特殊なタイプの量子回路(いわゆる量子ニューラルネットワーク)を使用することである。 その名前が示すように、量子ニューラルネットワークは、ニューラルネットワークと同じような役割を果たす可能性がある。 しかしながら、特に機械学習コンテキストのアプリケーションでは、適切な回路アーキテクチャや、優れた学習性能を達成するために使用するべきモデルハイパーパラメータについてはほとんど知られていない。 本研究では,関数型ANOVAフレームワークを量子ニューラルネットワークに適用し,その予測性能に最も影響したハイパーパラメータを解析する。 我々は、最も一般的に使用される量子ニューラルネットワークアーキテクチャの1つを分析した。 次に、これをOpenML-CC18分類ベンチマークから7ドルのオープンソースデータセットに適用します。 機能的ANOVAで得られたハイパーパラメータのランキングから3つの重要度が検出された。 両実験とも予測パターンを確認し,新たな知見を示した。 例えば、学習速度を適切に設定することは、すべてのデータセットに対する限界貢献の観点から最も重要なハイパーパラメータと見なされ、一方、使用するエンタングルゲートの選択は、1つのデータセットを除いて最も重要ではないと考えられている。 本研究は、量子機械学習モデルを研究する新しい方法論を導入し、量子モデル選択に対する新しい洞察を提供する。

As restricted quantum computers are slowly becoming a reality, the search for meaningful first applications intensifies. In this domain, one of the more investigated approaches is the use of a special type of quantum circuit - a so-called quantum neural network -- to serve as a basis for a machine learning model. Roughly speaking, as the name suggests, a quantum neural network can play a similar role to a neural network. However, specifically for applications in machine learning contexts, very little is known about suitable circuit architectures, or model hyperparameters one should use to achieve good learning performance. In this work, we apply the functional ANOVA framework to quantum neural networks to analyze which of the hyperparameters were most influential for their predictive performance. We analyze one of the most typically used quantum neural network architectures. We then apply this to $7$ open-source datasets from the OpenML-CC18 classification benchmark whose number of features is small enough to fit on quantum hardware with less than $20$ qubits. Three main levels of importance were detected from the ranking of hyperparameters obtained with functional ANOVA. Our experiment both confirmed expected patterns and revealed new insights. For instance, setting well the learning rate is deemed the most critical hyperparameter in terms of marginal contribution on all datasets, whereas the particular choice of entangling gates used is considered the least important except on one dataset. This work introduces new methodologies to study quantum machine learning models and provides new insights toward quantum model selection.
翻訳日:2022-06-23 08:52:38 公開日:2022-06-20
# (参考訳) 再初期化はいつ機能するのか?

When Does Re-initialization Work? ( http://arxiv.org/abs/2206.10011v1 )

ライセンス: CC BY 4.0
Sheheryar Zaidi, Tudor Berariu, Hyunjik Kim, J\"org Bornschein, Claudia Clopath, Yee Whye Teh, Razvan Pascanu(参考訳) トレーニング中のニューラルネットワークの再初期化は、最近の研究の一般化を改善するために観察されている。 しかし、ディープラーニングの実践では広く採用されておらず、最先端のトレーニングプロトコルでよく使われている。 これは再初期化がいつ機能するか、データ拡張、重量減少、学習率のスケジュールといった正規化技術と一緒に使うべきかという疑問を提起する。 本研究では,様々な画像分類ベンチマークを用いて15,000モデル以上をトレーニングし,標準訓練と再初期化手法の選定を広範囲に比較した。 まず,そのような手法は,他の正規化が存在しない場合にも,常に一般化に有益であることを示す。 しかし、注意して調整した他の正規化手法と併用すると、再初期化手法は一般化の利点をほとんど与えないが、最適な一般化性能は学習速度の選択や重みの減衰ハイパーパラメータに対する感受性が低下する。 雑音データに対する再初期化手法の影響を調べるため,ラベル雑音下での学習についても検討する。 驚くべきことに、このケースでは、他の注意深く調整された正規化技術が存在する場合でも、再初期化は標準トレーニングにおいて著しく改善される。

Re-initializing a neural network during training has been observed to improve generalization in recent works. Yet it is neither widely adopted in deep learning practice nor is it often used in state-of-the-art training protocols. This raises the question of when re-initialization works, and whether it should be used together with regularization techniques such as data augmentation, weight decay and learning rate schedules. In this work, we conduct an extensive empirical comparison of standard training with a selection of re-initialization methods to answer this question, training over 15,000 models on a variety of image classification benchmarks. We first establish that such methods are consistently beneficial for generalization in the absence of any other regularization. However, when deployed alongside other carefully tuned regularization techniques, re-initialization methods offer little to no added benefit for generalization, although optimal generalization performance becomes less sensitive to the choice of learning rate and weight decay hyperparameters. To investigate the impact of re-initialization methods on noisy data, we also consider learning under label noise. Surprisingly, in this case, re-initialization significantly improves upon standard training, even in the presence of other carefully tuned regularization techniques.
翻訳日:2022-06-23 08:40:09 公開日:2022-06-20
# (参考訳) 経験的資産価格設定のための深部部分最小方形

Deep Partial Least Squares for Empirical Asset Pricing ( http://arxiv.org/abs/2206.10014v1 )

ライセンス: CC BY 4.0
Matthew F. Dixon, Nicholas G. Polson and Kemen Goicoechea(参考訳) 我々は、極大部分最小二乗(DPLS)を用いて、限られた統計リスク要因に過剰なリターンをもたらしながら、フレキシブルでダイナミックな方法で条件付け情報を活用する、個々の株式リターンに対する資産価格モデルの推定を行う。 新たな貢献は、非線形因子構造を解決し、ガウス的資産のリターンと要因を仮定した線形確率的割引係数を用いた経験的資産価格におけるディープラーニングの現在のパラダイムを推し進めることである。 この非線形因子構造は、投影された最小二乗法を用いて会社特性と資産リターンを潜在要因のサブスペースに共同で投影し、ディープラーニングを用いて、ファクタローディングから資産リターンへの非線形マップを学習することにより抽出される。 この非線形リスクファクター構造を捉えた結果は、線形リスクファクター露出と相互作用効果の両方によって資産返却の異常を特徴づけることである。 このように、ディープラーニングが異常値を取り込む能力はよく知られており、潜伏因子構造における凸性や高次項の役割が因子リスク予感に影響を与えている。 実験的な面では、DPLS因子モデルを実装し、LASSOや平易なバニラ深層学習モデルよりも優れた性能を示す。 さらに,ネットワークのトレーニング時間は,dplのアーキテクチャ向上により大幅に短縮された。 具体的には,1989年12月から2018年1月までの期間において,Russell 1000指数の3290資産を用いてDPLS因子モデルを評価し,ディープラーニングの約1.2倍の情報比を生成する。 DPLSは変動と価格の誤差を説明し、最も顕著な要因と強固な特徴を識別する。

We use deep partial least squares (DPLS) to estimate an asset pricing model for individual stock returns that exploits conditioning information in a flexible and dynamic way while attributing excess returns to a small set of statistical risk factors. The novel contribution is to resolve the non-linear factor structure, thus advancing the current paradigm of deep learning in empirical asset pricing which uses linear stochastic discount factors under an assumption of Gaussian asset returns and factors. This non-linear factor structure is extracted by using projected least squares to jointly project firm characteristics and asset returns on to a subspace of latent factors and using deep learning to learn the non-linear map from the factor loadings to the asset returns. The result of capturing this non-linear risk factor structure is to characterize anomalies in asset returns by both linear risk factor exposure and interaction effects. Thus the well known ability of deep learning to capture outliers, shed lights on the role of convexity and higher order terms in the latent factor structure on the factor risk premia. On the empirical side, we implement our DPLS factor models and exhibit superior performance to LASSO and plain vanilla deep learning models. Furthermore, our network training times are significantly reduced due to the more parsimonious architecture of DPLS. Specifically, using 3290 assets in the Russell 1000 index over a period of December 1989 to January 2018, we assess our DPLS factor model and generate information ratios that are approximately 1.2x greater than deep learning. DPLS explains variation and pricing errors and identifies the most prominent latent factors and firm characteristics.
翻訳日:2022-06-23 08:20:16 公開日:2022-06-20
# (参考訳) フローベースのクラスタリングとスペクトルクラスタリング:比較

flow-based clustering and spectral clustering: a comparison ( http://arxiv.org/abs/2206.10019v1 )

ライセンス: CC BY 4.0
Y. SarcheshmehPour, Y. Tian, L. Zhang, A. Jung(参考訳) 固有ネットワーク構造を持つデータに対して,新しいグラフクラスタリング手法を提案し,検討する。 スペクトルクラスタリングと同様に,データの内部ネットワーク構造を利用してユークリッド特徴ベクトルを構成する。 これらの特徴ベクトルは、k平均やガウス混合モデル(GMM)ベースのソフトクラスタリングのような基本的なクラスタリング手法に入力することができる。 スペクトルクラスタリングとは別のアプローチとして、グラフラプラシアンの固有ベクトルを使って特徴ベクトルを構築しない。 代わりに、全変動最小化問題の解を用いて、データポイント間の接続を反映する特徴ベクトルを構築する。 我々のモチベーションは、全変動最小化の解が、与えられたシードノードの集合の周りで断片的に一定であることである。 これらのシードノードは、ドメイン知識やデータのネットワーク構造に基づく単純なヒューリスティックによって得ることができる。 この結果から,クラスタリング手法は,スペクトルクラスタリング法に難渋するグラフ構造に対処できることが示唆された。

We propose and study a novel graph clustering method for data with an intrinsic network structure. Similar to spectral clustering, we exploit an intrinsic network structure of data to construct Euclidean feature vectors. These feature vectors can then be fed into basic clustering methods such as k-means or Gaussian mixture model (GMM) based soft clustering. What sets our approach apart from spectral clustering is that we do not use the eigenvectors of a graph Laplacian to construct the feature vectors. Instead, we use the solutions of total variation minimization problems to construct feature vectors that reflect connectivity between data points. Our motivation is that the solutions of total variation minimization are piece-wise constant around a given set of seed nodes. These seed nodes can be obtained from domain knowledge or by simple heuristics that are based on the network structure of data. Our results indicate that our clustering methods can cope with certain graph structures that are challenging for spectral clustering methods.
翻訳日:2022-06-23 08:19:09 公開日:2022-06-20
# (参考訳) dna:デュアルネットワークアーキテクチャによる近距離政策最適化

DNA: Proximal Policy Optimization with a Dual Network Architecture ( http://arxiv.org/abs/2206.10027v1 )

ライセンス: CC BY-SA 4.0
Mathew Aitchison, Penny Sweetser(参考訳) 本稿では,アクター・クリティック強化学習モデルにおける価値関数とポリシーを同時に学習する問題について検討する。 これら2つのタスク間のノイズレベルの違いにより,これらの関数を協調的に学習する一般的な実践は準最適であることがわかった。 代わりに、これらのタスクを個別に学習するが、制限された蒸留フェーズにより、性能が著しく向上することを示す。 さらに,より低い<textit{variance}戻り推定を用いて,ポリシー勾配ノイズレベルを低減できることが判明した。 一方、値学習ノイズレベルは、より低い \textit{bias} 推定で減少する。 これらの洞察を組み合わせることで、近距離ポリシー最適化の拡張が、前者を大幅に上回る \textit{dual network architecture} (dna) と呼ばれる。 また、dnaはテストされた5つの環境のうち4つで人気のあるレインボーdqnアルゴリズムの性能を超えている。

This paper explores the problem of simultaneously learning a value function and policy in deep actor-critic reinforcement learning models. We find that the common practice of learning these functions jointly is sub-optimal, due to an order-of-magnitude difference in noise levels between these two tasks. Instead, we show that learning these tasks independently, but with a constrained distillation phase, significantly improves performance. Furthermore, we find that the policy gradient noise levels can be decreased by using a lower \textit{variance} return estimate. Whereas, the value learning noise level decreases with a lower \textit{bias} estimate. Together these insights inform an extension to Proximal Policy Optimization we call \textit{Dual Network Architecture} (DNA), which significantly outperforms its predecessor. DNA also exceeds the performance of the popular Rainbow DQN algorithm on four of the five environments tested, even under more difficult stochastic control settings.
翻訳日:2022-06-23 08:09:55 公開日:2022-06-20
# (参考訳) 自動生成説明によるロボットの倫理的原則の理解

Understanding a Robot's Guiding Ethical Principles via Automatically Generated Explanations ( http://arxiv.org/abs/2206.10038v1 )

ライセンス: CC BY 4.0
Benjamin Krarup, Felix Lindner, Senka Krivic, Derek Long(参考訳) ロボットの継続的な発展により、人間の周囲での利用が拡大した。 ロボットは、より重要な決定を下し、潜在的に重要な結果をもたらすことをより信頼している。 したがって、ロボットが機能する倫理的原則を考えることが不可欠である。 本稿では,ロボット行動計画の倫理的理解において,コントラスト的・非コントラスト的説明がいかに有効かを検討する。 私たちは、ユーザーが計画について提案し、自動生成された対比説明を受け取れるように、既存の倫理的枠組みを構築しています。 ユーザスタディの結果は、生成された説明は、ロボットの計画を支える倫理的原則を理解するのに役立つことを示している。

The continued development of robots has enabled their wider usage in human surroundings. Robots are more trusted to make increasingly important decisions with potentially critical outcomes. Therefore, it is essential to consider the ethical principles under which robots operate. In this paper we examine how contrastive and non-contrastive explanations can be used in understanding the ethics of robot action plans. We build upon an existing ethical framework to allow users to make suggestions about plans and receive automatically generated contrastive explanations. Results of a user study indicate that the generated explanations help humans to understand the ethical principles that underlie a robot's plan.
翻訳日:2022-06-23 07:48:12 公開日:2022-06-20
# (参考訳) プライバシ保護データ合成による分散分散学習

Decentralized Distributed Learning with Privacy-Preserving Data Synthesis ( http://arxiv.org/abs/2206.10048v1 )

ライセンス: CC BY 4.0
Matteo Pennisi, Federica Proietto Salanitri, Giovanni Bellitto, Bruno Casella, Marco Aldinucci, Simone Palazzo, Concetto Spampinato(参考訳) 医療分野では、患者と臨床データの均一性を生かして、多施設共同研究がより一般化可能な発見をもたらすことがしばしばある。 しかし、最近のプライバシー規制は、データを共有する可能性を妨げ、その結果、診断と予後をサポートする機械学習ベースのソリューションを考案する。 フェデレーテッド・ラーニング(FL)は、AIベースのソリューションをデータ所有者に提供し、収集が必要なローカルAIモデルまたはその一部を共有することで、この制限を回避しようとしている。 しかし、既存のフェデレーション学習ソリューションの多くはまだ初期段階にあり、モデル更新から実際のデータが再構築される可能性があるため、ローカルで学習した知識をローカルに保持できる信頼性と効果的な集約スキームが欠如していることから、いくつかの欠点がある。 さらに、これらのアプローチの大部分、特に医療データを扱うアプローチは、堅牢性、スケーラビリティ、信頼性の問題を引き起こす集中型の分散学習戦略に依存しています。 本稿では,経験的再生と生成的敵対研究から概念を活用し,ローカルノードの機能を効果的に統合し,複数のデータセットをまたいだ一般化を実現する分散分散手法を提案する。 提案手法は,非i.i.d.データシナリオをシミュレートするために,複数のデータセットを用いて結核と黒色腫の分類を行う。 その結果,本手法は,標準型(非フェデレート型)学習と連合型手法の両方に匹敵する性能を実現していることがわかった。

In the medical field, multi-center collaborations are often sought to yield more generalizable findings by leveraging the heterogeneity of patient and clinical data. However, recent privacy regulations hinder the possibility to share data, and consequently, to come up with machine learning-based solutions that support diagnosis and prognosis. Federated learning (FL) aims at sidestepping this limitation by bringing AI-based solutions to data owners and only sharing local AI models, or parts thereof, that need then to be aggregated. However, most of the existing federated learning solutions are still at their infancy and show several shortcomings, from the lack of a reliable and effective aggregation scheme able to retain the knowledge learned locally to weak privacy preservation as real data may be reconstructed from model updates. Furthermore, the majority of these approaches, especially those dealing with medical data, relies on a centralized distributed learning strategy that poses robustness, scalability and trust issues. In this paper we present a decentralized distributed method that, exploiting concepts from experience replay and generative adversarial research, effectively integrates features from local nodes, providing models able to generalize across multiple datasets while maintaining privacy. The proposed approach is tested on two tasks - tuberculosis and melanoma classification - using multiple datasets in order to simulate realistic non-i.i.d. data scenarios. Results show that our approach achieves performance comparable to both standard (non-federated) learning and federated methods in their centralized (thus, more favourable) formulation.
翻訳日:2022-06-23 07:11:29 公開日:2022-06-20
# dash: サブモジュラー最大化のための分散適応シーケンスヒューリスティック

DASH: Distributed Adaptive Sequencing Heuristic for Submodular Maximization ( http://arxiv.org/abs/2206.09563v1 )

ライセンス: Link先を確認
Tonmoy Dey, Yixin Chen, Alan Kuhnle(参考訳) 単調な部分モジュラ最大化を基準制約(SMCC)に対象とする並列化可能なアルゴリズムの開発は、データセット全体へのランダムアクセスを必要とする適応度が低い集中型アルゴリズムと、少数のMRラウンドを使用する分散MapReduce(MR)モデルアルゴリズムの2つの研究方向を導いた。 現在、MRモデルアルゴリズムは、実用性能を制限する適応ラウンドのサブ線形数を使うことは知られていない。 分散設定におけるsmcc問題を調査し,分散設定にサブリニア適応性を導入する3つのmrモデルアルゴリズムを提案する。 我々の主アルゴリズムであるDASHは、1回のMRラウンドを用いて$\frac{1}{2}(1-1/e-\varepsilon)$の近似を達成し、その多ラウンド変種METADASHはMRモデルアルゴリズムを従来不可能だった大きな濃度制約で実行できるようにする。 T-DASHとG-DASHの2つの追加アルゴリズムは、それぞれ1/e-\varepsilon$(1/\varepsilon)$ MRラウンドで$1/e-\varepsilon$)と$1-1/e-\varepsilon$(1/\varepsilon)の改善比を提供する。 DASHは最先端の分散アルゴリズムよりも桁違いに高速であり、ほぼ同一の解値を生成するとともに、分散データと集中データの両方で実現可能な解を得る上でのDASHの有効性を検証する。

The development of parallelizable algorithms for monotone, submodular maximization subject to cardinality constraint (SMCC) has resulted in two separate research directions: centralized algorithms with low adaptive complexity, which require random access to the entire dataset; and distributed MapReduce (MR) model algorithms, that use a small number of MR rounds of computation. Currently, no MR model algorithm is known to use sublinear number of adaptive rounds which limits their practical performance. We study the SMCC problem in a distributed setting and present three separate MR model algorithms that introduce sublinear adaptivity in a distributed setup. Our primary algorithm, DASH achieves an approximation of $\frac{1}{2}(1-1/e-\varepsilon)$ using one MR round, while its multi-round variant METADASH enables MR model algorithms to be run on large cardinality constraints that were previously not possible. The two additional algorithms, T-DASH and G-DASH provide an improved ratio of ($\frac{3}{8}-\varepsilon$) and ($1-1/e-\varepsilon$) respectively using one and $(1/\varepsilon)$ MR rounds . All our proposed algorithms have sublinear adaptive complexity and we provide extensive empirical evidence to establish: DASH is orders of magnitude faster than the state-of-the-art distributed algorithms while producing nearly identical solution values; and validate the versatility of DASH in obtaining feasible solutions on both centralized and distributed data.
翻訳日:2022-06-22 19:58:25 公開日:2022-06-20
# Navier-Stokes方程式のシミュレーションと推論のためのDeep Random Vortex法

Deep Random Vortex Method for Simulation and Inference of Navier-Stokes Equations ( http://arxiv.org/abs/2206.09571v1 )

ライセンス: Link先を確認
Rui Zhang, Peiyan Hu, Qi Meng, Yue Wang, Rongchan Zhu, Bingguang Chen, Zhi-Ming Ma, Tie-Yan Liu(参考訳) ナビエ・ストークス方程式(navier-stokes equation)は、液体や空気などの流体の運動を記述する重要な偏微分方程式である。 Navier-Stokes方程式の重要性から、効率的な数値スキームの開発は科学と技術者の両方にとって重要である。 近年,ai技術の発展に伴い,非圧縮性ナビエ・ストークス方程式が支配する流体力学をシミュレーションし推論するために,ディープニューラルネットワークを統合する手法がいくつか提案されている。 本稿では,既存のDeep Navier-Stokesインフォメーション手法の能力が,現実の2つの重要な状況である非滑らかあるいは分数式に制限されていることを指摘する。 この目的のために,ニューラルネットワークとnavier-stokes方程式と同値なランダム渦力学系を結合した, \emph{deep random vortex method} (drvm)を提案する。 具体的には、ランダム渦ダイナミクスは、ニューラルネットワークを訓練するためのモンテカルロに基づく損失関数を動機付け、自己微分による微分の計算を避ける。 したがって、DRVMは、粗経路、微分不可能な初期条件、分数演算子を含むナビエ・ストークス方程式を効率的に解けるだけでなく、ディープラーニングベースの解法によるメッシュフリーで微分可能な利点を継承する。 コーシー問題,パラメトリックソルバ学習,および2次元および3次元非圧縮ナビエ-ストークス方程式の逆問題について実験を行う。 提案手法は,Navier-Stokes方程式のシミュレーションと推定を行う。 特に特異な初期条件を含む場合、DRVMは既存のPINN法よりも大幅に優れている。

Navier-Stokes equations are significant partial differential equations that describe the motion of fluids such as liquids and air. Due to the importance of Navier-Stokes equations, the development on efficient numerical schemes is important for both science and engineer. Recently, with the development of AI techniques, several approaches have been designed to integrate deep neural networks in simulating and inferring the fluid dynamics governed by incompressible Navier-Stokes equations, which can accelerate the simulation or inferring process in a mesh-free and differentiable way. In this paper, we point out that the capability of existing deep Navier-Stokes informed methods is limited to handle non-smooth or fractional equations, which are two critical situations in reality. To this end, we propose the \emph{Deep Random Vortex Method} (DRVM), which combines the neural network with a random vortex dynamics system equivalent to the Navier-Stokes equation. Specifically, the random vortex dynamics motivates a Monte Carlo based loss function for training the neural network, which avoids the calculation of derivatives through auto-differentiation. Therefore, DRVM not only can efficiently solve Navier-Stokes equations involving rough path, non-differentiable initial conditions and fractional operators, but also inherits the mesh-free and differentiable benefits of the deep-learning-based solver. We conduct experiments on the Cauchy problem, parametric solver learning, and the inverse problem of both 2-d and 3-d incompressible Navier-Stokes equations. The proposed method achieves accurate results for simulation and inference of Navier-Stokes equations. Especially for the cases that include singular initial conditions, DRVM significantly outperforms existing PINN method.
翻訳日:2022-06-22 19:57:54 公開日:2022-06-20
# Sum-Product Networksに基づく不確かさサンプリングによる深層ニューラルネットワークの能動的学習

Actively Learning Deep Neural Networks with Uncertainty Sampling Based on Sum-Product Networks ( http://arxiv.org/abs/2206.09798v1 )

ライセンス: Link先を確認
Mohamadsadegh Khosravani and Sandra Zilles(参考訳) アクティブラーニングは、ディープニューラルネットワークモデルのトレーニングにおけるデータ量を減らすための一般的なアプローチである。 その成功は、期待される情報量に応じてラベル付けされていないデータポイントをランク付けする効果的な取得関数の選択にかかっている。 不確実性サンプリングでは、現在のモデルがポイントのクラスラベルに関する不確実性が、このタイプのランキングの主要な基準である。 本稿では,畳み込みニューラルネットワーク(CNN)のトレーニングにおける不確実性サンプリングに対する新しいアプローチを提案する。 CNN が抽出した特徴表現を Sum-Product Network (SPN) のトレーニングデータとして利用する。 SPNは一般にデータセットの分布を推定するために使用されるため、最大エントロピーや変分比といった標準的な取得関数によって直接使用できるクラス確率を推定するタスクに適している。 さらに,SPNモデルの助けを借りて計算した重みにより,これらの乗算関数を強化し,この重み付けにより,データポイントに対する知覚可能なクラスラベルの多様性により敏感になる。 本手法の有効性は, MNIST, Fashion-MNIST, CIFAR-10データセットを用いて実験的に検証し, MC Dropout と Bayesian Batch を比較した。

Active learning is popular approach for reducing the amount of data in training deep neural network model. Its success hinges on the choice of an effective acquisition function, which ranks not yet labeled data points according to their expected informativeness. In uncertainty sampling, the uncertainty that the current model has about a point's class label is the main criterion for this type of ranking. This paper proposes a new approach to uncertainty sampling in training a Convolutional Neural Network (CNN). The main idea is to use feature representation extracted extracted by the CNN as data for training a Sum-Product Network (SPN). Since SPNs are typically used for estimating the distribution of a dataset, they are well suited to the task of estimating class probabilities that can be used directly by standard acquisition functions such as max entropy and variational ratio. Moreover, we enhance these acquisition functions by weights calculated with the help of the SPN model; these weights make the acquisition function more sensitive to the diversity of conceivable class labels for data points. The effectiveness of our method is demonstrated in an experimental study on the MNIST, Fashion-MNIST and CIFAR-10 datasets, where we compare it to the state-of-the-art methods MC Dropout and Bayesian Batch.
翻訳日:2022-06-22 19:57:24 公開日:2022-06-20
# 遺伝的データ解析のためのトランスファー学習を用いたニューラルネットワーク手法

A Neural Network Based Method with Transfer Learning for Genetic Data Analysis ( http://arxiv.org/abs/2206.09872v1 )

ライセンス: Link先を確認
Jinghang Lin, Shan Zhang, Qing Lu(参考訳) 転送学習は、コンピュータビジョンや自然言語処理など、多くのアプリケーション問題において強力な技術として登場してきた。 しかし、この手法は遺伝データ解析にはほとんど適用されない。 本稿では,トランスファー学習手法とニューラルネットワークに基づく手法(外乱ニューラルネットワーク)を組み合わせる。 転送学習では、スクラッチから学習プロセスを開始するのではなく、異なるタスクを解決する際に学習された1つのタスクから始めます。 従来の学習を活用してゼロから始めることを回避し、異なるタスクで得られた情報を渡すことによってモデル性能を改善する。 性能を示すために、2つの実際のデータセットを実行する。 転送学習アルゴリズムを用いることで、転送学習技術を用いることなく、期待ニューラルネットと比較して期待ニューラルネットの性能が向上する。

Transfer learning has emerged as a powerful technique in many application problems, such as computer vision and natural language processing. However, this technique is largely ignored in application to genetic data analysis. In this paper, we combine transfer learning technique with a neural network based method(expectile neural networks). With transfer learning, instead of starting the learning process from scratch, we start from one task that have been learned when solving a different task. We leverage previous learnings and avoid starting from scratch to improve the model performance by passing information gained in different but related task. To demonstrate the performance, we run two real data sets. By using transfer learning algorithm, the performance of expectile neural networks is improved compared to expectile neural network without using transfer learning technique.
翻訳日:2022-06-22 19:57:02 公開日:2022-06-20
# 光の高次元角運動量状態の回帰

Regression of high dimensional angular momentum states of light ( http://arxiv.org/abs/2206.09873v1 )

ライセンス: Link先を確認
Danilo Zia, Riccardo Checchinato, Alessia Suprano, Taira Giordani, Emanuele Polino, Luca Innocenti, Alessandro Ferraro, Mauro Paternostro, Nicol\`o Spagnolo and Fabio Sciarrino(参考訳) 光の軌道角運動量 (orbital angular momentum, oam) は、古典光学と量子光学の両方に応用できる無限次元の光の自由度である。 しかし,OAM状態の可能性を十分に活用するには,実験条件下で発生した状態を特徴付ける信頼性の高い検出プラットフォームが必要である。 本稿では,空間強度分布の測定から入力OAM状態を再構成する手法を提案する。 ラゲール・ガウスモードの内在対称性から生じる問題を回避するために,2つの異なる基底にのみ投影する状態ごとに2つの強度プロファイルを用いて,収集したデータから入力状態が一意に復元されることを示す。 提案手法は,主成分分析と線形回帰による次元減少の複合的応用に基づいており,学習段階と試験段階の両方において計算コストが低い。 我々は、量子ウォークダイナミックスによって4次元のOAM状態を生成する、実際のフォトニックセットアップで我々のアプローチを実証する。 実証されたアプローチの高性能性と汎用性は、量子情報プロトコルにおける高次元状態の特徴付けに理想的なツールである。

The Orbital Angular Momentum (OAM) of light is an infinite-dimensional degree of freedom of light with several applications in both classical and quantum optics. However, to fully take advantage of the potential of OAM states, reliable detection platforms to characterize generated states in experimental conditions are needed. Here, we present an approach to reconstruct input OAM states from measurements of the spatial intensity distributions they produce. To obviate issues arising from intrinsic symmetry of Laguerre-Gauss modes, we employ a pair of intensity profiles per state projecting it only on two distinct bases, showing how this allows to uniquely recover input states from the collected data. Our approach is based on a combined application of dimensionality reduction via principal component analysis, and linear regression, and thus has a low computational cost during both training and testing stages. We showcase our approach in a real photonic setup, generating up-to-four-dimensional OAM states through a quantum walk dynamics. The high performances and versatility of the demonstrated approach make it an ideal tool to characterize high dimensional states in quantum information protocols.
翻訳日:2022-06-22 19:56:51 公開日:2022-06-20
# SoteriaFL: コミュニケーション圧縮によるプライベートフェデレーション学習のための統一フレームワーク

SoteriaFL: A Unified Framework for Private Federated Learning with Communication Compression ( http://arxiv.org/abs/2206.09888v1 )

ライセンス: Link先を確認
Zhize Li, Haoyu Zhao, Boyue Li, Yuejie Chi(参考訳) 無線ネットワークなどの帯域幅制限環境下での大規模機械学習を実現するため,通信圧縮による通信効率のよいフェデレーション学習アルゴリズムの設計において,近年大きな進歩を遂げている。 一方、特にクライアントレベルでのプライバシ保護は、高度な通信圧縮技術の存在下では、同時に対処されていない重要なデシダータムである。 本稿では,コミュニケーション圧縮によるプライベート・フェデレーション学習のコミュニケーション効率を向上させる統一フレームワークを提案する。 一般圧縮演算子と局所微分プライバシーの両方をエクスプロイットし、まず、微分プライベートな確率勾配降下に直接圧縮を適用する単純なアルゴリズムを検証し、その制限を識別する。 そこで我々は,一般の確率的分散還元勾配法や最先端のシフト圧縮スキームを含む局所勾配推定器の一般ファミリーを収容できる,プライベートフェデレーション学習のための統一フレームワークSoteriaFLを提案する。 本稿では,プライバシ,ユーティリティ,および通信複雑性の観点から,その性能上のトレードオフを包括的に評価する。soteraflでは,通信圧縮を伴わずに,他のプライベートフェデレーション学習アルゴリズムよりも,プライバシやユーティリティを犠牲にすることなく,より優れた通信複雑性を実現することが示されている。

To enable large-scale machine learning in bandwidth-hungry environments such as wireless networks, significant progress has been made recently in designing communication-efficient federated learning algorithms with the aid of communication compression. On the other end, privacy-preserving, especially at the client level, is another important desideratum that has not been addressed simultaneously in the presence of advanced communication compression techniques yet. In this paper, we propose a unified framework that enhances the communication efficiency of private federated learning with communication compression. Exploiting both general compression operators and local differential privacy, we first examine a simple algorithm that applies compression directly to differentially-private stochastic gradient descent, and identify its limitations. We then propose a unified framework SoteriaFL for private federated learning, which accommodates a general family of local gradient estimators including popular stochastic variance-reduced gradient methods and the state-of-the-art shifted compression scheme. We provide a comprehensive characterization of its performance trade-offs in terms of privacy, utility, and communication complexity, where SoteraFL is shown to achieve better communication complexity without sacrificing privacy nor utility than other private federated learning algorithms without communication compression.
翻訳日:2022-06-22 19:56:34 公開日:2022-06-20
# 物理形ニューラルネットワークにおける故障モードの批判的研究

Critical Investigation of Failure Modes in Physics-informed Neural Networks ( http://arxiv.org/abs/2206.09961v1 )

ライセンス: Link先を確認
Shamsulhaq Basir, Inanc Senocak(参考訳) 科学機械学習における最近のいくつかの研究は、ニューラルネットワークを偏微分方程式(PDE)に適用することへの関心を復活させた。 一般的なアプローチは、PDEの残余形態とその境界条件をソフトペナルティとして集約して、ニューラルネットワークを訓練するための複合目的/損失関数(一般的には物理インフォームドニューラルネットワーク(PINN)と呼ばれる)を構築することである。 本研究では,学習パラメータの損失景観と分布を可視化し,この目的関数の特定の定式化が,挑戦対象解に対処する際の収束を妨げたり防止したりする方法について説明する。 境界損失と領域損失の両方からなる純粋にデータ駆動型損失関数を構築する。 このデータ駆動損失関数と、物理インフォームド損失関数を別々に使用して、同じアーキテクチャで2つのニューラルネットワークモデルをトレーニングする。 境界項とドメイン損失項の間の比較不能なスケールが性能低下の原因であることを示す。 さらに, 複雑化が進む2つの楕円型問題に対する両手法の性能評価を行った。 それらの損失景観と学習パラメータ分布を解析した結果、複合目的関数の定式化による物理インフォームドニューラルネットワークは、最適化が困難で勾配の解消が困難である高い非凸損失曲面を生成することがわかった。

Several recent works in scientific machine learning have revived interest in the application of neural networks to partial differential equations (PDEs). A popular approach is to aggregate the residual form of the governing PDE and its boundary conditions as soft penalties into a composite objective/loss function for training neural networks, which is commonly referred to as physics-informed neural networks (PINNs). In the present study, we visualize the loss landscapes and distributions of learned parameters and explain the ways this particular formulation of the objective function may hinder or even prevent convergence when dealing with challenging target solutions. We construct a purely data-driven loss function composed of both the boundary loss and the domain loss. Using this data-driven loss function and, separately, a physics-informed loss function, we then train two neural network models with the same architecture. We show that incomparable scales between boundary and domain loss terms are the culprit behind the poor performance. Additionally, we assess the performance of both approaches on two elliptic problems with increasingly complex target solutions. Based on our analysis of their loss landscapes and learned parameter distributions, we observe that a physics-informed neural network with a composite objective function formulation produces highly non-convex loss surfaces that are difficult to optimize and are more prone to the problem of vanishing gradients.
翻訳日:2022-06-22 19:56:11 公開日:2022-06-20
# 情報ボトルネック計測による有用性・公平性・コンパクト性の実現

Achieving Utility, Fairness, and Compactness via Tunable Information Bottleneck Measures ( http://arxiv.org/abs/2206.10043v1 )

ライセンス: Link先を確認
Adam Gronowski, William Paul, Fady Alajaji, Bahman Gharesifard, Philippe Burlina(参考訳) センシティブな属性に基づいて識別するのではなく、正確で公平な機械学習アルゴリズムを設計することは、社会にとって重要な応用としてAIを受け入れることが最重要である。 本稿では,表現の実用性,公平性,コンパクト性に関する制約を組み込んだRFIB(R\enyi Fair Information Bottleneck Method)という,表現表現の公正性学習手法を提案し,画像分類に適用する。 我々のアプローチの重要な特徴は、人口統計学的パリティと等化オッズの両方を公平さの制約として考慮し、両方の基準をより微妙な満足度を可能にすることである。 変分的アプローチを用いて,本手法は,入力と符号化埋め込みのコンパクト性を測定する相互情報ib項に基づいて,古典的情報ボトルネック(ib)尺度を含む損失関数を導出し,r\'enyi divergence of order $\alpha$ の上限を確立することを示す。 3つの異なる画像データセット(eyepacs、celeba、fairface)を実験し、$\alpha$パラメータと他の2つの調整可能なibパラメータがユーティリティ/フェアのトレードオフ目標達成に与える影響を調べ、$\alpha$パラメータが表現のコンパクト性を制御するために使用できる追加の自由度を与えることを示した。 実用性,公正性,複合効用/フェアネスの測定値を用いて本手法の性能評価を行い,RFIBが現在の最先端手法よりも優れていることを示す。

Designing machine learning algorithms that are accurate yet fair, not discriminating based on any sensitive attribute, is of paramount importance for society to accept AI for critical applications. In this article, we propose a novel fair representation learning method termed the R\'enyi Fair Information Bottleneck Method (RFIB) which incorporates constraints for utility, fairness, and compactness of representation, and apply it to image classification. A key attribute of our approach is that we consider - in contrast to most prior work - both demographic parity and equalized odds as fairness constraints, allowing for a more nuanced satisfaction of both criteria. Leveraging a variational approach, we show that our objectives yield a loss function involving classical Information Bottleneck (IB) measures and establish an upper bound in terms of the R\'enyi divergence of order $\alpha$ on the mutual information IB term measuring compactness between the input and its encoded embedding. Experimenting on three different image datasets (EyePACS, CelebA, and FairFace), we study the influence of the $\alpha$ parameter as well as two other tunable IB parameters on achieving utility/fairness trade-off goals, and show that the $\alpha$ parameter gives an additional degree of freedom that can be used to control the compactness of the representation. We evaluate the performance of our method using various utility, fairness, and compound utility/fairness metrics, showing that RFIB outperforms current state-of-the-art approaches.
翻訳日:2022-06-22 19:55:49 公開日:2022-06-20
# シナリオベースプログラミングによるロボットの制約強化学習

Constrained Reinforcement Learning for Robotics via Scenario-Based Programming ( http://arxiv.org/abs/2206.09603v1 )

ライセンス: Link先を確認
Davide Corsi, Raz Yerushalmi, Guy Amir, Alessandro Farinelli, David Harel, Guy Katz(参考訳) 深部強化学習(DRL)は様々なロボット応用において画期的な成功を収めた。 自然な結果として、人間の安全と高価なハードウェアが関与する安全クリティカルなタスクにこのパラダイムが採用される。 この文脈では、DRLをベースとしたエージェントの性能を最適化し、その動作を保証することが重要である。 本稿では,ドメイン知識を制約付きDRLトレーニングループに組み込む新しい手法を提案する。 本手法は,このような知識をシンプルかつ直感的に指定できるシナリオベースのプログラミングパラダイムを活用する。 提案手法は,ロボットによるマップレスナビゲーションの問題,シミュレーション,実際のプラットフォーム上で検証した。 実験の結果,専門家の知識を活用すれば,エージェントの安全性と性能が劇的に向上することがわかった。

Deep reinforcement learning (DRL) has achieved groundbreaking successes in a wide variety of robotic applications. A natural consequence is the adoption of this paradigm for safety-critical tasks, where human safety and expensive hardware can be involved. In this context, it is crucial to optimize the performance of DRL-based agents while providing guarantees about their behavior. This paper presents a novel technique for incorporating domain-expert knowledge into a constrained DRL training loop. Our technique exploits the scenario-based programming paradigm, which is designed to allow specifying such knowledge in a simple and intuitive way. We validated our method on the popular robotic mapless navigation problem, in simulation, and on the actual platform. Our experiments demonstrate that using our approach to leverage expert knowledge dramatically improves the safety and the performance of the agent.
翻訳日:2022-06-22 19:25:41 公開日:2022-06-20
# 土壌水分検索のための機械学習データ融合モデル

A Machine Learning Data Fusion Model for Soil Moisture Retrieval ( http://arxiv.org/abs/2206.09649v1 )

ライセンス: Link先を確認
Vishal Batchu, Grey Nearing, Varun Gulshan(参考訳) 深層学習に基づく畳み込み回帰モデルを開発し, 上部5cmまでの土壌水分量の推定を行った。 入力予測器には、Sentinel-1(アクティブレーダ)、Sentinel-2(光学画像)、SMAP(パッシブレーダ)、SoilGridsの物理変数、GLDASの土壌水分場などが含まれる。 このモデルは2015年から2021年の間に全世界で約1300個のインサイトセンサーのデータに基づいて訓練・評価され、センサーごとの平均相関は0.727、ubRMSEは0.054となり、名目上の320mの解像度で土壌水分マップを作成することができる。 これらの結果は, 異なる場所における他の13の土壌水分処理と比較し, 重要な予測因子の同定にアブレーションを用いた。

We develop a deep learning based convolutional-regression model that estimates the volumetric soil moisture content in the top ~5 cm of soil. Input predictors include Sentinel-1 (active radar), Sentinel-2 (optical imagery), and SMAP (passive radar) as well as geophysical variables from SoilGrids and modelled soil moisture fields from GLDAS. The model was trained and evaluated on data from ~1300 in-situ sensors globally over the period 2015 - 2021 and obtained an average per-sensor correlation of 0.727 and ubRMSE of 0.054, and can be used to produce a soil moisture map at a nominal 320m resolution. These results are benchmarked against 13 other soil moisture works at different locations, and an ablation study was used to identify important predictors.
翻訳日:2022-06-22 19:25:29 公開日:2022-06-20
# サイバーセキュリティにおける機械学習の役割

The Role of Machine Learning in Cybersecurity ( http://arxiv.org/abs/2206.09707v1 )

ライセンス: Link先を確認
Giovanni Apruzzese, Pavel Laskov, Edgardo Montes de Oca, Wissam Mallouli, Luis Burdalo Rapa, Athanasios Vasileios Grammatopoulos, Fabio Di Franco(参考訳) 機械学習(ML)は、現在および将来の情報システムにとって重要な技術であり、多くのドメインが既にMLの機能を活用している。 しかし、サイバーセキュリティにおけるMLの展開はまだ初期段階にあり、研究と実践の間に大きな違いがあることが明らかになっている。 このような不一致は、現在の最先端技術における根本原因であり、サイバーセキュリティにおけるMLの役割を特定できない。 MLの潜在能力は、その長所と短所が広範に理解されない限り、決して公開されない。 この論文は、このトピックに関心を持つ潜在的な読者に対して、サイバーセキュリティ領域全体におけるMLの役割を包括的に理解する最初の試みである。 我々は、ヒューマン駆動検出手法に対するMLの利点と、サイバーセキュリティにおけるMLによって対処できる追加のタスクを強調した。 さらに、サイバーセキュリティにおける実際のMLデプロイメントに影響を与える様々な固有の問題を解明する。 最後に、様々な利害関係者が今後のサイバーセキュリティにおけるMLの発展にどのように貢献できるかを示す。 弊社のコントリビューションは、MLの産業的応用をサイバー脅威に対する防御として記述した2つの実例を補完するものである。

Machine Learning (ML) represents a pivotal technology for current and future information systems, and many domains already leverage the capabilities of ML. However, deployment of ML in cybersecurity is still at an early stage, revealing a significant discrepancy between research and practice. Such discrepancy has its root cause in the current state-of-the-art, which does not allow to identify the role of ML in cybersecurity. The full potential of ML will never be unleashed unless its pros and cons are understood by a broad audience. This paper is the first attempt to provide a holistic understanding of the role of ML in the entire cybersecurity domain -- to any potential reader with an interest in this topic. We highlight the advantages of ML with respect to human-driven detection methods, as well as the additional tasks that can be addressed by ML in cybersecurity. Moreover, we elucidate various intrinsic problems affecting real ML deployments in cybersecurity. Finally, we present how various stakeholders can contribute to future developments of ML in cybersecurity, which is essential for further progress in this field. Our contributions are complemented with two real case studies describing industrial applications of ML as defense against cyber-threats.
翻訳日:2022-06-22 19:25:12 公開日:2022-06-20
# geo-ni:光フィールドレンダリングのためのジオメトリアウェアニューラル補間

Geo-NI: Geometry-aware Neural Interpolation for Light Field Rendering ( http://arxiv.org/abs/2206.09736v1 )

ライセンス: Link先を確認
Gaochang Wu and Yuemei Zhou and Yebin Liu and Lu Fang and Tianyou Chai(参考訳) 本稿では,光場レンダリングのためのジオアウェアニューラル補間(geo-ni)フレームワークを提案する。 従来の学習ベースのアプローチでは、ニューラルネットワークが直接補間を行う能力に頼るか、ニューラル補間(NI)と呼ぶか、あるいはDepth Image-Based Rendering(DIBR)として知られる新しいビュー合成のためのシーン幾何学を探索する。 代わりに、新しいDIBRパイプラインでNIを起動することで、これらの2つのアプローチの背後にあるアイデアを取り入れます。 特に,geo-ni はまず,一連の深さ仮説によってせん断された入力光場を用いて ni を実行する。 そして、異なる深さ仮説の下で、復元品質に応じて新しい復元コストボリュームでせん断光フィールドを割り当ててdibrを実現する。 再構成コストは、深さ仮説の次元に沿って再構成された光場をブレンドすることにより最終的な出力光フィールドをレンダリングするためのブレンディングウェイトとして解釈される。 niとdibrの優位性を組み合わせることで、ジオニはシーン幾何の助けを借りて大きな異質なビューを描画できると同時に、深さが曖昧になりやすい場合の非ランベルト効果を再構築することができる。 様々なデータセットに対する大規模な実験は、提案した幾何対応光場レンダリングフレームワークの優れた性能を示す。

In this paper, we present a Geometry-aware Neural Interpolation (Geo-NI) framework for light field rendering. Previous learning-based approaches either rely on the capability of neural networks to perform direct interpolation, which we dubbed Neural Interpolation (NI), or explore scene geometry for novel view synthesis, also known as Depth Image-Based Rendering (DIBR). Instead, we incorporate the ideas behind these two kinds of approaches by launching the NI with a novel DIBR pipeline. Specifically, the proposed Geo-NI first performs NI using input light field sheared by a set of depth hypotheses. Then the DIBR is implemented by assigning the sheared light fields with a novel reconstruction cost volume according to the reconstruction quality under different depth hypotheses. The reconstruction cost is interpreted as a blending weight to render the final output light field by blending the reconstructed light fields along the dimension of depth hypothesis. By combining the superiorities of NI and DIBR, the proposed Geo-NI is able to render views with large disparity with the help of scene geometry while also reconstruct non-Lambertian effect when depth is prone to be ambiguous. Extensive experiments on various datasets demonstrate the superior performance of the proposed geometry-aware light field rendering framework.
翻訳日:2022-06-22 19:22:07 公開日:2022-06-20
# 実用的なディープフェイク検出:グローバルコンテキストにおける脆弱性

Practical Deepfake Detection: Vulnerabilities in Global Contexts ( http://arxiv.org/abs/2206.09842v1 )

ライセンス: Link先を確認
Yang A. Chuming, Daniel J. Wu, Ken Hong(参考訳) ディープラーニングの最近の進歩は、deepfakesとして知られるビデオのリアルなデジタル変更を可能にした。 この技術は、多くのディープフェイク検出アルゴリズムの開発を後押しし、偽情報や認証に関する重要な社会的関心を高める。 同時に、トレーニングデータと、その実践的効果を損なう可能性のあるWildビデオデータの間には、大きな違いがある。 我々は,faceforensics++データセットの破損した変種に対して,データ破損手法をシミュレートし,最先端のディープフェイク検出アルゴリズムの性能を調べる。 ディープフェイク検出モデルは、トレーニング時間の増加に伴うビデオ破損に対して頑健であるが、ビデオ品質の低下をシミュレートするビデオ破損に対して脆弱であることがわかった。 実際、ガボンセ大統領ボンゴ氏の新年の演説のビデオでは、元の動画を確実に認証するアルゴリズムが、この動画の非常に腐敗した変種を偽造であると判断している。 我々の研究は、グローバルな文脈における実践的なディープフェイク検出への技術と倫理の両方の道を開いた。

Recent advances in deep learning have enabled realistic digital alterations to videos, known as deepfakes. This technology raises important societal concerns regarding disinformation and authenticity, galvanizing the development of numerous deepfake detection algorithms. At the same time, there are significant differences between training data and in-the-wild video data, which may undermine their practical efficacy. We simulate data corruption techniques and examine the performance of a state-of-the-art deepfake detection algorithm on corrupted variants of the FaceForensics++ dataset. While deepfake detection models are robust against video corruptions that align with training-time augmentations, we find that they remain vulnerable to video corruptions that simulate decreases in video quality. Indeed, in the controversial case of the video of Gabonese President Bongo's new year address, the algorithm, which confidently authenticates the original video, judges highly corrupted variants of the video to be fake. Our work opens up both technical and ethical avenues of exploration into practical deepfake detection in global contexts.
翻訳日:2022-06-22 19:21:45 公開日:2022-06-20
# WiFiを用いた時空間人間の行動知覚

WiFi-based Spatiotemporal Human Action Perception ( http://arxiv.org/abs/2206.09867v1 )

ライセンス: Link先を確認
Yanling Hao, Zhiyuan Shi, Yuanwei Liu(参考訳) WiFiベースのヒューマンアクティビティ認識(HAR)は近年ホットな話題となり、ビデオベースのHARと比較して、LOS(Line-of-sight)の要求の排除やプライバシーの保護といった大きなメリットをもたらしている。 しかし、アクションを「見る」ためのWiFi信号を作ることは、非常に粗いため、まだ初期段階にある。 終端時空間WiFi信号ニューラルネット(STWNN)は、視線と視線の両方のシナリオにおいて、WiFiのみのセンシングを可能にする。 特に、3D畳み込みモジュールはWiFi信号の時空間連続性を探索することができ、特徴自己保持モジュールは支配的な特徴を明示的に維持することができる。 さらに、WiFi信号の新たな3D表現は、マルチスケールの時空間情報を保存するように設計されている。 さらに、小さな無線ビジョンデータセット(WVAR)が同期して収集され、STWNNの可能性をオクルージョンを通して「見る」ように拡張する。 WVARと他の3つの公開ベンチマークデータセットの定量および定性的な結果は、精度とシフト一貫性の両方に対するアプローチの有効性を示す。

WiFi-based sensing for human activity recognition (HAR) has recently become a hot topic as it brings great benefits when compared with video-based HAR, such as eliminating the demands of line-of-sight (LOS) and preserving privacy. Making the WiFi signals to 'see' the action, however, is quite coarse and thus still in its infancy. An end-to-end spatiotemporal WiFi signal neural network (STWNN) is proposed to enable WiFi-only sensing in both line-of-sight and non-line-of-sight scenarios. Especially, the 3D convolution module is able to explore the spatiotemporal continuity of WiFi signals, and the feature self-attention module can explicitly maintain dominant features. In addition, a novel 3D representation for WiFi signals is designed to preserve multi-scale spatiotemporal information. Furthermore, a small wireless-vision dataset (WVAR) is synchronously collected to extend the potential of STWNN to 'see' through occlusions. Quantitative and qualitative results on WVAR and the other three public benchmark datasets demonstrate the effectiveness of our approach on both accuracy and shift consistency.
翻訳日:2022-06-22 19:21:28 公開日:2022-06-20
# TikTokの#BlackLivesMatterコンテンツはいかにして抗議のパラダイムに挑戦するか

Short Video Uprising: How #BlackLivesMatter Content on TikTok Challenges the Protest Paradigm ( http://arxiv.org/abs/2206.09946v1 )

ライセンス: Link先を確認
Yanru Jiang, Xin Jin, Qinhao Deng(参考訳) この研究はTikTok (N = 8,173) を用いて、最近のBlack Lives Matter運動における抗議のパラダイムにどのように挑戦するかを調べる。 コンピュータによる視覚分析(コンピュータビジョン)は、マルチメディアコンテンツにおける4つの視覚的フレーム(批判、対立、スペクタクル、討論)の存在を特定するために用いられる。 記述的統計とt-testの結果は、暴動、対立、スペクタクルの3つの非合法化フレームがTikTokにはほとんど見られないことを示している。 しかしながら、3つの非合法化フレームはソーシャルメディアの可視性は低いが、意見、共有、フォロワー、期間によって測定されるように、議論フレーム、少数人物、非公式な情報源といった正当性のある要素は、一般的にTikTokのオーディエンスからは好まれていない。 この研究は、短い形式のビデオプラットフォームは、コンテンツクリエイター側の抗議パラダイムに挑戦する可能性があるが、ソーシャルメディアの可視性によって測定される観客の好みは、いまだに抗議パラダイムと適度に関連しているかもしれないと結論づけている。

This study uses TikTok (N = 8,173) to examine how short-form video platforms challenge the protest paradigm in the recent Black Lives Matter movement. A computer-mediated visual analysis, computer vision, is employed to identify the presence of four visual frames of protest (riot, confrontation, spectacle, and debate) in multimedia content. Results of descriptive statistics and the t-test indicate that the three delegitimizing frames - riot, confrontation, and spectacle - are rarely found on TikTok, whereas the debate frame, that empowers marginalized communities, dominates the public sphere. However, although the three delegitimizing frames receive lower social media visibility, as measured by views, likes, shares, followers, and durations, legitimizing elements, such as the debate frame, minority identities, and unofficial sources, are not generally favored by TikTok audiences. This study concludes that while short-form video platforms could potentially challenge the protest paradigm on the content creators' side, the audiences' preference as measured by social media visibility might still be moderately associated with the protest paradigm.
翻訳日:2022-06-22 19:21:05 公開日:2022-06-20
# 並列畳み込み畳み込みニューラルネットワークによるシーズーア検出と予測

Seizure Detection and Prediction by Parallel Memristive Convolutional Neural Networks ( http://arxiv.org/abs/2206.09951v1 )

ライセンス: Link先を確認
Chenqi Li, Corey Lammie, Xuening Dong, Amirali Amirsoleimani, Mostafa Rahimi Azghadi, Roman Genov(参考訳) 過去20年間、てんかん発作検出と予測アルゴリズムは急速に進化してきた。 しかし、性能が大幅に向上したにもかかわらず、従来の技術であるComplementary Metal-Oxide-Semiconductor (CMOS) を用いたハードウェアの実装は、特に多くの記録チャネルを使用する場合、電力と領域制限の設定が困難な課題である。 本稿では,SOTA CNNアーキテクチャと比較してネットワークパラメータが2~2,800倍少ない新しい低遅延並列畳み込みニューラルネットワーク(CNN)アーキテクチャを提案し,それぞれ,ボン脳波(EEG),CHB-MIT,SWEC-ETHZの発作データセットを用いて評価した場合に,てんかん発作検出の99.84%,てんかん発作予測の99.01%,97.54%の5倍のクロスバリデーション精度を実現する。 その後,抵抗ランダムアクセスメモリ(rram)デバイスを含むアナログクロスバーアレイ上にネットワークを実装し,システムcnnコンポーネントのハードウェア要件をシミュレートし,構成し,決定する包括的なベンチマークを提供する。 我々の知る限り、我々は、分離されたアナログクロスバー上で畳み込み層カーネルの実行を並列化し、SOTAハイブリッドMemristive-CMOS DLアクセラレータと比較して2桁の遅延削減を可能にする。 さらに,本システムに対する非理想性の影響について検討し,低ADC/DAC分解能による性能劣化を軽減するための量子化アウェアトレーニング(QAT)について検討する。 最後に,ron/roff memristor重みによる性能低下を軽減し,リトレーニングを必要とせず,最大32%の精度を回復するスタッキングウェイトオフセット手法を提案する。 CNNは22nm FDSOI CMOSプロセスで31.255mm$^2$の面積を占有しながら約2.791Wの電力を消費すると推定される。

During the past two decades, epileptic seizure detection and prediction algorithms have evolved rapidly. However, despite significant performance improvements, their hardware implementation using conventional technologies, such as Complementary Metal-Oxide-Semiconductor (CMOS), in power and area-constrained settings remains a challenging task; especially when many recording channels are used. In this paper, we propose a novel low-latency parallel Convolutional Neural Network (CNN) architecture that has between 2-2,800x fewer network parameters compared to SOTA CNN architectures and achieves 5-fold cross validation accuracy of 99.84% for epileptic seizure detection, and 99.01% and 97.54% for epileptic seizure prediction, when evaluated using the University of Bonn Electroencephalogram (EEG), CHB-MIT and SWEC-ETHZ seizure datasets, respectively. We subsequently implement our network onto analog crossbar arrays comprising Resistive Random-Access Memory (RRAM) devices, and provide a comprehensive benchmark by simulating, laying out, and determining hardware requirements of the CNN component of our system. To the best of our knowledge, we are the first to parallelize the execution of convolution layer kernels on separate analog crossbars to enable 2 orders of magnitude reduction in latency compared to SOTA hybrid Memristive-CMOS DL accelerators. Furthermore, we investigate the effects of non-idealities on our system and investigate Quantization Aware Training (QAT) to mitigate the performance degradation due to low ADC/DAC resolution. Finally, we propose a stuck weight offsetting methodology to mitigate performance degradation due to stuck RON/ROFF memristor weights, recovering up to 32% accuracy, without requiring retraining. The CNN component of our platform is estimated to consume approximately 2.791W of power while occupying an area of 31.255mm$^2$ in a 22nm FDSOI CMOS process.
翻訳日:2022-06-22 19:14:44 公開日:2022-06-20
# 非平衡重要度サンプリングのための最適流れの学習

Learning Optimal Flows for Non-Equilibrium Importance Sampling ( http://arxiv.org/abs/2206.09908v1 )

ライセンス: Link先を確認
Yu Cao and Eric Vanden-Eijnden(参考訳) 計算科学や統計推論における多くの応用は、未知の正規化定数を持つ複素高次元分布に対する期待値の計算とそれらの定数の推定を必要とする。 本稿では, 簡易なベース分布から試料を生成し, 流速場によって発生する流れに沿って試料を輸送し, 流速線に沿った平均値を求める手法を開発した。 この非平衡重要サンプリング(NEIS)戦略は実装が容易であり、任意の目標分布の計算に使用できる。 理論側では、速度場を目標に合わせる方法と、提案する推定器が完全な推定器である一般条件をゼロ分散で定める方法について議論する。 また,移動地図による対象物へのベース分布のマッピングに基づいて,neisとアプローチの接続を導出する。 計算の面では、ニューラルネットワークによる速度場を表現するためにディープラーニングを使い、ゼロ分散の最適化に向けてトレーニングする方法を示す。 これらの結果は高次元の例で数値的に説明され、速度場のトレーニングは、バニラ推定器と比較してNEIS推定器のばらつきを最大6桁減少させることができることを示す。 また,NEISはNealのAIS (Annealed importance sample) よりも優れた性能を示した。

Many applications in computational sciences and statistical inference require the computation of expectations with respect to complex high-dimensional distributions with unknown normalization constants, as well as the estimation of these constants. Here we develop a method to perform these calculations based on generating samples from a simple base distribution, transporting them along the flow generated by a velocity field, and performing averages along these flowlines. This non-equilibrium importance sampling (NEIS) strategy is straightforward to implement, and can be used for calculations with arbitrary target distributions. On the theory side we discuss how to tailor the velocity field to the target and establish general conditions under which the proposed estimator is a perfect estimator, with zero-variance. We also draw connections between NEIS and approaches based on mapping a base distribution onto a target via a transport map. On the computational side we show how to use deep learning to represent the velocity field by a neural network and train it towards the zero variance optimum. These results are illustrated numerically on high dimensional examples, where we show that training the velocity field can decrease the variance of the NEIS estimator by up to 6 order of magnitude compared to a vanilla estimator. We also show that NEIS performs better on these examples than Neal's annealed importance sampling (AIS).
翻訳日:2022-06-22 19:13:31 公開日:2022-06-20
# 自己スーパービジョンによるクロスドメイン音声認識の促進

Boosting Cross-Domain Speech Recognition with Self-Supervision ( http://arxiv.org/abs/2206.09783v1 )

ライセンス: Link先を確認
Han Zhu, Gaofeng Cheng, Jindong Wang, Wenxin Hou, Pengyuan Zhang, Yonghong Yan(参考訳) 自動音声認識(asr)のクロスドメイン性能は,トレーニング分布とテスト分布のミスマッチにより著しく阻害される可能性がある。 対象ドメインは通常ラベル付きデータがなく、音響レベルや言語レベルでドメインシフトが存在するため、非教師なしドメイン適応(UDA)をASRに実行することは困難である。 従来, 自己監督学習 (SSL) や擬似ラベル学習 (PL) は, 未ラベルデータの自己監督を利用してUDAに有効であることが示された。 しかし、これらの自己スーパービジョンは、以前の作業では対処できなかったミスマッチしたドメイン分布のパフォーマンス低下にも直面する。 この研究は、事前学習および微調整のパラダイムにおいて、ラベルなしデータを完全に活用する体系的なUDAフレームワークを提案する。 一方、SSL事前トレーニングモデルのドメインミスマッチを軽減するために、継続事前トレーニングとデータ再生技術を適用します。 一方,本研究では,PL手法に基づくドメイン適応型微調整手法を提案する。まず,誤った擬似ラベルに対する感度を下げるための二重分岐PL法を設計し,また,疑似ラベルの正当性を改善するための不確実性認識信頼度フィルタリング戦略を考案し,さらに,目的とするドメインの知識を取り入れた2段階のPL手法を導入し,より正確なドメインの擬似ラベルを生成する。 様々なクロスドメインシナリオにおける実験結果は、提案手法が効果的にクロスドメイン性能を高め、以前のアプローチを大きく上回ることを示した。

The cross-domain performance of automatic speech recognition (ASR) could be severely hampered due to the mismatch between training and testing distributions. Since the target domain usually lacks labeled data, and domain shifts exist at acoustic and linguistic levels, it is challenging to perform unsupervised domain adaptation (UDA) for ASR. Previous work has shown that self-supervised learning (SSL) or pseudo-labeling (PL) is effective in UDA by exploiting the self-supervisions of unlabeled data. However, these self-supervisions also face performance degradation in mismatched domain distributions, which previous work fails to address. This work presents a systematic UDA framework to fully utilize the unlabeled data with self-supervision in the pre-training and fine-tuning paradigm. On the one hand, we apply continued pre-training and data replay techniques to mitigate the domain mismatch of the SSL pre-trained model. On the other hand, we propose a domain-adaptive fine-tuning approach based on the PL technique with three unique modifications: Firstly, we design a dual-branch PL method to decrease the sensitivity to the erroneous pseudo-labels; Secondly, we devise an uncertainty-aware confidence filtering strategy to improve pseudo-label correctness; Thirdly, we introduce a two-step PL approach to incorporate target domain linguistic knowledge, thus generating more accurate target domain pseudo-labels. Experimental results on various cross-domain scenarios demonstrate that the proposed approach could effectively boost the cross-domain performance and significantly outperform previous approaches.
翻訳日:2022-06-22 18:46:05 公開日:2022-06-20
# makerere radio speech corpus:自動音声認識のためのluganda radio corpus

The Makerere Radio Speech Corpus: A Luganda Radio Corpus for Automatic Speech Recognition ( http://arxiv.org/abs/2206.09790v1 )

ライセンス: Link先を確認
Jonathan Mukiibi, Andrew Katumba, Joyce Nakatumba-Nabende, Ali Hussein, Josh Meyer(参考訳) 使用可能な無線監視自動音声認識(ASR)システムの構築は、アンダーリソース言語にとって難しい課題であるが、無線が公共通信や議論の主要な媒体である社会において、これは最重要課題である。 ウガンダの国連による最初の取り組みは、ソーシャルメディアから除外された農村の人々の認識を理解することが国家計画において重要であることを証明した。 しかし、これらの取り組みは、書き起こされた音声データセットの欠如によって挑戦されている。 本稿では、makererere artificial intelligence research labが155時間のlugandaラジオ音声コーパスをリリースする。 私たちの知る限り、これはサハラ以南のアフリカで最初に公開されたラジオデータセットである。 本稿では,音声コーパスの開発について述べるとともに,オープンソースの音声認識ツールキットであるCoqui STTツールキットを用いて,ベースラインLuganda ASRの性能評価結果を示す。

Building a usable radio monitoring automatic speech recognition (ASR) system is a challenging task for under-resourced languages and yet this is paramount in societies where radio is the main medium of public communication and discussions. Initial efforts by the United Nations in Uganda have proved how understanding the perceptions of rural people who are excluded from social media is important in national planning. However, these efforts are being challenged by the absence of transcribed speech datasets. In this paper, The Makerere Artificial Intelligence research lab releases a Luganda radio speech corpus of 155 hours. To our knowledge, this is the first publicly available radio dataset in sub-Saharan Africa. The paper describes the development of the voice corpus and presents baseline Luganda ASR performance results using Coqui STT toolkit, an open source speech recognition toolkit.
翻訳日:2022-06-22 18:45:36 公開日:2022-06-20
# 効率的でフレキシブルなサブラベル・アキュレートエネルギーの最小化

Efficient and Flexible Sublabel-Accurate Energy Minimization ( http://arxiv.org/abs/2206.09596v1 )

ライセンス: Link先を確認
Zhakshylyk Nurlanov, Daniel Cremers, Florian Bernard(参考訳) 本稿では、機械学習、コンピュータビジョン、パターン認識によく見られるデータと滑らかさの用語からなるエネルギー関数のクラスを最小化する問題に対処する。 離散最適化法は理論的最適性を保証することができるが、有限個のラベルしか扱えないため、ラベルの離散化バイアスに悩まされる。 既存の連続最適化手法はサブラベルの精度の高い解を見つけることができるが、大きなラベル空間では効率的ではない。 本研究では,連続モデルと離散モデルの両方の最適特性を利用する効率的なサブラベル精度手法を提案する。 問題を2つのステップに分けます (i)ラベル範囲選択のための大域的離散最適化、 (ii)選択された範囲におけるエネルギー関数の凸近似の効率的な連続部分ラベル精度の局所的洗練。 これにより、連続凸緩和法と同じレベルの精度を維持しつつ、時間とメモリ効率の向上を実現でき、さらに、離散的手法のレベルでの理論的最適性を保証することができます。 最後に、一対の滑らかさの一般項に対する提案手法の柔軟性を示し、広範囲の正規化に適用可能であることを示す。 画像デノージング問題の例を示す実験は,提案手法の特性を示すものである。 コード再現実験は \url{https://github.com/nurlanov-zh/sublabel-accurate-alpha-expansion} で利用可能である。

We address the problem of minimizing a class of energy functions consisting of data and smoothness terms that commonly occur in machine learning, computer vision, and pattern recognition. While discrete optimization methods are able to give theoretical optimality guarantees, they can only handle a finite number of labels and therefore suffer from label discretization bias. Existing continuous optimization methods can find sublabel-accurate solutions, but they are not efficient for large label spaces. In this work, we propose an efficient sublabel-accurate method that utilizes the best properties of both continuous and discrete models. We separate the problem into two sequential steps: (i) global discrete optimization for selecting the label range, and (ii) efficient continuous sublabel-accurate local refinement of a convex approximation of the energy function in the chosen range. Doing so allows us to achieve a boost in time and memory efficiency while practically keeping the accuracy at the same level as continuous convex relaxation methods, and in addition, providing theoretical optimality guarantees at the level of discrete methods. Finally, we show the flexibility of the proposed approach to general pairwise smoothness terms, so that it is applicable to a wide range of regularizations. Experiments on the illustrating example of the image denoising problem demonstrate the properties of the proposed method. The code reproducing experiments is available at \url{https://github.com/nurlanov-zh/sublabel-accurate-alpha-expansion}.
翻訳日:2022-06-22 18:42:09 公開日:2022-06-20
# CVPR'2022 AQTCチャレンジの勝者:2段階関数中心アプローチ

Winning the CVPR'2022 AQTC Challenge: A Two-stage Function-centric Approach ( http://arxiv.org/abs/2206.09597v1 )

ライセンス: Link先を確認
Shiwei Wu, Weidong He, Tong Xu, Hao Wang, Enhong Chen(参考訳) AQTC(Affordance-centric Question-driven Task Completion for Egocentric Assistant)は、AIアシスタントが指導ビデオやスクリプトから学習し、ユーザのステップバイステップをガイドするのに役立つ新しいタスクである。 本稿では,aqtcを2段階の関数中心のアプローチで扱う。これは質問2関数モジュールからなり,質問を関連する関数と関数2アンスワーモジュールで基礎化し,過去のステップに基づいて行動を予測する。 各モジュールの可能なソリューションをいくつか評価し,与えられたベースラインと比較して有意な利益を得た。 我々のコードは \url{https://github.com/starsholic/LOVEU-CVPR22-AQTC} で入手できる。

Affordance-centric Question-driven Task Completion for Egocentric Assistant(AQTC) is a novel task which helps AI assistant learn from instructional videos and scripts and guide the user step-by-step. In this paper, we deal with the AQTC via a two-stage Function-centric approach, which consists of Question2Function Module to ground the question with the related function and Function2Answer Module to predict the action based on the historical steps. We evaluated several possible solutions in each module and obtained significant gains compared to the given baselines. Our code is available at \url{https://github.com/starsholic/LOVEU-CVPR22-AQTC}.
翻訳日:2022-06-22 18:41:47 公開日:2022-06-20
# sj-hd^2r : 選択的関節高ダイナミックレンジと動的シーンのデノージングイメージング

SJ-HD^2R: Selective Joint High Dynamic Range and Denoising Imaging for Dynamic Scenes ( http://arxiv.org/abs/2206.09611v1 )

ライセンス: Link先を確認
Wei Li, Shuai Xiao, Tianhong Dai, Shanxin Yuan, Tao Wang, Cheng Li, Fenglong Song(参考訳) 複数の低ダイナミックレンジ (LDR) 画像からの高ダイナミックレンジ (HDR) イメージングの主な課題は、ゴーストアーティファクト、動きのぼやけ、強調の低忠実さである。 これらの問題は、以前の方法の参照フレームとして中間露出画像を使用することから生じる。 そこで本研究では,これらの問題を回避するために,未公開画像を参照することを提案する。 しかし、露光画像の暗黒領域における重騒音は新しい問題となっている。 そこで我々は,2つのサブネットワークを含む共同HDRとデノナイズパイプラインを提案する。 i) 露出先行情報を利用して入力LDRを適応的に復調するプレデノナイズネットワーク(PreDNNet) (II) ピラミッドカスケード核融合ネットワーク(PCFNet) を複数スケールで導入し, 注意機構とカスケード構造を導入する。 この2つのパラダイムをさらに活用するために,シナリオ固有の事前設定を用いて,93.3$$$$$ 以上の精度で経路選択を行う選択的および合同型hdrおよびデノージング(sj-hd$^2$r)イメージングフレームワークを提案する。 我々は,HDRとdenoisingのさまざまなシーンを含む最初の共同HDRとdenoisingベンチマークデータセットを作成し,参照画像の切り替えをサポートする。 その結果,本手法は従来手法よりも優れた性能を示した。

Ghosting artifacts, motion blur, and low fidelity in highlight are the main challenges in High Dynamic Range (HDR) imaging from multiple Low Dynamic Range (LDR) images. These issues come from using the medium-exposed image as the reference frame in previous methods. To deal with them, we propose to use the under-exposed image as the reference to avoid these issues. However, the heavy noise in dark regions of the under-exposed image becomes a new problem. Therefore, we propose a joint HDR and denoising pipeline, containing two sub-networks: (i) a pre-denoising network (PreDNNet) to adaptively denoise input LDRs by exploiting exposure priors; (ii) a pyramid cascading fusion network (PCFNet), introducing an attention mechanism and cascading structure in a multi-scale manner. To further leverage these two paradigms, we propose a selective and joint HDR and denoising (SJ-HD$^2$R) imaging framework, utilizing scenario-specific priors to conduct the path selection with an accuracy of more than 93.3$\%$. We create the first joint HDR and denoising benchmark dataset, which contains a variety of challenging HDR and denoising scenes and supports the switching of the reference image. Extensive experiment results show that our method achieves superior performance to previous methods.
翻訳日:2022-06-22 18:41:35 公開日:2022-06-20
# 効率的なunetsとtransformerを用いた高分解能画像の意味的ラベリング

Semantic Labeling of High Resolution Images Using EfficientUNets and Transformers ( http://arxiv.org/abs/2206.09731v1 )

ライセンス: Link先を確認
Hasan AlMarzouqi and Lyes Saad Saoud(参考訳) セマンティックセグメンテーションは大量のデータを扱う際に高いレベルの特性を学ぶアプローチを必要とする。 畳み込みニューラルネットワーク(CNN)はこの目的を達成するためにユニークで適応的な特徴を学ぶことができる。 しかし、リモートセンシング画像のサイズが大きく空間解像度が高いため、これらのネットワークはシーン全体を効率的に分析することはできない。 近年、ディープ・トランスフォーマーは、画像内の異なるオブジェクト間のグローバルな相互作用を記録する能力を証明している。 本稿では,畳み込みニューラルネットワークと変圧器を組み合わせた新たなセグメンテーションモデルを提案する。 さらに,提案モデルには,マルチモーダル入力とネットワーク出力を効率的に表現する2つの融合層が含まれている。 入力融合層は、画像内容と標高マップ(DSM)の関係を要約した特徴写像を抽出する。 出力融合層は、クラス固有の特徴抽出層と損失関数を用いてクラスラベルを識別する、新しいマルチタスクセグメンテーション戦略を使用する。 最後に、すべての未知のクラスラベルを最も近い隣人に変換するために、高速マーチングメソッドが使用される。 提案手法は,最先端技術に比べてセグメント化精度が向上することを示す。

Semantic segmentation necessitates approaches that learn high-level characteristics while dealing with enormous amounts of data. Convolutional neural networks (CNNs) can learn unique and adaptive features to achieve this aim. However, due to the large size and high spatial resolution of remote sensing images, these networks cannot analyze an entire scene efficiently. Recently, deep transformers have proven their capability to record global interactions between different objects in the image. In this paper, we propose a new segmentation model that combines convolutional neural networks with transformers, and show that this mixture of local and global feature extraction techniques provides significant advantages in remote sensing segmentation. In addition, the proposed model includes two fusion layers that are designed to represent multi-modal inputs and output of the network efficiently. The input fusion layer extracts feature maps summarizing the relationship between image content and elevation maps (DSM). The output fusion layer uses a novel multi-task segmentation strategy where class labels are identified using class-specific feature extraction layers and loss functions. Finally, a fast-marching method is used to convert all unidentified class labels to their closest known neighbors. Our results demonstrate that the proposed methodology improves segmentation accuracy compared to state-of-the-art techniques.
翻訳日:2022-06-22 18:41:11 公開日:2022-06-20
# クラス不均衡学習による予防接種後の有害事象の重症度予測に関する研究

A Comparative Study on Application of Class-Imbalance Learning for Severity Prediction of Adverse Events Following Immunization ( http://arxiv.org/abs/2206.09752v1 )

ライセンス: Link先を確認
Ning Chen, Zhengke Sun, Tong Jia(参考訳) 中国cdcと共同で, 免疫接種後の有害事象に関するデータに基づいて, その後の副作用のある小児の入院を予測できる予測システムを提案する。 データから複数の特徴を抽出し,分類対象として「ホスピタリゼーションの有無」を選択した。 データを不均衡にするため、RUSBoostアルゴリズムのトレーニングと改良に様々なクラス不均衡学習手法を用いた。 実験の結果,改良されたRUSBoostは,これらのアルゴリズムのうち,ROC曲線が最も高い領域を有することがわかった。 さらに,これらのクラス不均衡学習手法を一般的な機械学習アルゴリズムと比較した。 改善されたRUSBoostと動的Webリソース開発技術を組み合わせて,関連する医療従事者を対象とした情報入力と接種反応予測機能を備えた評価システムを構築した。

In collaboration with the Liaoning CDC, China, we propose a prediction system to predict the subsequent hospitalization of children with adverse reactions based on data on adverse events following immunization. We extracted multiple features from the data, and selected "hospitalization or not" as the target for classification. Since the data are imbalanced, we used various class-imbalance learning methods for training and improved the RUSBoost algorithm. Experimental results show that the improved RUSBoost has the highest Area Under the ROC Curve on the target among these algorithms. Additionally, we compared these class-imbalance learning methods with some common machine learning algorithms. We combined the improved RUSBoost with dynamic web resource development techniques to build an evaluation system with information entry and vaccination response prediction capabilities for relevant medical practitioners.
翻訳日:2022-06-22 18:21:08 公開日:2022-06-20
# データ拡張によるフェデレーション学習におけるデータ不均一性の軽減

Mitigating Data Heterogeneity in Federated Learning with Data Augmentation ( http://arxiv.org/abs/2206.09979v1 )

ライセンス: Link先を確認
Artur Back de Luca, Guojun Zhang, Xi Chen, Yaoliang Yu(参考訳) フェデレートラーニング(FL)は、集中型モデルをトレーニングし、ローカルに分散したモデルを融合させることで、ユーザのプライバシを確保しながら、重要なフレームワークである。 この設定では、1つの大きな障害はデータ不均一性、すなわち各クライアントが独立に独立に分散した(非IID)データを持っていることである。 これは、各クライアントを別のドメインとして扱うことができるドメイン一般化(DG)のコンテキストに似ている。 しかし、DGにおける多くのアプローチは、アルゴリズムの観点からデータ不均一性に取り組む一方で、最近の証拠は、データ拡張が同等またはより大きなパフォーマンスをもたらすことを示唆している。 この接続により、一般的なDGアルゴリズムのフェデレーションバージョンを提示し、適切なデータ拡張を適用することにより、フェデレーション設定におけるデータの均一性を緩和し、未知のクライアントに対して高い精度を得ることができることを示す。 データ拡張機能を備えることで、最も基本的なフェデレーション平均化アルゴリズムでさえも、多くのスパーザー通信で最先端のパフォーマンスを実現することができる。

Federated Learning (FL) is a prominent framework that enables training a centralized model while securing user privacy by fusing local, decentralized models. In this setting, one major obstacle is data heterogeneity, i.e., each client having non-identically and independently distributed (non-IID) data. This is analogous to the context of Domain Generalization (DG), where each client can be treated as a different domain. However, while many approaches in DG tackle data heterogeneity from the algorithmic perspective, recent evidence suggests that data augmentation can induce equal or greater performance. Motivated by this connection, we present federated versions of popular DG algorithms, and show that by applying appropriate data augmentation, we can mitigate data heterogeneity in the federated setting, and obtain higher accuracy on unseen clients. Equipped with data augmentation, we can achieve state-of-the-art performance using even the most basic Federated Averaging algorithm, with much sparser communication.
翻訳日:2022-06-22 18:20:54 公開日:2022-06-20
# 決定論的性能評価指標のクラス不均衡感度の測定

Measuring Class-Imbalance Sensitivity of Deterministic Performance Evaluation Metrics ( http://arxiv.org/abs/2206.09981v1 )

ライセンス: Link先を確認
Azim Ahmadzadeh, Rafal A. Angryk(参考訳) クラス不均衡問題は、多くの現実世界の機械学習タスク、特にまれな事象分類問題に内在する。 不均衡データの影響と治療は広く知られているが、計量のクラス不均衡に対する感度の大きさはほとんど注目されていない。 その結果、敏感な指標は除外されることが多いが、感度は限界しか持たない。 本稿では,クラス不均衡に対するメトリクスの感度を定量化する直感的評価フレームワークを提案する。 さらに,指標の感度に対数的挙動があること,つまり,高い不均衡比が指標の感度の低下に関係していることが興味深い。 当社のフレームワークは,メトリクスに対するクラス不均衡の影響を直感的に理解する。 これは多くの一般的な間違い、特に、すべてのメトリクスの量が異なるクラス不均衡比で同等であるという強調されていない誤った仮定を避けるのに役立つと私たちは信じています。

The class-imbalance issue is intrinsic to many real-world machine learning tasks, particularly to the rare-event classification problems. Although the impact and treatment of imbalanced data is widely known, the magnitude of a metric's sensitivity to class imbalance has attracted little attention. As a result, often the sensitive metrics are dismissed while their sensitivity may only be marginal. In this paper, we introduce an intuitive evaluation framework that quantifies metrics' sensitivity to the class imbalance. Moreover, we reveal an interesting fact that there is a logarithmic behavior in metrics' sensitivity meaning that the higher imbalance ratios are associated with the lower sensitivity of metrics. Our framework builds an intuitive understanding of the class-imbalance impact on metrics. We believe this can help avoid many common mistakes, specially the less-emphasized and incorrect assumption that all metrics' quantities are comparable under different class-imbalance ratios.
翻訳日:2022-06-22 18:20:35 公開日:2022-06-20
# ランダム化実験による深層学習予測におけるトレーニングデータの効果の測定

Measuring the Effect of Training Data on Deep Learning Predictions via Randomized Experiments ( http://arxiv.org/abs/2206.10013v1 )

ライセンス: Link先を確認
Jinkun Lin, Anqi Zhang, Mathias Lecuyer, Jinyang Li, Aurojit Panda, Siddhartha Sen(参考訳) 本研究では,学習データポイントがディープラーニングモデルの振る舞いに与える影響を推定する新しい原則付きアルゴリズムを開発した。 このアルゴリズムは、与えられた分布からサンプリングされたトレーニングデータのサブセットにデータポイントを追加することによる期待値(平均値)の限界効果を測定する量であるameを推定する。 均一分布から部分集合がサンプリングされると、AMEはよく知られたShapley値に還元される。 我々は、複数のサブモデルをトレーニングするためにトレーニングデータの異なるサブセットをサンプリングし、各サブモデルの振る舞いを評価する。 次に、LASSO回帰を用いて各データポイントのAMEを、サブセット構成に基づいて共同で推定する。 空間的仮定(k \ll N$ datapoints have large AME)の下では、推定器は$O(k\log N)$ランダム化されたサブモデルトレーニングのみを必要とし、最前のシェープ値推定器を改善する。

We develop a new, principled algorithm for estimating the contribution of training data points to the behavior of a deep learning model, such as a specific prediction it makes. Our algorithm estimates the AME, a quantity that measures the expected (average) marginal effect of adding a data point to a subset of the training data, sampled from a given distribution. When subsets are sampled from the uniform distribution, the AME reduces to the well-known Shapley value. Our approach is inspired by causal inference and randomized experiments: we sample different subsets of the training data to train multiple submodels, and evaluate each submodel's behavior. We then use a LASSO regression to jointly estimate the AME of each data point, based on the subset compositions. Under sparsity assumptions ($k \ll N$ datapoints have large AME), our estimator requires only $O(k\log N)$ randomized submodel trainings, improving upon the best prior Shapley value estimators.
翻訳日:2022-06-22 18:20:21 公開日:2022-06-20
# フィードバックグラフによる確率的オンライン学習:有限時間と漸近的最適性

Stochastic Online Learning with Feedback Graphs: Finite-Time and Asymptotic Optimality ( http://arxiv.org/abs/2206.10022v1 )

ライセンス: Link先を確認
Teodor V. Marinov and Mehryar Mohri and Julian Zimmert(参考訳) フィードバックグラフを用いた確率的オンライン学習の問題を再検討し、漸近的にも有限時間的にも最適なアルゴリズムを考案することを目指している。 意外なことに、最適有限時間後悔の概念は、この文脈において一意に定義された性質ではなく、一般に、漸近速度から切り離されていることを示す。 代替選択肢を議論し、我々が議論する有限時間最適性の概念を提唱する。 その概念に対して、有限時間および漸近的に準最適後悔を認めるアルゴリズムを与える。

We revisit the problem of stochastic online learning with feedback graphs, with the goal of devising algorithms that are optimal, up to constants, both asymptotically and in finite time. We show that, surprisingly, the notion of optimal finite-time regret is not a uniquely defined property in this context and that, in general, it is decoupled from the asymptotic rate. We discuss alternative choices and propose a notion of finite-time optimality that we argue is \emph{meaningful}. For that notion, we give an algorithm that admits quasi-optimal regret both in finite-time and asymptotically.
翻訳日:2022-06-22 18:20:03 公開日:2022-06-20
# QuAFL: 平均的フェデレーションは非同期かつ通信効率が良い

QuAFL: Federated Averaging Can Be Both Asynchronous and Communication-Efficient ( http://arxiv.org/abs/2206.10032v1 )

ライセンス: Link先を確認
Hossein Zakerinia, Shayan Talaei, Giorgi Nadiradze, Dan Alistarh(参考訳) Federated Learning(FL)は、マシンラーニングモデルの大規模分散トレーニングを可能にするとともに、プライバシ保証も提供する、新たなパラダイムである。 本研究では,大ノード数へのフェデレーション最適化のスケールアップにおける2つの課題として,中央局と個別の計算ノード間の緊密な同期の必要性と,中央サーバとクライアント間の通信コストの大幅な増大を挙げる。 具体的には、非同期通信と通信圧縮の両方をサポートする古典的フェデレーション平均化アルゴリズム(FedAvg)を提案する。 システム緩和にもかかわらず、我々のアルゴリズムは基本的に、適切なパラメータ設定の下で、FedAvgの最もよく知られた境界と一致することを示す新しい分析手法を提供する。 実験的な側面から,我々のアルゴリズムは,標準的なフェデレーションタスクの高速な実践的収束を保証する。

Federated Learning (FL) is an emerging paradigm to enable the large-scale distributed training of machine learning models, while still providing privacy guarantees. In this work, we jointly address two of the main practical challenges when scaling federated optimization to large node counts: the need for tight synchronization between the central authority and individual computing nodes, and the large communication cost of transmissions between the central server and clients. Specifically, we present a new variant of the classic federated averaging (FedAvg) algorithm, which supports both asynchronous communication and communication compression. We provide a new analysis technique showing that, in spite of these system relaxations, our algorithm essentially matches the best known bounds for FedAvg, under reasonable parameter settings. On the experimental side, we show that our algorithm ensures fast practical convergence for standard federated tasks.
翻訳日:2022-06-22 18:19:53 公開日:2022-06-20
# 変分量子と量子誘発クラスタリング

Variational Quantum and Quantum-Inspired Clustering ( http://arxiv.org/abs/2206.09893v1 )

ライセンス: Link先を確認
Pablo Bermejo, Roman Orus(参考訳) 本稿では,変分量子回路に基づくクラスタリングのための量子アルゴリズムを提案する。 このアルゴリズムはデータを多くのクラスタに分類することができ、数量子のノイズ中間スケール量子(NISQ)デバイスで容易に実装できる。 このアルゴリズムの考え方は、クラスタリング問題を最適化に還元し、非直交量子ビット状態と組み合わせた変分量子固有解法(VQE)によって解決することに依存する。 実際には、この方法は通常の計算基底ではなくターゲットヒルベルト空間の最大直交状態を使い、少数の量子ビットでも多数のクラスタを考慮できる。 アルゴリズムを実データを用いた数値シミュレーションでベンチマークし,単一キュービットでも優れた性能を示す。 さらに、このアルゴリズムのテンソルネットワークシミュレーションは、構成上、現在の古典的ハードウェア上で実行できる量子インスパイアされたクラスタリングアルゴリズムを実装している。

Here we present a quantum algorithm for clustering data based on a variational quantum circuit. The algorithm allows to classify data into many clusters, and can easily be implemented in few-qubit Noisy Intermediate-Scale Quantum (NISQ) devices. The idea of the algorithm relies on reducing the clustering problem to an optimization, and then solving it via a Variational Quantum Eigensolver (VQE) combined with non-orthogonal qubit states. In practice, the method uses maximally-orthogonal states of the target Hilbert space instead of the usual computational basis, allowing for a large number of clusters to be considered even with few qubits. We benchmark the algorithm with numerical simulations using real datasets, showing excellent performance even with one single qubit. Moreover, a tensor network simulation of the algorithm implements, by construction, a quantum-inspired clustering algorithm that can run on current classical hardware.
翻訳日:2022-06-22 18:13:35 公開日:2022-06-20
# 拡張空間PMDP計画による群衆の意図認識ナビゲーション

Intention-Aware Navigation in Crowds with Extended-Space POMDP Planning ( http://arxiv.org/abs/2206.10028v1 )

ライセンス: Link先を確認
Himanshu Gupta, Bradley Hayes, Zachary Sunberg(参考訳) 本稿では,環境に他のエージェントが導入するマルチモーダル不確実性が存在する場合に自律的ナビゲーションの問題に対処するハイブリッドオンライン部分可観測マルコフ決定プロセス(pomdp)計画システムを提案する。 特に,歩行者の密集した群集や障害物の中での自律走行の問題点を考察する。 この問題に対する一般的なアプローチは、まず不確実性に関するアドホックな仮定を持つ完全なプランナー(例えばHybrid A*)を使用してパスを生成し、続いてオンラインツリーベースのPOMDPソルバを使用して問題の限られた側面(すなわち経路に沿った速度)を制御して不確実性について推論する。 我々は、より柔軟で効率的なソリューションを実現するために、pomdpプランナーがより多くの自由度(例えば、速度と方向の両方)を制御できる、より有能でレスポンシブなリアルタイムアプローチを提案する。 この修正は、POMDPプランナーが考えるべき状態空間の領域を大幅に拡張し、リアルタイム制御が持つ限られた計算予算内で効果的なロールアウトポリシーを見つけることの重要性を著しく高めた。 我々の重要な洞察は、POMDPプランニングツリーが限られた地平線探索中に到達する可能性のあるすべての状態に対する効率的なロールアウトポリシーを迅速に生成するための先行手段として、マルチクエリモーションプランニング技術(例えば、確率的ロードマップや高速マーキング手法)を使用することである。 提案手法は, 長期計画地平線を有する密集した動的環境においても, 従来手法よりも安全かつ効率のよい軌道を生成する。

This paper presents a hybrid online Partially Observable Markov Decision Process (POMDP) planning system that addresses the problem of autonomous navigation in the presence of multi-modal uncertainty introduced by other agents in the environment. As a particular example, we consider the problem of autonomous navigation in dense crowds of pedestrians and among obstacles. Popular approaches to this problem first generate a path using a complete planner (e.g., Hybrid A*) with ad-hoc assumptions about uncertainty, then use online tree-based POMDP solvers to reason about uncertainty with control over a limited aspect of the problem (i.e. speed along the path). We present a more capable and responsive real-time approach enabling the POMDP planner to control more degrees of freedom (e.g., both speed AND heading) to achieve more flexible and efficient solutions. This modification greatly extends the region of the state space that the POMDP planner must reason over, significantly increasing the importance of finding effective roll-out policies within the limited computational budget that real time control affords. Our key insight is to use multi-query motion planning techniques (e.g., Probabilistic Roadmaps or Fast Marching Method) as priors for rapidly generating efficient roll-out policies for every state that the POMDP planning tree might reach during its limited horizon search. Our proposed approach generates trajectories that are safe and significantly more efficient than the previous approach, even in densely crowded dynamic environments with long planning horizons.
翻訳日:2022-06-22 18:13:21 公開日:2022-06-20
# リンク予測のための2次元weisfeiler-lehmanグラフニューラルネットワーク

Two-Dimensional Weisfeiler-Lehman Graph Neural Networks for Link Prediction ( http://arxiv.org/abs/2206.09567v1 )

ライセンス: Link先を確認
Yang Hu, Xiyuan Wang, Zhouchen Lin, Pan Li, Muhan Zhang(参考訳) リンク予測はグラフニューラルネットワーク(GNN)の重要な応用の1つである。 リンク予測のためのほとんどの既存のGNNは、1次元Weisfeiler-Lehman (1-WL) テストに基づいている。 1-wl-gnnsは、まず隣り合うノードの特徴を中央に反復的に渡してノード表現を計算し、次にペアワイズノード表現を集約してリンク表現を得る。 従来の研究で指摘されていたように、この2段階の手順は、リンクレベルではなくノードレベルの表現を自然に学習する1-WL-GNNのように、低判別能力をもたらす。 本稿では,<textit{two-dimensional Weisfeiler-Lehman (2-WL) test} に基づいてノード対(リンク)表現を直接得るための,全く異なるアプローチを提案する。 2-WLテストでは、ノードの代わりにリンク(2-tuples)を直接メッセージパッシングユニットとして使用するため、リンク表現を直接取得することができる。 理論的には、2-WLテストの表現力を解析し、非同型リンクを識別し、1-WLよりも優れたリンク判別力を証明する。 異なる2-WLモデルに基づいてリンク予測のための新しい2-WL-GNNモデルを提案する。 幅広い実世界のデータセットの実験は、最先端のベースラインに対する競合性能と、通常の1-WL-GNNよりも優れた性能を示している。

Link prediction is one important application of graph neural networks (GNNs). Most existing GNNs for link prediction are based on one-dimensional Weisfeiler-Lehman (1-WL) test. 1-WL-GNNs first compute node representations by iteratively passing neighboring node features to the center, and then obtain link representations by aggregating the pairwise node representations. As pointed out by previous works, this two-step procedure results in low discriminating power, as 1-WL-GNNs by nature learn node-level representations instead of link-level. In this paper, we study a completely different approach which can directly obtain node pair (link) representations based on \textit{two-dimensional Weisfeiler-Lehman (2-WL) tests}. 2-WL tests directly use links (2-tuples) as message passing units instead of nodes, and thus can directly obtain link representations. We theoretically analyze the expressive power of 2-WL tests to discriminate non-isomorphic links, and prove their superior link discriminating power than 1-WL. Based on different 2-WL variants, we propose a series of novel 2-WL-GNN models for link prediction. Experiments on a wide range of real-world datasets demonstrate their competitive performance to state-of-the-art baselines and superiority over plain 1-WL-GNNs.
翻訳日:2022-06-22 17:47:38 公開日:2022-06-20
# 操作パラメータの解釈可能な機械学習最適化(InterOpt)--高効率シェールガス開発を事例として

Interpretable machine learning optimization (InterOpt) for operational parameters: a case study of highly-efficient shale gas development ( http://arxiv.org/abs/2206.09606v1 )

ライセンス: Link先を確認
Yuntian Chen, Dongxiao Zhang, Qun Zhao, and Dexun Liu(参考訳) 解釈可能な機械学習に基づいて動作パラメータを最適化するInterOptというアルゴリズムを提案し,シェールガス開発を最適化することで実演する。 InterOpt consists of three parts: a neural network is used to construct an emulator of the actual drilling and hydraulic fracturing process in the vector space (i.e., virtual environment); the Sharpley value method in interpretable machine learning is applied to analyzing the impact of geological and operational parameters in each well (i.e., single well feature impact analysis); and ensemble randomized maximum likelihood (EnRML) is conducted to optimize the operational parameters to comprehensively improve the efficiency of shale gas development and reduce the average cost. 実験では、InterOptは特定の地質条件に従ってそれぞれの井戸に異なる掘削計画とフラクチャリング計画を提供し、最終的に104井戸のケーススタディで9.7%のコスト削減を達成した。

An algorithm named InterOpt for optimizing operational parameters is proposed based on interpretable machine learning, and is demonstrated via optimization of shale gas development. InterOpt consists of three parts: a neural network is used to construct an emulator of the actual drilling and hydraulic fracturing process in the vector space (i.e., virtual environment); the Sharpley value method in interpretable machine learning is applied to analyzing the impact of geological and operational parameters in each well (i.e., single well feature impact analysis); and ensemble randomized maximum likelihood (EnRML) is conducted to optimize the operational parameters to comprehensively improve the efficiency of shale gas development and reduce the average cost. In the experiment, InterOpt provides different drilling and fracturing plans for each well according to its specific geological conditions, and finally achieved an average cost reduction of 9.7% for a case study with 104 wells.
翻訳日:2022-06-22 17:47:16 公開日:2022-06-20
# GiDR-DUN; Gradient dimensionality Reduction -- 差分と統一

GiDR-DUN; Gradient Dimensionality Reduction -- Differences and Unification ( http://arxiv.org/abs/2206.09689v1 )

ライセンス: Link先を確認
Andrew Draganov, Tyrus Berry, Jakob R{\o}dsgaard J{\o}rgensen, Katrine Scheel Nellemann, Ira Assent, Davide Mottin(参考訳) TSNEとUMAPは、その速度と解釈可能な低次元埋め込みのために最も一般的な次元削減アルゴリズムである。 しかし、TSNEの計算複雑性を改善する試みは試みられているが、既存の方法では UMAP の速度でTSNE を埋め込むことはできない。 本稿では,この2つのアプローチを1つのメソッドに組み合わせることで,これが実際に可能であることを示す。 TSNEアルゴリズムとUMAPアルゴリズムのパラメータの全体空間を理論的に実験的に評価し,パラメータの正規化(正規化)がそれらの切り替えの原因であることを示す。 これは、アルゴリズム上の差異の大部分を、埋め込みに影響を与えることなくトグルできることを意味する。 UMAPフレームワークの基盤となるいくつかの理論的主張と既存のTSNE解釈との整合性について論じる。 そこで本研究では,tsne と umap との相容れない手法を組み合わせることで,任意のアルゴリズムの結果を正規化によって再現できる新しい次元性低減アルゴリズム gdr を提案する。 さらなる利点として、GDR は利用可能な UMAP メソッドよりも高速に最適化を行うため、利用可能な TSNE メソッドよりも桁違いに高速である。 実装は従来の UMAP ライブラリと TSNE ライブラリとのプラグアンドプレイであり,github.com/Andrew-Draganov/GiDR-DUN で見ることができる。

TSNE and UMAP are two of the most popular dimensionality reduction algorithms due to their speed and interpretable low-dimensional embeddings. However, while attempts have been made to improve on TSNE's computational complexity, no existing method can obtain TSNE embeddings at the speed of UMAP. In this work, we show that this is indeed possible by combining the two approaches into a single method. We theoretically and experimentally evaluate the full space of parameters in the TSNE and UMAP algorithms and observe that a single parameter, the normalization, is responsible for switching between them. This, in turn, implies that a majority of the algorithmic differences can be toggled without affecting the embeddings. We discuss the implications this has on several theoretic claims underpinning the UMAP framework, as well as how to reconcile them with existing TSNE interpretations. Based on our analysis, we propose a new dimensionality reduction algorithm, GDR, that combines previously incompatible techniques from TSNE and UMAP and can replicate the results of either algorithm by changing the normalization. As a further advantage, GDR performs the optimization faster than available UMAP methods and thus an order of magnitude faster than available TSNE methods. Our implementation is plug-and-play with the traditional UMAP and TSNE libraries and can be found at github.com/Andrew-Draganov/GiDR-DUN.
翻訳日:2022-06-22 17:46:59 公開日:2022-06-20
# 技術報告:教育における転校生の知識と広域ネットワークの融合

Technical Report: Combining knowledge from Transfer Learning during training and Wide Resnets ( http://arxiv.org/abs/2206.09697v1 )

ライセンス: Link先を確認
Wolfgang Fuhl(参考訳) 本報告では,ディープニューラルネットワークのアーキテクチャを最適化するために,広範な再ネットとトランスファー学習のアイデアを組み合わせる。 アーキテクチャの最初の改善は、すべてのレイヤを最後のレイヤの情報ソースとして使用することだ。 このアイデアは、他のデータに事前トレーニングされたネットワークを使用して、新しいタスクの入力としてネットワークのさまざまなレベルを抽出するトランスファーラーニングに由来する。 第2の改善点は、ブロックのより深いシーケンスではなく、より深いレイヤを使用することだ。 このアイデアは Wide ResNets に由来する。 高いデータ拡張と標準的なデータ拡張の両方を最適化することで、異なるモデルに対してより良い結果が得られる。 リンク:https://github.com/wolfgangfuhl/PublicationStuff/tree/master/TechnicalReport1/Supp

In this report, we combine the idea of Wide ResNets and transfer learning to optimize the architecture of deep neural networks. The first improvement of the architecture is the use of all layers as information source for the last layer. This idea comes from transfer learning, which uses networks pre-trained on other data and extracts different levels of the network as input for the new task. The second improvement is the use of deeper layers instead of deeper sequences of blocks. This idea comes from Wide ResNets. Using both optimizations, both high data augmentation and standard data augmentation can produce better results for different models. Link: https://github.com/wolfgangfuhl/PublicationStuff/tree/master/TechnicalReport1/Supp
翻訳日:2022-06-22 17:46:35 公開日:2022-06-20
# nuQmm:大規模生成言語モデルの効率的な推論のための量子化MatMul

nuQmm: Quantized MatMul for Efficient Inference of Large-Scale Generative Language Models ( http://arxiv.org/abs/2206.09557v1 )

ライセンス: Link先を確認
Gunho Park, Baeseong Park, Se Jung Kwon, Byeongwook Kim, Youngjoo Lee, and Dongsoo Lee(参考訳) トランスフォーマーアーキテクチャに関連する自己教師型学習の最近の進歩により、自然言語処理(NLP)は極めて低いパープレキシティを示すことができる。 このような強力なモデルはモデルサイズを継続的に増加させ、そのため大量の計算とメモリフットプリントを必要とする。 本稿では,大規模生成言語モデルのための効率的な推論フレームワークを提案する。 モデルサイズを減らす鍵として、非一様量子化法により重みを定量化する。 次に,提案するカーネルであるnuQmmにより,量子化行列乗算を高速化し,圧縮比と精度のトレードオフを広く行う。 提案したnuQmmは,各GPUの遅延を低減させるだけでなく,低ビット量子化による)高い圧縮比がGPUの最小要求数を軽減しているため,大きなLM全体の推定も行う。 nuQmm は GPT-3 (175B) モデルの推論速度を約14.4倍に加速し、エネルギー消費を93%削減できることを示した。

The recent advance of self-supervised learning associated with the Transformer architecture enables natural language processing (NLP) to exhibit extremely low perplexity. Such powerful models demand ever-increasing model size, and thus, large amounts of computations and memory footprints. In this paper, we propose an efficient inference framework for large-scale generative language models. As the key to reducing model size, we quantize weights by a non-uniform quantization method. Then, quantized matrix multiplications are accelerated by our proposed kernel, called nuQmm, which allows a wide trade-off between compression ratio and accuracy. Our proposed nuQmm reduces the latency of not only each GPU but also the entire inference of large LMs because a high compression ratio (by low-bit quantization) mitigates the minimum required number of GPUs. We demonstrate that nuQmm can accelerate the inference speed of the GPT-3 (175B) model by about 14.4 times and save energy consumption by 93%.
翻訳日:2022-06-22 17:38:52 公開日:2022-06-20
# SynWMD:Syntax-aware Word Moverの文類似性評価のための距離

SynWMD: Syntax-aware Word Mover's Distance for Sentence Similarity Evaluation ( http://arxiv.org/abs/2206.10029v1 )

ライセンス: Link先を確認
Chengwei Wei, Bin Wang, C.-C. Jay Kuo(参考訳) Word Mover's Distance (WMD)は、単語とモデル間の距離を、2つのテキストシーケンスにおける単語間の移動コストと類似性を計算する。 しかし,単語の重要度を考慮せず,文の文脈的・構造的情報を考慮に入れないため,文の類似性評価に優れた性能は得られない。 SynWMD(Syntax-aware Word Mover's Distance)と呼ばれる構文解析木を用いた改良WMD法を提案する。 まず,文の構文解析木から抽出した単語共起統計に基づいて重み付きグラフを構築する。 各単語の重要性はグラフ接続性から推測される。 次に,単語間の距離を計算する際に,単語の局所構文解析構造を考える。 提案するSynWMDの有効性を示すために,6つのテキスト意味類似性データセットと4つの文分類データセットの実験を行った。 実験結果から,SynWMDはSTSタスクの最先端性能を実現することがわかった。 また、文分類タスクにおける他のWMDベースの手法よりも優れている。

Word Mover's Distance (WMD) computes the distance between words and models text similarity with the moving cost between words in two text sequences. Yet, it does not offer good performance in sentence similarity evaluation since it does not incorporate word importance and fails to take inherent contextual and structural information in a sentence into account. An improved WMD method using the syntactic parse tree, called Syntax-aware Word Mover's Distance (SynWMD), is proposed to address these two shortcomings in this work. First, a weighted graph is built upon the word co-occurrence statistics extracted from the syntactic parse trees of sentences. The importance of each word is inferred from graph connectivities. Second, the local syntactic parsing structure of words is considered in computing the distance between words. To demonstrate the effectiveness of the proposed SynWMD, we conduct experiments on 6 textual semantic similarity (STS) datasets and 4 sentence classification datasets. Experimental results show that SynWMD achieves state-of-the-art performance on STS tasks. It also outperforms other WMD-based methods on sentence classification tasks.
翻訳日:2022-06-22 17:12:07 公開日:2022-06-20
# 対実的説明のためのシンボリックアプローチ

A Symbolic Approach for Counterfactual Explanations ( http://arxiv.org/abs/2206.09638v1 )

ライセンス: Link先を確認
Ryma Boumazouza (UA, CNRS, CRIL), Fahima Cheikh-Alili (UA, CNRS, CRIL), Bertrand Mazure (UA, CNRS, CRIL), Karim Tabia (UA, CNRS, CRIL)(参考訳) 本稿では, 対実的説明のための記号的アプローチとして, 分類器の予測に対して, 対実的説明を提供するための新しいシンボリックアプローチを提案する。 データのどの部分が予測に役立ったかを理解することを目標とするほとんどの説明手法とは対照的に、逆ファクト的な説明は、この分類器の予測を変えるためにデータにどの機能が変更されるべきかを示す。 我々のアプローチは、等価なCNF式で分類器の決定関数を符号化するという意味で象徴的である。 このアプローチでは、反実的な説明は、知識ベースリペアレーションにおけるよく知られた概念である最小補正サブセット(MCS)と見なされる。 したがって、このアプローチは、すでに存在する実績のあるmcs生成のためのソリューションの強みを生かしている。 ベイズ分類器に関する予備的な実験的研究は、いくつかのデータセット上でこのアプローチの可能性を示している。

In this paper titled A Symbolic Approach for Counterfactual Explanations we propose a novel symbolic approach to provide counterfactual explanations for a classifier predictions. Contrary to most explanation approaches where the goal is to understand which and to what extent parts of the data helped to give a prediction, counterfactual explanations indicate which features must be changed in the data in order to change this classifier prediction. Our approach is symbolic in the sense that it is based on encoding the decision function of a classifier in an equivalent CNF formula. In this approach, counterfactual explanations are seen as the Minimal Correction Subsets (MCS), a well-known concept in knowledge base reparation. Hence, this approach takes advantage of the strengths of already existing and proven solutions for the generation of MCS. Our preliminary experimental studies on Bayesian classifiers show the potential of this approach on several datasets.
翻訳日:2022-06-22 17:11:22 公開日:2022-06-20
# 多視点学習のための変分蒸留

Variational Distillation for Multi-View Learning ( http://arxiv.org/abs/2206.09548v1 )

ライセンス: Link先を確認
Xudong Tian, Zhizhong Zhang, Cong Wang, Wensheng Zhang, Yanyun Qu, Lizhuang Ma, Zongze Wu, Yuan Xie, Dacheng Tao(参考訳) Information Bottleneck (IB)ベースの多視点学習は、異種データ記述に含まれる共有情報を求めるための情報理論の原理を提供する。 しかし、その大きな成功は、ネットワークが複雑化すると難解な多変量相互情報の推定に起因している。 さらに、表現学習トレードオフ、すなわち予測圧縮と十分性のトレードオフにより、ibは両方の要求を同時に満たすのが難しくなる。 本稿では,多視点表現学習における2つの重要な特徴(すなわち,十分性,一貫性)を活用するために,複数の変動情報ボトルネックを設計する。 具体的には,視点を任意に入力し,それを明示的に推定することなくmiに適合するスケーラブルで柔軟な分析ソリューションを提供するマルチビュー変分蒸留(mv$^2$d)戦略を提案する。 厳密な理論的保証の下では、IBは観察とセマンティックラベルの本質的な相関を把握でき、予測的かつコンパクトな表現を自然に生成できる。 また,情報理論の制約は,タスク非関連情報とビュー固有情報の両方を排除し,複数のビューケースにおける両トレードオフを防止し,異種データの感度を効果的に中和することができる。 理論的に根拠のある戦略を検証するために、3つの異なるアプリケーションの下で様々なベンチマークにアプローチを適用する。 本手法の有効性を定量的・定性的に実証するための広範な実験を行った。

Information Bottleneck (IB) based multi-view learning provides an information theoretic principle for seeking shared information contained in heterogeneous data descriptions. However, its great success is generally attributed to estimate the multivariate mutual information which is intractable when the network becomes complicated. Moreover, the representation learning tradeoff, {\it i.e.}, prediction-compression and sufficiency-consistency tradeoff, makes the IB hard to satisfy both requirements simultaneously. In this paper, we design several variational information bottlenecks to exploit two key characteristics ({\it i.e.}, sufficiency and consistency) for multi-view representation learning. Specifically, we propose a Multi-View Variational Distillation (MV$^2$D) strategy to provide a scalable, flexible and analytical solution to fitting MI by giving arbitrary input of viewpoints but without explicitly estimating it. Under rigorously theoretical guarantee, our approach enables IB to grasp the intrinsic correlation between observations and semantic labels, producing predictive and compact representations naturally. Also, our information-theoretic constraint can effectively neutralize the sensitivity to heterogeneous data by eliminating both task-irrelevant and view-specific information, preventing both tradeoffs in multiple view cases. To verify our theoretically grounded strategies, we apply our approaches to various benchmarks under three different applications. Extensive experiments to quantitatively and qualitatively demonstrate the effectiveness of our approach against state-of-the-art methods.
翻訳日:2022-06-22 17:03:29 公開日:2022-06-20
# フルボディヒト・シーン接触の捕捉と推測

Capturing and Inferring Dense Full-Body Human-Scene Contact ( http://arxiv.org/abs/2206.09553v1 )

ライセンス: Link先を確認
Chun-Hao P. Huang, Hongwei Yi, Markus H\"oschle, Matvey Safroshkin, Tsvetelina Alexiadis, Senya Polikovsky, Daniel Scharstein, Michael J. Black(参考訳) 人間の身近な接触(HSC)を推測することは、人間が周囲とどのように相互作用するかを理解するための第一歩である。 2次元人-物体相互作用(HOI)の検出と3次元人のポーズと形状(HPS)の再構築は大きな進歩を遂げた。 既存のHSC検出手法では、いくつかの事前定義された接触のみを考慮し、身体とシーンを少数のプリミティブに減らし、画像証拠を見落としている。 1つの画像から人間のシーンの接触を予測するために、上記の制限をデータとアルゴリズムの両方の観点から解決する。 私たちは「リアルシーン、インタラクション、コンタクト、人間」のためにRICHと呼ばれる新しいデータセットをキャプチャします。 RICHには、4K解像度の屋外/屋内ビデオシーケンス、マーカーレスモーションキャプチャー、3Dボディスキャン、高解像度の3Dシーンスキャンなどが含まれている。 RICHの重要な特徴は、身体に正確な頂点レベルの接触ラベルを含むことである。 RICHを用いて、単一のRGB画像から高密度のボディシーン接触を予測するネットワークを訓練する。 私たちの重要な洞察は、接触する領域は常に閉鎖されているため、ネットワークは証拠のために画像全体を探索する能力が必要です。 このような非局所的な関係を学習するためにトランスフォーマーを使用し、BSTRO(Body-Scene Contact TRansfOrmer)を提案する。 足のみに焦点を合わせ、足の接触を後処理のステップとして検出したり、シーンを見ることなく身体のポーズから接触を推測する手法はほとんどない。 我々の知る限り、BSTROは1枚の画像から3Dボディシーンの接触を直接推定する最初の方法である。 BSTROが先行技術よりも優れていることを示す。 コードとデータセットはhttps://rich.is.tue.mpg.deで利用可能である。

Inferring human-scene contact (HSC) is the first step toward understanding how humans interact with their surroundings. While detecting 2D human-object interaction (HOI) and reconstructing 3D human pose and shape (HPS) have enjoyed significant progress, reasoning about 3D human-scene contact from a single image is still challenging. Existing HSC detection methods consider only a few types of predefined contact, often reduce body and scene to a small number of primitives, and even overlook image evidence. To predict human-scene contact from a single image, we address the limitations above from both data and algorithmic perspectives. We capture a new dataset called RICH for "Real scenes, Interaction, Contact and Humans." RICH contains multiview outdoor/indoor video sequences at 4K resolution, ground-truth 3D human bodies captured using markerless motion capture, 3D body scans, and high resolution 3D scene scans. A key feature of RICH is that it also contains accurate vertex-level contact labels on the body. Using RICH, we train a network that predicts dense body-scene contacts from a single RGB image. Our key insight is that regions in contact are always occluded so the network needs the ability to explore the whole image for evidence. We use a transformer to learn such non-local relationships and propose a new Body-Scene contact TRansfOrmer (BSTRO). Very few methods explore 3D contact; those that do focus on the feet only, detect foot contact as a post-processing step, or infer contact from body pose without looking at the scene. To our knowledge, BSTRO is the first method to directly estimate 3D body-scene contact from a single image. We demonstrate that BSTRO significantly outperforms the prior art. The code and dataset are available at https://rich.is.tue.mpg.de.
翻訳日:2022-06-22 17:03:05 公開日:2022-06-20
# 弱教師付きセマンティックセグメンテーションのためのSalliency Guided Inter-およびIntra-class Relation Constraint

Saliency Guided Inter- and Intra-Class Relation Constraints for Weakly Supervised Semantic Segmentation ( http://arxiv.org/abs/2206.09554v1 )

ライセンス: Link先を確認
Tao Chen, Yazhou Yao, Lei Zhang, Qiong Wang, Guo-Sen Xie, Fumin Shen(参考訳) 画像レベルのラベルのみによる弱教師付きセマンティックセグメンテーションは、セグメンテーションタスクのアノテーションコストを削減することを目的としている。 既存のアプローチでは、クラスアクティベーションマップ(CAM)を利用して、擬似ラベル生成のためのオブジェクト領域を見つける。 しかし、CAMはオブジェクトの最も識別性の高い部分しか発見できないため、ピクセルレベルの低い擬似ラベルにつながる。 この問題に対処するため,CAMにおける活性化対象領域の拡張を支援するために,Salliency Guided Inter-およびIntra-Class Relation Constrained (I$^2$CRC) フレームワークを提案する。 具体的には,その特徴をクラスプロトタイプに合わせることで,カテゴリ内特徴をより近づけるサリエンシー誘導型クラス非依存距離モジュールを提案する。 さらに,クラス間の特徴を分離し,オブジェクト領域が背景よりも高いアクティベーションを持つように促すクラス固有の距離モジュールを提案する。 また,cams内のより統合的なオブジェクト領域を活性化する分類ネットワークの能力を強化すると同時に,セグメンテーション予測と,優れた擬似ラベルを得るための初期ラベルの両方をフルに活用するオブジェクトガイドラベルリファインメントモジュールも導入する。 PASCAL VOC 2012とCOCOデータセットの大規模な実験は、他の最先端のデータセットに対するI$^2$CRCの有効性を十分に証明している。 ソースコード、モデル、データは \url{https://github.com/NUST-Machine-Intelligence-Laboratory/I2CRC} で公開されている。

Weakly supervised semantic segmentation with only image-level labels aims to reduce annotation costs for the segmentation task. Existing approaches generally leverage class activation maps (CAMs) to locate the object regions for pseudo label generation. However, CAMs can only discover the most discriminative parts of objects, thus leading to inferior pixel-level pseudo labels. To address this issue, we propose a saliency guided Inter- and Intra-Class Relation Constrained (I$^2$CRC) framework to assist the expansion of the activated object regions in CAMs. Specifically, we propose a saliency guided class-agnostic distance module to pull the intra-category features closer by aligning features to their class prototypes. Further, we propose a class-specific distance module to push the inter-class features apart and encourage the object region to have a higher activation than the background. Besides strengthening the capability of the classification network to activate more integral object regions in CAMs, we also introduce an object guided label refinement module to take a full use of both the segmentation prediction and the initial labels for obtaining superior pseudo-labels. Extensive experiments on PASCAL VOC 2012 and COCO datasets demonstrate well the effectiveness of I$^2$CRC over other state-of-the-art counterparts. The source codes, models, and data have been made available at \url{https://github.com/NUST-Machine-Intelligence-Laboratory/I2CRC}.
翻訳日:2022-06-22 17:02:32 公開日:2022-06-20
# 赤外および可視画像融合における明示的および暗黙的モデル

Explicit and implicit models in infrared and visible image fusion ( http://arxiv.org/abs/2206.09581v1 )

ライセンス: Link先を確認
Zixuan Wang, Bin Sun(参考訳) マルチモーダル画像対としての赤外線と可視画像は、同じシーンの表現に有意な差異を示す。 画像融合タスクは2つの問題に直面している: 1つは異なるモダリティ間のユニークな特徴を維持すること、もう1つは局所的特徴やグローバル的特徴のような様々なレベルで特徴を維持することである。 本稿では,画像融合におけるディープラーニングモデルの限界とそれに対応する最適化戦略について論じる。 人工的に設計された構造と制約に基づき、モデルを明示的なモデルに分割し、高レベルな特徴を適応的に学習したり、グローバルピクセル関連付けを確立できる暗黙のモデルを分割する。 21個の試験セットの比較実験を10種類のモデルで行った。 定性的かつ定量的な結果は、暗黙的モデルは画像の特徴を学習するより包括的な能力を持っていることを示している。 同時に、それらの安定性も改善する必要がある。 既存のアルゴリズムで解決すべき利点と限界を考慮し,マルチモーダル画像融合の主な課題と今後の研究方向性について議論する。

Infrared and visible images, as multi-modal image pairs, show significant differences in the expression of the same scene. The image fusion task is faced with two problems: one is to maintain the unique features between different modalities, and the other is to maintain features at various levels like local and global features. This paper discusses the limitations of deep learning models in image fusion and the corresponding optimization strategies. Based on artificially designed structures and constraints, we divide models into explicit models, and implicit models that adaptively learn high-level features or can establish global pixel associations. Ten models for comparison experiments on 21 test sets were screened. The qualitative and quantitative results show that the implicit models have more comprehensive ability to learn image features. At the same time, the stability of them needs to be improved. Aiming at the advantages and limitations to be solved by existing algorithms, we discuss the main problems of multi-modal image fusion and future research directions.
翻訳日:2022-06-22 17:02:06 公開日:2022-06-20
# dall-e for detection: オブジェクト検出のための言語駆動コンテキスト画像合成

DALL-E for Detection: Language-driven Context Image Synthesis for Object Detection ( http://arxiv.org/abs/2206.09592v1 )

ライセンス: Link先を確認
Yunhao Ge, Jiashu Xu, Brian Nlong Zhao, Laurent Itti, Vibhav Vineet(参考訳) オブジェクトカット・アンド・ペーストは、ラベル付きトレーニングデータの大規模なセットを効率的に生成するための有望なアプローチとなっている。 前景のオブジェクトマスクを背景画像に合成する。 背景画像は、オブジェクトと一致した場合、オブジェクト認識モデルのトレーニングに有用なコンテキスト情報を提供する。 提案手法は大規模ラベル付きデータを容易に生成できるが,下流タスクのコングロレントなコンテキスト画像の発見はいまだ解明されていない。 本研究では,大規模コンテキスト画像の自動生成のための新しいパラダイムを提案する。 我々のアプローチの核心は、文脈の言語記述と言語駆動画像生成の相互作用を利用することである。 文脈を表す画像の小さなセットに画像キャプション法を適用することにより、文脈の言語記述を提供する。 これらの言語記述は、言語ベースのdall-eイメージ生成フレームワークを使用して、さまざまなコンテキストイメージを生成するために使用される。 これらはオブジェクトで合成され、分類器のための拡張トレーニングセットを提供する。 本研究では,4つのオブジェクト検出データセットに対する先行文脈画像生成手法に対するアプローチの利点を示す。 さらに,アウトオブディストリビューションとゼロショットデータ生成シナリオにおけるデータ生成アプローチの構成的性質についても強調する。

Object cut-and-paste has become a promising approach to efficiently generate large sets of labeled training data. It involves compositing foreground object masks onto background images. The background images, when congruent with the objects, provide helpful context information for training object recognition models. While the approach can easily generate large labeled data, finding congruent context images for downstream tasks has remained an elusive problem. In this work, we propose a new paradigm for automatic context image generation at scale. At the core of our approach lies utilizing an interplay between language description of context and language-driven image generation. Language description of a context is provided by applying an image captioning method on a small set of images representing the context. These language descriptions are then used to generate diverse sets of context images using the language-based DALL-E image generation framework. These are then composited with objects to provide an augmented training set for a classifier. We demonstrate the advantages of our approach over the prior context image generation approaches on four object detection datasets. Furthermore, we also highlight the compositional nature of our data generation approach on out-of-distribution and zero-shot data generation scenarios.
翻訳日:2022-06-22 17:01:48 公開日:2022-06-20
# msanet: マイナショットセグメンテーション強化のための多相性と注意指導

MSANet: Multi-Similarity and Attention Guidance for Boosting Few-Shot Segmentation ( http://arxiv.org/abs/2206.09667v1 )

ライセンス: Link先を確認
Ehtesham Iqbal, Sirojbek Safarov, Seongdeok Bang(参考訳) 少数ショットのセグメンテーションは、少数の密接なラベル付きサンプルしか与えていない、未認識のクラスオブジェクトをセグメンテーションすることを目的としている。 グローバルおよびローカルなオブジェクト情報を平均化することで、サポート機能が複数のプロトタイプを生成するプロトタイプ学習は、FSSで広く使われている。 しかし、プロトタイプベクトルのみを利用することで、すべてのトレーニングデータの特徴を表現できない可能性がある。 豊富な特徴を抽出し、より正確な予測を行うため、多相性モジュールとアテンションモジュールの2つの新しいモジュールを含む多相性およびアテンションネットワーク(msanet)を提案する。 多相性モジュールは、サポートイメージとクエリイメージの複数の特徴マップを利用して、正確な意味関係を推定する。 attentionモジュールは、クラス関連情報に集中するようにネットワークに指示する。 このネットワークは標準的なFSSデータセット、PASCAL-5i 1-shot、PASCAL-5i 5-shot、COCO-20i 1-shot、COCO-20i 5-shotでテストされている。 resnet-101のバックボーンを持つmsanetは、それぞれ69.13%、73.99%、51.09%、56.80%の平均交点を持つ4-benchmarkデータセットの最先端性能を実現している。 コードはhttps://github.com/AIVResearch/MSANetで入手できる。

Few-shot segmentation aims to segment unseen-class objects given only a handful of densely labeled samples. Prototype learning, where the support feature yields a singleor several prototypes by averaging global and local object information, has been widely used in FSS. However, utilizing only prototype vectors may be insufficient to represent the features for all training data. To extract abundant features and make more precise predictions, we propose a Multi-Similarity and Attention Network (MSANet) including two novel modules, a multi-similarity module and an attention module. The multi-similarity module exploits multiple feature-maps of support images and query images to estimate accurate semantic relationships. The attention module instructs the network to concentrate on class-relevant information. The network is tested on standard FSS datasets, PASCAL-5i 1-shot, PASCAL-5i 5-shot, COCO-20i 1-shot, and COCO-20i 5-shot. The MSANet with the backbone of ResNet-101 achieves the state-of-the-art performance for all 4-benchmark datasets with mean intersection over union (mIoU) of 69.13%, 73.99%, 51.09%, 56.80%, respectively. Code is available at https://github.com/AIVResearch/MSANet
翻訳日:2022-06-22 17:00:19 公開日:2022-06-20
# セマンティクスセグメンテーションのドメイン適応のための分布正規化自己教師付き学習

Distribution Regularized Self-Supervised Learning for Domain Adaptation of Semantic Segmentation ( http://arxiv.org/abs/2206.09683v1 )

ライセンス: Link先を確認
Javed Iqbal, Hamza Rawal, Rehan Hafiz, Yu-Tseh Chi, Mohsen Ali(参考訳) 本稿では,セマンティックセグメンテーションの自己教師付きドメイン適応のための新しい画素レベル分布正規化スキーム(DRSL)を提案する。 典型的な設定では、分類損失は意味的セグメンテーションモデルに、決定(クラス)境界を決定するためにクラス間のバリエーションをキャプチャする表現を強要する。 ドメインシフトのため、この決定境界はターゲットドメインでは不整合であり、ノイズの多い擬似ラベルが自己監督ドメイン適応に悪影響を及ぼす。 この制限を克服するため、クラス間の変動を捉えるとともに、クラス対応マルチモーダル分布学習(MMDL)を通してピクセルレベルのクラス内変動を捉える。 これにより、クラス内変異をキャプチャするために必要な情報は、クラス間識別に必要な情報から明確に切り離される。 このように捉えられた特徴はより情報的であり、低ノイズの擬似ラベルとなる。 この不等角化により,前者に対するクロスエントロピーに基づく自己学習を用いて,判別空間とマルチモーダル分布空間におけるアライメントを分離することができる。 その後,同じモードにマップされるターゲットとソースの画素間の距離を明示的に減少させることにより,新しい確率モードアライメント法を提案する。 擬似ラベル上で計算され、マルチモーダルモデリングヘッドから逆転した距離メトリック学習損失は、セグメンテーションヘッドと共有されるベースネットワーク上のレギュレータとして機能する。 GTA-V/SYNTHIAをCityscapesに導入した総合的なドメイン適応実験の結果、DRSLは既存の多くのアプローチ(SynTHIAからCityscapesへのmIoUの最小マージン2.3%と2.5%)より優れていることが示された。

This paper proposes a novel pixel-level distribution regularization scheme (DRSL) for self-supervised domain adaptation of semantic segmentation. In a typical setting, the classification loss forces the semantic segmentation model to greedily learn the representations that capture inter-class variations in order to determine the decision (class) boundary. Due to the domain shift, this decision boundary is unaligned in the target domain, resulting in noisy pseudo labels adversely affecting self-supervised domain adaptation. To overcome this limitation, along with capturing inter-class variation, we capture pixel-level intra-class variations through class-aware multi-modal distribution learning (MMDL). Thus, the information necessary for capturing the intra-class variations is explicitly disentangled from the information necessary for inter-class discrimination. Features captured thus are much more informative, resulting in pseudo-labels with low noise. This disentanglement allows us to perform separate alignments in discriminative space and multi-modal distribution space, using cross-entropy based self-learning for the former. For later, we propose a novel stochastic mode alignment method, by explicitly decreasing the distance between the target and source pixels that map to the same mode. The distance metric learning loss, computed over pseudo-labels and backpropagated from multi-modal modeling head, acts as the regularizer over the base network shared with the segmentation head. The results from comprehensive experiments on synthetic to real domain adaptation setups, i.e., GTA-V/SYNTHIA to Cityscapes, show that DRSL outperforms many existing approaches (a minimum margin of 2.3% and 2.5% in mIoU for SYNTHIA to Cityscapes).
翻訳日:2022-06-22 16:59:53 公開日:2022-06-20
# Test-time Image-to-image Translation ensemblingは病理組織における分布外一般化を改善する

Test-time image-to-image translation ensembling improves out-of-distribution generalization in histopathology ( http://arxiv.org/abs/2206.09769v1 )

ライセンス: Link先を確認
Marin Scalbert and Maria Vakalopoulou and Florent Couzini\'e-Devy(参考訳) 病理組織像全体 (WSIs) は, 照明, 色, 光学的アーティファクトなどのホスピタル間変動が顕著である。 これらのバリエーションは、医療センター間で異なるスキャンプロトコル(ステニング、スキャナ)を使用することによって引き起こされ、見えないプロトコルのアルゴリズムの一般化に強い害を与える可能性がある。 これは、パフォーマンスの低下を制限する新しい方法の開発を動機付ける。 本稿では,未認識のターゲットプロトコルのロバスト性を高めるため,マルチドメイン画像から画像への変換に基づく新しいテスト時間データ拡張を提案する。 unseenプロトコルから各ソースドメインにイメージを投影し、それらを分類し、予測をセンスすることができる。 このテスト時間拡張法により、領域一般化の性能が大幅に向上する。 本手法の有効性を実証するため,従来の領域の一般化,標準H&E比色増色/正規化,標準試験時間増色技術に優れる2種類の病理組織学的課題について評価を行った。 私たちのコードはhttps://gitlab.com/vitadx/articles/test-time-i2i-translation-ensemblingで公開しています。

Histopathology whole slide images (WSIs) can reveal significant inter-hospital variability such as illumination, color or optical artifacts. These variations, caused by the use of different scanning protocols across medical centers (staining, scanner), can strongly harm algorithms generalization on unseen protocols. This motivates development of new methods to limit such drop of performances. In this paper, to enhance robustness on unseen target protocols, we propose a new test-time data augmentation based on multi domain image-to-image translation. It allows to project images from unseen protocol into each source domain before classifying them and ensembling the predictions. This test-time augmentation method results in a significant boost of performances for domain generalization. To demonstrate its effectiveness, our method has been evaluated on 2 different histopathology tasks where it outperforms conventional domain generalization, standard H&E specific color augmentation/normalization and standard test-time augmentation techniques. Our code is publicly available at https://gitlab.com/vitadx/articles/test-time-i2i-translation-ensembling.
翻訳日:2022-06-22 16:59:22 公開日:2022-06-20
# 空中画像における指向性物体検出のための知識蒸留

Knowledge Distillation for Oriented Object Detection on Aerial Images ( http://arxiv.org/abs/2206.09796v1 )

ライセンス: Link先を確認
Yicheng Xiao, Junpeng Zhang(参考訳) パラメータ数が増加するディープ畳み込みニューラルネットワークは、対象物を水平境界ボックスでアノテートする自然画像のオブジェクト検出タスクにおいて、精度の向上を実現している。 バードビューの観点から捉えた空中画像では、モデルアーキテクチャとより深い畳み込み層の改善によって、オブジェクト指向オブジェクト検出タスクのパフォーマンスも向上する。 しかし、これらの最先端オブジェクト検出器を限られた計算リソースでデバイスに直接適用することは困難であり、モデル圧縮によって軽量なモデルを必要とする。 この問題に対処するために,KD-RNetという知識蒸留による空中画像の回転物体検出のためのモデル圧縮手法を提案する。 多数のパラメータを持つ教師指向のオブジェクト指向物体検出器を用いて、得られた対象カテゴリと位置情報を協調学習戦略により、KD-RNetのコンパクトな学生ネットワークに転送する。 カテゴリ情報の転送は、予測確率分布上の知識蒸留により達成され、位置情報転送における変位の処理にソフトレグレッション損失が適用される。 大規模空中物体検出データセット(DOTA)による実験結果から,提案したKD-RNetモデルにより,パラメータ数を削減した平均値精度(mAP)が向上し,同時にKD-RNetは,基底アノテーションと高い重なり合う高品質検出を提供することで,性能を向上することを示した。

Deep convolutional neural network with increased number of parameters has achieved improved precision in task of object detection on natural images, where objects of interests are annotated with horizontal boundary boxes. On aerial images captured from the bird-view perspective, these improvements on model architecture and deeper convolutional layers can also boost the performance on oriented object detection task. However, it is hard to directly apply those state-of-the-art object detectors on the devices with limited computation resources, which necessitates lightweight models through model compression. In order to address this issue, we present a model compression method for rotated object detection on aerial images by knowledge distillation, namely KD-RNet. With a well-trained teacher oriented object detector with a large number of parameters, the obtained object category and location information are both transferred to a compact student network in KD-RNet by collaborative training strategy. Transferring the category information is achieved by knowledge distillation on predicted probability distribution, and a soft regression loss is adopted for handling displacement in location information transfer. The experimental result on a large-scale aerial object detection dataset (DOTA) demonstrates that the proposed KD-RNet model can achieve improved mean-average precision (mAP) with reduced number of parameters, at the same time, KD-RNet boost the performance on providing high quality detections with higher overlap with groundtruth annotations.
翻訳日:2022-06-22 16:59:04 公開日:2022-06-20
# 完全教師なし画像検索のための自己教師付き一貫性量子化

Self-Supervised Consistent Quantization for Fully Unsupervised Image Retrieval ( http://arxiv.org/abs/2206.09806v1 )

ライセンス: Link先を確認
Guile Wu, Chao Zhang, and Stephan Liwicki(参考訳) 教師なし画像検索は、高価なデータアノテーションを使わずに効率的な検索システムを学ぶことを目的としている。 近年,人間の監視を最小限に抑えるため,深層モデルをスクラッチからトレーニングし,視覚的特徴量と量子化符号を共同で最適化する深層完全教師なし画像検索を提案する。 しかし、既存のアプローチは、基本となる意味構造情報を考慮せずに、たとえばコントラスト学習に重点を置いており、その結果、準最適性能が得られる。 本研究では, 部分一貫した量子化と大域一貫した量子化からなる, 完全教師なし画像検索のための新しい自己教師付き一貫した量子化手法を提案する。 部分一貫した量子化では、隣接するセマンティックな一貫性学習をコードワードの多様性規則化で考案する。 これにより、サブ量子化表現の基盤となる隣接構造情報を自己スーパービジョンとして発見することができる。 グローバル一貫性量子化では、埋め込み表現と量子化表現の両方にコントラスト学習を用い、インスタンス間の一貫性のあるコントラスト正規化のためにこれらの表現を融合する。 これは量子化中に有用な表現情報の損失を補い、インスタンス間の一貫性を規則化する。 統一的な学習目標であるパートとグローバル一貫性量子化により,より豊かな自己スーパービジョンを活用し,モデル学習を促進する。 3つのベンチマークデータセットに関する広範な実験は、最先端の手法よりも、我々のアプローチが優れていることを示している。

Unsupervised image retrieval aims to learn an efficient retrieval system without expensive data annotations, but most existing methods rely heavily on handcrafted feature descriptors or pre-trained feature extractors. To minimize human supervision, recent advance proposes deep fully unsupervised image retrieval aiming at training a deep model from scratch to jointly optimize visual features and quantization codes. However, existing approach mainly focuses on instance contrastive learning without considering underlying semantic structure information, resulting in sub-optimal performance. In this work, we propose a novel self-supervised consistent quantization approach to deep fully unsupervised image retrieval, which consists of part consistent quantization and global consistent quantization. In part consistent quantization, we devise part neighbor semantic consistency learning with codeword diversity regularization. This allows to discover underlying neighbor structure information of sub-quantized representations as self-supervision. In global consistent quantization, we employ contrastive learning for both embedding and quantized representations and fuses these representations for consistent contrastive regularization between instances. This can make up for the loss of useful representation information during quantization and regularize consistency between instances. With a unified learning objective of part and global consistent quantization, our approach exploits richer self-supervision cues to facilitate model learning. Extensive experiments on three benchmark datasets show the superiority of our approach over the state-of-the-art methods.
翻訳日:2022-06-22 16:58:39 公開日:2022-06-20
# open set histopathological image recognitionにおけるテスト時間変換予測

Test Time Transform Prediction for Open Set Histopathological Image Recognition ( http://arxiv.org/abs/2206.10033v1 )

ライセンス: Link先を確認
Adrian Galdran. Katherine J. Hewitt, Narmin L. Ghaffari, Jakob N. Kather, Gustavo Carneiro, Miguel A. Gonz\'alez Ballester(参考訳) 全体のスライド組織像における組織型分類は複雑で退屈で、計算病理モデルの開発に必要なタスクである。 本研究は, 臨床関連組織カテゴリなどの注釈付きクラスに属する組織を共同分類する作業に対して, オープンセット認識技術を適用し, テスト時間帯のオープンセットサンプル, トレーニングセットに存在しないカテゴリに属するイメージを拒絶することで, この問題に対処することを提案する。 そこで本研究では,画像カテゴリを正確に識別するモデルを訓練し,どのデータ拡張変換が適用されたかを同時に予測する手法を提案する。 テスト時間において、我々はこの変換を予測するためのモデル信頼度を測定し、オープンセットの画像に対してより低い値が期待できる。 病理組織学的画像から大腸癌評価の文脈において総合的な実験を行い,未知のカテゴリのサンプルを自動的に同定する手法の強みを示す。 コードはhttps://github.com/agaldran/t3poでリリースされる。

Tissue typology annotation in Whole Slide histological images is a complex and tedious, yet necessary task for the development of computational pathology models. We propose to address this problem by applying Open Set Recognition techniques to the task of jointly classifying tissue that belongs to a set of annotated classes, e.g. clinically relevant tissue categories, while rejecting in test time Open Set samples, i.e. images that belong to categories not present in the training set. To this end, we introduce a new approach for Open Set histopathological image recognition based on training a model to accurately identify image categories and simultaneously predict which data augmentation transform has been applied. In test time, we measure model confidence in predicting this transform, which we expect to be lower for images in the Open Set. We carry out comprehensive experiments in the context of colorectal cancer assessment from histological images, which provide evidence on the strengths of our approach to automatically identify samples from unknown categories. Code is released at https://github.com/agaldran/t3po .
翻訳日:2022-06-22 16:56:37 公開日:2022-06-20
# MPA: 動作予測のためのマルチパス++ベースのアーキテクチャ

MPA: MultiPath++ Based Architecture for Motion Prediction ( http://arxiv.org/abs/2206.10041v1 )

ライセンス: Link先を確認
Stepan Konev(参考訳) 自動運転技術は急速に発展しており、現在では市内で最初の自動運転技術が提供されている。 これは技術の安全性と信頼性に最も高い基準を必要とする。 一般的な自動運転パイプラインの動作予測部分は、これらの品質を提供する上で重要な役割を果たす。 本研究では,MultiPath++に基づくWaymo Motion Prediction Challenge 2022のソリューションとして,2022年5月26日に第3位にランクインした。 ソースコードはGitHubで公開されている。

Autonomous driving technology is developing rapidly and nowadays first autonomous rides are being provided in city areas. This requires the highest standards for the safety and reliability of the technology. Motion prediction part of the general self-driving pipeline plays a crucial role in providing these qualities. In this work we present one of the solutions for Waymo Motion Prediction Challenge 2022 based on MultiPath++ ranked the 3rd as of May, 26 2022. Our source code is publicly available on GitHub.
翻訳日:2022-06-22 16:56:19 公開日:2022-06-20
# エラーは少ないけど ステレオタイプは多い? モデルサイズがジェンダーバイアスに及ぼす影響

Fewer Errors, but More Stereotypes? The Effect of Model Size on Gender Bias ( http://arxiv.org/abs/2206.09860v1 )

ライセンス: Link先を確認
Yarden Tal, Inbal Magar, Roy Schwartz(参考訳) 事前訓練されたモデルのサイズは増加しており、様々なNLPタスクのパフォーマンスも向上している。 しかし記憶能力が高まるにつれて、社会的偏見が高まるかもしれない。 本研究では,モデルサイズとその性別バイアス(特に職業性バイアス)との関係について検討する。 我々は,3つのマスキング言語モデルファミリー(RoBERTa,DeBERTa,T5)のバイアスを,プロンプトベースのメソッドを直接使用し,下流タスク(Winogender)を用いて測定する。 一方、より大きなモデルでは、前のタスクでより高いバイアススコアが得られているが、後者で評価すると、性別エラーは少なくなる。 これらの競合する可能性のある結果を調べるため、Winogender上の異なるモデルの挙動を慎重に検討する。 より大きなモデルはより小さなモデルよりも優れているが、それらのミスが性別バイアスによって引き起こされる確率は高い。 さらに, モデルサイズに比例して, ステレオタイプ誤差の比率が大きくなることが判明した。 本研究は,モデルサイズの増加に伴う潜在的なリスクを明らかにする。

The size of pretrained models is increasing, and so is their performance on a variety of NLP tasks. However, as their memorization capacity grows, they might pick up more social biases. In this work, we examine the connection between model size and its gender bias (specifically, occupational gender bias). We measure bias in three masked language model families (RoBERTa, DeBERTa, and T5) in two setups: directly using prompt based method, and using a downstream task (Winogender). We find on the one hand that larger models receive higher bias scores on the former task, but when evaluated on the latter, they make fewer gender errors. To examine these potentially conflicting results, we carefully investigate the behavior of the different models on Winogender. We find that while larger models outperform smaller ones, the probability that their mistakes are caused by gender bias is higher. Moreover, we find that the proportion of stereotypical errors compared to anti-stereotypical ones grows with the model size. Our findings highlight the potential risks that can arise from increasing model size.
翻訳日:2022-06-22 15:47:58 公開日:2022-06-20
# 表現類似性レンズによるロバスト学習の理解

Understanding Robust Learning through the Lens of Representation Similarities ( http://arxiv.org/abs/2206.09868v1 )

ライセンス: Link先を確認
Christian Cianfarani, Arjun Nitin Bhagoji, Vikash Sehwag, Ben Zhao, Prateek Mittal(参考訳) 表現学習(representation learning)、すなわち下流のアプリケーションに有用な表現の生成は、ディープニューラルネットワーク(DNN)の成功の基盤となる基本的な重要性のタスクである。 近年,adversarial exampleに対するロバスト性がdnnの望ましい特性として現れ,敵の事例を考慮したロバストなトレーニング手法の開発が進められている。 本稿では,頑健な学習によって学習される表現の性質が,標準的な非破壊訓練とどのように異なるかを理解することを目的とする。 これは、良性入力の性能低下、ロバスト性の低一般化、過剰適合の増加など、ロバストネットワークにおける多数の健全な落とし穴の診断に重要である。 我々は、3つの視覚データセットにまたがる表現類似度メトリクスとして知られる強力なツールセットを利用して、異なるアーキテクチャ、トレーニング手順、および敵の制約を持つロバストDNNと非ロバストDNNのレイヤーワイズ比較を得る。 実験では,ロバストネットワークの挙動的差異を裏付けるロバスト表現の非認識特性に注目した。 我々は,ロバストネットワーク表現における特殊化の欠如と, 'ブロック構造' の消失を見出した。 また、堅牢なトレーニング中の過度な適合は、深いレイヤに大きく影響します。 これらは他の発見とともに、より堅牢なネットワークの設計とトレーニングの道筋を示唆している。

Representation learning, i.e. the generation of representations useful for downstream applications, is a task of fundamental importance that underlies much of the success of deep neural networks (DNNs). Recently, robustness to adversarial examples has emerged as a desirable property for DNNs, spurring the development of robust training methods that account for adversarial examples. In this paper, we aim to understand how the properties of representations learned by robust training differ from those obtained from standard, non-robust training. This is critical to diagnosing numerous salient pitfalls in robust networks, such as, degradation of performance on benign inputs, poor generalization of robustness, and increase in over-fitting. We utilize a powerful set of tools known as representation similarity metrics, across three vision datasets, to obtain layer-wise comparisons between robust and non-robust DNNs with different architectures, training procedures and adversarial constraints. Our experiments highlight hitherto unseen properties of robust representations that we posit underlie the behavioral differences of robust networks. We discover a lack of specialization in robust networks' representations along with a disappearance of `block structure'. We also find overfitting during robust training largely impacts deeper layers. These, along with other findings, suggest ways forward for the design and training of better robust networks.
翻訳日:2022-06-22 15:36:26 公開日:2022-06-20
# エンドツーエンド音声分離モデルの脆弱性に関する実証分析

An Empirical Analysis on the Vulnerabilities of End-to-End Speech Segregation Models ( http://arxiv.org/abs/2206.09556v1 )

ライセンス: Link先を確認
Rahil Parikh, Gaspar Rochette, Carol Espy-Wilson, Shihab Shamma(参考訳) エンド・ツー・エンドの学習モデルは、音声分離を行う際、顕著な能力を示した。 実世界の応用範囲は広いが、彼らがグループ化し、結果として個々の話者を分離するメカニズムについてはほとんど知られていない。 本研究では,これらのネットワークがグループ情報源にとって重要な鍵となることを知るため,コンバタネットとDPT-Netを徹底的に調査し,入力混合物の調和解析を行う。 我々は,低域通過,高域通過,帯域通過フィルタを適用し,分離に最も重要な高調波を実験的に解析する。 また,これらのネットワークが,合成混合物に不連続性を導入することにより,どの出力チャネルを推定源に割り当てるかを決定する方法についても検討する。 エンド・ツー・エンドのネットワークは高度に不安定であり、人間には受け入れられない変形に直面すると性能が低下する。 これらのネットワークのエンコーダをスペクトログラムで置き換えると、全体的な性能は低下するが、安定性は向上する。 この研究は、これらのネットワークが音声分離にどのような情報に依存しているかを理解するのに役立つ。 また、エンコーダをこれらのエラーの原因となるネットワークの一部とし、専門家の知識やトランスファー学習の再設計を可能にする。

End-to-end learning models have demonstrated a remarkable capability in performing speech segregation. Despite their wide-scope of real-world applications, little is known about the mechanisms they employ to group and consequently segregate individual speakers. Knowing that harmonicity is a critical cue for these networks to group sources, in this work, we perform a thorough investigation on ConvTasnet and DPT-Net to analyze how they perform a harmonic analysis of the input mixture. We perform ablation studies where we apply low-pass, high-pass, and band-stop filters of varying pass-bands to empirically analyze the harmonics most critical for segregation. We also investigate how these networks decide which output channel to assign to an estimated source by introducing discontinuities in synthetic mixtures. We find that end-to-end networks are highly unstable, and perform poorly when confronted with deformations which are imperceptible to humans. Replacing the encoder in these networks with a spectrogram leads to lower overall performance, but much higher stability. This work helps us to understand what information these network rely on for speech segregation, and exposes two sources of generalization-errors. It also pinpoints the encoder as the part of the network responsible for these errors, allowing for a redesign with expert knowledge or transfer learning.
翻訳日:2022-06-22 15:35:16 公開日:2022-06-20
# SMT-DTA:半教師型マルチタスクトレーニングによる薬物標的親和性予測の改善

SMT-DTA: Improving Drug-Target Affinity Prediction with Semi-supervised Multi-task Training ( http://arxiv.org/abs/2206.09818v1 )

ライセンス: Link先を確認
Qizhi Pei, Lijun Wu, Jinhua Zhu, Yingce Xia, Shufang Xia, Tao Qin, Haiguang Liu, Tie-Yan Liu(参考訳) ドラッグターゲット親和性(DTA)予測は、薬物発見と医薬品研究に不可欠な課題である。 DTAの正確な予測は、新しい薬物の設計に大きな恩恵をもたらす。 濡れた実験は費用がかかり時間もかかるため、DTA予測のための教師付きデータは極めて限られている。 これにより、大規模な教師付きデータを必要とするディープラーニングベースの手法の適用が深刻な障害となる。 To address this challenge and improve the DTA prediction accuracy, we propose a framework with several simple yet effective strategies in this work: (1) a multi-task training strategy, which takes the DTA prediction and the masked language modeling (MLM) task on the paired drug-target dataset; (2) a semi-supervised training method to empower the drug and target representation learning by leveraging large-scale unpaired molecules and proteins in training, which differs from previous pre-training and fine-tuning methods that only utilize molecules or proteins in pre-training; and (3) a cross-attention module to enhance the interaction between drug and target representation. BindingDB、DAVIS、KIBAの3つの実世界のベンチマークデータセットで大規模な実験が行われた。 その結果,提案手法は既存の手法を大幅に上回っており,最新の性能,例えばバインディングdb ic$_{50}$測定値で$0.712$ rmseを達成することができた。 さらに、特定の薬物標的結合活性、薬物の特徴可視化、および実世界の応用に関するケーススタディは、我々の研究の大きな可能性を示している。 コードとデータはhttps://github.com/QizhiPei/SMT-DTAで公開される

Drug-Target Affinity (DTA) prediction is an essential task for drug discovery and pharmaceutical research. Accurate predictions of DTA can greatly benefit the design of new drug. As wet experiments are costly and time consuming, the supervised data for DTA prediction is extremely limited. This seriously hinders the application of deep learning based methods, which require a large scale of supervised data. To address this challenge and improve the DTA prediction accuracy, we propose a framework with several simple yet effective strategies in this work: (1) a multi-task training strategy, which takes the DTA prediction and the masked language modeling (MLM) task on the paired drug-target dataset; (2) a semi-supervised training method to empower the drug and target representation learning by leveraging large-scale unpaired molecules and proteins in training, which differs from previous pre-training and fine-tuning methods that only utilize molecules or proteins in pre-training; and (3) a cross-attention module to enhance the interaction between drug and target representation. Extensive experiments are conducted on three real-world benchmark datasets: BindingDB, DAVIS and KIBA. The results show that our framework significantly outperforms existing methods and achieves state-of-the-art performances, e.g., $0.712$ RMSE on BindingDB IC$_{50}$ measurement with more than $5\%$ improvement than previous best work. In addition, case studies on specific drug-target binding activities, drug feature visualizations, and real-world applications demonstrate the great potential of our work. The code and data are released at https://github.com/QizhiPei/SMT-DTA
翻訳日:2022-06-22 15:25:59 公開日:2022-06-20
# beyond iid: 異種環境におけるデータ駆動意思決定

Beyond IID: data-driven decision-making in heterogeneous environments ( http://arxiv.org/abs/2206.09642v1 )

ライセンス: Link先を確認
Omar Besbes, Will Ma and Omar Mouchtaki(参考訳) 本研究では,データ駆動意思決定の研究を行い,同一かつ独立に分布する(i.i.d.)仮定から脱却する。 本稿では,異種環境を想定した未知分布と異なる分布から歴史サンプルを生成する新しい枠組みを提案する。 これらの分布は、既知の半径を持つ不均一性球の中にあり、決定の実行性を評価する未知の未来(サンプル外)分布を中心としていると仮定される。 サンプル平均近似やレート最適化といった中央データ駆動政策によって達成可能な漸近的最悪事例の後悔を、異種球の半径関数として定量化する。 本研究は,問題クラスと異質性の概念の組み合わせによって,達成可能な性能のタイプがかなり変化することを示す。 我々は,価格,スキーレンタル,ニュースベンドルなど,広く研究されているデータ駆動問題の異種バージョンに対する達成可能な保証を比較することで,フレームワークの汎用性を示す。 その過程で,データ駆動意思決定と分散的ロバストな最適化との新たな接続を確立する。

In this work, we study data-driven decision-making and depart from the classical identically and independently distributed (i.i.d.) assumption. We present a new framework in which historical samples are generated from unknown and different distributions, which we dub heterogeneous environments. These distributions are assumed to lie in a heterogeneity ball with known radius and centered around the (also) unknown future (out-of-sample) distribution on which the performance of a decision will be evaluated. We quantify the asymptotic worst-case regret that is achievable by central data-driven policies such as Sample Average Approximation, but also by rate-optimal ones, as a function of the radius of the heterogeneity ball. Our work shows that the type of achievable performance varies considerably across different combinations of problem classes and notions of heterogeneity. We demonstrate the versatility of our framework by comparing achievable guarantees for the heterogeneous version of widely studied data-driven problems such as pricing, ski-rental, and newsvendor. En route, we establish a new connection between data-driven decision-making and distributionally robust optimization.
翻訳日:2022-06-22 15:20:30 公開日:2022-06-20
# 定量的CTテクスチャ法による線維化性間質性肺疾患の診断と予後予測

Quantitative CT texture-based method to predict diagnosis and prognosis of fibrosing interstitial lung disease patterns ( http://arxiv.org/abs/2206.09766v1 )

ライセンス: Link先を確認
Babak Haghighi, Warren B. Gefter, Lauren Pantalone, Despina Kontos, Eduardo Mortani Barbosa Jr(参考訳) 目的: 線維化間質性肺疾患(ild)の診断と予後予測に高分解能定量ct(qct)画像の特徴を利用する。 アプローチ: ild患者40名(通常間質性肺炎20名,非uipパターンidd20名)を放射線科医2名の専門家コンセンサスで分類し,その後7年間経過した。 臨床変数が記録された。 肺野のセグメンテーション後, 格子型アプローチ(tmモデル)を用いて26種類のテクスチャ特徴を抽出した。 従来のヒストグラムモデル (HM) と比較して, UIP と非UIP の分類が可能であった。 予後評価のために, 専門診断ラベルとTM測定値を比較し, 生存分析を行った。 結果: 分類分析では, TMモデルはAUC0.70でHM法より優れていた。 cox回帰分析におけるuipと非uipエキスパートラベルの生存曲線は統計的に異なるものではなかったが、tm qctの特徴は統計的に有意なコホート分割を可能にした。 結論: TMモデルは、UIP以外のパターンとUIPを区別する上で、HMモデルを上回った。 最も重要なことに、TMはコホートを異なる生存グループに分割することができるが、専門家のUIP対非UIPラベリングはそうではない。 QCT TMモデルはILDの診断を改善し、より正確な予後と患者管理の指針を提供する。

Purpose: To utilize high-resolution quantitative CT (QCT) imaging features for prediction of diagnosis and prognosis in fibrosing interstitial lung diseases (ILD). Approach: 40 ILD patients (20 usual interstitial pneumonia (UIP), 20 non-UIP pattern ILD) were classified by expert consensus of 2 radiologists and followed for 7 years. Clinical variables were recorded. Following segmentation of the lung field, a total of 26 texture features were extracted using a lattice-based approach (TM model). The TM model was compared with previously histogram-based model (HM) for their abilities to classify UIP vs non-UIP. For prognostic assessment, survival analysis was performed comparing the expert diagnostic labels versus TM metrics. Results: In the classification analysis, the TM model outperformed the HM method with AUC of 0.70. While survival curves of UIP vs non-UIP expert labels in Cox regression analysis were not statistically different, TM QCT features allowed statistically significant partition of the cohort. Conclusions: TM model outperformed HM model in distinguishing UIP from non-UIP patterns. Most importantly, TM allows for partitioning of the cohort into distinct survival groups, whereas expert UIP vs non-UIP labeling does not. QCT TM models may improve diagnosis of ILD and offer more accurate prognostication, better guiding patient management.
翻訳日:2022-06-22 15:20:12 公開日:2022-06-20
# 推論に基づく量子センシング

Inference-Based Quantum Sensing ( http://arxiv.org/abs/2206.09919v1 )

ライセンス: Link先を確認
C. Huerta Alderete, Max Hunter Gordon, Frederic Sauvage, Akira Sone, Andrew T. Sornborger, Patrick J. Coles, M. Cerezo(参考訳) 標準量子センシング(qs)タスクでは、未知のパラメータ$\theta$を推定することを目的としており、システムの測定によって、n$-qubitのプローブ状態にエンコードされる。 このタスクの成功は、パラメータの変化とシステムの応答である$\mathcal{r}(\theta)$(すなわち、測定結果の変化)の変化を関連付ける能力にかかっている。 単純な場合、$\mathcal{R}(\theta)$の形式は知られているが、一般の閉形式表現は存在しないので、現実的なシナリオでは同じことは言えない。 本稿では,QSの推論に基づくスキームを提案する。 符号化のユニタリ族全体のクラスに対して、$\mathcal{r}(\theta)$ は、2n+1$ のパラメータでシステム応答を測定するだけで完全に特徴づけられることを示す。 これにより、測定された応答から未知のパラメータの値を推定し、その全体的な性能を特徴付けるセンシングスキームの感度を決定することができる。 推測誤差は,$\omega(\log^3(n)/\delta^2)$でしかスケールしないショット数でシステム応答を測定すると,高い確率で$\delta$より小さいことを示す。 さらに、提示されるフレームワークは、任意のプローブ状態や測定スキームに対して有効であり、量子ノイズの存在さえも維持できるため、広く適用することができる。 また、ユニタリファミリーを超えて結果を拡張する方法についても論じる。 最後に,本手法を実量子ハードウェアおよび数値シミュレーションにおいてqsタスクとして実装する。

In a standard Quantum Sensing (QS) task one aims at estimating an unknown parameter $\theta$, encoded into an $n$-qubit probe state, via measurements of the system. The success of this task hinges on the ability to correlate changes in the parameter to changes in the system response $\mathcal{R}(\theta)$ (i.e., changes in the measurement outcomes). For simple cases the form of $\mathcal{R}(\theta)$ is known, but the same cannot be said for realistic scenarios, as no general closed-form expression exists. In this work we present an inference-based scheme for QS. We show that, for a general class of unitary families of encoding, $\mathcal{R}(\theta)$ can be fully characterized by only measuring the system response at $2n+1$ parameters. In turn, this allows us to infer the value of an unknown parameter given the measured response, as well as to determine the sensitivity of the sensing scheme, which characterizes its overall performance. We show that inference error is, with high probability, smaller than $\delta$, if one measures the system response with a number of shots that scales only as $\Omega(\log^3(n)/\delta^2)$. Furthermore, the framework presented can be broadly applied as it remains valid for arbitrary probe states and measurement schemes, and, even holds in the presence of quantum noise. We also discuss how to extend our results beyond unitary families. Finally, to showcase our method we implement it for a QS task on real quantum hardware, and in numerical simulations.
翻訳日:2022-06-22 15:18:03 公開日:2022-06-20
# ガウス過程回帰における雑音推定

Noise Estimation in Gaussian Process Regression ( http://arxiv.org/abs/2206.09976v1 )

ライセンス: Link先を確認
Siavash Ameli, Shawn C. Shadden(参考訳) 付加雑音を伴う半パラメトリックガウス過程回帰モデルの共分散ハイパーパラメータを推定する計算手法を開発した。 提案手法は, 相関誤差の分散と雑音の分散を, 限界確率関数の最大化に基づいて効率的に推定することができる。 本手法では,超パラメータ空間の次元を適切に縮小し,不定根探索問題に対する推定手順を単純化する。 さらに、超パラメータ探索の初期範囲を狭めるのに有用である、境界公理関数とその導関数の境界と漸近を導出する。 数値例を用いて従来のパラメータ最適化と比較して,提案手法の計算上の利点と頑健性を示す。

We develop a computational procedure to estimate the covariance hyperparameters for semiparametric Gaussian process regression models with additive noise. Namely, the presented method can be used to efficiently estimate the variance of the correlated error, and the variance of the noise based on maximizing a marginal likelihood function. Our method involves suitably reducing the dimensionality of the hyperparameter space to simplify the estimation procedure to a univariate root-finding problem. Moreover, we derive bounds and asymptotes of the marginal likelihood function and its derivatives, which are useful to narrowing the initial range of the hyperparameter search. Using numerical examples, we demonstrate the computational advantages and robustness of the presented approach compared to traditional parameter optimization.
翻訳日:2022-06-22 15:17:35 公開日:2022-06-20
# ビデオ・サイレント・オブジェクト検出のための新しい長期反復マイニング方式

A Novel Long-term Iterative Mining Scheme for Video Salient Object Detection ( http://arxiv.org/abs/2206.09564v1 )

ライセンス: Link先を確認
Chenglizhao Chen and Hengsen Wang and Yuming Fang and Chong Peng(参考訳) 現行のsota(state-of-the-art)ビデオサルエント物体検出(vsod)モデルは,現在連続する限定フレームのみを考慮し,空間的・時間的サルエンシー融合のバランスを動的に決定する短期的手法に広く従っている。 しかし、短期的方法論には1つの限界があり、それは視覚システムの実際のメカニズム、典型的な長期的方法論と矛盾する。 その結果、障害ケースは現在のSOTAモデルの結果に現れ続け、短期的な方法論が主要な技術的ボトルネックとなっている。 そこで本研究では,VSOD を長期にわたって実施する新しい VSOD アプローチを提案する。 提案手法では,逐次的タスクである逐次VSODをデータマイニング問題,すなわち予め入力されたビデオシーケンスをオブジェクト提案に分解し,より容易かつハードな方法で有能なオブジェクト提案をマイニングする。 全てのオブジェクト提案が同時に利用可能であるため、提案手法は完全な長期的アプローチであり、従来の短期的アプローチに根ざした困難を緩和することができる。 さらに,サルエントオブジェクトの最も代表的かつ信頼性の高いパターンプロファイルを把握し,詳細なフレーム毎のサルエンシーマップを出力し,空間的および時間的に平滑化できるオンライン更新方式を考案した。 提案手法は、広く使用されている5つのベンチマークデータセットのほとんどすべてのsomaモデルを上回る。

The existing state-of-the-art (SOTA) video salient object detection (VSOD) models have widely followed short-term methodology, which dynamically determines the balance between spatial and temporal saliency fusion by solely considering the current consecutive limited frames. However, the short-term methodology has one critical limitation, which conflicts with the real mechanism of our visual system -- a typical long-term methodology. As a result, failure cases keep showing up in the results of the current SOTA models, and the short-term methodology becomes the major technical bottleneck. To solve this problem, this paper proposes a novel VSOD approach, which performs VSOD in a complete long-term way. Our approach converts the sequential VSOD, a sequential task, to a data mining problem, i.e., decomposing the input video sequence to object proposals in advance and then mining salient object proposals as much as possible in an easy-to-hard way. Since all object proposals are simultaneously available, the proposed approach is a complete long-term approach, which can alleviate some difficulties rooted in conventional short-term approaches. In addition, we devised an online updating scheme that can grasp the most representative and trustworthy pattern profile of the salient objects, outputting framewise saliency maps with rich details and smoothing both spatially and temporally. The proposed approach outperforms almost all SOTA models on five widely used benchmark datasets.
翻訳日:2022-06-22 15:00:13 公開日:2022-06-20
# lp-constrained softmax lossの再検討

Revisiting lp-constrained Softmax Loss: A Comprehensive Study ( http://arxiv.org/abs/2206.09616v1 )

ライセンス: Link先を確認
Chintan Trivedi, Konstantinos Makantasis, Antonios Liapis, Georgios N. Yannakakis(参考訳) 正規化は、データのプロパティを制御し、大規模なモデルパフォーマンスに影響を与えるため、あらゆる機械学習タスクにとって重要なプロセスである。 しかし、特定の形式による正規化の影響は、一般的な方法でではなく、限定されたドメイン固有の分類タスクで研究されている。 このような包括的研究の欠如に動機づけられて,本論文では概念実証型分類問題と実世界の一般的な画像分類課題の両方におけるlp制約型ソフトマックス損失分類器の性能について検討する。 実験結果から,lp制約のソフトマックス損失分類器はより正確な分類結果が得られるだけでなく,過度に適合する傾向が低いことが示唆された。 この中核的な発見は、テストされた3つの人気のあるディープラーニングアーキテクチャと8つのデータセットを対象とし、lp正規化はパフォーマンスと収束の点で画像分類のための推奨データ表現プラクティスであり、オーバーフィッティングに反するものであることを示唆している。

Normalization is a vital process for any machine learning task as it controls the properties of data and affects model performance at large. The impact of particular forms of normalization, however, has so far been investigated in limited domain-specific classification tasks and not in a general fashion. Motivated by the lack of such a comprehensive study, in this paper we investigate the performance of lp-constrained softmax loss classifiers across different norm orders, magnitudes, and data dimensions in both proof-of-concept classification problems and real-world popular image classification tasks. Experimental results suggest collectively that lp-constrained softmax loss classifiers not only can achieve more accurate classification results but, at the same time, appear to be less prone to overfitting. The core findings hold across the three popular deep learning architectures tested and eight datasets examined, and suggest that lp normalization is a recommended data representation practice for image classification in terms of performance and convergence, and against overfitting.
翻訳日:2022-06-22 14:59:43 公開日:2022-06-20
# 知っておくべきことは: 構造化ポイントクラウドの強化

What Can be Seen is What You Get: Structure Aware Point Cloud Augmentation ( http://arxiv.org/abs/2206.09664v1 )

ライセンス: Link先を確認
Frederik Hasecke, Martin Alsfasser and Anton Kummert(参考訳) セマンティクスセグメンテーションのための高性能ニューラルネットワークをトレーニングするには、ネットワークが見当たらないデータを一般化するために、利用可能な基盤真理を持つ大規模なデータセットを持つことが不可欠である。 本稿では,データセットを人工的に多様化する新しいポイントクラウド拡張手法を提案する。 センサ中心の手法はライダーセンサーの機能とデータ構造を一致させる。 これらの新しいメソッドのおかげで、低値データを高値インスタンスでエンリッチできるだけでなく、全く新しいシーンを作成できます。 提案手法は,semantickittiデータセットを用いて複数のニューラルネットワーク上で検証し,それぞれのベースラインに対して,すべてのネットワークが改善されていることを示す。 さらに,本手法は,アノテーション時間,トレーニング時間,関連するコストを節約し,非常に小さなデータセットの使用を可能にする。

To train a well performing neural network for semantic segmentation, it is crucial to have a large dataset with available ground truth for the network to generalize on unseen data. In this paper we present novel point cloud augmentation methods to artificially diversify a dataset. Our sensor-centric methods keep the data structure consistent with the lidar sensor capabilities. Due to these new methods, we are able to enrich low-value data with high-value instances, as well as create entirely new scenes. We validate our methods on multiple neural networks with the public SemanticKITTI dataset and demonstrate that all networks improve compared to their respective baseline. In addition, we show that our methods enable the use of very small datasets, saving annotation time, training time and the associated costs.
翻訳日:2022-06-22 14:59:22 公開日:2022-06-20
# Shapley-NAS:ニューラルアーキテクチャ検索における運用コントリビューションの発見

Shapley-NAS: Discovering Operation Contribution for Neural Architecture Search ( http://arxiv.org/abs/2206.09811v1 )

ライセンス: Link先を確認
Han Xiao, Ziwei Wang, Zheng Zhu, Jie Zhou, Jiwen Lu(参考訳) 本稿では,ニューラルアーキテクチャ探索のための演算寄与度(Shapley-NAS)を評価するためのShapley値に基づく手法を提案する。 微分可能アーキテクチャ探索(darts)は、勾配降下でアーキテクチャパラメータを最適化することで最適なアーキテクチャを取得し、検索コストを大幅に削減する。 しかし、勾配降下によって更新されるアーキテクチャパラメータの規模は、実際の運用上の重要さをタスク性能に示さないため、得られたアーキテクチャの有効性を損なう。 対照的に,検証精度に対する操作の直接的な影響を評価することを提案する。 スーパーネットコンポーネント間の複雑な関係に対処するために、Shapley値を利用して、すべての可能な組み合わせを考慮し、それらの限界寄与を定量化する。 具体的には、スーパーネットの重み付けを反復的に最適化し、Shapley値によるオペレーションコントリビューションを評価してアーキテクチャパラメータを更新し、タスクに大きく貢献する操作を選択することで最適なアーキテクチャを導出する。 シャープリー値の正確な計算はNP-hardであるため、モンテカルロサンプリングベースアルゴリズムを用いて効率的な近似を行い、サンプリングプロセスの変動を軽減するためにモーメント更新機構を採用する。 様々なデータセットや様々な検索空間に関する大規模な実験により、Shapley-NASは光探索コストとかなりの差で最先端の手法より優れていることが示された。 コードはhttps://github.com/euphoria16/shapley-nas.gitで入手できる。

In this paper, we propose a Shapley value based method to evaluate operation contribution (Shapley-NAS) for neural architecture search. Differentiable architecture search (DARTS) acquires the optimal architectures by optimizing the architecture parameters with gradient descent, which significantly reduces the search cost. However, the magnitude of architecture parameters updated by gradient descent fails to reveal the actual operation importance to the task performance and therefore harms the effectiveness of obtained architectures. By contrast, we propose to evaluate the direct influence of operations on validation accuracy. To deal with the complex relationships between supernet components, we leverage Shapley value to quantify their marginal contributions by considering all possible combinations. Specifically, we iteratively optimize the supernet weights and update the architecture parameters by evaluating operation contributions via Shapley value, so that the optimal architectures are derived by selecting the operations that contribute significantly to the tasks. Since the exact computation of Shapley value is NP-hard, the Monte-Carlo sampling based algorithm with early truncation is employed for efficient approximation, and the momentum update mechanism is adopted to alleviate fluctuation of the sampling process. Extensive experiments on various datasets and various search spaces show that our Shapley-NAS outperforms the state-of-the-art methods by a considerable margin with light search cost. The code is available at https://github.com/Euphoria16/Shapley-NAS.git
翻訳日:2022-06-22 14:57:36 公開日:2022-06-20
# ありえないものを排除するには、真実でなければならない

Eliminating The Impossible, Whatever Remains Must Be True ( http://arxiv.org/abs/2206.09551v1 )

ライセンス: Link先を確認
Jinqiang Yu, Alexey Ignatiev, Peter J. Stuckey, Nina Narodytska, Joao Marques-Silva(参考訳) 予測と決定を行うAIメソッドの台頭により、より説明可能な人工知能(XAI)メソッドの必要性が高まっている。 XAIの一般的なアプローチの1つは、ブラックボックスMLモデルが特定の予測を行った理由を説明する、ポストホックな説明を作ることである。 ポストホックな説明に対する形式的なアプローチは、予測がなぜ行われたのかという簡潔な理由と、他の予測ができなかった理由を提供する。 しかし、これらのアプローチでは、機能は独立であり、均一に分散していると仮定する。 これは「なぜ」説明が正しいのかという意味であるが、必要以上に長い場合もある。 また、「なぜそうでないのか」という説明は、彼らが依存する反例が意味を持たないかもしれないとして疑う可能性がある。 本稿では,より簡潔な「なぜ」な説明を行うために背景知識を適用し,人間による解釈が容易で,より正確な「なぜ」な説明を与える方法について述べる。 さらに,既存の規則帰納法を用いて,データセットから背景情報を効率的に抽出する方法と,どのような背景情報を用いて説明を行うのかを報告し,説明の正確性に疑問が持たれている場合,人間がそれを検証できるようにする方法を示す。

The rise of AI methods to make predictions and decisions has led to a pressing need for more explainable artificial intelligence (XAI) methods. One common approach for XAI is to produce a post-hoc explanation, explaining why a black box ML model made a certain prediction. Formal approaches to post-hoc explanations provide succinct reasons for why a prediction was made, as well as why not another prediction was made. But these approaches assume that features are independent and uniformly distributed. While this means that "why" explanations are correct, they may be longer than required. It also means the "why not" explanations may be suspect as the counterexamples they rely on may not be meaningful. In this paper, we show how one can apply background knowledge to give more succinct "why" formal explanations, that are presumably easier to interpret by humans, and give more accurate "why not" explanations. Furthermore, we also show how to use existing rule induction techniques to efficiently extract background information from a dataset, and also how to report which background information was used to make an explanation, allowing a human to examine it if they doubt the correctness of the explanation.
翻訳日:2022-06-22 14:52:08 公開日:2022-06-20
# FedSSO:フェデレーションサーバサイド2階最適化アルゴリズム

FedSSO: A Federated Server-Side Second-Order Optimization Algorithm ( http://arxiv.org/abs/2206.09576v1 )

ライセンス: Link先を確認
Xin Ma, Renyi Bao, Jinpeng Jiang, Yang Liu, Arthur Jiang, Jun Yan, Xin Liu, Zhisong Pan(参考訳) 本稿では,フェデレートラーニング(FL)のためのサーバ側2次最適化手法であるFedSSOを提案する。 この方向の以前の作業とは対照的に、クライアントからのトレーニングデータを必要とせずに、疑似ニュートン法のサーバサイド近似を用いる。 このようにして、計算負荷をクライアントからサーバに移すだけでなく、クライアントとサーバ間の2次更新のための追加の通信を完全に排除します。 提案手法の収束を理論的に保証し,凸と非凸の両方において高速収束と通信の節約を実証的に示す。

In this work, we propose FedSSO, a server-side second-order optimization method for federated learning (FL). In contrast to previous works in this direction, we employ a server-side approximation for the Quasi-Newton method without requiring any training data from the clients. In this way, we not only shift the computation burden from clients to server, but also eliminate the additional communication for second-order updates between clients and server entirely. We provide theoretical guarantee for convergence of our novel method, and empirically demonstrate our fast convergence and communication savings in both convex and non-convex settings.
翻訳日:2022-06-22 14:51:49 公開日:2022-06-20
# 選好誘導確率探索による高効率深層強化学習のサンプリング

Sampling Efficient Deep Reinforcement Learning through Preference-Guided Stochastic Exploration ( http://arxiv.org/abs/2206.09627v1 )

ライセンス: Link先を確認
Wenhui Huang, Cong Zhang, Jingda Wu, Xiangkun He, Jie Zhang and Chen Lv(参考訳) ディープQネットワーク(DQN)アルゴリズムによる大規模実用的な研究は、その単純さにもかかわらず、確率的ポリシーが最も頻繁に用いられる探索手法であることを示している。 しかし、既存の確率的探索手法のほとんどは、Q値に関わらずヒューリスティックに新しい行動を探索するか、学習プロセスに必然的にバイアスを導入してQ値と組み合わせるかのいずれかである。 本稿では,dqnに対するq値のランドスケープに沿った行動分布を,バイアスを伴わずに効率的に学習できる,新たな選好ガイド付き$\epsilon$-greedy探索アルゴリズムを提案する。 具体的には、2つの分岐からなる二重アーキテクチャを設計し、そのうちの1つはDQNのコピー、すなわちQブランチを設計する。 もう一方のブランチは、好みブランチと呼ばれ、DQNが暗黙的に従うアクションの好みを学習します。 理論的には、政策改善定理が優先誘導の$\epsilon$-greedyポリシーに対して成り立つことを証明し、推論された行動選好分布が対応するQ値の風景と一致することを実験的に示す。 その結果、選好誘導の$\epsilon$-greedy 探索は DQN エージェントが様々な行動をとる動機となる。 提案手法は,9つの異なる環境でよく知られた4つのDQN変種を用いて評価する。 性能と収束速度の観点から,提案手法が優れていることを確認した。 指標項- 優先誘導探索、確率的ポリシー、データ効率、深層強化学習、深層Q-ラーニング。

Massive practical works addressed by Deep Q-network (DQN) algorithm have indicated that stochastic policy, despite its simplicity, is the most frequently used exploration approach. However, most existing stochastic exploration approaches either explore new actions heuristically regardless of Q-values or inevitably introduce bias into the learning process to couple the sampling with Q-values. In this paper, we propose a novel preference-guided $\epsilon$-greedy exploration algorithm that can efficiently learn the action distribution in line with the landscape of Q-values for DQN without introducing additional bias. Specifically, we design a dual architecture consisting of two branches, one of which is a copy of DQN, namely the Q-branch. The other branch, which we call the preference branch, learns the action preference that the DQN implicit follows. We theoretically prove that the policy improvement theorem holds for the preference-guided $\epsilon$-greedy policy and experimentally show that the inferred action preference distribution aligns with the landscape of corresponding Q-values. Consequently, preference-guided $\epsilon$-greedy exploration motivates the DQN agent to take diverse actions, i.e., actions with larger Q-values can be sampled more frequently whereas actions with smaller Q-values still have a chance to be explored, thus encouraging the exploration. We assess the proposed method with four well-known DQN variants in nine different environments. Extensive results confirm the superiority of our proposed method in terms of performance and convergence speed. Index Terms- Preference-guided exploration, stochastic policy, data efficiency, deep reinforcement learning, deep Q-learning.
翻訳日:2022-06-22 14:51:40 公開日:2022-06-20
# 誘導型安全撮影: 安全制約付きモデルベース強化学習

Guided Safe Shooting: model based reinforcement learning with safety constraints ( http://arxiv.org/abs/2206.09743v1 )

ライセンス: Link先を確認
Giuseppe Paolo and Jonas Gonzalez-Billandon and Albert Thomas and Bal\'azs K\'egl(参考訳) 過去10年間、強化学習はgoボードゲームのような複雑な制御タスクと意思決定問題をうまく解決した。 しかし、これらのアルゴリズムを現実世界のシナリオにデプロイする上で成功例はほとんどない。 理由の1つは、クリティカルコントロールエンジニアリングシステムにおける基本的な要件である、安全でない状態の処理と回避における保証の欠如である。 本稿では,安全制約の最小限の違反でシステムを制御できるモデルベースのRLアプローチであるGuSS(Guid Safe Shooting)を紹介する。 モデルは、繰り返しバッチ方式でシステムの動作中に収集されたデータに基づいて学習され、その後、各ステップで実行する最善のアクションを計画するために使用される。 本研究では,単純なランダムシューティング戦略に基づくものと,より高度なダイバージェント探索アルゴリズムであるmap-elitesに基づくものという,3つの異なるセーフプランナーを提案する。 実験により、これらのプランナーは、システムの正確なモデルを学ぶ際に必要な側面である状態空間を最大限に探索しながら、学習エージェントが安全でない状況を避けるのに役立つことが示されている。 さらに、モデルなしのアプローチと比較して、モデルを学習することで、GuSSは、エンジニアリングシステムを扱う際の基本的な要件である高い報酬を得ながら、実際のシステムとのインタラクションの数を減らすことができる。

In the last decade, reinforcement learning successfully solved complex control tasks and decision-making problems, like the Go board game. Yet, there are few success stories when it comes to deploying those algorithms to real-world scenarios. One of the reasons is the lack of guarantees when dealing with and avoiding unsafe states, a fundamental requirement in critical control engineering systems. In this paper, we introduce Guided Safe Shooting (GuSS), a model-based RL approach that can learn to control systems with minimal violations of the safety constraints. The model is learned on the data collected during the operation of the system in an iterated batch fashion, and is then used to plan for the best action to perform at each time step. We propose three different safe planners, one based on a simple random shooting strategy and two based on MAP-Elites, a more advanced divergent-search algorithm. Experiments show that these planners help the learning agent avoid unsafe situations while maximally exploring the state space, a necessary aspect when learning an accurate model of the system. Furthermore, compared to model-free approaches, learning a model allows GuSS reducing the number of interactions with the real-system while still reaching high rewards, a fundamental requirement when handling engineering systems.
翻訳日:2022-06-22 14:51:12 公開日:2022-06-20
# ソフトクラスタリングの比較と評価のための分布的アプローチ

A Distributional Approach for Soft Clustering Comparison and Evaluation ( http://arxiv.org/abs/2206.09827v1 )

ライセンス: Link先を確認
Andrea Campagner, Davide Ciucci, Thierry Den{\oe}ux(参考訳) ソフトクラスタリング(sc)の外部評価基準(英語版)の開発は、scの比較尺度をscに拡張するための一般的なアプローチを提供しておらず、scアルゴリズムの結果に表される不確かさを考慮できないため、あまり注目されていない。 本稿では、これらの制約に対処する一般的な手法を提案し、SCをハードクラスタリング上の分布として解釈し、これを「emph{distributional measures}」と呼ぶ。 本稿では,提案手法の複雑性と計量論的性質について詳細な研究を行い,計算を抽出可能な近似手法について述べる。 最後に、簡単な実験を通して、我々のアプローチを説明します。

The development of external evaluation criteria for soft clustering (SC) has received limited attention: existing methods do not provide a general approach to extend comparison measures to SC, and are unable to account for the uncertainty represented in the results of SC algorithms. In this article, we propose a general method to address these limitations, grounding on a novel interpretation of SC as distributions over hard clusterings, which we call \emph{distributional measures}. We provide an in-depth study of complexity- and metric-theoretic properties of the proposed approach, and we describe approximation techniques that can make the calculations tractable. Finally, we illustrate our approach through a simple but illustrative experiment.
翻訳日:2022-06-22 14:28:51 公開日:2022-06-20
# 深層学習における一般化理解のためのntkの限界

Limitations of the NTK for Understanding Generalization in Deep Learning ( http://arxiv.org/abs/2206.10012v1 )

ライセンス: Link先を確認
Nikhil Vyas, Yamini Bansal, Preetum Nakkiran(参考訳) 'neural tangent kernel'' (ntk) (jacot et al 2018) とその経験的変種は、実際のニューラルネットワークの特定の挙動を捉えるためのプロキシとして提案されている。 本研究では,スケーリング法則のレンズを通してntkの研究を行い,ニューラルネットワークの一般化の重要な側面を説明することの欠如を実証する。 特に,初期化時の経験的および無限のntkと比較して,有限幅ニューラルネットワークがデータスケーリング指数が有意に優れているような現実的な設定を示す。 これにより、実際のネットワークとNTKの間には、ほんの数パーセントのテスト精度以上の根本的な違いが明らかになる。 さらに,実験的なntkを一定数のサンプルで事前トレーニングしても,カーネルスケーリングがニューラルネットワークのスケーリングに追いつくことはないことを示す。 最後に、経験的ntkはトレーニングのほとんどを通して進化を続けており、いくつかの期間のトレーニングの後に安定化することを示す先行研究とは対照的である。 また,本研究は,自然データセット上の実ネットワークの一般化を理解するため,NTKアプローチの具体的な限界を確立する。

The ``Neural Tangent Kernel'' (NTK) (Jacot et al 2018), and its empirical variants have been proposed as a proxy to capture certain behaviors of real neural networks. In this work, we study NTKs through the lens of scaling laws, and demonstrate that they fall short of explaining important aspects of neural network generalization. In particular, we demonstrate realistic settings where finite-width neural networks have significantly better data scaling exponents as compared to their corresponding empirical and infinite NTKs at initialization. This reveals a more fundamental difference between the real networks and NTKs, beyond just a few percentage points of test accuracy. Further, we show that even if the empirical NTK is allowed to be pre-trained on a constant number of samples, the kernel scaling does not catch up to the neural network scaling. Finally, we show that the empirical NTK continues to evolve throughout most of the training, in contrast with prior work which suggests that it stabilizes after a few epochs of training. Altogether, our work establishes concrete limitations of the NTK approach in understanding generalization of real networks on natural datasets.
翻訳日:2022-06-22 14:28:39 公開日:2022-06-20
# CPU上のディープラーニングモデル:効率的なトレーニングの方法論

Deep Learning Models on CPUs: A Methodology for Efficient Training ( http://arxiv.org/abs/2206.10034v1 )

ライセンス: Link先を確認
Quchen Fu, Ramesh Chukka, Keith Achorn, Thomas Atta-fosu, Deepak R. Canchi, Zhongwei Teng, Jules White, and Douglas C. Schmidt(参考訳) GPUは、高度に並列化されたアーキテクチャのため、ディープラーニングモデルのトレーニングに好まれている。 その結果、トレーニング最適化に関するほとんどの研究はGPUに焦点を当てている。 しかし、トレーニング用の適切なハードウェアを選択する方法を決定する際には、コストと効率のトレードオフがしばしばあります。 特にcpuサーバは、ハードウェア更新コストが少なく、既存のインフラをより活用できるため、cpu上でのトレーニングがより効率的であれば有益である。 本稿では,CPUを用いた深層学習モデルの学習にいくつかの貢献をする。 まず、intel cpu上でディープラーニングモデルのトレーニングを最適化する手法と、パフォーマンスプロファイリングを改善するために開発したprofilednnと呼ばれるツールキットを提案する。 第2に、ワークフローをガイドし、パフォーマンス問題を特定するいくつかのケーススタディを探索し、PyTorch用のIntel Extensionを最適化することで、RetinaNet-ResNext50モデル全体の2倍のトレーニングパフォーマンスが向上する。 第3に、PyTorchの公式実装の2倍高速な、ボトルネックの特定とカスタム焦点損失カーネル作成を可能にするProfileDNNの可視化機能を活用する方法を示す。

GPUs have been favored for training deep learning models due to their highly parallelized architecture. As a result, most studies on training optimization focus on GPUs. There is often a trade-off, however, between cost and efficiency when deciding on how to choose the proper hardware for training. In particular, CPU servers can be beneficial if training on CPUs was more efficient, as they incur fewer hardware update costs and better utilizing existing infrastructure. This paper makes several contributions to research on training deep learning models using CPUs. First, it presents a method for optimizing the training of deep learning models on Intel CPUs and a toolkit called ProfileDNN, which we developed to improve performance profiling. Second, we describe a generic training optimization method that guides our workflow and explores several case studies where we identified performance issues and then optimized the Intel Extension for PyTorch, resulting in an overall 2x training performance increase for the RetinaNet-ResNext50 model. Third, we show how to leverage the visualization capabilities of ProfileDNN, which enabled us to pinpoint bottlenecks and create a custom focal loss kernel that was two times faster than the official reference PyTorch implementation.
翻訳日:2022-06-22 14:28:20 公開日:2022-06-20
# 予測的宇宙ベイズ推論を用いたロバスト1ラウンド学習

Robust One Round Federated Learning with Predictive Space Bayesian Inference ( http://arxiv.org/abs/2206.09526v1 )

ライセンス: Link先を確認
Mohsin Hasan, Zehao Zhang, Kaiyang Guo, Mahdi Karami, Guojun Zhang, Xi Chen, Pascal Poupart(参考訳) 予測を堅牢にすることは重要な課題です。 フェデレーション学習(fl)の別の課題は、特に異種データ設定のパフォーマンスを低下させるため、通信ラウンドの数を減らすことである。 両問題に取り組むために,グローバルモデルを学ぶという問題をベイズ的視点から考える。 クライアントの予測後部を用いて,グローバルな予測後部を近似する方法を示す。 これは、局所モデル空間の後部を大域モデル空間後部に集約する他の研究と異なり、後部の高次元多重モーダルの性質による高い近似誤差の影響を受けやすい。 対照的に,提案手法では,出力空間の低次元化により近似が容易な予測後段の集計を行う。 本稿では,各クライアントでMCMCサンプリングを行い,局所的な後部推定を行い,それらを1ラウンドで集約し,大域的なアンサンブルモデルを得るアルゴリズムを提案する。 複数の分類と回帰タスクに関する経験的評価を通じて,1ラウンドの通信を使用するにも関わらず,他のfl手法と競合することを示し,異種環境ではそれを上回ることを示した。 コードはhttps://github.com/hasanmohsin/FedPredSpace_1Roundで公開されている。

Making predictions robust is an important challenge. A separate challenge in federated learning (FL) is to reduce the number of communication rounds, particularly since doing so reduces performance in heterogeneous data settings. To tackle both issues, we take a Bayesian perspective on the problem of learning a global model. We show how the global predictive posterior can be approximated using client predictive posteriors. This is unlike other works which aggregate the local model space posteriors into the global model space posterior, and are susceptible to high approximation errors due to the posterior's high dimensional multimodal nature. In contrast, our method performs the aggregation on the predictive posteriors, which are typically easier to approximate owing to the low-dimensionality of the output space. We present an algorithm based on this idea, which performs MCMC sampling at each client to obtain an estimate of the local posterior, and then aggregates these in one round to obtain a global ensemble model. Through empirical evaluation on several classification and regression tasks, we show that despite using one round of communication, the method is competitive with other FL techniques, and outperforms them on heterogeneous settings. The code is publicly available at https://github.com/hasanmohsin/FedPredSpace_1Round.
翻訳日:2022-06-22 14:24:29 公開日:2022-06-20
# 付加ガウス過程の再検討

Additive Gaussian Processes Revisited ( http://arxiv.org/abs/2206.09861v1 )

ライセンス: Link先を確認
Xiaoyu Lu, Alexis Boukouvalas, James Hensman(参考訳) ガウス過程(GP)モデルは、豊かな表現力を持つ柔軟な非パラメトリックモデルのクラスである。 加法構造を持つガウス過程を用いることで、複素応答は解釈可能性を維持しながらモデル化することができる。 以前の研究は、加法ガウス過程モデルが高次元相互作用項を必要とすることを示した。 本稿では, 直交加法カーネル (OAK) を提案する。これは加法関数に直交制約を課し, 関数関係の同定可能な低次元表現を可能にする。 我々はOAKカーネルを機能的ANOVA分解に接続し,スパース計算法における収束率の向上を示す。 少数の加法的低次元項だけで、OAKモデルはブラックボックスモデルと類似またはより良い予測性能を達成し、解釈可能性を維持する。

Gaussian Process (GP) models are a class of flexible non-parametric models that have rich representational power. By using a Gaussian process with additive structure, complex responses can be modelled whilst retaining interpretability. Previous work showed that additive Gaussian process models require high-dimensional interaction terms. We propose the orthogonal additive kernel (OAK), which imposes an orthogonality constraint on the additive functions, enabling an identifiable, low-dimensional representation of the functional relationship. We connect the OAK kernel to functional ANOVA decomposition, and show improved convergence rates for sparse computation methods. With only a small number of additive low-dimensional terms, we demonstrate the OAK model achieves similar or better predictive performance compared to black-box models, while retaining interpretability.
翻訳日:2022-06-22 14:22:44 公開日:2022-06-20
# 低精度確率的勾配ランジュバンダイナミクス

Low-Precision Stochastic Gradient Langevin Dynamics ( http://arxiv.org/abs/2206.09909v1 )

ライセンス: Link先を確認
Ruqi Zhang, Andrew Gordon Wilson, Christopher De Sa(参考訳) 低精度の最適化はディープラーニングの高速化に広く用いられているが、低精度のサンプリングはほとんど探索されていない。 その結果、ニューラルネットワークの一般化と不確実性推定に顕著な利点があるにもかかわらず、サンプリングは多くの大規模シナリオでは単に実現不可能である。 本稿では,SGLD(Stochastic Gradient Langevin Dynamics)の低精度化に関する最初の研究を行い,本質的なシステムノイズ処理能力のため,性能を犠牲にすることなくコストを大幅に削減できることを示した。 完全精度勾配アキュマレータによる低精度SGLDの収束は、強い凸条件下でのSGDよりも量子化誤差の影響が小さいことを証明した。 さらに,低精度勾配アキュムレータを実現するために,各更新ステップのばらつきを保存するSGLDの新しい量子化関数を開発した。 我々は,低精度のSGLDが,様々なディープラーニングタスクにおいて8ビットしか持たない完全精度のSGLDに匹敵する性能を実現することを示した。

While low-precision optimization has been widely used to accelerate deep learning, low-precision sampling remains largely unexplored. As a consequence, sampling is simply infeasible in many large-scale scenarios, despite providing remarkable benefits to generalization and uncertainty estimation for neural networks. In this paper, we provide the first study of low-precision Stochastic Gradient Langevin Dynamics (SGLD), showing that its costs can be significantly reduced without sacrificing performance, due to its intrinsic ability to handle system noise. We prove that the convergence of low-precision SGLD with full-precision gradient accumulators is less affected by the quantization error than its SGD counterpart in the strongly convex setting. To further enable low-precision gradient accumulators, we develop a new quantization function for SGLD that preserves the variance in each update step. We demonstrate that low-precision SGLD achieves comparable performance to full-precision SGLD with only 8 bits on a variety of deep learning tasks.
翻訳日:2022-06-22 14:22:32 公開日:2022-06-20
# 離散分布に対するlangevin-like sampler

A Langevin-like Sampler for Discrete Distributions ( http://arxiv.org/abs/2206.09914v1 )

ライセンス: Link先を確認
Ruqi Zhang, Xingchao Liu, Qiang Liu(参考訳) 複素高次元離散分布をサンプリングするための単純でスケーラブルな勾配に基づく離散的ランゲヴィン提案(DLP)を提案する。 ギブスサンプリング法とは対照的に、DLPは1ステップで全ての座標を並列に更新することができ、変化の大きさはステップサイズによって制御される。 これにより、高次元および強い相関変数の空間における安価で効率的な探索が可能になる。 静止分布の漸近バイアスが対数四分分布に対してゼロであることを示し、対数四分分布に近い分布に対して小さいことを示し、DLPの有効性を証明した。 dlpでは,非調整型,メトロポリス調整型,確率型,プリコンディショニング型など,いくつかのサンプリングアルゴリズムを開発した。 dlpは、イジングモデル、制限ボルツマンマシン、ディープエネルギーベースのモデル、バイナリニューラルネットワーク、言語生成など、さまざまなタスクにおいて、多くの一般的な選択肢を上回っている。

We propose discrete Langevin proposal (DLP), a simple and scalable gradient-based proposal for sampling complex high-dimensional discrete distributions. In contrast to Gibbs sampling-based methods, DLP is able to update all coordinates in parallel in a single step and the magnitude of changes is controlled by a stepsize. This allows a cheap and efficient exploration in the space of high-dimensional and strongly correlated variables. We prove the efficiency of DLP by showing that the asymptotic bias of its stationary distribution is zero for log-quadratic distributions, and is small for distributions that are close to being log-quadratic. With DLP, we develop several variants of sampling algorithms, including unadjusted, Metropolis-adjusted, stochastic and preconditioned versions. DLP outperforms many popular alternatives on a wide variety of tasks, including Ising models, restricted Boltzmann machines, deep energy-based models, binary neural networks and language generation.
翻訳日:2022-06-22 14:22:16 公開日:2022-06-20
# 建築・施設管理者のためのフリー・オープンソース自動外装ひび割れ検査ソフトウェアの開発

Developing a Free and Open-source Automated Building Exterior Crack Inspection Software for Construction and Facility Managers ( http://arxiv.org/abs/2206.09742v1 )

ライセンス: Link先を確認
Pi Ko, Samuel A. Prieto, Borja Garcia de Soto(参考訳) き裂の検査は、建物を適切に監視し維持するための重要なプロセスである。 しかし、手動の亀裂検査は時間がかかり、一貫性がなく、危険である(高層ビルなど)。 オープンソースAI技術の開発、無人航空機(UAV)の普及、スマートフォンカメラの利用可能化などにより、ビルクラック検査プロセスの自動化が可能になった。 本研究は, 建設・設備管理者向けに, コンクリートひび割れの同定と定量・定性レポート作成に最先端セグメンテーションアルゴリズムを用いて, 使い易く, 自由かつオープンソースの自動建築き裂検査ソフトウェア(ABECIS)の開発について述べる。 ABECISは、UAVとスマートフォンカメラから収集した画像を実環境と制御された実験室環境でテストした。 このアルゴリズムの生出力から,(1)制御された実験室環境における室内き裂検出実験用0.686,(2)スマートフォンを用いた建設現場における室内き裂検出用0.186,(3)商用ドローンを用いた大学キャンパスにおける屋外き裂検出用0.958である。 これらのiouの結果は、人間のオペレータが偽陽性を選択的に除去した場合、0.8以上も改善できる。 一般的に、ABECISは屋外のドローン画像に最適であり、アルゴリズム予測と人間の検証・干渉を組み合わせることで、非常に正確なき裂検出結果が得られる。 このソフトウェアは一般に公開されており、デフォルトではhttps://github.com/SMART-NYUAD/ABECISでダウンロードできる。

Inspection of cracks is an important process for properly monitoring and maintaining a building. However, manual crack inspection is time-consuming, inconsistent, and dangerous (e.g., in tall buildings). Due to the development of open-source AI technologies, the increase in available Unmanned Aerial Vehicles (UAVs) and the availability of smartphone cameras, it has become possible to automate the building crack inspection process. This study presents the development of an easy-to-use, free and open-source Automated Building Exterior Crack Inspection Software (ABECIS) for construction and facility managers, using state-of-the-art segmentation algorithms to identify concrete cracks and generate a quantitative and qualitative report. ABECIS was tested using images collected from a UAV and smartphone cameras in real-world conditions and a controlled laboratory environment. From the raw output of the algorithm, the median Intersection over Unions for the test experiments is (1) 0.686 for indoor crack detection experiment in a controlled lab environment using a commercial drone, (2) 0.186 for indoor crack detection at a construction site using a smartphone and (3) 0.958 for outdoor crack detection on university campus using a commercial drone. These IoU results can be improved significantly to over 0.8 when a human operator selectively removes the false positives. In general, ABECIS performs best for outdoor drone images, and combining the algorithm predictions with human verification/intervention offers very accurate crack detection results. The software is available publicly and can be downloaded for out-of-the-box use at: https://github.com/SMART-NYUAD/ABECIS
翻訳日:2022-06-22 14:08:00 公開日:2022-06-20
# wolonet:効率良く高精度な音声合成のためのウェーブ・スペクタ

WOLONet: Wave Outlooker for Efficient and High Fidelity Speech Synthesis ( http://arxiv.org/abs/2206.09920v1 )

ライセンス: Link先を確認
Yi Wang, Yi Si(参考訳) 近年,Parallel WaveGAN,MelGAN,HiFiGAN,UnivNetなどのGANベースのニューラルボコーダが,その軽量かつ並列な構造から普及し,CPU上でも高忠実なリアルタイム合成波形が実現されている。 HiFiGANとUnivNetは2つのSOTAヴォコーダである。 品質は高いものの、改善の余地はまだある。 本稿では,コンピュータビジョンからの視覚インスペクタの構造に動機づけられ,同様のアイデアを採用し,wolonetと呼ばれる効果的で軽量なニューラルボコーダを提案する。 本ネットワークでは,Sinusoidally activated dynamic kernel weightsを用いた,位置可変,チャネル非依存,奥行き動的畳み込みカーネルを用いた軽量ブロックを開発する。 提案手法の有効性と一般化性を示すため,本手法の新規設計を検証し,典型的なGANベースのボコーダと主観的,客観的な比較を行う。 その結果、我々のWOLONetは2つのニューラルSOTAボコーダ、HiFiGANとUnivNetよりも少ないパラメータを必要としながら、最高の生成品質を実現していることがわかった。

Recently, GAN-based neural vocoders such as Parallel WaveGAN, MelGAN, HiFiGAN, and UnivNet have become popular due to their lightweight and parallel structure, resulting in a real-time synthesized waveform with high fidelity, even on a CPU. HiFiGAN and UnivNet are two SOTA vocoders. Despite their high quality, there is still room for improvement. In this paper, motivated by the structure of Vision Outlooker from computer vision, we adopt a similar idea and propose an effective and lightweight neural vocoder called WOLONet. In this network, we develop a novel lightweight block that uses a location-variable, channel-independent, and depthwise dynamic convolutional kernel with sinusoidally activated dynamic kernel weights. To demonstrate the effectiveness and generalizability of our method, we perform an ablation study to verify our novel design and make a subjective and objective comparison with typical GAN-based vocoders. The results show that our WOLONet achieves the best generation quality while requiring fewer parameters than the two neural SOTA vocoders, HiFiGAN and UnivNet.
翻訳日:2022-06-22 14:04:14 公開日:2022-06-20
# GraphFramEx: グラフニューラルネットワークにおける説明可能性手法の体系的評価に向けて

GraphFramEx: Towards Systematic Evaluation of Explainability Methods for Graph Neural Networks ( http://arxiv.org/abs/2206.09677v1 )

ライセンス: Link先を確認
Kenza Amara, Rex Ying, Zitao Zhang, Zhihao Han, Yinan Shan, Ulrik Brandes, Sebastian Schemm, Ce Zhang(参考訳) 今日最もポピュラーな機械学習モデルのひとつとして、グラフニューラルネットワーク(GNN)が最近注目を集めており、その説明可能性も高い。 ユーザは、GNNモデルとその成果をよりよく理解することに興味を持っている。 残念ながら、今日のGNN説明可能性評価フレームワークは、しばしば合成データセットに依存しており、問題インスタンスの複雑さが不足しているため、スコープが限られている。 GNNモデルはよりミッションクリティカルなアプリケーションにデプロイされるため、GNNの説明可能性に関する共通評価プロトコルが必要である。 本稿では,GNN説明可能性に関する最初の体系的評価フレームワークを提案する。このフレームワークは3つの異なる「ユーザニーズ」の説明可能性:説明焦点,マスクの性質,マスク変換について考察する。 本稿では, 忠実度測定と説明の分類を, 十分あるいは必要である品質に基づいて組み合わせた一意な尺度を提案する。 ノード分類タスクを対象とし、GNNの入力レベル説明可能性の分野で最も代表的な手法を比較する。 広く使われている合成ベンチマークでは、パーソナライズされたページランクのような驚くほど浅いテクニックが最小の計算時間で最高のパフォーマンスを発揮する。 しかし、グラフ構造が複雑でノードに有意義な特徴がある場合、勾配に基づく手法、特に塩分は、評価基準に従って最適である。 しかしながら、すべての評価次元において他のものを支配するものはなく、常にトレードオフがある。 さらに,本評価プロトコルをebayグラフの事例研究に適用し,生産環境を反映させる。

As one of the most popular machine learning models today, graph neural networks (GNNs) have attracted intense interest recently, and so does their explainability. Users are increasingly interested in a better understanding of GNN models and their outcomes. Unfortunately, today's evaluation frameworks for GNN explainability often rely on synthetic datasets, leading to conclusions of limited scope due to a lack of complexity in the problem instances. As GNN models are deployed to more mission-critical applications, we are in dire need for a common evaluation protocol of explainability methods of GNNs. In this paper, we propose, to our best knowledge, the first systematic evaluation framework for GNN explainability, considering explainability on three different "user needs:" explanation focus, mask nature, and mask transformation. We propose a unique metric that combines the fidelity measures and classify explanations based on their quality of being sufficient or necessary. We scope ourselves to node classification tasks and compare the most representative techniques in the field of input-level explainability for GNNs. For the widely used synthetic benchmarks, surprisingly shallow techniques such as personalized PageRank have the best performance for a minimum computation time. But when the graph structure is more complex and nodes have meaningful features, gradient-based methods, in particular Saliency, are the best according to our evaluation criteria. However, none dominates the others on all evaluation dimensions and there is always a trade-off. We further apply our evaluation protocol in a case study on eBay graphs to reflect the production environment.
翻訳日:2022-06-22 14:00:30 公開日:2022-06-20
# グローバルコンテキストビジョン変換器

Global Context Vision Transformers ( http://arxiv.org/abs/2206.09959v1 )

ライセンス: Link先を確認
Ali Hatamizadeh, Hongxu Yin, Jan Kautz, and Pavlo Molchanov(参考訳) 本稿では,パラメータと計算利用性を向上させる新しいアーキテクチャであるglobal context vision transformer (gc vit)を提案する。 提案手法は,局所的な自己注意を伴うグローバルなコンテキスト自己注意モジュールを利用して,注目マスクの計算やローカルウィンドウの移動といった高価な操作を必要とせず,長期空間と短距離空間の相互作用を効果的にモデル化する。 さらに,vitsにおけるインダクティブバイアスの欠如の問題にも対処し,アーキテクチャに修正された逆ブロックを使用することを提案する。 提案するgc vitは画像分類,オブジェクト検出,セマンティクスセグメンテーションタスクにおいて最先端の結果を得る。 ImageNet-1K の分類用データセットでは、GC ViT のベース、小小、28$M、$1$M、$90$M のパラメータが$\textbf{83.2\%}$、$\textbf{83.9\%}$、$\textbf{84.4\%}$ Top-1 の精度をそれぞれ達成し、CNN ベースの ConvNeXt や ViT ベースの Swin Transformer のような比較可能なサイズの先行技術を上回る。 オブジェクト検出、インスタンスセグメンテーション、セマンティックセグメンテーションといった下流タスクにおける事前訓練されたGC ViTバックボーンは、MS COCOとADE20Kデータセットを使用して、時には大きなマージンによって、前処理を一貫して上回る。 コードはhttps://github.com/nvlabs/gcvit。

We propose global context vision transformer (GC ViT), a novel architecture that enhances parameter and compute utilization. Our method leverages global context self-attention modules, joint with local self-attention, to effectively yet efficiently model both long and short-range spatial interactions, without the need for expensive operations such as computing attention masks or shifting local windows. In addition, we address the issue of lack of the inductive bias in ViTs via proposing to use a modified fused inverted residual blocks in our architecture. Our proposed GC ViT achieves state-of-the-art results across image classification, object detection and semantic segmentation tasks. On ImageNet-1K dataset for classification, the base, small and tiny variants of GC ViT with $28$M, $51$M and $90$M parameters achieve $\textbf{83.2\%}$, $\textbf{83.9\%}$ and $\textbf{84.4\%}$ Top-1 accuracy, respectively, surpassing comparably-sized prior art such as CNN-based ConvNeXt and ViT-based Swin Transformer by a large margin. Pre-trained GC ViT backbones in downstream tasks of object detection, instance segmentation, and semantic segmentation using MS COCO and ADE20K datasets outperform prior work consistently, sometimes by large margins. Code available at https://github.com/NVlabs/GCViT.
翻訳日:2022-06-22 13:30:06 公開日:2022-06-20
# 補助情報のない混合前の深部生成モデルの同定可能性

Identifiability of deep generative models under mixture priors without auxiliary information ( http://arxiv.org/abs/2206.10044v1 )

ライセンス: Link先を確認
Bohdan Kivva, Goutham Rajendran, Pradeep Ravikumar, Bryon Aragam(参考訳) 我々は、深い潜在変数モデルの幅広いクラスが識別可能であることを証明する。 a) 普遍的な近似能力を持ち (b)は変分オートエンコーダのデコーダで、実際に一般的に使われている。 既存の研究とは異なり、我々の分析は弱監督、補助情報、潜在空間における条件付けを必要としない。 近年,このようなモデルの識別性に関する研究が盛んに行われている。 これらの研究において、データとともに補助変数$u$(サイド情報としても知られる)も観測されるという仮定が主である。 同時に、いくつかの作品が経験的に、これは実際に必要ではないように思われる。 本研究では、普遍近似能力を持つ幅広い生成型モデル(すなわち教師なしモデル)に対して、側面情報$u$が不要であることを示すことにより、この挙動を説明する。 我々の検討するモデルは、潜伏空間の混合先行とエンコーダのReLU/leaky-ReLUアクティベーションを利用する、実際に使用されるオートエンコーダアーキテクチャと密接な関係がある。 我々の主な成果は、以前の作業を大幅に一般化し、異なる仮定が識別可能性の異なる「強さ」にどのように寄与するかを明らかにする識別可能性階層である。 例えば、最も弱い結果はアフィン変換によって(教師なしの)識別可能性を確立します。 これらのモデルが普遍近似能力を持つことはよく知られており、データ表現を学ぶために実際に広く使われている。

We prove identifiability of a broad class of deep latent variable models that (a) have universal approximation capabilities and (b) are the decoders of variational autoencoders that are commonly used in practice. Unlike existing work, our analysis does not require weak supervision, auxiliary information, or conditioning in the latent space. Recently, there has been a surge of works studying identifiability of such models. In these works, the main assumption is that along with the data, an auxiliary variable $u$ (also known as side information) is observed as well. At the same time, several works have empirically observed that this doesn't seem to be necessary in practice. In this work, we explain this behavior by showing that for a broad class of generative (i.e. unsupervised) models with universal approximation capabilities, the side information $u$ is not necessary: We prove identifiability of the entire generative model where we do not observe $u$ and only observe the data $x$. The models we consider are tightly connected with autoencoder architectures used in practice that leverage mixture priors in the latent space and ReLU/leaky-ReLU activations in the encoder. Our main result is an identifiability hierarchy that significantly generalizes previous work and exposes how different assumptions lead to different "strengths" of identifiability. For example, our weakest result establishes (unsupervised) identifiability up to an affine transformation, which already improves existing work. It's well known that these models have universal approximation capabilities and moreover, they have been extensively used in practice to learn representations of data.
翻訳日:2022-06-22 13:28:21 公開日:2022-06-20
# (参考訳) 不均衡回帰におけるモデル最適化

Model Optimization in Imbalanced Regression ( http://arxiv.org/abs/2206.09991v1 )

ライセンス: CC BY 4.0
An\'ibal Silva, Rita P. Ribeiro, and Nuno Moniz(参考訳) 不均衡なドメイン学習は、あまり表現されていないがドメインにとって最も重要なインスタンスを予測するための正確なモデルを作成することを目的としている。 この分野の研究は、主に分類タスクに焦点を当てている。 相対的に回帰タスクの文脈で実施される研究の数は無視できる。 この主な理由の1つは、極端(rare)値の誤差を最小化することに集中できる損失関数の欠如である。 近年, 正方形誤差関連領域 (SERA) の評価指標が導入された。 このメトリクスは、極端な値で行われるエラーに重点を置くと同時に、ターゲット変数ドメイン全体のパフォーマンスも考慮し、重大なバイアスを防止している。 しかし、最適化指標としての有効性は不明である。 本稿では,SERAを不均衡回帰タスクにおける最適化基準として用いることの影響について検討する。 勾配ブースティングアルゴリズムを概念実証として,36個の異なる領域と大きさのデータセットを用いて実験を行った。 その結果、目的関数としてセラを用いたモデルは、それぞれの標準ブースティングアルゴリズムによって生成された極値予測モデルよりも実質的に優れていることがわかった。 これにより、SERAは不均衡回帰シナリオの最適化に基づく学習アルゴリズムに損失関数として組み込むことができる。

Imbalanced domain learning aims to produce accurate models in predicting instances that, though underrepresented, are of utmost importance for the domain. Research in this field has been mainly focused on classification tasks. Comparatively, the number of studies carried out in the context of regression tasks is negligible. One of the main reasons for this is the lack of loss functions capable of focusing on minimizing the errors of extreme (rare) values. Recently, an evaluation metric was introduced: Squared Error Relevance Area (SERA). This metric posits a bigger emphasis on the errors committed at extreme values while also accounting for the performance in the overall target variable domain, thus preventing severe bias. However, its effectiveness as an optimization metric is unknown. In this paper, our goal is to study the impacts of using SERA as an optimization criterion in imbalanced regression tasks. Using gradient boosting algorithms as proof of concept, we perform an experimental study with 36 data sets of different domains and sizes. Results show that models that used SERA as an objective function are practically better than the models produced by their respective standard boosting algorithms at the prediction of extreme values. This confirms that SERA can be embedded as a loss function into optimization-based learning algorithms for imbalanced regression scenarios.
翻訳日:2022-06-22 13:24:35 公開日:2022-06-20
# EAGER:言語誘導RLにおける自動リワードシェーピングのための質問と回答

EAGER: Asking and Answering Questions for Automatic Reward Shaping in Language-guided RL ( http://arxiv.org/abs/2206.09674v1 )

ライセンス: Link先を確認
Thomas Carta and Sylvain Lamprier and Pierre-Yves Oudeyer and Olivier Sigaud(参考訳) 強化学習(Reinforcement Learning, RL)は、長い地平線とまばらな報酬タスクであり、多くのトレーニングステップを必要とする。 プロセスをスピードアップするための標準的なソリューションは、追加の報酬信号を活用し、学習プロセスをより良くガイドするために形作ることです。 言語条件付きRLの文脈では、言語入力の抽象化と一般化プロパティは、報酬をより効率的に形成する機会を提供する。 本稿では,このアイデアを活用し,エージェントが汎用言語目標から補助目的を抽出する自動報酬形成手法を提案する。 これらの補助的目的は、質問生成(QG)と質問応答(QA)システム(QA)を使用する。 成功すると、その答えに対する自信に比例する内在的な報酬を受け取る。 これによりエージェントにインセンティブを与え、汎用言語目標の様々な側面を曖昧に説明する軌跡を生成する。 実験の結果,補助目的の設計に技術者の介入を必要とせず,効果的に探索を指示することで試料の効率を向上させることができた。

Reinforcement learning (RL) in long horizon and sparse reward tasks is notoriously difficult and requires a lot of training steps. A standard solution to speed up the process is to leverage additional reward signals, shaping it to better guide the learning process. In the context of language-conditioned RL, the abstraction and generalisation properties of the language input provide opportunities for more efficient ways of shaping the reward. In this paper, we leverage this idea and propose an automated reward shaping method where the agent extracts auxiliary objectives from the general language goal. These auxiliary objectives use a question generation (QG) and question answering (QA) system: they consist of questions leading the agent to try to reconstruct partial information about the global goal using its own trajectory. When it succeeds, it receives an intrinsic reward proportional to its confidence in its answer. This incentivizes the agent to generate trajectories which unambiguously explain various aspects of the general language goal. Our experimental study shows that this approach, which does not require engineer intervention to design the auxiliary objectives, improves sample efficiency by effectively directing exploration.
翻訳日:2022-06-22 13:08:19 公開日:2022-06-20
# 大きな期待:ストーリーテリングにおけるサスペンス、驚き、敬遠の教師なし推論

Great Expectations: Unsupervised Inference of Suspense, Surprise and Salience in Storytelling ( http://arxiv.org/abs/2206.09708v1 )

ライセンス: Link先を確認
David Wilmot(参考訳) 物語が興味を持つのは、それらは平凡で予測可能な出来事の連続であるだけでなく、ドラマと緊張があるからである。 ドラマチックでエキサイティングなストーリーを作るには驚きとサスペンスが不可欠です。 この論文は、自己監督(または教師なし)システムであるストーリーのみを読むことによって、一連のディープラーニングモデルをトレーニングするものだ。 物語理論の手法(ルールと手続き)は、物語における敬礼、驚き、敬礼を直接推測するために深層学習モデルに組み込まれた知識に適用される。 拡張はストーリープロットやwikipediaからの記憶と外部の知識を追加し、大きな期待やマクベスのような戯曲に対する敬礼を推測する。 他の作業は、オリジナルのストーリーを生成するための計画システムとしてモデルを適応させる。 この論文は、物語理論をディープラーニングモデルに適用することで、典型的な読者と整合できることを示している。 フォローアップ作業において、洞察は自動ストーリ作成や、記事の執筆、要約、編集の支援といったタスクのコンピュータモデルを改善するのに役立つだろう。 さらに、物語理論を本から読み、ビデオを見たり、音声を聴いたりすることで自己(自己監督)を学習するシステムに組み込まれた本質的性質に適用するアプローチは、他の領域やタスクにずっと安価で適応しやすい。 自己監督システムの改善は迅速である。 したがって、これらのシステムにドメインの専門知識を適用することは、多くの分野において機械学習を適用するためのより生産的なアプローチである。

Stories interest us not because they are a sequence of mundane and predictable events but because they have drama and tension. Crucial to creating dramatic and exciting stories are surprise and suspense. The thesis trains a series of deep learning models via only reading stories, a self-supervised (or unsupervised) system. Narrative theory methods (rules and procedures) are applied to the knowledge built into deep learning models to directly infer salience, surprise, and salience in stories. Extensions add memory and external knowledge from story plots and from Wikipedia to infer salience on novels such as Great Expectations and plays such as Macbeth. Other work adapts the models as a planning system for generating original stories. The thesis finds that applying the narrative theory to deep learning models can align with the typical reader. In follow-up work, the insights could help improve computer models for tasks such as automatic story writing and assistance for writing, summarising or editing stories. Moreover, the approach of applying narrative theory to the inherent qualities built in a system that learns itself (self-supervised) from reading from books, watching videos, and listening to audio is much cheaper and more adaptable to other domains and tasks. Progress is swift in improving self-supervised systems. As such, the thesis's relevance is that applying domain expertise with these systems may be a more productive approach for applying machine learning in many areas of interest.
翻訳日:2022-06-22 13:08:00 公開日:2022-06-20
# 潜時空間の密度推定による分布外検出のためのメタラーニング

Meta-learning for Out-of-Distribution Detection via Density Estimation in Latent Space ( http://arxiv.org/abs/2206.09543v1 )

ライセンス: Link先を確認
Tomoharu Iwata, Atsutoshi Kumagai(参考訳) 多くのニューラルネットワークを用いたOoD検出手法が提案されている。 しかし、ターゲットタスクごとに多くのトレーニングデータが必要である。 そこで本研究では,OoD を目標タスク内の小さな分布データで検出する,シンプルで効果的なメタ学習手法を提案する。 提案手法では,潜時空間における密度推定によりood検出を行う。 すべてのタスクで共有されるニューラルネットワークは、元の空間のインスタンスを潜在空間に柔軟にマッピングするために使用される。 ニューラルネットワークは、ターゲットタスクと異なるさまざまなタスクを使用することにより、期待ood検出性能が向上するようにメタ学習される。 このメタラーニング手法により,OoD検出のための潜在空間における適切な表現が得られる。 密度推定には,各クラスに対して完全な共分散を持つガウス混合モデル(gmm)を用いる。 確率を最大化することにより,GMMパラメータを各タスクの分布内データに適用することができる。 閉形解は微分可能であるので,その解をメタ学習対象関数に組み込むことで,確率勾配降下法により,ニューラルネットワークを効率的にメタ学習することができる。 6つのデータセットを用いた実験において,提案手法は既存のメタラーニング法やOoD検出法よりも優れた性能が得られることを示した。

Many neural network-based out-of-distribution (OoD) detection methods have been proposed. However, they require many training data for each target task. We propose a simple yet effective meta-learning method to detect OoD with small in-distribution data in a target task. With the proposed method, the OoD detection is performed by density estimation in a latent space. A neural network shared among all tasks is used to flexibly map instances in the original space to the latent space. The neural network is meta-learned such that the expected OoD detection performance is improved by using various tasks that are different from the target tasks. This meta-learning procedure enables us to obtain appropriate representations in the latent space for OoD detection. For density estimation, we use a Gaussian mixture model (GMM) with full covariance for each class. We can adapt the GMM parameters to in-distribution data in each task in a closed form by maximizing the likelihood. Since the closed form solution is differentiable, we can meta-learn the neural network efficiently with a stochastic gradient descent method by incorporating the solution into the meta-learning objective function. In experiments using six datasets, we demonstrate that the proposed method achieves better performance than existing meta-learning and OoD detection methods.
翻訳日:2022-06-22 13:06:36 公開日:2022-06-20
# 長期記憶ネットワークによるメジャーリーグ野球のパフォーマンス予測

Performance Prediction in Major League Baseball by Long Short-Term Memory Networks ( http://arxiv.org/abs/2206.09654v1 )

ライセンス: Link先を確認
Hsuan-Cheng Sun, Tse-Yu Lin, Yen-Lung Tsai(参考訳) プレイヤーのパフォーマンス予測は、マネージャが重要な決定を下す上で価値のある将来情報をもたらすため、あらゆるスポーツにおいて深刻な問題である。 野球業界では、既に可変予測システムと、正確な予測を提供し、ドメインユーザーを助ける多くの種類の研究が存在している。 しかし、深層学習に基づく予測手法やシステムについての研究は欠如している。 深層学習モデルは近年,様々な分野において最大の解法であることが証明されており,野球の予測問題に対して試行して適用できると考えている。 そこで,本論文では,深層学習モデルの予測能力が研究課題であると考えられる。 まず、野球の打者の力と才能を理解する上で最も重要な指標であるホームランの数を目標として選択する。 さらに, メジャーリーグ野球におけるホームラン予測問題を解決するために, 主手法としてシーケンシャルモデル長短期記憶を用いた。 いくつかの機械学習モデルと広く使われている野球投射システムsZymborski Projection Systemを比較した。 その結果,短期記憶の長大化は他のメモリよりも優れた性能を示し,より正確な予測が可能となった。 短期記憶は野球におけるパフォーマンス予測問題に対して実現可能な方法であり,ユーザのニーズに合った貴重な情報をもたらすことができると結論づけた。

Player performance prediction is a serious problem in every sport since it brings valuable future information for managers to make important decisions. In baseball industries, there already existed variable prediction systems and many types of researches that attempt to provide accurate predictions and help domain users. However, it is a lack of studies about the predicting method or systems based on deep learning. Deep learning models had proven to be the greatest solutions in different fields nowadays, so we believe they could be tried and applied to the prediction problem in baseball. Hence, the predicting abilities of deep learning models are set to be our research problem in this paper. As a beginning, we select numbers of home runs as the target because it is one of the most critical indexes to understand the power and the talent of baseball hitters. Moreover, we use the sequential model Long Short-Term Memory as our main method to solve the home run prediction problem in Major League Baseball. We compare models' ability with several machine learning models and a widely used baseball projection system, sZymborski Projection System. Our results show that Long Short-Term Memory has better performance than others and has the ability to make more exact predictions. We conclude that Long Short-Term Memory is a feasible way for performance prediction problems in baseball and could bring valuable information to fit users' needs.
翻訳日:2022-06-22 13:06:17 公開日:2022-06-20
# 一般凸ゲームにおける近似最適no-regret学習

Near-Optimal No-Regret Learning for General Convex Games ( http://arxiv.org/abs/2206.08742v2 )

ライセンス: Link先を確認
Gabriele Farina, Ioannis Anagnostides, Haipeng Luo, Chung-Wei Lee, Christian Kroer, Tuomas Sandholm(参考訳) 最近の一連の研究は、ゲーム内のすべてのプレイヤーが採用する際、T$の繰り返し後の各プレイヤーの「emph{regret}」は、非regretフレームワーク内の従来の保証よりも指数関数的に向上する、非結合学習力学を確立している。 しかし、これまでのところこれらの結果は、通常の形式や広範な形式のゲームのような、構造化された戦略空間を持つある種のゲームに限られている。 O(\text{polylog} T)$ regret bounds が一般的な凸やコンパクトな戦略集合に対して得られるかどうかという問題は、効率的な戦略更新を維持しながら、経済学やマルチエージェントシステムの多くの基本モデルで発生する。 本稿では,任意の凸とコンパクトな戦略セットでサポートされた凹凸ユーティリティ関数を持つゲームにおいて,O(\log T)$ per-player regreterという最初の未結合学習アルゴリズムを確立することで,これを肯定的に解する。 我々の学習力学は、適度に \emph{lifted} 空間上の楽観的な従順化リーダのインスタンス化に基づいており、これは特に、実現可能な領域の障壁ではない。 さらに、私たちの学習ダイナミクスは、凸戦略セットの近辺のオラクルへのアクセスを前提に、効率的に実装でき、o(\log\log t)$ 1イテレーションの複雑さをもたらします。 最後に、我々は、敵対体制において$o(\sqrt{t})$の後悔を保証するためにダイナミクスを適応させる。 先行結果が適用される特別な場合においても,提案アルゴリズムは繰り返し回数や戦略集合の次元に依存するため,最先端の後悔境界よりも改善される。

A recent line of work has established uncoupled learning dynamics such that, when employed by all players in a game, each player's \emph{regret} after $T$ repetitions grows polylogarithmically in $T$, an exponential improvement over the traditional guarantees within the no-regret framework. However, so far these results have only been limited to certain classes of games with structured strategy spaces -- such as normal-form and extensive-form games. The question as to whether $O(\text{polylog} T)$ regret bounds can be obtained for general convex and compact strategy sets -- which occur in many fundamental models in economics and multiagent systems -- while retaining efficient strategy updates is an important question. In this paper, we answer this in the positive by establishing the first uncoupled learning algorithm with $O(\log T)$ per-player regret in general \emph{convex games}, that is, games with concave utility functions supported on arbitrary convex and compact strategy sets. Our learning dynamics are based on an instantiation of optimistic follow-the-regularized-leader over an appropriately \emph{lifted} space using a \emph{self-concordant regularizer} that is, peculiarly, not a barrier for the feasible region. Further, our learning dynamics are efficiently implementable given access to a proximal oracle for the convex strategy set, leading to $O(\log\log T)$ per-iteration complexity; we also give extensions when access to only a \emph{linear} optimization oracle is assumed. Finally, we adapt our dynamics to guarantee $O(\sqrt{T})$ regret in the adversarial regime. Even in those special cases where prior results apply, our algorithm improves over the state-of-the-art regret bounds either in terms of the dependence on the number of iterations or on the dimension of the strategy sets.
翻訳日:2022-06-22 11:27:12 公開日:2022-06-20