このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20211220となっている論文です。

PDF登録状況(公開日: 20211220)

TitleAuthorsAbstract論文公表日・翻訳日
# 量子システム認証の理論:チュートリアル

Theory of quantum system certification: a tutorial ( http://arxiv.org/abs/2010.05925v3 )

ライセンス: Link先を確認
Martin Kliesch and Ingo Roth(参考訳) 複雑な量子システムの精密な制御は、デジタル量子コンピューティングを含む多くの技術応用を約束する。 このようなデバイスの複雑さは、正しい動作の証明を困難にします。 この課題に対処するために、過去10年間に多くの方法が開発された。 本稿では,量子状態とプロセスによって記述される量子デバイスの物理層を認証するためのプロトコルについて述べる。 このようなプロトコルは、短期デバイスの開発において特に重要である。 具体的には,直接量子状態認証法,直接忠実度推定法,影忠実度推定法,直接量子プロセス認証法,ランダム化ベンチマーク法,クロスエントロピーベンチマーク法について述べる。 さらに,量子情報理論において,プロトコルの理論的保証を導出するために広く用いられている強力な数学的手法について紹介する。

The precise control of complex quantum systems promises numerous technological applications including digital quantum computing. The complexity of such devices renders the certification of their correct functioning a challenge. To address this challenge, numerous methods were developed in the last decade. In this tutorial, we explain prominent protocols for certifying the physical layer of quantum devices described by quantum states and processes. Such protocols are particularly important in the development of near-term devices. Specifically, we discuss methods of direct quantum state certification, direct fidelity estimation, shadow fidelity estimation, direct quantum process certification, randomized benchmarking and cross-entropy benchmarking. Moreover, we provide an introduction to powerful mathematical methods, which are widely used in quantum information theory, in order to derive theoretical guarantees for the protocols.
翻訳日:2023-04-29 07:09:57 公開日:2021-12-20
# 建築許可証の共通計画チェックを自動化するためのifcモデル

IFC models for (semi)automating common planning checks for building permits ( http://arxiv.org/abs/2011.03117v3 )

ライセンス: Link先を確認
Francesca Noardo, Teng Wu, Ken Arroyo Ohori, Thomas Krijnen, Jantien Stoter(参考訳) 自動デジタルツールによる建築許可証発行をサポートするため、デザイナーが作成したモデルの再利用により、プロセスはより迅速かつ客観的になる。 しかし、現在の研究とパイロットは、建築家が実際に提供するモデルに関して、品質や内容の異なるギャップをしばしば残している。 本研究では、トップダウンアプローチではなく、利用可能なデータから始めて必要な推論を行い、基本的な問題や一般的な問題に取り組む機会を与え、スムーズな自動処理を防止した。 IFCモデルの具体的特徴を概説し,代表規則を確認するために必要な情報を抽出するツールを開発した。 ケーススタディは、場所、規制、入力モデルに特化していますが、遭遇した問題のタイプは、自動コードコンプライアンスチェックの一般的な例です。 これは、建築許可の発行の自動化に向けた今後の取り組みの確固たる基盤である。

To support building permit issuing with automatic digital tools, the reuse of models produced by designers would make the process quicker and more objective. However, current studies and pilots often leave a gap with respect to the models as actually provided by architects, having varying quality and content. In this study, rather than taking a top down approach, we started from the available data and made the necessary inferences, which gave the opportunity to tackle basic and common issues often preventing smooth automatic processing. Specific characteristics of the IFC models were outlined and a tool was developed to extract the necessary information from them to check representative regulations. While the case study is specific in location, regulations and input models, the type of issues encountered are a generally applicable example for automated code compliance checking. This represents a solid base for future works towards the automation of building permits issuing.
翻訳日:2023-04-25 11:30:13 公開日:2021-12-20
# 統計的境界を越える2つの正弦波の量子ウォーク

Quantum walk of two anyons across a statistical boundary ( http://arxiv.org/abs/2012.03977v2 )

ライセンス: Link先を確認
Liam L.H. Lau and Shovan Dutta(参考訳) 我々は、同一粒子の量子ウォークをモデル化し、1次元格子内の領域の壁を飛び越えて交換統計量を変化させる。 このような「統計境界」は単一粒子に対して透明であり、複数の粒子を交換することでのみ力学に影響を与える。 この2粒子干渉は界面の波束の反射によって劇的に変化し、強い測定可能な非対称性が生じる。 両面の位相により、束ねられた波束は完全に反射されるか、反射波と反束縛波の重ね合わせに分割される。 これにより、2つのドメインウォールで衝撃的なダイナミクスが発生し、束ねられた波は、複数の相関した1粒子の波束に閉じ込められるか、断片化される。 これらの発見は、現在の原子配置における密度依存ホッピングによって実現され、統計境界における固有多体現象の新しいパラダイムが開かれる。

We model a quantum walk of identical particles that can change their exchange statistics by hopping across a domain wall in a 1D lattice. Such a "statistical boundary" is transparent to single particles and affects the dynamics only by swapping multiple particles arriving together. We find that the two-particle interference is dramatically altered by reflections of these bunched waves at the interface, producing strong measurable asymmetries. Depending on the phases on the two sides, a bunched wavepacket can get completely reflected or split into a superposition of a reflected wave and an antibunched wave. This leads to striking dynamics with two domain walls, where bunched waves can get trapped in between or fragment into multiple correlated single-particle wavepackets. These findings can be realized with density-dependent hopping in present-day atomic setups and open up a new paradigm of intrinsically many-body phenomena at statistical boundaries.
翻訳日:2023-04-21 20:46:26 公開日:2021-12-20
# カオス変動による量子コンピューティングのためのトランスモンプラットフォーム

Transmon platform for quantum computing challenged by chaotic fluctuations ( http://arxiv.org/abs/2012.05923v2 )

ライセンス: Link先を確認
Christoph Berke, Evangelos Varvelis, Simon Trebst, Alexander Altland and David P. DiVincenzo(参考訳) 多くの体物理学の観点から、現在量子コンピューティング用に開発されたトランスモン量子ビットアーキテクチャは結合非線形量子共振器のシステムである。 非線形共振器結合の不安定化効果から個々の量子状態を保護するには、相当量の意図的周波数減衰(不規則)が必要である。 本稿では, 可変量子ビット(IBM型)と可変量子ビット(Delft/Google型)の2種類の現行量子プロセッサに関連するシステムパラメータに対する多体局所化(MBL)位相の安定性について検討する。 局在理論の3つの独立した診断法 -- スペクトル統計のkullback-leibler解析、多体波動関数の統計(逆参加比)、多体スペクトルのウォルシュ変換 -- を適用すると、これらの計算プラットフォームは制御不能なカオス変動のフェーズに危険なほど近いことが分かる。

From the perspective of many body physics, the transmon qubit architectures currently developed for quantum computing are systems of coupled nonlinear quantum resonators. A significant amount of intentional frequency detuning (disorder) is required to protect individual qubit states against the destabilizing effects of nonlinear resonator coupling. Here we investigate the stability of this variant of a many-body localized (MBL) phase for system parameters relevant to current quantum processors of two different types, those using untunable qubits (IBM type) and those using tunable qubits (Delft/Google type). Applying three independent diagnostics of localization theory -- a Kullback-Leibler analysis of spectral statistics, statistics of many-body wave functions (inverse participation ratios), and a Walsh transform of the many-body spectrum -- we find that these computing platforms are dangerously close to a phase of uncontrollable chaotic fluctuations.
翻訳日:2023-04-21 05:37:29 公開日:2021-12-20
# イオン鎖におけるロバスト2ビットゲートの周波数変調パルスのバッチ最適化

Batch Optimization of Frequency-Modulated Pulses for Robust Two-qubit Gates in Ion Chains ( http://arxiv.org/abs/2104.06887v2 )

ライセンス: Link先を確認
Mingyu Kang, Qiyao Liang, Bichen Zhang, Shilin Huang, Ye Wang, Chao Fang, Jungsang Kim, Kenneth R. Brown(参考訳) 閉じ込められたイオン量子コンピュータの2量子ビットゲートは、イオンの内部状態とその運動を一時的に絡むスピン依存力を適用することによって生成される。 レーザーパルスは、運動とイオンの間の残差を最小限に抑えながら、イオン間の最大エンタングルゲートを生成するよう慎重に設計されている。 実際の実験パラメータが理想的な場合と異なる場合、ゲートの品質が低下する。 本稿では,バッチ最適化による系統的誤りに対する平均性能を最適化することにより,周波数変調型m{\o}lmer-s{\o}rensenゲートの動作モード周波数オフセットに対するロバスト性を向上させる。 次に,解析的ロバスト性条件を含む理想的なパラメータに最適化された周波数変調ゲートと比較する。 数値シミュレーションにより12イオンまでの優れた性能を示し、2イオン鎖上で実験を行った。

Two-qubit gates in trapped-ion quantum computers are generated by applying spin-dependent forces that temporarily entangle the internal state of the ion with its motion. Laser pulses are carefully designed to generate a maximally entangling gate between the ions while minimizing any residual entanglement between the motion and the ion. The quality of the gates suffers when the actual experimental parameters differ from the ideal case. Here, we improve the robustness of frequency-modulated M{\o}lmer-S{\o}rensen gates to motional mode-frequency offsets by optimizing the average performance over a range of systematic errors using batch optimization. We then compare this method with frequency-modulated gates optimized for ideal parameters that include an analytic robustness condition. Numerical simulations show good performance up to 12 ions, and the method is experimentally demonstrated on a two-ion chain.
翻訳日:2023-04-03 21:13:21 公開日:2021-12-20
# ibm量子コンピュータによるビームスプリッターのディジタル量子シミュレーションとスクイーズ

Digital quantum simulation of beam splitters and squeezing with IBM quantum computers ( http://arxiv.org/abs/2104.09442v3 )

ライセンス: Link先を確認
Paula Cordero Encinar, Andr\'es Agust\'i and Carlos Sab\'in(参考訳) 本稿では,ビームスプリッタとスクイーズ相互作用のディジタル量子シミュレーション結果について述べる。 ボソニック・ハミルトンは量子ビットにマッピングされ、IBM量子デバイスに実装するためにデジタル化される。 我々は、単一モードと2モードの相互作用の高忠実なデジタル量子シミュレーションを実現するために、エラー軽減とポストセレクションを使用します。 単一モードのスクイーズが低い場合, 大きなスクイーズでは 60 % から 90 % の範囲で, より複雑な2モード相互作用では 90 % 以上の忠実度が得られる。

We present results on the digital quantum simulations of beam-splitter and squeezing interactions. The bosonic hamiltonians are mapped to qubits and then digitalized in order to implement them in the IBM quantum devices. We use error mitigation and post-selection to achieve high-fidelity digital quantum simulations of single-mode and two-mode interactions, as evidenced -- where possible -- by full tomography of the resulting states. We achieve fidelities above 90 \% in the case of single-mode squeezing with low squeezing values and ranging from 60 \% to 90 \% for large squeezing and in the more complex two-mode interactions.
翻訳日:2023-04-03 04:41:27 公開日:2021-12-20
# QuNet:量子ネットワークにおけるコストベクトル解析とマルチパス絡み合いルーティング

QuNet: Cost vector analysis & multi-path entanglement routing in quantum networks ( http://arxiv.org/abs/2105.00418v2 )

ライセンス: Link先を確認
Hudson Leone, Nathaniel R. Miller, Deepesh Singh, Nathan K. Langford, Peter P. Rohde(参考訳) 絡み合いの分布は多くの未来の分散量子技術、特に量子インターネットのバックボーンを形成する。 複数のノイズの絡み合った状態から高い品質の1つの状態へと浄化する行為は、古典的ネットワークにおいて類似しないため、ルーティングの絡み合いに対する将来のアルゴリズムを考える方法が変換される。 このことから生じる差異を概説し,'マルチパス絡み合いルーティング'の基本的な形式を提示するとともに,従来のディジタルネットワーク理論と比較する際に生じる哲学的差異について考察する。 また,マルチユーザエンタングルメントネットワークにおけるルーティングを,ネットワークサイズや競合するユーザ数に非常にスケーラブルな方法でシミュレートし,ベンチマークするために,新しい「量子コストベクトル解析」を利用するソフトウェアQuNetを提案する。 本ソフトウェアは地上ネットワークと空間ネットワークの両方に対応し,量子メモリ利用時の混雑緩和のための効率的なマルチユーザ時間最適化を実現する。

Entanglement distribution will form the backbone of many future distributed quantum technologies, especially the quantum internet. The act of purifying multiple noisy entangled states into a single one of higher quality has no analogue in classical networking and as such, this transforms the way in which we will consider future algorithms for routing entanglement. We outline the differences that arise because of this, demonstrate some elementary formalisms for `multi-path entanglement routing', and discuss the philosophical differences that arise when comparing this regime to conventional digital network theory. We also present a software package, QuNet, that uses novel `quantum cost-vector analysis' to simulate and benchmark routing in multi-user entanglement networks in a way that is is highly scalable in network size and the number of competing users. Our software accommodates both ground- and space-based networks, and implements efficient multi-user time-optimisation for mitigating congestion when quantum memories are available.
翻訳日:2023-04-01 19:48:27 公開日:2021-12-20
# 混合ボソニック状態の集団超解像測定

Collective super-resolving measurements for mixed bosonic states ( http://arxiv.org/abs/2110.00986v2 )

ライセンス: Link先を確認
J. O. de Almeida and M. Lewenstein and M. Skotiniotis(参考訳) 集合計測手法を用いて非コヒーレントなボゾン源の超解像限界を達成する方法を示す。 非コヒーレント電磁波を放射する2つの点源の場合、我々の測定戦略は、その強度セントロイドの事前知識を必要とせず、分離の超解像を可能にする。 我々の測定戦略は、Nボソニック系の交換における対称性の活用に依存し、密度作用素のスペクトルを決定することと等価である。 さらに, スペクトル測定の精度向上により, 音源相対強度や遠心率など, 関連するパラメータの最適推定が可能となった。 最後に,量子記憶を用いてスペクトル計測を実装可能な実験手法を提案する。

We show how to attain super resolution limits for incoherent bosonic sources using collective measurement strategies. For the case of two point sources emitting incoherent electromagnetic radiation, our measurement strategy allows for super-resolution of their separation without requiring prior knowledge of their intensity centroid. Our measurement strategy relies on exploiting the symmetry under exchange of N bosonic systems and is equivalent to determining the spectrum of their density operator. Furthermore, refinements of our spectrum measurement allow for optimal estimation of further pertinent parameters, such as the sources relative intensity and their centroid. Finally, we provide possible experimental schemes that can implement the spectrum measurement with the use of quantum memories.
翻訳日:2023-03-12 16:16:07 公開日:2021-12-20
# ds時空における双曲真空の平均場二乗およびエネルギー運動量テンソル

Mean field squared and energy-momentum tensor for the hyperbolic vacuum in dS spacetime ( http://arxiv.org/abs/2110.06662v2 )

ライセンス: Link先を確認
A. A. Saharian, T. A. Petrosyan, V. S. Torosyan(参考訳) d+1)$-dimensional de sitter (ds)時空における質量のない共形結合スカラー場に対する電界二乗およびエネルギー運動量テンソルのハダマール関数と真空期待値(vevs)を負の定数曲率の空間的切断により観測した。 この場は双曲型真空状態で準備されていると仮定される。 アダマール関数の双曲型およびバンチダヴィース型真空に対応する差分に対する積分表現は、一致限界における期待値の評価によく適合する。 Bunch-Davies状態は双曲真空に関して熱として解釈される。 対応する状態密度の式が提供される。 Bunch-Davies と hyperbolic vacua のVEVの差について, 時空におけるFulling-Rindler と Minkowski の対応関係と比較した。 これらの関係の類似性は、ds時空と双曲葉とリンドラー時空との共形接続によって説明される。 極限の場合として、ミルネ宇宙における共形真空のvevについて論じる。

We evaluate the Hadamard function and the vacuum expectation values (VEVs) of the field squared and energy-momentum tensor for a massless conformally coupled scalar field in $(D+1)$-dimensional de Sitter (dS) spacetime foliated by spatial sections of negative constant curvature. It is assumed that the field is prepared in the hyperbolic vacuum state. An integral representation for the difference of the Hadamard functions corresponding to the hyperbolic and Bunch-Davies vacua is provided that is well adapted for the evaluation of the expectation values in the coincidence limit. It is shown that the Bunch-Davies state is interpreted as thermal with respect to the hyperbolic vacuum. An expression for the corresponding density of states is provided. The relations obtained for the difference in the VEVs for the Bunch-Davies and hyperbolic vacua are compared with the corresponding relations for the Fulling-Rindler and Minkowski vacua in flat spacetime. The similarity between those relations is explained by the conformal connection of dS spacetime with hyperbolic foliation and Rindler spacetime. As a limiting case, the VEVs for the conformal vacuum in the Milne universe are discussed.
翻訳日:2023-03-11 14:41:36 公開日:2021-12-20
# ループ量子重力の量子シミュレーション

Quantum Simulations of Loop Quantum Gravity ( http://arxiv.org/abs/2112.02426v2 )

ライセンス: Link先を確認
Swapnil Nitin Shah(参考訳) ループ量子重力 (lqg) は、量子物理学と一般相対性理論(gr)を統一するための主要なアプローチの一つである。 lqg のヒルベルト空間は、量子時空の局所幾何を記述するスピンネットワークにまたがる。 lqgスピンネットワーク状態とそのダイナミクスのシミュレーションは古典的に難解であり、有界量子多項式(bqp)時間複雑性クラスに属すると考えられている。 近年,新しい量子コンピューティング技術を用いてこれらの状態をシミュレートする試みが数多く行われている。 本稿では,超伝導量子ビット,線形光量子ビット,核磁気共鳴(NMR)量子ビットを利用する3つの取り組みについて概説する。 このレビューで選ばれた記事は、LQGの量子シミュレーションにおける技術の現状を表している。

Loop Quantum Gravity (LQG) is one of the leading approaches to unify quantum physics and General Relativity (GR). The Hilbert space of LQG is spanned by spin-networks which describe the local geometry of quantum space-time. Simulation of LQG spin-network states and their dynamics is classically intractable and is widely believed to fall in the Bounded Quantum Polynomial (BQP) time complexity class. There have been many recent attempts to simulate these states using novel and off the shelf quantum computing technologies. In this article, we review three such efforts which utilize superconducting qubits, linear optical qubits and Nuclear Magnetic Resonance (NMR) qubits respectively. The articles chosen for this review represent state of the art in quantum simulations of LQG.
翻訳日:2023-03-05 18:16:45 公開日:2021-12-20
# ゲート可変ジョセフソン干渉計アレイにおける保護型ハイブリッド超電導量子ビット

Protected hybrid superconducting qubit in an array of gate-tunable Josephson interferometers ( http://arxiv.org/abs/2112.06907v2 )

ライセンス: Link先を確認
Constantin Schrade, Charles M. Marcus, Andr\'as Gyenis(参考訳) 半導体ジョセフソン干渉計で接続された超伝導アイランドのモジュール配列に基づく保護量子ビットを提案する。 個々の干渉計は、「クーパー対のペア」を超伝導島間で交換する効果的な$\cos2\phi$要素を実現している。 大きなコンデンサが配列の端部をシャントすると、その縮退した基底状態がゼロオフセット電荷とハーフフラックス量子の周りの大きなウィンドウのオフセット電荷と磁場揺らぎにロバストであるため、回路は保護キュービットを形成する。 この保護窓は、個々の要素がバランスを取っていれば干渉計の数を増やすことによって拡大する。 システムを記述するために有効なスピンモデルを用い、量子位相遷移点が保護が破壊される臨界磁束値を設定することを示す。

We propose a protected qubit based on a modular array of superconducting islands connected by semiconductor Josephson interferometers. The individual interferometers realize effective $\cos2\phi$ elements that exchange `pairs of Cooper pairs' between the superconducting islands when gate-tuned into balance and frustrated by a half flux quantum. If a large capacitor shunts the ends of the array, the circuit forms a protected qubit because its degenerate ground states are robust to offset charge and magnetic field fluctuations for a sizable window around zero offset charge and half flux quantum. This protection window broadens upon increasing the number of interferometers if the individual elements are balanced. We use an effective spin model to describe the system and show that a quantum phase transition point sets the critical flux value at which protection is destroyed.
翻訳日:2023-03-04 16:22:42 公開日:2021-12-20
# 非慣性フレームにおけるジアロシンスキー-モリヤ相互作用を持つ2量子ハイゼンベルクXXXモデルの熱絡みとテレポーテーションに及ぼす加速パラメータの影響

The effect of acceleration parameter on thermal entanglement and teleportation of a two-qubit Heisenberg XXX model with Dzyaloshinski-Moriya interaction in non-inertial frames ( http://arxiv.org/abs/2112.10344v1 )

ライセンス: Link先を確認
Chuan Mo, Guo-Feng Zhang(参考訳) dzyaloshinski-moriya(dm)相互作用を持つ2量子ビットハイゼンベルクxxxモデルを量子チャネルとして用いた場合,非慣性フレームにおける熱的絡み合いとテレポーテーション特性について検討した。 熱エンタングルメントとテレポート状態のテレポーテーション忠実度は、加速パラメータや温度とともに減少し、言い換えれば、量子エンタングルメントのテレポーテーションは非慣性フレームで縮退する。 また,非慣性フレームにおける反強磁性ケースとは反対の強磁性ケースに対するDM相互作用により,加速度パラメータの影響を受けながら,平均忠実度が促進されることが示唆された。

Thermal entanglement and teleportation properties in non-inertial frames are investigated when a two-qubit Heisenberg XXX model with Dzyaloshinski-Moriya (DM) interaction is used as the quantum channel. We find that thermal entanglement and the teleportation fidelity of a teleported state decrease with the acceleration parameter or temperature, in other words, the quantum entanglement teleportation will degenerate in non-inertial frames. Furthermore, our results also show that the average fidelity may be promoted by DM interaction for the ferromagnetic case, which is opposite to the antiferromagnetic case in non-inertial frames, although hindered by acceleration parameter, and their influence can be counteracted.
翻訳日:2023-03-04 01:22:34 公開日:2021-12-20
# 双極子相互作用と磁場によるハイゼンベルク模型の熱的コヒーレンス

Thermal Coherence of Heisenberg Model With Dipole Interaction and Magnetic External Field ( http://arxiv.org/abs/2112.10341v1 )

ライセンス: Link先を確認
Jin-Kai Li, Guo-Feng Zhang(参考訳) 固有デコヒーレンスの存在下での磁場を有する2量子ハイゼンベルクxxxモデルにおけるコヒーレンスのダイナミクスについて検討した。 本稿では,双極子パラメータ,スピン距離,磁場,初期状態パラメータが長期限界条件のコヒーレンスに及ぼす影響について論じる。 次に、初期状態パラメータとデコヒーレンスパラメータで時間とともにデコヒーレンスがどのように変化するかについて議論する。

The dynamics of coherence in a two-qubit Heisenberg XXX model with magnetic field in the presence of the intrinsic decoherence is investigated. We discuss the influence of dipole parameter, spin distance, magnetic field and initial state parameter on coherence of the long time limit situation. Then, we discuss how decoherence changes with time with the initial state parameter and the decoherence parameter.
翻訳日:2023-03-04 01:22:19 公開日:2021-12-20
# 超伝導量子ビット上に隣り合う隣り合うスピン-1/2鎖における対称性保護位相の実現

Realizing symmetry-protected topological phases in a spin-1/2 chain with next-nearest neighbor hopping on superconducting qubits ( http://arxiv.org/abs/2112.10333v1 )

ライセンス: Link先を確認
Adrian T.K. Tan, Shi-Ning Sun, Ruslan N. Tazhigulov, Garnet Kin-Lic Chan, Austin J. Minnich(参考訳) 量子シミュレーターにおける新しい物質相の実現は、強い関心を持つトピックである。 デジタル量子コンピュータは、アナログ量子シミュレータでは自然に発生しない相互作用で位相相を準備する経路を提供する。 本稿では, 超伝導量子プロセッサ上で最大11量子ビットの次アネレスト近傍をホッピングするスピン-1/2}ハミルトニアンの対称性保護位相(SPT)相の実現について報告する。 特定のエッジに局所化された励起や有限文字列順序パラメータなどの2つの異なるSPT位相の明確なシグネチャを観察する。 近距離量子コンピュータ上でエキゾチックな相互作用を持つ物質の新しい状態を実現するための継続的な取り組みを前進させる。

The realization of novel phases of matter on quantum simulators is a topic of intense interest. Digital quantum computers offer a route to prepare topological phases with interactions that do not naturally arise in analog quantum simulators. Here, we report the realization of symmetry-protected topological (SPT) phases of a spin-{1/2} Hamiltonian with next-nearest-neighbor hopping on up to 11 qubits on a programmable superconducting quantum processor. We observe clear signatures of the two distinct SPT phases, such as excitations localized to specific edges and finite string order parameters. Our work advances ongoing efforts to realize novel states of matter with exotic interactions on digital near-term quantum computers.
翻訳日:2023-03-04 01:21:56 公開日:2021-12-20
# 絡み合った基底状態の機械的実装と図式計算

A Mechanical Implementation and Diagrammatic Calculation of Entangled Basis States ( http://arxiv.org/abs/2112.10291v1 )

ライセンス: Link先を確認
F.A. Buot, A.R. Elnar, G. Maglasang, and C.M. Galon(参考訳) 我々は初めて、量子の絡み合いの図式計算ツールを与える。 量子エンタングルメント(量子エンタングルメント)や「距離におけるスプーキーな作用」の教育的かつ単純な機械的実装を提示し、この奇妙な量子力学的概念を古典物理学の異質なものとして具体化する。 2つ以上の粒子が特定の方法で相関している場合、空間内でどれだけ離れていても、それらの状態は相関する。 それらの相関は瞬時に起こるもので、光の速さによって制限される通信を含まないようである。 同じ機械的実装は、あらゆる計算プロセスの基本的な物理的限界を示している。 計算的絡み合い基底状態の解析的導出が与えられ、その対応する図式表現は計算的絡み合い基底状態を決定するのに有効な助けとなる。 エンタングル基底状態を表す2つの状態図に対する量子フーリエ変換('renormalized qubits')も定式化できる。 我々の結果は、量子エンタングルメントが重力理論の余剰次元を生成するという考えを提唱しているようで、量子エンタングルメントは一般相対性理論と量子力学の統一における深い問題と関連している。 この時空の絡み合いの余剰次元は、現在文献で推測されている。

We give for the first time a diagrammatic calculational tool of quantum entanglement. We present a pedagogical and simple mechanical implementation of quantum entanglement or "spooky action at a distance" to give a tangible realization of this weird quantum mechanical concept alien to classical physics. When two or more particles are correlated in a certain way, no matter how far apart they are in space, their states remain correlated. Their correlation, which is instantaneous, does not seem to involve any communication which is limited by the speed of light. The same mechanical implementation demonstrates the fundamental physical limits of any computational processes. The analytical derivations of calculational entangled basis states are given and their corresponding diagrammatic representations give an efficient aid in determining the calculational entangled basis states. A quantum Fourier transform for the two-state diagrams representing entangled basis states ('renormalized qubits') can also be formulated. Our results seem to advocate the idea that quantum entanglement generates the extra dimensions of the gravitational theory, indeed quantum entanglement is related to deep issues in the unification of general relativity and quantum mechanics. This extra dimensions of spacetime entanglement are currently being speculated in the literature.
翻訳日:2023-03-04 01:21:12 公開日:2021-12-20
# 普遍的ロバストな動的デカップリングスキームによる超伝導量子ビットのノイズ多成分絡み合い状態の保護

Protection of noisy multipartite entangled states of superconducting qubits via universally robust dynamical decoupling schemes ( http://arxiv.org/abs/2112.10417v1 )

ライセンス: Link先を確認
Akanksha Gautam and Arvind and Kavita Dorai(参考訳) 我々は、IBMプラットフォームを介して、クラウドベースの量子コンピュータ上で、多部量子状態を保存するために、普遍的に堅牢な動的デカップリング(URDD)シーケンスの有効性を実証する。 URDDは、実験的エラーを補償し、同時に環境騒音から状態を保護できる技術である。 さらにURDDシークエンスの性能を向上させるために、基本URDDシークエンスに位相ランダム化(PR)と相関位相ランダム化(CPR)技術を加える。 URDDシーケンスの性能は、複数のノイズの絡み合った状態(2量子三重項状態、3量子GHZ状態、4量子GHZ状態、4量子クラスタ状態)の複数の時点における絡み合いを測定して定量化する。 実験の結果, urddシーケンスは, 位相ランダム化と相関位相乱数列を付加することにより, ノイズ多成分絡み状態の保護に成功し, 性能が大幅に向上した。

We demonstrate the efficacy of the universally robust dynamical decoupling (URDD) sequence to preserve multipartite maximally entangled quantum states on a cloud based quantum computer via the IBM platform. URDD is a technique that can compensate for experimental errors and simultaneously protect the state against environmental noise. To further improve the performance of the URDD sequence, phase randomization (PR) as well as correlated phase randomization (CPR) techniques are added to the basic URDD sequence. The performance of the URDD sequence is quantified by measuring the entanglement in several noisy entangled states (two-qubit triplet state, three-qubit GHZ state, four-qubit GHZ state and four-qubit cluster state) at several time points. Our experimental results demonstrate that the URDD sequence is successfully able to protect noisy multipartite entangled states and its performance is substantially improved by adding the phase randomization and correlated phase randomization sequences.
翻訳日:2023-03-04 01:16:13 公開日:2021-12-20
# バックグラウンドレス光浮上型電荷センサ

A background-free optically levitated charge sensor ( http://arxiv.org/abs/2112.10383v1 )

ライセンス: Link先を確認
Nadav Priel, Alexander Fieguth, Charles P. Blakemore, Emmett Hough, Akio Kawasaki, Denzal Martin, Gautam Venugopalan, Giorgio Gratta(参考訳) 光学浮揚した巨視的物体は、高い感度、絶対力のキャリブレーション、環境の孤立、それらの力学に対する高度な制御によって、力センシングの分野では強力な道具である。 しかし、双極子モーメントと外部電界の勾配との相互作用により、名目上は中立な物体であっても力センシングに影響を与える電気偏光効果によって引き起こされるスプリアス力による制限が生じる。 本稿では,浮遊物体を用いたセンサの性能を制限した双極子モーメント相互作用をモデル化し,除去する新しい手法を提案する。 このプロセスは3.3\times10^{-5}e$の感度を持つ最初のノイズ制限測定に繋がる。 実演として、これは電子の質量よりかなり低い未知の電荷の探索や、電子と陽子電荷の間の極端に小さなアンバランスの探索に適用される。 体系的なバイアスが残っていないため、真の発見実験が可能となり、システムのノイズが量子限界以下に減少するにつれて改善されると思われる感度が期待できる。 この手法の副産物として、浮遊物体の電磁特性を個別に測定することもできる。

Optically levitated macroscopic objects are a powerful tool in the field of force sensing, owing to high sensitivity, absolute force calibration, environmental isolation and the advanced degree of control over their dynamics that have been achieved. However, limitations arise from the spurious forces caused by electrical polarization effects that, even for nominally neutral objects, affect the force sensing because of the interaction of dipole moments with gradients of external electric fields. In this paper we introduce a new technique to model and eliminate dipole moment interactions limiting the performance of sensors employing levitated objects. This process leads to the first noise-limited measurement with a sensitivity of $3.3\times10^{-5}e$. As a demonstration, this is applied to the search for unknown charges of a magnitude much below that of an electron or for exceedingly small unbalances between electron and proton charges. The absence of remaining systematic biases, enables true discovery experiments, with sensitivities that are expected to improve as the system noise is brought down to or beyond the quantum limit. As a by-product of the technique, the electromagnetic properties of the levitated objects can also be measured on an individual basis.
翻訳日:2023-03-04 01:15:40 公開日:2021-12-20
# 変分量子-ニューラルハイブリッド誤差低減

Variational Quantum-Neural Hybrid Error Mitigation ( http://arxiv.org/abs/2112.10380v1 )

ライセンス: Link先を確認
Shi-Xin Zhang, Zhou-Quan Wan, Chang-Yu Hsieh, Hong Yao, Shengyu Zhang(参考訳) 量子誤差緩和(QEM)は、中程度のリソースで量子ノイズを抑えることにより、量子コンピュータ上で信頼性の高い結果を得るために重要である。 ノイズのある中間スケール量子(NISQ)時代に成功し、実用的な量子アルゴリズムの実装の鍵となる。 量子古典ハイブリッドアルゴリズムは、適度でノイズの多い量子資源で実行できるため、QEMと量子古典ハイブリッドスキームを組み合わせることは、実用的な量子優位性に向けた最も有望な方向の1つである。 本稿では,パラメータ化された量子回路の表現力とニューラルネットワークをシームレスに結合した変分量子-ニューラルハイブリッド固有ソルバ(vqnhe)アルゴリズムが,バニラ変分量子固有ソルバ(vqe)には存在しないユニークなqem容量に本質的に耐雑音性を有することを示す。 VQNHEにおけるこのユニークなQEM容量の漸近的スケーリングを理論的・実験的両観点から慎重に分析し,解明する。 最後に、ハミルトニアンがvqnheフレームワークの下で測定される変分基底変換を考え、量子-ニューラルハイブリッド誤差緩和能力をさらに高める強力な三最適化設定を与える。

Quantum error mitigation (QEM) is crucial for obtaining reliable results on quantum computers by suppressing quantum noise with moderate resources. It is a key for successful and practical quantum algorithm implementations in the noisy intermediate scale quantum (NISQ) era. Since quantum-classical hybrid algorithms can be executed with moderate and noisy quantum resources, combining QEM with quantum-classical hybrid schemes is one of the most promising directions toward practical quantum advantages. In this paper, we show how the variational quantum-neural hybrid eigensolver (VQNHE) algorithm, which seamlessly combines the expressive power of a parameterized quantum circuit with a neural network, is inherently noise resilient with a unique QEM capacity, which is absent in vanilla variational quantum eigensolvers (VQE). We carefully analyze and elucidate the asymptotic scaling of this unique QEM capacity in VQNHE from both theoretical and experimental perspectives. Finally, we consider a variational basis transformation for the Hamiltonian to be measured under the VQNHE framework, yielding a powerful tri-optimization setup that further enhances the quantum-neural hybrid error mitigation capacity.
翻訳日:2023-03-04 01:15:22 公開日:2021-12-20
# 変分量子デフレレーション法によるコア励起およびコアイオン化状態の計算と光触媒モデリングへの応用

Calculation of core-excited and core-ionized states using variational quantum deflation method and applications to photocatalyst modelling ( http://arxiv.org/abs/2112.10350v1 )

ライセンス: Link先を確認
Soichi Shirai, Takahiro Horiba and Hirotoshi Hirai(参考訳) 量子コンピュータを用いた量子化学計算の可能性は多くの関心を集めている。 この点において、変分量子デフレレーション (vqd) は雑音中規模量子(nisq)デバイスを用いた励起状態の計算のための量子古典ハイブリッドアルゴリズムである。 この手法の有効性は実証されているが、計算条件が結果に不確実性をもたらすため、実用的応用は少ない。 本研究では,VQD法に基づく共通分子のコア励起およびコアイオン化状態の計算を古典計算機を用いてシミュレーションし,コスト関数のペナルティ項に適用した重み付け係数の影響に着目した。 分子軌道準位に基づいて重み付け係数を簡易に推定する方法を採用することで、これらのコア準位をうまく計算することができた。 水分子のo1sコアイオン化状態は様々な重み付け係数で計算され,その結果得られたアンサッツ状態が系統的に検討された。 酸化チタン(TiO2)および窒素ドープTiO2モデルのコアレベル状態を計算することにより, 機能性材料への本手法の適用を実証した。 その結果, 適切なコスト関数を用いたVQD計算が, 実験手法とともに機能材料の解析に応用できることが示唆された。

The possibility of performing quantum chemical calculations using quantum computers has attracted much interest. In this regard, variational quantum deflation (VQD) is a quantum-classical hybrid algorithm for the calculation of excited states with noisy intermediate-scale quantum (NISQ) devices. Although the validity of this method has been demonstrated, there have been few practical applications, primarily because of the uncertain effect of calculation conditions on the results. In the present study, calculations of the core-excited and core-ionized states for common molecules based on the VQD method were simulated using a classical computer, focusing on the effects of the weighting coefficients applied in the penalty terms of the cost function. Adopting a simplified procedure for estimating the weighting coefficients based on molecular orbital levels allowed these core-level states to be successfully calculated. The O 1s core-ionized state for a water molecule was calculated with various weighting coefficients and the resulting ansatz states were systematically examined. The application of this technique to functional materials was demonstrated by calculating the core-level states for titanium dioxide (TiO2) and nitrogen-doped TiO2 models. The results demonstrate that VQD calculations employing an appropriate cost function can be applied to the analysis of functional materials in conjunction with an experimental approach.
翻訳日:2023-03-04 01:14:40 公開日:2021-12-20
# 弱測定による関連ノイズチャネルの高密度符号化能力

Dense Coding Capacity in Correlated Noisy Channels with Weak Measurement ( http://arxiv.org/abs/2112.10346v1 )

ライセンス: Link先を確認
Jin-Kai Li, Kai Xu, Guo-Feng Zhang(参考訳) 相関ノイズチャネルによる高密度符号化の能力は、非相関ノイズチャネルよりも大きい。 弱測定と逆測定は、相関振幅減衰チャネルにおける量子密度符号化能力の向上にさらに努力する可能性があるが、相関位相減衰チャネルと相関脱分極チャネルでは、この取り組みは非常に小さい。

Capacity of dense coding via correlated noisy channel is greater than that in uncorrelated noisy channel. It is shown that weak measurement and reversal measurement can make further effort to improve quantum dense coding capacity in correlated amplitude damping channel, but this effort is very small in correlated phase damping channel and correlated depolarizing channel.
翻訳日:2023-03-04 01:14:17 公開日:2021-12-20
# 1次元逆イジングモデルにおける量子ビットのデコヒーレンス効果

Decoherence Effect of Qubits in 1D Transverse Ising Model ( http://arxiv.org/abs/2112.10345v1 )

ライセンス: Link先を確認
Bobin Li(参考訳) 実験室技術の開発により、低次相関関数は量子多体系におけるデコヒーレンスの主な効果を記述できないため、システムの高次相関関数を研究することが不可欠である。 本稿では,デコヒーレンス効果における相関関数の変化を解析的に検討する。 また、1次元逆イジングモデルにおいて、低次相関関数のみによってキュービットデコヒーレンスプロセスに近づき、3階以上の相関関数が必要な場合について検討する。 強いカップリングと長いコヒーレンス時間の下では、高階相関関数の効果は無視できず、古典的なマルコフ過程の近似は限られていることを示している。 しかし、弱い結合と短いコヒーレンス時間の場合、低次相関関数はうまく記述できる。

With the development of lab technology, the low-order correlation function can no longer describe the main effect of decoherence in quantum many-body system, so it is imperative to study the higher-order correlation function of the system. In this paper, we study the changes of the correlation functions in the decoherence effect, analytically. And explore when it is possible to approach the qubit decoherence process only by low-order correlation function, and when third-order or higher correlation functions are needed in 1D transverse Ising model. It indicates that, under strong coupling and long coherence time, the effect of high-order correlation functions can not be ignored, and the approximation of classical Markov process is limited. But, in the case of weak coupling and short coherence time, low-order correlation function can describe well.
翻訳日:2023-03-04 01:14:06 公開日:2021-12-20
# マルチエミッタのFewモード場量子化

Few-mode Field Quantization for Multiple Emitters ( http://arxiv.org/abs/2112.10581v1 )

ライセンス: Link先を確認
M\'onica S\'anchez-Barquilla, Francisco J. Garc\'ia-Vidal, Antonio I. Fern\'andez-Dom\'inguez, Johannes Feist(参考訳) ナノフォトニック構造を用いた複数の量子エミッタ間の相互作用の制御は、量子技術応用に非常に有望である。 しかし、複雑なナノ構造に対するそのような過程の理論的な記述は、電磁(EM)モードが原則として高次元連続体によって記述されるため、非常に要求の多いタスクである。 ここでは、離散モードの「最小」数を通して全EM場の量子化記述を可能にするアプローチを導入する。 これは、[Medina et al., Phys. Lett. Lett. 126, 093601 (2021)] における以前の研究を、任意の向きを持つ任意の数のエミッタの場合、エミッタレベル構造や双極子演算子に制限を加えることなく拡張する。 誘電体ナノスフィアに埋め込まれた金属二量体からなる金属誘電体フォトニック構造内に3つのエミッタを配置したモデルシステムに対するアプローチのパワーについて述べる。 この方法の計算能力の低さは、幅広いパラメータのダイナミクスを研究するのに適している。 我々は,エミッタ間の励起伝達がハイブリッドフォトニックプラズマモードの特性に非常に敏感であることを示し,エミッタ相互作用の制御を実現するためのそのような構造の可能性を示す。

The control of the interaction between several quantum emitters using nanophotonic structures holds great promise for quantum technology applications. However, the theoretical description of such processes for complex nanostructures is a highly demanding task as the electromagnetic (EM) modes are in principle described by a high-dimensional continuum. We here introduce an approach that permits a quantized description of the full EM field through a "minimal" number of discrete modes. This extends the previous work in [Medina et al., Phys. Rev. Lett. 126, 093601 (2021)] to the case of an arbitrary number of emitters with arbitrary orientations, without any restrictions on the emitter level structure or dipole operators. We illustrate the power of our approach for a model system formed by three emitters placed in different positions within a metallodielectric photonic structure consisting of a metallic dimer embedded in a dielectric nanosphere. The low computational demand of this method makes it suitable for studying dynamics for a wide range of parameters. We show that excitation transfer between the emitters is highly sensitive to the properties of the hybrid photonic-plasmonic modes, demonstrating the potential of such structures for achieving control over emitter interactions.
翻訳日:2023-03-04 01:07:10 公開日:2021-12-20
# 量子コンピュータのための効率的な浮動小数点演算

Efficient Floating Point Arithmetic for Quantum Computers ( http://arxiv.org/abs/2112.10537v1 )

ライセンス: Link先を確認
Raphael Seidel, Nikolay Tcholtchev, Sebastian Bock, Colin Kai-Uwe Becker and Manfred Hauswirth(参考訳) 量子コンピューティングの大きな約束の一つは、重ね合わせ現象を用いたSIMD(単一命令 - 複数のデータ)演算の実現である。 状態空間の次元は量子ビット数で指数関数的に増加するので、古典的計算でかなり高価であるデータ処理命令に対して、データポイントあたり1量子ゲート当たり1つ未満の状況に容易に到達できる。 しかし、量子ゲートの観点でそのような命令を定式化することは依然として難しい課題である。 したがって、より高度なデータ処理の基本関数をレイアウトすることは、量子コンピューティングの領域を進化させる上で最重要課題である。 本稿では,いわゆる半ブール多項式の符号化形式について述べる。 その結果、算術$\mathbb{z}/2^n\mathbb{z}$ ring演算は半ボア多項式評価として定式化でき、無符号整数算術量子回路を便利に生成できる。 算術評価では、このアルゴリズムはフーリエ・アリトメティックとして知られる。 我々は,このアルゴリズムを,アンシラフリーなインプレース乗算や整数係数多項式評価などの追加機能で拡張する。 さらに,任意の浮動小数点数のエンコーディングで成功した符号付き整数を符号化するテーラーメイド手法を提案する。 この浮動小数点数の表現とその処理は、符号なしモジュラー整数演算を実行する任意の量子アルゴリズムに適用できる。 半ブール多項式エンコーダの性能向上について検討し,最終的に複雑性推定を行う。 提案手法の32ビット符号なし整数乗算への応用は, 搬送リップル法と比較して90倍の回路深さ減少を示した。

One of the major promises of quantum computing is the realization of SIMD (single instruction - multiple data) operations using the phenomenon of superposition. Since the dimension of the state space grows exponentially with the number of qubits, we can easily reach situations where we pay less than a single quantum gate per data point for data-processing instructions which would be rather expensive in classical computing. Formulating such instructions in terms of quantum gates, however, still remains a challenging task. Laying out the foundational functions for more advanced data-processing is therefore a subject of paramount importance for advancing the realm of quantum computing. In this paper, we introduce the formalism of encoding so called-semi-boolean polynomials. As it turns out, arithmetic $\mathbb{Z}/2^n\mathbb{Z}$ ring operations can be formulated as semi-boolean polynomial evaluations, which allows convenient generation of unsigned integer arithmetic quantum circuits. For arithmetic evaluations, the resulting algorithm has been known as Fourier-arithmetic. We extend this type of algorithm with additional features, such as ancilla-free in-place multiplication and integer coefficient polynomial evaluation. Furthermore, we introduce a tailor-made method for encoding signed integers succeeded by an encoding for arbitrary floating-point numbers. This representation of floating-point numbers and their processing can be applied to any quantum algorithm that performs unsigned modular integer arithmetic. We discuss some further performance enhancements of the semi boolean polynomial encoder and finally supply a complexity estimation. The application of our methods to a 32-bit unsigned integer multiplication demonstrated a 90\% circuit depth reduction compared to carry-ripple approaches.
翻訳日:2023-03-04 01:06:47 公開日:2021-12-20
# 粒子数-超選択-ルル制限状態ペアのステアリング不等式

Steering inequality for pairs of particle-number-superselection-rule restricted states ( http://arxiv.org/abs/2112.10452v1 )

ライセンス: Link先を確認
Asmita Kumari and Ujjwal Sen(参考訳) 粒子数選択規則によって制限された識別不能粒子系の量子状態に対するクロージャホルン・シモニー・ホルト型ステアリングの不等式違反を考える。 非相互作用のボース=アインシュタイン凝縮状態とN00N状態の違反を、超選択規則をバイパスするために2つの状態のコピーを用いてチェックする。 スーパーセレクション規則は、州が操舵不平等を最大に侵害することを防ぐ。 しかし、ハンドルの不平等違反は同じ州のベル不平等違反よりも高い。 特に、ある場合において、操舵不等式違反のビジビティは、ベル不等式違反、ホワイトノイズを伴う混和器において、同じよりも高いことを暗示している。 また,非接触凝縮状態における粒子数の増加は,操舵不等式違反量の減少をもたらすことがわかった。

We consider violations of a Clauser-Horne-Shimony-Holt-type steering inequality for quantum states of systems of indistinguishable particles restricted by a particle-number-superselection rule. We check for violations in non-interacting Bose-Einstein condensate and N00N states, by using two copies of the states for bypassing the superselection rule. The superselection rule prevents the states from maximally violating the steering inequality. But the steering inequality violations are higher than Bell inequality violations for the same states. This in particular implies, in certain cases, that visibilities of the steering inequality violations are higher than the same for Bell inequality violations, for admixtures with white noise. We also found that an increase in the number of particles in the non-interacting condensate states results in a decrease of the violation amount of the steering inequality.
翻訳日:2023-03-04 01:05:39 公開日:2021-12-20
# オンラインアンプラグド暗号とブロックベースの暗号が10年生に登場

Online Unplugged and Block-Based Cryptography in Grade 10 ( http://arxiv.org/abs/2112.10437v1 )

ライセンス: Link先を確認
Michael Lodi and Marco Sbaraglia and Simone Martini(参考訳) 第10学年における暗号の原則に対する外部的オンライン介入の経験を報告する。 本論文の第一の目的は,技術知識よりも暗号中心の考え方に影響を受けた,我々が設計した学習パスを提示することである。 Snapの使い方を詳しく説明します! 暗号システムとその限界を実験するためのプログラムプレイグラウンド、diffie-hellmanキー交換でプラグインされていないアクティビティのインタラクティブサポート。 第2の目標は,学生の認識とコア暗号概念の学習の両方の観点から,我々の介入を評価することである。 学生たちはコースを高く評価し、遠くにいるにもかかわらず、楽しい、面白い、エンゲージメントがあると感じた。 このコースは、社会における暗号、CS、数学の役割を理解するのに役立ち、特に暗号やCSにおける彼らの関心を喚起した。 第3の目標は、何がうまくいったのか、改善の領域について議論することだ。 教育学上、遠隔教育は高い"インストラクタ盲目"を引き起こし、snap! playgroundsによる探検活動において最適な指導を与えることができなかった。 一方、"リモート・アンプラグド"のディフィー・ヘルマン(Diffie-Hellman)は、学生が関与する一貫性のある比喩を具現化し、この画期的なプロトコルを理解させた。 学生たちは、挑戦してもその活動を熱心に評価した。 最終評価では、コア暗号の考え方がよく理解されていた。

We report our experience of an extracurricular online intervention on cryptography principles in 10th grade. This paper's first goal is to present the learning path we designed, influenced by cryptography core ideas rather than technical knowledge. We will detail how we used Snap! (a visual programming language) to realize hands-on activities: programming playgrounds to experiment with cryptosystems and their limits, and interactive support for an unplugged activity on the Diffie-Hellman key exchange. The second goal is to evaluate our intervention in terms of both student perceptions and learning of core cryptography ideas. The students appreciated the course and felt that, despite being remote, it was fun, interesting, and engaging. They said the course helped them understand the role of cryptography, CS, and Math in society and sparked their interest, especially in cryptography and CS. The third goal is to discuss what worked well and areas of improvement. Pedagogically, remote teaching caused high "instructor blindness" and prevented us from giving the optimal amount of guidance during the exploration activities with Snap! playgrounds, making them sometimes too challenging for total programming novices. On the other hand, the "remote-unplugged" Diffie-Hellman worked well: it embodies a coherent metaphor that engaged the students and made them grasp this groundbreaking protocol. The students praised the activities as engaging, even when challenging. The final assessment showed that the core cryptography ideas were well understood.
翻訳日:2023-03-04 01:04:56 公開日:2021-12-20
# マルチレベル中間表現コンパイラを用いた量子回路変換

Quantum Circuit Transformations with a Multi-Level Intermediate Representation Compiler ( http://arxiv.org/abs/2112.10677v1 )

ライセンス: Link先を確認
Thien Nguyen, Dmitry Lyakh, Raphael C. Pooser, Travis S. Humble, Timothy Proctor, and Mohan Sarovar(参考訳) 量子コンピューティングは、情報処理に驚くべきアプローチを約束するが、プログラム表現を量子コンピュータに必要な物理命令にコンパイルするためには、新しいツールが必要である。 本稿では、プログラム実行のチェックに使用できる量子コンパイラに組み込まれたマルチレベル中間表現(MLIR)の新たな適応について述べる。 まず、mlirが量子コンピューティングデバイス上で効率的な実行のために量子回路変換を可能にする方法を示し、いわゆるミラー回路に基づくコンパイラ変換の例を示す。 本研究では,複数の超伝導およびイオントラップハードウェアプラットフォーム上での量子回路の精度を評価することにより,コンパイル中に挿入されたミラー回路がハードウェア性能をテストできることを実証する。 本報告では,mlirを量子回路の自動変換によるハードウェア依存診断の効率的かつ効果的な手法として検証する。

Quantum computing promises remarkable approaches for processing information, but new tools are needed to compile program representations into the physical instructions required by a quantum computer. Here we present a novel adaptation of the multi-level intermediate representation (MLIR) integrated into a quantum compiler that may be used for checking program execution. We first present how MLIR enables quantum circuit transformations for efficient execution on quantum computing devices and then give an example of compiler transformations based on so-called mirror circuits. We demonstrate that mirror circuits inserted during compilation may test hardware performance by assessing quantum circuit accuracy on several superconducting and ion trap hardware platforms. Our results validate MLIR as an efficient and effective method for collecting hardware-dependent diagnostics through automated transformations of quantum circuits.
翻訳日:2023-03-04 00:57:55 公開日:2021-12-20
# 量子調和オットーエンジンと冷凍機の統一トレードオフ最適化

Unified trade-off optimization of quantum harmonic Otto engine and refrigerator ( http://arxiv.org/abs/2112.10669v1 )

ライセンス: Link先を確認
Varinder Singh, Satnam Singh, Obinna Abah, and \"Ozg\"ur E. M\"ustecapl{\i}o\u{g}lu(参考訳) 本研究では, 時間依存型高調波発振器の量子オットーエンジンと, 最大$\Omega$-functionの条件下で動作する冷却サイクルについて検討した。 我々はオットーサイクルの性能の効率と係数について解析式を導出する。 断熱駆動の場合、低温状態では、高調波オットーエンジン(冷凍機)は、定常的な古典的な熱エンジンであるファインマンのラチェット・アンド・ポールモデルにマッピング可能であることを指摘した。 急激な周波数切替のために、非可逆熱機関の特徴である効率-作業曲線のループ状の挙動を求める。 最後に,最大$\Omega$-functionにおける冷却電力の挙動を考察し,冷凍機の最適運転点を示す。

We investigate quantum Otto engine and refrigeration cycles of a time-dependent harmonic oscillator operating under the conditions of maximum $\Omega$-function, a trade-off objective function which represents a compromise between energy benefits and losses for a specific job, for both adiabatic and nonadiabatic (sudden) frequency modulations. We derive analytical expressions for the efficiency and coefficient of performance of the Otto cycle. For the case of adiabatic driving, we point out that in the low-temperature regime, the harmonic Otto engine (refrigerator) can be mapped to Feynman's ratchet and pawl model which is a steady state classical heat engine. For the sudden switch of frequencies, we obtain loop-like behavior of the efficiency-work curve, which is characteristic of irreversible heat engines. Finally, we discuss the behavior of cooling power at maximum $\Omega$-function and indicate the optimal operational point of the refrigerator.
翻訳日:2023-03-04 00:57:42 公開日:2021-12-20
# 量子計測におけるクロストーク誤差の軽減とその応用

Mitigation of Crosstalk Errors in a Quantum Measurement and Its Applications ( http://arxiv.org/abs/2112.10651v1 )

ライセンス: Link先を確認
Seungchan Seo, Jiheon Seong, and Joonwoo Bae(参考訳) 量子情報処理の実際的な実現では、個々の量子ビットだけでなく複数の量子ビットにもエラーが現れる測定用読み出しステージにノイズが存在し、後者はクロストークエラー(crosstalk error)と呼ばれる。 本稿では,個人およびクロストークのエラーに対して,計測誤差を緩和する枠組みを提案する。 緩和プロトコルは、測定前に局所ユニタリ変換を適用する量子前処理と、ノイズのないデータを復元するために測定結果を操作する古典的な後処理という2つのステップで構成されている。 量子前処理における局所ユニタリは、量子検出器トモグラフィによるノイズ測定を特徴付けることで構成することができる。 緩和プロトコルは、単一キュービットの読み出しよりも複数のキュービットにおける測定誤差を維持可能であること、すなわち、複数のキュービットにおける測定の誤差率を最大1%まで抑制できることを示す。 緩和プロトコルはIBMQ Sydneyで実現され、絡み込み発生回路の認証に適用される。 緩和プロトコルは測定誤差を効果的に除去し、絡み込み発生回路を効率よく認証できることを示した。

In practical realizations of quantum information processing, there may exist noise in a measurement readout stage where errors appear not only on individual qubits but also on multiple ones collectively, the latter of which is called crosstalk errors. In this work, we present a framework for mitigating measurement errors, for both individual and crosstalk errors. The mitigation protocol consists of two steps, firstly quantum pre-processing, which applies local unitary transformations before a measurement, and classical post-processing that manipulates measurement outcomes to recover noiseless data. The local unitaries in quantum pre-processing can be constructed by characterizing a noisy measurement via quantum detector tomography. We show that the mitigation protocol can maintain a measurement error on multiple qubits as much as that in a single-qubit readout, i.e., the error rates for measurements on multiple qubits are suppressed up to a percent level. The mitigation protocol is realized in IBMQ Sydney and applied to the certification of entanglement-generating circuits. It is demonstrated that the mitigation protocol can successfully eliminate measurement errors so that entanglement-generation circuits can be efficiently certified.
翻訳日:2023-03-04 00:56:58 公開日:2021-12-20
# 原子トラップ状態の合成次元に沿ったブロッホ振動

Bloch Oscillations Along a Synthetic Dimension of Atomic Trap States ( http://arxiv.org/abs/2112.10648v1 )

ライセンス: Link先を確認
Christopher Oliver, Aaron Smith, Thomas Easton, Grazia Salerno, Vera Guarrera, Nathan Goldman, Giovanni Barontini, Hannah M. Price(参考訳) 合成次元は、寒冷原子やフォトニクスにおける凝縮物質物理学をシミュレートする強力なアプローチを提供し、離散自由度の集合を結合し、人工空間次元に沿って格子点として再解釈する。 しかし、これまで原子実験は合成次元に沿って結合可能な人工格子サイトの数によって制限されてきた。 ここでは、原子調和トラップ状態の非常に長く制御可能な合成次元を初めて実験的に実現した。 これを作成するために、原子雲のトラップポテンシャルをパターン化された光で動的に変調することでトラップ状態を結合する。 駆動電位の周波数とトラップ周波数のデチューニングを制御することにより、合成次元における制御可能な力を実装する。 これにより、数十の原子トラップ状態が周期的に上下に動くブロッホ振動が引き起こされる。 雲の実空間力学におけるこの挙動の鍵となる特性を実験的に観察し,数値シミュレーションと半古典理論で検証した。 この実験は、高度に励起されたトラップ状態の操作と制御のための直感的なアプローチを提供し、より高次元でのトポロジカル物理学の将来の探索のステージを設定する。

Synthetic dimensions provide a powerful approach for simulating condensed matter physics in cold atoms and photonics, whereby a set of discrete degrees of freedom are coupled together and re-interpreted as lattice sites along an artificial spatial dimension. However, atomic experimental realisations have been limited so far by the number of artificial lattice sites that can be feasibly coupled along the synthetic dimension. Here, we experimentally realise for the first time a very long and controllable synthetic dimension of atomic harmonic trap states. To create this, we couple trap states by dynamically modulating the trapping potential of the atomic cloud with patterned light. By controlling the detuning between the frequency of the driving potential and the trapping frequency, we implement a controllable force in the synthetic dimension. This induces Bloch oscillations in which atoms move periodically up and down tens of atomic trap states. We experimentally observe the key characteristics of this behaviour in the real space dynamics of the cloud, and verify our observations with numerical simulations and semiclassical theory. This experiment provides an intuitive approach for the manipulation and control of highly-excited trap states, and sets the stage for the future exploration of topological physics in higher dimensions.
翻訳日:2023-03-04 00:56:40 公開日:2021-12-20
# アバランシェダイオードを用いた単光子検出器の固有検出効率の予期せぬ検出速度依存性

Unexpected detection rate dependence of the intrinsic detection efficiency in single-photon detectors based on avalanche diodes ( http://arxiv.org/abs/2112.10647v1 )

ライセンス: Link先を確認
Sebastian M. F. Raupach, Ivo Pietro Degiovanni, Hristina Georgieva, Alice Meda, Helmuth Hofer, Marco Gramegna, Marco Genovese, Stefan K\"uck, and Marco L\'opez(参考訳) 単一光子検出器はフォトニック量子技術において重要な要素である。 固有検出効率の精密で包括的なキャリブレーションは、量子暗号ソリューションにおけるセキュリティ侵害に対する保護など、特定の技術の適用の観点から、パフォーマンスの適切な評価を保証するために最も重要である。 本稿では,種々の平均光子数に対する単光子アバランシェダイオード(SPAD)と高レーザーパルス繰り返し速度に基づく2つの商用単光子検出器の本質的検出効率の推定に関する系統的および包括的解析について述べる。 最大検出率に対して10%以上の検出率で内在的検出効率が予想外かつ有意な低下を示した。 また,データ解析では,タイムスタンプデータがない場合,検出率の統計モデルが便利に使用できることを示した。 臨界用途で用いられる単一光子検出器の完全な特性は、その固有検出効率の高事象率に対する感度を含むべきである。

Single-photon detectors are a pivotal component in photonic quantum technologies. A precise and comprehensive calibration of the intrinsic detection efficiency is of utmost importance to ensure the proper evaluation of the performance in view of the specific technological application of interest, such as the protection against security breaches in quantum cryptographic solutions. Here we report on a systematic study on and comprehensive analysis of the estimation of the intrinsic detection efficiency of two commercial single-photon detectors based on single-photon avalanche diodes (SPADs) for various mean photon numbers and at high laser pulse repetition rates using different techniques. We observed an unexpected and signifucant drop in intrinsic detection efficiency at detection rates of 10 % and higher relative to the maximum detection rate. It is demonstrated that for data analysis a statistical model for the detection rate conveniently can be used if no timestamped data are available. We conclude that the full characterization of single-photon detectors used in critical applications should include the sensitivity of their intrinsic detection efficiency to high event rates.
翻訳日:2023-03-04 00:56:20 公開日:2021-12-20
# スーパーラディアンスからサブラディアンス:多体ディック・はしごの探索

From superradiance to subradiance: exploring the many-body Dicke ladder ( http://arxiv.org/abs/2112.10635v1 )

ライセンス: Link先を確認
Antoine Glicenstein, Giovanni Ferioli, Antoine Browaeys and Igor Ferrier-Barbut(参考訳) 2レベル原子の密集集合における集合放出の時間分解研究を報告する。 同じ試料では、強いレーザーによって駆動される場合、アンサンブルからの超放射とサブ放射の蓄積を比較した。 これにより、超ラジカル状態と亜ラジカル状態の集団の動態を時間の関数として測定することができる。 特に、超ラジアント力学を通したサブラジアント状態の時間での積み上げを実演する。 これは、2レベル原子の超ラジアントアンサンブルの多体密度行列のダイナミクスを示し、対称性が超ラジアント状態の人口を禁止するディッケ超ラジアンスの理想条件から出発する。

We report a time-resolved study of collective emission in dense ensembles of two-level atoms. We compare, on the same sample, the build-up of superradiance and subradiance from the ensemble when driven by a strong laser. This allows us to measure the dynamics of the population of superradiant and subradiant states as a function of time. In particular we demonstrate the build up in time of subradiant states through the superradiant dynamics. This illustrates the dynamics of the many-body density matrix of superradiant ensembles of two-level atoms when departing from the ideal conditions of Dicke superradiance in which symmetry forbids the population of subradiant states.
翻訳日:2023-03-04 00:56:04 公開日:2021-12-20
# FuSeBMC v.4: ハイブリッドファジィのためのスマートシード生成

FuSeBMC v.4: Smart Seed Generation for Hybrid Fuzzing ( http://arxiv.org/abs/2112.10627v1 )

ライセンス: Link先を確認
Kaled M. Alshmrany, Mohannad Aldughaim, Ahmed Bhayat, and Lucas C. Cordeiro(参考訳) FuSeBMCは、Cプログラムのセキュリティ脆弱性を見つけるためのテストジェネレータである。 以前の作業[4]では、ラベルをインクリメンタルに注入してbmc(bounded model checking)と進化的ファジングエンジンをガイドし、コードカバレッジとバグ発見のためのテストケースを作成しました。 本稿では,両エンジンでスマートシードを生産するFuSeBMCの新バージョンを紹介する。 第一に、エンジンは種子を生産するためにプログラムの軽量版に対して短時間の制限で実行される。 BMCエンジンは複雑な数学的ガードを通過することができる種を生成するのに特に有用である。 そしてFuSeBMCは、前回のラウンドで作られたスマートシードを使って、より長い時間でエンジンを動かす。 FuSeBMCはこのプロセスをTracerサブシステムを使って2つの方法で管理している。 まず、共有メモリを使用して各テストケースでカバーされたラベルを記録する。 第2に, テストケースの評価を行い, 衝撃の高いものを種にし, その後のテストファジィングを行う。 その結果、昨年のコードカバレッジスコアは大幅に向上し、今年のコンペに参加したすべてのツールを、すべてのカテゴリで上回りました。

FuSeBMC is a test generator for finding security vulnerabilities in C programs. In earlier work [4], we described a previous version that incrementally injected labels to guide Bounded Model Checking (BMC) and Evolutionary Fuzzing engines to produce test cases for code coverage and bug finding. This paper introduces a new version of FuSeBMC that utilizes both engines to produce smart seeds. First, the engines are run with a short time limit on a lightly instrumented version of the program to produce the seeds. The BMC engine is particularly useful in producing seeds that can pass through complex mathematical guards. Then, FuSeBMC runs its engines with more extended time limits using the smart seeds created in the previous round. FuSeBMC manages this process in two main ways using its Tracer subsystem. Firstly, it uses shared memory to record the labels covered by each test case. Secondly, it evaluates test cases, and those of high impact are turned into seeds for subsequent test fuzzing. As a result, we significantly increased our code coverage score from last year, outperforming all tools that participated in this year's competition in every single category.
翻訳日:2023-03-04 00:55:53 公開日:2021-12-20
# 量子鍵分布のための高能率後処理アルゴリズムの改良

Improved Polar-code-based Efficient Post-processing Algorithm for Quantum Key Distribution ( http://arxiv.org/abs/2112.10586v1 )

ライセンス: Link先を確認
Junbing Fang, Zhengzhong Yi, Jin Li, Zhipeng Liang, Yulin Wu, Wen Lei, Zoe Lin Jiang and Xuan Wang(参考訳) ワンタイムパッド暗号法と組み合わせることで、量子鍵分布は理論上の通信の無条件セキュリティを保証する。 しかし、量子鍵分布の処理後フェーズにおける誤り訂正とプライバシの増幅は、最終的な秘密鍵生成率と量子鍵分布システムの実用性を制限する高時間遅延をもたらす。 この制限を軽減するために,量子鍵分布の極符号に基づく効率的な後処理アルゴリズムを提案する。 本アルゴリズムでは,ワイナーのワイヤタップチャネルモデルに基づいて,主チャネルとワイヤタップチャネルのチャネル容量をそれぞれ解析することにより,極性符号のコードワード構造を設計し,誤り訂正とプライバシ増幅を1ステップで同期的に完了するようにした。 誤り訂正とプライバシ増幅を1つのステップに組み合わせることで、この効率的な後処理アルゴリズムはシステムの複雑さを低減し、後処理の遅延を低減します。 さらに,本アルゴリズムの信頼性と安全性を両立させたコミュニシトン条件について述べる。 シミュレーションの結果,この後処理アルゴリズムは信頼性が高くセキュアな通信条件を満足できることがわかった。

Combined with one-time pad encryption scheme, quantum key distribution guarantees the unconditional security of communication in theory. However, error correction and privacy amplification in the post-processing phase of quantum key distribution result in high time delay, which limits the final secret key generation rate and the practicability of quantum key distribution systems. To alleviate this limitation, this paper proposes an efficient post-processing algorithm based on polar codes for quantum key distribution. In this algorithm, by analyzing the channel capacity of the main channel and the wiretap channel respectively under the Wyner's wiretap channel model, we design a codeword structure of polar codes, so that the error correction and privacy amplification could be completed synchronously in a single step. Through combining error correction and privacy amplification into one single step, this efficient post-processing algorithm reduces complexity of the system and lower the post-processing delay. Besides, the reliable and secure communicaiton conditions for this algorithm has been given in this paper. Simulation results show that this post-processing algorithm satisfies the reliable and secure communication conditions well.
翻訳日:2023-03-04 00:55:35 公開日:2021-12-20
# 単一伝搬光モードに結合した冷媒の集合体の超原子とサブラジカル状態のコヒーレントカップリングの観察

Observation of coherent coupling between super- and subradiant states of an ensemble of cold atoms collectively coupled to a single propagating optical mode ( http://arxiv.org/abs/2112.10806v1 )

ライセンス: Link先を確認
Riccardo Pennetta, Daniel Lechner, Martin Blaha, Arno Rauschenbeutel, Philipp Schneeweiss and J\"urgen Volz(参考訳) 我々は、単一の伝播光学モードを介して結合される原子のアンサンブルの量子状態の進化について論じる。 理論上、Dicke状態に最初に準備されたN原子の量子状態は、伝播モードに関してサブラディアンであるすべてのN-1状態を通して進化することを示す。 この過程は原子番号と原子-光結合強度で起こると予測する。 これらの結果は、冷セシウム原子が光学ナノファイバーのエバネッセント場と結合した測定によって裏付けられている。 最初の2つのサブラジアント状態を通過するアンサンブルの状態の進化を実験的に観察し、ナノファイバーに放出される光学パワーの突然の一時的なスイッチオフを導いた。 この結果は、集合原子-光相互作用の基本的な理解に寄与し、Dicke状態を含む全ての物理系に適用する。

We discuss the evolution of the quantum state of an ensemble of atoms that are coupled via a single propagating optical mode. We theoretically show that the quantum state of N atoms, which are initially prepared in the timed Dicke state, evolves through all the N - 1 states that are subradiant with respect to the propagating mode. We predict this process to occur for any atom number and any atom-light coupling strength. These findings are supported by measurements performed with cold cesium atoms coupled to the evanescent field of an optical nanofiber. We experimentally observe the evolution of the state of the ensemble passing through the first two subradiant states, leading to sudden, temporary switch-offs of the optical power emitted into the nanofiber. Our results contribute to the fundamental understanding of collective atom-light interaction and apply to all physical systems, whose description involves timed Dicke states.
翻訳日:2023-03-04 00:49:26 公開日:2021-12-20
# 正方形リドバーグ原子配列におけるバルクおよび境界量子相転移

Bulk and Boundary Quantum Phase Transitions in a Square Rydberg Atom Array ( http://arxiv.org/abs/2112.10790v1 )

ライセンス: Link先を確認
Marcin Kalinowski, Rhine Samajdar, Roger G. Melko, Mikhail D. Lukin, Subir Sachdev, Soonwon Choi(参考訳) プログラム可能な量子シミュレータ上でのエキゾチックな物質相の最近の実験的実現に動機づけられ、開放状態と周期的境界条件の両方を持つ正方格子上のrydberg原子配列における量子相転移の包括的理論的研究を行った。 大規模量子モンテカルロシミュレーションを行い,ランドウ・ギンツブルグ・ヴィルソン理論の枠組みを用いて,いくつかの一階および連続相転移を同定し,それらの遷移の性質を解析的に理解する。 驚くべきことに、開境界条件下では、境界自体がバルクとは独立に第二次量子相転移を起こしている。 これらの結果は、最近の実験結果を説明し、新しい量子位相の断熱的状態形成と、rydberg原子アレイプラットフォームを用いた量子最適化の両方について重要な洞察を与える。

Motivated by recent experimental realizations of exotic phases of matter on programmable quantum simulators, we carry out a comprehensive theoretical study of quantum phase transitions in a Rydberg atom array on a square lattice, with both open and periodic boundary conditions. In the bulk, we identify several first-order and continuous phase transitions by performing large-scale quantum Monte Carlo simulations and develop an analytical understanding of the nature of these transitions using the framework of Landau-Ginzburg-Wilson theory. Remarkably, we find that under open boundary conditions, the boundary itself undergoes a second-order quantum phase transition, independent of the bulk. These results explain recent experimental observations and provide important new insights into both the adiabatic state preparation of novel quantum phases and quantum optimization using Rydberg atom array platforms.
翻訳日:2023-03-04 00:48:23 公開日:2021-12-20
# キュービットの短時間コヒーレンス及び測定装置

Short-time coherence of a qubit and measurement apparatus ( http://arxiv.org/abs/2112.10776v1 )

ライセンス: Link先を確認
Filippo Giraldi(参考訳) 量子コヒーレンスに対する測定装置の効果を、量子ビットの純粋デファスメントモデルを考慮して検討する。 qubitの非選択的測定を行うことにより、システム全体の熱状態から初期状態が作成される。 測定後のコヒーレンスの大きさは、特別な測定スキームと低温限界によって実現される1/2$の値によって制限される。 コヒーレンスの大きさは、調製測定の選択に応じて、決定された短時間スケールでほぼ一定速度で、同一の消失、増大、または減少する。 短い時間の増加または減少速度の最大化は、さらなる特別な測定方法と高温限界の選択によって好まれる。 測定装置は、非選択的準備測定により、短時間で量子ビットの量子コヒーレンスを操作できる。

The effects of the measurement apparatus on quantum coherence are studied by considering a purely dephasing model of a qubit. The initial state is prepared from a thermal state of the whole system by performing a nonselective measurement on the qubit. The magnitude of the initial postmeasurement coherence is bounded by the value $1/2$, which is realized with special measurement schemes and in the low-temperature limit. The magnitude of coherence identically vanishes, increases or decreases with approximately constant velocity over a determined short time scale, according to the choice of the preparation measurement. The maximization of the short-time increasing or decreasing velocity is favored by the choice of further special measurement schemes and the high-temperature limit. The measurement apparatus allows to manipulate quantum coherence of the qubit over short times via nonselective preparation measurements.
翻訳日:2023-03-04 00:48:06 公開日:2021-12-20
# 駆動型散逸性ソリトンによる合成次元のブロッホ振動

Bloch Oscillations of Driven Dissipative Solitons in a Synthetic Dimension ( http://arxiv.org/abs/2112.10756v1 )

ライセンス: Link先を確認
Nicolas Englebert, Nathan Goldman, Miro Erkintalo, Nader Mostaan, Simon-Pierre Gorza, Fran\c{c}ois Leo and Julien Fatome(参考訳) 合成次元の工学により、電磁空洞の量子化されたモードや原子の内部状態のような物理系の離散的な自由度を結合することで、架空の格子構造を構築することができる。 本手法は, 実周期格子構造が存在しない場合, 静的および動的ブロッホバンド特性の研究を可能にする。 これまでのところ、ほとんどの実装は線形および保守的なプロセスに焦点を合わせており、潜在的にリッチな物理学と非線形性や散逸によって提供される機会はほとんど未解明のままである。 本稿では,ブロッホバンド輸送,非線形性,散逸の複雑な相互作用を理論的,実験的に検討し,コヒーレント駆動光共振器の周波数空間における合成次元が系の非線形波の力学に与える影響を考察する。 特に, 共振器内に持続する局所発散構造(ソリトン)により持続する合成周波数次元に沿って発生する非線形発散ブロッホ振動を観察し, 研究する。 散逸性ソリトン状態のユニークな性質は、線形状態において達成された以上の合成次元の有効サイズを拡張でき、また、長寿命のブロッホ振動と、基礎となるバンド構造の高分解能プローブを可能にする。 ブロッホ振動と散逸ソリトンとの相互作用に関する最初の実験的研究の他、長距離合成次元における非線形ダイナミクスの研究の理想的な基盤としてケラー共振器を確立し、位相フォトニクスへの応用を期待する。

The engineering of synthetic dimensions allows for the construction of fictitious lattice structures by coupling the discrete degrees of freedom of a physical system, such as the quantized modes of an electromagnetic cavity or the internal states of an atom. This method enables the study of static and dynamical Bloch band properties in the absence of a real periodic lattice structure. So far, the vast majority of implementations have focused on linear and conservative processes, with the potentially rich physics and opportunities offered by nonlinearities and dissipation remaining largely unexplored. Here, we theoretically and experimentally investigate the complex interplay between Bloch band transport, nonlinearity, and dissipation, exploring how a synthetic dimension realised in the frequency space of a coherently-driven optical resonator influences the dynamics of nonlinear waves of the system. In particular, we observe and study nonlinear dissipative Bloch oscillations occurring along the synthetic frequency dimension, sustained by localized dissipative structures (solitons) that persist endlessly in the resonator. The unique properties of the dissipative soliton states can extend the effective size of the synthetic dimension far beyond that achieved in the linear regime, as well as enable long-lived Bloch oscillations and high-resolution probing of the underlying band structure. Besides representing the first experimental study of the interplay between Bloch oscillations and dissipative solitons, our work establishes Kerr resonators as an ideal platform for the study of nonlinear dynamics in long-scale synthetic dimensions, with promising applications in topological photonics.
翻訳日:2023-03-04 00:47:52 公開日:2021-12-20
# カーボンダイマーのレーザー冷却方式($^{12}$c$_2$)

Laser Cooling Scheme for the Carbon Dimer ($^{12}$C$_2$) ( http://arxiv.org/abs/2112.10745v1 )

ライセンス: Link先を確認
Niccol\`o Bigagli, Daniel W. Savin, Sebastian Will(参考訳) 本報告では, レーザー冷却方式である$^{12}$c$_2$について報告する。 サイクリング・リポンピング遷移の分岐比を計算し,実際の実験条件下では,$c_2$分子の偏向・レーザー冷却に必要な光子散乱数を計算した。 以上の結果から, Swan(d^3\Pi_\text{g} \leftrightarrow a^3\Pi_\text{u}$)およびDuck(d^3\Pi_\text{g} \leftrightarrow c^3\Sigma_\text{u}^+$)バンドを用いたC$_2$冷却は, 最先端の分子冷却実験と同様の手法で実現可能であることが示された。 Phillips$A^1\Pi_\text{u} \leftrightarrow X^1\Sigma_\text{g}^+$) と Ballik-Ramsay$b^3\Sigma_\text{g}^\leftrightarrow a^3\Pi_\text{u}$) は狭線冷却の可能性を提供する。 この研究は、炭素-炭素結合による分子の冷却への道を開き、有機分子の量子制御への道を開くかもしれない。

We report on a scheme for laser cooling of $^{12}$C$_2$. We have calculated the branching ratios for cycling and repumping transitions and calculated the number of photon scatterings required to achieve deflection and laser cooling of a beam of $C_2$ molecules under realistic experimental conditions. Our results demonstrate that C$_2$ cooling using the Swan ($d^3\Pi_\text{g} \leftrightarrow a^3\Pi_\text{u}$) and Duck ($d^3\Pi_\text{g} \leftrightarrow c^3\Sigma_\text{u}^+$) bands is achievable via techniques similar to state-of-the-art molecular cooling experiments. The Phillips ($A^1\Pi_\text{u} \leftrightarrow X^1\Sigma_\text{g}^+$) and Ballik-Ramsay ($b^3\Sigma_\text{g}^- \leftrightarrow a^3\Pi_\text{u}$) bands offer the potential for narrow-line cooling. This work opens up a path to cooling of molecules with carbon-carbon bonds and may pave the way toward quantum control of organic molecules.
翻訳日:2023-03-04 00:47:24 公開日:2021-12-20
# 食品廃棄物防止のための進化的階層的収穫スケジュール最適化

Evolutionary Hierarchical Harvest Schedule Optimization for Food Waste Prevention ( http://arxiv.org/abs/2112.10712v1 )

ライセンス: Link先を確認
Maurice G\"under, Nico Piatkowski, Laura von Rueden, Rafet Sifa, Christian Bauckhage(参考訳) 土壌や環境に対するモノクロッピングの欠点を避けるため、可能な限り様々な植物種のインタークロッピングを実践することが望ましい。 しかし、個別栽培時間枠によるバランスの取れた植樹スケジュールを必要とするため、インタークロッピングは困難である。 連続収穫を維持することは、物流コストと温室効果ガス排出量を削減し、食品廃棄物の防止に寄与する。 本研究では,これらの問題に対処し,与えられた制約を満たす大作アンサンブルの全収穫時期の最適化手法を提案する。 進化的アルゴリズムと新しい階層的損失関数と適応的突然変異率を併用した手法を用いて,多目的を擬似単目的最適化問題に変換し,従来の手法よりも高速な収束と解を求める。

In order to avoid disadvantages of monocropping for soil and environment, it is advisable to practice intercropping of various plant species whenever possible. However, intercropping is challenging as it requires a balanced planting schedule due to individual cultivation time frames. Maintaining a continuous harvest reduces logistical costs and related greenhouse gas emissions, and contributes to food waste prevention. In this work, we address these issues and propose an optimization method for a full harvest season of large crop ensembles that complies with given constraints. By using an approach based on an evolutionary algorithm combined with a novel hierarchical loss function and adaptive mutation rate, we transfer the multi-objective into a pseudo-single-objective optimization problem and obtain faster convergence and better solutions than for conventional approaches.
翻訳日:2023-03-04 00:46:53 公開日:2021-12-20
# ヘリカルマルチフェロニクスにおける量子情報の方向スクランブル

Directional scrambling of quantum information in helical multiferroics ( http://arxiv.org/abs/2112.10710v1 )

ライセンス: Link先を確認
M. Sekania, M. Melz, N. Sedlmayr, Sunil K. Mishra, J. Berakdar(参考訳) 量子情報のキャリアとしての局所的な励起は、基礎となる相互作用と対称性によって支配される方法でシステムに広がった。 量子スクランブル(quantum scramling)とも呼ばれるこの現象を理解することは、量子情報処理に相互作用系を用いるための前提条件である。 量子スクランブルの特性と方向依存性は、相関構築情報と絡み合い拡散情報を含む時間外整列整流子(otocs)から推測できる。 OTOCを用いて、スピン駆動強誘電体秩序を有する酸化物系ヘリカルスピン系の量子情報伝播の方向性を研究・定量化する。 これらの系では、強誘電性によりスピンダイナミクスと関連する情報内容が電界によって制御される。 トポロジカルな非自明な量子相、例えばカイラルやヘリカルスピン秩序は、電場制御された異方性スクランブルと量子相関の方向依存的な構築を可能にする。 一般的な対称性の考察に基づいて、純粋な状態(例えば基底状態)や有限温度状態から始めることは、スクランブルにおける方向非対称性の観察に不可欠である。 OTOCの系統的な数値的研究では、スクランブルの方向非対称性を定量化し、弾道波面周辺のOTOCの予測形式を検証する。 得られた方向依存バターフライ速度 $v_{\mathrm{B}}(\mathbf{n})$ は、弾道波面の速度に関する情報を提供する。 概して,解析的展開から予測されるように,otocの早期のパワーロー挙動を示す。 OTOCの長時間の挙動は、基礎となるハミルトニアンの(非)可積分性の重要性と、全スピンの$z$-射影のような保存量の重要性を明らかにしている。

Local excitations as carriers of quantum information spread out in the system in ways governed by the underlying interaction and symmetry. Understanding this phenomenon, also called quantum scrambling, is a prerequisite for employing interacting systems for quantum information processing. The character and direction dependence of quantum scrambling can be inferred from the out-of-time-ordered commutators (OTOCs) containing information on correlation buildup and entanglement spreading. Employing OTOC, we study and quantify the directionality of quantum information propagation in oxide-based helical spin systems hosting a spin-driven ferroelectric order. In these systems, magnetoelectricity permits the spin dynamics and associated information content to be controlled by an electric field coupled to the emergent ferroelectric order. We show that topologically nontrivial quantum phases, such as chiral or helical spin ordering, allows for electric-field controlled anisotropic scrambling and a direction-dependent buildup of quantum correlations. Based on general symmetry considerations, we find that starting from a pure state (e.g., the ground state) or a finite temperature state is essential for observing directional asymmetry in scrambling. In the systematic numerical studies of OTOC, we quantify the directional asymmetry of the scrambling and verify the conjectured form of the OTOC around the ballistic wavefront. The obtained direction-dependent butterfly velocity $v_{\mathrm{B}}(\mathbf{n})$ provides information on the speed of the ballistic wavefront. In general, our calculations show an early-time power-law behavior of OTOC, as expected from an analytic expansion for small times. The long-time behavior of OTOC reveals the importance of (non-)integrability of the underlying Hamiltonian as well as the implications of conserved quantities such as the $z$-projection of the total spin.
翻訳日:2023-03-04 00:46:40 公開日:2021-12-20
# 2つの温度の量子重ね合わせ

Quantum Superposition of Two Temperatures ( http://arxiv.org/abs/2112.10701v1 )

ライセンス: Link先を確認
Arun Kumar Pati and Avijit Misra(参考訳) 古典的な世界では、温度は物理的な物体がどれだけ高温であるかの尺度である。 暑さと寒さの両方を同時に備える物理的なシステムは決して見つからない。 ここでは、量子系において、2つの温度を重畳することで、高温と寒冷の両方で観測できる状況に繋がることを示す。 2つの温度の重ね合わせである量子状態の作り方に関する物理機構を提案する。 さらに、逆温度の演算子を定義し、熱状態が実のところ、この演算子の固有状態であることを示す。 2つの温度の重畳を表す量子状態は、逆温度演算子の固有状態ではない。 量子熱力学、量子ナノスケールデバイス、量子統計力学に新たな応用が期待できる。

In the classical world, temperature is a measure of how hot or cold a physical object is. We never find a physical system which can be both hot and cold at the same time. Here, we show that for a quantum system, it is possible to have superposition of two temperatures which can lead to a situation that it can be found both in hot and cold state. We propose a physical mechanism for how to create a quantum state which is superposition of two temperatures. Furthermore, we define an operator for the inverse temperature and show that the thermal state is, in fact, an eigenstate of this operator. The quantum state which represents superposition of two temperatures is not an eigenstate of the inverse temperature operator. Our findings can have new applications in quantum thermodynamics, quantum nano scale devices and quantum statistical mechanics.
翻訳日:2023-03-04 00:46:10 公開日:2021-12-20
# オンライン顧客レビューは、より持続可能な製品設計に役立つか? amazon climate pledge friendly製品に関する予備的研究

Can Online Customer Reviews Help Design More Sustainable Products? A Preliminary Study on Amazon Climate Pledge Friendly Products ( http://arxiv.org/abs/2202.07463v1 )

ライセンス: Link先を確認
Michael Saidani (LGI), Harrison Kim, Nawres Ayadhi (LGI), Bernard Yannou (LGI)(参考訳) オンライン製品レビューは、製品開発者が製品の設計を改善する上で貴重なリソースである。 しかし、製品のサステナビリティ性能を改善するための顧客フィードバックの潜在的な価値は、いまだに活用されている。 本論文は,amazon 製品レビューを調査し,分析することにより,次のような疑問に新たな光を当てる。 ‘what sustainable design insights can be identified or interpretation from online product reviews?’ そのため、トップ100のレビューは星の評価によって均等に分配され、3つの製品カテゴリー(ラップトップ、プリンター、ケーブル)が収集され、手動で注釈付けされ、分析され、解釈される。 各製品カテゴリについて、2つの類似製品(環境認証と1つの標準バージョン)のレビューを比較し、組み合わせて持続可能なデザインソリューションを考案する。 全体として、考慮された6つの製品について、レビューの12%から20%は、サステナビリティの観点からこれらの製品の設計を改善するために活用できる直接的または間接的な側面または属性である。 製品レビューから得られる持続可能なデザインリードの具体的な例を提示し、議論する。 そのため、このコントリビューションは、オンライン製品レビューからさらなる洞察を得るために、このプロセスを自動化しようとする将来の作業のベースラインを提供します。 特に、機械学習ツールの展開と自然言語処理技術の利用は、今後の研究に有望な線として議論されている。

Online product reviews are a valuable resource for product developers to improve the design of their products. Yet, the potential value of customer feedback to improve the sustainability performance of products is still to be exploited. The present paper investigates and analyzes Amazon product reviews to bring new light on the following question: ``What sustainable design insights can be identified or interpreted from online product reviews?''. To do so, the top 100 reviews, evenly distributed by star ratings, for three product categories (laptop, printer, cable) are collected, manually annotated, analyzed and interpreted. For each product category, the reviews of two similar products (one with environmental certification and one standard version) are compared and combined to come up with sustainable design solutions. In all, for the six products considered, between 12% and 20% of the reviews mentioned directly or indirectly aspects or attributes that could be exploited to improve the design of these products from a sustainability perspective. Concrete examples of sustainable design leads that could be elicited from product reviews are given and discussed. As such, this contribution provides a baseline for future work willing to automate this process to gain further insights from online product reviews. Notably, the deployment of machine learning tools and the use of natural language processing techniques to do so are discussed as promising lines for future research.
翻訳日:2023-03-04 00:39:57 公開日:2021-12-20
# 低値e_j$ジョセフソン接合のミリケルビン温度における相拡散

Phase Diffusion in Low-$E_J$ Josephson Junctions at milli-Kelvin Temperatures ( http://arxiv.org/abs/2112.10870v1 )

ライセンス: Link先を確認
Wen-Sen Lu, Konstantin Kalashnikov, Plamen Kamenov, Thomas J. DiNapoli, Michael E. Gershenson(参考訳) ジョセフソンエネルギー$E_J \lesssim 1K$のジョセフソン接合(JJs)は、ミリケルビン温度で動作する量子コンピューティングの超伝導回路における非線形要素として広く用いられている。 本稿では,低E_J$アルミニウム系JJの無コヒーレント相スリップ(IPS)をT<0.2K$で実験的に検討した。 臨界(スイッチング)電流の強い抑制と、ジョセフソンエネルギーを$E_J \sim 1K$以下に下げたゼロバイアス抵抗の急速な成長を観察した。 この挙動は、比E_J/T$を下げて指数関数的に増加するIPSsに起因する。 我々の観察は文献で報告されている他のデータと一致している。 超伝導量子ビットのコヒーレンスのさらなる改善により、IPSから観測された散逸は、低E_J$接合に基づく量子ビットの性能を制限する可能性がある。

Josephson junctions (JJs) with Josephson energy $E_J \lesssim 1K$ are widely employed as non-linear elements in superconducting circuits for quantum computing, operating at milli-Kelvin temperatures. Here we experimentally study incoherent phase slips (IPS) in low-$E_J$ Aluminum-based JJs at $T<0.2K$, where the IPS become the dominant source of dissipation. We observed strong suppression of the critical (switching) current and a very rapid growth of the zero-bias resistance with decreasing Josephson energy below $E_J \sim 1K$. This behavior is attributed to the IPSs whose rate exponentially increases with decreasing the ratio $E_J/T$. Our observations are in line with other data reported in literature. With further improvement of coherence of superconducting qubits, the observed dissipation from IPS might limit the performance of qubits based on low-$E_J$ junctions.
翻訳日:2023-03-04 00:38:42 公開日:2021-12-20
# パーティーごとの任意の測定値を持つ任意の局所次元の多部GHZ状態の自己検定

Self-testing of multipartite GHZ states of arbitrary local dimension with arbitrary number of measurements per party ( http://arxiv.org/abs/2112.10868v1 )

ライセンス: Link先を確認
Shubhayan Sarkar, Remigiusz Augusiak(参考訳) デバイス独立認証スキームは近年、量子情報タスクへの応用だけでなく、量子理論の基礎へのその影響にも多くの関心を集めている。 デバイス独立認証の最も強い形式は、しばしばベルの不等式が特定の量子状態や測定値によって最大に破られることを要求する。 本稿では,[s. sarkar et al., npj quantum inf. 7, 151 (2021)]で最近開発された手法を用いて,量子ビット状態の自己テスト結果に依存しない任意の局所次元の多成分グリーンバーガー・ホーン・サイレンジャー(ghz)状態に対して,パーティ当たりの最小2つの測定値を利用する最初の自己テストスキームを提案する。 これにより,デバイスに依存しない認証手法の実装に関して,本研究の成果が興味深いものとなる。 我々の自己試験声明は、最近提案されたベルの不平等の最大違反に依存している[R. Augusiak et al., New J. Phys. 21, 113001 (2019)]。

Device independent certification schemes have gained a lot of interest lately, not only for their applications in quantum information tasks but also their implications towards foundations of quantum theory. The strongest form of device independent certification, known as self-testing, often requires for a Bell inequality to be maximally violated by specific quantum states and measurements. In this work, using the techniques developed recently in [S. Sarkar et al., npj Quantum Inf. 7, 151 (2021)], we provide the first self-testing scheme for the multipartite Greenberger-Horne-Zeilinger (GHZ) states of arbitrary local dimension that does not rely on self-testing results for qubit states and that exploits the minimal number of two measurements per party. This makes our results interesting as far as practical implementation of device-independent certification methods is concerned. Our self-testing statement relies on maximal violation of a Bell inequality proposed recently in [R. Augusiak et al., New J. Phys. 21, 113001 (2019)].
翻訳日:2023-03-04 00:38:23 公開日:2021-12-20
# 時間相関による視線追跡のための微分プライバシー

Differential Privacy for Eye Tracking with Temporal Correlations ( http://arxiv.org/abs/2002.08972v3 )

ライセンス: Link先を確認
Efe Bozkir and Onur G\"unl\"u and Wolfgang Fuhl and Rafael F. Schaefer and Enkelejda Kasneci(参考訳) VRやARメガネなどの次世代ヘッドマウントディスプレイは、すでに統合されたアイトラッキングによって市場に登場しており、多くのアプリケーションで人とコンピュータのインタラクションの新しい方法が期待されている。 しかし、眼球運動特性には生体情報が含まれているため、プライバシーの懸念を適切に扱う必要がある。 近年,ディファレンシャルプライバシ機構などのプライバシ保護技術が,ディスプレイから得られるアイムーブメントデータに適用されている。 標準的な差分プライバシー機構は、眼球運動観察の時間的相関により脆弱である。 本研究では,眼球運動特徴量の統計にさらに適応し,様々な低複雑さ手法を比較するための,新しい変換符号化に基づく微分プライバシー機構を提案する。 我々は、微分プライバシー機構であるフーリエ摂動アルゴリズムを拡張し、その証明においてスケーリングの誤りを修正する。 さらに, 眼球追跡文献において, 有効性とプライバシのトレードオフを提供するクエリ感度に加えて, サンプル相関の大幅な低減について述べる。 本結果は,個人識別を隠蔽しながら,分類精度を著しく低下させることなく,極めて高いプライバシーを提供する。

New generation head-mounted displays, such as VR and AR glasses, are coming into the market with already integrated eye tracking and are expected to enable novel ways of human-computer interaction in numerous applications. However, since eye movement properties contain biometric information, privacy concerns have to be handled properly. Privacy-preservation techniques such as differential privacy mechanisms have recently been applied to eye movement data obtained from such displays. Standard differential privacy mechanisms; however, are vulnerable due to temporal correlations between the eye movement observations. In this work, we propose a novel transform-coding based differential privacy mechanism to further adapt it to the statistics of eye movement feature data and compare various low-complexity methods. We extend the Fourier perturbation algorithm, which is a differential privacy mechanism, and correct a scaling mistake in its proof. Furthermore, we illustrate significant reductions in sample correlations in addition to query sensitivities, which provide the best utility-privacy trade-off in the eye tracking literature. Our results provide significantly high privacy without any essential loss in classification accuracies while hiding personal identifiers.
翻訳日:2022-12-30 07:33:56 公開日:2021-12-20
# ディープラーニングベース無線信号分類器に対するチャネルアウェア対応攻撃

Channel-Aware Adversarial Attacks Against Deep Learning-Based Wireless Signal Classifiers ( http://arxiv.org/abs/2005.05321v3 )

ライセンス: Link先を確認
Brian Kim, Yalin E. Sagduyu, Kemal Davaslioglu, Tugba Erpek, Sennur Ulukus(参考訳) 本稿では,深層学習に基づく無線信号分類器に対するチャネルアウェア・アドバーサリー攻撃について述べる。 異なる変調タイプで信号を送信する送信機があります。 各受信機でディープニューラルネットワークを使用して、受信した信号を変調タイプに分類する。 一方、相手は、相手の摂動(電力予算に従属する)を不正な受信者に送信し、送信された信号と敵の摂動の重畳として受信される信号を分類する誤りを発生させる。 第一に、これらの回避攻撃は、逆摂動を設計する際にチャネルが考慮されない場合に失敗する。 そして、敵から各受信機へのチャネル効果を考慮し、現実的な攻撃を示す。 チャネル認識攻撃が選択的であること(すなわち、チャネルが摂動設計で考慮されている受信機のみに影響する)を示した後、放送対向攻撃は、共通の対向摂動を発生させ、異なる受信機で同時に分類器を騙す。 変調分類器の対空攻撃に対する大きな脆弱性は、チャネル、送信機入力、および分類器モデルに関する様々なレベルの情報を考慮することで示される。 最後に、ノイズを伴うトレーニングデータを増強するランダム化平滑化に基づく認証ディフェンスを導入し、変調分類器を逆摂動に対して頑健にする。

This paper presents channel-aware adversarial attacks against deep learning-based wireless signal classifiers. There is a transmitter that transmits signals with different modulation types. A deep neural network is used at each receiver to classify its over-the-air received signals to modulation types. In the meantime, an adversary transmits an adversarial perturbation (subject to a power budget) to fool receivers into making errors in classifying signals that are received as superpositions of transmitted signals and adversarial perturbations. First, these evasion attacks are shown to fail when channels are not considered in designing adversarial perturbations. Then, realistic attacks are presented by considering channel effects from the adversary to each receiver. After showing that a channel-aware attack is selective (i.e., it affects only the receiver whose channel is considered in the perturbation design), a broadcast adversarial attack is presented by crafting a common adversarial perturbation to simultaneously fool classifiers at different receivers. The major vulnerability of modulation classifiers to over-the-air adversarial attacks is shown by accounting for different levels of information available about the channel, the transmitter input, and the classifier model. Finally, a certified defense based on randomized smoothing that augments training data with noise is introduced to make the modulation classifier robust to adversarial perturbations.
翻訳日:2022-12-04 20:03:44 公開日:2021-12-20
# データ多様体上のシャプリー説明可能性

Shapley explainability on the data manifold ( http://arxiv.org/abs/2006.01272v4 )

ライセンス: Link先を確認
Christopher Frye, Damien de Mijolla, Tom Begley, Laurence Cowton, Megan Stanley, Ilya Feige(参考訳) aiの説明は、モデルの開発、規制の遵守、予測に対する運用上のニュアンスの提供に不可欠である。 説明可能性のためのShapleyフレームワークは、数学的に原則化されたモデルに依存しない方法でモデルの予測を入力特徴に属性付ける。 しかし、Shapleyの説明可能性の一般的な実装は、モデルの特徴が非相関である、という断続的な仮定を下している。 本研究では,この仮定の曖昧な欠点を実証し,データ多様体を尊重するシェープリー説明可能性に対する2つの解法を考案する。 1つのソリューションは生成モデリングに基づいて、データインプテーションへの柔軟なアクセスを提供し、もう1つはshapley値関数を直接学習し、柔軟性を犠牲にしてパフォーマンスと安定性を提供する。 オフマニフォールド" のシェープ値は (i)不正確な説明を生じさせる。 (ii)繊細な属性に対する暗黙のモデル依存を隠蔽し、 (三)高次元データにおいて理解不能な説明を導き、一次元的説明性はこれらの問題を克服する。

Explainability in AI is crucial for model development, compliance with regulation, and providing operational nuance to predictions. The Shapley framework for explainability attributes a model's predictions to its input features in a mathematically principled and model-agnostic way. However, general implementations of Shapley explainability make an untenable assumption: that the model's features are uncorrelated. In this work, we demonstrate unambiguous drawbacks of this assumption and develop two solutions to Shapley explainability that respect the data manifold. One solution, based on generative modelling, provides flexible access to data imputations; the other directly learns the Shapley value-function, providing performance and stability at the cost of flexibility. While "off-manifold" Shapley values can (i) give rise to incorrect explanations, (ii) hide implicit model dependence on sensitive attributes, and (iii) lead to unintelligible explanations in higher-dimensional data, on-manifold explainability overcomes these problems.
翻訳日:2022-11-26 05:45:58 公開日:2021-12-20
# オープンワールドノード分類のためのグラフニューラルネットワークの生涯学習

Lifelong Learning of Graph Neural Networks for Open-World Node Classification ( http://arxiv.org/abs/2006.14422v4 )

ライセンス: Link先を確認
Lukas Galke and Benedikt Franke and Tobias Zielke and Ansgar Scherp(参考訳) グラフニューラルネットワーク(GNN)は,ノード分類などのグラフ構造化データに対する多数のタスクの標準手法として登場した。 しかし、現実世界のグラフはしばしば時間とともに進化しており、新しいクラスも生まれるかもしれない。 我々はこれらの課題を、学習者が一連のタスクに直面し、過去のタスクで得られた知識を引き継ぐことができる生涯学習の事例としてモデル化する。 このような知識は、歴史的データとして明示的に、または暗黙的にモデルパラメータに格納される。 本研究では,暗黙的および明示的な知識の影響を体系的に分析する。 そこで本稿では,グラフ上での生涯学習のための漸進的学習手法を提案し,歴史データの変動に対処するために,$k$近辺時間差に基づく新しい尺度を提案する。 5つの代表的GNNアーキテクチャに適用し、3つの新しい生涯ノード分類データセットで評価する。 以上の結果から,GNNの受容領域の50%以上は,グラフデータの完全履歴に関するトレーニングに比べて95%以上の精度を維持する必要があることがわかった。 さらに, 明示的な知識が少ない場合, 暗黙的な知識がより重要になることを示す実験を行った。

Graph neural networks (GNNs) have emerged as the standard method for numerous tasks on graph-structured data such as node classification. However, real-world graphs are often evolving over time and even new classes may arise. We model these challenges as an instance of lifelong learning, in which a learner faces a sequence of tasks and may take over knowledge acquired in past tasks. Such knowledge may be stored explicitly as historic data or implicitly within model parameters. In this work, we systematically analyze the influence of implicit and explicit knowledge. Therefore, we present an incremental training method for lifelong learning on graphs and introduce a new measure based on $k$-neighborhood time differences to address variances in the historic data. We apply our training method to five representative GNN architectures and evaluate them on three new lifelong node classification datasets. Our results show that no more than 50% of the GNN's receptive field is necessary to retain at least 95% accuracy compared to training over the complete history of the graph data. Furthermore, our experiments confirm that implicit knowledge becomes more important when fewer explicit knowledge is available.
翻訳日:2022-11-17 03:40:14 公開日:2021-12-20
# 画像復元のための深部前頭葉近位ネットワーク

A deep primal-dual proximal network for image restoration ( http://arxiv.org/abs/2007.00959v3 )

ライセンス: Link先を確認
Mingyuan Jiu, Nelly Pustelnik(参考訳) 画像復元は依然として画像処理において難しい課題である。 多数の方法がこの問題に取り組み、しばしば非スムースペナル化コログ類似関数を最小化することで解決される。 解は理論的な保証で容易に解釈できるが、その推定は時間を要する最適化プロセスに依存している。 画像分類とセグメンテーションの深層学習の取り組みを考えると、この手法は画像復元に真剣な代替手段を提供するが、逆問題の解決は困難である。 本研究では,本研究で提案するdeeppdnetという深層ネットワークを,先行分析による標準的なペナルティ化確率の最小化に伴う初歩的近近距離イテレーションから構築し,両者の利点を生かすことができるように設計する。 我々は,固定層を持つディープネットワークとして,condat-vu primal-dual hybrid gradient (pdhg)アルゴリズムの具体例を再構成する。 学習パラメータはPDHGアルゴリズムのステップサイズと、ペナル化に関与する解析線形演算子(正規化パラメータを含む)である。 これらのパラメータは、ある層から別の層へ変更することができる。 完全学習」と「部分学習」の2つの異なる学習戦略が提案され、第1は最も効率的な数値であり、第2は標準PDHGイテレーションの収束を保証するための標準制約に依存している。 さらに,大域的および局所的なスパース解析を行い,より優れた特徴表現を求める。 提案手法は,MNISTおよびBSD68データセット上の画像復元とBSD100およびSET14データセット上の単一画像超解像に適用する。 以上の結果から,提案したDeepPDNetは,MNISTと,より複雑なBSD68,BSD100,SET14データセットにおいて,画像復元と単一画像超解像処理に優れた性能を示した。

Image restoration remains a challenging task in image processing. Numerous methods tackle this problem, often solved by minimizing a non-smooth penalized co-log-likelihood function. Although the solution is easily interpretable with theoretic guarantees, its estimation relies on an optimization process that can take time. Considering the research effort in deep learning for image classification and segmentation, this class of methods offers a serious alternative to perform image restoration but stays challenging to solve inverse problems. In this work, we design a deep network, named DeepPDNet, built from primal-dual proximal iterations associated with the minimization of a standard penalized likelihood with an analysis prior, allowing us to take advantage of both worlds. We reformulate a specific instance of the Condat-Vu primal-dual hybrid gradient (PDHG) algorithm as a deep network with fixed layers. The learned parameters are both the PDHG algorithm step-sizes and the analysis linear operator involved in the penalization (including the regularization parameter). These parameters are allowed to vary from a layer to another one. Two different learning strategies: "Full learning" and "Partial learning" are proposed, the first one is the most efficient numerically while the second one relies on standard constraints ensuring convergence in the standard PDHG iterations. Moreover, global and local sparse analysis prior are studied to seek a better feature representation. We apply the proposed methods to image restoration on the MNIST and BSD68 datasets and to single image super-resolution on the BSD100 and SET14 datasets. Extensive results show that the proposed DeepPDNet demonstrates excellent performance on the MNIST and the more complex BSD68, BSD100, and SET14 datasets for image restoration and single image super-resolution task.
翻訳日:2022-11-14 14:17:39 公開日:2021-12-20
# 孤立成分と混合比率に対するスコアベース手法の盲目性

Blindness of score-based methods to isolated components and mixing proportions ( http://arxiv.org/abs/2008.10087v3 )

ライセンス: Link先を確認
Li K. Wenliang, Heishiro Kanagawa(参考訳) 密度推定や近似ベイズ推定のような統計的タスクは、未知の正規化定数を持つ密度を含むことが多い。 スコアマッチングを含むスコアベースの手法は定数を正規化できないため、一般的な手法である。 これらの手法は理論的保証を享受しているが、あまり知られていない事実として、関心の非正規化分布が孤立した成分を持つ場合、それらは実用的な故障モードを示す。 簡単な分布を用いてこれらの知見を示し、これらの問題に対処するためのヒューリスティックな試みを示す。 我々は、新しいアルゴリズムやアプリケーションを開発する際に、これらの問題に理論家や実践者の注意を向けることを望んでいる。

Statistical tasks such as density estimation and approximate Bayesian inference often involve densities with unknown normalising constants. Score-based methods, including score matching, are popular techniques as they are free of normalising constants. Although these methods enjoy theoretical guarantees, a little-known fact is that they exhibit practical failure modes when the unnormalised distribution of interest has isolated components -- they cannot discover isolated components or identify the correct mixing proportions between components. We demonstrate these findings using simple distributions and present heuristic attempts to address these issues. We hope to bring the attention of theoreticians and practitioners to these issues when developing new algorithms and applications.
翻訳日:2022-10-26 02:46:09 公開日:2021-12-20
# 質問応答のための絡み付き量子言語モデル

Quantum Language Model with Entanglement Embedding for Question Answering ( http://arxiv.org/abs/2008.09943v3 )

ライセンス: Link先を確認
Yiwei Chen, Yu Pan, Daoyi Dong(参考訳) セメムの量子重ね合わせとして単語をモデル化する量子言語モデル(QLMs)は、高いレベルのモデルの透明性と、ポストホックな解釈可能性を示している。 しかしながら、現在の文献では、ワード列は基本的に古典的な単語状態の混合としてモデル化されており、量子確率的記述のポテンシャルを完全に活用することはできない。 完全な量子モデルはまだ、単語列内の非古典的相関を明示的に捉えるために開発されていない。 本稿では,多体量子システムの絡み合った純粋状態へと単語列を変換する機能を持つ,新しい絡み合い埋め込み(ee)モジュールを用いたニューラルネットワークモデルを提案する。 量子情報の中心的な概念であり、単語間の並列化相関を示す強い量子絡み合いが単語列内で観察される。 数値実験により、提案したQLM with EE (QLM-EE) は、古典的なディープニューラルネットワークモデルや他のQLM on Question Answering (QA)データセットと比較すると、優れた性能を発揮することが示された。 さらに、単語間の絡み合いの度合いを定量化することにより、モデルのホック後解釈性を向上させることができる。

Quantum Language Models (QLMs) in which words are modelled as quantum superposition of sememes have demonstrated a high level of model transparency and good post-hoc interpretability. Nevertheless, in the current literature word sequences are basically modelled as a classical mixture of word states, which cannot fully exploit the potential of a quantum probabilistic description. A full quantum model is yet to be developed to explicitly capture the non-classical correlations within the word sequences. We propose a neural network model with a novel Entanglement Embedding (EE) module, whose function is to transform the word sequences into entangled pure states of many-body quantum systems. Strong quantum entanglement, which is the central concept of quantum information and an indication of parallelized correlations among the words, is observed within the word sequences. Numerical experiments show that the proposed QLM with EE (QLM-EE) achieves superior performance compared with the classical deep neural network models and other QLMs on Question Answering (QA) datasets. In addition, the post-hoc interpretability of the model can be improved by quantizing the degree of entanglement among the words.
翻訳日:2022-10-26 02:35:43 公開日:2021-12-20
# コミュニティを壊す: twitter上のテキストマイニングとグラフ機械学習を使ってコミュニティを変えるユーザーを特徴づける

Breaking the Communities: Characterizing community changing users using text mining and graph machine learning on Twitter ( http://arxiv.org/abs/2008.10749v2 )

ライセンス: Link先を確認
Federico Albanese, Leandro Lombardi, Esteban Feuerstein, Pablo Balenzuela(参考訳) インターネットやソーシャルメディアは、人々が消費できるニュースや情報量を増やしているが、ほとんどのユーザーは自分の立場を強化し、他のイデオロギーコミュニティから隔離するコンテンツにのみ晒されている。 この環境は、厳しい政治的分極、フェイクニュースの容易な拡散、政治的過激主義、ヘイトグループ、議論の豊かさの欠如など、私たちの生活に大きな影響を与えている。 したがって、異なるグループ間の会話を奨励し、閉じたコミュニティを壊すことは、健全な社会にとって重要である。 本稿では,自然言語処理手法とグラフ機械学習アルゴリズムを用いて,twitter上でコミュニティを壊したユーザを特徴付け,調査する。 特に、150万人のユーザーから900万のtwitterメッセージを収集し、retweetネットワークを構築しました。 それらのコミュニティと議論のトピックを特定した。 このデータにより、ソーシャルメディア利用者の分類のための機械学習フレームワークが提供され、「コミュニティブレーカー」、すなわち、閉じたコミュニティから別のコミュニティに揺れるユーザーを検知する。 twitterの3つの分断政治データセットにおける特徴的重要度分析は、これらのユーザーがpagerankの価値が低いことを示している。 この手法により、興味のある特定のトピックを特定でき、この種のユーザを十分に特徴づけることができます。

Even though the Internet and social media have increased the amount of news and information people can consume, most users are only exposed to content that reinforces their positions and isolates them from other ideological communities. This environment has real consequences with great impact on our lives like severe political polarization, easy spread of fake news, political extremism, hate groups and the lack of enriching debates, among others. Therefore, encouraging conversations between different groups of users and breaking the closed community is of importance for healthy societies. In this paper, we characterize and study users who break their community on Twitter using natural language processing techniques and graph machine learning algorithms. In particular, we collected 9 million Twitter messages from 1.5 million users and constructed the retweet networks. We identified their communities and topics of discussion associated to them. With this data, we present a machine learning framework for social media users classification which detects "community breakers", i.e. users that swing from their closed community to another one. A feature importance analysis in three Twitter polarized political datasets showed that these users have low values of PageRank, suggesting that changes are driven because their messages have no response in their communities. This methodology also allowed us to identify their specific topics of interest, providing a fully characterization of this kind of users.
翻訳日:2022-10-25 12:43:52 公開日:2021-12-20
# 重み付きカプセルオートエンコーダに対する侵入攻撃

An Evasion Attack against Stacked Capsule Autoencoder ( http://arxiv.org/abs/2010.07230v5 )

ライセンス: Link先を確認
Jiazhu Dai, Siwei Xiong(参考訳) capsule networkは、画像の分類に特徴間の空間的関係を利用するニューラルネットワークの一種である。 特徴間のポーズと相対位置をキャプチャすることで、アフィン変換を認識する能力が改善され、翻訳、回転、スケーリングを扱う場合、従来の畳み込みニューラルネットワーク(CNN)を超える。 Stacked Capsule Autoencoder (SCAE)は、最先端のカプセルネットワークである。 SCAEは、イメージをカプセルとしてエンコードし、それぞれが特徴のポーズとその相関を含む。 エンコードされたコンテンツは下流の分類器に入力され、画像のカテゴリを予測する。 既存の研究は主に動的ルーティングやEMルーティングを備えたカプセルネットワークのセキュリティに焦点を当てており、SCAEのセキュリティと堅牢性にはほとんど注目されていない。 本稿では,SCAEに対する回避攻撃を提案する。 モデル内のオブジェクトカプセルの出力に基づいて摂動が生成されると、画像に付加され、画像の本来のカテゴリに関連するオブジェクトカプセルの寄与を減らすことにより、摂動画像が誤分類される。 画像分類実験を用いて攻撃を評価した結果,攻撃は高い成功率とステルスネスを達成できることが示された。 SCAEにはセキュリティ上の脆弱性があり、画像の本来の構造を変えずに逆のサンプルを作成でき、分類器を騙すことができる。 私たちは、この攻撃の脅威をコミュニティに認識させ、SCAEのセキュリティに対する関心を高めることを期待しています。

Capsule network is a type of neural network that uses the spatial relationship between features to classify images. By capturing the poses and relative positions between features, its ability to recognize affine transformation is improved, and it surpasses traditional convolutional neural networks (CNNs) when handling translation, rotation and scaling. The Stacked Capsule Autoencoder (SCAE) is the state-of-the-art capsule network. The SCAE encodes an image as capsules, each of which contains poses of features and their correlations. The encoded contents are then input into the downstream classifier to predict the categories of the images. Existing research mainly focuses on the security of capsule networks with dynamic routing or EM routing, and little attention has been given to the security and robustness of the SCAE. In this paper, we propose an evasion attack against the SCAE. After a perturbation is generated based on the output of the object capsules in the model, it is added to an image to reduce the contribution of the object capsules related to the original category of the image so that the perturbed image will be misclassified. We evaluate the attack using an image classification experiment, and the experimental results indicate that the attack can achieve high success rates and stealthiness. It confirms that the SCAE has a security vulnerability whereby it is possible to craft adversarial samples without changing the original structure of the image to fool the classifiers. We hope that our work will make the community aware of the threat of this attack and raise the attention given to the SCAE's security.
翻訳日:2022-10-07 14:31:51 公開日:2021-12-20
# 高次元データの人間解釈モデル説明可能性

Human-interpretable model explainability on high-dimensional data ( http://arxiv.org/abs/2010.07384v2 )

ライセンス: Link先を確認
Damien de Mijolla, Christopher Frye, Markus Kunesch, John Mansir, Ilya Feige(参考訳) ニューラルネットワークアーキテクチャとそれらがモデル化するデータの両方が複雑化するにつれて、機械学習における説明可能性の重要性が増し続けている。 モデルの入力特徴が高次元となると、特異な課題が発生する:一方、説明可能性に対する原則的モデルに依存しないアプローチは、計算コストが高すぎる;他方、より効率的な説明可能性アルゴリズムは、一般ユーザにとって自然な解釈を欠いている。 本稿では,2つのモジュールからなる高次元データに対して,人間解釈可能な説明可能性の枠組みを提案する。 まず、データの生次元を小さくし、人間の解釈可能性を確保するために、意味的に意味のある潜在表現を適用する。 これらの潜在機能は、例えば、画像から画像への変換によって明示的に、あるいは暗黙的に学習したり、あるいはユーザが選択した計算可能な量に基づいて学習することができる。 第2に、これらの潜在機能を操作するモデル非依存な説明に、shapleyパラダイムを適用します。 これは理論的に制御され、計算的に抽出可能な解釈可能なモデル説明につながる。 合成データに対するアプローチをベンチマークし,いくつかの画像分類タスクにおいてその効果を示す。

The importance of explainability in machine learning continues to grow, as both neural-network architectures and the data they model become increasingly complex. Unique challenges arise when a model's input features become high dimensional: on one hand, principled model-agnostic approaches to explainability become too computationally expensive; on the other, more efficient explainability algorithms lack natural interpretations for general users. In this work, we introduce a framework for human-interpretable explainability on high-dimensional data, consisting of two modules. First, we apply a semantically meaningful latent representation, both to reduce the raw dimensionality of the data, and to ensure its human interpretability. These latent features can be learnt, e.g. explicitly as disentangled representations or implicitly through image-to-image translation, or they can be based on any computable quantities the user chooses. Second, we adapt the Shapley paradigm for model-agnostic explainability to operate on these latent features. This leads to interpretable model explanations that are both theoretically controlled and computationally tractable. We benchmark our approach on synthetic data and demonstrate its effectiveness on several image-classification tasks.
翻訳日:2022-10-07 12:27:27 公開日:2021-12-20
# Ego2Hands: Egocentric Two-hand Segmentation and Detectionのためのデータセット

Ego2Hands: A Dataset for Egocentric Two-hand Segmentation and Detection ( http://arxiv.org/abs/2011.07252v4 )

ライセンス: Link先を確認
Fanqing Lin, Brian Price, Tony Martinez(参考訳) 真の制約のないRGBベースの設定でのハンドセグメンテーションと検出は多くのアプリケーションにとって重要である。 しかし、大量のセグメンテーションと検出データの手動アノテーションが実現できないため、既存のデータセットのサイズや多様性の観点からは十分ではない。 その結果、現在の方法は、制約された環境、一貫した肌の色、照明といった多くの前提によって制限される。 本研究では,RGBをベースとした大規模手分割・検出データセットであるEgo2Handsと,多量・多種多様なトレーニングデータを生成するカラー不変合成データ生成技術を提案する。 定量的分析のために,既存のベンチマークの量,多様性,アノテーションの精度を大幅に上回る評価セットを手作業でアノテートした。 我々は、データセットとデータ生成技術がドメイン適応を伴わずに、目に見えない環境に一般化できるモデルを作成することができることを示すため、Ego2Hands上での最先端モデルの性能に関するクロスデータセット評価と徹底的な分析を提供する。

Hand segmentation and detection in truly unconstrained RGB-based settings is important for many applications. However, existing datasets are far from sufficient in terms of size and variety due to the infeasibility of manual annotation of large amounts of segmentation and detection data. As a result, current methods are limited by many underlying assumptions such as constrained environment, consistent skin color and lighting. In this work, we present Ego2Hands, a large-scale RGB-based egocentric hand segmentation/detection dataset that is semi-automatically annotated and a color-invariant compositing-based data generation technique capable of creating training data with large quantity and variety. For quantitative analysis, we manually annotated an evaluation set that significantly exceeds existing benchmarks in quantity, diversity and annotation accuracy. We provide cross-dataset evaluation as well as thorough analysis on the performance of state-of-the-art models on Ego2Hands to show that our dataset and data generation technique can produce models that generalize to unseen environments without domain adaptation.
翻訳日:2022-09-25 13:36:23 公開日:2021-12-20
# (参考訳) FIFAランキング:評価と進路

FIFA ranking: Evaluation and path forward ( http://arxiv.org/abs/2201.00691v1 )

ライセンス: CC BY 4.0
Leszek Szczecinski and Iris-Ioana Roatis(参考訳) 本研究では,f\'ed\'eration internationale de football association (fifa) が使用するランキングアルゴリズムを調査し,現在使用しているパラメータを分析し,その導出可能な形式的確率モデルを示し,後者を最適化する。 特に、2018年のアルゴリズム導入以来のゲーム分析において、アルゴリズムで使用されるゲームの「importance」(fifaで定義されている)は、アルゴリズムの予測能力の観点からは非生産的であると結論づけた。 また、1970年に提案されたデービッドソンモデルが優れた候補となり、現在使われているアルゴリズムの形式を保存するという形式的モデリング原理に根ざしたアルゴリズムを仮定する。 その結果,ホームフィールド・アドバンテージとゲーム中のドローの明示的モデルを用いて,アルゴリズムの予測能力が顕著に向上していることが示唆された。 適度だが注目すべき改善は、公式なモデリング原理に根ざしていないが、現在のアルゴリズムと互換性があり、サッカー競技の特徴に合わせて調整できるゴール差によって結果の重み付けを導入することで達成される。

In this work we study the ranking algorithm used by F\'ed\'eration Internationale de Football Association (FIFA); we analyze the parameters it currently uses, show the formal probabilistic model from which it can be derived, and optimize the latter. In particular, analyzing the games since the introduction of the algorithm in 2018, we conclude that the game's "importance" (as defined by FIFA) used in the algorithm is counterproductive from the point of view of the predictive capability of the algorithm. We also postulate the algorithm to be rooted in the formal modelling principle, where the Davidson model proposed in 1970 seems to be an excellent candidate, preserving the form of the algorithm currently used. The results indicate that the predictive capability of the algorithm is notably improved by using the home-field advantage and the explicit model for the draws in the game. Moderate, but notable improvement may be attained by introducing the weighting of the results with the goal differential, which although not rooted in a formal modelling principle, is compatible with the current algorithm and can be tuned to the characteristics of the football competition.
翻訳日:2022-01-09 16:34:12 公開日:2021-12-20
# コミュニティプールによるtwitterのトピックモデリングの改善

Improved Topic modeling in Twitter through Community Pooling ( http://arxiv.org/abs/2201.00690v1 )

ライセンス: Link先を確認
Federico Albanese and Esteban Feuerstein(参考訳) ソーシャルネットワークは情報とニュースの伝播において基本的な役割を果たす。 メッセージの内容の特徴付けは、ニュースの速報検出、パーソナライズされたメッセージレコメンデーション、フェイクユーザ検出、情報フローキャラクタリゼーションなど、さまざまなタスクにおいて不可欠である。 しかし、twitterの投稿は他のテキスト文書よりも短く、一貫性が低いため、これらのデータセットにテキストマイニングアルゴリズムを効率的に適用することは困難である。 ツイートプーリング(より長いドキュメントにツイートを集約する)は、トピックの自動分解を改善することが示されているが、このタスクで達成されるパフォーマンスは、プーリング方法によって異なる。 本稿では,twitter におけるトピックモデリングのための新たなプール方式を提案する。この手法では,同一コミュニティ(主に相互に対話するが,他のグループとは関係のないユーザグループ)に属するツイートを,ユーザインタラクショングラフ上でグループ化する。 本稿では,クラスタ品質,文書検索タスクの性能,教師付き機械学習分類スコアなどの観点から,この手法の完全評価,技術スキームの現状,以前のプールモデルについて述べる。 その結果, コミュニティポーリング手法は, 2つの異種データセットのメトリクスの大多数において, 他の手法よりも優れており, 実行時間を短縮できることがわかった。 これは、大量のノイズと短いユーザ生成ソーシャルメディアテキストを扱う場合に有用である。 本研究の結果は,トピック分解モデルの基本機構を変更することなく,Twitterデータセット内の潜在トピックを識別する手法の改善に寄与する。

Social networks play a fundamental role in propagation of information and news. Characterizing the content of the messages becomes vital for different tasks, like breaking news detection, personalized message recommendation, fake users detection, information flow characterization and others. However, Twitter posts are short and often less coherent than other text documents, which makes it challenging to apply text mining algorithms to these datasets efficiently. Tweet-pooling (aggregating tweets into longer documents) has been shown to improve automatic topic decomposition, but the performance achieved in this task varies depending on the pooling method. In this paper, we propose a new pooling scheme for topic modeling in Twitter, which groups tweets whose authors belong to the same community (group of users who mainly interact with each other but not with other groups) on a user interaction graph. We present a complete evaluation of this methodology, state of the art schemes and previous pooling models in terms of the cluster quality, document retrieval tasks performance and supervised machine learning classification score. Results show that our Community polling method outperformed other methods on the majority of metrics in two heterogeneous datasets, while also reducing the running time. This is useful when dealing with big amounts of noisy and short user-generated social media texts. Overall, our findings contribute to an improved methodology for identifying the latent topics in a Twitter dataset, without the need of modifying the basic machinery of a topic decomposition model.
翻訳日:2022-01-09 13:27:28 公開日:2021-12-20
# (参考訳) 道路資産の予測保守計画のための深層強化学習モデル:LCCAとLCCAの統合

A deep reinforcement learning model for predictive maintenance planning of road assets: Integrating LCA and LCCA ( http://arxiv.org/abs/2112.12589v1 )

ライセンス: CC BY 4.0
Fateme Golivand Darvishvand, Moen Latifi(参考訳) 道路維持計画は道路資産管理の不可欠な部分である。 メンテナンスとリハビリテーション(M&R)のプラクティスにおける大きな課題のひとつは、メンテナンスのタイプとタイミングを決定することです。 本研究では,Long Term Pavement Performance (LTPP)データベースに基づく強化学習(RL)を用いて,M&R実践のタイプとタイミングを決定するフレームワークを提案する。 予測型DNNモデルは、RLアルゴリズムの環境として機能する提案アルゴリズムで最初に開発された。 RLモデルのポリシー推定には、DQNモデルとPPOモデルの両方が開発された。 しかし、PPOは、収束性の向上と試料効率の向上により最終的に選択されている。 本研究で用いた指標は国際粗度指数(IRI)とラッティング深さ(RD)である。 当初,3番目の指標として亀裂量(CM)を検討したが,他の指標に比べてデータが少ないため除外され,結果の精度が低下した。 さらに,費用対効果計算(リワード)においては,M&R処理の経済的および環境的影響を考察した。 コストと環境への影響はpaLATE 2.0ソフトウェアで評価されている。 本手法は,暖かく湿潤な気候のテキサスに23kmの長さの6車線の高速道路を想定したケーススタディで検証した。 その結果,道路条件が良好な条件域に留まる20年間のM&R計画が提案された。 道路の初期の状態は十分なサービスレベルにあるため、最初の数年間で大規模な保守作業は不要である。 その後、重度のM&R作用の後、治療の必要のない1~2年が経過する。 これらの全ては、提案された計画に論理的な結果があることを示している。 意思決定者や交通機関は、このスキームを利用して、予算の無駄を防止し、同時に環境への影響を最小限に抑える、より良いメンテナンスの実践を行うことができる。

Road maintenance planning is an integral part of road asset management. One of the main challenges in Maintenance and Rehabilitation (M&R) practices is to determine maintenance type and timing. This research proposes a framework using Reinforcement Learning (RL) based on the Long Term Pavement Performance (LTPP) database to determine the type and timing of M&R practices. A predictive DNN model is first developed in the proposed algorithm, which serves as the Environment for the RL algorithm. For the Policy estimation of the RL model, both DQN and PPO models are developed. However, PPO has been selected in the end due to better convergence and higher sample efficiency. Indicators used in this study are International Roughness Index (IRI) and Rutting Depth (RD). Initially, we considered Cracking Metric (CM) as the third indicator, but it was then excluded due to the much fewer data compared to other indicators, which resulted in lower accuracy of the results. Furthermore, in cost-effectiveness calculation (reward), we considered both the economic and environmental impacts of M&R treatments. Costs and environmental impacts have been evaluated with paLATE 2.0 software. Our method is tested on a hypothetical case study of a six-lane highway with 23 kilometers length located in Texas, which has a warm and wet climate. The results propose a 20-year M&R plan in which road condition remains in an excellent condition range. Because the early state of the road is at a good level of service, there is no need for heavy maintenance practices in the first years. Later, after heavy M&R actions, there are several 1-2 years of no need for treatments. All of these show that the proposed plan has a logical result. Decision-makers and transportation agencies can use this scheme to conduct better maintenance practices that can prevent budget waste and, at the same time, minimize the environmental impacts.
翻訳日:2021-12-25 06:08:38 公開日:2021-12-20
# calabi-yauメトリクス、エネルギー機能、機械学習

Calabi-Yau Metrics, Energy Functionals and Machine-Learning ( http://arxiv.org/abs/2112.10872v1 )

ライセンス: Link先を確認
Anthony Ashmore, Lucille Calmon, Yang-Hui He, Burt A. Ovrut(参考訳) 数値カラビ・ヤウ測度を求める問題に対して機械学習を適用した。 我々は,donaldsonのアルゴリズムを用いて計算した近似リッチフラットメトリックスを,headrickとnassarのより正確な"最適"メトリックスに拡張した。 機械学習は、少数のトレーニングデータのサンプルしか見ていないカラビ・ヤウ計量のK\'ahlerポテンシャルを予測することができることを示す。

We apply machine learning to the problem of finding numerical Calabi-Yau metrics. We extend previous work on learning approximate Ricci-flat metrics calculated using Donaldson's algorithm to the much more accurate "optimal" metrics of Headrick and Nassar. We show that machine learning is able to predict the K\"ahler potential of a Calabi-Yau metric having seen only a small sample of training data.
翻訳日:2021-12-24 16:23:07 公開日:2021-12-20
# マルチUAV経路計画のための注意に基づくコミュニケーションと制御

Attention Based Communication and Control for Multi-UAV Path Planning ( http://arxiv.org/abs/2112.12584v1 )

ライセンス: Link先を確認
Hamid Shiri and Hyowoon Seo and Jihong Park and Mehdi Bennis(参考訳) 自然言語処理におけるマルチヘッドアテンション(MHA)機構に着想を得て,多UAV経路計画のための反復的単一ヘッドアテンション(ISHA)機構を提案する。 ISHA機構は、UAVの状態埋め込みを収集し、各UAVに注目スコアベクトルを分散する通信ヘルパによって実行される。 ISHAが計算した注目スコアは、各UAVの制御決定において、他のUAVとの相互作用が考慮されるべき数を特定する。 シミュレーションの結果、ISHAベースの通信制御フレームワークは、特に限られた通信資源下でのMHA支援ベースラインよりも、UAV間の衝突リスクの低い高速走行を実現する。

Inspired by the multi-head attention (MHA) mechanism in natural language processing, this letter proposes an iterative single-head attention (ISHA) mechanism for multi-UAV path planning. The ISHA mechanism is run by a communication helper collecting the state embeddings of UAVs and distributing an attention score vector to each UAV. The attention scores computed by ISHA identify how many interactions with other UAVs should be considered in each UAV's control decision-making. Simulation results corroborate that the ISHA-based communication and control framework achieves faster travel with lower inter-UAV collision risks than an MHA-aided baseline, particularly under limited communication resources.
翻訳日:2021-12-24 16:20:24 公開日:2021-12-20
# テストケース多様性によるディープニューラルネットワークのブラックボックステスト

Black-Box Testing of Deep Neural Networks through Test Case Diversity ( http://arxiv.org/abs/2112.12591v1 )

ライセンス: Link先を確認
Zohreh Aghababaeyan, Manel Abdellatif, Lionel Briand, Ramesh S, and Mojtaba Bagherzadeh(参考訳) ディープニューラルネットワーク(DNN)は、画像処理、医療診断、自動運転など、多くの分野で広く利用されている。 しかし、DNNは、特に安全クリティカルシステムで使用される場合、重大なエラーを引き起こす可能性のある誤動作を示す可能性がある。 従来のソフトウェアシステムのテスト技術に触発されて、研究者はDNNモデルのテストのガイドとして、ソースコードカバレッジに類似したニューロンカバレッジ基準を提案した。 DNNのカバレッジに関する非常に活発な研究にもかかわらず、近年のいくつかの研究は、DNNテストの指針となる基準の有用性を疑問視している。 さらに、現実的な観点からは、これらの基準は、DNNモデルの内部や訓練データへのアクセスを必要とするため、ホワイトボックスである。 本稿では,ホワイトボックスのカバレッジ基準に代わるブラックボックス入力の多様性指標について検討する。 この目的のために,我々はまず3つの多様性指標を選択・適応し,入力セットの実際の多様性を計測する能力について検討する。 次に,2つのデータセットと3つのDNNモデルを用いて,断層検出の統計的関連を分析する。 さらに多様性を最先端のホワイトボックスカバレッジ基準と比較する。 実験の結果,テスト入力セットに埋め込まれた画像特徴の多様性に依存することは,DNNの検査を効果的に導くためのカバレッジ基準よりも信頼性の高い指標であることが示唆された。 実際、我々の選択したブラックボックスの多様性指標の1つは、フォールトリーベイリング能力や計算時間の観点から、既存のカバレッジ基準よりもはるかに優れています。 結果、最先端のカバレッジメトリクスは、自然入力で可能な限り多くの障害を検出するテスト入力セットの構築を導くのに不十分である、という疑念も確認できた。

Deep Neural Networks (DNNs) have been extensively used in many areas including image processing, medical diagnostics, and autonomous driving. However, DNNs can exhibit erroneous behaviours that may lead to critical errors, especially when used in safety-critical systems. Inspired by testing techniques for traditional software systems, researchers have proposed neuron coverage criteria, as an analogy to source code coverage, to guide the testing of DNN models. Despite very active research on DNN coverage, several recent studies have questioned the usefulness of such criteria in guiding DNN testing. Further, from a practical standpoint, these criteria are white-box as they require access to the internals or training data of DNN models, which is in many contexts not feasible or convenient. In this paper, we investigate black-box input diversity metrics as an alternative to white-box coverage criteria. To this end, we first select and adapt three diversity metrics and study, in a controlled manner, their capacity to measure actual diversity in input sets. We then analyse their statistical association with fault detection using two datasets and three DNN models. We further compare diversity with state-of-the-art white-box coverage criteria. Our experiments show that relying on the diversity of image features embedded in test input sets is a more reliable indicator than coverage criteria to effectively guide the testing of DNNs. Indeed, we found that one of our selected black-box diversity metrics far outperforms existing coverage criteria in terms of fault-revealing capability and computational time. Results also confirm the suspicions that state-of-the-art coverage metrics are not adequate to guide the construction of test input sets to detect as many faults as possible with natural inputs.
翻訳日:2021-12-24 14:58:08 公開日:2021-12-20
# 適応型雑音共分散行列推定法とフィルタリング法:マルチオブジェクト追跡への応用

A New Adaptive Noise Covariance Matrices Estimation and Filtering Method: Application to Multi-Object Tracking ( http://arxiv.org/abs/2112.12082v1 )

ライセンス: Link先を確認
Chao Jiang, Zhiling Wang, Shuhang Tan, and Huawei Liang(参考訳) カルマンフィルタは物体追跡に広く使われており、一般にプロセスと測定ノイズは正確に知られ、一定であると考えられている。 しかし、正確な既知かつ定常的な仮定が常に成り立つとは限らない。 例えば、ライダーを用いて非協調目標を追跡する場合、測定ノイズは異なる距離と気象条件下で異なる。 また、特に追跡対象が歩行者である場合には、プロセスノイズが物体の運動状態とともに変化し、プロセスノイズがより頻繁に変化する。 本稿では,カルマンフィルタ法と測定ノイズ共分散行列をオンライン上で推定するための新しい推定・校正閉ループ推定法を提案する。 まず、ノイズ共分散行列を要素分布行列と雑音強度に分解し、Sageフィルタを改善して要素分布行列を推定する。 第2に,ノイズ強度偏差を正確に診断するキャリブレーション手法を提案する。 次に,オンラインの雑音強度を適応的に補正する手法を提案する。 第三に、システムが検出可能であると仮定すると、提案手法の偏りや収束が数学的に証明される。 シミュレーションの結果,提案手法の有効性と信頼性が示された。 最後に,提案手法をライダーの多目的追跡に適用し,それを公式のKITTIサーバ上で評価する。 kitti pedestrian multiobject tracking leaderboard (http://www.cvlibs.net/datasets /kitti/eval_tracking.php) で提案された手法はlidarを使用する既存の手法を全て上回っており、実際にこの手法が実現可能であることを証明している。 この作業は、Kalmanフィルタとマルチオブジェクトトラッキングのパフォーマンスを改善する新しい方法を提供する。

Kalman filters are widely used for object tracking, where process and measurement noise are usually considered accurately known and constant. However, the exact known and constant assumptions do not always hold in practice. For example, when lidar is used to track noncooperative targets, the measurement noise is different under different distances and weather conditions. In addition, the process noise changes with the object's motion state, especially when the tracking object is a pedestrian, and the process noise changes more frequently. This paper proposes a new estimation-calibration-correction closed-loop estimation method to estimate the Kalman filter process and measurement noise covariance matrices online. First, we decompose the noise covariance matrix into an element distribution matrix and noise intensity and improve the Sage filter to estimate the element distribution matrix. Second, we propose a calibration method to accurately diagnose the noise intensity deviation. We then propose a correct method to adaptively correct the noise intensity online. Third, under the assumption that the system is detectable, the unbiased and convergence of the proposed method is mathematically proven. Simulation results prove the effectiveness and reliability of the proposed method. Finally, we apply the proposed method to multiobject tracking of lidar and evaluate it on the official KITTI server. The proposed method on the KITTI pedestrian multiobject tracking leaderboard (http://www.cvlibs.net/datasets /kitti/eval_tracking.php) surpasses all existing methods using lidar, proving the feasibility of the method in practical applications. This work provides a new way to improve the performance of the Kalman filter and multiobject tracking.
翻訳日:2021-12-23 15:41:06 公開日:2021-12-20
# 変分量子ソフトアクター臨界

Variational Quantum Soft Actor-Critic ( http://arxiv.org/abs/2112.11921v1 )

ライセンス: Link先を確認
Qingfeng Lan(参考訳) 量子コンピューティングは整数分解やサイモンの問題といった特定の問題に対処する上で優位である。 機械学習におけるより一般的なタスクとして、変分量子回路を適用することで、特に教師なし学習や教師なし学習において、近年ますます多くの量子アルゴリズムが提案されている。 しかし、強化学習において、より重要で挑戦的な作業はほとんど行われていない。 量子強化学習における以前の研究は主に、アクション空間が離散的である離散制御タスクに焦点を当てている。 本研究では,連続制御のための最先端手法の一つであるソフトアクター批判に基づく量子強化学習アルゴリズムを開発する。 具体的には、変動量子回路と古典的人工ニューラルネットワークからなるハイブリッド量子古典政策ネットワークを用いる。 標準強化学習ベンチマークでテストした結果、このソフトアクタ-クリティックの量子バージョンは、調整可能なパラメータをはるかに少なくして、オリジナルのソフトアクタ-クリティックに匹敵することが示された。 さらに,量子強化学習におけるアーキテクチャ設計の重要性を指摘し,異なるハイパーパラメータとポリシーネットワークアーキテクチャの効果を分析した。

Quantum computing has a superior advantage in tackling specific problems, such as integer factorization and Simon's problem. For more general tasks in machine learning, by applying variational quantum circuits, more and more quantum algorithms have been proposed recently, especially in supervised learning and unsupervised learning. However, little work has been done in reinforcement learning, arguably more important and challenging. Previous work in quantum reinforcement learning mainly focuses on discrete control tasks where the action space is discrete. In this work, we develop a quantum reinforcement learning algorithm based on soft actor-critic -- one of the state-of-the-art methods for continuous control. Specifically, we use a hybrid quantum-classical policy network consisting of a variational quantum circuit and a classical artificial neural network. Tested in a standard reinforcement learning benchmark, we show that this quantum version of soft actor-critic is comparable with the original soft actor-critic, using much less adjustable parameters. Furthermore, we analyze the effect of different hyper-parameters and policy network architectures, pointing out the importance of architecture design for quantum reinforcement learning.
翻訳日:2021-12-23 15:09:59 公開日:2021-12-20
# 機械学習を用いた観察的研究による治療効果の予測:シミュレーションによる検討

Predicting treatment effects from observational studies using machine learning methods: A simulation study ( http://arxiv.org/abs/2112.12083v1 )

ライセンス: Link先を確認
Bevan I. Smith and Charles Chimedza(参考訳) 観察研究における治療効果の測定は, 偏りが原因で困難である。 相違は、ある変数が治療と結果の両方に影響を及ぼすときに起こる。 コンディショニングによって治療効果を推定するプロペンシティスコアマッチングのような伝統的な方法。 近年の文献では、機械学習を用いて観察研究の反事実を予測し、治療効果を推定する手法が提案されている。 しかしこれらの研究は、真の治療効果が知られていない実世界データに適用されている。 本研究は,2つの主要なシナリオを共起することなくシミュレーションし,本手法の有効性を検討することを目的とした。 各タイプには、入力データと出力データの間の線形および非線形関係も含まれていた。 シミュレーションの重要項目は、既知の真の因果効果を生成したことです。 リニア回帰,ラッソ回帰,ランダム森林モデルを用いて,対策効果と治療効果を予測した。 これらの結果から, 真の治療効果とナイーブな治療効果を比較した。 その結果、この機械学習手法が有効であるかどうかの最も重要な要因は、データの非線形性の度合いであることがわかった。 驚くべきことに、非確立の \textit{and} コンファウンディングでは、マシンラーニングモデルはすべて、線形データセット上でうまく動作します。 しかし、非線形性が導入されると、モデルは非常に性能が悪かった。 したがって, このシミュレーション研究の条件下では, 共起が存在する場合でも, 線形性の条件下では機械学習手法が良好に機能するが, この段階では非線形性を導入しても信頼できない。

Measuring treatment effects in observational studies is challenging because of confounding bias. Confounding occurs when a variable affects both the treatment and the outcome. Traditional methods such as propensity score matching estimate treatment effects by conditioning on the confounders. Recent literature has presented new methods that use machine learning to predict the counterfactuals in observational studies which then allow for estimating treatment effects. These studies however, have been applied to real world data where the true treatment effects have not been known. This study aimed to study the effectiveness of this counterfactual prediction method by simulating two main scenarios: with and without confounding. Each type also included linear and non-linear relationships between input and output data. The key item in the simulations was that we generated known true causal effects. Linear regression, lasso regression and random forest models were used to predict the counterfactuals and treatment effects. These were compared these with the true treatment effect as well as a naive treatment effect. The results show that the most important factor in whether this machine learning method performs well, is the degree of non-linearity in the data. Surprisingly, for both non-confounding \textit{and} confounding, the machine learning models all performed well on the linear dataset. However, when non-linearity was introduced, the models performed very poorly. Therefore under the conditions of this simulation study, the machine learning method performs well under conditions of linearity, even if confounding is present, but at this stage should not be trusted when non-linearity is introduced.
翻訳日:2021-12-23 15:09:20 公開日:2021-12-20
# (参考訳) 深層ニューラルネットワークを用いたホログラフィック情報隠蔽における埋め込みホログラムの画質向上

Image quality enhancement of embedded holograms in holographic information hiding using deep neural networks ( http://arxiv.org/abs/2112.11246v1 )

ライセンス: CC BY 4.0
Tomoyoshi Shimobaba and Sota Oshima and Takashi Kakue and and Tomoyoshi Ito(参考訳) ホログラム情報隠蔽はホログラムや画像を別のホログラムに埋め込む技術であり、ホログラムの著作権保護とステガノグラフィーに用いられる。 ディープニューラルネットワークを用いて、埋め込みホログラムの視覚的品質を改善する方法を提供する。 埋め込みホログラムの明るさはホストホログラムの明るさの分数に設定され、ホストホログラムの再構成画像はほとんど損傷しない。 しかし, ホログラムの再構成画像は再構成されたホスト画像よりも暗いため, 知覚が難しい。 本研究では,深層ニューラルネットワークを用いて暗画像の復元を行う。

Holographic information hiding is a technique for embedding holograms or images into another hologram, used for copyright protection and steganography of holograms. Using deep neural networks, we offer a way to improve the visual quality of embedded holograms. The brightness of an embedded hologram is set to a fraction of that of the host hologram, resulting in a barely damaged reconstructed image of the host hologram. However, it is difficult to perceive because the embedded hologram's reconstructed image is darker than the reconstructed host image. In this study, we use deep neural networks to restore the darkened image.
翻訳日:2021-12-23 02:17:57 公開日:2021-12-20
# (参考訳) RetroComposer: 再合成予測のためのテンプレートによる新しい反応の発見

RetroComposer: Discovering Novel Reactions by Composing Templates for Retrosynthesis Prediction ( http://arxiv.org/abs/2112.11225v1 )

ライセンス: CC BY 4.0
Chaochao Yan, Peilin Zhao, Chan Lu, Yang Yu, Junzhou Huang(参考訳) レトロ合成の主目的は、所望の分子を利用可能な構成要素に再帰的に分解することである。 既存のテンプレートベースの逆合成法は、テンプレート選択ステレオタイプに従い、限られたトレーニングテンプレートに悩まされ、新しい反応を発見するのを妨げている。 この限界を克服するため,我々は,新しいテンプレートを訓練テンプレートを超えて構成できる,革新的なレトロシンセシス予測フレームワークを提案する。 われわれが知る限りでは、これはレトロシンセシス予測のための新しいテンプレートを見つける最初の方法である。 さらに,原子レベルの変換情報をキャプチャ可能な効果的な反応候補スコアリングモデルを提案する。 実験結果から,USPTO-50Kデータセットでは,トレーニングテンプレートでカバーされていない21の試験反応を含む328の試験反応に対して,新しいテンプレートを作成できることが示唆された。

The main target of retrosynthesis is to recursively decompose desired molecules into available building blocks. Existing template-based retrosynthesis methods follow a template selection stereotype and suffer from the limited training templates, which prevents them from discovering novel reactions. To overcome the limitation, we propose an innovative retrosynthesis prediction framework that can compose novel templates beyond training templates. So far as we know, this is the first method that can find novel templates for retrosynthesis prediction. Besides, we propose an effective reactant candidates scoring model that can capture atom-level transformation information, and it helps our method outperform existing methods by a large margin. Experimental results show that our method can produce novel templates for 328 test reactions in the USPTO-50K dataset, including 21 test reactions that are not covered by the training templates.
翻訳日:2021-12-23 02:12:37 公開日:2021-12-20
# (参考訳) 投影スライスwasersteinオートエンコーダに基づくハイパースペクトル画像異常検出

Projected Sliced Wasserstein Autoencoder-based Hyperspectral Images Anomaly Detection ( http://arxiv.org/abs/2112.11243v1 )

ライセンス: CC BY 4.0
Yurong Chen, Hui Zhang, Yaonan Wang, Q. M. Jonathan Wu, Yimin Yang(参考訳) 異常検出とは、様々な領域で活発な研究領域である正常なパターンから逸脱した観察を識別することである。 近年,データスケール,複雑性,次元の増大により,従来の表現や統計に基づく異常検出手法が困難になってきている。 本稿では,ハイパースペクトル画像の異常検出における生成モデルを活用する。 gistは正規データの分布をモデル化し、out-of-distributionサンプルはoutlierと見なすことができる。 まず,変分推論に基づく異常検出手法について検討した。 理論上、経験的には、それらは正則化として働く距離(f$-divergence)という強い概念のために不安定である。 次に,f-divergenceよりも弱い分布尺度であるsliced wasserstein distanceについて述べる。 しかし、ランダムにスライスする回数は真の距離を推定することが困難である。 最後に,投影スライスされたwasserstein (psw) オートエンコーダに基づく異常スクリーニング法を提案する。 特に, 計算フレンドリな固有分解法を用いて, 主成分を高次元データのスライスとして求める。 さらに,提案する距離は閉形式で計算できるが,事前分布はガウス分布ではない。 種々の実世界のハイパースペクトル異常検出ベンチマークで実施した総合実験は,提案手法の優れた性能を示す。

Anomaly detection refers to identifying the observation that deviates from the normal pattern, which has been an active research area in various domains. Recently, the increasing data scale, complexity, and dimension turns the traditional representation and statistical-based outlier detection method into challenging. In this paper, we leverage the generative model in hyperspectral images anomaly detection. The gist is to model the distribution of the normal data, while the out-of-distribution sample can be viewed as the outlier. At first, the variational inference-based anomaly detection methods are investigated. We theoretically and empirically find that they are unstable due to the strong notion of distance ($f$-divergence) served as the regularization. Secondly, this paper introduces sliced Wasserstein distance, which is a weaker distribution measure compared with f-divergence. However, the number of randomly slicing poses a difficulty to estimate the true distance. In the end, we propose a projected sliced Wasserstein (PSW) autoencoder-based anomaly screening method. In particular, we leverage a computation-friendly eigen-decomposition method to find the principal component as slicing the high-dimensional data. Furthermore, our proposed distance can be calculated with the closed-form, even the prior distribution is not Gaussian. Comprehensive experiments conducted on various real-world hyperspectral anomaly detection benchmarks demonstrate the superior performance of our proposed method.
翻訳日:2021-12-23 01:59:40 公開日:2021-12-20
# (参考訳) マルチスペクトルイメージングに基づく粉粒度認識のための教師なし深層学習技術

Unsupervised deep learning techniques for powdery mildew recognition based on multispectral imaging ( http://arxiv.org/abs/2112.11242v1 )

ライセンス: CC BY 4.0
Alessandro Benfenati, Paola Causin, Roberto Oberti, Giovanni Stefanello(参考訳) 目的。 植物病の持続可能な管理は、経済的および環境的な影響をもたらすオープンチャレンジである。 最適な戦略は、現在の疾患症状の存在と程度を評価するのに好都合な条件下でのフィールドスカウトの人間的専門知識に依存している。 この労働集約的な作業は、スカウトすべき大野面積と、検出すべき早期症状のミリスケールの大きさとで複雑である。 これを踏まえて、画像による早期疾患の症状の検出は、このプロセスを自動化するための魅力的なアプローチであり、持続可能なコストで高いスループットの監視を可能にする。 メソッド。 さまざまな領域でディープラーニングが適用され、トレーニング手順を通じてフィルタを学習することにより、関連する画像特徴の自動選択が可能になる。 深層学習(Deep learning)は、植物病検出の分野にも最近参入した:このアイデアに続いて、この研究では、キュウリの葉に粉末状のミズーリを自動的に認識するディープラーニングアプローチを提案する。 本研究では,マルチスペクトルイメージングデータに適用する教師なし深層学習技術に着目し,オートエンコーダを用いた2つの疾患検出手法を提案する。 一 圧縮空間における特徴のクラスタ化 二 異常検出 結果だ 提案する2つのアプローチは定量的指標によって評価されている。 クラスタ化アプローチは、正確な予測を提供するためにそれ自体が完全には機能しないが、関連する情報を扱う。 異常検出は、非常に限られたラベル付きサンプルを持つ教師付きアーキテクチャの先行として、さらに活用される可能性がある。

Objectives. Sustainable management of plant diseases is an open challenge which has relevant economic and environmental impact. Optimal strategies rely on human expertise for field scouting under favourable conditions to assess the current presence and extent of disease symptoms. This labor-intensive task is complicated by the large field area to be scouted, combined with the millimeter-scale size of the early symptoms to be detected. In view of this, image-based detection of early disease symptoms is an attractive approach to automate this process, enabling a potential high throughput monitoring at sustainable costs. Methods. Deep learning has been successfully applied in various domains to obtain an automatic selection of the relevant image features by learning filters via a training procedure. Deep learning has recently entered also the domain of plant disease detection: following this idea, in this work we present a deep learning approach to automatically recognize powdery mildew on cucumber leaves. We focus on unsupervised deep learning techniques applied to multispectral imaging data and we propose the use of autoencoder architectures to investigate two strategies for disease detection: i) clusterization of features in a compressed space; ii) anomaly detection. Results. The two proposed approaches have been assessed by quantitative indices. The clusterization approach is not fully capable by itself to provide accurate predictions but it does cater relevant information. Anomaly detection has instead a significant potential of resolution which could be further exploited as a prior for supervised architectures with a very limited number of labeled samples.
翻訳日:2021-12-23 01:35:39 公開日:2021-12-20
# (参考訳) Forward Propagation Through Timeによる動的スパイクニューラルネットワークの正確なオンライントレーニング

Accurate online training of dynamical spiking neural networks through Forward Propagation Through Time ( http://arxiv.org/abs/2112.11231v1 )

ライセンス: CC BY 4.0
Bojian Yin, Federico Corradi, Sander M. Bohte(参考訳) 脳内のスパイクニューロン間の通信のイベント駆動的かつ疎結合性は、柔軟性とエネルギー効率のよいAIを大いに約束する。 近年の学習アルゴリズムの進歩により、スパイキングニューロンのリカレントネットワークは、標準のリカレントニューラルネットワークと比較して競合性能を達成するために効果的に訓練可能であることが示されている。 それでも、これらの学習アルゴリズムは時間によるエラーバックプロパゲーション(BPTT)を使用するため、高いメモリ要求に悩まされ、トレーニングが遅く、オンライン学習と互換性がない。 これにより、これらの学習アルゴリズムの比較的小さなネットワークや時間的シーケンス長への適用が制限される。 計算量やメモリの複雑さが低いbpttへのオンライン近似(e-prop, ostl)が提案されているが、実際にはメモリの制限や近似として標準的なbpttトレーニングを上回らない。 本稿では、最近開発されたBPTTの代替として、FPTT(Forward Propagation Through Time)をスパイクニューラルネットワークに適用する方法を示す。 BPTTとは異なり、FPTTは損失に対する動的に規則化されたリスクを最小化しようとする。 その結果、FPTTはオンライン形式で計算でき、シーケンス長に関して一定の複雑性を持つ。 新たな動的スパイクニューロンモデルであるLiquid-Time-Constantneurnと組み合わせることで、FPTTで訓練されたSNNがオンラインBPTT近似より優れ、時間的分類タスクにおいてオフラインBPTT精度に近づいたり、超えたりすることを示す。 このアプローチにより、長いシーケンスでSNNをメモリフレンドリーなオンラインスタイルでトレーニングし、新しい複雑なニューラルネットワークアーキテクチャにSNNをスケールアップすることが可能になる。

The event-driven and sparse nature of communication between spiking neurons in the brain holds great promise for flexible and energy-efficient AI. Recent advances in learning algorithms have demonstrated that recurrent networks of spiking neurons can be effectively trained to achieve competitive performance compared to standard recurrent neural networks. Still, as these learning algorithms use error-backpropagation through time (BPTT), they suffer from high memory requirements, are slow to train, and are incompatible with online learning. This limits the application of these learning algorithms to relatively small networks and to limited temporal sequence lengths. Online approximations to BPTT with lower computational and memory complexity have been proposed (e-prop, OSTL), but in practice also suffer from memory limitations and, as approximations, do not outperform standard BPTT training. Here, we show how a recently developed alternative to BPTT, Forward Propagation Through Time (FPTT) can be applied in spiking neural networks. Different from BPTT, FPTT attempts to minimize an ongoing dynamically regularized risk on the loss. As a result, FPTT can be computed in an online fashion and has fixed complexity with respect to the sequence length. When combined with a novel dynamic spiking neuron model, the Liquid-Time-Constant neuron, we show that SNNs trained with FPTT outperform online BPTT approximations, and approach or exceed offline BPTT accuracy on temporal classification tasks. This approach thus makes it feasible to train SNNs in a memory-friendly online fashion on long sequences and scale up SNNs to novel and complex neural architectures.
翻訳日:2021-12-23 01:21:46 公開日:2021-12-20
# (参考訳) 電子健康記録におけるループス腎炎表現型同定のための自然言語処理

Natural language processing to identify lupus nephritis phenotype in electronic health records ( http://arxiv.org/abs/2112.10821v1 )

ライセンス: CC BY 4.0
Yu Deng, Jennifer A. Pacheco, Anh Chung, Chengsheng Mao, Joshua C. Smith, Juan Zhao, Wei-Qi Wei, April Barnado, Chunhua Weng, Cong Liu, Adam Cordon, Jingzhi Yu, Yacob Tedla, Abel Kho, Rosalind Ramsey-Goldman, Theresa Walunas, Yuan Luo(参考訳) 全身性エリテマトーデス(systemic lupus erythematosus、sle)は、予測不能なフレアと寛解を特徴とする稀な自己免疫疾患である。 ループス腎炎は, 臓器損傷と死亡に対するSLEの主要な疾患の1つであり, ループス分類基準の重要な構成要素である。 したがって、電子健康記録(EHR)におけるループス腎炎の正確な同定は、患者集団の特徴が採用、設計、分析に欠かせない大規模なコホート観察研究や臨床試験に有用である。 ループス腎炎は、手順コードや検査などの構造化データを通じて認識することができる。 しかし、腎臓生検の病理報告や以前の医学史物語など、ループス腎炎を文書化する他の重要な情報は、病理報告や臨床記録から情報を発掘するために高度なテキスト処理を必要とする。 本研究では,EHRデータを用いた自然言語処理(NLP)によりループス腎炎を同定するアルゴリズムを開発した。 構造化データ(ベースラインアルゴリズム)のみを用いたルールベースアルゴリズムと,異なるNLPモデルを用いた3つのアルゴリズムを開発した。 3つのNLPモデルは、正規化ロジスティック回帰に基づいており、概念固有の識別子(CUI)の肯定的な言及、CUIの出現数、それぞれ3つのコンポーネントの混合など、さまざまな特徴セットを使用している。 ベースラインアルゴリズムと最も優れたNLPアルゴリズムはヴァンダービルト大学医療センター(VUMC)のデータセットで検証された。 NMEDW (0.41 vs 0.79) と VUMC (0.62 vs 0.96) の両方のデータセットにおいて, 構造データ, 正規表現概念, マップ化されたCUIの両特徴を取り入れたNLPモデルを改良した。

Systemic lupus erythematosus (SLE) is a rare autoimmune disorder characterized by an unpredictable course of flares and remission with diverse manifestations. Lupus nephritis, one of the major disease manifestations of SLE for organ damage and mortality, is a key component of lupus classification criteria. Accurately identifying lupus nephritis in electronic health records (EHRs) would therefore benefit large cohort observational studies and clinical trials where characterization of the patient population is critical for recruitment, study design, and analysis. Lupus nephritis can be recognized through procedure codes and structured data, such as laboratory tests. However, other critical information documenting lupus nephritis, such as histologic reports from kidney biopsies and prior medical history narratives, require sophisticated text processing to mine information from pathology reports and clinical notes. In this study, we developed algorithms to identify lupus nephritis with and without natural language processing (NLP) using EHR data. We developed four algorithms: a rule-based algorithm using only structured data (baseline algorithm) and three algorithms using different NLP models. The three NLP models are based on regularized logistic regression and use different sets of features including positive mention of concept unique identifiers (CUIs), number of appearances of CUIs, and a mixture of three components respectively. The baseline algorithm and the best performed NLP algorithm were external validated on a dataset from Vanderbilt University Medical Center (VUMC). Our best performing NLP model incorporating features from both structured data, regular expression concepts, and mapped CUIs improved F measure in both the NMEDW (0.41 vs 0.79) and VUMC (0.62 vs 0.96) datasets compared to the baseline lupus nephritis algorithm.
翻訳日:2021-12-23 01:05:29 公開日:2021-12-20
# (参考訳) 一般合成ゼロショット学習のための翻訳概念埋め込み

Translational Concept Embedding for Generalized Compositional Zero-shot Learning ( http://arxiv.org/abs/2112.10871v1 )

ライセンス: CC BY 4.0
He Huang, Wei Tang, Jiawei Zhang, Philip S. Yu(参考訳) 一般化された構成的ゼロショット学習とは、属性とオブジェクトのペアの合成概念をゼロショット形式で学習することであり、そこではモデルは見られている概念のセットで訓練され、見られている概念と見えない概念の組み合わせでテストされる。 このタスクは、目に見えない概念と見えない概念のギャップだけでなく、属性とオブジェクト間のコンテキスト依存性のため、非常に難しい。 本稿では,この2つの課題を解決するために,翻訳概念埋め込みという新しい手法を提案する。 オブジェクトに属性を適用することで、オブジェクトプロトタイプに翻訳属性機能を追加する効果をモデル化する。 属性とオブジェクト間のコンテキスト依存性を明示的に考慮し、オブジェクトプロトタイプに依存した翻訳属性の特徴を生成する。 さらに,不確定概念に対するモデルの一般化能力を促進するために,比分散制約損失を設計する。 学習済みの単語埋め込みから知識を活用し、概念間の距離を定式化する。 我々は、偏見のない概念分類タスクと偏見のない概念分類タスクの両方の下で、モデルの性能を評価し、このモデルが見えない概念を予測できることを示す。

Generalized compositional zero-shot learning means to learn composed concepts of attribute-object pairs in a zero-shot fashion, where a model is trained on a set of seen concepts and tested on a combined set of seen and unseen concepts. This task is very challenging because of not only the gap between seen and unseen concepts but also the contextual dependency between attributes and objects. This paper introduces a new approach, termed translational concept embedding, to solve these two difficulties in a unified framework. It models the effect of applying an attribute to an object as adding a translational attribute feature to an object prototype. We explicitly take into account of the contextual dependency between attributes and objects by generating translational attribute features conditionally dependent on the object prototypes. Furthermore, we design a ratio variance constraint loss to promote the model's generalization ability on unseen concepts. It regularizes the distances between concepts by utilizing knowledge from their pretrained word embeddings. We evaluate the performance of our model under both the unbiased and biased concept classification tasks, and show that our model is able to achieve good balance in predicting unseen and seen concepts.
翻訳日:2021-12-23 00:55:56 公開日:2021-12-20
# (参考訳) 超ネットワーク自動生成によるNASの実現

Enabling NAS with Automated Super-Network Generation ( http://arxiv.org/abs/2112.10878v1 )

ライセンス: CC BY 4.0
J. Pablo Mu\~noz, Nikolay Lyalyushkin, Yash Akhauri, Anastasia Senina, Alexander Kozlov, Nilesh Jain(参考訳) 最近のneural architecture search (nas)ソリューションは、スーパーネットワークをトレーニングし、事前定義された検索空間から専門家が作り出したモデルを上回るサブネットワークを導出する印象的な結果を生み出している。 効率的でロバストなサブネットワークは、リソース制約のあるエッジデバイスで選択可能で、ワイルドでうまく動作します。 しかし、任意のアーキテクチャのためにスーパーネットワークを構築することは、これらのアプローチの採用を妨げることがしばしばある課題である。 そこで本研究では,nas用スーパーネットワークの自動生成のためのソフトウェアフレームワークbootstrapnasを提案する。 bootstrapnasは、resnet-50のような一般的なアーキテクチャから、あるいは有効なカスタム設計から事前トレーニングされたモデルを取得し、自動的にスーパーネットワークを生成し、最先端のnas技術を使用してスーパーネットワークをトレーニングする。 任意のモデルリポジトリからスーパーネットワークを生成して,結果の再現性を実現することで,そのソリューションを実証する。

Recent Neural Architecture Search (NAS) solutions have produced impressive results training super-networks and then deriving subnetworks, a.k.a. child models that outperform expert-crafted models from a pre-defined search space. Efficient and robust subnetworks can be selected for resource-constrained edge devices, allowing them to perform well in the wild. However, constructing super-networks for arbitrary architectures is still a challenge that often prevents the adoption of these approaches. To address this challenge, we present BootstrapNAS, a software framework for automatic generation of super-networks for NAS. BootstrapNAS takes a pre-trained model from a popular architecture, e.g., ResNet- 50, or from a valid custom design, and automatically creates a super-network out of it, then uses state-of-the-art NAS techniques to train the super-network, resulting in subnetworks that significantly outperform the given pre-trained model. We demonstrate the solution by generating super-networks from arbitrary model repositories and make available the resulting super-networks for reproducibility of the results.
翻訳日:2021-12-23 00:39:45 公開日:2021-12-20
# (参考訳) スパースディープニューラルネットワークにおける負荷バランス付きガザ散乱パターン

Load-balanced Gather-scatter Patterns for Sparse Deep Neural Networks ( http://arxiv.org/abs/2112.10898v1 )

ライセンス: CC BY 4.0
Fei Sun, Minghai Qin, Tianyun Zhang, Xiaolong Ma, Haoran Li, Junwen Luo, Zihao Zhao, Yen-Kuang Chen, Yuan Xie(参考訳) ディープニューラルネットワーク(DNN)は多くの現実の問題を解決するのに有効であることが証明されているが、その高い計算コストは、それらのモデルをエッジデバイスにデプロイすることを妨げている。 モデル重み付けにゼロを導入する方法として,プレニングはモデル精度と計算効率の良好なトレードオフを提供するための有効な方法であり,圧縮モデルを生成するために広く用いられている方法である。 しかし、刈り取りの粒度は重要なトレードオフをもたらす。 同じ疎度レベルでは、粗粒構造スパースパターンは従来のハードウェアではより効率的であるが、粗粒構造スパースパターンはより精度が良く、既存のハードウェアでは非効率である。 一方、いくつかの現代的なプロセッサは、高速オンチップスクラッチパッドメモリと、そのようなメモリ上で間接的な負荷と格納操作を行う収集/散乱エンジンを備えている。 本研究では,スクラッチパッドメモリを活用し,ニューラルネットワークの推論を高速化するために,新たなスパースパターンであるgage-scatter(gs)パターンを提案する。 それに応じて、コンパクトなスパースフォーマットを提示します。 提案するスパースパターンセットは,新しいプルーニング手法とともに負荷不均衡問題に対処し,非構造化スパースモデルに近い品質のモデルと,構造化スパースモデルに近い計算効率をもたらす。 実験の結果,GSパターンは従来のスパースパターンに比べて精度と計算効率のトレードオフが良好であることがわかった。 GSパターンはDNNコンポーネントのランタイムを2~3倍の精度で削減することができる。 これは3つの異なるディープラーニングタスクと一般的なモデル、すなわち機械翻訳のGNMT、画像認識のResNet50、音響音声認識のJapserで確認されている。

Deep neural networks (DNNs) have been proven to be effective in solving many real-life problems, but its high computation cost prohibits those models from being deployed to edge devices. Pruning, as a method to introduce zeros to model weights, has shown to be an effective method to provide good trade-offs between model accuracy and computation efficiency, and is a widely-used method to generate compressed models. However, the granularity of pruning makes important trade-offs. At the same sparsity level, a coarse-grained structured sparse pattern is more efficient on conventional hardware but results in worse accuracy, while a fine-grained unstructured sparse pattern can achieve better accuracy but is inefficient on existing hardware. On the other hand, some modern processors are equipped with fast on-chip scratchpad memories and gather/scatter engines that perform indirect load and store operations on such memories. In this work, we propose a set of novel sparse patterns, named gather-scatter (GS) patterns, to utilize the scratchpad memories and gather/scatter engines to speed up neural network inferences. Correspondingly, we present a compact sparse format. The proposed set of sparse patterns, along with a novel pruning methodology, address the load imbalance issue and result in models with quality close to unstructured sparse models and computation efficiency close to structured sparse models. Our experiments show that GS patterns consistently make better trade-offs between accuracy and computation efficiency compared to conventional structured sparse patterns. GS patterns can reduce the runtime of the DNN components by two to three times at the same accuracy levels. This is confirmed on three different deep learning tasks and popular models, namely, GNMT for machine translation, ResNet50 for image recognition, and Japser for acoustic speech recognition.
翻訳日:2021-12-23 00:31:43 公開日:2021-12-20
# プログラム可能な量子シミュレータスナップショットにおける新しい位相の機械学習による発見

Machine learning discovery of new phases in programmable quantum simulator snapshots ( http://arxiv.org/abs/2112.10789v1 )

ライセンス: Link先を確認
Cole Miles, Rhine Samajdar, Sepehr Ebadi, Tout T. Wang, Hannes Pichler, Subir Sachdev, Mikhail D. Lukin, Markus Greiner, Kilian Q. Weinberger, and Eun-Ah Kim(参考訳) 機械学習は、リッチデータセットを特徴とする複雑な現象を研究するための有望なアプローチとして最近登場した。 特に、データ中心のアプローチは、手動検査が見逃す可能性のある実験データセットで自動的に構造を発見する可能性に役立つ。 本稿では,ハイブリッド相関畳み込みニューラルネットワーク(Hybrid-CCNN)の解釈不能な教師なしハイブリッド機械学習手法を導入し,Rydberg原子配列に基づくプログラマブル量子シミュレータを用いた実験データに適用する。 具体的には,プログラム可能な相互作用を持つ正方格子上の新しい量子位相の解析にHybrid-CCNNを適用する。 最初の教師なし次元減少とクラスタリング段階は、まず5つの異なる量子相領域を明らかにする。 第2の教師付きステージでは,完全解釈可能なccnnを訓練し,各フェーズに関連する相関関係を抽出することにより,これらの位相境界を洗練し,各フェーズを特徴付ける。 各相で特異的に認識される相関の特徴的な空間的重み付けとスニペットは、格子状相の量子揺らぎを捉え、以前検出されていた2つの非検出位相、すなわちrhombic と boundary-ordered phases を同定する。 これらの観察により、プログラム可能な量子シミュレータと機械学習の組み合わせが、物質の相関量子状態の詳細な探索に有効なことが示されている。

Machine learning has recently emerged as a promising approach for studying complex phenomena characterized by rich datasets. In particular, data-centric approaches lend to the possibility of automatically discovering structures in experimental datasets that manual inspection may miss. Here, we introduce an interpretable unsupervised-supervised hybrid machine learning approach, the hybrid-correlation convolutional neural network (Hybrid-CCNN), and apply it to experimental data generated using a programmable quantum simulator based on Rydberg atom arrays. Specifically, we apply Hybrid-CCNN to analyze new quantum phases on square lattices with programmable interactions. The initial unsupervised dimensionality reduction and clustering stage first reveals five distinct quantum phase regions. In a second supervised stage, we refine these phase boundaries and characterize each phase by training fully interpretable CCNNs and extracting the relevant correlations for each phase. The characteristic spatial weightings and snippets of correlations specifically recognized in each phase capture quantum fluctuations in the striated phase and identify two previously undetected phases, the rhombic and boundary-ordered phases. These observations demonstrate that a combination of programmable quantum simulators with machine learning can be used as a powerful tool for detailed exploration of correlated quantum states of matter.
翻訳日:2021-12-22 15:35:11 公開日:2021-12-20
# 人口データに関する一般的な誤解

Common Misconceptions about Population Data ( http://arxiv.org/abs/2112.10912v1 )

ライセンス: Link先を確認
Peter Christen and Rainer Schnell(参考訳) 人口の全ての個人をカバーするデータベースは、公衆衛生から社会科学まで幅広い分野の研究にますます利用されている。 政府や企業が、人口データを使ってデータ駆動意思決定を支援することへの関心が高まっている。 このようなデータベースの巨大なサイズは、しばしば関心の人口に対する有効な推測の保証として誤解される。 しかし、人口データには、これらのデータの収集方法や、どのような処理が適用されているかといった様々な仮定を含む、使用が困難な特徴がある。 さらに、人口データの潜在能力は、そのようなデータが他のデータベースにリンクされている場合にのみアンロックされることが多い。 本稿は、このようなデータを扱う人なら誰でも知っておく必要があると信じている集団データに関するさまざまな誤解について論じる。 これらの誤解の多くは科学的出版物では十分に文書化されていないが、研究者や実践者の間では逸話的にのみ議論されている。 人口データを用いて推測を行う際の推奨事項をまとめた。

Databases covering all individuals of a population are increasingly used for research studies in domains ranging from public health to the social sciences. There is also growing interest by governments and businesses to use population data to support data-driven decision making. The massive size of such databases is often mistaken as a guarantee for valid inferences on the population of interest. However, population data have characteristics that make them challenging to use, including various assumptions being made how such data were collected and what types of processing have been applied to them. Furthermore, the full potential of population data can often only be unlocked when such data are linked to other databases, a process that adds fresh challenges. This article discusses a diverse range of misconceptions about population data that we believe anybody who works with such data needs to be aware of. Many of these misconceptions are not well documented in scientific publications but only discussed anecdotally among researchers and practitioners. We conclude with a set of recommendations for inference when using population data.
翻訳日:2021-12-22 15:34:49 公開日:2021-12-20
# Rectified Power UnitActivation関数を用いた浅部ニューラルネットワークの積分表現

Integral representations of shallow neural network with Rectified Power Unit activation function ( http://arxiv.org/abs/2112.11157v1 )

ライセンス: Link先を確認
Ahmed Abdeljawad, Philipp Grohs(参考訳) そこで本研究では,Rectified Power Unit 活性化関数を用いた浅部ニューラルネットワークの積分表現式を導出する。 主に,RePU浅層ネットワークの表現能力の一変量の場合について検討した。 この論文における多次元結果は、有界ノルムとおそらく非有界幅で表現できる関数の集合を特徴づける。

In this effort, we derive a formula for the integral representation of a shallow neural network with the Rectified Power Unit activation function. Mainly, our first result deals with the univariate case of representation capability of RePU shallow networks. The multidimensional result in this paper characterizes the set of functions that can be represented with bounded norm and possibly unbounded width.
翻訳日:2021-12-22 15:33:21 公開日:2021-12-20
# タッカーとテンソルのハイブリッドモデルによる効率的なテンソルロバストPCA

Efficient Tensor Robust PCA under Hybrid Model of Tucker and Tensor Train ( http://arxiv.org/abs/2112.10771v1 )

ライセンス: Link先を確認
Yuning Qiu, Guoxu Zhou, Zhenhao Huang, Qibin Zhao, Shengli Xie(参考訳) テンソルロバストな主成分分析(TRPCA)は、機械学習とコンピュータビジョンの基本モデルである。 近年, テンソルトレイン (TT) の分解は, テンソル回収作業におけるグローバル低ランク相関を捉えるのに有効であることが確認されている。 しかし、現実のアプリケーションにおける大規模なテンソルデータのため、従来のTRPCAモデルは計算の複雑さに悩まされることが多い。 本稿では,TuckerとTTのハイブリッドモデルを用いた効率的なTRPCAを提案する。 具体的には、理論上、元のビッグテンソルのTT核ノルム(TTNN)がタッカー圧縮フォーマットによってはるかに小さなテンソルのノルムに等価に変換できることを明らかにし、特異値分解(SVD)の計算コストを大幅に削減する。 合成テンソルデータおよび実世界のテンソルデータの数値実験により,提案モデルの有効性が検証された。

Tensor robust principal component analysis (TRPCA) is a fundamental model in machine learning and computer vision. Recently, tensor train (TT) decomposition has been verified effective to capture the global low-rank correlation for tensor recovery tasks. However, due to the large-scale tensor data in real-world applications, previous TRPCA models often suffer from high computational complexity. In this letter, we propose an efficient TRPCA under hybrid model of Tucker and TT. Specifically, in theory we reveal that TT nuclear norm (TTNN) of the original big tensor can be equivalently converted to that of a much smaller tensor via a Tucker compression format, thereby significantly reducing the computational cost of singular value decomposition (SVD). Numerical experiments on both synthetic and real-world tensor data verify the superiority of the proposed model.
翻訳日:2021-12-22 14:54:05 公開日:2021-12-20
# 構造的側面情報の存在下でベイズネットワークを学習する

Learning Bayesian Networks in the Presence of Structural Side Information ( http://arxiv.org/abs/2112.10884v1 )

ライセンス: Link先を確認
Ehsan Mokhtarian, Sina Akbari, Fateme Jamshidi, Jalal Etesami, Negar Kiyavash(参考訳) 本研究では,システムに関する構造的側面情報が得られる場合の変数集合のベイズネットワーク(bn)学習の問題について検討する。 一般BNの構造を学ぶことは、計算的にも統計的にも難しいことはよく知られている。 しかし、多くのアプリケーションでは、基盤となる構造に関する情報が学習の複雑さを減少させる可能性がある。 本稿では,そのような知識(側面情報)を学習プロセスに効率的に組み込む再帰的制約に基づくアルゴリズムを開発する。 特に, 基礎となるBNに関する2種類の構造側情報について検討する: (I) 傾斜数上界が知られているか, (II) ダイヤモンドフリーである。 各シナリオで必要となるテストの最悪の数を含む,学習アルゴリズムの理論的保証を提供する。 我々の研究の結果、有界木幅BNは多項式複雑性で学習できることが示されている。 さらに, 合成・実世界の両方の構造におけるアルゴリズムの性能とスケーラビリティを評価し, 最先端構造学習アルゴリズムよりも優れていることを示す。

We study the problem of learning a Bayesian network (BN) of a set of variables when structural side information about the system is available. It is well known that learning the structure of a general BN is both computationally and statistically challenging. However, often in many applications, side information about the underlying structure can potentially reduce the learning complexity. In this paper, we develop a recursive constraint-based algorithm that efficiently incorporates such knowledge (i.e., side information) into the learning process. In particular, we study two types of structural side information about the underlying BN: (I) an upper bound on its clique number is known, or (II) it is diamond-free. We provide theoretical guarantees for the learning algorithms, including the worst-case number of tests required in each scenario. As a consequence of our work, we show that bounded treewidth BNs can be learned with polynomial complexity. Furthermore, we evaluate the performance and the scalability of our algorithms in both synthetic and real-world structures and show that they outperform the state-of-the-art structure learning algorithms.
翻訳日:2021-12-22 14:53:48 公開日:2021-12-20
# 実演インフォームド仕様検索

Demonstration Informed Specification Search ( http://arxiv.org/abs/2112.10807v1 )

ライセンス: Link先を確認
Marcell Vazquez-Chanlatte, Ameesh Shah, Gil Lederman, Sanjit A. Seshia(参考訳) 本稿では,学習履歴に依存したタスク仕様,例えばオートマトンやテンポラリ論理の課題について,専門家による実証から考察する。 残念なことに、実証されたタスクをエンコードするためにどのような歴史的特徴が必要なのかを、考慮中の(おそらく無限の)タスクの数と相まって、既存のアプローチは、実演からタスクを学ぶのに不適当である。 そこで本研究では,ブラックボックスアクセスによってパラメータ化されるアルゴリズム群であるdiss(informed specification search)を提案する。 (i)最大エントロピープランナー及び (ii)ラベル付き例から概念(例えばオートマトン)を識別するアルゴリズム。 DISSは相互に交互に働く (i)デモをさほど驚かせるようなラベル付き例を考案し、 (ii)現在のラベル付き例と一致するサンプリング概念。 決定論的有限オートマトンによって記述されたタスクの文脈では、タスクの部分的知識と1つの専門家によるデモンストレーションを効率よく組み合わせ、完全なタスク仕様を識別するdisSの具体的実装を提供する。

This paper considers the problem of learning history dependent task specifications, e.g. automata and temporal logic, from expert demonstrations. Unfortunately, the (countably infinite) number of tasks under consideration combined with an a-priori ignorance of what historical features are needed to encode the demonstrated task makes existing approaches to learning tasks from demonstrations inapplicable. To address this deficit, we propose Demonstration Informed Specification Search (DISS): a family of algorithms parameterized by black box access to (i) a maximum entropy planner and (ii) an algorithm for identifying concepts, e.g., automata, from labeled examples. DISS works by alternating between (i) conjecturing labeled examples to make the demonstrations less surprising and (ii) sampling concepts consistent with the current labeled examples. In the context of tasks described by deterministic finite automata, we provide a concrete implementation of DISS that efficiently combines partial knowledge of the task and a single expert demonstration to identify the full task specification.
翻訳日:2021-12-22 14:50:05 公開日:2021-12-20
# ポーカーのための高速なアルゴリズムは、シーケンシャルベイズゲームとしてモデル化する必要がある

Fast Algorithms for Poker Require Modelling it as a Sequential Bayesian Game ( http://arxiv.org/abs/2112.10890v1 )

ライセンス: Link先を確認
Vojt\v{e}ch Kova\v{r}\'ik, David Milec, Michal \v{S}ustr, Dominik Seitz, Viliam Lis\'y(参考訳) 不完全な情報ゲームに関する最近の多くの結果は、liar's diceのようなポーカーやポーカーのようなゲームのためにのみ定式化された。 逐次ベイズゲームはこれらの結果を一般化するための自然な種類のゲームであると主張する。 特に、このモデルは反事実的後悔最小化アルゴリズム(public-state cfr (ps-cfr) と呼ばれる)のエレガントな定式化を可能にする。 経験上、パブリックステートcfrによる10^7状態のポーカーサブゲームでは3分700mb、同等バージョンのvanilla cfrでは5.5時間20gbである。 さらに、CFRの公的な定式化は、ドメイン固有の仮定を利用する可能性を開放し、ポーカーや他のドメインにおけるバニラCFRよりも漸近的複雑性(およびさらに経験的なスピードアップ)が2次的に減少する。 全体として、ポーカーをシーケンシャルベイズゲームとして表現する能力は、CFRベースの手法の成功に重要な役割を果たしたことを示唆している。 最後に、パブリックステートのcfrを一般的な広義のゲームに拡張し、この拡張は、シーケンシャルベイズゲームのバージョンの利点を全て享受するものではない、と主張している。

Many recent results in imperfect information games were only formulated for, or evaluated on, poker and poker-like games such as liar's dice. We argue that sequential Bayesian games constitute a natural class of games for generalizing these results. In particular, this model allows for an elegant formulation of the counterfactual regret minimization algorithm, called public-state CFR (PS-CFR), which naturally lends itself to an efficient implementation. Empirically, solving a poker subgame with 10^7 states by public-state CFR takes 3 minutes and 700 MB while a comparable version of vanilla CFR takes 5.5 hours and 20 GB. Additionally, the public-state formulation of CFR opens up the possibility for exploiting domain-specific assumptions, leading to a quadratic reduction in asymptotic complexity (and a further empirical speedup) over vanilla CFR in poker and other domains. Overall, this suggests that the ability to represent poker as a sequential Bayesian game played a key role in the success of CFR-based methods. Finally, we extend public-state CFR to general extensive-form games, arguing that this extension enjoys some - but not all - of the benefits of the version for sequential Bayesian games.
翻訳日:2021-12-22 14:49:46 公開日:2021-12-20
# IMU信号を用いた人間行動認識のための注意型センサフュージョン

Attention-Based Sensor Fusion for Human Activity Recognition Using IMU Signals ( http://arxiv.org/abs/2112.11224v1 )

ライセンス: Link先を確認
Wenjin Tao, Haodong Chen, Md Moniruzzaman, Ming C. Leu, Zhaozheng Yi, Ruwen Qin(参考訳) Inertial Measurement Unit(IMU)センサーに埋め込まれたスマートウォッチなどのウェアラブルデバイスを用いたヒューマンアクティビティ認識(HAR)は、ワークアウトトラッキングや健康モニタリングなど、私たちの日常生活に様々な応用をもたらす。 本稿では,異なる身体部位に装着した複数のIMUセンサを用いた人体行動認識のための新しい注意型アプローチを提案する。 まず、センサワイズ特徴抽出モジュールは、畳み込みニューラルネットワーク(CNN)を用いて個々のセンサから最も識別性の高い特徴を抽出するように設計されている。 次に,異なる身体位置におけるセンサの重要性を学習し,注意的特徴表現を生成するために注意に基づく融合機構を開発した。 最後に、センサ間特徴抽出モジュールを適用し、分類器に接続されたセンサ間相関を学習し、予測されたアクティビティのクラスを出力する。 提案手法は,5つの公開データセットを用いて評価し,多種多様な活動カテゴリにおける最先端手法より優れている。

Human Activity Recognition (HAR) using wearable devices such as smart watches embedded with Inertial Measurement Unit (IMU) sensors has various applications relevant to our daily life, such as workout tracking and health monitoring. In this paper, we propose a novel attention-based approach to human activity recognition using multiple IMU sensors worn at different body locations. Firstly, a sensor-wise feature extraction module is designed to extract the most discriminative features from individual sensors with Convolutional Neural Networks (CNNs). Secondly, an attention-based fusion mechanism is developed to learn the importance of sensors at different body locations and to generate an attentive feature representation. Finally, an inter-sensor feature extraction module is applied to learn the inter-sensor correlations, which are connected to a classifier to output the predicted classes of activities. The proposed approach is evaluated using five public datasets and it outperforms state-of-the-art methods on a wide variety of activity categories.
翻訳日:2021-12-22 14:46:53 公開日:2021-12-20
# 生成逆ネットワークを用いたLiDAR点雲からのフォトリアリスティック画像の生成

Generating Photo-realistic Images from LiDAR Point Clouds with Generative Adversarial Networks ( http://arxiv.org/abs/2112.11245v1 )

ライセンス: Link先を確認
Nuriel Shalom Mor(参考訳) LiDAR点雲から写真リアル画像を生成するためのGAN(Generative Adversarial Network)の実現可能性を検討した。 この目的のために,点雲画像ペアのデータセットを作成し,反射率と距離情報を含むライダー点雲からganをトレーニングした。 私たちのモデルは、雲のデータから現実的に見えるイメージを予測する方法を学びました。 ブラックカーは反射率が低いため、点雲から直接検出することが難しい。 このアプローチは将来的に、LiDAR点雲から生成されたフォトリアリスティック画像の視覚的物体認識に使用されるかもしれない。 従来のLiDARシステムに加えて、LiDARポイントクラウドからフォトリアリスティック画像を生成する第2のシステムは、リアルタイムで視覚オブジェクト認識のために同時に実行される。 このようにして、LiDARの優位性を保ち、カメラを使わずに視覚オブジェクト認識にフォトリアリスティック画像を使用することの恩恵を受けることができる。 さらに、このアプローチは、カメライメージを使わずに点雲を着色するのに使うことができる。

We examined the feasibility of generative adversarial networks (GANs) to generate photo-realistic images from LiDAR point clouds. For this purpose, we created a dataset of point cloud image pairs and trained the GAN to predict photorealistic images from LiDAR point clouds containing reflectance and distance information. Our models learned how to predict realistically looking images from just point cloud data, even images with black cars. Black cars are difficult to detect directly from point clouds because of their low level of reflectivity. This approach might be used in the future to perform visual object recognition on photorealistic images generated from LiDAR point clouds. In addition to the conventional LiDAR system, a second system that generates photorealistic images from LiDAR point clouds would run simultaneously for visual object recognition in real-time. In this way, we might preserve the supremacy of LiDAR and benefit from using photo-realistic images for visual object recognition without the usage of any camera. In addition, this approach could be used to colorize point clouds without the usage of any camera images.
翻訳日:2021-12-22 14:46:36 公開日:2021-12-20
# PRONTO: 粗同期のためのニューラルネットワークによるプリアンブルオーバーヘッド削減

PRONTO: Preamble Overhead Reduction with Neural Networks for Coarse Synchronization ( http://arxiv.org/abs/2112.10885v1 )

ライセンス: Link先を確認
Nasim Soltani, Debashri Roy, and Kaushik Chowdhury(参考訳) IEEE 802.11 WiFi ベースの波形では、レシーバはレガシショートトレーニングフィールド (L-STF) として知られるプリアンブルの第1フィールドを用いて粗い時間と周波数同期を行う。 L-STFは、プリアンブルの長さの最大40%を占め、32時間の空気を消費する。 通信オーバヘッドを低減することを目的として,L-STFを除去してプリアンブル長を小さくする修正波形を提案する。 この修正波形をデコードするために,他のプリアンブル場,特にレガシロングトレーニング場(L-LTF)を用いて粗い時間と周波数推定を行うPRONTOと呼ばれる機械学習(ML)ベースのスキームを提案する。 私たちの貢献は3倍です (i)パケット検出と粗いCFO推定のためのカスタマイズ畳み込みニューラルネットワーク(CNN)とロバストトレーニングのためのデータ拡張ステップを特徴とするPRONTOを提案する。 (II)PRONTOを標準L-STFを含むレガシー波形と互換性のある一般化された決定フローを提案する。 (iii) software defined radios (sdrs) のテストベッドから,wifiデータセット上での結果を検証する。 評価の結果,prontoは100%精度でパケット検出が可能であり,誤差が3%以下の粗いcfo推定が可能であった。 ProNTOは,ビット誤り率 (BER) の低下を伴わず,最大40%のプリアンブル長短縮を実現している。 最後に、PRONTOによるGPU並列化による高速化を、対応するCPUのみの実装に対して実験的に示す。

In IEEE 802.11 WiFi-based waveforms, the receiver performs coarse time and frequency synchronization using the first field of the preamble known as the legacy short training field (L-STF). The L-STF occupies upto 40% of the preamble length and takes upto 32 us of airtime. With the goal of reducing communication overhead, we propose a modified waveform, where the preamble length is reduced by eliminating the L-STF. To decode this modified waveform, we propose a machine learning (ML)-based scheme called PRONTO that performs coarse time and frequency estimations using other preamble fields, specifically the legacy long training field (L-LTF). Our contributions are threefold: (i) We present PRONTO featuring customized convolutional neural networks (CNNs) for packet detection and coarse CFO estimation, along with data augmentation steps for robust training. (ii) We propose a generalized decision flow that makes PRONTO compatible with legacy waveforms that include the standard L-STF. (iii) We validate the outcomes on an over-the-air WiFi dataset from a testbed of software defined radios (SDRs). Our evaluations show that PRONTO can perform packet detection with 100% accuracy, and coarse CFO estimation with errors as small as 3%. We demonstrate that PRONTO provides upto 40% preamble length reduction with no bit error rate (BER) degradation. Finally, we experimentally show the speedup achieved by PRONTO through GPU parallelization over the corresponding CPU-only implementations.
翻訳日:2021-12-22 14:45:12 公開日:2021-12-20
# 深層学習を伴う浅水方程式解のサロゲートモデル

Surrogate Model for Shallow Water Equations Solvers with Deep Learning ( http://arxiv.org/abs/2112.10889v1 )

ライセンス: Link先を確認
Yalan Song, Chaopeng Shen, Xiaofeng Liu(参考訳) 浅い水方程式は洪水や河川水理解析のモデルの基礎となっている。 これらの物理モデルは通常高価で実行が遅いため、リアルタイムの予測やパラメータの反転には適さない。 魅力的な代替案は代理モデルである。 この研究は、ディープラーニングに基づく効率的で正確で柔軟な代理モデルNN-p2pを導入し、非構造化メッシュや不規則メッシュ上でポイントツーポイント予測を行う。 提案手法は,構造的あるいは規則的メッシュ上でのみ画像から画像への予測が可能な畳み込みニューラルネットワーク(cnns)に基づく既存手法と比較した。 NN-p2pでは、入力は空間座標とブリッジ桟橋のような水理構造の幾何学を記述する境界特徴の両方を含む。 すべてのサロゲートモデルは、トレーニング領域内の異なるタイプの桟橋まわりの流れを予測するのにうまく機能する。 しかし,空間外挿を行う場合,NN-p2pのみが有効である。 CNNに基づく手法の限界は、境界形状や流れの特徴を正確に把握できないラスタ像の性質に根ざしている。 NN-p2pはまた、ニューラルネットワークによって見えないピアまわりの流れを予測するのに優れた性能を持っている。 NN-p2pモデルは保存法則をより厳格に尊重している。 提案した代理モデルの適用は,桟橋の抵抗係数$C_D$を計算し,桟橋の長さ/幅比の対数変換とC_D$の新しい線形関係を導出した。

Shallow water equations are the foundation of most models for flooding and river hydraulics analysis. These physics-based models are usually expensive and slow to run, thus not suitable for real-time prediction or parameter inversion. An attractive alternative is surrogate model. This work introduces an efficient, accurate, and flexible surrogate model, NN-p2p, based on deep learning and it can make point-to-point predictions on unstructured or irregular meshes. The new method was evaluated and compared against existing methods based on convolutional neural networks (CNNs), which can only make image-to-image predictions on structured or regular meshes. In NN-p2p, the input includes both spatial coordinates and boundary features that can describe the geometry of hydraulic structures, such as bridge piers. All surrogate models perform well in predicting flow around different types of piers in the training domain. However, only NN-p2p works well when spatial extrapolation is performed. The limitations of CNN-based methods are rooted in their raster-image nature which cannot capture boundary geometry and flow features exactly, which are of paramount importance to fluid dynamics. NN-p2p also has good performance in predicting flow around piers unseen by the neural network. The NN-p2p model also respects conservation laws more strictly. The application of the proposed surrogate model was demonstrated by calculating the drag coefficient $C_D$ for piers and a new linear relationship between $C_D$ and the logarithmic transformation of pier's length/width ratio was discovered.
翻訳日:2021-12-22 14:44:45 公開日:2021-12-20
# VELVET: VulnErable sTatementsを自動的に特定するnoVel Ensemble Learningアプローチ

VELVET: a noVel Ensemble Learning approach to automatically locate VulnErable sTatements ( http://arxiv.org/abs/2112.10893v1 )

ライセンス: Link先を確認
Yangruibo Ding, Sahil Suneja, Yunhui Zheng, Jim Laredo, Alessandro Morari, Gail Kaiser, Baishakhi Ray(参考訳) 脆弱性のあるステートメントを自動的にソースコードに配置することは、ソフトウェアセキュリティの確保と開発者のデバッグ作業の軽減に不可欠である。 今日のソフトウェアエコシステムでは、脆弱性のあるコードがGitHubのようなソフトウェアリポジトリ内で、無意識に簡単に流れます。 何百万行ものコードにまたがって、従来の静的アプローチと動的アプローチはスケールするのに苦労します。 既存の機械学習ベースのアプローチは、このような環境では有望に見えるが、ほとんどの作業は、メソッドやファイルレベルで、より高い粒度で脆弱なコードを検出する。 したがって、開発者は修正が必要な脆弱性のあるステートメントを見つけるために、かなりの量のコードを検査する必要がある。 本稿では,脆弱な文を見つけるための新しいアンサンブル学習手法であるVELVETを提案する。 このモデルは、グラフベースとシーケンスベースのニューラルネットワークを組み合わせて、プログラムグラフのローカルおよびグローバルコンテキストをうまく捉え、コードのセマンティクスと脆弱なパターンを効果的に理解する。 VELVETの有効性を研究するために、市販の合成データセットと最近公開された実世界のデータセットを用いる。 脆弱な関数が事前に検出されない静的解析設定では、VELVETは実世界のデータ上のベースライン静的解析器よりも4.5倍高いパフォーマンスを達成する。 特定の脆弱なステートメントが不明な関数の脆弱性が分かっていると仮定した分離脆弱性ローカライズタスクでは、velvetと、ローカルおよびグローバルなコードコンテキストにも関与する複数のニューラルネットワークを比較した。 VELVETは合成データと実世界のデータに対して99.6%と43.6%の精度を達成し、ベースラインのディープラーニングモデルを5.3-29.0%上回っている。

Automatically locating vulnerable statements in source code is crucial to assure software security and alleviate developers' debugging efforts. This becomes even more important in today's software ecosystem, where vulnerable code can flow easily and unwittingly within and across software repositories like GitHub. Across such millions of lines of code, traditional static and dynamic approaches struggle to scale. Although existing machine-learning-based approaches look promising in such a setting, most work detects vulnerable code at a higher granularity -- at the method or file level. Thus, developers still need to inspect a significant amount of code to locate the vulnerable statement(s) that need to be fixed. This paper presents VELVET, a novel ensemble learning approach to locate vulnerable statements. Our model combines graph-based and sequence-based neural networks to successfully capture the local and global context of a program graph and effectively understand code semantics and vulnerable patterns. To study VELVET's effectiveness, we use an off-the-shelf synthetic dataset and a recently published real-world dataset. In the static analysis setting, where vulnerable functions are not detected in advance, VELVET achieves 4.5x better performance than the baseline static analyzers on the real-world data. For the isolated vulnerability localization task, where we assume the vulnerability of a function is known while the specific vulnerable statement is unknown, we compare VELVET with several neural networks that also attend to local and global context of code. VELVET achieves 99.6% and 43.6% top-1 accuracy over synthetic data and real-world data, respectively, outperforming the baseline deep-learning models by 5.3-29.0%.
翻訳日:2021-12-22 14:44:19 公開日:2021-12-20
# TFDPM:拡散確率モデルを用いたサイバー物理システムの攻撃検出

TFDPM: Attack detection for cyber-physical systems with diffusion probabilistic models ( http://arxiv.org/abs/2112.10774v1 )

ライセンス: Link先を確認
Tijin Yan, Tong Zhou, Yufeng Zhan, Yuanqing Xia(参考訳) AIoTの開発に伴い、サイバー物理システム(CPS)に対するデータ駆動攻撃検出手法が注目されている。 しかし、既存の手法は通常、複雑なシステムには適さない近似データ分布に対して扱いやすい分布を採用する。 さらに、異なるチャネルにおけるデータの相関は十分な注意を引き付けない。 これらの問題に対処するために、エネルギーベースの生成モデルを使用し、これはデータ分布の関数形式に制約を受けない。 さらに、グラフニューラルネットワークを使用して、異なるチャネル内のデータの相関を明示的にモデル化する。 最後に,CPSにおける攻撃検出タスクの一般的なフレームワークであるTFDPMを提案する。 履歴データから時間パターンと特徴パターンを同時に抽出する。 次に、抽出特徴を条件拡散確率モデルに送信する。 条件生成ネットワークを用いて予測値を得ることができ、予測値と観測値との差に基づいて攻撃を検出する。 さらに,実時間検出を実現するために,予測処理を高速化する条件付きノイズスケジューリングネットワークを提案する。 実験の結果,TFDPMは既存の攻撃検出方法よりも優れていた。 ノイズスケジューリングネットワークは、検出速度を3倍に向上させる。

With the development of AIoT, data-driven attack detection methods for cyber-physical systems (CPSs) have attracted lots of attention. However, existing methods usually adopt tractable distributions to approximate data distributions, which are not suitable for complex systems. Besides, the correlation of the data in different channels does not attract sufficient attention. To address these issues, we use energy-based generative models, which are less restrictive on functional forms of the data distribution. In addition, graph neural networks are used to explicitly model the correlation of the data in different channels. In the end, we propose TFDPM, a general framework for attack detection tasks in CPSs. It simultaneously extracts temporal pattern and feature pattern given the historical data. Then extract features are sent to a conditional diffusion probabilistic model. Predicted values can be obtained with the conditional generative network and attacks are detected based on the difference between predicted values and observed values. In addition, to realize real-time detection, a conditional noise scheduling network is proposed to accelerate the prediction process. Experimental results show that TFDPM outperforms existing state-of-the-art attack detection methods. The noise scheduling network increases the detection speed by three times.
翻訳日:2021-12-22 14:23:17 公開日:2021-12-20
# AGPNet -- 自律型グラディングポリシーネットワーク

AGPNet -- Autonomous Grading Policy Network ( http://arxiv.org/abs/2112.10877v1 )

ライセンス: Link先を確認
Chana Ross, Yakov Miron, Yuval Goldfracht, Dotan Di Castro(参考訳) そこで本研究では,砂山に埋もれた不均一領域を段階的に評価するドーザーの自律制御に関するヒューリスティックスと学習戦略を確立する。 我々はマルコフ決定プロセスとして問題を定式化し、エージェント環境相互作用を実証するシミュレーションを設計し、最終的にシミュレータを実際のドーザープロトタイプと比較する。 我々は,強化学習,行動クローニング,コントラスト学習の手法を用いて,ハイブリッド・ポリシーを訓練する。 我々の訓練されたエージェントであるAGPNetは、人間レベルのパフォーマンスに達し、自律的なグレーディングタスクのために現在の最先端の機械学習手法より優れています。 また,エージェントはランダムシナリオから実世界問題への一般化が可能である。

In this work, we establish heuristics and learning strategies for the autonomous control of a dozer grading an uneven area studded with sand piles. We formalize the problem as a Markov Decision Process, design a simulation which demonstrates agent-environment interactions and finally compare our simulator to a real dozer prototype. We use methods from reinforcement learning, behavior cloning and contrastive learning to train a hybrid policy. Our trained agent, AGPNet, reaches human-level performance and outperforms current state-of-the-art machine learning methods for the autonomous grading task. In addition, our agent is capable of generalizing from random scenarios to unseen real world problems.
翻訳日:2021-12-22 14:23:03 公開日:2021-12-20
# 符号のロバストモデルに対するエネルギー束縛学習

Energy-bounded Learning for Robust Models of Code ( http://arxiv.org/abs/2112.11226v1 )

ライセンス: Link先を確認
Nghi D. Q. Bui, Yijun Yu(参考訳) プログラミングでは、コード表現の学習には、コード分類、コード検索、コメント生成、バグ予測など、さまざまなアプリケーションがある。 トークン、構文木、依存グラフ、コードナビゲーションパス、あるいはそれらのバリエーションの組み合わせによるコードの様々な表現が提案されているが、既存のバニラ学習技術は頑健性に大きな制限があり、すなわち、入力が微妙な方法で変更されたときにモデルが不正確な予測を行うことが容易である。 堅牢性を高めるために、既存のアプローチでは、与えられた分布の外にある有効なサンプルではなく、逆のサンプルを認識することに重点を置いている。 このようなOODサンプルの認識は,本論文における新たな課題である。 そこで本研究では,まずin=distributionデータセットを分散サンプルで拡張し,一緒にトレーニングするとモデルのロバスト性が向上することを示す。 そこで本研究では,高得点を分布内サンプルに割り当て,低得点を分布外サンプルに割り当て,そのような分布外サンプルをソースコードモデルのトレーニングプロセスに組み込むためのエネルギー制限学習目的関数の利用を提案する。 OOD検出と対向サンプル検出では,既存のソースコードモデルでは,OODデータの認識精度が向上すると同時に,対向攻撃に対する耐性も向上した。 さらに,提案するエネルギーバウンドスコアは,ソフトマックス信頼度スコア,マハラノビススコア,オーディンスコアなど,既存のood検出スコアを大差で上回っている。

In programming, learning code representations has a variety of applications, including code classification, code search, comment generation, bug prediction, and so on. Various representations of code in terms of tokens, syntax trees, dependency graphs, code navigation paths, or a combination of their variants have been proposed, however, existing vanilla learning techniques have a major limitation in robustness, i.e., it is easy for the models to make incorrect predictions when the inputs are altered in a subtle way. To enhance the robustness, existing approaches focus on recognizing adversarial samples rather than on the valid samples that fall outside a given distribution, which we refer to as out-of-distribution (OOD) samples. Recognizing such OOD samples is the novel problem investigated in this paper. To this end, we propose to first augment the in=distribution datasets with out-of-distribution samples such that, when trained together, they will enhance the model's robustness. We propose the use of an energy-bounded learning objective function to assign a higher score to in-distribution samples and a lower score to out-of-distribution samples in order to incorporate such out-of-distribution samples into the training process of source code models. In terms of OOD detection and adversarial samples detection, our evaluation results demonstrate a greater robustness for existing source code models to become more accurate at recognizing OOD data while being more resistant to adversarial attacks at the same time. Furthermore, the proposed energy-bounded score outperforms all existing OOD detection scores by a large margin, including the softmax confidence score, the Mahalanobis score, and ODIN.
翻訳日:2021-12-22 14:22:24 公開日:2021-12-20
# 確率的グラディエントDescenceの有効雑音

The effective noise of Stochastic Gradient Descent ( http://arxiv.org/abs/2112.10852v1 )

ライセンス: Link先を確認
Francesca Mignacco, Pierfrancesco Urbani(参考訳) Stochastic Gradient Descent (SGD)は、ディープラーニング技術のワークホースアルゴリズムである。 トレーニングフェーズの各ステップでは、トレーニングデータセットからサンプルのミニバッチを描画し、この特定のサブセットのパフォーマンスに応じてニューラルネットワークの重みを調整する。 ミニバッチサンプリング手順は、非自明な状態依存ノイズを伴う勾配降下に対する確率力学を導入する。 我々はSGDの確率性と最近導入された変種である持続型SGDを原型ニューラルネットワークモデルで特徴付ける。 最終学習誤差が正となる過度パラメータ化状態において,SGD力学は定常状態に達し,動的平均場理論から計算した揺動散逸定理から有効温度を定義する。 有効温度を用いて,SGD雑音の大きさを問題パラメータの関数として定量化する。 学習誤差が消失する過パラメータ方式では、同一初期化を持つシステムの2つのレプリカの平均距離と2つの異なるsgdノイズの実現を計算し、sgdのノイズの大きさを測定する。 その結果、2つのノイズ測度は問題パラメータの関数として同じように振る舞うことがわかった。 さらに,noisierアルゴリズムは制約満足度問題に対するより広い決定境界をもたらすことを観測した。

Stochastic Gradient Descent (SGD) is the workhorse algorithm of deep learning technology. At each step of the training phase, a mini batch of samples is drawn from the training dataset and the weights of the neural network are adjusted according to the performance on this specific subset of examples. The mini-batch sampling procedure introduces a stochastic dynamics to the gradient descent, with a non-trivial state-dependent noise. We characterize the stochasticity of SGD and a recently-introduced variant, persistent SGD, in a prototypical neural network model. In the under-parametrized regime, where the final training error is positive, the SGD dynamics reaches a stationary state and we define an effective temperature from the fluctuation-dissipation theorem, computed from dynamical mean-field theory. We use the effective temperature to quantify the magnitude of the SGD noise as a function of the problem parameters. In the over-parametrized regime, where the training error vanishes, we measure the noise magnitude of SGD by computing the average distance between two replicas of the system with the same initialization and two different realizations of SGD noise. We find that the two noise measures behave similarly as a function of the problem parameters. Moreover, we observe that noisier algorithms lead to wider decision boundaries of the corresponding constraint satisfaction problem.
翻訳日:2021-12-22 14:21:56 公開日:2021-12-20
# 量子力学によるマニフォールド学習

Manifold learning via quantum dynamics ( http://arxiv.org/abs/2112.11161v1 )

ライセンス: Link先を確認
Akshat Kumar, Mohan Sarovar(参考訳) 本稿では,サンプルデータのグラフ埋め込みにおける量子力学のシミュレーションに依存する,サンプル多様体上の測地学のアルゴリズムを提案する。 本手法は,半古典的解析と量子古典的対応における古典的結果を利用し,データセットをサンプリングした多様体を学習する手法の基礎を形成し,高次元データセットの非線形次元還元を行う。 モデル多様体からサンプリングしたデータと、COVID-19モビリティデータに基づくクラスタリングデモにより、新しいアルゴリズムについて説明する。 最後に,データサンプリングと量子化による離散化の相互関係を明らかにする。

We introduce an algorithm for computing geodesics on sampled manifolds that relies on simulation of quantum dynamics on a graph embedding of the sampled data. Our approach exploits classic results in semiclassical analysis and the quantum-classical correspondence, and forms a basis for techniques to learn the manifold from which a dataset is sampled, and subsequently for nonlinear dimensionality reduction of high-dimensional datasets. We illustrate the new algorithm with data sampled from model manifolds and also by a clustering demonstration based on COVID-19 mobility data. Finally, our method reveals interesting connections between the discretization provided by data sampling and quantization.
翻訳日:2021-12-22 14:18:10 公開日:2021-12-20
# フラグメントに基づく形状シグネチャの重み付き等方写像に対する制約計画法

A Constraint Programming Approach to Weighted Isomorphic Mapping of Fragment-based Shape Signatures ( http://arxiv.org/abs/2112.10892v1 )

ライセンス: Link先を確認
Thierry Petit and Randy J. Zauhar(参考訳) フラグメントに基づく形状シグネチャ技術は、コンピュータ支援薬物設計のための強力なツールであることが証明されている。 科学者は、既知の活性化合物と類似した標的分子を探索することができる。 これは何百万もの化合物を含む化学データベースを扱うのに不可欠である。 しかし、断片化された化合物の一部の最適マッチングを見つけるのに時間がかかる。 本稿では,制約プログラミングを用いてこの問題を解決する。 接続制約の対象となるフラグメントの重み付けの割り当てを見つけることを含む。 我々の実験は、我々のアプローチの実際的妥当性を示し、複数の多様なソリューションを生成することを含む新しい視点を開く。 提案手法は,重み付き経路の列挙を回避するために,実時間設定で制約解決器を最初に使用する手法である。 モデルは、追加の制約を追加しても堅牢でなければならない。 この特定の文脈では、モデルの選択に特異な基準を用いる必要がある: 軽量で標準伝搬アルゴリズム、探索空間を縮小しながら一定のコストを課さないデータ構造。 難しいインスタンスを解決するために、新しい複雑なアルゴリズムを設計することではありません。

Fragment-based shape signature techniques have proven to be powerful tools for computer-aided drug design. They allow scientists to search for target molecules with some similarity to a known active compound. They do not require reference to the full underlying chemical structure, which is essential to deal with chemical databases containing millions of compounds. However, finding the optimal match of a part of the fragmented compound can be time-consuming. In this paper, we use constraint programming to solve this specific problem. It involves finding a weighted assignment of fragments subject to connectivity constraints. Our experiments demonstrate the practical relevance of our approach and open new perspectives, including generating multiple, diverse solutions. Our approach constitutes an original use of a constraint solver in a real time setting, where propagation allows to avoid an enumeration of weighted paths. The model must remain robust to the addition of additional constraints making some instances not tractable. This particular context requires the use of unusual criteria for the choice of the model: lightweight, standard propagation algorithms, data structures without prohibitive constant cost while reducing the search space. The objective is not to design new, complex algorithms to solve difficult instances.
翻訳日:2021-12-22 14:16:58 公開日:2021-12-20
# 自己着脱機能強化型ライトビジョントランスフォーマ

Lite Vision Transformer with Enhanced Self-Attention ( http://arxiv.org/abs/2112.10809v1 )

ライセンス: Link先を確認
Chenglin Yang, Yilin Wang, Jianming Zhang, He Zhang, Zijun Wei, Zhe Lin, Alan Yuille(参考訳) 視覚変換器モデルの印象的な表現能力にもかかわらず、現在の軽量視覚変換器モデルは依然として局所的に不整合かつ誤った密度予測に悩まされている。 自己着脱機構のパワーは、より浅く薄いネットワークで制限されていると推測する。 LVT(Lite Vision Transformer)は,移動体配置のためのモデル性能を改善するために,2つの拡張自己アテンション機構を備えた軽量トランスネットワークである。 低レベルの機能については、CSA(Convolutional Self-Attention)を紹介します。 従来の畳み込みと自己アテンションの融合アプローチとは異なり、CSAはLVTの第1段階において低レベルの特徴を豊かにするために、大きさ3x3のカーネル内の畳み込みに局所的な自己アテンションを導入する。 高レベルの特徴として,類似度マップの計算におけるマルチスケールコンテキストと余剰パラメータコストによる表現能力向上のための再帰的アラス自己認識(RASA)を提案する。 LVTの優位性は、ImageNet認識、ADE20Kセマンティックセグメンテーション、COCOパン光学セグメンテーションで示される。 コードは公開されています。

Despite the impressive representation capacity of vision transformer models, current light-weight vision transformer models still suffer from inconsistent and incorrect dense predictions at local regions. We suspect that the power of their self-attention mechanism is limited in shallower and thinner networks. We propose Lite Vision Transformer (LVT), a novel light-weight transformer network with two enhanced self-attention mechanisms to improve the model performances for mobile deployment. For the low-level features, we introduce Convolutional Self-Attention (CSA). Unlike previous approaches of merging convolution and self-attention, CSA introduces local self-attention into the convolution within a kernel of size 3x3 to enrich low-level features in the first stage of LVT. For the high-level features, we propose Recursive Atrous Self-Attention (RASA), which utilizes the multi-scale context when calculating the similarity map and a recursive mechanism to increase the representation capability with marginal extra parameter cost. The superiority of LVT is demonstrated on ImageNet recognition, ADE20K semantic segmentation, and COCO panoptic segmentation. The code is made publicly available.
翻訳日:2021-12-22 14:16:21 公開日:2021-12-20
# スケッチ1枚でパーソナライズしたスケッチのセグメンテーション

One Sketch for All: One-Shot Personalized Sketch Segmentation ( http://arxiv.org/abs/2112.10838v1 )

ライセンス: Link先を確認
Anran Qi, Yulia Gryaditskaya, Tao Xiang, Yi-Zhe Song(参考訳) 本稿では,最初の1ショットパーソナライズドスケッチセグメンテーション法を提案する。 我々は,同一のカテゴリに属するすべてのスケッチを,所定の部分アノテーションで1つのスケッチで区切ることを目標としている。 (i)例示に埋め込まれた部分意味論の保存、及び (ii)入力スタイルと抽象化に堅牢である。 私たちはこのシナリオをパーソナライズしている。 これにより、下流の微粒なスケッチ解析タスクに対して、非常に望まれるパーソナライズ機能を実現できる。 頑健なセグメンテーションモジュールをトレーニングするために、同じカテゴリで利用可能なスケッチのそれぞれに、模範的なスケッチを変形する。 本手法は訓練中に観察されないスケッチに一般化する。 私たちの中心となる貢献はスケッチ特有の階層的変形ネットワークです。 グラフ畳み込みネットワークを用いて得られたマルチレベルスケッチ・ストロークの符号化を前提として,本手法では,上層階の先行参照から剛体変換を推定する。 さらに、下層のストロークワイド変形により、模範から大域的に歪んだ参照スケッチへの有限変形を求める。 どちらのレベルの変形も、キーポイント間の平均2乗距離によって誘導され、ストロークのセマンティクスが保存される。 本手法は,単発セグメンテーションと知覚的グルーピングのベースラインに対して,また2つの数発3d形状セグメンテーション法に対して評価を行った。 提案手法は,全選択肢を平均10%以上上回る性能を示した。 アブレーション研究は、我々の手法がパーソナライズに頑健であること、すなわち入力部分のセマンティクスの変化とスタイルの違いをさらに示している。

We present the first one-shot personalized sketch segmentation method. We aim to segment all sketches belonging to the same category provisioned with a single sketch with a given part annotation while (i) preserving the parts semantics embedded in the exemplar, and (ii) being robust to input style and abstraction. We refer to this scenario as personalized. With that, we importantly enable a much-desired personalization capability for downstream fine-grained sketch analysis tasks. To train a robust segmentation module, we deform the exemplar sketch to each of the available sketches of the same category. Our method generalizes to sketches not observed during training. Our central contribution is a sketch-specific hierarchical deformation network. Given a multi-level sketch-strokes encoding obtained via a graph convolutional network, our method estimates rigid-body transformation from the reference to the exemplar, on the upper level. Finer deformation from the exemplar to the globally warped reference sketch is further obtained through stroke-wise deformations, on the lower level. Both levels of deformation are guided by mean squared distances between the keypoints learned without supervision, ensuring that the stroke semantics are preserved. We evaluate our method against the state-of-the-art segmentation and perceptual grouping baselines re-purposed for the one-shot setting and against two few-shot 3D shape segmentation methods. We show that our method outperforms all the alternatives by more than 10% on average. Ablation studies further demonstrate that our method is robust to personalization: changes in input part semantics and style differences.
翻訳日:2021-12-22 14:16:02 公開日:2021-12-20
# 階層情報をニューラルネットワークで符号化することで、人口移動を支援する

Encoding Hierarchical Information in Neural Networks helps in Subpopulation Shift ( http://arxiv.org/abs/2112.10844v1 )

ライセンス: Link先を確認
Amitangshu Mukherjee, Isha Garg and Kaushik Roy(参考訳) 過去10年間で、ディープニューラルネットワークは画像分類タスクに長けており、精度の面では人間を上回っていることが多い。 しかしながら、標準的なニューラルネットワークは、視覚関連タスクのための異なるクラス間の階層構造と依存関係の概念を理解できないことが多い。 一方、人間はカテゴリを概念的に学習し、ハイレベルな概念の理解からカテゴリの粒度レベルへと徐々に成長しているように見える。 ニューラルネットワークがそのような依存関係を学習構造内にエンコードできないことによる問題のひとつは、トレーニングセットのカテゴリのシフトした集団から取られた、新しい未知のクラスをモデルが問合せするサブポピュレーションシフトである。 ニューラルネットワークは各クラスを他のクラスとは独立に扱うため、階層の上位レベルに依存するシフトする人口を分類するのに苦労する。 本研究では,新しい条件付き指導訓練フレームワークのレンズを用いて,上記の問題について検討する。 ラベルを通じて階層的情報を条件付きで組み込んだ構造的学習手順によって,サブポピュレーションシフトに取り組む。 さらに、誤予測の破滅的な効果をモデル化するためのグラフィカル距離の概念を導入する。 この構造的階層的手法による学習は,サブポピュレーションシフトに対してより強固なネットワークへと発展し,精度では約2%,サブポピュレーションシフトベンチマークでは標準モデル上でのグラフィカル距離では約8.5\%向上することを示した。

Over the past decade, deep neural networks have proven to be adept in image classification tasks, often surpassing humans in terms of accuracy. However, standard neural networks often fail to understand the concept of hierarchical structures and dependencies among different classes for vision related tasks. Humans on the other hand, seem to learn categories conceptually, progressively growing from understanding high-level concepts down to granular levels of categories. One of the issues arising from the inability of neural networks to encode such dependencies within its learned structure is that of subpopulation shift -- where models are queried with novel unseen classes taken from a shifted population of the training set categories. Since the neural network treats each class as independent from all others, it struggles to categorize shifting populations that are dependent at higher levels of the hierarchy. In this work, we study the aforementioned problems through the lens of a novel conditional supervised training framework. We tackle subpopulation shift by a structured learning procedure that incorporates hierarchical information conditionally through labels. Furthermore, we introduce a notion of graphical distance to model the catastrophic effect of mispredictions. We show that learning in this structured hierarchical manner results in networks that are more robust against subpopulation shifts, with an improvement of around ~2% in terms of accuracy and around 8.5\% in terms of graphical distance over standard models on subpopulation shift benchmarks.
翻訳日:2021-12-22 14:15:34 公開日:2021-12-20
# スノーボード大空気の時空間運動同期

Spatiotemporal Motion Synchronization for Snowboard Big Air ( http://arxiv.org/abs/2112.10909v1 )

ライセンス: Link先を確認
Seiji Matsumura, Dan Mikami, Naoki Saijo, Makio Kashino(参考訳) スノーボード・ビッグエアのトレーニング中は、最も人気のある冬季スポーツの一つであり、アスリートやコーチは、単一のカメラやスマートフォンを使ってジャンプの試みを広範囲に撮影し、チェックする。 しかし,ビデオの連続的な視聴では,2つの試行の精度差を比較することは困難である。 したがって、2つのビデオの並べ表示やオーバーレイはトレーニングに役立つかもしれない。 これを実現するためには、複数のパフォーマンスの空間的および時間的アライメントを確保する必要がある。 本研究では,スノーボード大空練習において,既存の画像処理技術を用いた従来型だが有効な手法を提案する。 プロのスノーボーダーにインタビューしたところ、時空間対応ビデオは身体の動きの微妙な違いを正確に識別することができた。 その結果,本手法はスノーボードビッグエアのトレーニングに使用できることが示唆された。

During the training for snowboard big air, one of the most popular winter sports, athletes and coaches extensively shoot and check their jump attempts using a single camera or smartphone. However, by watching videos sequentially, it is difficult to compare the precise difference in performance between two trials. Therefore, side-by-side display or overlay of two videos may be helpful for training. To accomplish this, the spatial and temporal alignment of multiple performances must be ensured. In this study, we propose a conventional but plausible solution using the existing image processing techniques for snowboard big air training. We conducted interviews with expert snowboarders who stated that the spatiotemporally aligned videos enabled them to precisely identify slight differences in body movements. The results suggest that the proposed method can be used during the training of snowboard big air.
翻訳日:2021-12-22 14:15:09 公開日:2021-12-20
# HarmoFL:異種医用画像のフェデレーション学習における局所的・グローバル的ドリフトの調和

HarmoFL: Harmonizing Local and Global Drifts in Federated Learning on Heterogeneous Medical Images ( http://arxiv.org/abs/2112.10775v1 )

ライセンス: Link先を確認
Meirui Jiang, Zirui Wang, Qi Dou(参考訳) 複数の医療機関が連携学習(fl)を用いてモデルを協調的に訓練することは、データ駆動モデルの可能性を最大化するための有望なソリューションとなっているが、医療画像における非独立かつ同一の分散(非iid)データは、現実のプラクティスにおいて依然として優れた課題である。 多様なスキャナやプロトコルによって引き起こされる特徴の不均一性は、ローカル(クライアント)とグローバル(サーバ)の最適化の両方において、学習プロセスにおけるドリフトを導入し、収束とモデルパフォーマンスを損なう。 以前の多くの著作は、ドリフトを局所的あるいはグローバル的に扱うことで、非iid問題に対処しようと試みてきたが、この2つの本質的に結合したドリフトの解決方法はまだ不明である。 本研究では,ローカルドリフトとグローバルドリフトの両方を扱うことに集中し,HarmoFLと呼ばれる新しい調和フレームワークを導入する。 まず、周波数領域に変換された画像の振幅を正規化し、統一的な撮像設定を模倣し、局所的な更新ドリフトを緩和し、局所的なクライアント間の調和した特徴空間を生成する。 第2に、調和した特徴に基づいて、局所最適解の近傍領域が均一に損失の少ない平坦な最適点に到達するよう各局所モデルに導くクライアント重量摂動を設計する。 余分な通信コストなしで、摂動はグローバルモデルがいくつかの局所的平面光学を集約することで収束した最適解に向かって最適化するのを支援する。 提案手法を理論的に解析し,3つの医用画像分類およびセグメンテーションタスクに関する広範な実験を行った。

Multiple medical institutions collaboratively training a model using federated learning (FL) has become a promising solution for maximizing the potential of data-driven models, yet the non-independent and identically distributed (non-iid) data in medical images is still an outstanding challenge in real-world practice. The feature heterogeneity caused by diverse scanners or protocols introduces a drift in the learning process, in both local (client) and global (server) optimizations, which harms the convergence as well as model performance. Many previous works have attempted to address the non-iid issue by tackling the drift locally or globally, but how to jointly solve the two essentially coupled drifts is still unclear. In this work, we concentrate on handling both local and global drifts and introduce a new harmonizing framework called HarmoFL. First, we propose to mitigate the local update drift by normalizing amplitudes of images transformed into the frequency domain to mimic a unified imaging setting, in order to generate a harmonized feature space across local clients. Second, based on harmonized features, we design a client weight perturbation guiding each local model to reach a flat optimum, where a neighborhood area of the local optimal solution has a uniformly low loss. Without any extra communication cost, the perturbation assists the global model to optimize towards a converged optimal solution by aggregating several local flat optima. We have theoretically analyzed the proposed method and empirically conducted extensive experiments on three medical image classification and segmentation tasks, showing that HarmoFL outperforms a set of recent state-of-the-art methods with promising convergence behavior.
翻訳日:2021-12-22 13:24:29 公開日:2021-12-20
# Hateful Memes Challenge: 強化されたマルチモーダルフレームワーク

Hateful Memes Challenge: An Enhanced Multimodal Framework ( http://arxiv.org/abs/2112.11244v1 )

ライセンス: Link先を確認
Aijing Gao, Bingjun Wang, Jiaqi Yin, Yating Tian(参考訳) Facebook AIが提案したHateful Meme Challengeは、世界中の参加者を惹きつけている。 この課題は、マルチモーダルミームにおけるヘイトフルスピーチの検出に焦点を当てている。 さまざまな最先端ディープラーニングモデルがこの問題に適用され、challengeのleaderboardのパフォーマンスも常に改善されている。 本稿では,特徴抽出に detectionron を活用すること,損失関数の異なる visualbert と uniter モデルの異なるセットアップを検討すること,ヘイトフルなミームとセンシティブなテキスト特徴の関係を研究すること,最後にはモデル性能を向上させるアンサンブル法を構築すること,など,ヘイトフル検出フレームワークを強化する。 細調整した VisualBERT, UNITER, およびアンサンブル法のAUROC は, それぞれ0.765, 0.790, 0.803 であり, ベースラインモデルを上回っている。 私たちのコードはhttps://github.com/yatingtian/hateful-memeで利用可能です。

Hateful Meme Challenge proposed by Facebook AI has attracted contestants around the world. The challenge focuses on detecting hateful speech in multimodal memes. Various state-of-the-art deep learning models have been applied to this problem and the performance on challenge's leaderboard has also been constantly improved. In this paper, we enhance the hateful detection framework, including utilizing Detectron for feature extraction, exploring different setups of VisualBERT and UNITER models with different loss functions, researching the association between the hateful memes and the sensitive text features, and finally building ensemble method to boost model performance. The AUROC of our fine-tuned VisualBERT, UNITER, and ensemble method achieves 0.765, 0.790, and 0.803 on the challenge's test set, respectively, which beats the baseline models. Our code is available at https://github.com/yatingtian/hateful-meme
翻訳日:2021-12-22 13:22:50 公開日:2021-12-20
# 木構造リワード関数を用いた予測型強化学習

Interpretable Preference-based Reinforcement Learning with Tree-Structured Reward Functions ( http://arxiv.org/abs/2112.11230v1 )

ライセンス: Link先を確認
Tom Bewley, Freddy Lecue(参考訳) 強化学習(RL)が整列剤を届ける可能性は、報酬工学の問題によって部分的にボトルネックとなる。 ヒューリスティックな試行錯誤の代替の1つは、ヒトの少ないフィードバックから報酬関数が推測される優先ベースのRL(PbRL)である。 しかし、以前のpbrl法は学習報酬構造の解釈可能性に欠けており、ロバスト性とアライメントを評価する能力が阻害される。 本稿では,木の構造を内在的に解釈して報酬関数を構成するオンライン能動的選好学習アルゴリズムを提案する。 合成フィードバックと人為フィードバックの両方を用いて,複数の環境における木構造報酬関数のサンプル効率の学習を実演し,改良された解釈可能性を利用してアライメントの探索とデバッグを行う。

The potential of reinforcement learning (RL) to deliver aligned and performant agents is partially bottlenecked by the reward engineering problem. One alternative to heuristic trial-and-error is preference-based RL (PbRL), where a reward function is inferred from sparse human feedback. However, prior PbRL methods lack interpretability of the learned reward structure, which hampers the ability to assess robustness and alignment. We propose an online, active preference learning algorithm that constructs reward functions with the intrinsically interpretable, compositional structure of a tree. Using both synthetic and human-provided feedback, we demonstrate sample-efficient learning of tree-structured reward functions in several environments, then harness the enhanced interpretability to explore and debug for alignment.
翻訳日:2021-12-22 13:20:24 公開日:2021-12-20
# (参考訳) 分散ロバスト群後方互換性

Distributionally Robust Group Backwards Compatibility ( http://arxiv.org/abs/2112.10290v1 )

ライセンス: CC BY 4.0
Martin Bertran, Natalia Martinez, Alex Oesterling, Guillermo Sapiro(参考訳) 機械学習モデルは、新しいデータが取得されたり、新しいアーキテクチャが開発されるにつれて更新される。 これらの更新はモデルのパフォーマンスを向上するが、個々のユーザやユーザグループが、更新されたモデルでのパフォーマンスに悪影響を及ぼすような、後方互換性のエラーを起こす可能性がある。 トレーニングデータセットが全人口人口を正確に反映していない場合、データ収集プロセスへの全体的な参加が低いグループもあり、かなりの公正さを懸念するグループもある。 本稿では,分散的ロバスト性とミニマックスフェアネスのアイデアが,このシナリオにおける後方互換性をいかに支援できるかを分析し,この問題を直接解決するための2つの方法を提案する。 我々は,CIFAR-10,CelebA,Waterbirdsの3つの標準画像分類データセットを用いて解析を行った。 github.com/natalialmg/GroupBCで利用可能なコード

Machine learning models are updated as new data is acquired or new architectures are developed. These updates usually increase model performance, but may introduce backward compatibility errors, where individual users or groups of users see their performance on the updated model adversely affected. This problem can also be present when training datasets do not accurately reflect overall population demographics, with some groups having overall lower participation in the data collection process, posing a significant fairness concern. We analyze how ideas from distributional robustness and minimax fairness can aid backward compatibility in this scenario, and propose two methods to directly address this issue. Our theoretical analysis is backed by experimental results on CIFAR-10, CelebA, and Waterbirds, three standard image classification datasets. Code available at github.com/natalialmg/GroupBC
翻訳日:2021-12-22 03:03:38 公開日:2021-12-20
# (参考訳) yawddを用いた畳み込みニューラルネットワークによるドライバの眠気検出

Driver Drowsiness Detection Using Ensemble Convolutional Neural Networks on YawDD ( http://arxiv.org/abs/2112.10298v1 )

ライセンス: CC BY 4.0
Rais Mohammad Salman, Mahbubur Rashid, Rupal Roy, Md Manjurul Ahsan, Zahed Siddique(参考訳) ビデオ/画像によるドライバーの眠気検出は、今日のドライバーの安全にとって最も重要な領域の1つである。 深層学習技術、特に畳み込みニューラルネットワーク(cnn)の開発は、眠気検出などのコンピュータビジョン応用に応用され、過去数十年で技術が大幅に増加したことによる有望な結果を示している。 閉じたり点滅したり、あくび、あくび、うなずき、オクルージョンといった目は、眠気の重要な側面である。 そこで本研究では,yawddデータセットに4つの異なる畳み込みニューラルネットワーク(cnn)手法を適用し,特定のポーズと咬合変動を伴うあくび頻度による眠気度の検出と検討を行った。 予備計算の結果,提案する畳み込みニューラルネットワーク(ecnn)は,従来のcnnベースのアプローチを0.935で上回り,他の3つのcnn(cnn1,cnn2,cnn3)はそれぞれ0.92,0.990,0.912f1となった。

Driver drowsiness detection using videos/images is one of the most essential areas in today's time for driver safety. The development of deep learning techniques, notably Convolutional Neural Networks (CNN), applied in computer vision applications such as drowsiness detection, has shown promising results due to the tremendous increase in technology in the recent few decades. Eyes that are closed or blinking excessively, yawning, nodding, and occlusion are all key aspects of drowsiness. In this work, we have applied four different Convolutional Neural Network (CNN) techniques on the YawDD dataset to detect and examine the extent of drowsiness depending on the yawning frequency with specific pose and occlusion variation. Preliminary computational results show that our proposed Ensemble Convolutional Neural Network (ECNN) outperformed the traditional CNN-based approach by achieving an F1 score of 0.935, whereas the other three CNN, such as CNN1, CNN2, and CNN3 approaches gained 0.92, 0.90, and 0.912 F1 scores, respectively.
翻訳日:2021-12-22 02:45:04 公開日:2021-12-20
# (参考訳) 大規模人口データベース上でのグラフネットワークを用いたモデルに基づく歩行認識

Model-based gait recognition using graph network on very large population database ( http://arxiv.org/abs/2112.10305v1 )

ライセンス: CC BY 4.0
Zhihao Wang, Chaoying Tang(参考訳) 現在,既存の歩行認識システムはシルエット画像から頑健な歩行特徴を抽出する手法の開発に重点を置いており,大きな成功を収めている。 しかし、歩行は衣服や携帯品などの外観に敏感である。 外観に基づく手法と比較すると,これらの変動に対する堅牢性から,モデルに基づく歩行認識が期待できる。 近年,人間のポーズ推定の発達に伴い,モデルに基づく歩行認識手法の難しさが軽減されている。 本稿では,被験者の増加とビューの変動に抵抗するため,局所的な特徴を構築し,同じ被験者からのサンプルの距離を最大化するために,サイムズネットワークを提案する。 近年の行動認識の進歩を活かして、ベクターに人間のポーズシーケンスを埋め込み、歩行認識に一般的に用いられている空間-時間グラフ畳み込みブロック(stgcb)を導入する。 OUMVLP-Poseと一般的なデータセットであるCASIA-Bについて実験した結果,本手法はモデルに基づく歩行認識におけるSOTA(State-of-the-art)のパフォーマンスをアーカイブしていることがわかった。 私たちのメソッドのコードとモデルは、受け入れ後、https://github.com/timelessnaive/Gait-for-Large-Datasetで利用可能です。

At present, the existing gait recognition systems are focusing on developing methods to extract robust gait feature from silhouette images and they indeed achieved great success. However, gait can be sensitive to appearance features such as clothing and carried items. Compared with appearance-based method, model-based gait recognition is promising due to the robustness against these variations. In recent years, with the development of human pose estimation, the difficulty of model-based gait recognition methods has been mitigated. In this paper, to resist the increase of subjects and views variation, local features are built and a siamese network is proposed to maximize the distance of samples from the same subject. We leverage recent advances in action recognition to embed human pose sequence to a vector and introduce Spatial-Temporal Graph Convolution Blocks (STGCB) which has been commonly used in action recognition for gait recognition. Experiments on the very large population dataset named OUMVLP-Pose and the popular dataset, CASIA-B, show that our method archives some state-of-the-art (SOTA) performances in model-based gait recognition. The code and models of our method are available at https://github.com/timelessnaive/Gait-for-Large-Dataset after being accepted.
翻訳日:2021-12-22 02:35:47 公開日:2021-12-20
# (参考訳) 集中場推定による顔完成のためのコントラスト注意ネットワーク

Contrastive Attention Network with Dense Field Estimation for Face Completion ( http://arxiv.org/abs/2112.10310v1 )

ライセンス: CC BY 4.0
Xin Ma, Xiaoqiang Zhou, Huaibo Huang, Gengyun Jia, Zhenhua Chai, Xiaolin Wei(参考訳) 現代の顔補完アプローチのほとんどは、顔画像の欠落領域を復元するためにオートエンコーダまたはその変種を採用する。 エンコーダは、高度な学習タスクの課題を満たす上で重要な役割を果たす強力な表現を学ぶためにしばしば利用される。 特に、様々な種類のマスクが野生の顔画像に表示され、特にcovid-19の厳しい時期に複雑なパターンを形成している。 このような複雑な状況下で、エンコーダがこのような強力な表現をキャプチャするのは困難です。 この課題に対処するために,エンコーダの一般化とロバスト性を改善する自己教師型シームズ推論ネットワークを提案する。 フル解像度画像から文脈意味をエンコードし、より識別的な表現を得ることができる。 顔画像の幾何学的変化に対処するために、密接な対応フィールドをネットワークに統合する。 さらに,復元された領域と既知の領域を適応的に結合可能なdaf(dual attention fusion module)を備えたマルチスケールデコーダを提案する。 このマルチスケールアーキテクチャは、デコーダがエンコーダから画像に学習した識別表現を利用するために有用である。 広範な実験により,提案手法は最先端の手法よりも魅力的な結果を得るだけでなく,マスク付き顔認識の性能を劇的に向上させることが明らかとなった。

Most modern face completion approaches adopt an autoencoder or its variants to restore missing regions in face images. Encoders are often utilized to learn powerful representations that play an important role in meeting the challenges of sophisticated learning tasks. Specifically, various kinds of masks are often presented in face images in the wild, forming complex patterns, especially in this hard period of COVID-19. It's difficult for encoders to capture such powerful representations under this complex situation. To address this challenge, we propose a self-supervised Siamese inference network to improve the generalization and robustness of encoders. It can encode contextual semantics from full-resolution images and obtain more discriminative representations. To deal with geometric variations of face images, a dense correspondence field is integrated into the network. We further propose a multi-scale decoder with a novel dual attention fusion module (DAF), which can combine the restored and known regions in an adaptive manner. This multi-scale architecture is beneficial for the decoder to utilize discriminative representations learned from encoders into images. Extensive experiments clearly demonstrate that the proposed approach not only achieves more appealing results compared with state-of-the-art methods but also improves the performance of masked face recognition dramatically.
翻訳日:2021-12-22 02:24:19 公開日:2021-12-20
# (参考訳) 音韻バック音訳を用いた英語対中国語音訳

English-to-Chinese Transliteration with Phonetic Back-transliteration ( http://arxiv.org/abs/2112.10321v1 )

ライセンス: CC BY 4.0
Shi Cheng, Zhuofei Ding and Songpeng Yan(参考訳) 音素の類似性に基づいて、名前付きエンティティを言語から別の言語に翻訳するタスクである。 このタスクは近年、ディープラーニングのアプローチを採用していますが、ほとんどが関連する言語の音声的特徴を無視しています。 本研究では,音韻情報をニューラルネットワークに組み込む手法として,前置音と後置音節を用いた追加データ合成と,音韻学習前に音韻課題のモデル事前学習を行った。 実験は,中国語,ヘブライ語,タイ語の3つの言語対と6つの方向について行った。 結果から,提案手法はモデルにメリットをもたらし,最先端技術と比較して優れた性能,あるいは類似した性能を実現することが示唆された。

Transliteration is a task of translating named entities from a language to another, based on phonetic similarity. The task has embraced deep learning approaches in recent years, yet, most ignore the phonetic features of the involved languages. In this work, we incorporate phonetic information into neural networks in two ways: we synthesize extra data using forward and back-translation but in a phonetic manner; and we pre-train models on a phonetic task before learning transliteration. Our experiments include three language pairs and six directions, namely English to and from Chinese, Hebrew and Thai. Results indicate that our proposed approach brings benefits to the model and achieves better or similar performance when compared to state of the art.
翻訳日:2021-12-22 02:03:01 公開日:2021-12-20
# (参考訳) メモリ強化キーセンテンスマッチングによる前Fact-Checked Claimの検出

Article Reranking by Memory-Enhanced Key Sentence Matching for Detecting Previously Fact-Checked Claims ( http://arxiv.org/abs/2112.10322v1 )

ライセンス: CC BY-SA 4.0
Qiang Sheng, Juan Cao, Xueyao Zhang, Xirong Li, Lei Zhong(参考訳) 事実確認済みの虚偽の主張は、今でもソーシャルメディアに広まる可能性がある。 継続的な拡散を緩和するには、事前の事実確認クレームの検出が不可欠である。 既存の研究は、BM25が取得した候補事実チェック記事(FC-articles)を再評価することで、検出の証拠を提供することに重点を置いている。 しかし、これらの性能は、FC-アーティクルの次の特徴を無視しているため、制限される可能性がある:(1)クレームは、チェックイベントを記述するためにしばしば引用され、セマンティクス以外の語彙情報を提供する。 2つの側面を無視するモデルは意味的関連性のみを利用し、類似しているが無関係な事象を記述する文によって誤解されることがある。 本稿では、イベント(語彙と意味)とパターン情報から選択したキー文を用いて、FCアーティクルをランク付けする新しいリランカ MTM (Memory-enhanced Transformer for Matching) を提案する。 イベント情報に対しては,ROUGEの回帰を微調整したROUGE誘導変換器を提案する。 パターン情報に対して,文と一致するパターンベクトルを生成する。 イベント情報とパターン情報を融合することにより、記事を表すキー文を選択し、その記事がクレーム、キー文、パターンを用いてクレームを事実チェックするかどうかを予測する。 2つの実世界のデータセットの実験では、MTMが既存の手法より優れていることが示されている。 人間の評価は、MTMが説明のために重要な文をキャプチャできることを証明する。 コードとデータセットはhttps://github.com/ICTMCG/MTMにある。

False claims that have been previously fact-checked can still spread on social media. To mitigate their continual spread, detecting previously fact-checked claims is indispensable. Given a claim, existing works focus on providing evidence for detection by reranking candidate fact-checking articles (FC-articles) retrieved by BM25. However, these performances may be limited because they ignore the following characteristics of FC-articles: (1) claims are often quoted to describe the checked events, providing lexical information besides semantics; (2) sentence templates to introduce or debunk claims are common across articles, providing pattern information. Models that ignore the two aspects only leverage semantic relevance and may be misled by sentences that describe similar but irrelevant events. In this paper, we propose a novel reranker, MTM (Memory-enhanced Transformers for Matching) to rank FC-articles using key sentences selected with event (lexical and semantic) and pattern information. For event information, we propose a ROUGE-guided Transformer which is finetuned with regression of ROUGE. For pattern information, we generate pattern vectors for matching with sentences. By fusing event and pattern information, we select key sentences to represent an article and then predict if the article fact-checks the given claim using the claim, key sentences, and patterns. Experiments on two real-world datasets show that MTM outperforms existing methods. Human evaluation proves that MTM can capture key sentences for explanations. The code and the dataset are at https://github.com/ICTMCG/MTM.
翻訳日:2021-12-22 01:53:37 公開日:2021-12-20
# (参考訳) 完全自動欠陥検出における製品再同定システム

Product Re-identification System in Fully Automated Defect Detection ( http://arxiv.org/abs/2112.10324v1 )

ライセンス: CC BY 4.0
Chenggui Sun and Li Bin Song(参考訳) 本研究では,完全自動製品欠陥検出システムの基本機能である製品再同定を行うための手法と改良されたニューラルワークを提案する。 我々の手法は特徴距離に基づいている。 これは、vgg16、alexnetのような特徴抽出ニューラルネットワークと、画像検索エンジンであるvearchとの組み合わせである。 製品再識別システムの開発に使用したデータセットは,18種類の水のボトルの400画像からなる水ボトルデータセットである。 これは小さなデータセットで、私たちの仕事で最大の課題でした。 しかし、ニューラルネットワークとvearchの組み合わせは、製品の再識別問題に取り組む可能性を示しています。 特に、新しいニューラルネットワークであるAlphaAlexNetでは、AlexNetに基づくニューラルネットワークの改善により、生産の識別精度が4%向上する可能性がある。 これは、ほぼ同一製品の画像特徴抽出のために効率的な特徴抽出手法を導入して再設計できる場合に、理想的な生産識別精度が得られることを示している。 データセットの小さなサイズと、互いにほとんど違いのないプロダクションを特定することの難しい性質によって引き起こされる最大の課題を解決する。 今後の作業では、ほぼ同一のプロダクション識別に取り組むための新しいロードマップを提案しています。

In this work, we introduce a method and present an improved neural work to perform product re-identification, which is an essential core function of a fully automated product defect detection system. Our method is based on feature distance. It is the combination of feature extraction neural networks, such as VGG16, AlexNet, with an image search engine - Vearch. The dataset that we used to develop product re-identification systems is a water-bottle dataset that consists of 400 images of 18 types of water bottles. This is a small dataset, which was the biggest challenge of our work. However, the combination of neural networks with Vearch shows potential to tackle the product re-identification problems. Especially, our new neural network - AlphaAlexNet that a neural network was improved based on AlexNet could improve the production identification accuracy by four percent. This indicates that an ideal production identification accuracy could be achieved when efficient feature extraction methods could be introduced and redesigned for image feature extractions of nearly identical products. In order to solve the biggest challenges caused by the small size of the dataset and the difficult nature of identifying productions that have little differences from each other. In our future work, we propose a new roadmap to tackle nearly-identical production identifications: to introduce or develop new algorithms that need very few images to train themselves.
翻訳日:2021-12-22 01:33:03 公開日:2021-12-20
# (参考訳) 分類校正:予測されたクラス確率の評価と改善方法:調査

Classifier Calibration: How to assess and improve predicted class probabilities: a survey ( http://arxiv.org/abs/2112.10327v1 )

ライセンス: CC BY 4.0
Telmo Silva Filho, Hao Song, Miquel Perello-Nieto, Raul Santos-Rodriguez, Meelis Kull, Peter Flach(参考訳) 本稿では,分類器校正の原理と実践の概要について概説する。 well-calibrated classifierは、インスタンス毎の予測に関連する不確実性や信頼性のレベルを正しく定量化する。 これは、重要なアプリケーション、最適な意思決定、コストに敏感な分類、ある種のコンテキスト変更に不可欠である。 校正研究は、何十年にもわたって学術分野としての機械学習の誕生以前の豊富な歴史を持っている。 しかし、近年のキャリブレーションへの関心の高まりにより、新しいメソッドやバイナリーからマルチクラス設定への拡張がもたらされている。 選択肢と考慮すべき課題の空間は大きく、それをナビゲートするには適切な概念とツールが必要です。 評価基準や評価基準,可視化手法,バイナリ分類とマルチクラス分類のためのポストホックキャリブレーション手法の包括的説明,いくつかの高度なトピックを含む,主要な概念と手法の紹介資料と最新の技術詳細の両方を提供する。

This paper provides both an introduction to and a detailed overview of the principles and practice of classifier calibration. A well-calibrated classifier correctly quantifies the level of uncertainty or confidence associated with its instance-wise predictions. This is essential for critical applications, optimal decision making, cost-sensitive classification, and for some types of context change. Calibration research has a rich history which predates the birth of machine learning as an academic field by decades. However, a recent increase in the interest on calibration has led to new methods and the extension from binary to the multiclass setting. The space of options and issues to consider is large, and navigating it requires the right set of concepts and tools. We provide both introductory material and up-to-date technical details of the main concepts and methods, including proper scoring rules and other evaluation metrics, visualisation approaches, a comprehensive account of post-hoc calibration methods for binary and multiclass classification, and several advanced topics.
翻訳日:2021-12-22 01:14:56 公開日:2021-12-20
# (参考訳) 教師なし・半教師付きグラフ表現学習法に関する総合的分析

A Comprehensive Analytical Survey on Unsupervised and Semi-Supervised Graph Representation Learning Methods ( http://arxiv.org/abs/2112.10372v1 )

ライセンス: CC BY 4.0
Md. Khaledur Rahman and Ariful Azad(参考訳) グラフ表現学習は、主要な目的の1つは、低次元空間におけるグラフの有意義な表現を生成することである。 学習された埋め込みは、リンク予測、ノード分類、クラスタリング、可視化などの様々な予測タスクにうまく適用されている。 グラフ学習コミュニティの集団的取り組みは何百もの方法を提供してきたが、予測精度、実行時間、スケーラビリティなど、すべての評価基準の下では、単一の方法が優れているものはない。 本調査は,アルゴリズムのバリエーション,パラメータの選択,拡張性,ハードウェアおよびソフトウェアプラットフォーム,下流MLタスク,多様なデータセットを考慮し,グラフ埋め込み手法のすべての主要なクラスを評価することを目的とする。 我々は,手動の特徴工学,行列分解,浅部ニューラルネットワーク,深部グラフ畳み込みネットワークなどの手法を含む分類学を用いてグラフ埋め込み手法を編成した。 広く使われているベンチマークグラフを用いて,ノード分類,リンク予測,クラスタリング,可視化タスクなどのアルゴリズムのクラスを評価した。 我々はPyTorch GeometricおよびDGLライブラリ上で実験を設計し、異なるマルチコアCPUおよびGPUプラットフォーム上で実験を行った。 各種性能指標に基づく埋め込み手法の性能を精査し,結果を要約する。 そこで本論文は,タスクに適したメソッドをユーザが選択するための比較ガイドとして機能する。

Graph representation learning is a fast-growing field where one of the main objectives is to generate meaningful representations of graphs in lower-dimensional spaces. The learned embeddings have been successfully applied to perform various prediction tasks, such as link prediction, node classification, clustering, and visualization. The collective effort of the graph learning community has delivered hundreds of methods, but no single method excels under all evaluation metrics such as prediction accuracy, running time, scalability, etc. This survey aims to evaluate all major classes of graph embedding methods by considering algorithmic variations, parameter selections, scalability, hardware and software platforms, downstream ML tasks, and diverse datasets. We organized graph embedding techniques using a taxonomy that includes methods from manual feature engineering, matrix factorization, shallow neural networks, and deep graph convolutional networks. We evaluated these classes of algorithms for node classification, link prediction, clustering, and visualization tasks using widely used benchmark graphs. We designed our experiments on top of PyTorch Geometric and DGL libraries and run experiments on different multicore CPU and GPU platforms. We rigorously scrutinize the performance of embedding methods under various performance metrics and summarize the results. Thus, this paper may serve as a comparative guide to help users select methods that are most suitable for their tasks.
翻訳日:2021-12-22 01:13:48 公開日:2021-12-20
# (参考訳) 有限帯域におけるグラフ情報スロットネックを用いたマルチエージェント通信(位置紙)

Multi-agent Communication with Graph Information Bottleneck under Limited Bandwidth (a position paper) ( http://arxiv.org/abs/2112.10374v1 )

ライセンス: CC BY 4.0
Qi Tian, Kun Kuang, Baoxiang Wang, Furui Liu, Fei Wu(参考訳) 近年の研究では、エージェント間のコミュニケーションの導入により、協調型マルチエージェント強化学習(MARL)における全体的なパフォーマンスが著しく向上することが示されている。 多くの現実のシナリオでは、通信は高価であり、マルチエージェントシステムの帯域幅には一定の制約が課される。 通信資源を占有する冗長なメッセージは、情報的メッセージの送信をブロックし、パフォーマンスを損なう。 本稿では,最小限のコミュニケーションメッセージを学習することを目的とする。 まず、エージェント間のコミュニケーションを完全なグラフで開始する。 次に、この完全グラフにグラフ情報ボトルネック(GIB)の原理を導入し、グラフ構造に対する最適化を導出する。 この最適化に基づいて,通信グラフの構造情報とノード情報を効果的に圧縮し,帯域幅制限された設定を扱う,新しいマルチエージェント通信モジュールCommGIBを提案する。 交通制御とスタンクラフトIIの大規模な実験が行われた。 その結果,提案手法は最先端アルゴリズムに比べて帯域制限された設定で性能が向上し,特に大規模マルチエージェントタスクでは大きなマージンが得られた。

Recent studies have shown that introducing communication between agents can significantly improve overall performance in cooperative Multi-agent reinforcement learning (MARL). In many real-world scenarios, communication can be expensive and the bandwidth of the multi-agent system is subject to certain constraints. Redundant messages who occupy the communication resources can block the transmission of informative messages and thus jeopardize the performance. In this paper, we aim to learn the minimal sufficient communication messages. First, we initiate the communication between agents by a complete graph. Then we introduce the graph information bottleneck (GIB) principle into this complete graph and derive the optimization over graph structures. Based on the optimization, a novel multi-agent communication module, called CommGIB, is proposed, which effectively compresses the structure information and node information in the communication graph to deal with bandwidth-constrained settings. Extensive experiments in Traffic Control and StanCraft II are conducted. The results indicate that the proposed methods can achieve better performance in bandwidth-restricted settings compared with state-of-the-art algorithms, with especially large margins in large-scale multi-agent tasks.
翻訳日:2021-12-22 00:37:03 公開日:2021-12-20
# (参考訳) 最適および近最適一様定数を持つ準一様設計

Quasi-uniform designs with optimal and near-optimal uniformity constant ( http://arxiv.org/abs/2112.10401v1 )

ライセンス: CC BY 4.0
Luc Pronzato and Anatoly Zhigljavsky(参考訳) 設計は、与えられた集合 $x$ の異なる点の集合であり、これは $r^d$ のコンパクト部分集合であると仮定され、設計のメッシュ比は、その充填距離と分離半径の比である。 ネストされた設計の列の均一性定数は、設計のメッシュ比に対する最小の上限である。 この一様性定数上の下界を導出し、単純な欲求構造がこの下界を達成することを示す。 そして、このスキームを拡張して、設計構成の柔軟性を高めます。

A design is a collection of distinct points in a given set $X$, which is assumed to be a compact subset of $R^d$, and the mesh-ratio of a design is the ratio of its fill distance to its separation radius. The uniformity constant of a sequence of nested designs is the smallest upper bound for the mesh-ratios of the designs. We derive a lower bound on this uniformity constant and show that a simple greedy construction achieves this lower bound. We then extend this scheme to allow more flexibility in the design construction.
翻訳日:2021-12-22 00:20:00 公開日:2021-12-20
# (参考訳) キーポイントマスクを用いた画像アニメーション

Image Animation with Keypoint Mask ( http://arxiv.org/abs/2112.10457v1 )

ライセンス: CC BY 4.0
Or Toledano, Yanir Marmor, Dov Gertz(参考訳) モーショントランスファー(motion transfer)は、与えられた駆動ビデオからの動作に応じて、単一のソースイメージの将来のビデオフレームを合成するタスクである。 この課題は、動きの表現の複雑さと、駆動映像とソース画像との未知の関係により困難である。 この困難にもかかわらず、この問題は近年の研究から大きな関心を集め、徐々に改善された。 この問題は、キーポイント運動から運動を抽出することでしばしば解決される動きと外観の分離と考えることができる。 私たちは、任意のオブジェクトにアニメーションを適用し、入力の構造にドメイン固有のモデルを加えることなく、汎用的で教師なしの設定に取り組むことにしました。 本研究では,キーポイントヒートマップから,明示的な運動表現を使わずに構造を抽出する。 そして、画像及び映像からの構造体を抽出して、ディープジェネレータにより、映像に応じて画像に反動させる。

Motion transfer is the task of synthesizing future video frames of a single source image according to the motion from a given driving video. This task is challenging due to the complexity of motion representation and the unknown relations between the driving video and the source image. Despite this difficulty, this problem attracted great interests from researches at the recent years, with gradual improvements. The problem can be thought as decoupling of motion and appearance, which is often solved by extracting the motion from keypoint movement. We chose to tackle the generic, unsupervised setting, where we need to apply animation to any arbitrary object, without any domain specific model for the structure of the input. In this work, we extract the structure from a keypoint heatmap, without an explicit motion representation. Then, the structures from the image and the video are extracted to warp the image according to the video, by a deep generator.
翻訳日:2021-12-22 00:00:52 公開日:2021-12-20
# (参考訳) 共同入札のための安全マルチエージェント深部強化学習と生成ユニットのメンテナンススケジューリング

Safe multi-agent deep reinforcement learning for joint bidding and maintenance scheduling of generation units ( http://arxiv.org/abs/2112.10459v1 )

ライセンス: CC BY 4.0
Pegah Rokhforoz, Olga Fink(参考訳) 本稿では,競争型電力市場環境における入札決定とユニットメンテナンススケジューリングのための安全強化学習アルゴリズムを提案する。 この問題において、各ユニットは収益を最大化する入札戦略を探し、同時に、予防的保守のスケジューリングによって信頼性を保ち続けることを目指している。 メンテナンスのスケジューリングは、常に満足すべき安全上の制約を提供します。 生成ユニットが互いの入札戦略の不完全な情報を持っている間、臨界安全性と信頼性の制約を満足することは難しい問題である。 バイレベル最適化と強化学習は、この種の問題を解決するための最先端のアプローチである。 しかし、二段階最適化や強化学習は、不完全な情報や重要な安全性の制約に対処できない。 これらの課題に対処するために,強化学習と予測安全フィルタを組み合わせた,安全な深い決定論的ポリシー勾配強化学習アルゴリズムを提案する。 本ケーススタディでは,提案手法がシステム安全性の制約を満たしながら,他の技術手法と比較して高い利益を得られることを実証する。

This paper proposes a safe reinforcement learning algorithm for generation bidding decisions and unit maintenance scheduling in a competitive electricity market environment. In this problem, each unit aims to find a bidding strategy that maximizes its revenue while concurrently retaining its reliability by scheduling preventive maintenance. The maintenance scheduling provides some safety constraints which should be satisfied at all times. Satisfying the critical safety and reliability constraints while the generation units have an incomplete information of each others' bidding strategy is a challenging problem. Bi-level optimization and reinforcement learning are state of the art approaches for solving this type of problems. However, neither bi-level optimization nor reinforcement learning can handle the challenges of incomplete information and critical safety constraints. To tackle these challenges, we propose the safe deep deterministic policy gradient reinforcement learning algorithm which is based on a combination of reinforcement learning and a predicted safety filter. The case study demonstrates that the proposed approach can achieve a higher profit compared to other state of the art methods while concurrently satisfying the system safety constraints.
翻訳日:2021-12-21 23:53:00 公開日:2021-12-20
# (参考訳) ドメイン適応のための相互正規化

Reciprocal Normalization for Domain Adaptation ( http://arxiv.org/abs/2112.10474v1 )

ライセンス: CC0 1.0
Zhiyong Huang, Kekai Sheng, Ke Li, Jian Liang, Taiping Yao, Weiming Dong, Dengwen Zhou, Xing Sun(参考訳) バッチ正規化(BN)は、ドメイン関連の知識を表すことが示され、非教師なしドメイン適応(UDA)のようなドメイン横断タスクには効果がない現代のディープニューラルネットワークで広く使われている。 既存のbn変種メソッドは、正規化モジュールで同じチャネルでソースとターゲットのドメイン知識を集約する。 しかし、ドメイン間の対応するチャネルの特徴の相違は、しばしば準最適転送可能性をもたらす。 本稿では,クロスドメイン関係を利用し,新しい正規化法であるreciprocal normalization (rn)を提案する。 具体的には、RNがまずReciprocal Compensation(RC)モジュールを提示し、クロスドメインチャネルワイズ相関に基づいて、両方のドメインの各チャネルの補償を取得する。 次にRNは相互集約(Reciprocal Aggregation, RA)モジュールを開発し、その機能をクロスドメイン補償コンポーネントで適応的に集約する。 BN の代替として、RN は UDA 問題により適しており、一般的な領域適応法に容易に組み込むことができる。 実験により、提案されたRNは既存の正規化よりも大きなマージンで優れており、最先端の適応アプローチがより良い結果を得るのに役立つことが示された。 ソースコードはhttps://github.com/openning07/reciprocal-normalization-for-daで入手できる。

Batch normalization (BN) is widely used in modern deep neural networks, which has been shown to represent the domain-related knowledge, and thus is ineffective for cross-domain tasks like unsupervised domain adaptation (UDA). Existing BN variant methods aggregate source and target domain knowledge in the same channel in normalization module. However, the misalignment between the features of corresponding channels across domains often leads to a sub-optimal transferability. In this paper, we exploit the cross-domain relation and propose a novel normalization method, Reciprocal Normalization (RN). Specifically, RN first presents a Reciprocal Compensation (RC) module to acquire the compensatory for each channel in both domains based on the cross-domain channel-wise correlation. Then RN develops a Reciprocal Aggregation (RA) module to adaptively aggregate the feature with its cross-domain compensatory components. As an alternative to BN, RN is more suitable for UDA problems and can be easily integrated into popular domain adaptation methods. Experiments show that the proposed RN outperforms existing normalization counterparts by a large margin and helps state-of-the-art adaptation approaches achieve better results. The source code is available on https://github.com/Openning07/reciprocal-normalization-for-DA.
翻訳日:2021-12-21 23:37:45 公開日:2021-12-20
# (参考訳) ScanQA:空間的場面理解のための3次元質問応答

ScanQA: 3D Question Answering for Spatial Scene Understanding ( http://arxiv.org/abs/2112.10482v1 )

ライセンス: CC BY 4.0
Daichi Azuma, Taiki Miyanishi, Shuhei Kurita and Motoki Kawanabe(参考訳) 3次元質問応答(3d-qa)による空間理解タスクを提案する。 3D-QAタスクでは、リッチなRGB-D屋内スキャンの3Dシーン全体から視覚情報を受け取り、与えられた3Dシーンに関するテキスト質問に答える。 VQAの2D質問応答とは異なり、従来の2D-QAモデルは、オブジェクトのアライメントと方向の空間的理解の問題に悩まされ、3D-QAのテキスト質問からオブジェクトのローカライゼーションに失敗する。 ScanQAモデルと呼ばれる3D-QAのベースラインモデルを提案し、3Dオブジェクトの提案とエンコードされた文埋め込みから融合記述子を学習する。 この学習されたディスクリプタは、言語表現と3dスキャンの基本的な幾何学的特徴を相関させ、3dバウンディングボックスの回帰を促進し、テキスト質問で記述されたオブジェクトを決定する。 3dシーンごとに3dオブジェクトに接する自由形式の回答で,人間による質問応答ペアを収集した。 私たちの新しいScanQAデータセットには、ScanNetデータセットから描かれた800の屋内シーンから41万以上の質問応答ペアが含まれています。 我々の知る限りでは、ScanQAは3D環境でオブジェクト指向の質問応答を行うための最初の大規模取り組みである。

We propose a new 3D spatial understanding task of 3D Question Answering (3D-QA). In the 3D-QA task, models receive visual information from the entire 3D scene of the rich RGB-D indoor scan and answer the given textual questions about the 3D scene. Unlike the 2D-question answering of VQA, the conventional 2D-QA models suffer from problems with spatial understanding of object alignment and directions and fail the object localization from the textual questions in 3D-QA. We propose a baseline model for 3D-QA, named ScanQA model, where the model learns a fused descriptor from 3D object proposals and encoded sentence embeddings. This learned descriptor correlates the language expressions with the underlying geometric features of the 3D scan and facilitates the regression of 3D bounding boxes to determine described objects in textual questions. We collected human-edited question-answer pairs with free-form answers that are grounded to 3D objects in each 3D scene. Our new ScanQA dataset contains over 41K question-answer pairs from the 800 indoor scenes drawn from the ScanNet dataset. To the best of our knowledge, ScanQA is the first large-scale effort to perform object-grounded question-answering in 3D environments.
翻訳日:2021-12-21 23:15:34 公開日:2021-12-20
# (参考訳) 顔声連合改善のための固定と直交投影

Fusion and Orthogonal Projection for Improved Face-Voice Association ( http://arxiv.org/abs/2112.10483v1 )

ライセンス: CC BY 4.0
Muhammad Saad Saeed, Muhammad Haris Khan, Shah Nawaz, Muhammad Haroon Yousaf, Alessio Del Bue(参考訳) 近年,コンピュータビジョンコミュニティへの関心が高まっている顔と音声の学習関連の問題について検討する。 先行研究では、ペアワイズまたはトリプルトロスの定式化を採用し、関連するマッチングおよび検証タスクのための埋め込み空間を学習する。 しかし、そのような損失定式化は、距離依存のマージンパラメータへの依存、実行時のトレーニングの複雑さの低さ、慎重に作られた負のマイニング手順への依存などにより制限される。 本研究は, 顔・声の関連を改善するために, 特徴表現の充実と, 効果的かつ効率的な監督が不可欠であると仮定する。 そこで本研究では,両モードの相補的手がかりを利用して,密集した融合埋め込みを形成し,直交制約を通した識別ラベルに基づいてクラスタ化する軽量なプラグアンドプレイ機構を提案する。 提案するメカニズムをfop(fusion and orthogonal projection)として考案し,2ストリームパイプラインでインスタンス化する。 全体的なフレームワークは、クロスモーダル検証やマッチングなど、さまざまなタスクを備えた大規模なVoxCelebデータセットで評価される。 その結果,本手法は現在の手法に対して好適に動作し,提案手法は現代手法よりも効率的かつ効率的であることがわかった。

We study the problem of learning association between face and voice, which is gaining interest in the computer vision community lately. Prior works adopt pairwise or triplet loss formulations to learn an embedding space amenable for associated matching and verification tasks. Albeit showing some progress, such loss formulations are, however, restrictive due to dependency on distance-dependent margin parameter, poor run-time training complexity, and reliance on carefully crafted negative mining procedures. In this work, we hypothesize that enriched feature representation coupled with an effective yet efficient supervision is necessary in realizing a discriminative joint embedding space for improved face-voice association. To this end, we propose a light-weight, plug-and-play mechanism that exploits the complementary cues in both modalities to form enriched fused embeddings and clusters them based on their identity labels via orthogonality constraints. We coin our proposed mechanism as fusion and orthogonal projection (FOP) and instantiate in a two-stream pipeline. The overall resulting framework is evaluated on a large-scale VoxCeleb dataset with a multitude of tasks, including cross-modal verification and matching. Results show that our method performs favourably against the current state-of-the-art methods and our proposed supervision formulation is more effective and efficient than the ones employed by the contemporary methods.
翻訳日:2021-12-21 22:37:12 公開日:2021-12-20
# (参考訳) 認証フェデレーション・ディベクショナル・トレーニング

Certified Federated Adversarial Training ( http://arxiv.org/abs/2112.10525v1 )

ライセンス: CC BY 4.0
Giulio Zizzo, Ambrish Rawat, Mathieu Sinn, Sergio Maffeis, Chris Hankin(参考訳) フェデレーション学習(fl)では,悪意のあるクライアントから保護するためのロバストアグリゲーションスキームが開発されている。 多くのロバスト集約スキームは、労働者のクォーラムに存在する一定の数の良性クライアントに依存している。 これは、クライアントが自由に参加できる場合や、アイドルシステムステータスや電力やwi-fiに接続している場合の保証が難しい場合があります。 我々は、労働者のクォーラムが完全に悪意のある場合、FLシステムが敵の訓練を行うシナリオに取り組む。 我々は、モデルに毒を盛った攻撃者が敵のトレーニングに弱点を挿入し、そのモデルが明らかに敵の堅牢性を示すようにし、一方攻撃者は、挿入された弱点を利用して敵のトレーニングを回避し、敵の例を誤分類するよう強制することができる。 このようなステルス攻撃を検出し、破損したモデル更新をブロックするために、抽象解釈技術を使用します。 この防御は適応攻撃者に対しても敵の強固さを保てることを示す。

In federated learning (FL), robust aggregation schemes have been developed to protect against malicious clients. Many robust aggregation schemes rely on certain numbers of benign clients being present in a quorum of workers. This can be hard to guarantee when clients can join at will, or join based on factors such as idle system status, and connected to power and WiFi. We tackle the scenario of securing FL systems conducting adversarial training when a quorum of workers could be completely malicious. We model an attacker who poisons the model to insert a weakness into the adversarial training such that the model displays apparent adversarial robustness, while the attacker can exploit the inserted weakness to bypass the adversarial training and force the model to misclassify adversarial examples. We use abstract interpretation techniques to detect such stealthy attacks and block the corrupted model updates. We show that this defence can preserve adversarial robustness even against an adaptive attacker.
翻訳日:2021-12-21 22:26:48 公開日:2021-12-20
# (参考訳) NetKet 3: マルチボディ量子システムのための機械学習ツールボックス

NetKet 3: Machine Learning Toolbox for Many-Body Quantum Systems ( http://arxiv.org/abs/2112.10526v1 )

ライセンス: CC BY 4.0
Filippo Vicentini, Damian Hofmann, Attila Szab\'o, Dian Wu, Christopher Roth, Clemens Giuliani, Gabriel Pescia, Jannes Nys, Vladimir Vargas-Calderon, Nikita Astrakhantsev and Giuseppe Carleo(参考訳) 我々は多体量子物理学のための機械学習ツールボックスNetKetのバージョン3を紹介する。 NetKetはニューラルネットワーク量子状態を中心に構築されており、評価と最適化のために効率的なアルゴリズムを提供する。 この新バージョンは、pythonプログラミング言語用の微分可能プログラミングおよび加速線形代数フレームワークであるjax上に構築されている。 最も重要な新機能は、任意のニューラルネットワークans\"atzeを純粋なpythonコードで定義できることだ。機械学習フレームワークの簡潔な表記を使って、ジャストインタイムコンパイルと自動微分による暗黙的な勾配生成が可能になる。 NetKet 3にはGPUとTPUアクセラレータのサポート、離散対称性グループの高度なサポート、数千自由度までスケールアップするためのチャンキング、量子力学アプリケーションのためのドライバ、モジュール性の改善などが含まれている。

We introduce version 3 of NetKet, the machine learning toolbox for many-body quantum physics. NetKet is built around neural-network quantum states and provides efficient algorithms for their evaluation and optimization. This new version is built on top of JAX, a differentiable programming and accelerated linear algebra framework for the Python programming language. The most significant new feature is the possibility to define arbitrary neural network ans\"atze in pure Python code using the concise notation of machine-learning frameworks, which allows for just-in-time compilation as well as the implicit generation of gradients thanks to automatic differentiation. NetKet 3 also comes with support for GPU and TPU accelerators, advanced support for discrete symmetry groups, chunking to scale up to thousands of degrees of freedom, drivers for quantum dynamics applications, and improved modularity, allowing users to use only parts of the toolbox as a foundation for their own code.
翻訳日:2021-12-21 22:14:18 公開日:2021-12-20
# (参考訳) 視覚特性の分類としての物体認識

Object Recognition as Classification of Visual Properties ( http://arxiv.org/abs/2112.10531v1 )

ライセンス: CC BY 4.0
Fausto Giunchiglia, Mayukh Bagchi(参考訳) 我々は、認識と分類の異なる機能を実装する能力としての概念の遠隔モデリングに基づく。 したがって、視覚特性を利用した物体認識に適した物質概念と、言語的に接地された特性を利用した物質概念の分類に適した分類概念の2つの概念をモデル化する。 本稿では,物体認識を視覚特性の分類として,主流コンピュータビジョンの作業とは別物として解釈できることを実証する。 そこで本研究では, 物質概念と分類概念のテレオーセマンティックな区別に基づく, ランガナサンの四相顔知識組織プロセスに基づく物体認識プロセスを提案する。 我々はまた,提案プロセスに従ってオブジェクト認識リソースを構築することを目的とした,進行中のMultiMedia UKCを紹介した。

We base our work on the teleosemantic modelling of concepts as abilities implementing the distinct functions of recognition and classification. Accordingly, we model two types of concepts - substance concepts suited for object recognition exploiting visual properties, and classification concepts suited for classification of substance concepts exploiting linguistically grounded properties. The goal in this paper is to demonstrate that object recognition can be construed as classification of visual properties, as distinct from work in mainstream computer vision. Towards that, we present an object recognition process based on Ranganathan's four-phased faceted knowledge organization process, grounded in the teleosemantic distinctions of substance concept and classification concept. We also briefly introduce the ongoing project MultiMedia UKC, whose aim is to build an object recognition resource following our proposed process
翻訳日:2021-12-21 22:13:18 公開日:2021-12-20
# (参考訳) スパイラル言語モデリング

Spiral Language Modeling ( http://arxiv.org/abs/2112.10543v1 )

ライセンス: CC BY 4.0
Yong Cao, Yukun Feng, Shaohui Kuang, Gu Xu(参考訳) ほぼすべてのテキスト生成アプリケーションにおいて、自然言語文がL2RまたはR2Lと書かれるため、単語列は左から右へ(L2R)または右から左へ(R2L)に構築される。 しかし,テキスト生成には自然言語による順序付けが不可欠ではないことがわかった。 本稿では,l2r と r2l の順序を超えて自然言語文を構築できる汎用的手法であるスパイラル言語モデリング(slm)を提案する。 slmでは、結果テキスト内の任意のトークンから始まり、選択したトークンの周りにrestトークンを拡張することで、自然言語テキストを作成できる。 復号順序を言語モデルの難易度以外の新たな最適化目標とし、生成したテキストの多様性と品質をさらに向上させる。 さらに、SLMは適切な開始トークンを選択してテキスト構築プロセスを操作することができる。 slmはまた、低リソースシナリオにおけるモデルのロバスト性を改善する追加の正規化として生成順序付けを導入した。 8つの広く研究されているニューラルネットワーク翻訳(NMT)タスクの実験は、SLMが従来のL2R復号法と比較して最大4.7BLEUの増加で常に有効であることを示している。

In almost all text generation applications, word sequences are constructed in a left-to-right (L2R) or right-to-left (R2L) manner, as natural language sentences are written either L2R or R2L. However, we find that the natural language written order is not essential for text generation. In this paper, we propose Spiral Language Modeling (SLM), a general approach that enables one to construct natural language sentences beyond the L2R and R2L order. SLM allows one to form natural language text by starting from an arbitrary token inside the result text and expanding the rest tokens around the selected ones. It makes the decoding order a new optimization objective besides the language model perplexity, which further improves the diversity and quality of the generated text. Furthermore, SLM makes it possible to manipulate the text construction process by selecting a proper starting token. SLM also introduces generation orderings as additional regularization to improve model robustness in low-resource scenarios. Experiments on 8 widely studied Neural Machine Translation (NMT) tasks show that SLM is constantly effective with up to 4.7 BLEU increase comparing to the conventional L2R decoding approach.
翻訳日:2021-12-21 22:02:41 公開日:2021-12-20
# (参考訳) BERTモデルにおける学習データセットと辞書サイズ : バルト語の場合

Training dataset and dictionary sizes matter in BERT models: the case of Baltic languages ( http://arxiv.org/abs/2112.10553v1 )

ライセンス: CC BY-SA 4.0
Matej Ul\v{c}ar and Marko Robnik-\v{S}ikonja(参考訳) マスク付き大規模言語モデルは、多くのNLP問題に対する最先端のソリューションとなっている。 研究により、単言語モデルは多言語モデルよりも優れた結果をもたらすことが示されたが、トレーニングデータセットは十分に大きくなければならない。 我々はリトアニア語、ラトビア語、英語のLitLat BERT様モデルとエストニア語のための単言語Est-RoBERTaモデルを訓練した。 提案手法は,エンティティ認識,依存性解析,パート・オブ・音声タグ付け,単語類似処理の4つのダウンストリームタスクにおける性能を評価する。 単一言語にフォーカスすることの重要性と大規模なトレーニングセットの重要性を分析するため、エストニア、ラトビア、リトアニアの既存の単言語および多言語BERTモデルと比較した。 その結果、新しいLitLat BERTとEst-RoBERTaモデルは、ほとんどの状況でテストされたすべてのタスクにおいて、既存のモデルの結果を改善することがわかった。

Large pretrained masked language models have become state-of-the-art solutions for many NLP problems. While studies have shown that monolingual models produce better results than multilingual models, the training datasets must be sufficiently large. We trained a trilingual LitLat BERT-like model for Lithuanian, Latvian, and English, and a monolingual Est-RoBERTa model for Estonian. We evaluate their performance on four downstream tasks: named entity recognition, dependency parsing, part-of-speech tagging, and word analogy. To analyze the importance of focusing on a single language and the importance of a large training set, we compare created models with existing monolingual and multilingual BERT models for Estonian, Latvian, and Lithuanian. The results show that the newly created LitLat BERT and Est-RoBERTa models improve the results of existing models on all tested tasks in most situations.
翻訳日:2021-12-21 21:50:41 公開日:2021-12-20
# (参考訳) 複数介入のスコアリングによる潜伏変数によるハイブリッドベイズネットワークの探索

Hybrid Bayesian network discovery with latent variables by scoring multiple interventions ( http://arxiv.org/abs/2112.10574v1 )

ライセンス: CC BY 4.0
Kiattikun Chobtham, Anthony C. Constantinou, Neville K. Kitson(参考訳) ベイズネットワーク(BN)では、エッジの方向は因果推論と推論に不可欠である。 しかし、マルコフ同値類を考えると、必ずしもエッジ配向を確立することは不可能であり、多くのBN構造学習アルゴリズムは純粋な観測データからすべてのエッジをオリエンテーションできない。 さらに、潜伏した共同ファウンダーは偽陽性に陥る可能性がある。 これらの問題に対処するための比較的少数の手法が提案されている。 本研究では、観測データセットと1つ以上の干渉データセットを含む離散データから構造学習を行うためのハイブリッドmFGS-BS(Majority Rule and Fast Greedy equivalence Search with Bayesian Scoring)アルゴリズムを提案する。 このアルゴリズムは潜伏変数の存在下で因果不整合を仮定し、部分アンセストラルグラフ(PAG)を生成する。 構造学習は、ハイブリッドアプローチと、学習グラフに追加される各有向エッジの後方確率を計算する新しいベイズスコアリングパラダイムに依存している。 最大109変数と10kサンプルサイズのよく知られたネットワークに基づく実験結果から,mFGS-BSは最先端技術と比較して構造学習精度を向上し,計算効率が向上することが示された。

In Bayesian Networks (BNs), the direction of edges is crucial for causal reasoning and inference. However, Markov equivalence class considerations mean it is not always possible to establish edge orientations, which is why many BN structure learning algorithms cannot orientate all edges from purely observational data. Moreover, latent confounders can lead to false positive edges. Relatively few methods have been proposed to address these issues. In this work, we present the hybrid mFGS-BS (majority rule and Fast Greedy equivalence Search with Bayesian Scoring) algorithm for structure learning from discrete data that involves an observational data set and one or more interventional data sets. The algorithm assumes causal insufficiency in the presence of latent variables and produces a Partial Ancestral Graph (PAG). Structure learning relies on a hybrid approach and a novel Bayesian scoring paradigm that calculates the posterior probability of each directed edge being added to the learnt graph. Experimental results based on well-known networks of up to 109 variables and 10k sample size show that mFGS-BS improves structure learning accuracy relative to the state-of-the-art and it is computationally efficient.
翻訳日:2021-12-21 21:41:09 公開日:2021-12-20
# (参考訳) 画像フリーマルチキャラクタ認識

Image-free multi-character recognition ( http://arxiv.org/abs/2112.10587v1 )

ライセンス: CC BY 4.0
Huayi Wang, Chunli Zhu, Liheng Bian(参考訳) 最近開発されたイメージフリーセンシング技術は、単純なターゲット分類とモーショントラッキングに応用された軽量ハードウェアとソフトウェアの両方の利点を維持している。 しかし、実際的な応用では、既存の試行が複数の意味情報を生成するのに失敗する視野に複数の目標が存在するのが普通である。 本稿では,マルチターゲット認識課題に初めて取り組むための無像センシング手法について報告する。 画像のない単一ピクセルネットワークの畳み込み層スタックとは異なり、報告されたCRNNネットワークは双方向LSTMアーキテクチャを利用して複数の文字の分布を同時に予測する。 このフレームワークは、長距離依存関係をキャプチャし、複数の文字の高い認識精度を提供する。 100fps以上のリフレッシュレートで5%のサンプリングレートで87.60%の認識精度を得たライセンスプレート検出において,本手法の有効性を実証した。

The recently developed image-free sensing technique maintains the advantages of both the light hardware and software, which has been applied in simple target classification and motion tracking. In practical applications, however, there usually exist multiple targets in the field of view, where existing trials fail to produce multi-semantic information. In this letter, we report a novel image-free sensing technique to tackle the multi-target recognition challenge for the first time. Different from the convolutional layer stack of image-free single-pixel networks, the reported CRNN network utilities the bidirectional LSTM architecture to predict the distribution of multiple characters simultaneously. The framework enables to capture the long-range dependencies, providing a high recognition accuracy of multiple characters. We demonstrated the technique's effectiveness in license plate detection, which achieved 87.60% recognition accuracy at a 5% sampling rate with a higher than 100 FPS refresh rate.
翻訳日:2021-12-21 21:39:45 公開日:2021-12-20
# (参考訳) 低解像度・高分解能イベントカメラを用いた車両知覚のための実時間光流れ

Real-Time Optical Flow for Vehicular Perception with Low- and High-Resolution Event Cameras ( http://arxiv.org/abs/2112.10591v1 )

ライセンス: CC BY 4.0
Vincent Brebion and Julien Moreau and Franck Davoine(参考訳) イベントカメラは、観測されたシーンにおける照明の変化を捉えます。 これにより、高速モーションや複雑な照明条件下での応用が可能となり、従来のフレームベースのセンサーはぼやけや過度に露出されたピクセルで限界を示す。 これらのユニークな性質のおかげで、現在はITS関連のアプリケーションにとって非常に魅力的なセンサーとなっている。 イベントベース光学フロー(EBOF)は,これらのニューロモルフィックカメラの普及に伴い研究されている。 しかし、近年の高解像度ニューロモルフィックセンサーの登場は、イベントピクセルアレイの解像度の増大とスループットの向上により、既存のアプローチに挑戦している。 そこで,本稿では,低解像度と高分解能のイベントカメラを用いて,光フローをリアルタイムに計算するための最適化フレームワークを提案する。 我々は「逆指数的距離曲面」という形で、スパース事象流の新たな密度表現を定式化する。 中間フレームとして機能し、証明された最先端のフレームベースの光フロー計算法のために設計された。 提案手法を低解像度および高解像度の駆動シーケンスで評価した結果,現行技術よりも良好な結果が得られた一方で,フレームレートが250Hz,346×260ピクセル,77Hz,1280×720ピクセルであった。

Event cameras capture changes of illumination in the observed scene rather than accumulating light to create images. Thus, they allow for applications under high-speed motion and complex lighting conditions, where traditional framebased sensors show their limits with blur and over- or underexposed pixels. Thanks to these unique properties, they represent nowadays an highly attractive sensor for ITS-related applications. Event-based optical flow (EBOF) has been studied following the rise in popularity of these neuromorphic cameras. The recent arrival of high-definition neuromorphic sensors, however, challenges the existing approaches, because of the increased resolution of the events pixel array and a much higher throughput. As an answer to these points, we propose an optimized framework for computing optical flow in real-time with both low- and high-resolution event cameras. We formulate a novel dense representation for the sparse events flow, in the form of the "inverse exponential distance surface". It serves as an interim frame, designed for the use of proven, state-of-the-art frame-based optical flow computation methods. We evaluate our approach on both low- and high-resolution driving sequences, and show that it often achieves better results than the current state of the art, while also reaching higher frame rates, 250Hz at 346 x 260 pixels and 77Hz at 1280 x 720 pixels.
翻訳日:2021-12-21 21:33:06 公開日:2021-12-20
# (参考訳) エピソードマルコフ決定過程における差分プライベートレグレレット最小化

Differentially Private Regret Minimization in Episodic Markov Decision Processes ( http://arxiv.org/abs/2112.10599v1 )

ライセンス: CC BY 4.0
Sayak Ray Chowdhury, Xingyu Zhou(参考訳) 差分プライバシー (DP) の制約の下で, 有限地平線タブ状マルコフ決定過程 (MDP) における後悔の最小化について検討した。 これは実世界のシーケンシャルな意思決定問題における強化学習(RL)の普及による動機付けであり、ユーザの機密情報や個人情報の保護が最重要になっている。 本稿では,DPの2つの変種について考察する。JDPとは,ユーザの機密データを保護する集中型エージェントと,ユーザ側で情報を直接保護する必要があるローカルDP(LDP)である。まず,ポリシ最適化のためのフレームワークと,価値反復のためのフレームワークである2つのフレームワークを提案して,楽観的なRLアルゴリズムを設計する。 そして、これらのフレームワークを適切なプライバシーメカニズムでインスタンス化し、JDPおよびLDP要件を満たし、同時にサブ線形後悔保証を得る。 残念なことに、JDPでは、プライバシのコストは低次の追加的な用語に過ぎず、LDPではより強力なプライバシ保護のために、被るコストは乗法的である。 最後に、後悔の限界は統一分析によって得られ、我々は、テーブル型mdpを超えて拡張できると信じている。

We study regret minimization in finite horizon tabular Markov decision processes (MDPs) under the constraints of differential privacy (DP). This is motivated by the widespread applications of reinforcement learning (RL) in real-world sequential decision making problems, where protecting users' sensitive and private information is becoming paramount. We consider two variants of DP -- joint DP (JDP), where a centralized agent is responsible for protecting users' sensitive data and local DP (LDP), where information needs to be protected directly on the user side. We first propose two general frameworks -- one for policy optimization and another for value iteration -- for designing private, optimistic RL algorithms. We then instantiate these frameworks with suitable privacy mechanisms to satisfy JDP and LDP requirements, and simultaneously obtain sublinear regret guarantees. The regret bounds show that under JDP, the cost of privacy is only a lower order additive term, while for a stronger privacy protection under LDP, the cost suffered is multiplicative. Finally, the regret bounds are obtained by a unified analysis, which, we believe, can be extended beyond tabular MDPs.
翻訳日:2021-12-21 21:09:28 公開日:2021-12-20
# (参考訳) DeePaste - ペースト用塗料

DeePaste -- Inpainting for Pasting ( http://arxiv.org/abs/2112.10600v1 )

ライセンス: CC BY 4.0
Levi Kassel Michael Werman(参考訳) 教師付き学習の課題の1つは、大量のタグ付きデータを取得する必要性である。 この問題を解決する有名な方法は、合成データをコピーペースト方式で使用することで、オブジェクトをカットして関連する背景に貼り付けることである。 オブジェクトをペーストすると、実データに対して粗末な結果を与えるアーティファクトが発生します。 生成したデータセットが実際のデータに競合する性能を与えるように,異なる背景にオブジェクトをきれいに貼り付ける新しい手法を提案する。 主な重点は、貼付された物体の境界を塗りつぶして処理することである。 事例検出と前景セグメンテーションの両面での最先端結果を示す。

One of the challenges of supervised learning training is the need to procure an substantial amount of tagged data. A well-known method of solving this problem is to use synthetic data in a copy-paste fashion, so that we cut objects and paste them onto relevant backgrounds. Pasting the objects naively results in artifacts that cause models to give poor results on real data. We present a new method for cleanly pasting objects on different backgrounds so that the dataset created gives competitive performance on real data. The main emphasis is on the treatment of the border of the pasted object using inpainting. We show state-of-the-art results both on instance detection and foreground segmentation
翻訳日:2021-12-21 21:08:12 公開日:2021-12-20
# (参考訳) 道路ネットワークデータに視覚データを統合する学習

Learning to integrate vision data into road network data ( http://arxiv.org/abs/2112.10624v1 )

ライセンス: CC BY 4.0
Oliver Stromann, Alireza Razavi and Michael Felsberg(参考訳) 道路ネットワークは、コネクテッドカーと自動運転車のコアインフラストラクチャだが、機械学習アプリケーションに意味のある表現を作ることは難しい課題だ。 本研究では,道路ネットワークデータにリモートセンシングビジョンデータを統合し,グラフニューラルネットワークによる埋め込みを改善することを提案する。 本研究では、時空間道路と交通特性に基づく道路エッジのセグメンテーションを行い、衛星画像とデジタル表面モデルの視覚的特徴を持つ道路ネットワークの属性集合を充実させる。 中国成都のOSM+DiDi Chuxingデータセット上で,道路型分類タスクにおけるセグメント化と視覚データの統合が両立し,最先端のパフォーマンスが達成できることを示す。

Road networks are the core infrastructure for connected and autonomous vehicles, but creating meaningful representations for machine learning applications is a challenging task. In this work, we propose to integrate remote sensing vision data into road network data for improved embeddings with graph neural networks. We present a segmentation of road edges based on spatio-temporal road and traffic characteristics, which allows to enrich the attribute set of road networks with visual features of satellite imagery and digital surface models. We show that both, the segmentation and the integration of vision data can increase performance on a road type classification task, and we achieve state-of-the-art performance on the OSM+DiDi Chuxing dataset on Chengdu, China.
翻訳日:2021-12-21 20:56:28 公開日:2021-12-20
# (参考訳) master-uavによる補助aerial-irs支援iotネットワークの最適化 : オプション型マルチエージェント階層型深層強化学習手法

Optimization for Master-UAV-powered Auxiliary-Aerial-IRS-assisted IoT Networks: An Option-based Multi-agent Hierarchical Deep Reinforcement Learning Approach ( http://arxiv.org/abs/2112.10630v1 )

ライセンス: CC BY 4.0
Jingren Xu, Xin Kang, Ronghaixiang Zhang, Ying-Chang Liang, and Sumei Sun(参考訳) 本稿では,無人航空機(MUAV)搭載のインターネット・オブ・モノ(IoT)ネットワークについて検討し,インテリジェント反射面(IRS)を備えた充電可能な補助UAV(AUAV)を用いて,MUAVからの通信信号を強化するとともに,MUAVを充電電源として活用することを提案する。 提案モデルでは,IoTネットワークのスループットを最大化するために,これらのエネルギー制限されたUAVの最適協調戦略を検討する。 2つのuavの間に充電があるかどうかによっては、2つの最適化問題が定式化される。 これらを解決するために,多エージェント深部決定主義政策勾配 (CT-MADDPG) と多エージェント深部決定主義政策選択肢批判 (MADDPOC) を集中訓練する2つの多エージェント深部強化学習 (DRL) 手法を提案する。 ct-maddpg は uav ハードウェアの計算能力に対する要求を大幅に削減でき、提案する maddpoc は、単一エージェント学習と離散アクションのみをサポートする既存のオプションベースの階層的drlよりも優れた、連続アクションドメインにおける低レベルマルチエージェント協調学習をサポートすることができる。

This paper investigates a master unmanned aerial vehicle (MUAV)-powered Internet of Things (IoT) network, in which we propose using a rechargeable auxiliary UAV (AUAV) equipped with an intelligent reflecting surface (IRS) to enhance the communication signals from the MUAV and also leverage the MUAV as a recharging power source. Under the proposed model, we investigate the optimal collaboration strategy of these energy-limited UAVs to maximize the accumulated throughput of the IoT network. Depending on whether there is charging between the two UAVs, two optimization problems are formulated. To solve them, two multi-agent deep reinforcement learning (DRL) approaches are proposed, which are centralized training multi-agent deep deterministic policy gradient (CT-MADDPG) and multi-agent deep deterministic policy option critic (MADDPOC). It is shown that the CT-MADDPG can greatly reduce the requirement on the computing capability of the UAV hardware, and the proposed MADDPOC is able to support low-level multi-agent cooperative learning in the continuous action domains, which has great advantages over the existing option-based hierarchical DRL that only support single-agent learning and discrete actions.
翻訳日:2021-12-21 20:47:14 公開日:2021-12-20
# (参考訳) 逆ロバスト安定性証明書はサンプル効率が良い

Adversarially Robust Stability Certificates can be Sample-Efficient ( http://arxiv.org/abs/2112.10690v1 )

ライセンス: CC BY 4.0
Thomas T.C.K. Zhang, Stephen Tu, Nicholas M. Boffi, Jean-Jacques E. Slotine, Nikolai Matni(参考訳) 安全クリティカルシステムの文脈でシミュレーションを現実のギャップにブリッジすることで、未知の非線形力学系に対する逆向きに堅牢な安定性証明を学習する。 ロバスト制御からのアプローチと並行して,システムダイナミクスを乱す加法とリプシッツ境界敵を考える。 本研究は, 基本システムの漸進安定性を仮定した上で, 逆安定証明書を学習する統計的コストは, 定値安定性証明書を学習するのと同程度であることを示す。 この結果は, 結果として生じる相反損失クラスのラデマッハ複雑性に対する新たな境界にかかっている。 我々の知る限り、これは動的システムによって生成されたデータに対して対角学習を行う際に、サンプル複雑境界を初めて特徴づけるものである。 さらに, 逆訓練アルゴリズムを近似する実用的なアルゴリズムを提供し, 減衰振子例の検証を行った。

Motivated by bridging the simulation to reality gap in the context of safety-critical systems, we consider learning adversarially robust stability certificates for unknown nonlinear dynamical systems. In line with approaches from robust control, we consider additive and Lipschitz bounded adversaries that perturb the system dynamics. We show that under suitable assumptions of incremental stability on the underlying system, the statistical cost of learning an adversarial stability certificate is equivalent, up to constant factors, to that of learning a nominal stability certificate. Our results hinge on novel bounds for the Rademacher complexity of the resulting adversarial loss class, which may be of independent interest. To the best of our knowledge, this is the first characterization of sample-complexity bounds when performing adversarial learning over data generated by a dynamical system. We further provide a practical algorithm for approximating the adversarial training algorithm, and validate our findings on a damped pendulum example.
翻訳日:2021-12-21 20:19:08 公開日:2021-12-20
# (参考訳) スマホのマインド保護:グリースターミネーターでデジタルマイニングフィールドをナビゲート

Mind-proofing Your Phone: Navigating the Digital Minefield with GreaseTerminator ( http://arxiv.org/abs/2112.10699v1 )

ライセンス: CC BY 4.0
Siddhartha Datta, Konrad Kollnig, Nigel Shadbolt(参考訳) デジタル害はモバイルエコシステムに広まっている。 これらのデバイスが私たちの日常生活でますます注目されるにつれて、個人に対する悪意のある攻撃の可能性も高まる。 デジタルの混乱、ヘイトスピーチによる政治的偏見、有害物質に晒されている子供たちなど、様々なデジタル被害に対する最後の防衛線がユーザーインターフェースである。 この研究は、研究者がエンドユーザとのこれらの害に対する介入を開発、デプロイ、テストできるgraseterminatorを導入している。 我々は,5つのケーススタディにおいて,介入開発と展開の容易さに加えて,GreaseTerminatorでカバーされる可能性のある幅広い害を実証する。

Digital harms are widespread in the mobile ecosystem. As these devices gain ever more prominence in our daily lives, so too increases the potential for malicious attacks against individuals. The last line of defense against a range of digital harms - including digital distraction, political polarisation through hate speech, and children being exposed to damaging material - is the user interface. This work introduces GreaseTerminator to enable researchers to develop, deploy, and test interventions against these harms with end-users. We demonstrate the ease of intervention development and deployment, as well as the broad range of harms potentially covered with GreaseTerminator in five in-depth case studies.
翻訳日:2021-12-21 19:22:42 公開日:2021-12-20
# Robust Combinatorial Optimizationの学習:アルゴリズムと応用

Learning for Robust Combinatorial Optimization: Algorithm and Application ( http://arxiv.org/abs/2112.10377v1 )

ライセンス: Link先を確認
Zhihui Shao and Jianyi Yang and Cong Shen and Shaolei Ren(参考訳) learning to optimize (l2o)は、ニューラルネットワークの強力な予測力を利用して、従来の解法よりもランタイムの複雑さを低くすることで最適化問題を解決する、有望なアプローチとして最近登場した。 L2Oは様々な問題に適用されてきたが、極小最適化という形で頑健な組合せ最適化という、決定的かつ挑戦的な問題のクラスは、ほとんど未解決のままである。 指数関数的に大きい決定空間に加えて、ロバストな組合せ最適化の重要な課題は内的最適化問題であり、これは通常非凸であり外的最適化と絡み合っている。 本稿では, 頑健な組合せ最適化について検討し, LRCO (Learning for Robust Combinatorial Optimization) と呼ばれる新しい学習型最適化手法を提案する。 LRCOは2つの学習ベースのオプティマイザ(最小化用と最大化用)を活用し、それぞれの目的関数を損失として使用し、問題インスタンスをトレーニングするラベルを必要とせずにトレーニングすることができる。 LRCOの性能を評価するため,車両エッジコンピューティングにおけるタスクオフロード問題のシミュレーションを行う。 その結果,LRCOはランタイムの複雑さを極めて低くしながら,最悪のケースコストを大幅に削減し,堅牢性を向上させることができることがわかった。

Learning to optimize (L2O) has recently emerged as a promising approach to solving optimization problems by exploiting the strong prediction power of neural networks and offering lower runtime complexity than conventional solvers. While L2O has been applied to various problems, a crucial yet challenging class of problems -- robust combinatorial optimization in the form of minimax optimization -- have largely remained under-explored. In addition to the exponentially large decision space, a key challenge for robust combinatorial optimization lies in the inner optimization problem, which is typically non-convex and entangled with outer optimization. In this paper, we study robust combinatorial optimization and propose a novel learning-based optimizer, called LRCO (Learning for Robust Combinatorial Optimization), which quickly outputs a robust solution in the presence of uncertain context. LRCO leverages a pair of learning-based optimizers -- one for the minimizer and the other for the maximizer -- that use their respective objective functions as losses and can be trained without the need of labels for training problem instances. To evaluate the performance of LRCO, we perform simulations for the task offloading problem in vehicular edge computing. Our results highlight that LRCO can greatly reduce the worst-case cost and improve robustness, while having a very low runtime complexity.
翻訳日:2021-12-21 18:54:25 公開日:2021-12-20
# 時間変化ネットワークによる分散確率近位勾配の変動低減

Decentralized Stochastic Proximal Gradient Descent with Variance Reduction over Time-varying Networks ( http://arxiv.org/abs/2112.10389v1 )

ライセンス: Link先を確認
Xuanjie Li, Yuedong Xu, Jessie Hui Wang, Xin Wang, John C.S. Lui(参考訳) 分散学習において、ノードのネットワークは、通常局所目的の有限和である全体的な目的関数を最小化するために協力し、より良い一般化能力のために非スムース正規化項を組み込む。 分散確率的近位勾配法(DSPG)はこの種の学習モデルの訓練に一般的に用いられ、収束速度は確率的勾配の分散によって抑制される。 本稿では,分散低減手法を利用して分散学習を高速化する新しいアルゴリズムDPSVRGを提案する。 基本的な考え方は、各ノードに局所的な全勾配を周期的に追跡する推定器を導入し、各イテレーションにおける確率勾配を修正することである。 分散化アルゴリズムを分散化による非現実的近位勾配アルゴリズムに変換し、誤差列の境界を制御することにより、DPSVRGが一般凸対象に対して$O(1/T)$と反復数として$T$の非滑らか項で収束し、DSPGは$O(\frac{1}{\sqrt{T}})$で収束することを証明する。 異なるアプリケーション,ネットワークトポロジ,学習モデルによる実験により,DPSVRGはDSPGよりもはるかに早く収束し,DPSVRGの損失関数はトレーニングの経過とともにスムーズに低下することが示された。

In decentralized learning, a network of nodes cooperate to minimize an overall objective function that is usually the finite-sum of their local objectives, and incorporates a non-smooth regularization term for the better generalization ability. Decentralized stochastic proximal gradient (DSPG) method is commonly used to train this type of learning models, while the convergence rate is retarded by the variance of stochastic gradients. In this paper, we propose a novel algorithm, namely DPSVRG, to accelerate the decentralized training by leveraging the variance reduction technique. The basic idea is to introduce an estimator in each node, which tracks the local full gradient periodically, to correct the stochastic gradient at each iteration. By transforming our decentralized algorithm into a centralized inexact proximal gradient algorithm with variance reduction, and controlling the bounds of error sequences, we prove that DPSVRG converges at the rate of $O(1/T)$ for general convex objectives plus a non-smooth term with $T$ as the number of iterations, while DSPG converges at the rate $O(\frac{1}{\sqrt{T}})$. Our experiments on different applications, network topologies and learning models demonstrate that DPSVRG converges much faster than DSPG, and the loss function of DPSVRG decreases smoothly along with the training epochs.
翻訳日:2021-12-21 18:54:03 公開日:2021-12-20
# (参考訳) HyperSegNAS: HyperNetを用いた3次元医用画像セグメンテーションによるワンショットニューラルネットワーク検索

HyperSegNAS: Bridging One-Shot Neural Architecture Search with 3D Medical Image Segmentation using HyperNet ( http://arxiv.org/abs/2112.10652v1 )

ライセンス: CC BY 4.0
Cheng Peng, Andriy Myronenko, Ali Hatamizadeh, Vish Nath, Md Mahfuzur Rahman Siddiquee, Yufan He, Daguang Xu, Rama Chellappa, Dong Yang(参考訳) 3次元医用画像のセマンティックセグメンテーションは、物体の形状やパターン(臓器や腫瘍など)の多様性が高いため、難しい課題である。 医用画像セグメンテーションにおけるディープラーニングの成功から,高性能な3Dセグメンテーションネットワークアーキテクチャを見つけるために,ニューラルアーキテクチャサーチ(NAS)が導入されている。 しかし、3Dデータの膨大な計算要求とアーキテクチャ探索の離散的な最適化の性質のため、従来のNAS手法では長い探索時間や連続的な緩和が必要であり、一般に準最適ネットワークアーキテクチャにつながる。 ワンショットnasはこれらの欠点に対処できるが、セグメンテーション領域での応用は、広範囲のマルチパス探索空間では十分に研究されていない。 医用画像セグメンテーションのためのワンショットNASを実現するために,HyperSegNASという手法を導入し,アーキテクチャトポロジ情報を組み込んでスーパーネットトレーニングを支援する。 このようなHyperNetは、スーパーネットがトレーニングされると取り除かれ、アーキテクチャ検索中にオーバーヘッドは発生しない。 従来のSOTAセグメンテーションネットワークと比較すると,HyperSegNASはより高性能で直感的なアーキテクチャを実現しており,また,異なる計算制約下で優れたアーキテクチャ候補を迅速かつ正確に見つけることが可能である。 本手法は,MSD (Messical Segmentation Decathlon) 課題の公開データセットを用いて評価し,SOTA性能を実現する。

Semantic segmentation of 3D medical images is a challenging task due to the high variability of the shape and pattern of objects (such as organs or tumors). Given the recent success of deep learning in medical image segmentation, Neural Architecture Search (NAS) has been introduced to find high-performance 3D segmentation network architectures. However, because of the massive computational requirements of 3D data and the discrete optimization nature of architecture search, previous NAS methods require a long search time or necessary continuous relaxation, and commonly lead to sub-optimal network architectures. While one-shot NAS can potentially address these disadvantages, its application in the segmentation domain has not been well studied in the expansive multi-scale multi-path search space. To enable one-shot NAS for medical image segmentation, our method, named HyperSegNAS, introduces a HyperNet to assist super-net training by incorporating architecture topology information. Such a HyperNet can be removed once the super-net is trained and introduces no overhead during architecture search. We show that HyperSegNAS yields better performing and more intuitive architectures compared to the previous state-of-the-art (SOTA) segmentation networks; furthermore, it can quickly and accurately find good architecture candidates under different computing constraints. Our method is evaluated on public datasets from the Medical Segmentation Decathlon (MSD) challenge, and achieves SOTA performances.
翻訳日:2021-12-21 18:50:39 公開日:2021-12-20
# 信頼できるクロス患者モデル開発に向けて

Towards Trustworthy Cross-patient Model Development ( http://arxiv.org/abs/2112.10441v1 )

ライセンス: Link先を確認
Ali El-Merhi, Helena Odenstedt Herg\'es, Linda Block, Mikael Elam, Richard Vithal, Jaquette Liljencrantz, Miroslaw Staron(参考訳) 機械学習は医学において、医師の検査、診断、結果の予測を支援するために用いられる。 最もダイナミックな領域の1つは、集中治療ユニットからの患者生成健康データの使用である。 本研究の目的は,患者の人口統計データと生理的データを組み合わせることで,患者間MLモデル開発の進展を実証することである。 頸動脈内皮摘出術(cea)を施行した患者集団を用いて,全例と1例の訓練時のモデル性能と説明可能性の相違を検討した。 以上の結果から,患者の人口動態は,パフォーマンスや説明可能性,信頼性に大きな影響を及ぼすことが明らかとなった。 本研究は, 患者集団と外科的処置に基づいて, モデルと患者を慎重に選択することで, MLモデルの信頼性を高めることができると結論付けた。

Machine learning is used in medicine to support physicians in examination, diagnosis, and predicting outcomes. One of the most dynamic area is the usage of patient generated health data from intensive care units. The goal of this paper is to demonstrate how we advance cross-patient ML model development by combining the patient's demographics data with their physiological data. We used a population of patients undergoing Carotid Enderarterectomy (CEA), where we studied differences in model performance and explainability when trained for all patients and one patient at a time. The results show that patients' demographics has a large impact on the performance and explainability and thus trustworthiness. We conclude that we can increase trust in ML models in a cross-patient context, by careful selection of models and patients based on their demographics and the surgical procedure.
翻訳日:2021-12-21 18:24:26 公開日:2021-12-20
# 勾配圧縮と局所ステップを用いた分散確率最適化法

Distributed and Stochastic Optimization Methods with Gradient Compression and Local Steps ( http://arxiv.org/abs/2112.10645v1 )

ライセンス: Link先を確認
Eduard Gorbunov(参考訳) 本稿では,誤差補償と局所更新を伴う確率的および分散的手法の解析のための新しい理論的枠組みを提案する。 これらのフレームワークを用いて、誤り補償型sgdと、任意に不均一な局所関数に対して最初の線形収束型sgdを含む20以上の新しい最適化手法を開発した。 さらに, 分散非凸最適化問題に対して, 非バイアス圧縮を用いた分散手法がいくつか提案されている。 これらの手法の導出された複雑性結果は, 従来で最もよく知られた問題に対する結果よりも優れていた。 最後に,スケーラブルな分散フォールトトレラント分散手法を提案する。合理的な仮定の下では,集中型ローカルsgd法に適合するこの手法の反復複雑性境界を導出する。

In this thesis, we propose new theoretical frameworks for the analysis of stochastic and distributed methods with error compensation and local updates. Using these frameworks, we develop more than 20 new optimization methods, including the first linearly converging Error-Compensated SGD and the first linearly converging Local-SGD for arbitrarily heterogeneous local functions. Moreover, the thesis contains several new distributed methods with unbiased compression for distributed non-convex optimization problems. The derived complexity results for these methods outperform the previous best-known results for the considered problems. Finally, we propose a new scalable decentralized fault-tolerant distributed method, and under reasonable assumptions, we derive the iteration complexity bounds for this method that match the ones of centralized Local-SGD.
翻訳日:2021-12-21 18:24:12 公開日:2021-12-20
# エッジ保存インバージョンのためのベイズニューラルネットワーク

Bayesian neural network priors for edge-preserving inversion ( http://arxiv.org/abs/2112.10663v1 )

ライセンス: Link先を確認
Chen Li, Matthew Dunlop, Georg Stadler(参考訳) 未知状態が不連続な構造 a を持つ函数であると仮定するベイズ逆問題を考える。 重み付き重み付きニューラルネットワークの出力に基づく先行分布のクラスを導入し、そのようなネットワークの無限幅限界に関する既存の結果に動機づけられた。 このような事前のサンプルは,ネットワーク幅が有限であっても不連続的性質が望ましいため,エッジ保存逆解析に適していることを示す。 数値的に1次元空間領域と2次元空間領域で定義されるデコンボリューション問題を考察し, MAP推定, 次元ロバストMCMCサンプリング, アンサンブルに基づく近似を用いて後部分布を探索する。 点推定の精度は、重大でない尾の前の値よりも高く、不確実性推定はより有用な定性情報を提供することを示す。

We consider Bayesian inverse problems wherein the unknown state is assumed to be a function with discontinuous structure a priori. A class of prior distributions based on the output of neural networks with heavy-tailed weights is introduced, motivated by existing results concerning the infinite-width limit of such networks. We show theoretically that samples from such priors have desirable discontinuous-like properties even when the network width is finite, making them appropriate for edge-preserving inversion. Numerically we consider deconvolution problems defined on one- and two-dimensional spatial domains to illustrate the effectiveness of these priors; MAP estimation, dimension-robust MCMC sampling and ensemble-based approximations are utilized to probe the posterior distribution. The accuracy of point estimates is shown to exceed those obtained from non-heavy tailed priors, and uncertainty estimates are shown to provide more useful qualitative information.
翻訳日:2021-12-21 18:23:59 公開日:2021-12-20
# (参考訳) SelFSR: 流れ場劣化ネットワークによる野生における自己定義型超解像

SelFSR: Self-Conditioned Face Super-Resolution in the Wild via Flow Field Degradation Network ( http://arxiv.org/abs/2112.10683v1 )

ライセンス: CC BY 4.0
Xianfang Zeng, Jiangning Zhang, Liang Liu, Guangzhong Tian, Yong Liu(参考訳) ベンチマークデータセットの成功にもかかわらず、ほとんどの先進的なフェイススーパーレゾリューションモデルは、実際の画像と合成されたトレーニングペアの間の顕著なドメインギャップのため、実際のシナリオではパフォーマンスが劣る。 そこで本研究では,野生の超解像のための新しいドメイン適応分解ネットワークを提案する。 この劣化ネットワークは、中間低解像度画像と共に流れ場を予測する。 そして、中間画像をワープして劣化した相手を生成する。 動きのぼやけを捉えることを好むため、そのようなモデルは元の画像と劣化した画像の同一性を維持するのに優れている。 さらに,超解像ネットワーク用セルフコンディショニングブロックについて述べる。 このブロックは、入力画像を条件項として、顔構造情報を有効に活用し、例えば顔ランドマークや境界など、明示的な事前情報への依存をなくす。 我々のモデルは,CelebAと実世界の顔データセットの両方で最先端のパフォーマンスを実現する。 前者は提案するアーキテクチャの強力な生成能力を示し,後者は実世界画像における高いアイデンティティ一貫性と知覚的品質を示している。

In spite of the success on benchmark datasets, most advanced face super-resolution models perform poorly in real scenarios since the remarkable domain gap between the real images and the synthesized training pairs. To tackle this problem, we propose a novel domain-adaptive degradation network for face super-resolution in the wild. This degradation network predicts a flow field along with an intermediate low resolution image. Then, the degraded counterpart is generated by warping the intermediate image. With the preference of capturing motion blur, such a model performs better at preserving identity consistency between the original images and the degraded. We further present the self-conditioned block for super-resolution network. This block takes the input image as a condition term to effectively utilize facial structure information, eliminating the reliance on explicit priors, e.g. facial landmarks or boundary. Our model achieves state-of-the-art performance on both CelebA and real-world face dataset. The former demonstrates the powerful generative ability of our proposed architecture while the latter shows great identity consistency and perceptual quality in real-world images.
翻訳日:2021-12-21 18:21:47 公開日:2021-12-20
# 自己監督型医用CT合成のための増感的相互蒸留法

Incremental Cross-view Mutual Distillation for Self-supervised Medical CT Synthesis ( http://arxiv.org/abs/2112.10325v1 )

ライセンス: Link先を確認
Chaowei Fang, Liang Wang, Dingwen Zhang, Jun Xu, Yixuan Yuan, Junwei Han(参考訳) 撮像装置の制約や動作時間のコストが高いため、コンピュータトモグラフィ(ct)スキャンは通常、スライス内分解能が低い状態で取得される。 スライス内分解能の改善は、人間の専門家とコンピュータ支援システムの両方の疾患診断に有用である。 そこで本稿では,スライス間分解能を向上させるための新しい医用スライス合成法を提案する。 臨床実践において, 根本的中途半端な医療スライスは常に欠落していることを考慮し, 自己指導型学習方式で, 相互蒸留戦略を段階的に導入する。 具体的には、軸方向からのスライス方向の補間とコロナ方向と矢状方向の補間の3つの異なる視点からこの問題をモデル化する。 この状況下で、異なる視点から学んだモデルは、互いの学習プロセスを導くために貴重な知識を蒸留することができる。 このプロセスを繰り返すことで、モデルが中間スライスデータを合成し、スライス間の解像度を高めることができる。 提案手法の有効性を示すため,大規模CTデータセットの総合的な実験を行った。 定量的・定性的に比較した結果,本手法は最先端アルゴリズムをクリアマージンで上回っていることがわかった。

Due to the constraints of the imaging device and high cost in operation time, computer tomography (CT) scans are usually acquired with low intra-slice resolution. Improving the intra-slice resolution is beneficial to the disease diagnosis for both human experts and computer-aided systems. To this end, this paper builds a novel medical slice synthesis to increase the between-slice resolution. Considering that the ground-truth intermediate medical slices are always absent in clinical practice, we introduce the incremental cross-view mutual distillation strategy to accomplish this task in the self-supervised learning manner. Specifically, we model this problem from three different views: slice-wise interpolation from axial view and pixel-wise interpolation from coronal and sagittal views. Under this circumstance, the models learned from different views can distill valuable knowledge to guide the learning processes of each other. We can repeat this process to make the models synthesize intermediate slice data with increasing inter-slice resolution. To demonstrate the effectiveness of the proposed approach, we conduct comprehensive experiments on a large-scale CT dataset. Quantitative and qualitative comparison results show that our method outperforms state-of-the-art algorithms by clear margins.
翻訳日:2021-12-21 17:54:53 公開日:2021-12-20
# CT画像を用いたCOVID-19自動肺感染症分離のための深部コスーパービジョンと注意融合戦略

Deep Co-supervision and Attention Fusion Strategy for Automatic COVID-19 Lung Infection Segmentation on CT Images ( http://arxiv.org/abs/2112.10368v1 )

ライセンス: Link先を確認
Haigen Hu, Leizhao Shen, Qiu Guan, Xiaoxin Li, Qianwei Zhou and Su Ruan(参考訳) 異常な形状、さまざまな大きさ、正常組織と感染組織の境界の区別が難しいため、CT画像上でCOVID-19の感染病変を正確に分類することは依然として難しい課題である。 本稿では,エンコーダ・デコーダ・アーキテクチャに基づいて,教師情報を強化し,異なるレベルのマルチスケール特徴マップを融合することにより,新型コロナウイルスの感染症に対する新たなセグメンテーション手法を提案する。 この目的のために,エッジとセマンティクスの特徴をネットワークで学習する上で,協調的監視(コスーパービジョン)手法を提案する。 より具体的には、edge supervised module (esm) はまず、edge supervised情報をダウンサンプリングの初期段階に組み込むことで、低レベル境界の特徴を強調するように設計されている。 一方,ASSM (Auxiliary Semantic Supervised Module) は,マスク管理情報を後段に組み込むことで,高度な意味情報を強化するために提案されている。 次に、アテンションフュージョンモジュール(AFM)を開発し、アテンション機構を用いて、高レベルと低レベルの特徴マップ間のセマンティックギャップを低減することにより、異なるレベルの複数の特徴マップを融合する。 最後に, 提案手法の有効性を, 4つのCOVID-19 CTデータセットで実証した。 その結果,提案する3つのモジュールはすべて有望であることがわかった。 ベースライン(ResUnet)に基づいて、ESM、ASSM、AFMのみを使用して、データセットのDiceメトリックを1.12\%、 1.95\%、1.63\%増加させることができる。 各種データセットの既存手法と比較して,提案手法はいくつかの主要な指標においてセグメンテーション性能が向上し,最高の一般化と包括的性能が得られる。

Due to the irregular shapes,various sizes and indistinguishable boundaries between the normal and infected tissues, it is still a challenging task to accurately segment the infected lesions of COVID-19 on CT images. In this paper, a novel segmentation scheme is proposed for the infections of COVID-19 by enhancing supervised information and fusing multi-scale feature maps of different levels based on the encoder-decoder architecture. To this end, a deep collaborative supervision (Co-supervision) scheme is proposed to guide the network learning the features of edges and semantics. More specifically, an Edge Supervised Module (ESM) is firstly designed to highlight low-level boundary features by incorporating the edge supervised information into the initial stage of down-sampling. Meanwhile, an Auxiliary Semantic Supervised Module (ASSM) is proposed to strengthen high-level semantic information by integrating mask supervised information into the later stage. Then an Attention Fusion Module (AFM) is developed to fuse multiple scale feature maps of different levels by using an attention mechanism to reduce the semantic gaps between high-level and low-level feature maps. Finally, the effectiveness of the proposed scheme is demonstrated on four various COVID-19 CT datasets. The results show that the proposed three modules are all promising. Based on the baseline (ResUnet), using ESM, ASSM, or AFM alone can respectively increase Dice metric by 1.12\%, 1.95\%,1.63\% in our dataset, while the integration by incorporating three models together can rise 3.97\%. Compared with the existing approaches in various datasets, the proposed method can obtain better segmentation performance in some main metrics, and can achieve the best generalization and comprehensive performance.
翻訳日:2021-12-21 17:54:31 公開日:2021-12-20
# ハイパースペクトル画像超解像における入射神経表現学習

Implicit Neural Representation Learning for Hyperspectral Image Super-Resolution ( http://arxiv.org/abs/2112.10541v1 )

ライセンス: Link先を確認
Kaiwei Zhang(参考訳) ハイパースペクトル画像(HSI)は、高次元のスペクトルパターンのため、補助像を伴わない超解像であり、効果的な空間およびスペクトル表現を学習することが根本的な問題である。 近年,Inmplicit Neural Representations (INR) は,特に再建作業において,新規かつ効果的な表現として進歩を遂げている。 そこで本研究では,空間座標を対応するスペクトル放射輝度値にマッピングする連続関数によってhsiを表現するinrに基づく新しいhsi再構成モデルを提案する。 特に、INRの特定の実装として、パラメトリックモデルのパラメータは、畳み込みネットワークを用いて特徴抽出を行うハイパーネットワークによって予測される。 連続関数は、空間座標をコンテンツ認識の方法でピクセル値にマッピングする。 さらに, 周期的空間符号化は, 再構成手順と深く統合されているため, モデルでは, 高い周波数詳細を復元することができる。 本モデルの有効性を検証するため、3つのHSIデータセット(CAVE, NUS, NTIRE2018)で実験を行った。 実験の結果,提案手法は最先端手法と比較し,コンストラクション性能を向上できることがわかった。 また, モデルにおける個々の成分の影響について, アブレーション研究を行った。 この論文が将来の研究に強力な参考となることを願っている。

Hyperspectral image (HSI) super-resolution without additional auxiliary image remains a constant challenge due to its high-dimensional spectral patterns, where learning an effective spatial and spectral representation is a fundamental issue. Recently, Implicit Neural Representations (INRs) are making strides as a novel and effective representation, especially in the reconstruction task. Therefore, in this work, we propose a novel HSI reconstruction model based on INR which represents HSI by a continuous function mapping a spatial coordinate to its corresponding spectral radiance values. In particular, as a specific implementation of INR, the parameters of parametric model are predicted by a hypernetwork that operates on feature extraction using convolution network. It makes the continuous functions map the spatial coordinates to pixel values in a content-aware manner. Moreover, periodic spatial encoding are deeply integrated with the reconstruction procedure, which makes our model capable of recovering more high frequency details. To verify the efficacy of our model, we conduct experiments on three HSI datasets (CAVE, NUS, and NTIRE2018). Experimental results show that the proposed model can achieve competitive reconstruction performance in comparison with the state-of-the-art methods. In addition, we provide an ablation study on the effect of individual components of our model. We hope this paper could server as a potent reference for future research.
翻訳日:2021-12-21 17:53:56 公開日:2021-12-20
# ビュー補間に基づくマルチユーザ指向ライブ自由視点ビデオストリーミングシステム

A Multi-user Oriented Live Free-viewpoint Video Streaming System Based On View Interpolation ( http://arxiv.org/abs/2112.10603v1 )

ライセンス: Link先を確認
Jingchuan Hu, Shuai Guo, Yu Dong, Kai Zhou, Jun Xu and Li Song(参考訳) 没入型マルチメディアサービスの重要な応用形態として、fvv(free-viewpoint video)は強力なインタラクションによって没入型体験をユーザに提供する。 しかし、仮想ビュー合成アルゴリズムの計算複雑性は、FVVシステムのリアルタイム性能に重大な課題をもたらす。 さらに、ユーザインタラクションの個性は、従来のアーキテクチャのシステムに対して、複数のユーザを同時に提供するのを困難にしている。 本稿では,CNNを用いた高密度仮想ビューをリアルタイムに合成するビュー補間アルゴリズムを提案する。 これに基づいて,マルチユーザ指向のストリーミング戦略を備えた,エンドツーエンドのライブビューポイントシステムを構築した。 本システムでは,クライアント側で大規模なビュー合成負荷を発生させることなく,単一エッジサーバを複数のユーザに対して同時に提供することが可能である。 システム全体を分析し、視覚的品質とレイテンシの両方の観点から、私たちのアプローチがユーザに対して快適な没入感を与えることを示す。

As an important application form of immersive multimedia services, free-viewpoint video(FVV) enables users with great immersive experience by strong interaction. However, the computational complexity of virtual view synthesis algorithms poses a significant challenge to the real-time performance of an FVV system. Furthermore, the individuality of user interaction makes it difficult to serve multiple users simultaneously for a system with conventional architecture. In this paper, we novelly introduce a CNN-based view interpolation algorithm to synthesis dense virtual views in real time. Based on this, we also build an end-to-end live free-viewpoint system with a multi-user oriented streaming strategy. Our system can utilize a single edge server to serve multiple users at the same time without having to bring a large view synthesis load on the client side. We analysis the whole system and show that our approaches give the user a pleasant immersive experience, in terms of both visual quality and latency.
翻訳日:2021-12-21 17:53:36 公開日:2021-12-20
# マルチタスク学習のための高精細レーダ

Raw High-Definition Radar for Multi-Task Learning ( http://arxiv.org/abs/2112.10646v1 )

ライセンス: Link先を確認
Julien Rebut, Arthur Ouaknine, Waqas Malik and Patrick P\'erez(参考訳) 悪天候に対する堅牢性と速度を測定する能力により、レーダーセンサーは20年以上にわたって自動車のランドスケープの一部となっている。 高分解能イメージングレーダへの最近の進歩は、角分解能を等級以下に低下させ、レーザー走査性能に近づいた。 しかし、hdレーダが出力するデータ量と角位置を推定する計算コストは依然として課題である。 本稿では,レンジ・ドップラー3次元テンソルの計算のオーバーヘッドをなくし,その代わりにレンジ・ドップラースペクトルから角度を復元する新しいhdレーダセンシングモデルであるfft-radnetを提案する。 FFT-RadNetは車両の検知と自由運転スペースの分断のために訓練されている。 どちらのタスクでも、最新のレーダーベースのモデルと競合するが、計算とメモリは少ない。 また,各種環境(都市道路,高速道路,田園部道路)において,自動車グレードセンサ(カメラ,レーザー,hdレーダ)から2時間分の生データを収集し,アノテートした。 Radar, Lidar et al."というニックネームのこのユニークなデータセットは、https://github.com/valeoai/RADIalで公開されている。

With their robustness to adverse weather conditions and ability to measure speeds, radar sensors have been part of the automotive landscape for more than two decades. Recent progress toward High Definition (HD) Imaging radar has driven the angular resolution below the degree, thus approaching laser scanning performance. However, the amount of data a HD radar delivers and the computational cost to estimate the angular positions remain a challenge. In this paper, we propose a novel HD radar sensing model, FFT-RadNet, that eliminates the overhead of computing the Range-Azimuth-Doppler 3D tensor, learning instead to recover angles from a Range-Doppler spectrum. FFT-RadNet is trained both to detect vehicles and to segment free driving space. On both tasks, it competes with the most recent radar-based models while requiring less compute and memory. Also, we collected and annotated 2-hour worth of raw data from synchronized automotive-grade sensors (camera, laser, HD radar) in various environments (city street, highway, countryside road). This unique dataset, nick-named RADIal for "Radar, Lidar et al.", is available at https://github.com/valeoai/RADIal.
翻訳日:2021-12-21 17:53:00 公開日:2021-12-20
# PyChEst: 断片的定常時系列における分布変化の一貫した振り返り推定のためのPythonパッケージ

PyChEst: a Python package for the consistent retrospective estimation of distributional changes in piece-wise stationary time series ( http://arxiv.org/abs/2112.10565v1 )

ライセンス: Link先を確認
Azadeh Khaleghi and Lukas Zierahn(参考訳) 我々はpychestを紹介する。pychestはpythonパッケージで、断片的な静止時系列の分散において、複数の変更点を同時に推定するツールを提供する。 実装された非パラメトリックアルゴリズムは、サンプルが未知の断片的定常過程によって生成される場合、一般的なフレームワークで確実に一貫性がある。 この設定では、サンプルは任意の形式の長距離依存性を持ち、変更点の前後の任意の(未知の)固定サイズの有限次元辺数は同じかもしれない。 パッケージに含まれるアルゴリズムの強みは、基盤となるプロセス分布に定常性以上の仮定を課すことなく、一貫して変更を検出する能力である。 サンプルを独立に同一に分散した環境で設計した最先端モデルとパッケージの性能を比較して,この特徴を述べる。

We introduce PyChEst, a Python package which provides tools for the simultaneous estimation of multiple changepoints in the distribution of piece-wise stationary time series. The nonparametric algorithms implemented are provably consistent in a general framework: when the samples are generated by unknown piece-wise stationary processes. In this setting, samples may have long-range dependencies of arbitrary form and the finite-dimensional marginals of any (unknown) fixed size before and after the changepoints may be the same. The strength of the algorithms included in the package is in their ability to consistently detect the changes without imposing any assumptions beyond stationarity on the underlying process distributions. We illustrate this distinguishing feature by comparing the performance of the package against state-of-the-art models designed for a setting where the samples are independently and identically distributed.
翻訳日:2021-12-21 17:52:01 公開日:2021-12-20
# (参考訳) 物理類似性ニューラルネットワークを用いた織物・衣服の物理特性の学習

Learning Physics Properties of Fabrics and Garments with a Physics Similarity Neural Network ( http://arxiv.org/abs/2112.10727v1 )

ライセンス: CC BY 4.0
Li Duan, Lewis Boyd, Gerardo Aragon-Camarasa(参考訳) 本稿では,物理類似ネットワーク(PhySNet)を用いて,実織物と衣服の物理パラメータをシミュレーション織物間の物理類似性を学習することにより予測する。 本研究では,扇風機によって発生する風速と面積重量を推定し,実布や衣服の曲げ剛性を予測する。 ファイネットをベイズ光子と組み合わせることで、物理パラメータを予測でき、実織物では34%、実服では68%改善できることがわかった。

In this paper, we propose to predict the physics parameters of real fabrics and garments by learning their physics similarities between simulated fabrics via a Physics Similarity Network (PhySNet). For this, we estimate wind speeds generated by an electric fan and the area weight to predict bending stiffness of simulated and real fabrics and garments. We found that PhySNet coupled with a Bayesian optimiser can predict physics parameters and improve the state-of-art by 34%for real fabrics and 68% for real garments.
翻訳日:2021-12-21 17:49:08 公開日:2021-12-20
# データとデバイスの不均一性を考慮した半分散フェデレーションエッジ学習

Semi-Decentralized Federated Edge Learning with Data and Device Heterogeneity ( http://arxiv.org/abs/2112.10313v1 )

ライセンス: Link先を確認
Yuchang Sun and Jiawei Shao and Yuyi Mao and Jessie Hui Wang and Jun Zhang(参考訳) feel(federated edge learning)は、ネットワークエッジに分散データを効果的に組み込んでディープラーニングモデルをトレーニングするための、プライバシ保護パラダイムとして注目されている。 それでも、単一エッジサーバのカバー範囲が限られると、未参加のクライアントノードが不足し、学習性能が損なわれる可能性がある。 本稿では,複数のエッジサーバを用いて多数のクライアントノードを協調的に調整する,半分散型フェデレーションエッジ学習(SD-FEEL)の新たなフレームワークについて検討する。 効率的なモデル共有のためにエッジサーバ間の低レイテンシ通信を利用することで、SD-FEELは従来のフェデレート学習に比べてはるかにレイテンシの低いトレーニングデータを組み込むことができる。 SD-FEELのトレーニングアルゴリズムについて,ローカルモデル更新,クラスタ内モデルアグリゲーション,クラスタ間モデルアグリゲーションの3つのステップで詳述する。 このアルゴリズムの収束は、非独立かつ同一分散(非iid)データで証明され、鍵パラメータがトレーニング効率に与える影響を明らかにし、実用的な設計ガイドラインを提供するのに役立つ。 一方、エッジデバイスの不均一性はストラグラー効果を引き起こし、SD-FEELの収束速度を低下させる可能性がある。 そこで本研究では,SD-FEELの安定化を意識したアグリゲーションスキームを用いた非同期トレーニングアルゴリズムを提案する。 シミュレーションの結果,SD-FEELのための提案アルゴリズムの有効性と効率を実証し,解析結果を裏付ける。

Federated edge learning (FEEL) has attracted much attention as a privacy-preserving paradigm to effectively incorporate the distributed data at the network edge for training deep learning models. Nevertheless, the limited coverage of a single edge server results in an insufficient number of participated client nodes, which may impair the learning performance. In this paper, we investigate a novel framework of FEEL, namely semi-decentralized federated edge learning (SD-FEEL), where multiple edge servers are employed to collectively coordinate a large number of client nodes. By exploiting the low-latency communication among edge servers for efficient model sharing, SD-FEEL can incorporate more training data, while enjoying much lower latency compared with conventional federated learning. We detail the training algorithm for SD-FEEL with three main steps, including local model update, intra-cluster, and inter-cluster model aggregations. The convergence of this algorithm is proved on non-independent and identically distributed (non-IID) data, which also helps to reveal the effects of key parameters on the training efficiency and provides practical design guidelines. Meanwhile, the heterogeneity of edge devices may cause the straggler effect and deteriorate the convergence speed of SD-FEEL. To resolve this issue, we propose an asynchronous training algorithm with a staleness-aware aggregation scheme for SD-FEEL, of which, the convergence performance is also analyzed. The simulation results demonstrate the effectiveness and efficiency of the proposed algorithms for SD-FEEL and corroborate our analysis.
翻訳日:2021-12-21 17:34:41 公開日:2021-12-20
# 局所-グローバルベイズネットワーク構造学習のための特徴選択

Feature Selection for Efficient Local-to-Global Bayesian Network Structure Learning ( http://arxiv.org/abs/2112.10369v1 )

ライセンス: Link先を確認
Kui Yu, Zhaolong Ling, Lin Liu, Hao Wang, Jiuyong Li(参考訳) 局所言語学習アプローチはベイズネットワーク(BN)構造学習において重要な役割を果たす。 既存の局所言語学習アルゴリズムは、まず、データセット内の各変数のMB(マルコフ毛布)またはPC(親子)を学習し、次にスケルトン内のオリエントエッジを学習することにより、DAG (directed acyclic graph) の骨格を構築する。 しかし、既存のMBまたはPC学習手法は、特に大きなBNで計算コストがかかることが多く、非効率なローカル-グローバル学習アルゴリズムをもたらす。 この問題に取り組むため,本稿では,機能選択を用いた効率的な地域間学習手法を提案する。 具体的には,変数のPC集合を学習するためのMRMR(Minimum-Redundancy and Maximum-Relevance)特徴選択手法の理論的根拠をまず分析する。 そこで本研究では,F2SL(Feature selection-based structure learning)を用いたローカル-グローバルBN構造学習手法を提案する。 F2SL法はまずMRMR法を用いてDAG骨格を学習し、次に骨格の縁を向き付けている。 F2SLアプローチを2つの新しいアルゴリズムF2SL-c(独立テスト)とF2SL-s(スコア関数)にインスタンス化する。 提案手法は,最先端のローカル-グローバル BN 学習アルゴリズムと比較して,提案アルゴリズムの方が効率的で,比較アルゴリズムよりも優れた構造学習品質が得られることを示した。

Local-to-global learning approach plays an essential role in Bayesian network (BN) structure learning. Existing local-to-global learning algorithms first construct the skeleton of a DAG (directed acyclic graph) by learning the MB (Markov blanket) or PC (parents and children) of each variable in a data set, then orient edges in the skeleton. However, existing MB or PC learning methods are often computationally expensive especially with a large-sized BN, resulting in inefficient local-to-global learning algorithms. To tackle the problem, in this paper, we develop an efficient local-to-global learning approach using feature selection. Specifically, we first analyze the rationale of the well-known Minimum-Redundancy and Maximum-Relevance (MRMR) feature selection approach for learning a PC set of a variable. Based on the analysis, we propose an efficient F2SL (feature selection-based structure learning) approach to local-to-global BN structure learning. The F2SL approach first employs the MRMR approach to learn a DAG skeleton, then orients edges in the skeleton. Employing independence tests or score functions for orienting edges, we instantiate the F2SL approach into two new algorithms, F2SL-c (using independence tests) and F2SL-s (using score functions). Compared to the state-of-the-art local-to-global BN learning algorithms, the experiments validated that the proposed algorithms in this paper are more efficient and provide competitive structure learning quality than the compared algorithms.
翻訳日:2021-12-21 17:34:15 公開日:2021-12-20
# GPU-Accelerated Nearest Neighborsアルゴリズムによる効率的な風速予測

Efficient Wind Speed Nowcasting with GPU-Accelerated Nearest Neighbors Algorithm ( http://arxiv.org/abs/2112.10408v1 )

ライセンス: Link先を確認
Arnaud Pannatier, Ricardo Picatoste, Fran\c{c}ois Fleuret(参考訳) 本稿では,簡易かつ効率的な高高度風流送風管を提案する。 航空機が空域全体に記録した大量のライブデータを効率的に処理し、精度良く風場を再構築する。 データセットの各ポイントごとにユニークなコンテキストを生成し、そこから外挿する。 このようなコンテクストの作成は計算量が多いため,線形構造で近似可能な滑らかな軌道に沿って要素が配置されたデータセット内の最寄りの近傍を効率的に取得することにより,時間とメモリコストを削減できる新しいアルゴリズムを提案する。 現代的なgpuベースのコンピューティング基盤に適した代数的テンソル演算によって実装された効率的かつ精密な戦略を提案する。 この方法はスケーラブルなユークリッド計量を採用し、1次元に沿ってデータポイントをマスキングできる。 適用した場合、この手法は通常のユークリッドk-NNやKDTreesなどのよく知られたデータ選択法よりも効率が良く、数倍のスピードアップを提供する。 PyTorchの実装と、経験的な結果の複製を可能にする新しいデータセットを提供する。

This paper proposes a simple yet efficient high-altitude wind nowcasting pipeline. It processes efficiently a vast amount of live data recorded by airplanes over the whole airspace and reconstructs the wind field with good accuracy. It creates a unique context for each point in the dataset and then extrapolates from it. As creating such context is computationally intensive, this paper proposes a novel algorithm that reduces the time and memory cost by efficiently fetching nearest neighbors in a data set whose elements are organized along smooth trajectories that can be approximated with piece-wise linear structures. We introduce an efficient and exact strategy implemented through algebraic tensorial operations, which is well-suited to modern GPU-based computing infrastructure. This method employs a scalable Euclidean metric and allows masking data points along one dimension. When applied, this method is more efficient than plain Euclidean k-NN and other well-known data selection methods such as KDTrees and provides a several-fold speedup. We provide an implementation in PyTorch and a novel data set to allow the replication of empirical results.
翻訳日:2021-12-21 17:33:44 公開日:2021-12-20
# 限定ラベル付きデータと見えないクラス検出を用いた進化グラフの生涯学習

Lifelong Learning in Evolving Graphs with Limited Labeled Data and Unseen Class Detection ( http://arxiv.org/abs/2112.10558v1 )

ライセンス: Link先を確認
Lukas Galke, Iacopo Vagliano, Benedikt Franke, Tobias Zielke, Ansgar Scherp(参考訳) 実世界の大規模グラフデータは静的ではなく動的であることが多い。 データは、新しいノード、エッジ、さらには引用ネットワークや研究開発コラボレーションネットワークなど、時間とともに現れるクラスによって変化している。 グラフニューラルネットワーク(GNN)は、グラフ構造化データにおける多数のタスクの標準手法として登場した。 本研究では,新たな未確認グラフデータにGNNを段階的に適用する方法を2段階の手順で検討する。 まず、標準ベンチマークデータセットにおけるトランスダクティブ学習とインダクティブ学習の差について分析する。 帰納的事前学習の後、グラフにラベルのないデータを加え、モデルが安定であることを示す。 次に、過去のすべてのインスタンスがクラスラベルでアノテートされていないケースを考慮しながら、ラベル付きデータを継続的に追加するケースについて検討する。 さらに、グラフが進化している間に新しいクラスを導入し、それまで見つからなかったクラスからインスタンスを自動的に検出するメソッドを探索する。 グラフの進化を原則的に扱うために,評価プロトコルとともに,グラフデータのための生涯学習フレームワークを提案する。 本稿では,代表的GNNアーキテクチャを評価する。 モデルパラメータ内の暗黙的な知識は、例えば過去のタスクのデータが制限されたときに、より重要になる。 オープンワールドノード分類では、驚くほど少ない過去のタスクからのデータが、過去のタスクのデータを記憶することで到達したパフォーマンスに到達するのに十分であることがわかった。 未知のクラス検出の課題では,重み付きクロスエントロピー損失が安定性に重要であることがわかった。

Large-scale graph data in the real-world are often dynamic rather than static. The data are changing with new nodes, edges, and even classes appearing over time, such as in citation networks and research-and-development collaboration networks. Graph neural networks (GNNs) have emerged as the standard method for numerous tasks on graph-structured data. In this work, we employ a two-step procedure to explore how GNNs can be incrementally adapted to new unseen graph data. First, we analyze the verge between transductive and inductive learning on standard benchmark datasets. After inductive pretraining, we add unlabeled data to the graph and show that the models are stable. Then, we explore the case of continually adding more and more labeled data, while considering cases, where not all past instances are annotated with class labels. Furthermore, we introduce new classes while the graph evolves and explore methods that automatically detect instances from previously unseen classes. In order to deal with evolving graphs in a principled way, we propose a lifelong learning framework for graph data along with an evaluation protocol. In this framework, we evaluate representative GNN architectures. We observe that implicit knowledge within model parameters becomes more important when explicit knowledge, i.e., data from past tasks, is limited. We find that in open-world node classification, the data from surprisingly few past tasks are sufficient to reach the performance reached by remembering data from all past tasks. In the challenging task of unseen class detection, we find that using a weighted cross-entropy loss is important for stability.
翻訳日:2021-12-21 17:33:26 公開日:2021-12-20
# CSSR: コンテキスト対応のシーケンシャルなソフトウェアサービス推奨モデル

CSSR: A Context-Aware Sequential Software Service Recommendation Model ( http://arxiv.org/abs/2112.10316v1 )

ライセンス: Link先を確認
Mingwei Zhang, Jiayuan Liu, Weipu Zhang, Ke Deng, Hai Dong, Ying Liu(参考訳) ユーザがgithubで適切なリポジトリを見つけるのを支援する,新たなソフトウェアサービスレコメンデーションモデルを提案する。 このモデルはまず,データスパーシティ問題に起因する困難を軽減するために,リポジトリの豊富なコンテキスト情報を活用するために,新たなコンテキスト誘導型リポジトリグラフ埋め込み手法を設計した。 そして、ソフトウェアサービスレコメンデーション分野において、初めてユーザー-リポジトリ間のインタラクションのシーケンス情報を活用する。 具体的には、ユーザの好みのダイナミクスを捉えるために、ディープラーニングに基づくシーケンシャルレコメンデーション技術を採用する。 githubから収集した大規模なデータセットで、既存のメソッドのリストに対して包括的な実験が行われている。 その結果,様々な点において,本手法の優位性が示された。

We propose a novel software service recommendation model to help users find their suitable repositories in GitHub. Our model first designs a novel context-induced repository graph embedding method to leverage rich contextual information of repositories to alleviate the difficulties caused by the data sparsity issue. It then leverages sequence information of user-repository interactions for the first time in the software service recommendation field. Specifically, a deep-learning based sequential recommendation technique is adopted to capture the dynamics of user preferences. Comprehensive experiments have been conducted on a large dataset collected from GitHub against a list of existing methods. The results illustrate the superiority of our method in various aspects.
翻訳日:2021-12-21 17:30:40 公開日:2021-12-20
# インクリメンタル学習と後見経験リプレイを用いた定理の証明

Proving Theorems using Incremental Learning and Hindsight Experience Replay ( http://arxiv.org/abs/2112.10664v1 )

ライセンス: Link先を確認
Eser Ayg\"un, Laurent Orseau, Ankit Anand, Xavier Glorot, Vlad Firoiu, Lei M. Zhang, Doina Precup and Shibl Mourad(参考訳) 一階述語論理の伝統的な自動定理証明は、速度最適化された探索と、幅広い領域で最適に動作するように設計された多くの手作りのヒューリスティックに依存する。 文学における機械学習のアプローチは、これらの従来のプロバーの自己ブートストラップに依存するか、同等のパフォーマンスに達するのに不足している。 本稿では,基本条件付きアルゴリズムのみをベースとした一階述語論理の学習を行うための一般的な漸進的学習アルゴリズムを提案する。 節はグラフとして表現され、スペクトル特徴を持つトランスフォーマーネットワークに提示される。 自然カリキュラムの欠如に加えて,トレーニングデータのスパース性と初期欠如に対処するために,後見経験リプレイを定理証明に適用し,証明が見つからない場合でも学習できるようにする。 この方法で訓練されたプローバーは、証明の量と品質の両方の観点から、TPTPデータセット上の最先端の伝統的なプローバーにマッチし、時には超えることを示す。

Traditional automated theorem provers for first-order logic depend on speed-optimized search and many handcrafted heuristics that are designed to work best over a wide range of domains. Machine learning approaches in literature either depend on these traditional provers to bootstrap themselves or fall short on reaching comparable performance. In this paper, we propose a general incremental learning algorithm for training domain specific provers for first-order logic without equality, based only on a basic given-clause algorithm, but using a learned clause-scoring function. Clauses are represented as graphs and presented to transformer networks with spectral features. To address the sparsity and the initial lack of training data as well as the lack of a natural curriculum, we adapt hindsight experience replay to theorem proving, so as to be able to learn even when no proof can be found. We show that provers trained this way can match and sometimes surpass state-of-the-art traditional provers on the TPTP dataset in terms of both quantity and quality of the proofs.
翻訳日:2021-12-21 17:30:31 公開日:2021-12-20
# 繰り返しゲームにおける適応性と非探索性

Balancing Adaptability and Non-exploitability in Repeated Games ( http://arxiv.org/abs/2112.10314v1 )

ライセンス: Link先を確認
Anthony DiGiovanni and Ambuj Tewari(参考訳) 複数のクラスのうちの1つで、未知のメンバシップを持つ対戦相手に対して、繰り返しゲームにおける低後悔を保証する問題について検討する。 我々は,我々のアルゴリズムが探索不可能であるという制約を加味し,対戦相手が「公正」な値を超える報酬を達成できないアルゴリズムを使用する動機を欠いている。 我々の解法は,各クラスに最適である一連のサブアルゴリズム内を探索し,相手による搾取の証拠を検出するために罰則を用いる専門家アルゴリズム (LAFF) である。 対立するクラスに依存したベンチマークでは、LAFFは、攻撃的クラスを除いて、可能な相手に対して一様にサブリニア後悔をしており、敵が線形後悔を保証していることを示す。 私たちの知る限り、この研究は、マルチエージェント学習における後悔と非発見性の両方の保証を提供する最初のものである。

We study the problem of guaranteeing low regret in repeated games against an opponent with unknown membership in one of several classes. We add the constraint that our algorithm is non-exploitable, in that the opponent lacks an incentive to use an algorithm against which we cannot achieve rewards exceeding some "fair" value. Our solution is an expert algorithm (LAFF) that searches within a set of sub-algorithms that are optimal for each opponent class and uses a punishment policy upon detecting evidence of exploitation by the opponent. With benchmarks that depend on the opponent class, we show that LAFF has sublinear regret uniformly over the possible opponents, except exploitative ones, for which we guarantee that the opponent has linear regret. To our knowledge, this work is the first to provide guarantees for both regret and non-exploitability in multi-agent learning.
翻訳日:2021-12-21 17:30:16 公開日:2021-12-20
# (参考訳) 大規模データセットは自己監督型事前トレーニングに必要か?

Are Large-scale Datasets Necessary for Self-Supervised Pre-training? ( http://arxiv.org/abs/2112.10740v1 )

ライセンス: CC BY 4.0
Alaaeldin El-Nouby, Gautier Izacard, Hugo Touvron, Ivan Laptev, Herv\'e Jegou, Edouard Grave(参考訳) imagenetのような大規模データセットでの事前トレーニングモデルは、コンピュータビジョンの標準的なプラクティスである。 このパラダイムは、高容量モデルが過度に適合する傾向にある小さなトレーニングセットを持つタスクに特に有効である。 本研究では,対象タスクデータのみを活用する自己教師付き事前学習シナリオを検討する。 スタンフォードの車、スケッチ、cocoのようなデータセットはimagenetよりも桁違いに小さい。 本研究では,画像埋め込みの比較によって訓練された一般的な自己教師型手法よりも,BEiTや,あるいは本論文で紹介した変種などの自動エンコーダが,事前学習データのタイプとサイズに対してより堅牢であることを示し,異なる領域の分類データセット上でのImageNet事前学習と比較して,競合性能を得る。 COCOでは、COCOイメージのみを使用して事前トレーニングを行う場合、検出とインスタンスセグメンテーションのパフォーマンスは、同等の設定で教師付きImageNet事前トレーニングを上回る。

Pre-training models on large scale datasets, like ImageNet, is a standard practice in computer vision. This paradigm is especially effective for tasks with small training sets, for which high-capacity models tend to overfit. In this work, we consider a self-supervised pre-training scenario that only leverages the target task data. We consider datasets, like Stanford Cars, Sketch or COCO, which are order(s) of magnitude smaller than Imagenet. Our study shows that denoising autoencoders, such as BEiT or a variant that we introduce in this paper, are more robust to the type and size of the pre-training data than popular self-supervised methods trained by comparing image embeddings.We obtain competitive performance compared to ImageNet pre-training on a variety of classification datasets, from different domains. On COCO, when pre-training solely using COCO images, the detection and instance segmentation performance surpasses the supervised ImageNet pre-training in a comparable setting.
翻訳日:2021-12-21 17:29:37 公開日:2021-12-20
# DMS-GCN:人間の動き予測のための動的マルチスケール時空間グラフ畳み込みネットワーク

DMS-GCN: Dynamic Mutiscale Spatiotemporal Graph Convolutional Networks for Human Motion Prediction ( http://arxiv.org/abs/2112.10365v1 )

ライセンス: Link先を確認
Zigeng Yan, Di-Hua Zhai, Yuanqing Xia(参考訳) 人間の動作予測は多くのコンピュータビジョンアプリケーション領域において重要かつ困難なタスクである。 近年,recurrent neural network (rnns) のタイミング処理能力を活用して,短時間の予測でスムーズで信頼性の高い結果を得る研究が進められている。 しかし、以前の研究で証明されたように、RNNはエラーの蓄積に悩まされ、信頼性の低い結果をもたらす。 本稿では,人体関節間の時間的滑らかさと空間的依存性を考慮した,動作予測のための簡易フィードフォワードディープニューラルネットワークを提案する。 本研究では,人間の運動過程における時空間依存を暗黙的に確立するために,多スケールの時空間グラフ畳み込みネットワーク(gcns)を設計する。 モデル全体がすべてのアクションに適合し、エンコーダ・デコーダのフレームワークに従う。 エンコーダは、フレーム間の動きの特徴をキャプチャする時間的gcnと、ジョイント軌道間の空間構造を抽出する半自律学習空間gcnとからなる。 デコーダは、時間畳み込みネットワーク(TCN)を使用して、その広範な能力を維持する。 大規模な実験の結果,Human3.6MとCMU MocapのデータセットではSOTA法よりも少ないパラメータしか必要としないことがわかった。 コードはhttps://github.com/yzg9353/DMSGCNで入手できる。

Human motion prediction is an important and challenging task in many computer vision application domains. Recent work concentrates on utilizing the timing processing ability of recurrent neural networks (RNNs) to achieve smooth and reliable results in short-term prediction. However, as evidenced by previous work, RNNs suffer from errors accumulation, leading to unreliable results. In this paper, we propose a simple feed-forward deep neural network for motion prediction, which takes into account temporal smoothness and spatial dependencies between human body joints. We design a Multi-scale Spatio-temporal graph convolutional networks (GCNs) to implicitly establish the Spatio-temporal dependence in the process of human movement, where different scales fused dynamically during training. The entire model is suitable for all actions and follows a framework of encoder-decoder. The encoder consists of temporal GCNs to capture motion features between frames and semi-autonomous learned spatial GCNs to extract spatial structure among joint trajectories. The decoder uses temporal convolution networks (TCNs) to maintain its extensive ability. Extensive experiments show that our approach outperforms SOTA methods on the datasets of Human3.6M and CMU Mocap while only requiring much lesser parameters. Code will be available at https://github.com/yzg9353/DMSGCN.
翻訳日:2021-12-21 17:28:04 公開日:2021-12-20
# UFPMP-Det:ドローン画像における高精度かつ効率的な物体検出を目指して

UFPMP-Det: Toward Accurate and Efficient Object Detection on Drone Imagery ( http://arxiv.org/abs/2112.10415v1 )

ライセンス: Link先を確認
Yecheng Huang, Jiaxin Chen, Di Huang(参考訳) 本稿では,UFPMP-Det(Unified Foreground Packing)を用いたマルチプロキシ検出ネットワーク(Multi-Proxy Detection Network)を提案する。 To deal with the numerous instances of very small scales, different from the common solution that divides the high-resolution input image into quite a number of chips with low foreground ratios to perform detection on them each, the Unified Foreground Packing (UFP) module is designed, where the sub-regions given by a coarse detector are initially merged through clustering to suppress background and the resulting ones are subsequently packed into a mosaic for a single inference, thus significantly reducing overall time cost. さらに,検出性能が低下するインスタンスのクラス間類似性とクラス内変動のより深刻な混乱に対処するため,マルチプロキシ検出ネットワーク(MP-Det)を複数のプロキシ学習を用いてモデルオブジェクト分布に細粒度で提示し,Bag-of-Instance-Words(BoIW)誘導の最適輸送損失を最小化することにより,プロキシを多種多種多様に強制する。 これにより、ufpmp-detは検出精度と効率の両方を大いに促進する。 広く使われているVisDroneとUAVDTデータセットで大規模な実験が行われ、UFPMP-Detは新たな最先端のスコアをはるかに高速に報告し、その利点を強調している。

This paper proposes a novel approach to object detection on drone imagery, namely Multi-Proxy Detection Network with Unified Foreground Packing (UFPMP-Det). To deal with the numerous instances of very small scales, different from the common solution that divides the high-resolution input image into quite a number of chips with low foreground ratios to perform detection on them each, the Unified Foreground Packing (UFP) module is designed, where the sub-regions given by a coarse detector are initially merged through clustering to suppress background and the resulting ones are subsequently packed into a mosaic for a single inference, thus significantly reducing overall time cost. Furthermore, to address the more serious confusion between inter-class similarities and intra-class variations of instances, which deteriorates detection performance but is rarely discussed, the Multi-Proxy Detection Network (MP-Det) is presented to model object distributions in a fine-grained manner by employing multiple proxy learning, and the proxies are enforced to be diverse by minimizing a Bag-of-Instance-Words (BoIW) guided optimal transport loss. By such means, UFPMP-Det largely promotes both the detection accuracy and efficiency. Extensive experiments are carried out on the widely used VisDrone and UAVDT datasets, and UFPMP-Det reports new state-of-the-art scores at a much higher speed, highlighting its advantages.
翻訳日:2021-12-21 17:27:43 公開日:2021-12-20
# 対話選択による画像検索のためのラベルノイズ学習

Learning with Label Noise for Image Retrieval by Selecting Interactions ( http://arxiv.org/abs/2112.10453v1 )

ライセンス: Link先を確認
Sarah Ibrahimi and Arnaud Sors and Rafael Sampaio de Rezende and St\'ephane Clinchant(参考訳) ノイズラベルを用いた学習は、画像分類の活発な研究領域である。 しかし,ノイズラベルが画像検索に与える影響についてはあまり研究されていない。 本研究では,教師によるインタラクションの選択(T-SINT)という,ノイズの多いインタラクションを識別する画像検索手法を提案する。 距離行列の要素を抽出し、その安定性に寄与する教師ベースのトレーニング設定を用いて、検索損失において考慮すべき正と負の相互作用を選択する。 その結果、合成ノイズやより現実的なノイズを含むベンチマークデータセット全体の高いノイズレートにおいて、最先端の手法を一貫して上回っている。

Learning with noisy labels is an active research area for image classification. However, the effect of noisy labels on image retrieval has been less studied. In this work, we propose a noise-resistant method for image retrieval named Teacher-based Selection of Interactions, T-SINT, which identifies noisy interactions, ie. elements in the distance matrix, and selects correct positive and negative interactions to be considered in the retrieval loss by using a teacher-based training setup which contributes to the stability. As a result, it consistently outperforms state-of-the-art methods on high noise rates across benchmark datasets with synthetic noise and more realistic noise.
翻訳日:2021-12-21 17:27:15 公開日:2021-12-20
# 注目に基づく高速な物体検出のための新しいネットワーク

a novel attention-based network for fast salient object detection ( http://arxiv.org/abs/2112.10481v1 )

ライセンス: Link先を確認
Bin Zhang, Yang Wu, Xiaojing Zhang and Ming Ma(参考訳) 現在のsalient object detection networkでは、最も一般的な方法はu字型構造である。 しかし、大量のパラメータは、限られたメモリデバイスにデプロイできないコンピューティングとストレージリソースの消費を増加させる。 他の浅い層ネットワークはu字型構造と同等の精度を保たず、より多くのパラメータを持つディープネットワーク構造は大きな速度でグローバル最小損失に収束しない。 これらの欠点を克服するために,我々は,(1)小型畳み込みニューラルネットワーク(cnns)を用いて,改良したsalient object features compression and reinforcement extraction module(isfcrem)でモデルを圧縮し,モデルのパラメータを削減した,新たな深層畳み込みネットワークアーキテクチャを提案する。 2) ISFCREMにチャネルアテンション機構を導入し,特徴表現能力を向上させるために異なるチャネルを重み付けする。 3)学習中の長期勾配情報を蓄積して学習率を適応的に調整する新しいオプティマイザの適用。 その結果, 提案手法は, 精度を損なうことなく元の3分の1まで圧縮でき, 他のモデルと比較して, 広く使用されている6つのデータ集合上でより高速かつスムーズに収束できることがわかった。 私たちのコードはhttps://gitee.com/binzhangbinzhangbin/code-a-novel-attention-based-network-for-fast-salient-object-d etection.gitで公開しています。

In the current salient object detection network, the most popular method is using U-shape structure. However, the massive number of parameters leads to more consumption of computing and storage resources which are not feasible to deploy on the limited memory device. Some others shallow layer network will not maintain the same accuracy compared with U-shape structure and the deep network structure with more parameters will not converge to a global minimum loss with great speed. To overcome all of these disadvantages, we proposed a new deep convolution network architecture with three contributions: (1) using smaller convolution neural networks (CNNs) to compress the model in our improved salient object features compression and reinforcement extraction module (ISFCREM) to reduce parameters of the model. (2) introducing channel attention mechanism in ISFCREM to weigh different channels for improving the ability of feature representation. (3) applying a new optimizer to accumulate the long-term gradient information during training to adaptively tune the learning rate. The results demonstrate that the proposed method can compress the model to 1/3 of the original size nearly without losing the accuracy and converging faster and more smoothly on six widely used datasets of salient object detection compared with the others models. Our code is published in https://gitee.com/binzhangbinzhangbin/code-a-novel-attention-based-network-for-fast-salient-object-d etection.git
翻訳日:2021-12-21 17:24:46 公開日:2021-12-20
# スケールネット:大規模不変画像マッチングにおけるスケール差低減学習

Scale-Net: Learning to Reduce Scale Differences for Large-Scale Invariant Image Matching ( http://arxiv.org/abs/2112.10485v1 )

ライセンス: Link先を確認
Yujie Fu, Yihong Wu(参考訳) ほとんどの画像マッチング手法は、画像の大規模な変化に遭遇すると性能が低下する。 この問題を解決するために,まず,推定スケール比に応じて画像対の両画像のサイズを縮小することにより,局所特徴抽出前の画像スケール差を低減するスケール差認識画像マッチング法(SDAIM)を提案する。 第2に,スケール比を正確に推定するために,可視性強化マッチングモジュール(CVARM)を提案し,CVARMに基づく新しいニューラルネットワークであるスケールネットを設計する。 提案するcvarmでは,画像ペア内の可視領域に対するストレスが増大し,画像の可視領域からの邪魔が抑制される。 定量的・定性的な実験により,既存のスケール比推定法に比べ,スケール比推定精度が高く,一般化能もはるかに高いことが確認された。 画像マッチングおよび相対ポーズ推定タスクに関するさらなる実験により、SDAIMとScale-Netは、代表的局所特徴と最先端の局所特徴マッチング法の性能を大幅に向上させることができることを示した。

Most image matching methods perform poorly when encountering large scale changes in images. To solve this problem, firstly, we propose a scale-difference-aware image matching method (SDAIM) that reduces image scale differences before local feature extraction, via resizing both images of an image pair according to an estimated scale ratio. Secondly, in order to accurately estimate the scale ratio, we propose a covisibility-attention-reinforced matching module (CVARM) and then design a novel neural network, termed as Scale-Net, based on CVARM. The proposed CVARM can lay more stress on covisible areas within the image pair and suppress the distraction from those areas visible in only one image. Quantitative and qualitative experiments confirm that the proposed Scale-Net has higher scale ratio estimation accuracy and much better generalization ability compared with all the existing scale ratio estimation methods. Further experiments on image matching and relative pose estimation tasks demonstrate that our SDAIM and Scale-Net are able to greatly boost the performance of representative local features and state-of-the-art local feature matching methods.
翻訳日:2021-12-21 17:24:20 公開日:2021-12-20
# スケルトンに基づく行動認識のための動的ハイパーグラフ畳み込みネットワーク

Dynamic Hypergraph Convolutional Networks for Skeleton-Based Action Recognition ( http://arxiv.org/abs/2112.10570v1 )

ライセンス: Link先を確認
Jinfeng Wei, Yunxin Wang, Mengli Guo, Pei Lv, Xiaoshan Yang, Mingliang Xu(参考訳) グラフ畳み込みネットワーク(GCN)に基づく手法は骨格に基づく行動認識タスクにおいて高度な性能を達成している。 しかし、骨格グラフは骨格データに含まれる運動情報を完全に表現することはできない。 さらに、gcnベースの方法におけるスケルトングラフのトポロジーは自然接続に従って手動で設定され、異なる状況にうまく適応できない全てのサンプルに対して固定される。 本研究では,骨格に基づく行動認識のための動的ハイパーグラフ畳み込みネットワーク(DHGCN)を提案する。 DHGCNはハイパーグラフを使用して骨格構造を表現し、ヒト関節に含まれる運動情報を効果的に活用する。 骨格ハイパーグラフの各関節はその移動に応じて対応する重量を動的に割り当て、我々のモデルにおけるハイパーグラフトポロジーは関節間の関係に応じて異なるサンプルに動的に調整することができる。 実験の結果,このモデルの性能は,Kineetics-Skeleton 400,NTU RGB+D 60,NTU RGB+D 120の3つのデータセット上での競合性能を示すことがわかった。

Graph convolutional networks (GCNs) based methods have achieved advanced performance on skeleton-based action recognition task. However, the skeleton graph cannot fully represent the motion information contained in skeleton data. In addition, the topology of the skeleton graph in the GCN-based methods is manually set according to natural connections, and it is fixed for all samples, which cannot well adapt to different situations. In this work, we propose a novel dynamic hypergraph convolutional networks (DHGCN) for skeleton-based action recognition. DHGCN uses hypergraph to represent the skeleton structure to effectively exploit the motion information contained in human joints. Each joint in the skeleton hypergraph is dynamically assigned the corresponding weight according to its moving, and the hypergraph topology in our model can be dynamically adjusted to different samples according to the relationship between the joints. Experimental results demonstrate that the performance of our model achieves competitive performance on three datasets: Kinetics-Skeleton 400, NTU RGB+D 60, and NTU RGB+D 120.
翻訳日:2021-12-21 17:24:03 公開日:2021-12-20
# BAPose: 絡み合ったウォーターフォール表現を用いたボトムアップポス推定

BAPose: Bottom-Up Pose Estimation with Disentangled Waterfall Representations ( http://arxiv.org/abs/2112.10716v1 )

ライセンス: Link先を確認
Bruno Artacho, Andreas Savakis(参考訳) BAPoseは,複数人物のポーズ推定のための最先端結果を実現する新しいボトムアップ手法である。 エンド・ツー・エンドのトレーニング可能なフレームワークは,マルチスケールなウォーターフォールアーキテクチャと適応畳み込みを利用して,オクルージョンを伴う混み合ったシーンにおいて,キーポイントをより正確に推測する。 BAPoseのアンタングルドウォーターフォールモジュールによって得られたマルチスケール表現は、空間ピラミッド構成に匹敵するマルチスケールフィールドを維持しながら、カスケードアーキテクチャにおけるプログレッシブフィルタリングの効率を活用している。 難易度の高いCOCOとCrowdPoseデータセットの結果から,BAPoseは多人数ポーズ推定のための効率的で堅牢なフレームワークであり,最先端の精度を大幅に向上させることができた。

We propose BAPose, a novel bottom-up approach that achieves state-of-the-art results for multi-person pose estimation. Our end-to-end trainable framework leverages a disentangled multi-scale waterfall architecture and incorporates adaptive convolutions to infer keypoints more precisely in crowded scenes with occlusions. The multi-scale representations, obtained by the disentangled waterfall module in BAPose, leverage the efficiency of progressive filtering in the cascade architecture, while maintaining multi-scale fields-of-view comparable to spatial pyramid configurations. Our results on the challenging COCO and CrowdPose datasets demonstrate that BAPose is an efficient and robust framework for multi-person pose estimation, achieving significant improvements on state-of-the-art accuracy.
翻訳日:2021-12-21 17:21:38 公開日:2021-12-20
# 潜時拡散モデルによる高分解能画像合成

High-Resolution Image Synthesis with Latent Diffusion Models ( http://arxiv.org/abs/2112.10752v1 )

ライセンス: Link先を確認
Robin Rombach and Andreas Blattmann and Dominik Lorenz and Patrick Esser and Bj\"orn Ommer(参考訳) 画像形成プロセスをデノージングオートエンコーダの逐次応用に分解することにより、拡散モデル(dms)は画像データなどにおいて最先端の合成結果を達成する。 さらに、それらの定式化により、リトレーニングなしで画像生成プロセスを制御できる誘導機構が実現される。 しかし、これらのモデルは通常ピクセル空間で直接動作するため、強力なDMの最適化はしばしば数百日ものGPU日を消費し、逐次評価のために推論は高価である。 制限された計算資源に対して,その品質と柔軟性を保ちながら,DMトレーニングを可能にするために,パワートレーニング済みオートエンコーダの潜時空間に適用する。 従来の研究とは対照的に、そのような表現のトレーニング拡散モデルにより、複雑性の低減と詳細保存のほぼ最適点に到達することができ、視覚的忠実度を大幅に向上させることができる。 モデルアーキテクチャにクロスアテンション層を導入することで、拡散モデルをテキストやバウンディングボックスなどの一般的なコンディショニング入力のための強力で柔軟なジェネレータに変換し、畳み込み方式で高分解能合成が可能となる。 我々の潜時拡散モデル(LDMs)は,非条件画像生成,セマンティックシーン合成,超解像などの様々なタスクにおいて,画像インパインティングと高い競争性能を実現するとともに,画素ベースのDMと比較して計算要求を大幅に低減する。 コードはhttps://github.com/CompVis/latent-diffusion で入手できる。

By decomposing the image formation process into a sequential application of denoising autoencoders, diffusion models (DMs) achieve state-of-the-art synthesis results on image data and beyond. Additionally, their formulation allows for a guiding mechanism to control the image generation process without retraining. However, since these models typically operate directly in pixel space, optimization of powerful DMs often consumes hundreds of GPU days and inference is expensive due to sequential evaluations. To enable DM training on limited computational resources while retaining their quality and flexibility, we apply them in the latent space of powerful pretrained autoencoders. In contrast to previous work, training diffusion models on such a representation allows for the first time to reach a near-optimal point between complexity reduction and detail preservation, greatly boosting visual fidelity. By introducing cross-attention layers into the model architecture, we turn diffusion models into powerful and flexible generators for general conditioning inputs such as text or bounding boxes and high-resolution synthesis becomes possible in a convolutional manner. Our latent diffusion models (LDMs) achieve a new state of the art for image inpainting and highly competitive performance on various tasks, including unconditional image generation, semantic scene synthesis, and super-resolution, while significantly reducing computational requirements compared to pixel-based DMs. Code is available at https://github.com/CompVis/latent-diffusion .
翻訳日:2021-12-21 17:21:22 公開日:2021-12-20
# 構造とテクスチャ表現の学習による3次元画像合成

3D-aware Image Synthesis via Learning Structural and Textural Representations ( http://arxiv.org/abs/2112.10759v1 )

ライセンス: Link先を確認
Yinghao Xu, Sida Peng, Ceyuan Yang, Yujun Shen, Bolei Zhou(参考訳) 生成モデルを作成することは、2D画像空間と3D物理世界を橋渡しする。 最近の試みでは、3d座標をピクセル値にマッピングするニューラル・ラジアンス・フィールド(nerf)を3dプリエントとして生成逆ネットワーク(gan)に実装している。 しかし、NeRFの暗黙の関数は非常に局所的な受容場を持ち、生成元が大域構造を認識することが困難になる。 一方、NeRFはボリュームレンダリング上に構築されており、高解像度な結果を得るにはコストがかかりすぎるため、最適化の難しさが増す。 これら2つの問題を緩和するために,構造表現とテクスチャ表現を明示的に学習し,高忠実度3D認識画像合成のための新しいフレームワーク,VolumeGANを提案する。 まず、基礎となる構造を表現するために特徴量を学び、次にNeRFのようなモデルを用いて特徴体に変換する。 さらに、特徴フィールドはテクスチャ表現として2次元特徴マップに蓄積され、その後、外観合成のためのニューラルレンダラーが続く。 このようなデザインは形状と外観を独立的に制御できる。 広い範囲のデータセットに対する大規模な実験により、我々の手法は以前の手法よりも十分な画像品質と3D制御を実現することが示された。

Making generative models 3D-aware bridges the 2D image space and the 3D physical world yet remains challenging. Recent attempts equip a Generative Adversarial Network (GAN) with a Neural Radiance Field (NeRF), which maps 3D coordinates to pixel values, as a 3D prior. However, the implicit function in NeRF has a very local receptive field, making the generator hard to become aware of the global structure. Meanwhile, NeRF is built on volume rendering which can be too costly to produce high-resolution results, increasing the optimization difficulty. To alleviate these two problems, we propose a novel framework, termed as VolumeGAN, for high-fidelity 3D-aware image synthesis, through explicitly learning a structural representation and a textural representation. We first learn a feature volume to represent the underlying structure, which is then converted to a feature field using a NeRF-like model. The feature field is further accumulated into a 2D feature map as the textural representation, followed by a neural renderer for appearance synthesis. Such a design enables independent control of the shape and the appearance. Extensive experiments on a wide range of datasets show that our approach achieves sufficiently higher image quality and better 3D control than the previous methods.
翻訳日:2021-12-21 17:20:55 公開日:2021-12-20
# StyleSwin:高解像度画像生成のためのトランスフォーマーベースGAN

StyleSwin: Transformer-based GAN for High-resolution Image Generation ( http://arxiv.org/abs/2112.10762v1 )

ライセンス: Link先を確認
Bowen Zhang, Shuyang Gu, Bo Zhang, Jianmin Bao, Dong Chen, Fang Wen, Yong Wang, Baining Guo(参考訳) 幅広いビジョンタスクで成功を収めたにもかかわらず、トランスフォーマーはまだ高分解能画像生成モデリングにおけるconvnetsと同等の性能を実証していない。 本稿では,高分解能画像合成のための生成対向ネットワークを構築するために,純変換器を用いて探索する。 この目的のために、局所的な注意は計算効率とモデリング能力のバランスを取るために不可欠であると考えています。 そのため、提案したジェネレータはスタイルベースのアーキテクチャでSwingトランスフォーマーを採用する。 より広い受容場を実現するために,ローカルウィンドウとシフトウィンドウのコンテキストを同時に活用し,生成品質を向上するダブルアテンションを提案する。 さらに,ウィンドウベース変圧器で失われた絶対位置の知識を提供することは,生成品質を大幅に向上させることを示す。 提案したStyleSwinは高解像度にスケーラブルであり、粗い幾何学と微細構造の両方が変換器の強い表現性から恩恵を受けている。 しかし、局所的な注意をブロック的に行うと空間的一貫性が損なわれるため、高分解能合成中にブロックアーティファクトが発生する。 そこで本研究では,ウェーブレット判別器を用いてスペクトルの差分性を調べることにより,人工物が効果的に抑制されることを実証的に検討した。 大規模な実験は、特に高分解能の1024x1024において、先行のトランスフォーマーベースのGANよりも優れていることを示している。 StyleSwinは複雑なトレーニング戦略を持たず、CelebA-HQ 1024のStyleGANを抜いてFFHQ-1024のオンパーパフォーマンスを実現し、高解像度の画像生成にトランスフォーマーを使用するという約束を証明する。 コードとモデルはhttps://github.com/microsoft/styleswinで入手できる。

Despite the tantalizing success in a broad of vision tasks, transformers have not yet demonstrated on-par ability as ConvNets in high-resolution image generative modeling. In this paper, we seek to explore using pure transformers to build a generative adversarial network for high-resolution image synthesis. To this end, we believe that local attention is crucial to strike the balance between computational efficiency and modeling capacity. Hence, the proposed generator adopts Swin transformer in a style-based architecture. To achieve a larger receptive field, we propose double attention which simultaneously leverages the context of the local and the shifted windows, leading to improved generation quality. Moreover, we show that offering the knowledge of the absolute position that has been lost in window-based transformers greatly benefits the generation quality. The proposed StyleSwin is scalable to high resolutions, with both the coarse geometry and fine structures benefit from the strong expressivity of transformers. However, blocking artifacts occur during high-resolution synthesis because performing the local attention in a block-wise manner may break the spatial coherency. To solve this, we empirically investigate various solutions, among which we find that employing a wavelet discriminator to examine the spectral discrepancy effectively suppresses the artifacts. Extensive experiments show the superiority over prior transformer-based GANs, especially on high resolutions, e.g., 1024x1024. The StyleSwin, without complex training strategies, excels over StyleGAN on CelebA-HQ 1024, and achieves on-par performance on FFHQ-1024, proving the promise of using transformers for high-resolution image generation. The code and models will be available at https://github.com/microsoft/StyleSwin.
翻訳日:2021-12-21 17:20:34 公開日:2021-12-20
# (参考訳) Turbo-Sim:物理潜在空間を持つ一般化生成モデル

Turbo-Sim: a generalised generative model with a physical latent space ( http://arxiv.org/abs/2112.10629v1 )

ライセンス: CC BY 4.0
Guillaume Qu\'etant, Mariia Drozdova, Vitaliy Kinakh, Tobias Golling, Slava Voloshynovkiy(参考訳) 本稿では,情報理論の原理から派生した汎用オートエンコーダフレームワークであるTurbo-Simについて述べる。 エンコーダとデコーダの出力の入力と出力の相互情報を最大化することで、敵のオートエンコーダや生成的な敵ネットワークに見られる損失項や、より洗練された関連モデルを再発見することができる。 一般化されたフレームワークは、これらのモデルを数学的に解釈可能とし、各損失項の重みを個別に設定することで、新しいモデルの多様性を実現する。 また、このフレームワークはエンコーダとデコーダの固有のアーキテクチャとは独立しており、ネットワーク全体のビルディングブロックに対して幅広い選択肢を残している。 衝突の直後に理論空間から観測空間へのいくつかの粒子の性質の変換を実験で検出した直後に行う衝突器物理生成問題に適用する。

We present Turbo-Sim, a generalised autoencoder framework derived from principles of information theory that can be used as a generative model. By maximising the mutual information between the input and the output of both the encoder and the decoder, we are able to rediscover the loss terms usually found in adversarial autoencoders and generative adversarial networks, as well as various more sophisticated related models. Our generalised framework makes these models mathematically interpretable and allows for a diversity of new ones by setting the weight of each loss term separately. The framework is also independent of the intrinsic architecture of the encoder and the decoder thus leaving a wide choice for the building blocks of the whole network. We apply Turbo-Sim to a collider physics generation problem: the transformation of the properties of several particles from a theory space, right after the collision, to an observation space, right after the detection in an experiment.
翻訳日:2021-12-21 17:13:47 公開日:2021-12-20
# (参考訳) Latte: ラテントベースの生成モデル評価のためのクロスフレームワークPythonパッケージ

Latte: Cross-framework Python Package for Evaluation of Latent-Based Generative Models ( http://arxiv.org/abs/2112.10638v1 )

ライセンス: CC BY 4.0
Karn N. Watcharasupat, Junyoung Lee, and Alexander Lerch(参考訳) Latte (LATent Tensor Evaluation) は、非絡み合い学習と制御可能な生成の分野における潜在型生成モデルを評価するためのPythonライブラリである。 LatteはPyTorchとTensorFlow/Kerasの両方と互換性があり、関数型とモジュール型の両方のAPIを提供し、他のディープラーニングフレームワークをサポートするために簡単に拡張できる。 numpyベースのフレームワークに依存しない実装を使用して、latteは、ディープラーニングフレームワークに関係なく、再現性、一貫性、決定論的メトリック計算を保証する。

Latte (for LATent Tensor Evaluation) is a Python library for evaluation of latent-based generative models in the fields of disentanglement learning and controllable generation. Latte is compatible with both PyTorch and TensorFlow/Keras, and provides both functional and modular APIs that can be easily extended to support other deep learning frameworks. Using NumPy-based and framework-agnostic implementation, Latte ensures reproducible, consistent, and deterministic metric calculations regardless of the deep learning framework of choice.
翻訳日:2021-12-21 16:31:37 公開日:2021-12-20
# 力とコピーのメカニズム: 自然言語生成のための強化された監視コピー法

May the Force Be with Your Copy Mechanism: Enhanced Supervised-Copy Method for Natural Language Generation ( http://arxiv.org/abs/2112.10360v1 )

ライセンス: Link先を確認
Sanghyuk Choi, Jeong-in Hwang, Hyungjong Noh, Yeonsoo Lee(参考訳) 近年,コピー機構を持つニューラルシークエンス-シーケンスモデルが様々なテキスト生成タスクにおいて著しい進歩を遂げている。 これらのモデルは語彙外問題に対処し、稀な単語の生成を促進した。 しかし、誤生成と抽象性の欠如に苦しむ先行コピーモデルによって観察されるように、コピーすべき単語の識別は困難である。 本稿では,どの単語をコピーする必要があるか,どの単語を生成する必要があるかをモデルが決定するのに役立つ,コピーネットワークの新しい教師付きアプローチを提案する。 具体的には、ソースシーケンスとターゲット語彙をコピーのガイダンスとして利用する目的関数を再定義する。 データ・テキスト生成および抽象要約タスクの実験結果から,本手法がコピー品質を高め,抽象性の程度を向上することを確認した。

Recent neural sequence-to-sequence models with a copy mechanism have achieved remarkable progress in various text generation tasks. These models addressed out-of-vocabulary problems and facilitated the generation of rare words. However, the identification of the word which needs to be copied is difficult, as observed by prior copy models, which suffer from incorrect generation and lacking abstractness. In this paper, we propose a novel supervised approach of a copy network that helps the model decide which words need to be copied and which need to be generated. Specifically, we re-define the objective function, which leverages source sequences and target vocabularies as guidance for copying. The experimental results on data-to-text generation and abstractive summarization tasks verify that our approach enhances the copying quality and improves the degree of abstractness.
翻訳日:2021-12-21 16:18:57 公開日:2021-12-20
# Diaformer: 症状系列生成による自動診断

Diaformer: Automatic Diagnosis via Symptoms Sequence Generation ( http://arxiv.org/abs/2112.10433v1 )

ライセンス: Link先を確認
Junying Chen, Dongfang Li, Qingcai Chen, Wenxiu Zhou, Xin Liu(参考訳) 自動診断は注目度が高くなっているが,多段階の推論が原因でいまだに困難である。 最近の研究では通常強化学習法によって対処されている。 しかし、これらの手法は効率が低く、タスク固有の報酬関数を必要とする。 医師と患者の会話を考えると、医師は症状を調べて診断することができるので、診断プロセスは自然に症状や診断を含むシーケンスの生成と見なすことができる。 そこで本研究では,症状系列生成(SG)タスクとして自動診断を再構成し,Transformer(Diaformer)に基づく簡易かつ効果的な自動診断モデルを提案する。 まず,症状調査と疾患診断の創出を学ぶために,症状注意枠組みを設計する。 逐次発生と暗示症状の障害の相違を緩和するために,さらに3つの無秩序な訓練機構をデザインした。 3つの公開データセットを用いた実験により,本モデルが1%,6%,11.5%の診断基準を上回っており,訓練効率が最も高いことが示された。 症状調査予測の詳細な分析は, 自動診断に症状系列生成を適用する可能性を示している。

Automatic diagnosis has attracted increasing attention but remains challenging due to multi-step reasoning. Recent works usually address it by reinforcement learning methods. However, these methods show low efficiency and require taskspecific reward functions. Considering the conversation between doctor and patient allows doctors to probe for symptoms and make diagnoses, the diagnosis process can be naturally seen as the generation of a sequence including symptoms and diagnoses. Inspired by this, we reformulate automatic diagnosis as a symptoms Sequence Generation (SG) task and propose a simple but effective automatic Diagnosis model based on Transformer (Diaformer). We firstly design the symptom attention framework to learn the generation of symptom inquiry and the disease diagnosis. To alleviate the discrepancy between sequential generation and disorder of implicit symptoms, we further design three orderless training mechanisms. Experiments on three public datasets show that our model outperforms baselines on disease diagnosis by 1%, 6% and 11.5% with the highest training efficiency. Detailed analysis on symptom inquiry prediction demonstrates that the potential of applying symptoms sequence generation for automatic diagnosis.
翻訳日:2021-12-21 16:18:26 公開日:2021-12-20
# (参考訳) 多言語モデルを用いたマイナショット学習

Few-shot Learning with Multilingual Language Models ( http://arxiv.org/abs/2112.10668v1 )

ライセンス: CC BY 4.0
Xi Victoria Lin, Todor Mihaylov, Mikel Artetxe, Tianlu Wang, Shuohui Chen, Daniel Simig, Myle Ott, Naman Goyal, Shruti Bhosale, Jingfei Du, Ramakanth Pasunuru, Sam Shleifer, Punit Singh Koura, Vishrav Chaudhary, Brian O'Horo, Jeff Wang, Luke Zettlemoyer, Zornitsa Kozareva, Mona Diab, Veselin Stoyanov, Xian Li(参考訳) GPT-3のような大規模自己回帰型言語モデルは、微調整なしで幅広い言語タスクを実行できる少数の学習者である。 これらのモデルは、多くの異なる言語を共同表現できることが知られているが、トレーニングデータは英語に支配されており、言語間の一般化を制限する可能性がある。 本研究は,多言語自己回帰型言語モデルを,多様な言語セットをカバーするバランスのとれたコーパス上で訓練し,その少数・ゼロショット学習能力を幅広いタスクで検討する。 750億のパラメータを持つ私たちの最大のモデルでは、20以上の代表的な言語で少数ショット学習の新しい状態を設定し、多言語共通認識推論(0ショット設定では+7.4%、4ショット設定では+9.4%)と自然言語推論(0ショットと4ショット設定では+5.4%)で同等の大きさのgpt-3を上回っています。 FLORES-101 機械翻訳ベンチマークでは,本モデルが 182 の翻訳方向のうち 171 において GPT-3 を上回り,32 の訓練例が45 の指示基準線を上回り,GPT-3 よりも優れていた。 本稿では,モデルの成功と失敗の詳細な分析について述べる。特に,表層形状のロバスト性や自然なクローズ形式を持たないタスクへの適応性の改善の余地がある一方で,言語横断的インコンテキスト学習が可能となることを示す。 最後に,5言語でのヘイトスピーチ検出などの社会的価値タスクにおけるモデルの評価を行い,これと同等の大きさのGPT-3モデルに類似した制限があることを見出した。

Large-scale autoregressive language models such as GPT-3 are few-shot learners that can perform a wide range of language tasks without fine-tuning. While these models are known to be able to jointly represent many different languages, their training data is dominated by English, potentially limiting their cross-lingual generalization. In this work, we train multilingual autoregressive language models on a balanced corpus covering a diverse set of languages, and study their few- and zero-shot learning capabilities in a wide range of tasks. Our largest model with 7.5 billion parameters sets new state of the art in few-shot learning in more than 20 representative languages, outperforming GPT-3 of comparable size in multilingual commonsense reasoning (with +7.4% absolute accuracy improvement in 0-shot settings and +9.4% in 4-shot settings) and natural language inference (+5.4% in each of 0-shot and 4-shot settings). On the FLORES-101 machine translation benchmark, our model outperforms GPT-3 on 171 out of 182 translation directions with 32 training examples, while surpassing the official supervised baseline in 45 directions. We present a detailed analysis of where the model succeeds and fails, showing in particular that it enables cross-lingual in-context learning on some tasks, while there is still room for improvement on surface form robustness and adaptation to tasks that do not have a natural cloze form. Finally, we evaluate our models in social value tasks such as hate speech detection in five languages and find it has limitations similar to comparable sized GPT-3 models.
翻訳日:2021-12-21 16:15:53 公開日:2021-12-20
# aiシステムのスコープと説明可能性

Scope and Sense of Explainability for AI-Systems ( http://arxiv.org/abs/2112.10551v1 )

ライセンス: Link先を確認
A.-M. Leventi-Peetz, T. \"Ostreich, W. Lennartz, K. Weber(参考訳) AIシステムの説明可能性の特定の側面について、批判的に議論する。 これは特に、すべてのAIシステムを説明可能にするタスクの実現性に重点を置いている。 原因と効果の古典的な論理スキームに矛盾する決定を下す、高度に複雑で効率的なaiシステムの説明可能性に関する困難さに重点が置かれる。 AIシステムは、独創的(例えばAlphaGoのゲーム2の37の移動)として特徴付けられる非知的なソリューションを確実に提供してきた。 AIソリューションが完全に理解できないため、事前に破棄されるならば、インテリジェントシステムの可能性の大部分は無駄になる、という考えを支持する議論を詳しく説明する。

Certain aspects of the explainability of AI systems will be critically discussed. This especially with focus on the feasibility of the task of making every AI system explainable. Emphasis will be given to difficulties related to the explainability of highly complex and efficient AI systems which deliver decisions whose explanation defies classical logical schemes of cause and effect. AI systems have provably delivered unintelligible solutions which in retrospect were characterized as ingenious (for example move 37 of the game 2 of AlphaGo). It will be elaborated on arguments supporting the notion that if AI-solutions were to be discarded in advance because of their not being thoroughly comprehensible, a great deal of the potentiality of intelligent systems would be wasted.
翻訳日:2021-12-21 16:13:57 公開日:2021-12-20
# 最適性保証付き文脈確率ブロックモデルに対する反復的クラスタリングアルゴリズム

An iterative clustering algorithm for the Contextual Stochastic Block Model with optimality guarantees ( http://arxiv.org/abs/2112.10467v1 )

ライセンス: Link先を確認
Guillaume Braun, Hemant Tyagi and Christophe Biernacki(参考訳) 現実世界のネットワークには、クラスタリングなどのネットワーク分析タスクのパフォーマンス向上に役立つサイド情報があることが多い。 ネットワーククラスタリング手法について過去10年間に多くの経験的・理論的研究を行ったが、側面情報の付加価値とクラスタリングアルゴリズムに最適に組み込む手法は比較的理解されていない。 本稿では,ノードの側情報(共変量)を持つクラスタネットワークに対する新しい反復アルゴリズムを提案し,このアルゴリズムがコンテキスト対称確率ブロックモデルの下で最適であることを示す。 本アルゴリズムは, 一般的な文脈確率ブロックモデルに適用でき, 提案手法とは対照的にハイパーパラメータチューニングを回避できる。 我々は,アルゴリズムが他の手法を著しく上回る合成データ実験の理論的結果を確認し,符号付きグラフにも適用可能であることを示す。 最後に,本手法の現実データに対する実用的関心を示す。

Real-world networks often come with side information that can help to improve the performance of network analysis tasks such as clustering. Despite a large number of empirical and theoretical studies conducted on network clustering methods during the past decade, the added value of side information and the methods used to incorporate it optimally in clustering algorithms are relatively less understood. We propose a new iterative algorithm to cluster networks with side information for nodes (in the form of covariates) and show that our algorithm is optimal under the Contextual Symmetric Stochastic Block Model. Our algorithm can be applied to general Contextual Stochastic Block Models and avoids hyperparameter tuning in contrast to previously proposed methods. We confirm our theoretical results on synthetic data experiments where our algorithm significantly outperforms other methods, and show that it can also be applied to signed graphs. Finally we demonstrate the practical interest of our method on real data.
翻訳日:2021-12-21 16:11:23 公開日:2021-12-20
# 自律切替線形システムにおける切替最小二乗系同定の一貫性と収束率

Consistency and Rate of Convergence of Switched Least Squares System Identification for Autonomous Switched Linear Systems ( http://arxiv.org/abs/2112.10753v1 )

ライセンス: Link先を確認
Borna Sayedana, Mohammad Afshari, Peter E. Caines, Aditya Mahajan(参考訳) 本稿では,完全状態観測による自律切替線形システムのシステム同定の問題について検討する。 本稿では,切替線形系の同定のための切替最小二乗法を提案し,この手法が強い一貫性を示し,データ依存およびデータ非依存の収束率を導出する。 特に、我々のデータ依存収束速度は、ほぼ確実に、システム識別エラーが$\mathcal{O}\big(\sqrt{\log(T)/T} \big)$であることを示している。 これらの結果から, スイッチング線形系に対する手法は, 非スイッチング線形系に対する最小二乗法と同程度の収束率を持つことがわかった。 私たちはその結果を文学のものと比べる。 本稿では,提案手法の性能を示す数値的な例を示す。

In this paper, we investigate the problem of system identification for autonomous switched linear systems with complete state observations. We propose switched least squares method for the identification for switched linear systems, show that this method is strongly consistent, and derive data-dependent and data-independent rates of convergence. In particular, our data-dependent rate of convergence shows that, almost surely, the system identification error is $\mathcal{O}\big(\sqrt{\log(T)/T} \big)$ where $T$ is the time horizon. These results show that our method for switched linear systems has the same rate of convergence as least squares method for non-switched linear systems. We compare our results with those in the literature. We present numerical examples to illustrate the performance of the proposed system identification method.
翻訳日:2021-12-21 16:11:09 公開日:2021-12-20
# 深層学習と手作り特徴を用いた皮膚病変の分節と分類

Skin lesion segmentation and classification using deep learning and handcrafted features ( http://arxiv.org/abs/2112.10307v1 )

ライセンス: Link先を確認
Redha Ali and Hussin K. Ragb(参考訳) 皮膚病変の正確な診断は,皮膚内視鏡画像の分類において重要な課題である。 本研究では,単一手法よりも強力な識別能力を有するハイブリッド機能という,新たなタイプの画像特徴を形成する。 この研究は、トレーニングプロセス中に手作りの特徴や特徴を、畳み込みニューラルネットワーク(CNN)モデルの完全に接続された層に注入する新しい手法を含む。 これまでの文献レビューでは, CNNモデルに手作り特徴を注入することにより, 分類性能への影響について検討や検討は行われていない。 また,セグメンテーションマスクが全体の分類性能に与える影響についても検討した。 このモデルは92.3%のバランスの取れたマルチクラス精度を実現しており、ディープラーニングのための一般的な単一メソッド分類器アーキテクチャよりも6.8%優れている。

Accurate diagnostics of a skin lesion is a critical task in classification dermoscopic images. In this research, we form a new type of image features, called hybrid features, which has stronger discrimination ability than single method features. This study involves a new technique where we inject the handcrafted features or feature transfer into the fully connected layer of Convolutional Neural Network (CNN) model during the training process. Based on our literature review until now, no study has examined or investigated the impact on classification performance by injecting the handcrafted features into the CNN model during the training process. In addition, we also investigated the impact of segmentation mask and its effect on the overall classification performance. Our model achieves an 92.3% balanced multiclass accuracy, which is 6.8% better than the typical single method classifier architecture for deep learning.
翻訳日:2021-12-21 16:07:56 公開日:2021-12-20
# Mega-NeRF:Virtual Fly-Throughsのための大規模NeRFのスケーラブル構築

Mega-NeRF: Scalable Construction of Large-Scale NeRFs for Virtual Fly-Throughs ( http://arxiv.org/abs/2112.10703v1 )

ライセンス: Link先を確認
Haithem Turki, Deva Ramanan, Mahadev Satyanarayanan(参考訳) 我々は、ニューラルネットワーク(NeRF)を利用して、建物にまたがる大規模な視覚的キャプチャーや、主にドローンデータから収集された複数の都市ブロックからインタラクティブな3D環境を構築する方法について検討する。 In contrast to the single object scenes against which NeRFs have been traditionally evaluated, this setting poses multiple challenges including (1) the need to incorporate thousands of images with varying lighting conditions, all of which capture only a small subset of the scene, (2) prohibitively high model capacity and ray sampling requirements beyond what can be naively trained on a single GPU, and (3) an arbitrarily large number of possible viewpoints that make it unfeasible to precompute all relevant information beforehand (as real-time NeRF renderers typically do). これらの課題に対処するために、大規模シーンの可視性統計を解析し、各シーンの異なる領域にパラメータが特化しているスパースネットワーク構造を動機付ける。 我々は、訓練画像(またはむしろピクセル)を並列に訓練できる異なるNeRFサブモジュールに分割する単純な幾何学的クラスタリングアルゴリズムを導入する。 我々は、Quad 6kとUrbanScene3Dのデータセットから得られたシーンのアプローチと、ドローンの映像を比較し、PSNRを平均11%以上改善しながら3倍のトレーニングスピードアップを示す。 その後,Mega-NeRF上における最近のNeRF高速レンダラーの実証評価を行い,時間的コヒーレンスを利用した新しい手法を提案する。 提案手法は,既存の高速レンダラーの忠実度を超えながら,PSNR品質0.5db以内で従来のNeRFレンダリングの40倍の高速化を実現する。

We explore how to leverage neural radiance fields (NeRFs) to build interactive 3D environments from large-scale visual captures spanning buildings or even multiple city blocks collected primarily from drone data. In contrast to the single object scenes against which NeRFs have been traditionally evaluated, this setting poses multiple challenges including (1) the need to incorporate thousands of images with varying lighting conditions, all of which capture only a small subset of the scene, (2) prohibitively high model capacity and ray sampling requirements beyond what can be naively trained on a single GPU, and (3) an arbitrarily large number of possible viewpoints that make it unfeasible to precompute all relevant information beforehand (as real-time NeRF renderers typically do). To address these challenges, we begin by analyzing visibility statistics for large-scale scenes, motivating a sparse network structure where parameters are specialized to different regions of the scene. We introduce a simple geometric clustering algorithm that partitions training images (or rather pixels) into different NeRF submodules that can be trained in parallel. We evaluate our approach across scenes taken from the Quad 6k and UrbanScene3D datasets as well as against our own drone footage and show a 3x training speedup while improving PSNR by over 11% on average. We subsequently perform an empirical evaluation of recent NeRF fast renderers on top of Mega-NeRF and introduce a novel method that exploits temporal coherence. Our technique achieves a 40x speedup over conventional NeRF rendering while remaining within 0.5 db in PSNR quality, exceeding the fidelity of existing fast renderers.
翻訳日:2021-12-21 16:07:44 公開日:2021-12-20
# GLIDE:テキスト誘導拡散モデルによるフォトリアリスティック画像生成と編集を目指して

GLIDE: Towards Photorealistic Image Generation and Editing with Text-Guided Diffusion Models ( http://arxiv.org/abs/2112.10741v1 )

ライセンス: Link先を確認
Alex Nichol, Prafulla Dhariwal, Aditya Ramesh, Pranav Shyam, Pamela Mishkin, Bob McGrew, Ilya Sutskever, Mark Chen(参考訳) 拡散モデルは最近、多様性と忠実性をトレードオフするガイダンス技術と組み合わせることで、高品質な合成画像を生成することが示されている。 テキスト条件画像合成問題に対する拡散モデルを検討し,クリップ指導と分類子なし指導の2つの異なる指導戦略を比較した。 後者は、フォトリアリズムとキャプションの類似性の両方において人間の評価者によって好まれており、しばしばフォトリアリズムのサンプルを生成する。 分類器フリーガイダンスを用いた35億のパラメータテキスト条件拡散モデルからのサンプルは、高価なCLIPの再評価を用いた場合であっても、DALL-Eからの評価者によって好まれる。 さらに, 私たちのモデルでは, 画像インペインティングを微調整し, 強力なテキスト駆動画像編集を可能にする。 フィルタリングデータセット上に小さなモデルをトレーニングし、https://github.com/openai/glide-text2imでコードと重みをリリースします。

Diffusion models have recently been shown to generate high-quality synthetic images, especially when paired with a guidance technique to trade off diversity for fidelity. We explore diffusion models for the problem of text-conditional image synthesis and compare two different guidance strategies: CLIP guidance and classifier-free guidance. We find that the latter is preferred by human evaluators for both photorealism and caption similarity, and often produces photorealistic samples. Samples from a 3.5 billion parameter text-conditional diffusion model using classifier-free guidance are favored by human evaluators to those from DALL-E, even when the latter uses expensive CLIP reranking. Additionally, we find that our models can be fine-tuned to perform image inpainting, enabling powerful text-driven image editing. We train a smaller model on a filtered dataset and release the code and weights at https://github.com/openai/glide-text2im.
翻訳日:2021-12-21 16:07:15 公開日:2021-12-20
# 力学系の時空間仕様の学習

Learning Spatio-Temporal Specifications for Dynamical Systems ( http://arxiv.org/abs/2112.10714v1 )

ライセンス: Link先を確認
Suhail Alsalehi, Erfan Aasi, Ron Weiss, Calin Belta(参考訳) データから動的システムの特性を学ぶことは、そのようなシステムを理解し、望ましくない結果を軽減するのに役立つ重要な洞察を提供する。 本研究では,データから時空間特性を形式論理仕様として学習するためのフレームワークを提案する。 本稿では,SVM-STL(Signal Signal Temporal Logic:信号時空間論理)の拡張として,時間変化の空間パターンを示す幅広い力学系の空間的・時間的特性を特定する。 本フレームワークは,SVM-STL仕様を空間パターンのシーケンスによって与えられるシステム実行から学習するために機械学習技術を利用する。 ラベル付きデータとラベルなしデータの両方を扱う方法を提案する。 さらに,SVM-STL仕様の形でのシステム要件を考慮し,パラメータ合成による仕様の満足度を最大化するための手法を提案する。 我々の学習フレームワークとパラメータ合成アプローチは,反応拡散システムの例を示す。

Learning dynamical systems properties from data provides important insights that help us understand such systems and mitigate undesired outcomes. In this work, we propose a framework for learning spatio-temporal (ST) properties as formal logic specifications from data. We introduce SVM-STL, an extension of Signal Signal Temporal Logic (STL), capable of specifying spatial and temporal properties of a wide range of dynamical systems that exhibit time-varying spatial patterns. Our framework utilizes machine learning techniques to learn SVM-STL specifications from system executions given by sequences of spatial patterns. We present methods to deal with both labeled and unlabeled data. In addition, given system requirements in the form of SVM-STL specifications, we provide an approach for parameter synthesis to find parameters that maximize the satisfaction of such specifications. Our learning framework and parameter synthesis approach are showcased in an example of a reaction-diffusion system.
翻訳日:2021-12-21 16:06:59 公開日:2021-12-20
# (参考訳) 放射線医学レポートの半構造化表現の学習

Learning Semi-Structured Representations of Radiology Reports ( http://arxiv.org/abs/2112.10746v1 )

ライセンス: CC BY 4.0
Tamara Katic, Martin Pavlovski, Danijela Sekulic, Slobodan Vucetic(参考訳) 主な診断目的を超えて、放射線医学報告は医学研究において貴重な情報源となっている。 放射線学レポートのコーパスを考えると、研究者は特定の医学的発見を説明するレポートのサブセットを見つけることにしばしば興味を持っている。 放射線医学レポートにおける医学的発見の範囲は広く、潜在的に無限であるので、最近の研究では、放射線医学レポートのフリーテキストステートメントを限定された語彙から取られた半構造化文字列にマッピングすることを提案した。 本稿では,放射線学報告の半構造化表現の自動生成手法を提案する。 アプローチは、ラジオロジーレポートからの一致した文から半構造化表現を手作業で作成し、その後、一致した文を半構造化表現にマッピングするシーケンス・ツー・シーケンス・ニューラルモデルを学ぶ。 胸部X線診断を手動で行った症例のOpenIコーパスに対するアプローチについて検討した。 その結果,(1) bleu,rouge,meteorなどの定量的指標,(2) 放射線科医の質的判断において,提案手法はいくつかの基準よりも優れていることが示唆された。 また, 異なる医療機関からの胸部X線X線診断報告を, サンプル外コーパスに有意な半構造化表現を生成できることを示した。

Beyond their primary diagnostic purpose, radiology reports have been an invaluable source of information in medical research. Given a corpus of radiology reports, researchers are often interested in identifying a subset of reports describing a particular medical finding. Because the space of medical findings in radiology reports is vast and potentially unlimited, recent studies proposed mapping free-text statements in radiology reports to semi-structured strings of terms taken from a limited vocabulary. This paper aims to present an approach for the automatic generation of semi-structured representations of radiology reports. The approach consists of matching sentences from radiology reports to manually created semi-structured representations, followed by learning a sequence-to-sequence neural model that maps matched sentences to their semi-structured representations. We evaluated the proposed approach on the OpenI corpus of manually annotated chest x-ray radiology reports. The results indicate that the proposed approach is superior to several baselines, both in terms of (1) quantitative measures such as BLEU, ROUGE, and METEOR and (2) qualitative judgment of a radiologist. The results also demonstrate that the trained model produces reasonable semi-structured representations on an out-of-sample corpus of chest x-ray radiology reports from a different medical provider.
翻訳日:2021-12-21 16:04:25 公開日:2021-12-20
# ランダムデータに欠落したモデルベースクラスタリング

Model-based Clustering with Missing Not At Random Data ( http://arxiv.org/abs/2112.10425v1 )

ライセンス: Link先を確認
Aude Sportisse (CRISAM, UCA), Christophe Biernacki (CNRS), Claire Boyer (SU), Julie Josse (CRISAM, IDESP), Matthieu Marbac Lourdelle (UNIV-RENNES, ENSAI, CNRS, CREST), Gilles Celeux, Fabien Laporte (UCO)(参考訳) 近年、技術進歩により、大規模なデータセットの収集が可能になった。 この文脈では、モデルベースのクラスタリングは、よく定義された統計フレームワークにおけるデータ探索のための非常に人気があり、柔軟で解釈可能な方法論である。 大規模なデータセットの増加の皮肉のひとつは、値の欠落が頻繁に発生することだ。 しかしながら、従来の方法(値の欠如やインプテーションメソッドによる観測を破棄するなど)は、クラスタリングの目的のために設計されていない。 さらに、一般的には適用されないが、MNAR(Missing Not At Random)の値、すなわち、欠落が観測されていないデータ値と観測されたデータ値に依存する場合などに適用されることは稀である。 本研究の目的は,MNARデータをモデルベースクラスタリングアルゴリズムに直接埋め込む手法を提案することである。 データの連立分布と欠落データ指標の選択モデルを提案する。 データ分散のための混合モデルと、欠落データ機構のための一般的なMNARモデルに対応しており、基礎となるクラス(未知)や欠落変数自体の値に依存する可能性がある。 有意義なmnarサブモデルの大規模なセットが導出され、パラメータの識別性が各サブモデルについて研究される。 EMとStochasticのEMアルゴリズムを推定する。 最後に,提案したサブモデルの合成データに対する経験的評価を行い,TraumaBase(R)データセットを用いて本手法の有効性について述べる。

In recent decades, technological advances have made it possible to collect large data sets. In this context, the model-based clustering is a very popular, flexible and interpretable methodology for data exploration in a well-defined statistical framework. One of the ironies of the increase of large datasets is that missing values are more frequent. However, traditional ways (as discarding observations with missing values or imputation methods) are not designed for the clustering purpose. In addition, they rarely apply to the general case, though frequent in practice, of Missing Not At Random (MNAR) values, i.e. when the missingness depends on the unobserved data values and possibly on the observed data values. The goal of this paper is to propose a novel approach by embedding MNAR data directly within model-based clustering algorithms. We introduce a selection model for the joint distribution of data and missing-data indicator. It corresponds to a mixture model for the data distribution and a general MNAR model for the missing-data mechanism, which may depend on the underlying classes (unknown) and/or the values of the missing variables themselves. A large set of meaningful MNAR sub-models is derived and the identifiability of the parameters is studied for each of the sub-models, which is usually a key issue for any MNAR proposals. The EM and Stochastic EM algorithms are considered for estimation. Finally, we perform empirical evaluations for the proposed submodels on synthetic data and we illustrate the relevance of our method on a medical register, the TraumaBase (R) dataset.
翻訳日:2021-12-21 15:47:44 公開日:2021-12-20
# トランスフォーマーはベイズ推論ができる

Transformers Can Do Bayesian Inference ( http://arxiv.org/abs/2112.10510v1 )

ライセンス: Link先を確認
Samuel M\"uller, Noah Hollmann, Sebastian Pineda Arango, Josif Grabocka and Frank Hutter(参考訳) 現在、事前知識の明示的な指定を可能にし、モデルの不確かさを正確に捉えるベイズ法に対するディープラーニングの利点を享受することは困難である。 我々はPFN(Presideed Data Fitted Networks)を提案する。 pfnsは大規模な機械学習技術を活用して、大きな後方集合を近似している。 PFNが機能する唯一の要件は、教師付き学習タスク(または関数)よりも前の分布からサンプリングできることである。 本手法は,前者からタスク(あるいは関数)を繰り返し描画し,それからデータポイントとそのラベルのセットを描画し,ラベルの1つをマスクし,残りのデータポイントのセット値入力に基づいて確率的予測を行う。 新しい教師付き学習タスクのサンプルを入力として提示し、PFNはベイズ推定を近似することを学び、単一の前方伝播において任意の他のデータポイントに対する確率的予測を行う。 pfnsはガウス過程をほぼ完璧に模倣でき、また現在の手法と比較して200倍以上の速度アップを持つ難解な問題に対して効率的なベイズ推論を可能にする。 我々は、ガウス過程回帰、ベイズニューラルネットワーク、小さな表型データセットの分類、およびpfnsの一般性を示す数少ない画像分類など、非常に多様な領域において強い結果を得る。 コードとトレーニングされたPFNはhttps://github.com/automl/TransformersCanDoBayesianInferenceでリリースされる。

Currently, it is hard to reap the benefits of deep learning for Bayesian methods, which allow the explicit specification of prior knowledge and accurately capture model uncertainty. We present Prior-Data Fitted Networks (PFNs). PFNs leverage large-scale machine learning techniques to approximate a large set of posteriors. The only requirement for PFNs to work is the ability to sample from a prior distribution over supervised learning tasks (or functions). Our method restates the objective of posterior approximation as a supervised classification problem with a set-valued input: it repeatedly draws a task (or function) from the prior, draws a set of data points and their labels from it, masks one of the labels and learns to make probabilistic predictions for it based on the set-valued input of the rest of the data points. Presented with a set of samples from a new supervised learning task as input, PFNs make probabilistic predictions for arbitrary other data points in a single forward propagation, having learned to approximate Bayesian inference. We demonstrate that PFNs can near-perfectly mimic Gaussian processes and also enable efficient Bayesian inference for intractable problems, with over 200-fold speedups in multiple setups compared to current methods. We obtain strong results in very diverse areas such as Gaussian process regression, Bayesian neural networks, classification for small tabular data sets, and few-shot image classification, demonstrating the generality of PFNs. Code and trained PFNs are released at https://github.com/automl/TransformersCanDoBayesianInference.
翻訳日:2021-12-21 15:47:22 公開日:2021-12-20
# 状態保存政策最適化による遷移ダイナミクスの乱れに対するロバストポリシーの学習

Learning Robust Policy against Disturbance in Transition Dynamics via State-Conservative Policy Optimization ( http://arxiv.org/abs/2112.10513v1 )

ライセンス: Link先を確認
Yufei Kuang, Miao Lu, Jie Wang, Qi Zhou, Bin Li, Houqiang Li(参考訳) 深層強化学習アルゴリズムは、ソースとターゲット環境の相違により、現実世界のタスクでは不十分に動作することができる。 この相違は一般に遷移ダイナミクスの障害と見なされる。 多くの既存のアルゴリズムは、乱れをモデル化し、訓練中にソース環境に適用することで堅牢なポリシーを学習する。 しかし、これらのアルゴリズムは、ターゲット環境からの乱れが不明で、シミュレーターでモデル化できないシナリオで失敗する可能性がある。 この問題に対処するため,本稿では,前もって乱れをモデル化せずにロバストなポリシーを学習する,新しいモデルフリーアクタ批判アルゴリズム(SCPO)を提案する。 具体的には、SCPOは遷移力学の障害を状態空間の障害に還元し、簡単な勾配ベース正規化器で近似する。 SCPOの魅力的な特徴は、実装が簡単であり、障害や特別に設計されたシミュレータに関する追加の知識を必要としないことである。 いくつかのロボット制御タスクの実験では、SCPOは遷移力学の障害に対する堅牢なポリシーを学習している。

Deep reinforcement learning algorithms can perform poorly in real-world tasks due to the discrepancy between source and target environments. This discrepancy is commonly viewed as the disturbance in transition dynamics. Many existing algorithms learn robust policies by modeling the disturbance and applying it to source environments during training, which usually requires prior knowledge about the disturbance and control of simulators. However, these algorithms can fail in scenarios where the disturbance from target environments is unknown or is intractable to model in simulators. To tackle this problem, we propose a novel model-free actor-critic algorithm -- namely, state-conservative policy optimization (SCPO) -- to learn robust policies without modeling the disturbance in advance. Specifically, SCPO reduces the disturbance in transition dynamics to that in state space and then approximates it by a simple gradient-based regularizer. The appealing features of SCPO include that it is simple to implement and does not require additional knowledge about the disturbance or specially designed simulators. Experiments in several robot control tasks demonstrate that SCPO learns robust policies against the disturbance in transition dynamics.
翻訳日:2021-12-21 15:46:56 公開日:2021-12-20
# factorized discriminatorsを用いたマルチモーダル適応型学習推論

Multimodal Adversarially Learned Inference with Factorized Discriminators ( http://arxiv.org/abs/2112.10384v1 )

ライセンス: Link先を確認
Wenxue Chen and Jianke Zhu(参考訳) マルチモーダルデータからの学習は機械学習の重要な研究テーマであり、より良い表現を得る可能性がある。 本稿では,生成型adversarial networkに基づくマルチモーダルデータの生成モデルに対する新しいアプローチを提案する。 コヒーレントなマルチモーダル生成モデルを学習するためには、異なるエンコーダ分布とジョイントデコーダ分布を同時に調整する必要があることを示す。 この目的のために,モデルがデータを効率的に活用できるように識別器の特定の形態を構築し,断続的に訓練する。 識別器を分解することでコントラスト学習を活用し、一様データに基づいてモデルを訓練する。 我々は,ベンチマークデータセットについて実験を行い,提案手法が様々な測定値において最先端の手法よりも優れていることを示した。 ソースコードは一般公開される予定だ。

Learning from multimodal data is an important research topic in machine learning, which has the potential to obtain better representations. In this work, we propose a novel approach to generative modeling of multimodal data based on generative adversarial networks. To learn a coherent multimodal generative model, we show that it is necessary to align different encoder distributions with the joint decoder distribution simultaneously. To this end, we construct a specific form of the discriminator to enable our model to utilize data efficiently, which can be trained constrastively. By taking advantage of contrastive learning through factorizing the discriminator, we train our model on unimodal data. We have conducted experiments on the benchmark datasets, whose promising results show that our proposed approach outperforms the-state-of-the-art methods on a variety of metrics. The source code will be made publicly available.
翻訳日:2021-12-21 15:44:50 公開日:2021-12-20
# 一般的な欲望のデバイアス学習

General Greedy De-bias Learning ( http://arxiv.org/abs/2112.10572v1 )

ライセンス: Link先を確認
Xinzhe Han, Shuhui Wang, Chi Su, Qingming Huang, Qi Tian(参考訳) ニューラルネットワークは、しばしば、関心のあるタスクの固有の特性ではなく、データセットからのスプリアス相関に依存する予測を行い、out-of-distribution(ood)テストデータで顕著に劣化する。 既存のデバイアス学習フレームワークは、バイアスアノテーションによって特定のデータセットバイアスをキャプチャしようとするが、複雑なOODシナリオを処理できない。 他の人たちは、低能力バイアスモデルや損失に関する特別な設計によってデータセットのバイアスを暗黙的に識別するが、トレーニングとテストのデータを同じディストリビューションから削除する。 本稿では,関数空間における勾配勾配のように,偏りのあるモデルとベースモデルを優雅に訓練する一般グリーディ・デバイアス学習フレームワーク(GGD)を提案する。 バイアスのあるモデルでは解決が難しい例にベースモデルを集中させることが推奨されるため、テスト段階では急激な相関に対して堅牢なままである。 GGDは様々なタスクにおけるモデルのOOD一般化能力を大幅に改善するが、時にはバイアスレベルを過大評価し、分散テストで劣化させる。 さらに、ggdのアンサンブルプロセスを再度分析し、カリキュラム学習にインスパイアされたggdにカリキュラム正規化を導入することにより、配信内と配信外のパフォーマンスとの良好なトレードオフを実現する。 画像分類, 逆質問応答, 視覚的質問応答に関する広範な実験により, 本手法の有効性が示された。 GGDは、事前知識を持つタスク固有バイアスモデルと、事前知識を持たない自己集合バイアスモデルの両方の設定の下で、より堅牢なベースモデルを学ぶことができる。

Neural networks often make predictions relying on the spurious correlations from the datasets rather than the intrinsic properties of the task of interest, facing sharp degradation on out-of-distribution (OOD) test data. Existing de-bias learning frameworks try to capture specific dataset bias by bias annotations, they fail to handle complicated OOD scenarios. Others implicitly identify the dataset bias by the special design on the low capability biased model or the loss, but they degrade when the training and testing data are from the same distribution. In this paper, we propose a General Greedy De-bias learning framework (GGD), which greedily trains the biased models and the base model like gradient descent in functional space. It encourages the base model to focus on examples that are hard to solve with biased models, thus remaining robust against spurious correlations in the test stage. GGD largely improves models' OOD generalization ability on various tasks, but sometimes over-estimates the bias level and degrades on the in-distribution test. We further re-analyze the ensemble process of GGD and introduce the Curriculum Regularization into GGD inspired by curriculum learning, which achieves a good trade-off between in-distribution and out-of-distribution performance. Extensive experiments on image classification, adversarial question answering, and visual question answering demonstrate the effectiveness of our method. GGD can learn a more robust base model under the settings of both task-specific biased models with prior knowledge and self-ensemble biased model without prior knowledge.
翻訳日:2021-12-21 15:44:36 公開日:2021-12-20
# (参考訳) MuMuQA: クロスメディア知識抽出とグラウンド化によるマルチメディアマルチホップニュース質問応答

MuMuQA: Multimedia Multi-Hop News Question Answering via Cross-Media Knowledge Extraction and Grounding ( http://arxiv.org/abs/2112.10728v1 )

ライセンス: CC BY 4.0
Revanth Gangi Reddy, Xilin Rui, Manling Li, Xudong Lin, Haoyang Wen, Jaemin Cho, Lifu Huang, Mohit Bansal, Avirup Sil, Shih-Fu Chang, Alexander Schwing, Heng Ji(参考訳) 近年,テキストや画像といった複数のモダリティを理由とする質問応答(qa)モデル構築への関心が高まっている。 しかし、画像を使用するQAは、事前に定義されたオプションセットから答えを選択するだけに限られることが多い。 さらに、現実世界、特にニュースにおける画像は、両方のモダリティから補完的な情報を持って、テキストと共参照のオブジェクトを持つ。 本稿では,画像中のオブジェクトをテキストにクロスメディア化する必要のあるニュース記事に対して,1384の質問を含む新しいqa評価ベンチマークを提案する。 具体的には、画像キャプチャーペアの推論を必要とするマルチホップ質問によって、参照されている接地された視覚オブジェクトを特定し、その質問に答えるためにニュースボディテキストからスパンを予測する。 さらに,クロスメディアな知識抽出と合成質問応答生成に基づく新たなマルチメディアデータ拡張フレームワークを導入し,このタスクを弱くするデータを自動的に強化する。 パイプラインベースとエンドツーエンドの事前トレーニングベースのマルチメディアQAモデルの両方をベンチマークで評価し,有望なパフォーマンスを実現する一方で,人的パフォーマンスにかなり遅れていることを示す。

Recently, there has been an increasing interest in building question answering (QA) models that reason across multiple modalities, such as text and images. However, QA using images is often limited to just picking the answer from a pre-defined set of options. In addition, images in the real world, especially in news, have objects that are co-referential to the text, with complementary information from both modalities. In this paper, we present a new QA evaluation benchmark with 1,384 questions over news articles that require cross-media grounding of objects in images onto text. Specifically, the task involves multi-hop questions that require reasoning over image-caption pairs to identify the grounded visual object being referred to and then predicting a span from the news body text to answer the question. In addition, we introduce a novel multimedia data augmentation framework, based on cross-media knowledge extraction and synthetic question-answer generation, to automatically augment data that can provide weak supervision for this task. We evaluate both pipeline-based and end-to-end pretraining-based multimedia QA models on our benchmark, and show that they achieve promising performance, while considerably lagging behind human performance hence leaving large room for future work on this challenging new task.
翻訳日:2021-12-21 15:41:06 公開日:2021-12-20
# 視覚画像を用いた舗装き裂同定のための深層学習手法の評価と比較

Evaluation and Comparison of Deep Learning Methods for Pavement Crack Identification with Visual Images ( http://arxiv.org/abs/2112.10390v1 )

ライセンス: Link先を確認
Kai-Liang Lu(参考訳) 接触検出技術と比較して、深層学習アルゴリズムによる視覚画像に対する舗装き裂識別は、検出対象の材料によって制限されないという利点があり、高速かつ低コストである。 トランスファーラーニング(TL)、エンコーダデコーダ(ED)、ジェネレーティブ・ディバーサリアル・ネットワーク(GAN)およびそれらの共通モジュールの基本的フレームワークと典型的なモデルアーキテクチャをまずレビューし、その後、畳み込みニューラルネットワーク(CNN)のバックボーンモデルとGANモデルの進化を要約した。 クラック分類、セグメンテーション性能および効果は、SDNET2018とCFDの公開データセットで試験された。 パッチサンプル分類の面では、細調整されたTLモデルはEDモデルよりも精度が若干良く、予測時間が速く、正確なクラック位置では、EDアルゴリズムとGANアルゴリズムの両方がピクセルレベルのセグメンテーションを達成でき、低演算パワープラットフォーム上でリアルタイムに検出されることが期待できる。 さらに,tl-ssganを併用した弱い教師付き学習フレームワークとその性能向上手法を提案し,教師付き学習と同等の亀裂識別性能を維持しつつ,必要なラベル付きサンプル数を大幅に削減した。

Compared with contact detection techniques, pavement crack identification with visual images via deep learning algorithms has the advantages of not being limited by the material of object to be detected, fast speed and low cost. The fundamental frameworks and typical model architectures of transfer learning (TL), encoder-decoder (ED), generative adversarial networks (GAN), and their common modules were first reviewed, and then the evolution of convolutional neural network (CNN) backbone models and GAN models were summarized. The crack classification, segmentation performance, and effect were tested on the SDNET2018 and CFD public data sets. In the aspect of patch sample classification, the fine-tuned TL models can be equivalent to or even slightly better than the ED models in accuracy, and the predicting time is faster; In the aspect of accurate crack location, both ED and GAN algorithms can achieve pixel-level segmentation and is expected to be detected in real time on low computing power platform. Furthermore, a weakly supervised learning framework of combined TL-SSGAN and its performance enhancement measures are proposed, which can maintain comparable crack identification performance with that of the supervised learning, while greatly reducing the number of labeled samples required.
翻訳日:2021-12-21 15:22:51 公開日:2021-12-20
# 単語と文字の間:NLPにおけるオープン語彙モデリングとトークン化の略歴

Between words and characters: A Brief History of Open-Vocabulary Modeling and Tokenization in NLP ( http://arxiv.org/abs/2112.10508v1 )

ライセンス: Link先を確認
Sabrina J. Mielke, Zaid Alyafeai, Elizabeth Salesky, Colin Raffel, Manan Dey, Matthias Gall\'e, Arun Raja, Chenglei Si, Wilson Y. Lee, Beno\^it Sagot, Samson Tan(参考訳) モデル化したいテキストの単位は何ですか? バイトからマルチワード表現まで、テキストは分析され、多くの粒度で生成される。 最近まで、ほとんどの自然言語処理(NLP)モデルは単語上で動作し、それらを離散的でアトミックなトークンとして扱うが、バイトペア符号化(BPE)から始まるサブワードベースのアプローチは、多くの領域で支配的になり、高速な推論が可能になった。 ロードキャラクタレベルモデルやバイトレベルの処理は終わりますか? 本研究では、単語と文字のハイブリッドアプローチと、学習されたセグメンテーションに基づくサブワードベースのアプローチがいかに提案され、評価されているかを示すことにより、前神経系および神経系時代のいくつかの作業線を接続する。 すべてのアプリケーションに対して銀の弾丸特異解が存在することはあり得ず、トークン化について真剣に考えることは、多くのアプリケーションにとって重要であると結論付けている。

What are the units of text that we want to model? From bytes to multi-word expressions, text can be analyzed and generated at many granularities. Until recently, most natural language processing (NLP) models operated over words, treating those as discrete and atomic tokens, but starting with byte-pair encoding (BPE), subword-based approaches have become dominant in many areas, enabling small vocabularies while still allowing for fast inference. Is the end of the road character-level model or byte-level processing? In this survey, we connect several lines of work from the pre-neural and neural era, by showing how hybrid approaches of words and characters as well as subword-based approaches based on learned segmentation have been proposed and evaluated. We conclude that there is and likely will never be a silver bullet singular solution for all applications and that thinking seriously about tokenization remains important for many applications.
翻訳日:2021-12-21 15:22:26 公開日:2021-12-20
# リンク予測のための低次元知識グラフ埋め込みの自己注意提示

Self-attention Presents Low-dimensional Knowledge Graph Embeddings for Link Prediction ( http://arxiv.org/abs/2112.10644v1 )

ライセンス: Link先を確認
Peyman Baghershahi, Reshad Hosseini, Hadi Moradi(参考訳) 近年,知識グラフ補完としても知られるリンク予測問題は,多くの研究を惹きつけている。 知識グラフを低次元に埋め込むことで比較的優れた性能を達成しようとする最近のモデルはほとんどないが、現在の最先端モデルの最良の結果は、埋め込みの次元を著しく増大させるコストで得られる。 しかし、これは過剰フィッティングを引き起こし、巨大な知識ベースの場合、より重要なスケーラビリティの問題を引き起こす。 本稿では,トランスフォーマーモデルの変種による近年の深層学習の進歩に触発されて,前述の制限に対応するためのモデルを提案する。 私たちのモデルでは、クエリ依存射影をエンティティやリレーションに適用し、それらの間の相互情報を取り込んで低次元埋め込みから表現力の高い表現を得るための鍵となる。 2つの標準リンク予測データセットであるFB15k-237とWN18RRの実証的な結果から、我々のモデルは、最新の3つの最先端の競合よりも好適に、あるいは優れた性能を達成でき、平均的な埋め込み次元は76.3%減少した。

Recently, link prediction problem, also known as knowledge graph completion, has attracted lots of researches. Even though there are few recent models tried to attain relatively good performance by embedding knowledge graphs in low dimensions, the best results of the current state-of-the-art models are earned at the cost of considerably increasing the dimensionality of embeddings. However, this causes overfitting and more importantly scalability issues in case of huge knowledge bases. Inspired by the recent advances in deep learning offered by variants of the Transformer model, because of its self-attention mechanism, in this paper we propose a model based on it to address the aforementioned limitation. In our model, self-attention is the key to applying query-dependant projections to entities and relations, and capturing the mutual information between them to gain highly expressive representations from low-dimensional embeddings. Empirical results on two standard link prediction datasets, FB15k-237 and WN18RR, demonstrate that our model achieves favorably comparable or better performance than our three best recent state-of-the-art competitors, with a significant reduction of 76.3% in the dimensionality of embeddings on average.
翻訳日:2021-12-21 15:18:39 公開日:2021-12-20
# (参考訳) RvS: 監視学習によるオフラインRLには何が必要か?

RvS: What is Essential for Offline RL via Supervised Learning? ( http://arxiv.org/abs/2112.10751v1 )

ライセンス: CC BY 4.0
Scott Emmons, Benjamin Eysenbach, Ilya Kostrikov, Sergey Levine(参考訳) 近年の研究では、時間差(TD)のない教師あり学習だけでオフラインRLに極めて効果的であることが示されている。 いつこれが真実で、どのアルゴリズムコンポーネントが必要なのか? 広範囲な実験を通じて、オフラインRLのための教師あり学習を、その重要な要素へと導いていく。 いずれの環境においても,2層フィードフォワード MLP による可能性の最大化は,TD 学習や Transformer を用いたシーケンスモデリングに基づく,より複雑な手法による最先端の結果と競合する。 モデルのキャパシティ(例えば、正規化やアーキテクチャ)を慎重に選択し、どの情報(例えば、目標や報酬)がパフォーマンスにとって重要であるかを選択する。 これらの洞察は、強化学習を行う実践者("RvS Learning"とよばれる)のためのフィールドガイドとして役立ちます。 彼らはまた、ランダムデータに比較的弱い既存のRvS法の限界を探索し、多くの未解決問題を提案する。

Recent work has shown that supervised learning alone, without temporal difference (TD) learning, can be remarkably effective for offline RL. When does this hold true, and which algorithmic components are necessary? Through extensive experiments, we boil supervised learning for offline RL down to its essential elements. In every environment suite we consider, simply maximizing likelihood with a two-layer feedforward MLP is competitive with state-of-the-art results of substantially more complex methods based on TD learning or sequence modeling with Transformers. Carefully choosing model capacity (e.g., via regularization or architecture) and choosing which information to condition on (e.g., goals or rewards) are critical for performance. These insights serve as a field guide for practitioners doing Reinforcement Learning via Supervised Learning (which we coin "RvS learning"). They also probe the limits of existing RvS methods, which are comparatively weak on random data, and suggest a number of open problems.
翻訳日:2021-12-21 15:16:40 公開日:2021-12-20
# ビデオインスタンス分割のためのMask2Former

Mask2Former for Video Instance Segmentation ( http://arxiv.org/abs/2112.10764v1 )

ライセンス: Link先を確認
Bowen Cheng and Anwesa Choudhuri and Ishan Misra and Alexander Kirillov and Rohit Girdhar and Alexander G. Schwing(参考訳) Mask2Formerはまた、アーキテクチャや損失、さらにはトレーニングパイプラインを変更することなく、ビデオインスタンスセグメンテーションにおける最先端のパフォーマンスを実現している。 本稿では,3次元セグメント化ボリュームを直接予測することにより,映像セグメント化を自明に一般化するユニバーサル画像セグメント化アーキテクチャについて述べる。 具体的には、Mask2FormerはYouTubeVIS-2019で60.4 AP、YouTubeVIS-2021で52.6 APの最先端を新たに設定している。 Mask2Formerは、画像セグメンテーションの汎用性から、ビデオセグメンテーションやパノプティクスセグメンテーションも扱えると考えている。 これにより、最先端のビデオセグメンテーション研究がよりアクセスしやすくなり、ユニバーサルなイメージとビデオセグメンテーションアーキテクチャの設計により多くの注目を集めることを期待している。

We find Mask2Former also achieves state-of-the-art performance on video instance segmentation without modifying the architecture, the loss or even the training pipeline. In this report, we show universal image segmentation architectures trivially generalize to video segmentation by directly predicting 3D segmentation volumes. Specifically, Mask2Former sets a new state-of-the-art of 60.4 AP on YouTubeVIS-2019 and 52.6 AP on YouTubeVIS-2021. We believe Mask2Former is also capable of handling video semantic and panoptic segmentation, given its versatility in image segmentation. We hope this will make state-of-the-art video segmentation research more accessible and bring more attention to designing universal image and video segmentation architectures.
翻訳日:2021-12-21 14:56:50 公開日:2021-12-20
# 実験データに隠れた状態変数の発見

Discovering State Variables Hidden in Experimental Data ( http://arxiv.org/abs/2112.10755v1 )

ライセンス: Link先を確認
Boyuan Chen, Kuang Huang, Sunand Raghupathi, Ishaan Chandratreya, Qiang Du, Hod Lipson(参考訳) すべての物理法則は、関連する系力学の完全かつ非冗長な記述を与える状態変数間の関係として記述される。 しかし、コンピュータパワーとAIの普及にもかかわらず、隠れた状態変数を識別するプロセスは自動化に抵抗している。 物理現象をモデル化するためのデータ駆動手法の多くは、観測されたデータストリームが既に関連する状態変数に対応していると仮定している。 重要な課題は、高次元の観測データのみを与えられた状態変数のセットをスクラッチから識別することである。 本稿では,ビデオストリームから直接,観測されたシステムの状態変数の数と,その変数が何であるかを決定するための新しい原理を提案する。 本研究では, 弾性二重振り子から火炎まで, 様々な力学系の映像記録を用いて, この手法の有効性を実証する。 基礎となる物理の事前知識がなければ、我々のアルゴリズムは観測された力学の固有次元を発見し、状態変数の候補集合を同定する。 このアプローチは、ますます複雑なシステムの理解、予測、制御を促進するのに役立つと提案する。 プロジェクトウェブサイト https://www.cs.columbia.edu/~bchen/neural-state-variables

All physical laws are described as relationships between state variables that give a complete and non-redundant description of the relevant system dynamics. However, despite the prevalence of computing power and AI, the process of identifying the hidden state variables themselves has resisted automation. Most data-driven methods for modeling physical phenomena still assume that observed data streams already correspond to relevant state variables. A key challenge is to identify the possible sets of state variables from scratch, given only high-dimensional observational data. Here we propose a new principle for determining how many state variables an observed system is likely to have, and what these variables might be, directly from video streams. We demonstrate the effectiveness of this approach using video recordings of a variety of physical dynamical systems, ranging from elastic double pendulums to fire flames. Without any prior knowledge of the underlying physics, our algorithm discovers the intrinsic dimension of the observed dynamics and identifies candidate sets of state variables. We suggest that this approach could help catalyze the understanding, prediction and control of increasingly complex systems. Project website is at: https://www.cs.columbia.edu/~bchen/neural-state-variables
翻訳日:2021-12-21 14:56:21 公開日:2021-12-20
# 共用テキスト分類と合理的抽出のための統一モデル説明可能性とロバスト性

Unifying Model Explainability and Robustness for Joint Text Classification and Rationale Extraction ( http://arxiv.org/abs/2112.10424v1 )

ライセンス: Link先を確認
Dongfang Li, Baotian Hu, Qingcai Chen, Tujie Xu, Jingcong Tao, Yunan Zhang(参考訳) 最近の研究では、説明可能性と頑健性が信頼性と信頼性の高いテキスト分類の重要な2つの要素であることが示されている。 しかし、以前の作品は通常2つの側面のうちの1つに対処する。 一 予測に有益でありながら説明可能性の正確な根拠を抽出する方法 二 予測モデルを、異なる種類の敵の攻撃に対して頑健にする方法。 直感的には、有益な説明を生成するモデルは、説明を出力するモデルを信頼できないが、小さな摂動の下で予測を変更するため、敵攻撃に対してより堅牢であるべきである。 そこで本研究では,AT-BMCという共同分類と合理的抽出モデルを提案する。 混合逆行訓練(AT)は、モデルの堅牢性を改善するために離散的および埋め込み空間における様々な摂動を利用するように設計されており、境界マッチング制約(BMC)は境界情報のガイダンスによりより正確に有理性を見つけるのに役立つ。 ベンチマークデータセットのパフォーマンスは、提案されたAT-BMCが、大きなマージンによる分類と合理性抽出の両方のベースラインを上回っていることを示している。 ロバストネス分析の結果,提案したAT-BMCは攻撃成功率を69%まで効果的に低下させることがわかった。 実験結果は、ロバストモデルとより良い説明の間に関係があることを示唆している。

Recent works have shown explainability and robustness are two crucial ingredients of trustworthy and reliable text classification. However, previous works usually address one of two aspects: i) how to extract accurate rationales for explainability while being beneficial to prediction; ii) how to make the predictive model robust to different types of adversarial attacks. Intuitively, a model that produces helpful explanations should be more robust against adversarial attacks, because we cannot trust the model that outputs explanations but changes its prediction under small perturbations. To this end, we propose a joint classification and rationale extraction model named AT-BMC. It includes two key mechanisms: mixed Adversarial Training (AT) is designed to use various perturbations in discrete and embedding space to improve the model's robustness, and Boundary Match Constraint (BMC) helps to locate rationales more precisely with the guidance of boundary information. Performances on benchmark datasets demonstrate that the proposed AT-BMC outperforms baselines on both classification and rationale extraction by a large margin. Robustness analysis shows that the proposed AT-BMC decreases the attack success rate effectively by up to 69%. The empirical results indicate that there are connections between robust models and better explanations.
翻訳日:2021-12-21 14:55:12 公開日:2021-12-20
# エキスパートの混在による効率的な大規模言語モデリング

Efficient Large Scale Language Modeling with Mixtures of Experts ( http://arxiv.org/abs/2112.10684v1 )

ライセンス: Link先を確認
Mikel Artetxe, Shruti Bhosale, Naman Goyal, Todor Mihaylov, Myle Ott, Sam Shleifer, Xi Victoria Lin, Jingfei Du, Srinivasan Iyer, Ramakanth Pasunuru, Giri Anantharaman, Xian Li, Shuohui Chen, Halil Akin, Mandeep Baines, Louis Martin, Xing Zhou, Punit Singh Koura, Brian O'Horo, Jeff Wang, Luke Zettlemoyer, Mona Diab, Zornitsa Kozareva, Ves Stoyanov(参考訳) エキスパート層(MoE)の混合により、条件付き計算による言語モデルの効率的なスケーリングが可能になる。 本稿では,自己回帰型moe言語モデルが,ドメイン内および領域外言語モデリング,ゼロおよびマイナショットプライミング,完全な微調整など,幅広い設定における密集したモデルと比較してどのようにスケールするかに関する詳細な実証研究を行う。 微調整を除けば、moesの計算効率は大幅に向上しています。 より控えめなトレーニング予算では、MoEsは$\sim$4の計算量で高密度モデルのパフォーマンスにマッチする。 このギャップはスケールで狭まるが、我々の最大のMoEモデル(1.1Tパラメータ)は、計算等価密度モデル(6.7Bパラメータ)よりも一貫して優れている。 全体として、このパフォーマンスギャップはタスクやドメインによって大きく異なり、MoEと高密度モデルが将来の研究に値する方法で異なる一般化をすることを示唆している。 コードとモデルを研究用に公開しています。

Mixture of Experts layers (MoEs) enable efficient scaling of language models through conditional computation. This paper presents a detailed empirical study of how autoregressive MoE language models scale in comparison with dense models in a wide range of settings: in- and out-of-domain language modeling, zero- and few-shot priming, and full fine-tuning. With the exception of fine-tuning, we find MoEs to be substantially more compute efficient. At more modest training budgets, MoEs can match the performance of dense models using $\sim$4 times less compute. This gap narrows at scale, but our largest MoE model (1.1T parameters) consistently outperforms a compute-equivalent dense model (6.7B parameters). Overall, this performance gap varies greatly across tasks and domains, suggesting that MoE and dense models generalize differently in ways that are worthy of future study. We make our code and models publicly available for research use.
翻訳日:2021-12-21 14:31:01 公開日:2021-12-20
# (参考訳) 最適輸送蒸留による言語教師付きゼロショット認識

Data Efficient Language-supervised Zero-shot Recognition with Optimal Transport Distillation ( http://arxiv.org/abs/2112.09445v2 )

ライセンス: CC BY 4.0
Bichen Wu, Ruizhe Cheng, Peizhao Zhang, Peter Vajda, Joseph E. Gonzalez(参考訳) 従来のコンピュータビジョンモデルは、予め定義されたカテゴリの固定セットを予測するように訓練される。 近年、自然言語は、監督された「ゴールド」ラベルよりも視覚的概念に詳細な記述を提供する、より広範にリッチな監督源であることが示されている。 CLIPのような以前の作業では、InfoNCE損失を使用して、イメージとテキストキャプションのペアリングを予測するモデルをトレーニングしている。 しかしclipはデータに飢えており、トレーニングには画像とテキストのペアが400万以上必要だ。 非効率性は、画像とテキストのペアがノイズであるという事実によって部分的に説明できる。 そこで本研究では,オンラインエントロピー最適化トランスポートを用いたotter(optimal transport distillation for efficient zero-shot recognition)を提案する。 事前訓練された画像とテキストエンコーダに基づいて、OTTERで訓練されたモデルは、3M画像テキストペアだけで強力なパフォーマンスを達成する。 InfoNCEの損失、ラベルのスムーズ化、知識の蒸留と比較すると、OTTERは、Tencent ML-ImagesのGoogle Open Images (19,958クラス)とマルチラベルのImageNet 10K (10032クラス)のゼロショット評価において、これらのベースラインを一貫して上回っている。 7つの異なるデータセット/アーキテクチャ設定 x 6 メトリクス、OTTER のパフォーマンス (32) または ties (2) に関する42以上の評価。

Traditional computer vision models are trained to predict a fixed set of predefined categories. Recently, natural language has been shown to be a broader and richer source of supervision that provides finer descriptions to visual concepts than supervised "gold" labels. Previous works, such as CLIP, use InfoNCE loss to train a model to predict the pairing between images and text captions. CLIP, however, is data hungry and requires more than 400M image-text pairs for training. The inefficiency can be partially attributed to the fact that the image-text pairs are noisy. To address this, we propose OTTER (Optimal TransporT distillation for Efficient zero-shot Recognition), which uses online entropic optimal transport to find a soft image-text match as labels for contrastive learning. Based on pretrained image and text encoders, models trained with OTTER achieve strong performance with only 3M image text pairs. Compared with InfoNCE loss, label smoothing, and knowledge distillation, OTTER consistently outperforms these baselines in zero shot evaluation on Google Open Images (19,958 classes) and multi-labeled ImageNet 10K (10032 classes) from Tencent ML-Images. Over 42 evaluations on 7 different dataset/architecture settings x 6 metrics, OTTER outperforms (32) or ties (2) all baselines in 34 of them.
翻訳日:2021-12-21 11:46:11 公開日:2021-12-20