このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220422となっている論文です。

PDF登録状況(公開日: 20220422)

TitleAuthorsAbstract論文公表日・翻訳日
# 実時間における光子数正確に決定する

Precisely determining photon-number in real-time ( http://arxiv.org/abs/2012.10158v2 )

ライセンス: Link先を確認
Leonardo Assis Morais (1), Till Weinhold (1), Marcelo Pereira de Almeida (1), Joshua Combes (2), Adriana Lita (3), Thomas Gerrits (3), Sae Woo Nam (3), Andrew G. White (1) and Geoff Gillett (1 and 4) ((1) Centre for Engineered Quantum Systems, School of Mathematics and Physics, University of Queensland, (2) Department of Electrical, Computer and Energy Engineering, University of Colorado Boulder, (3) National Institute of Standards and Technology, (4) Quantum Valley Ideas Lab)(参考訳) 超伝導トランジションエッジセンサー(TES)は、非平行エネルギー分解能を持つ光子検出器として非常に感度の高いマイクロカロリメータである。 彼らは、天文学スペクトルの測定から、0.6-2.33evのエネルギーに対して、光子数 {=} \hat{n} {=} \hat{a}^{\dag} \hat{a}$ の量子特性を決定する応用を発見した。 しかし、最適なエネルギー分解能を達成するには、1gb/minのオーダーで、処理後のデータ取得が必要であり、リアルタイムにエネルギー情報にアクセスできない。 ここでは、TESパルスの処理にカスタムハードウェアプロセッサを使用し、新しい検出がまだ登録されている間、光子数をリアルタイムで測定し、マグニチュードによるデータ要求を減らす。 我々は、天文学から量子技術へのTES検出器の応用のための変換能力を提供するため、n=16までの光子数を解決した。

Superconducting transition-edge sensors (TES) are extremely sensitive microcalorimeters used as photon detectors with unparalleled energy resolution. They have found application from measuring astronomical spectra through to determining the quantum property of photon-number, $\hat{n} {=} \hat{a}^{\dag} \hat{a}$, for energies from 0.6-2.33eV. However, achieving optimal energy resolution requires considerable data acquisition -- on the order of 1GB/min -- followed by post-processing, which does not allow access to energy information in real time. Here we use a custom hardware processor to process TES pulses while new detections are still being registered, allowing photon-number to be measured in real time as well as reducing data requirements by orders-of-magnitude. We resolve photon number up to n=16 -- achieving up to parts-per-billion discrimination for low photon numbers on the fly -- providing transformational capacity for applications of TES detectors from astronomy through to quantum technology.
翻訳日:2023-04-20 06:25:11 公開日:2022-04-22
# 密度木バイアスオートエンコーダを用いたscRNA-seqデータの階層化

Visualizing hierarchies in scRNA-seq data using a density tree-biased autoencoder ( http://arxiv.org/abs/2102.05892v3 )

ライセンス: Link先を確認
Quentin Garrido (LIGM, HCI), Sebastian Damrich (HCI), Alexander J\"ager (HCI), Dario Cerletti (HCI), Manfred Claassen, Laurent Najman (LIGM), Fred Hamprecht (HCI)(参考訳) モチベーション:単細胞RNAシークエンシング(scRNA-seq)データにより、非平行解像度で細胞の開発が可能であることを研究する。 多くの細胞分化過程が階層的であることから、そのscRNA-seqデータは遺伝子発現空間において概ね木状であることが期待される。 この木構造を2次元で推測・表現することは生物学的解釈と探索解析に非常に望ましいものであり,結果:我々は高次元のscRNA-seqデータから意味のある木構造を特定するためのアプローチであり,木構造を尊重する可視化手法である。 データのベクトル量子化上で密度ベース最小スパンディングツリーを用いて木構造を抽出し、生物学的情報をよく捉えていることを示す。 次に、低次元空間におけるデータのツリー構造を強調する木バイアスオートエンコーダDTAEを紹介する。 我々は他の次元縮小法と比較し、実データと玩具データの両方で定量的かつ定量的に方法の成功を実証する。

Motivation: Single cell RNA sequencing (scRNA-seq) data makes studying the development of cells possible at unparalleled resolution. Given that many cellular differentiation processes are hierarchical, their scRNA-seq data is expected to be approximately tree-shaped in gene expression space. Inference and representation of this tree-structure in two dimensions is highly desirable for biological interpretation and exploratory analysis.Results:Our two contributions are an approach for identifying a meaningful tree structure from high-dimensional scRNA-seq data, and a visualization method respecting the tree-structure. We extract the tree structure by means of a density based minimum spanning tree on a vector quantization of the data and show that it captures biological information well. We then introduce DTAE, a tree-biased autoencoder that emphasizes the tree structure of the data in low dimensional space. We compare to other dimension reduction methods and demonstrate the success of our method both qualitatively and quantitatively on real and toy data.Availability: Our implementation relying on PyTorch and Higra is available at https://github.com/hci-unihd/DTAE.
翻訳日:2023-04-11 12:10:39 公開日:2022-04-22
# 超高解像度画像再生における損失とコヒーレンスの役割

Back to sources -- the role of losses and coherence in super-resolution imaging revisited ( http://arxiv.org/abs/2103.12096v3 )

ライセンス: Link先を確認
Stanislaw Kurdzialek(参考訳) 光子損失は、非自明な点拡散関数を持つ任意の翻訳不変光イメージングシステムに固有のものであり、透過係数と画像オブジェクトのコヒーレンス特性の関係は普遍的である。 次に、2つの部分コヒーレントソース間の分離を推定する精度の基本的な限界を導出する。 光子損失の役割を慎重に研究することで、以前の作品に存在する矛盾する主張を解決することができる。 我々は,光4fイメージングシステムの汎用モデルのための量子フィッシャー情報を計算し,その結果を一般の翻訳不変画像装置で検証するために事前検討を行った。 非コヒーレント源に最適である空間モード多重化(spade)測定が任意のコヒーレンス度に最適であることを証明する。 さらに、光学イメージングに関する理論的な研究に全在するいくつかの近似は、必然的に非物理的、ゼロトランスミッションモデルにつながり、基本的な解像度限界に関する誤解を招く。

Photon losses are intrinsic for any translationally invariant optical imaging system with a non-trivial Point Spread Function, and the relation between the transmission factor and the coherence properties of an imaged object is universal -- we demonstrate the rigorous proof of this statement, based on the principles of quantum mechanics. The fundamental limit on the precision of estimating separation between two partially coherent sources is then derived. The careful study of the role of photon losses allows to resolve conflicting claims present in previous works. We compute the Quantum Fisher Information for the generic model of optical 4f imaging system, and use prior considerations to validate the result for a general, translationally invariant imaging apparatus. We prove that the spatial-mode demultiplexing (SPADE) measurement, optimal for non-coherent sources, remains optimal for an arbitrary degree of coherence. Moreover, we show that some approximations, omnipresent in theoretical works about optical imaging, inevitably lead to unphysical, zero-transmission models, resulting in misleading claims regarding fundamental resolution limits.
翻訳日:2023-04-07 04:16:35 公開日:2022-04-22
# 単純モデル上の低温量子境界

Low temperature quantum bounds on simple models ( http://arxiv.org/abs/2106.13269v5 )

ライセンス: Link先を確認
Silvia Pappalardi and Jorge Kurchan(参考訳) 過去数年間、低温で関係する輸送係数(粘度)とカオス(リャプノフ指数)の一連の量子境界周辺でかなりの活動があった。 興味深いのは、ブラック・ホールのモデルがすべて飽和しているようだという事実だ。 この研究の目的は、これらの境界を単純なモデルで強制する量子機構に関する物理的直観を得ることである。 この目的のために、曲線多様体上の古典的および量子的自由力学を考える。 これらのシステムは最低温度までカオスを示し、我々が議論しているように、古典的限界の境界を破る。 まず、量子次元のない粘度とリアプノフ指数は、ド・ブロイの長さと幾何学的長さスケールのみに依存することを示し、量子効果が関連するスケールを確立する。 次に、リアプノフ指数の有界性に注目し、実際に量子効果が発生する3つの異なる方法を特定する。 量子カオスのパラダイムモデルである定数負曲率の表面からシリンダーに接着した玩具モデルについて,本研究で得られた知見を述べる。 正確な解法と数値的研究により, 曲率自体の量子効果によってカオス的挙動がどう制限されるかを示す。 興味深いことに、最も低いエネルギーではカオスに縛られた境界は最長のスケールで支配されており、そのため集団的な効果である。

In the past few years, there has been considerable activity around a set of quantum bounds on transport coefficients (viscosity) and chaos (Lyapunov exponent), relevant at low temperatures. The interest comes from the fact that Black-Hole models seem to saturate all of them. The goal of this work is to gain physical intuition about the quantum mechanisms that enforce these bounds on simple models. To this aim, we consider classical and quantum free dynamics on curved manifolds. These systems exhibit chaos up to the lowest temperatures and - as we discuss - they violate the bounds in the classical limit. First of all, we show that the quantum dimensionless viscosity and the Lyapunov exponent only depend on the de Broglie length and a geometric length-scale, thus establishing the scale at which quantum effects become relevant. Then, we focus on the bound on the Lyapunov exponent and identify three different ways in which quantum effects arise in practice. We illustrate our findings on a toy model given by the surface of constant negative curvature - a paradigmatic model of quantum chaos - glued to a cylinder. By exact solution and numerical investigations, we show how the chaotic behaviour is limited by the quantum effects of the curvature itself. Interestingly, we find that at the lowest energies the bound to chaos is dominated by the longest length scales, and it is therefore a collective effect.
翻訳日:2023-03-25 15:59:36 公開日:2022-04-22
# 組合せ最適化問題におけるIBM量子コンピューティングデバイスの性能に関する研究

An investigation of IBM Quantum Computing device performance on Combinatorial Optimisation Problems ( http://arxiv.org/abs/2107.03638v3 )

ライセンス: Link先を確認
Maxine T. Khumalo, Hazel A. Chieza, Krupa Prag and Matthew Woolway(参考訳) 論文では,$\mathcal{NP}$-Hard Combinatorial Optimisation Problems (COP)の解決における決定論的解の抽出可能性について報告する。 この困難を克服する1つのメカニズムは、効率的なCOP非決定論的アプローチを使用することである。 しかし、量子技術の出現に伴い、このトラクタビリティの限界を克服する現代のデバイスの可能性は探索を必要とする。 本稿では,古典的および量子的最適化アルゴリズムの性能を,トラベリングセールスマン問題 (TSP) と擬似アサインメント問題 (QAP) の2つの一般的なCOPを解くために近似する。 2つの古典的最適化手法であるブランチ・アンド・バウンド (BNB) とシミュレート・アニーリング (SA) を、変分量子固有解法 (VQE) と量子近似最適化法 (QAOA) と比較した。 これらのアルゴリズムは、それぞれ古典的なデバイスとIBMのNoisy Intermediate-Scale Quantum (NISQ) デバイスで実行される。 我々は,それぞれの技術やアルゴリズムのCOP問題を符号化し,NISQデバイスに計算エンコーディングを提供した。 実験結果から,現在利用可能なNISQデバイスよりも優れた性能を示し,文献の知見と一致し,拡張していることがわかった。 さらに,計算時間,実現可能性,ソリューション品質に関する2つのアプローチをよりよく比較するために,追加のパフォーマンス指標を導入する。 以上の結果から,vqeはqaoaよりも優れた性能を示すとともに,要求される操作数の増加によるものであると推測した。 さらに,新しい基底ゲートセットが量子最適化技術に与える影響について検討し,その結果に顕著な改善が見られないことを示す。 最後に、最先端のNISQ IBM量子デバイスが抱える欠点を提示し、今後の研究と調査について論じる。

The intractability of deterministic solutions in solving $\mathcal{NP}$-Hard Combinatorial Optimisation Problems (COP) is well reported in the literature. One mechanism for overcoming this difficulty has been the use of efficient COP non-deterministic approaches. However, with the advent of quantum technology, these modern devices' potential to overcome this tractability limitation requires exploration. This paper juxtaposes classical and quantum optimisation algorithms' performance to solve two common COP, the Travelling Salesman Problem (TSP) and the Quadratic Assignment Problem (QAP). Two accepted classical optimisation methods, Branch and Bound (BNB) and Simulated Annealing (SA), are compared to two quantum optimisation methods, Variational Quantum Eigensolver (VQE) algorithm and Quantum Approximate Optimisation Algorithm (QAOA). These algorithms are respectively executed on both classical devices and IBM's suite of Noisy Intermediate-Scale Quantum (NISQ) devices. We have encoded the COP problems for the respective technologies and algorithms and provided the computational encodings for the NISQ devices. Our experimental results show that current classical devices significantly outperform the presently available NISQ devices, which agrees and extends with findings in the literature. Further, we introduce additional performance metrics to better compare the two approaches concerning computational time, feasibility and solution quality. Our results show that the VQE performs better than QAOA for these metrics, and we infer that this is due to the increased number of operations required. Additionally, we investigate the impact of a new set of basis gates on the quantum optimisation techniques and show they yield no notable improvement in the results. Finally, we present the shortcomings of state-of-the-art NISQ IBM quantum devices and argue for potential future work and investigation.
翻訳日:2023-03-23 02:19:02 公開日:2022-04-22
# アクシオン暗黒物質の探索を高速化する空洞絡みと状態交換法

A cavity entanglement and state swapping method to accelerate the search for axion dark matter ( http://arxiv.org/abs/2107.04147v2 )

ライセンス: Link先を確認
K. Wurtz, B. M. Brubaker, Y. Jiang, E. P. Ruddy, D. A. Palken, and K. W. Lehnert(参考訳) キャビティベースのアクシオンダークマター検出器では、量子ノイズは、アクシオンパラメータ空間の包括的探索に必要な走査速度を達成するための主要な障壁である。 本稿では,2モードスキューズ(絡み合い)と状態スワッピング相互作用を同時に行うことで,アクシオン感受性キャビティを補助共振回路に結合する走査速度向上手法を提案する。 これらの相互作用を組み合わせれば、測定によって発生する真空ノイズによって汚染される前に、アクシオン信号を増幅することができることを示す。 この内部増幅は軸感度の広い帯域幅をもたらし、検出器が周波数空間を探索できる速度を増大させる。 このシステムの回路シミュレーションによって予測される相互作用速度により、この手法は真空ノイズに制限された検出器の走査速度に対して、スキャンレートを最大15倍に増やすことができる。

In cavity-based axion dark matter detectors, quantum noise remains a primary barrier to achieving the scan rate necessary for a comprehensive search of axion parameter space. Here we introduce a method of scan rate enhancement in which an axion-sensitive cavity is coupled to an auxiliary resonant circuit through simultaneous two-mode squeezing (entangling) and state swapping interactions. We show analytically that when combined, these interactions can amplify an axion signal before it becomes polluted by vacuum noise introduced by measurement. This internal amplification yields a wider bandwidth of axion sensitivity, increasing the rate at which the detector can search through frequency space. With interaction rates predicted by circuit simulations of this system, we show that this technique can increase the scan rate up to 15-fold relative to the scan rate of a detector limited by vacuum noise.
翻訳日:2023-03-23 01:51:27 公開日:2022-04-22
# 時間周波数解析に基づく周波数ホッピングシステムの深部干渉分類

Time-Frequency Analysis based Deep Interference Classification for Frequency Hopping System ( http://arxiv.org/abs/2108.10056v2 )

ライセンス: Link先を確認
Changzhi Xu, Jingya Ren, Wanxin Yu, Yi Jin, Zhenxin Cao, Xiaogang Wu, Weiheng Jiang(参考訳) 干渉分類は、認証された通信システムを保護する上で重要な役割を担い、敵対的環境における性能劣化を回避することが知られている。 本稿では,周波数ホッピング通信システムにおける干渉分類問題について述べる。 周波数ホッピング系における多重干渉の可能性を考慮すると、受信信号から干渉の効果的な特徴を完全に抽出するために、線形および双線形変換に基づく複合時間周波数解析法を採用する。 そして、時間周波数分析から得られる時間周波数スペクトルをマッチングペアとして構成し、ディープニューラルネットワークに入力して分類する。 特に、シアムニューラルネットワークは分類器として用いられ、ペア付きスペクトログラムはディープネットワークの2つのサブネットワークに入力され、これら2つのサブネットワークはペア付きスペクトログラムの特徴を干渉型分類のために抽出する。 シミュレーションの結果,提案手法は従来の時間周波数表現ベースアプローチや,アレクサネット転送学習法や畳み込みニューラルネットワーク法よりも高い分類精度が得られることがわかった。

It is known that, interference classification plays an important role in protecting the authorized communication system and avoiding its performance degradation in the hostile environment. In this paper, the interference classification problem for the frequency hopping communication system is discussed. Considering the possibility of presence multiple interferences in the frequency hopping system, in order to fully extract effective features of the interferences from the received signals, the linear and bilinear transform based composite time-frequency analysis method is adopted. Then the time-frequency spectrograms obtained from the time-frequency analysis are constructed as matching pairs and input to the deep neural network for classification. In particular, the Siamese neural network is used as the classifier, where the paired spectrograms are input into the two sub-networks of the deep networks, and these two sub-networks extract the features of the paired spectrograms for interference type classification. The simulation results confirm that the proposed algorithm can obtain higher classification accuracy than both traditional single time-frequency representation based approach and the AlexNet transfer learning or convolutional neural network based methods.
翻訳日:2023-03-21 07:20:14 公開日:2022-04-22
# アインシュタインの量子エレベータによる曲線の平坦化:一般化されたビエルベイン形式主義による非エルミートハミルトニアンのエルミゼーション

Flattening the Curve with Einstein's Quantum Elevator: Hermitization of Non-Hermitian Hamiltonians via a Generalized Vielbein Formalism ( http://arxiv.org/abs/2107.11910v2 )

ライセンス: Link先を確認
Chia-Yi Ju, Adam Miranowicz, Fabrizio Minganti, Chuan-Tsung Chan, Guang-Yin Chen, Franco Nori(参考訳) 非エルミート量子系の形式論は、基礎となる物理学を曖昧にすることがある。 我々は、非エルミート系のヒルベルト空間束を従来のものに変換し、誘導ハミルトニアンをエルミート系とするヴィエルビン様形式論の体系的研究を行う。 言い換えると、任意の非エルミート・ハミルトニアンは物理学を変えることなく「ヘルミート・ハミルトニアン」に変換できる。 したがって、非エルミート系が非自明なヒルベルト空間計量を持ち、量子力学の標準形式論におけるエルミート系に還元されるような参照系(アインシュタインの量子エレベーターに対応する)を見つける方法を示す。

The formalism for non-Hermitian quantum systems sometimes blurs the underlying physics. We present a systematic study of the vielbein-like formalism which transforms the Hilbert space bundles of non-Hermitian systems into the conventional ones, rendering the induced Hamiltonian to be Hermitian. In other words, any non-Hermitian Hamiltonian can be "transformed" into a Hermitian one without altering the physics. Thus we show how to find a reference frame (corresponding to Einstein's quantum elevator) in which a non-Hermitian system, equipped with a non-trivial Hilbert space metric, reduces to a Hermitian system within the standard formalism of quantum mechanics.
翻訳日:2023-03-20 23:27:38 公開日:2022-04-22
# Sachdev-Ye-Kitaevモデルの普遍平衡ダイナミクス

Universal equilibration dynamics of the Sachdev-Ye-Kitaev model ( http://arxiv.org/abs/2108.01718v2 )

ライセンス: Link先を確認
Soumik Bandyopadhyay, Philipp Uhrich, Alessio Paviglianiti and Philipp Hauke(参考訳) 相転移近傍の平衡量子多体系は、普遍性を示す。 対照的に、量子臨界相における系の非平衡進化における普遍的な特性に関する限られた知識が得られている。 この文脈では、普遍性は、可観測性の微視的システムパラメータと初期条件に対する無感性に起因する。 ここでは、Sachdev-Ye-Kitaev (SYK) Hamiltonianの平衡力学におけるそのような普遍的な特徴について述べる。 我々は、グローバルなクエンチを行い、システムの平衡から遠く離れて、そのアンサンブル平均が定常状態にどのように緩和するかを追跡する。 正確な進化のための最先端の数値シミュレーションを用いて,量子フィッシャー情報や局所作用素の低次モーメントを含む数体観測器の無秩序な進化が,数値分解能内で普遍的平衡過程として現れることを明らかにした。 単純な再スケーリングの下では、異なる初期状態に対応するデータが普遍曲線に崩壊し、それは進化の大部分がガウスによってよく近似される。 この過程の背後にある物理学を明らかにするために、ノヴィコフ・フルツの定理に基づく一般理論の枠組みを定式化する。 このフレームワークは、多体系の無秩序平均ダイナミクスを効果的な散逸進化として抽出し、この作業を超えて応用することができる。 sykアンサンブルの正確な非マルコフ的進化は、ボレー=マルコフ近似によって非常によく捉えられ、システムの極端なカオス性によって共通のロアとは対照的に正当化され、対応するリウヴィリアンのスペクトル分析で普遍性が明らかにされる。

Equilibrium quantum many-body systems in the vicinity of phase transitions generically manifest universality. In contrast, limited knowledge has been gained on possible universal characteristics in the non-equilibrium evolution of systems in quantum critical phases. In this context, universality is generically attributed to the insensitivity of observables to the microscopic system parameters and initial conditions. Here, we present such a universal feature in the equilibration dynamics of the Sachdev-Ye-Kitaev (SYK) Hamiltonian -- a paradigmatic system of disordered, all-to-all interacting fermions that has been designed as a phenomenological description of quantum critical regions. We drive the system far away from equilibrium by performing a global quench, and track how its ensemble average relaxes to a steady state. Employing state-of-the-art numerical simulations for the exact evolution, we reveal that the disorder-averaged evolution of few-body observables, including the quantum Fisher information and low-order moments of local operators, exhibit within numerical resolution a universal equilibration process. Under a straightforward rescaling, data that correspond to different initial states collapse onto a universal curve, which can be well approximated by a Gaussian throughout large parts of the evolution. To reveal the physics behind this process, we formulate a general theoretical framework based on the Novikov--Furutsu theorem. This framework extracts the disorder-averaged dynamics of a many-body system as an effective dissipative evolution, and can have applications beyond this work. The exact non-Markovian evolution of the SYK ensemble is very well captured by Bourret--Markov approximations, which contrary to common lore become justified thanks to the extreme chaoticity of the system, and universality is revealed in a spectral analysis of the corresponding Liouvillian.
翻訳日:2023-03-20 00:38:13 公開日:2022-04-22
# 高エネルギー相互作用への量子情報アプローチ

Quantum information approach to high energy interactions ( http://arxiv.org/abs/2108.08792v3 )

ライセンス: Link先を確認
Dmitri E. Kharzeev(参考訳) 高エネルギーハドロン相互作用は、光円錐波関数に存在する量子の絡み合いを無視する確率的パルトンモデルを用いて一般的に記述される。 ここで、高エネルギー相互作用はハドロン波動関数の瞬間的なスナップショットをサンプリングするため、異なるフォック状態の波動関数の位相は測定できないため、光円錐密度行列はこれらの観測不能な位相上で追跡する必要があると論じる。 このトレースを対応する$U(1)$ Haar積分測度で実行すると、密度行列の「ハールスクランブル」と、絡み合いエントロピーの出現につながる。 この絡み合いエントロピーはフォック状態の確率分布によって決定され、したがってパートン構造関数に直接関係している。 先に述べたように、大きな速さで、ハドロン状態は最大に絡み合い、エントロピーは qcd 進化方程式に従って $s_e \sim \eta$ となる。 フォック状態成分の位相が制御された場合、例えばスピン非対称性の測定では、ハール平均は実行できず、確率的なパルトン記述が壊れる。

High energy hadron interactions are commonly described by using a probabilistic parton model that ignores quantum entanglement present in the light-cone wave functions. Here we argue that since a high energy interaction samples an instant snapshot of the hadron wave function, the phases of different Fock state wave functions cannot be measured - therefore the light-cone density matrix has to be traced over these unobservable phases. Performing this trace with the corresponding $U(1)$ Haar integration measure leads to "Haar scrambling" of the density matrix, and to the emergence of entanglement entropy. This entanglement entropy is determined by the Fock state probability distribution, and is thus directly related to the parton structure functions. As proposed earlier, at large rapidity $\eta$ the hadron state becomes maximally entangled, and the entanglement entropy is $S_E \sim \eta$ according to QCD evolution equations. When the phases of Fock state components are controlled, for example in spin asymmetry measurements, the Haar average cannot be performed, and the probabilistic parton description breaks down.
翻訳日:2023-03-18 01:07:52 公開日:2022-04-22
# ニューラルネットワークによる高速超伝導量子力学のモニタリング

Monitoring fast superconducting qubit dynamics using a neural network ( http://arxiv.org/abs/2108.12023v2 )

ライセンス: Link先を確認
G. Koolstra, N. Stevenson, S. Barzili, L. Burns, K. Siva, S. Greenfield, W. Livingston, A. Hashim, R. K. Naik, J. M. Kreikebaum, K. P. O'Brien, D. I. Santiago, J. Dressel, I. Siddiqi(参考訳) 超伝導量子ビットの弱い測定は、量子ビット状態と弱い相関を持つノイズ電圧信号を生成する。 これらのノイズ信号から個々の量子軌道を復元するには、従来の手法では遅い量子ビットのダイナミクスとキャリブレーション実験の形での実質的な事前情報が必要である。 急速量子ビットダイナミクス(例えば量子ゲート中)のモニタリングには、事前情報に対する需要が増大するより複雑な方法が必要である。 本稿では,Long-Short Term Memory (LSTM) 人工ニューラルネットワークを用いて,高速に駆動される超伝導量子軌道を精度良く追跡する方法を実験的に示す。 トレーニングの前提は少ないが、LSTMは検出帯域が有限であるために、qubit-readoutの共振器相関を含む軌道を生成する。 固定駆動の理論と一致する回転測定固有状態と測定率の低減に加えて、訓練されたLSTMは、高速変調で未知駆動の進化を正しく再構築する。 本研究は,量子ゲート内のコヒーレント誤差の診断など,高速あるいは初期不明な量子ビットダイナミクスを用いた弱測定の新たな応用を可能にする。

Weak measurements of a superconducting qubit produce noisy voltage signals that are weakly correlated with the qubit state. To recover individual quantum trajectories from these noisy signals, traditional methods require slow qubit dynamics and substantial prior information in the form of calibration experiments. Monitoring rapid qubit dynamics, e.g. during quantum gates, requires more complicated methods with increased demand for prior information. Here, we experimentally demonstrate an alternative method for accurately tracking rapidly driven superconducting qubit trajectories that uses a Long-Short Term Memory (LSTM) artificial neural network with minimal prior information. Despite few training assumptions, the LSTM produces trajectories that include qubit-readout resonator correlations due to a finite detection bandwidth. In addition to revealing rotated measurement eigenstates and a reduced measurement rate in agreement with theory for a fixed drive, the trained LSTM also correctly reconstructs evolution for an unknown drive with rapid modulation. Our work enables new applications of weak measurements with faster or initially unknown qubit dynamics, such as the diagnosis of coherent errors in quantum gates.
翻訳日:2023-03-17 02:58:19 公開日:2022-04-22
# mc-qtaim:分子分析の原子を純粋電子系を超えて拡張するための枠組み

The MC-QTAIM: A framework for extending the atoms in molecules analysis beyond purely electronic systems ( http://arxiv.org/abs/2109.15008v3 )

ライセンス: Link先を確認
Shant Shahbazian(参考訳) 分子中の原子の量子論(QTAIM)は、AIMを同定し、実空間の原子盆地への分子の分配を通じて相互作用を定量化するために用いられ、電子を量子粒子として、核をクランプされた点電荷として、純粋電子系に限られる。 QTAIMの拡張版は、多成分QTAIM(MC-QTAIM)と呼ばれ、この境界をバイパスし、電子がエキゾチックAIMと結合を解析するための新しい扉を開くかもしれない複数の量子粒子からなる系のAIMを同定し、それらの相互作用を定量化することができる。 この貢献では、バダー予想 (bader conjecture, bc) と拡張バダー予想 (extended bader conjecture, ebc) と呼ばれる2つの予想が、qtaim と mc-qtaim の文脈における分子の実空間分割の基礎として提案されている。 クォーク、核子、ミューオンや陽電子のような素粒子からなる様々な数体量子系に関する文献調査も、これら全ての多様な系にクラスター化の曖昧なケースが存在するという事実を解き明かしている。 これらのクラスター系は、成分に関係なく、量子粒子の非晶質混合物ではなく、ある種の原子からなる分子であるかのように振る舞う。 ミューオニクスと陽電子分子の計算研究の場合、これらの系のAIM構造はEBCによってよく捕獲されている。 原子盆地の同定以外にも、QTAIMとMC-QTAIMはともに、量子可観測体の分子予測値からのシェアであるAIMに特性を持つ。 観測可能な平均値からのシェアが原子盆地に起因する可能性があるだけでなく、各盆地特性の変動も定量化可能であることが示されている。

The quantum theory of atoms in molecules, QTAIM, is employed to identify AIM and quantify their interactions through the partitioning of molecule into atomic basins in the real space and it is confined only to the purely electronic systems composed of electrons as quantum particles and the nuclei as clamped point charges. The extended version of the QTAIM, called the multi-component QTAIM, MC-QTAIM, bypasses this border and makes it possible to identify AIM and quantify their interactions in systems composed of multiple quantum particles that electrons may or may not be one of their components opening a new door for the analysis of the exotic AIM and bonds. In this contribution, two conjectures, called Bader conjecture, BC, and extended Bader conjecture, EBC, are proposed as the cornerstones of the real-space partitioning of a molecule into atomic basins within the context of the QTAIM and the MC-QTAIM, respectively. A literature survey on various few-body quantum systems composed of quarks, nucleons, and elementary particles like muons and positrons is also done unraveling the fact that in all these diverse systems there are unambiguous cases of clusterizations. These clustered systems, irrespective to their components, behave as if they are molecules composed of some kind of atoms, instead of being an amorphous mixture of quantum particles. In the case of the muonic and the positronic molecules computational studies reveal that the AIM structures of these systems are well-captured by the EBC. Beyond identifying atomic basins, both QTAIM and MC-QTAIM attribute properties to AIM, which is their share from the molecular expectation values of quantum observables. It is demonstrated that not only the share from the average value of an observable may be attributed to an atomic basin, but also the fluctuation of each basin property is also quantifiable.
翻訳日:2023-03-12 23:09:35 公開日:2022-04-22
# 臨界マッチゲートテンソルネットワークの境界理論

Boundary theories of critical matchgate tensor networks ( http://arxiv.org/abs/2110.02972v2 )

ライセンス: Link先を確認
Alexander Jahn, Marek Gluza, Charlotte Verhoeven, Sukhbinder Singh, Jens Eisert(参考訳) AdS/CFT対応の重要な側面は、双曲格子上のテンソルネットワークモデルの観点から捉えることができる。 matchgate制約を満たすテンソルについては、以前、サイト平均基底状態特性が翻訳不変臨界イジングモデルと一致する不規則境界状態を生成することが示されている。 本研究では,地中および低エネルギー励起状態が平均値のないマッチゲートアンサッツで正確に表現される臨界イジングモデルを一般化した無秩序な局所ハミルトニアンを導出した。 これらのハミルトニアンは双曲格子の層に基づく解析玩具モデルによって捕獲された多次元準周期対称性を示し,臨界イジングモデルの共形対称性を制御的に破ることを示した。 我々は、不規則モデルと翻訳不変モデルの間の基底および低エネルギー励起状態の相関関数を直接同定し、前者が大きな結合次元の極限において後者に近づくという数値的な証拠を与える。 これにより、正則双曲型タイリング上のテンソルネットワークが共形場の理論の研究に有効なツールとして確立される。 さらに, 境界励起状態に対応するバルクパラメータの数値プローブは, 正規双曲幾何学と臨界境界状態との間のテンソルネットワークバルク境界辞書への第一歩となる。

Key aspects of the AdS/CFT correspondence can be captured in terms of tensor network models on hyperbolic lattices. For tensors fulfilling the matchgate constraint, these have previously been shown to produce disordered boundary states whose site-averaged ground state properties match the translation-invariant critical Ising model. In this work, we substantially sharpen this relationship by deriving disordered local Hamiltonians generalizing the critical Ising model whose ground and low-energy excited states are accurately represented by the matchgate ansatz without any averaging. We show that these Hamiltonians exhibit multi-scale quasiperiodic symmetries captured by an analytical toy model based on layers of the hyperbolic lattice, breaking the conformal symmetries of the critical Ising model in a controlled manner. We provide a direct identification of correlation functions of ground and low-energy excited states between the disordered and translation-invariant models and give numerical evidence that the former approaches the latter in the large bond dimension limit. This establishes tensor networks on regular hyperbolic tilings as an effective tool for the study of conformal field theories. Furthermore, our numerical probes of the bulk parameters corresponding to boundary excited states constitute a first step towards a tensor network bulk-boundary dictionary between regular hyperbolic geometries and critical boundary states.
翻訳日:2023-03-12 08:00:51 公開日:2022-04-22
# 量子アニーリングと遺伝的アルゴリズムを用いたEV充電ステーション配置のための最適ハイブリッドアルゴリズム

Towards an Optimal Hybrid Algorithm for EV Charging Stations Placement using Quantum Annealing and Genetic Algorithms ( http://arxiv.org/abs/2111.01622v3 )

ライセンス: Link先を確認
Aman Chandra, Jitesh Lalwani and Babita Jajodia(参考訳) 量子アニーリング(Quantum Annealing)は、D-Wave Systemsの成功により最近利用が急増した最適化問題の解法である。 本稿では、電気自動車(EV)充電器の設置コストと、世界中の電気自動車の需要急増を考えると、EVCP(EVCP)問題を解決するための優れたヒューリスティックな方法を見つけることを目的とする。 同じ問題ステートメントをグリッド内の任意のエンティティの最適配置に一般化することもでき、さらなる用途で探索することができる。 最後に,量子アニーリングと遺伝的アルゴリズムを組み合わせた新しいヒューリスティックアルゴリズムを提案する。 提案されたハイブリッドアプローチは、量子アニールの結果によって遺伝的アルゴリズムをシード化する。 実験結果から,本手法はサンプルEVCPデータセット上でのバニラ量子アニールと比較して,POI(Points of Interest)からの最小距離を42.89 %$に削減することがわかった。

Quantum Annealing is a heuristic for solving optimization problems that have seen a recent surge in usage owing to the success of D-Wave Systems. This paper aims to find a good heuristic for solving the Electric Vehicle Charger Placement (EVCP) problem, a problem that stands to be very important given the costs of setting up an electric vehicle (EV) charger and the expected surge in electric vehicles across the world. The same problem statement can also be generalized to the optimal placement of any entity in a grid and can be explored for further uses. Finally, the authors introduce a novel heuristic combining Quantum Annealing and Genetic Algorithms to solve the problem. The proposed hybrid approach entails seeding the genetic algorithms with the results of quantum annealing. Experimental results show that this method decreases the minimum distance from Points of Interest (POI) by $42.89\%$ compared to vanilla quantum annealing over the sample EVCP datasets.
翻訳日:2023-03-09 08:48:39 公開日:2022-04-22
# 空間不均一な3状態量子ウォークの局在

Localization of space-inhomogeneous three-state quantum walks ( http://arxiv.org/abs/2111.14300v3 )

ライセンス: Link先を確認
Chusei Kiumi(参考訳) 固有値の存在に関する数学的解析は、量子ウォークの極めて重要な性質である局所化の発生と等価であるため、不可欠である。 我々は,空間不均質な$n$-状態量子ウォーキングのための伝達行列を用いて,自己ループが$n-2$という1次元の固有値問題の解法を構築した(量子inf)。 プロセス20(5), 2021)。 本手法は, 2相の3状態量子ウォークの固有値問題において, 時間変化が負の部分, 正の部分, 原点で変化する1つの欠陥をもつ必要十分条件を明らかにする。

Mathematical analysis on the existence of eigenvalues is essential because it is equivalent to the occurrence of localization, which is an exceptionally crucial property of quantum walks. We construct the method for the eigenvalue problem via the transfer matrix for space-inhomogeneous $n$-state quantum walks in one dimension with $n-2$ self-loops, which is an extension of the technique in a previous study (Quantum Inf. Process 20(5), 2021). This method reveals the necessary and sufficient condition for the eigenvalue problem of a two-phase three-state quantum walk with one defect whose time evolution varies in the negative part, positive part, and at the origin.
翻訳日:2023-03-06 09:56:52 公開日:2022-04-22
# 量子系における多体輸送のアプローチ:過渡的状態から定常状態へ

A many-body approach to transport in quantum systems: From the transient regime to the stationary state ( http://arxiv.org/abs/2201.02646v2 )

ライセンス: Link先を確認
M. Ridley, N. W. Talarico, D. Karlsson, N. Lo Gullo, and R. Tuovinen(参考訳) ナノシステムにおける時間依存相関量子輸送の研究における最も多様な理論的アプローチの1つ、非平衡グリーン関数(negf)形式について概説する。 この形式においては、同一の足場、粒子間相互作用、外部駆動および/または摂動を扱い、浴槽に自由度の(個々に)連続体と結合することができる。 量子系における輸送理論の歴史的概要の後、我々は量子輸送に対するNEGFアプローチの現代的導入を示す。 本稿では, ダイアグラム法による粒子間相互作用の包摂と, 浴槽結合を非摂動的に考慮した, いわゆる埋込み・埋込み技術の利用について論じる。 非相互作用極限や定常極限のような様々な極限において、NEGF形式が特別な場合として量子輸送においてよく知られた公式にどのようにエレガントに還元するかを示す。 次に、粒子電流とエネルギー電流の両方について、一般に非平衡輸送について論じる。 時間依存駆動(ポンププローブのシナリオと駆動量子システムを含む)の存在下では、過渡的かつ漸近的な振る舞いと、NEGFを用いて平衡外システムに関する情報を推測する方法について議論する。 例示として、モデルシステムは現実的なシステムへの道を開くのに十分一般的であると考えています。 これらの例は1次元と2次元の電子系、電子-フォノンカップリングを持つ系、トポロジカル超伝導体、電子-光子カップリングが関係する光応答性分子接合を含む。

We review one of the most versatile theoretical approaches to the study of time-dependent correlated quantum transport in nano-systems: the non-equilibrium Green's function (NEGF) formalism. Within this formalism, one can treat, on the same footing, inter-particle interactions, external drives and/or perturbations, and coupling to baths with a (piece-wise) continuum set of degrees of freedom. After a historical overview on the theory of transport in quantum systems, we present a modern introduction of the NEGF approach to quantum transport. We discuss the inclusion of inter-particle interactions using diagrammatic techniques, and the use of the so-called embedding and inbedding techniques which take the bath couplings into account non-perturbatively. In various limits, such as the non-interacting limit and the steady-state limit, we then show how the NEGF formalism elegantly reduces to well-known formulae in quantum transport as special cases. We then discuss non-equilibrium transport in general, for both particle and energy currents. Under the presence of a time-dependent drive - encompassing pump-probe scenarios as well as driven quantum systems - we discuss the transient as well as asymptotic behavior, and also how to use NEGF to infer information on the out-of-equilibrium system. As illustrative examples, we consider model systems general enough to pave the way to realistic systems. These examples encompass one- and two-dimensional electronic systems, systems with electron-phonon couplings, topological superconductors, and optically responsive molecular junctions where electron-photon couplings are relevant.
翻訳日:2023-03-02 01:20:49 公開日:2022-04-22
# 「私はそれを維持できない。」 Voat.coニュースアグリゲータのデータ

"I Can't Keep It Up." A Dataset from the Defunct Voat.co News Aggregator ( http://arxiv.org/abs/2201.05933v3 )

ライセンス: Link先を確認
Amin Mekacher, Antonis Papasavva(参考訳) Voat.coは、2020年12月25日に閉鎖されたニュース集約サイトである。 サイトは問題のある歴史を持ち、様々な禁止されたサブredditをホストしたことで知られている。 本稿では、7.1Kサブバース(Voatのsubredditに相当する)で1,3Kユーザから2,3M以上の投稿と16.2Mコメントを投稿したデータセットを提案する。 我々のデータセットはVoatの生涯をカバーしており、2013年11月8日から、創業日である2014年4月、終了日(2020年12月25日)まで、開発期間をカバーしています。 この研究は、私たちの知る限りでは最大かつ最も完全なvoatデータセットを提供します。 このデータセットのリリースとともに、プラットフォーム上での投稿アクティビティと日々のユーザおよびサブバースの登録に関する予備的な分析を行い、データセットに関心のある研究者が何を期待すべきかを把握できるようにします。 私たちのデータは、ユーザーがプラットフォーム上で共有するリンクを分析し、多くのコミュニティが毎日の議論のために、Breitbartや GatewayPunditといった代替のニュースメディアに依存していることから、誤ったニュース拡散研究に役立ちます。 さらに,ユーザインタラクションのネットワーク分析を行い,多くのユーザが物語の関心事以外のサブバースと対話することを好まないことを見出し,偏光やエコーチャンバーに注目する研究者にとって有用であると考えられる。 また、VoatはRedditコミュニティの移行を禁止したプラットフォームの1つなので、私たちのデータセットがデプラットフォームの研究を動機付け、支援してくれると確信しています。 最後に、多くの憎悪と共謀的なコミュニティがVoatで非常に人気があり、毒性、陰謀論、ソーシャルネットワークのクロスプラットフォーム研究、自然言語処理に焦点をあてた研究者にとって、我々の研究は価値のあるものとなった。

Voat.co was a news aggregator website that shut down on December 25, 2020. The site had a troubled history and was known for hosting various banned subreddits. This paper presents a dataset with over 2.3M submissions and 16.2M comments posted from 113K users in 7.1K subverses (the equivalent of subreddit for Voat). Our dataset covers the whole lifetime of Voat, from its developing period starting on November 8, 2013, the day it was founded, April 2014, up until the day it shut down (December 25, 2020). This work presents the largest and most complete publicly available Voat dataset, to the best of our knowledge. Along with the release of this dataset, we present a preliminary analysis covering posting activity and daily user and subverse registration on the platform so that researchers interested in our dataset can know what to expect. Our data may prove helpful to false news dissemination studies as we analyze the links users share on the platform, finding that many communities rely on alternative news press, like Breitbart and GatewayPundit, for their daily discussions. In addition, we perform network analysis on user interactions finding that many users prefer not to interact with subverses outside their narrative interests, which could be helpful to researchers focusing on polarization and echo chambers. Also, since Voat was one of the platforms banned Reddit communities migrated to, we are confident our dataset will motivate and assist researchers studying deplatforming. Finally, many hateful and conspiratorial communities were very popular on Voat, which makes our work valuable for researchers focusing on toxicity, conspiracy theories, cross-platform studies of social networks, and natural language processing.
翻訳日:2023-03-01 02:32:32 公開日:2022-04-22
# ブロッホ球面上の量子ウォーク

Quantum walk on the Bloch sphere ( http://arxiv.org/abs/2201.11386v2 )

ライセンス: Link先を確認
Liwei Duan(参考訳) ブロッホ球面上の離散時間量子ウォークを実装するためのスキームが提案され、これは SU(2) 群と密接に関連している。 スピンクラスターはウォーカーとして機能するが、ブロッホ球面上の位置はスピンコヒーレント状態によって記述される。 スピンクラスターと相互作用する追加のスピンは、スピンクラスターの回転を決定するコインの役割を担っている。 ウィグナー関数は、確率分布と標準偏差が達成されたブロッホ球面上のウォーカーの動きを可視化するために計算される。 ブロッホ球上の量子ウォークの2次的な分散の増大を確認した。 円上の理想的な量子ウォークと比較して、ブロッホ球面上のウォーカー状態は一般に非直交的であり、スピンクラスター内のスピンの数を増やすことで欠点を排除できる。

A scheme for implementing the discrete-time quantum walk on the Bloch sphere is proposed, which is closely related to the SU(2) group. A spin cluster serves as the walker, whereas its location on the Bloch sphere is described by the spin coherent state. An additional spin that interacts with the spin cluster plays the role of a coin, whose state determines the rotation of the spin cluster. The Wigner function is calculated to visualize the movement of the walker on the Bloch sphere, with which the probability distribution and the standard deviation are also achieved. The quadratic enhancement of variance for the quantum walk on the Bloch sphere is confirmed. Compared to the ideal quantum walk on a circle, the walker's states on the Bloch sphere are generally nonorthogonal, whose drawbacks can be eliminated by increasing the number of spins in the spin cluster.
翻訳日:2023-02-27 18:29:12 公開日:2022-04-22
# モニタリングによる絡み合いエントロピーとサンプリング複雑性

Monitoring-induced Entanglement Entropy and Sampling Complexity ( http://arxiv.org/abs/2201.12672v2 )

ライセンス: Link先を確認
Mathias Van Regemortel, Oles Shtanko, Luis Pedro Garcia-Pintos, Abhinav Deshpande, Hossein Dehghani, Alexey V. Gorshkov, Mohammad Hafezi(参考訳) オープン量子システムのダイナミクスは一般に、環境への情報の損失を記述するマスター方程式によって記述される。 非結合エミッタの単純なモデルを用いて、この情報の回復が、減衰クリックを登録するために適用される監視方式に依存するかを説明する。 この場合、散逸動力学は純粋状態確率軌道によって記述され、同じマスター方程式の異なる解法を調べる。 より正確には、線形光干渉計による自発光子からのクリック列の登録が、軌道状態の絡み合いをいかに引き起こすかを示す。 このモデルは単一光子エミッタの配列で構成されているため、フォック状態ボソンサンプリングと直接等価性を示し、量子ジャンプの結果をサンプリングするハードネスと軌道絡み合いのスケーリングをリンクする。

The dynamics of open quantum systems is generally described by a master equation, which describes the loss of information into the environment. By using a simple model of uncoupled emitters, we illustrate how the recovery of this information depends on the monitoring scheme applied to register the decay clicks. The dissipative dynamics, in this case, is described by pure-state stochastic trajectories and we examine different unravelings of the same master equation. More precisely, we demonstrate how registering the sequence of clicks from spontaneously emitted photons through a linear optical interferometer induces entanglement in the trajectory states. Since this model consists of an array of single-photon emitters, we show a direct equivalence with Fock-state boson sampling and link the hardness of sampling the outcomes of the quantum jumps with the scaling of trajectory entanglement.
翻訳日:2023-02-27 09:01:51 公開日:2022-04-22
# モデルロドプシンのステアディ状態光異性化量子収率:ウェーブパケットダイナミクスからの洞察?

Steady State Photoisomerization Quantum Yield of Model Rhodopsin: Insights from Wavepacket Dynamics? ( http://arxiv.org/abs/2202.00533v2 )

ライセンス: Link先を確認
Chern Chuang and Paul Brumer(参考訳) 熱環境に結合した2状態2モードモデルに基づいてロドプシン中の網膜色素の非平衡定常状態 \textit{cis-trans}光異性化をシミュレートする。 不均一に拡張された系内の系統的傾向を解析することにより、定常状態反応量子収率 (QY) が系の交差点上の過剰エネルギーと強く相関していることが、短時間の動的ウェーブパレット図の予測と一致することが分かる。 しかし、QYのシステム環境相互作用への非自明な依存は、純粋な動画像が不十分であり、反応が終わる前に環境によって引き起こされる内部エネルギーの再分配が生じることを示している。 これらの結果は、光異性化反応の適切な処理、特に高いQYは、典型的には文献で一般的に用いられ、過渡的な状態にのみ適する動的ウェーブパレット運動を超えてエネルギーの再分配と散逸を考慮しなければならないことを示唆している。

We simulate the nonequilibrium steady state \textit{cis-trans} photoisomerization of retinal chromophore in rhodopsin based on a two-state-two-mode model coupled to a thermal environment. By analyzing the systematic trends within an inhomogeneously broadened ensemble of systems, we find that the steady state reaction quantum yield (QY) correlates strongly with the excess energy above the crossing point of the system, in agreement with the prediction of the short time dynamical wavepacket picture. However, the nontrivial dependence of the QY on the system-environment interaction indicates that a pure dynamical picture is insufficient and that environment-induced partial internal energy redistribution takes place before the reaction concludes. These results imply that a proper treatment of the photoisomerization reaction, particularly its high QY, must account for the redistribution and dissipation of energy beyond the dynamical wavepacket motion that is typically employed in the literature and that is appropriate only in the transient regime.
翻訳日:2023-02-27 07:11:52 公開日:2022-04-22
# 回転バイアス弱測定による高感度屈折率センサ

Ultrasensitive refractive index sensor with rotatory biased weak measurement ( http://arxiv.org/abs/2202.09746v2 )

ライセンス: Link先を確認
Chongqi Zhou, Yang Xu, Xiaonan Zhang, Zhangyan Li, Tian Guan, Yonghong He, Yanhong Ji(参考訳) 全反射構造に対する屈折率センサの感度と分解能を著しく向上するために, 改良された弱測定法である回転バイアス弱測定法を提案する。 この方法は、選択後の手順で追加位相を導入し、スペクトル分布において消滅点を生成する。 バイアス後選択により結合強度が小さくなり、位相感度と屈折率感度が向上する。 回転バイアス弱測定では, 標準弱測定では1644nm/RIUに対して13605nm/RIUの屈折率感度が向上した。 感度の異なるセンサの性能を解析した結果,センサの最適屈折率分解能は感度とともに増加することがわかった。 本研究では,全反射構造上のRIUの最適屈折率分解能を4\times10^{-7}$ RIUで示す。 家兎の抗マウスIgGおよびマウスIgG結合反応実験により,本システムは広範囲のIgG濃度に対して高い応答を示し,検出限界は15ng/mLであった。 この研究の改善は、弱い測定値を持つ他の光学センサの最適化に役立つ。

A modified weak measurement scheme, rotatory biased weak measurement, is proposed to significantly improve the sensitivity and resolution of the refractive index sensor on a total reflection structure. This method introduces an additional phase in the post-selected procedure and generates an extinction point in the spectrum distribution. The biased post-selection makes smaller coupling strength available, which leads to an enhancement of phase sensitivity and refractive index sensitivity. In rotatory biased weak measurement, we achieve an enhanced refractive index sensitivity of 13605 nm/RIU compared to 1644 nm/RIU in standard weak measurement. The performance of sensors with different sensitivity is analyzed, and we find the optimal refractive index resolution of sensors increases with sensitivity. In this work, we demonstrate an optimal refractive index resolution of $4\times10^{-7}$ RIU on a total reflection structure. The rabbit anti-mouse IgG and mouse IgG binding reaction experiments demonstrate that our system has a high response to the concentration of IgG in a wide range and the limit of detection is 15 ng/mL. The improvements in this work are helpful to the optimizations of other optical sensors with weak measurement.
翻訳日:2023-02-24 10:03:52 公開日:2022-04-22
# ワンウェイ街路を2ウェイ街路に転換して交通ネットワークの効率化と車両距離の低減

Converting One-Way Streets to Two-Way Streets to Improve Transportation Network Efficiency and Reduce Vehicle Distance Traveled ( http://arxiv.org/abs/2204.10944v1 )

ライセンス: Link先を確認
Geoff Boeing, William Riggs(参考訳) 計画学者は、一方通行路を双方向に変換する経済的、安全、社会的利益を見出している。 車両の自動化、電化、配車サービスの時代において、車種変換が車種距離に与える影響についてはあまり分かっていない。 カリフォルニア州サンフランシスコでこのような変換をシミュレートします。 現在のストリート・ネットワークの平均都市内移動距離は、年間2700万kmの余剰交通量に対応する2つの道路全体よりも約1.7%長いことが判明した。 交通技術が発展するにつれて、プランナーは、地域政策とストリートデザインを持続可能性や他の社会的目標と整合させるために、ネットワーク効率の異なる側面を考慮する必要がある。

Planning scholars have identified economic, safety, and social benefits of converting one-way streets to two-way. Less is known about how conversions could impact vehicular distances traveled - of growing relevance in an era of fleet automation, electrification, and ride-hailing. We simulate such a conversion in San Francisco, California. We find that its current street network's average intra-city trip is about 1.7% longer than it would be with all two-way streets, corresponding to 27 million kilometers of annual surplus travel. As transportation technologies evolve, planners must consider different facets of network efficiency to align local policy and street design with sustainability and other societal goals.
翻訳日:2023-02-19 16:26:02 公開日:2022-04-22
# 有料会員制と外部リンクは、youtubeビデオのオルタナティブで過激なユーザーを惹きつける

Subscriptions and external links help drive resentful users to alternative and extremist YouTube videos ( http://arxiv.org/abs/2204.10921v1 )

ライセンス: Link先を確認
Annie Y. Chen, Brendan Nyhan, Jason Reifler, Ronald E. Robertson, Christo Wilson(参考訳) オンラインプラットフォームは潜在的に有害なコンテンツの消費を促進するか? YouTubeのアルゴリズムが過激派ビデオのレコメンデーションで「ラビットホール」を下ろすという懸念が広まっているが、この予想を支持する体系的な証拠はほとんど存在しない。 代表的なサンプル (n=1,181) から募集された参加者によるペア行動と調査データを用いて,youtube のオルタナティブおよび過激なチャンネルビデオへの露出は,性別や人種の不満が高い少数のグループに強く集中していることを示した。 これらの視聴者は通常これらのチャンネルを購読し(YouTubeを頻繁に推薦する)、外部リンクをフォローすることが多い。 ウサギの穴」の物語とは対照的に、非加入者は代替チャンネルや過激派チャンネルからの推奨ビデオはめったにない。

Do online platforms facilitate the consumption of potentially harmful content? Despite widespread concerns that YouTube's algorithms send people down "rabbit holes" with recommendations to extremist videos, little systematic evidence exists to support this conjecture. Using paired behavioral and survey data provided by participants recruited from a representative sample (n=1,181), we show that exposure to alternative and extremist channel videos on YouTube is heavily concentrated among a small group of people with high prior levels of gender and racial resentment. These viewers typically subscribe to these channels (causing YouTube to recommend their videos more often) and often follow external links to them. Contrary to the "rabbit holes" narrative, non-subscribers are rarely recommended videos from alternative and extremist channels and seldom follow such recommendations when offered.
翻訳日:2023-02-19 16:25:50 公開日:2022-04-22
# 2光子サブトラクションによる圧縮状態の多段階2コピー蒸留

Multi-step two-copy distillation of squeezed states via two photon subtraction ( http://arxiv.org/abs/2204.07192v2 )

ライセンス: Link先を確認
Stephan Grebien, Julian Goettsch, Boris Hage, Jaromir Fiurasek, and Roman Schnabel(参考訳) 圧縮された光の状態は重力波観測装置の感度を改善しており、量子暗号やフォトニック量子コンピュータの非古典的資源である。 圧縮係数が高ければ高いほど、量子的優位性は高くなる。 圧縮光のほとんど全ての応用はマルチパス光干渉を必要とし、避けられない欠陥は光学的損失をもたらし、圧縮係数は劣化し、量子的優位性も低下する。 ここでは初めて、ガウス光子損失に苦しむガウス状態の蒸留を実験的に実証した。 デモはすでに2つの蒸留工程を要している。 最初のステップでは、2つの光子の減量により、圧縮係数を2.4dBから2.8dBに改善した。 2番目のステップでは、ガウス化プロトコルによって2.8dBから3.4dBに値が改善された。 8ポートの平衡ホモダイン検出器とデータ後処理によって異なるタイミングで測定されたデータに基づいて実現された。 蒸留工程は、追加のハードウェアを使わずに、より長いデータサンプリング時間で増やすことができる。 本稿では,量子暗号やフォトニック量子コンピュータへの応用について論じる。

Squeezed states of light have been improving the sensitivity of gravitational-wave observatories and are nonclassical resources of quantum cryptography and envisioned photonic quantum computers. The higher the squeeze factor is, the higher is the quantum advantage. Almost all applications of squeezed light require multi-path optical interference, whose unavoidable imperfections introduce optical loss, degrade the squeeze factor, as well as the quantum advantage. Here, for the first time, we experimentally demonstrate the distillation of Gaussian squeezed states that suffered from Gaussian photon loss. Our demonstration already involves two distillation steps. The first step improved the squeeze factor from 2.4 dB to 2.8 dB by the subtraction of two photons. The second step improved the value from 2.8 dB to 3.4 dB by a Gaussification protocol. It was realised on data measured at different times via an 8-port balanced homodyne detector and via data post-processing. The number of distillation steps can be increased by longer data sampling times, without additional hardware. We propose and discuss the application to quantum cryptography and photonic quantum computers.
翻訳日:2023-02-16 23:59:19 公開日:2022-04-22
# 進化的アルゴリズムのベンチマークと構成におけるアンダーサンプリングの影響分析

Analyzing the Impact of Undersampling on the Benchmarking and Configuration of Evolutionary Algorithms ( http://arxiv.org/abs/2204.09353v2 )

ライセンス: Link先を確認
Diederick Vermetten and Hao Wang and Manuel L\'opez-Iba\~nez and Carola Doerr and Thomas B\"ack(参考訳) 反復最適化ヒューリスティックの確率的性質は、本質的にノイズの多い性能測定につながる。 これらの測定はしばしば一度収集され、繰り返し使用されるので、収集されたサンプルの数はアルゴリズム比較の信頼性に大きな影響を与える。 限られたデータに基づいて意思決定を行う場合には注意が必要である。 特に,coco環境が提案する15のデフォルト値など,多くのベンチマーク研究で使用されているラン数は,よく知られた数値最適化ベンチマークでアルゴリズムを確実にランク付けするには不十分であることを示す。 さらに、アルゴリズムの自動設定の方法はサンプルサイズ不足に敏感である。 これにより、コンフィグレータはより優れた設定を探索しながら、‘ラッキー’だがパフォーマンスの悪い設定を選択することができる。 多くのコンフィグレータが行なっているように、平均的なパフォーマンス値に依存すると、検討された構成間の正確な比較を提供するために、大量の実行が必要になる。 一般的な統計検査は、ほとんどの場合状況を大幅に改善するが、必ずしも改善しない。 iraceが行ったように,統計的レースを用いてラン数を動的に調整した場合でも,20%以上のパフォーマンス損失の例を示す。 本研究は,パフォーマンス値の統計的分布を適切に考慮することの重要性を示唆する。

The stochastic nature of iterative optimization heuristics leads to inherently noisy performance measurements. Since these measurements are often gathered once and then used repeatedly, the number of collected samples will have a significant impact on the reliability of algorithm comparisons. We show that care should be taken when making decisions based on limited data. Particularly, we show that the number of runs used in many benchmarking studies, e.g., the default value of 15 suggested by the COCO environment, can be insufficient to reliably rank algorithms on well-known numerical optimization benchmarks. Additionally, methods for automated algorithm configuration are sensitive to insufficient sample sizes. This may result in the configurator choosing a `lucky' but poor-performing configuration despite exploring better ones. We show that relying on mean performance values, as many configurators do, can require a large number of runs to provide accurate comparisons between the considered configurations. Common statistical tests can greatly improve the situation in most cases but not always. We show examples of performance losses of more than 20%, even when using statistical races to dynamically adjust the number of runs, as done by irace. Our results underline the importance of appropriately considering the statistical distribution of performance values.
翻訳日:2023-02-16 06:20:23 公開日:2022-04-22
# 光ポンピング原子スピンコマグネトロンを用いたMEGセンシングのための核スピン自己補償システム

Nuclear spin self compensation system for moving MEG sensing with optical pumped atomic spin co-magnetometer ( http://arxiv.org/abs/2204.10481v1 )

ライセンス: Link先を確認
Yao Chen, Yintao Ma, Mingzhi Yu, Yanbin Wang, Ning Zhang, Libo Zhao, and Zhuangde Jiang(参考訳) 脳の磁場を記録することで頭が自由に動くことができる人の移動メグを記録することは、近年ホットな話題となっている。 従来、原子磁気センサはMEGの移動記録に使われ、背景磁場補償には大きな補償コイルシステムが使用されている。 ここでは,光ポンピング原子磁気センサ(OPACM)によるMEG記録の移動の可能性について述べる。 OPACMでは、高速に変化するMEGs信号が記録される間、超偏極核スピンは背景変動低周波磁場ノイズを遮蔽する磁場を生成することができる。 核スピンは自動磁場シールドのように見え、変動する背景磁場ノイズを動的に補償する。 本稿では, 磁場補償法を理論的に検討し, 電子スピン磁場, 核スピン磁場, 保持磁場などのパラメータと密接に関連していることを見出した。 モデルに基づいて、磁場補償を最適化することができる。 また、磁場の異なる周波数に対するOPACMの磁場補償と応答を実験的に検討した。 我々は,OPACMが1Hz以下の低周波磁界の明確な抑制とMEGの帯域周囲の磁場の応答を保有していることを示す。 磁場感度は3ft/hz^{1/2}$である。 最後に,OPACMをMEGの移動記録に利用してシミュレーションを行う。 比較として,MEGs記録を移動させる従来の補償システムは,寸法が2m程度のコイルに基づいており,寸法は2mm程度である。 さらに、我々の補償システムはその場で機能し、お互いに影響を与えない。

Recording the moving MEGs of a person in which a person's head could move freely as we record the brain's magnetic field is a hot topic in recent years. Traditionally, atomic magnetometers are utilized for moving MEGs recording and a large compensation coil system is utilized for background magnetic field compensation. Here we described a new potential candidate: an optically pumped atomic co-magnetometer(OPACM) for moving MEGs recording. In the OPACM, hyper-polarized nuclear spins could produce a magnetic field which will shield the background fluctuation low frequency magnetic field noise while the the fast changing MEGs signal could be recorded. The nuclear spins look like an automatic magnetic field shields and dynamically compensate the fluctuated background magnetic field noise. In this article, the magnetic field compensation is studied theoretically and we find that the compensation is closely related to several parameters such as the electron spin magnetic field, the nuclear spin magnetic field and the holding magnetic field. Based on the model, the magnetic field compensation could be optimized. We also experimentally studied the magnetic field compensation and the responses of the OPACM to different frequencies of magnetic field are measured. We show that the OPACM owns a clear suppression of low frequency magnetic field under 1Hz and response to magnetic field's frequencies around the band of the MEGs. Magnetic field sensitivity of $3fT/Hz^{1/2}$ has been achieved. Finally, we do a simulation for the OPACM as it is utilized for moving MEGs recording. For comparison, the traditional compensation system for moving MEGs recording is based on a coil which is around 2m in dimension while our compensation system is only 2mm in dimension. Moreover, our compensation system could work in situ and will not affect each other.
翻訳日:2023-02-16 01:14:31 公開日:2022-04-22
# 量子準同型暗号の合成と量子誤差補正の一般的な枠組み

A general framework for the composition of quantum homomorphic encryption \& quantum error correction ( http://arxiv.org/abs/2204.10471v1 )

ライセンス: Link先を確認
Yingkai Ouyang and Peter P. Rohde(参考訳) 量子力学の法則に基づくセキュリティを備えた、クラウドベースの汎用量子計算のための2つの本質的なプリミティブは、情報理論的なセキュリティと量子誤り訂正を伴う量子準同型暗号である。 前者はアウトソース量子計算の情報理論的なセキュリティを可能にし、後者はエラー発生時に信頼性が高くスケーラブルな量子計算を可能にする。 以前はこれらの材料は別々に考えられていた。 これら2つの要素が満たさなければならない群理論的要件を確立することにより、構成のための一般的な枠組みを提供する。 すなわち、量子誤差補正によって拡張された量子準同型暗号スキームは、その特性を量子準同型暗号および量子誤差補正スキームから直接継承することができる。 我々は,量子計算における離散および連続変数モデル,例えば,量子ビットモデルにおけるパウリキーや置換キー暗号,およびゴッテマン・キタエフ・プレスキル符号に基づく連続変数モデルにおける変位キー暗号に適用する。

Two essential primitives for universal, cloud-based quantum computation with security based on the laws of quantum mechanics, are quantum homomorphic encryption with information-theoretic security and quantum error correction. The former enables information-theoretic security of outsourced quantum computation, while the latter allows reliable and scalable quantum computations in the presence of errors. Previously these ingredients have been considered in isolation from one another. By establishing group-theoretic requirements that these two ingredients must satisfy, we provide a general framework for composing them. Namely, a quantum homomorphic encryption scheme enhanced with quantum error correction can directly inherit its properties from its constituent quantum homomorphic encryption and quantum error correction schemes. We apply our framework to both discrete- and continuous-variable models for quantum computation, such as Pauli-key and permutation-key encryptions in the qubit model, and displacement-key encryptions in a continuous-variable model based on Gottesman-Kitaev-Preskill codes.
翻訳日:2023-02-16 01:14:07 公開日:2022-04-22
# 局所状態同定のための二次擬似スペクトル

Quadratic pseudospectrum for identifying localized states ( http://arxiv.org/abs/2204.10450v1 )

ライセンス: Link先を確認
Alexander Cerjan, Terry A. Loring, Fredy Vides(参考訳) フォトニクスおよび凝縮物質における二次擬似スペクトルの有用性について検討する。 特に、二次擬似スペクトルは、不整合可観測体の合同近似スペクトルにおける「固有エラー」を最小化し、システムの計算複雑性を増大させないため、不整合可観測体のシステムに接近する方法を表す。 さらに、クリフォードと二次擬似スペクトルに関する重要な推定を導出する。 最後に,2次擬似スペクトルが局所的であることを証明し,擬似スペクトルが計算されている付近で系を乱すことによって生じる誤差の境界を導出する。

We examine the utility of the quadratic pseudospectrum in photonics and condensed matter. Specifically, the quadratic pseudospectrum represents a method for approaching systems with incompatible observables, as it both minimizes the "eigen-error" in the joint approximate spectrum of the incompatible observables and does not increase the system's computational complexity. Moreover, we derive an important estimate relating the Clifford and quadratic pseudospectra. Finally, we prove that the quadratic pseudospectrum is local, and derive the bounds on the errors that are incurred by truncating the system in the vicinity of where the pseudospectrum is being calculated.
翻訳日:2023-02-16 01:13:45 公開日:2022-04-22
# アクチニド薄膜の進歩 : 合成, 物性, 今後の展開

Advances in actinide thin films: synthesis, properties, and future directions ( http://arxiv.org/abs/2204.10444v1 )

ライセンス: Link先を確認
K. D. Vallejo, F. Kabir, N. Poudel, C. A. Marianetti, D. H. Hurley, P. J. Simmonds, C. A. Dennett, K. Gofryk(参考訳) アクチニド系化合物は5f電子の存在によりユニークな物理学を示し、多くの場合重要な技術材料として機能する。 アクチニド材料のターゲット薄膜合成は、個々の物理現象を研究するための高純度試料の生成に成功している。 これらの膜は、アクチニド金属や化合物の独特な電子配置、強い質量再正規化、核崩壊の研究を可能にした。 これらのフィルムの成長と、その熱物理学的、磁気的、トポロジカルな性質は、多くの薄膜系よりもはるかに少ないものの、様々な化学系で研究されてきた。 この相対的不足は、放射性物質の取り扱いに関する限られた原料の可用性と安全性の制約の結果である。 本稿では,アクチニド系薄膜の合成とキャラクタリゼーションに関する最近の研究を概説し,これらの材料の合成法とモデリング技術について述べる。 本研究では, ピロメタロジカル法, 溶液法, 蒸着法について概説する。 高品質のアクチニド薄膜やヘテロ構造デバイスへの道を構築するために, 最先端技術に注目した。

Actinide-based compounds exhibit unique physics due to the presence of 5f electrons, and serve in many cases as important technological materials. Targeted thin film synthesis of actinide materials has been successful in generating high-purity specimens in which to study individual physical phenomena. These films have enabled the study of the unique electron configuration, strong mass renormalization, and nuclear decay in actinide metals and compounds. The growth of these films, as well as their thermophysical, magnetic, and topological properties, have been studied in a range of chemistries, albeit far fewer than most classes of thin film systems. This relative scarcity is the result of limited source material availability and safety constraints associated with the handling of radioactive materials. Here, we review recent work on the synthesis and characterization of actinide-based thin films in detail, describing both synthesis methods and modelling techniques for these materials. We review reports on pyrometallurgical, solution-based, and vapor deposition methods. We highlight the current state-of-the-art in order to construct a path forward to higher quality actinide thin films and heterostructure devices.
翻訳日:2023-02-16 01:13:35 公開日:2022-04-22
# 量子と古典的順序付き二項決定図の指数分離, 順序付け法と階層

Exponential Separation between Quantum and Classical Ordered Binary Decision Diagrams, Reordering Method and Hierarchies ( http://arxiv.org/abs/2204.10671v1 )

ライセンス: Link先を確認
Kamil Khadiev, Aliya Khadieva and Alexander Knop(参考訳) 本稿では,量子順序付き二分決定ダイアグラム($obdd$)モデルについて検討する。 決定論と量子複雑性の間の最大ギャップは指数的であることが知られている。 しかし、そのようなギャップを持つ関数の例はほとんどない。 自然順序に対する同様の境界がある場合、入力変数の任意の順序で obdd の下限と上限を証明できる新しい手法("reordering")を提案する。 この変換を用いて、決定論的$OBDD$複雑性が少なくとも$2^{\Omega(n / \log n)}$であり、量子$OBDD$複雑さが少なくとも$O(n^2/\log n)$であるような総関数$REQ$を構築する。 これは、線形幅の$OBDD$sで表現できない明示的な関数の最大のギャップである。 別の関数(シフト等式関数)は、ギャップ 2^{\Omega(n)}$ と $O(n^2)$ を得られる。 さらに,ブール関数の複雑性クラスに対する有界誤差量子および確率的$obdd$ width階層を証明した。 さらに、"順序付け"メソッドを使用して、$k = o(n / \log^3 n)$に対して、多項式幅の$k$Times Ordered Binary Decision Diagrams$k$-$OBDD$)の階層を拡張する。 有界誤差確率的k$-$obdd$s of polynomial, superpolynomial and subexponential width に対する同様の階層を証明した。 この研究の要約は、ロシアの国際コンピュータ科学シンポジウム、CSR 2017、カザン、ロシア、2017年6月8日 - 12日に発表された。

In this paper, we study quantum Ordered Binary Decision Diagrams($OBDD$) model; it is a restricted version of read-once quantum branching programs, with respect to "width" complexity. It is known that the maximal gap between deterministic and quantum complexities is exponential. But there are few examples of functions with such a gap. We present a new technique ("reordering") for proving lower bounds and upper bounds for OBDD with an arbitrary order of input variables if we have similar bounds for the natural order. Using this transformation, we construct a total function $REQ$ such that the deterministic $OBDD$ complexity of it is at least $2^{\Omega(n / \log n)}$, and the quantum $OBDD$ complexity of it is at most $O(n^2/\log n)$. It is the biggest known gap for explicit functions not representable by $OBDD$s of a linear width. Another function(shifted equality function) allows us to obtain a gap $2^{\Omega(n)}$ vs $O(n^2)$. Moreover, we prove the bounded error quantum and probabilistic $OBDD$ width hierarchies for complexity classes of Boolean functions. Additionally, using "reordering" method we extend a hierarchy for read-$k$-times Ordered Binary Decision Diagrams ($k$-$OBDD$) of polynomial width, for $k = o(n / \log^3 n)$. We prove a similar hierarchy for bounded error probabilistic $k$-$OBDD$s of polynomial, superpolynomial and subexponential width. The extended abstract of this work was presented on International Computer Science Symposium in Russia, CSR 2017, Kazan, Russia, June 8 -- 12, 2017
翻訳日:2023-02-16 01:09:13 公開日:2022-04-22
# 一般化確率論における局所チャネルの準確率混合による全多部非シグナリングチャネルのシミュレーション

Simulating all multipartite non-signalling channels via quasiprobabilistic mixtures of local channels in generalised probabilistic theories ( http://arxiv.org/abs/2204.10639v1 )

ライセンス: Link先を確認
Paulo J. Cavalcanti, John H. Selby, Jamie Sikora and Ana Bel\'en Sainz(参考訳) ベルとアインシュタイン-ポドルスキー-ローゼンのシナリオに関連する無符号量子チャネルは、二成分のシナリオにおける局所演算のアフィン結合によってシミュレートすることができる。 さらに、これらのチャネルが古典変数間の確率写像に対応する場合、そのようなシミュレーションはマルチパーティイトのシナリオでも可能である。 これらの2つの結果は、通信や情報処理能力などのチャネルの特性や、物理現象(ベル非古典性やステアリングなど)の非古典性の尺度を定義する際にも有用であることが証明されている。 本稿では,チャネルの準確率的キャラクタリゼーションが統一され,より広い階層のマルチパーティイト非シグナリングチャネルに適用可能であることを示す。 さらに、これは量子論における非シグナリングチャネルや一般化確率論のより大きなファミリーにおいて成り立つことを示す。 より正確には、量子理論が満足する性質である局所トモグラフィー(英語版)であるならば、非シグナリングチャネルは対応する局所演算のアフィン結合によって常にシミュレートできる。 我々の結果はRefsの一般化と見なすことができる。 ~[Phys. Rev. 111, 170403] と[Phys. Rev. A 88, 022318 (2013)] は、任意のトモグラフィ局所な一般化確率論(量子論を含む)のための多部的シナリオである。 我々の証明技術はハーディのデュオテンソル形式を活用し、この研究における有用性を強調している。

Non-signalling quantum channels -- relevant in, e.g., the study of Bell and Einstein-Podolsky-Rosen scenarios -- may be simulated via affine combinations of local operations in bipartite scenarios. Moreover, when these channels correspond to stochastic maps between classical variables, such simulation is possible even in multipartite scenarios. These two results have proven useful when studying the properties of these channels, such as their communication and information processing power, and even when defining measures of the non-classicality of physical phenomena (such as Bell non-classicality and steering). In this paper we show that such useful quasi-stochastic characterizations of channels may be unified and applied to the broader class of multipartite non-signalling channels. Moreover, we show that this holds for non-signalling channels in quantum theory, as well as in a larger family of generalised probabilistic theories. More precisely, we prove that non-signalling channels can always be simulated by affine combinations of corresponding local operations, provided that the underlying physical theory is locally tomographic -- a property that quantum theory satisfies. Our results then can be viewed as a generalisation of Refs.~[Phys. Rev. Lett. 111, 170403] and [Phys. Rev. A 88, 022318 (2013)] to the multipartite scenario for arbitrary tomographically local generalised probabilistic theories (including quantum theory). Our proof technique leverages Hardy's duotensor formalism, highlighting its utility in this line of research.
翻訳日:2023-02-16 01:08:35 公開日:2022-04-22
# 重力場における量子時間拡張

Quantum time dilation in a gravitational field ( http://arxiv.org/abs/2204.10609v1 )

ライセンス: Link先を確認
Jerzy Paczos, Kacper D\k{e}bski, Piotr T. Grochowski, Alexander R. H. Smith, Andrzej Dragan(参考訳) 相対性理論によれば、理想的な時計の読み取りは、その単一の古典的軌道に沿って経過した固有時間と解釈される。 対照的に、量子論は1つの量子時計と多くの同時経路を関連付けることができる。 本研究では、重ね合わせ原理が単純な時計によって観測される重力時間拡張にどのように影響するかを調べる。 このような原子を位置の重ね合わせに配置することで、自発的放出の過程で現れる古典的な時間拡張に対する量子寄与を分析することができる。 特に,重力場における分離波パケットのコヒーレント重ね合わせで作製された原子の放出速度は,これらのパケットの古典的混合物における原子の遷移速度と異なり,非古典的-重力的時間拡張効果が生じることを示した。 さらに,原子の放射スペクトルに対する空間コヒーレンスの効果を示す。

According to relativity, the reading of an ideal clock is interpreted as the elapsed proper time along its single classical trajectory. In contrast, quantum theory allows the association of many simultaneous paths with a single quantum clock. Here, we investigate how the superposition principle affects the gravitational time dilation observed by a simple clock -- a decaying two-level atom. Placing such an atom in a superposition of positions enables us to analyze a quantum contribution to a classical time dilation, manifested in the process of spontaneous emission. In particular, we show that the emission rate of an atom prepared in a coherent superposition of separated wave packets in a gravitational field is different from the transition rate of the atom in a classical mixture of these packets, which gives rise to a nonclassical-gravitational time dilation effect. In addition, we show the effect of spatial coherence on the atom's emission spectrum.
翻訳日:2023-02-16 01:07:23 公開日:2022-04-22
# ウィグナー方程式における擬微分項の数値処理の比較

Comparison of numerical treatments for the pseudo-differential term in the Wigner equation ( http://arxiv.org/abs/2204.10576v1 )

ライセンス: Link先を確認
Zhenzhu Chen(参考訳) 非局所的擬微分項を効果的に扱うことは、意味をなさないか? ウィグナー方程式の高精度解におけるタントの役割 本稿では,異なる種類のポテンシャルの下で擬似微分項の数値処理を系統的に解析し,比較する。

Effectively handling the nonlocal pseudo-differential term plays an impor?tant role in solving the Wigner equation with high accuracy. This paper systematically analyzes and compares numerical treatments of the pseudo-differential term under different types of potentials.
翻訳日:2023-02-16 01:07:09 公開日:2022-04-22
# 標準通信ファイバーを介して長距離高速偏光子対の分散偏光子

Distributing Polarization Entangled Photon Pairs with High Rate over Long Distance through Standard Telecommunication Fiber ( http://arxiv.org/abs/2204.10571v1 )

ライセンス: Link先を確認
Lijiong Shen, Chang Hoong Chow, Justin Yu Xiang Peh, Xi Jie Yeo, Peng Kian Tan, Christian Kurtsiefer(参考訳) 長距離での絡み合い分布は、量子テレポーテーション、量子鍵分布の変種、量子インターネットの実装など、多くの量子通信スキームにとって不可欠である。 標準電気通信ファイバーによる絡み合いの分散は、大都市圏における脆弱性の低い量子鍵分布プロトコルにおいて特に重要である。 しかし、光ファイバによる長距離の絡み合い分布は、中程度の光子対速度でのみ達成できた。 本研究では, 標準電気通信ファイバーの50km以上の絡み合い分布を, 明るい非退化光子対源を用いて10,000 s$^{-1}$以上とする。 この光源の信号波長とアイドラー波長は、光ファイバーの低分散と1光子アバランシェダイオード検出器の高効率に最適化されている。 その結果、わずかなハードウェア要件と検出された絡み合った光子対の速度によって、既存のメトロポリタンファイバネットワークにおける実際の絡み合いに基づく量子鍵分布が大幅に向上する可能性がある。

Entanglement distribution over long distances is essential for many quantum communication schemes like quantum teleportation, some variants of quantum key distribution, or implementations of a quantum internet. Distributing entanglement through standard telecommunication fiber is particularly important for quantum key distribution protocols with low vulnerability over metropolitan distances. However, entanglement distribution over long distance through optical fiber so far could only be accomplished with moderate photon pair rates. In this work, we present entanglement distribution over 50km of standard telecommunication fiber with pair rate more than 10,000 s$^{-1}$ using a bright non-degenerate photon pair source. Signal and idler wavelengths of this source are optimized for low dispersion in optical fiber and high efficiency for single-photon avalanche diode detectors, respectively. The resulting modest hardware requirement and high rate of detected entangled photon pairs could significantly enhance practical entanglement-based quantum key distribution in existing metropolitan fiber networks.
翻訳日:2023-02-16 01:07:06 公開日:2022-04-22
# 超強結合状態におけるa-few電子量子ドットとテラヘルツ光共振器のコヒーレント相互作用

Coherent interaction of a-few-electron quantum dot with a terahertz optical resonator in the ultrastrong coupling regime ( http://arxiv.org/abs/2204.10522v1 )

ライセンス: Link先を確認
Kazuyuki Kuroyama, Jinkwan Kwoen, Yasuhiko Arakawa, Kazuhiko Hirakawa(参考訳) 超強結合状態における光と物質のハイブリッド励起、すなわちポーラリトンは、新しい材料機能の研究と光学的手法による材料特性のコヒーレント制御を実現するために集中的に研究されている。 しかし,電子数の減少に伴い電子双極子モーメントが減少するため,a-few電子系における超強結合の実現は困難である。 ここでは、テラヘルツ(THz)スプリットリング共振器(SRR)のギャップ近傍にゲート定義量子ドット(QD)を作製する。 外部のTHz放射で系を照らすことで、QDはスペクトルが量子化された電子状態の共鳴励起とSRRの共鳴モードの間の反交差挙動を示す電流変化を示す。 以上の結果から,THz SRRによる磁場増強により,数電子しかQDに存在しない場合でも,超強結合状態に入ることが示唆された。

Hybrid excitations of light and matter, namely, polaritons, in the ultrastrong coupling regime have been intensively investigated to explore novel material functions and realize coherent control of material properties by optical means. However, realization of ultrastrong coupling in a-few-electron systems has been challenging, because the electronic dipole moment decreases with decreasing electron numbers in the system. Here, we fabricate a gate-defined quantum dot (QD) in the vicinity of a gap of a terahertz (THz) split-ring resonator (SRR). By illuminating the system with external THz radiation, the QD shows a current change whose spectrum exhibits anti-crossing behavior between the resonant excitation of the quantized electronic states and the resonance mode of the SRR. Our result indicates that, owing to the field enhancement by the THz SRR, the system enters the ultrastrong coupling regime even when only a few electrons reside in the QD.
翻訳日:2023-02-16 01:06:29 公開日:2022-04-22
# 反pt対称高調波発振器とその逆高調波発振器との関係

Anti-PT-symmetric harmonic oscillator and its relation to the inverted harmonic oscillator ( http://arxiv.org/abs/2204.10780v1 )

ライセンス: Link先を確認
Nadjat Amaouche, Ishak Bouguerche, Rahma Zerimeche and Mustapha Maamache(参考訳) 我々は、高調波発振器の量子力学と、シュリンガー図形における逆相の量子力学を扱う。 一般には、逆調和振動子(逆調和振動子)は {\omega} を i{\omega} に置き換えた調和振動子から正式に得られるが、これは非有界固有ベクトルに繋がる。 このことは、調和振動子反転における変数の再定義にいくつかの不明瞭な点があることを明確に示している。 この状況を改善するために、逆調和振動子と反PT対称調和振動子を接続してスケーリング演算子(ダイソン変換)を導入し、固有関数のノルムの時間不変性を保証するような準ハーモニティ関係を得る。 我々は固有プロブレムの完全な説明を与える。 この系の波動関数は擬似スカラー積の意味で正規化されていることを示す。 逆発振器のガウス波パケットをはしご演算子法を用いて検討した。 このウェーブパケットは一般化されたコヒーレント状態と関連付けられており、空間および運動量演算子の平均値を調べるために重要な利用が可能である。 これらの平均値は古典的動きを再現する。

We treat the quantum dynamics of a harmonic oscillator as well as its inverted counterpart in the Schr\"odinger picture. Generally in the most papers of the literature, the inverted harmonic oscillator is formally obtained from the harmonic oscillator by the replacement of {\omega} to i{\omega}, this leads to unbounded eigenvectors. This explicitly demonstrates that there are some unclear points involved in redefining the variables in the harmonic oscillator inversion. To remedy this situation, we introduce a scaling operator (Dyson transformation) by connecting the inverted harmonic oscillator to an anti-PT-symmetric harmonic oscillator, we obtain the standard quasi-Hermiticity relation which would ensure the time invariance of the eigenfunction's norm. We give a complete description for the eigenproblem. We show that the wavefunctions for this system are normalized in the sense of the pseudo-scalar product. A Gaussian wave packet of the inverted oscillator is investigated by using the ladder operators method. This wave packet is found to be associated with the generalized coherent state that can be crucially utilized for investigating the mean values of the space and momentum operators. We find that these mean values reproduce the classical motion.
翻訳日:2023-02-16 00:59:36 公開日:2022-04-22
# 反水素の自由落下の量子干渉測定

Quantum interference measurement of the free fall of anti-hydrogen ( http://arxiv.org/abs/2204.10778v1 )

ライセンス: Link先を確認
Olivier Rousselle and Pierre Clad\'e and Sa\"ida Guellati-Kh\'elifa and Romain Gu\'erout and Serge Reynaud(参考訳) GBAR実験において, 反水素のフリーフォール加速の精度向上を目的とした量子計測を行った。 解析における光剥離リコイルの効果と反物質波伝搬の完全な量子解析の展開を含め、現在の実験で計画されている古典的タイミング技術に関して、およそ3桁の精度で精度が向上することを示す。

We analyze a quantum measurement designed to improve the accuracy for the free-fall acceleration of anti-hydrogen in the GBAR experiment. Including the effect of photo-detachment recoil in the analysis and developing a full quantum analysis of anti-matter wave propagation, we show that the accuracy is improved by approximately three orders of magnitude with respect to the classical timing technique planned for the current experiment.
翻訳日:2023-02-16 00:59:14 公開日:2022-04-22
# 励起状態に対する量子ダビッドソンアルゴリズム

Quantum Davidson Algorithm for Excited States ( http://arxiv.org/abs/2204.10741v1 )

ライセンス: Link先を確認
Nikolay V. Tkachenko and Yu Zhang and Lukasz Cincio and Alexander I. Boldyrev and Sergei Tretiak and Pavel A. Dub(参考訳) 励起状態の性質は電荷分離や発光といった多くの化学現象や物理現象に必須である。 しかし、既存の量子アルゴリズムは、主に量子位相推定や変分量子固有解法(VQE)を含む基底状態に焦点を当てている。 励起状態に対するvqe型法の拡張はあるが、これらの方法は最適化問題に苦しむ。 あるいは、量子 Krylov subspace (QKS) の概念が、基底状態と励起状態を計算するために提案され、量子位相推定の低コストな代替手段を提供する。 しかし、現在のQKS法は、実時間または虚時間進化を通じて生成された部分空間に依存している。 そのような部分空間はコンパクトではなく、収束や数値安定性の問題に苦しめられ、深い回路となる。 本研究では,量子デビッドソン(QDavidson)アルゴリズムという経済的なQKSアルゴリズムを開発し,クリロフ部分空間とプリコンディショナーをダビッドソンスキーム内で反復的に成長させる手法を提案する。 固有状態の剰余はクリロフ部分空間の拡大に使われ、正確な解に近いコンパクトなクリロフ部分空間へと繋がる。 その結果、高速収束は他のQKS法(量子ランツォスなど)と比較して達成される。 新たに提案されたQDavidsonアルゴリズムは、ハイゼンベルクスピンモデルや量子シミュレータ上の実分子を含む様々な系の励起状態特性を研究するために用いられる。 既存のQKS法と比較して、QDavidsonアルゴリズムは高速に収束し、より浅い回路となるため、QDavidsonは量子コンピュータ上の基底状態と励起状態の両方を計算するための実用的なアルゴリズムとなる。

Excited states properties are essential for many chemical and physical phenomena, such as charge separation and light emission. However, existing quantum algorithms mainly focus on the ground state, including quantum phase estimation and variational quantum eigensolver (VQE). Even though there are extensions of VQE-type methods for excited states, these methods suffer from optimization problems. Alternatively, the quantum Krylov subspace (QKS) concept has been proposed to calculate ground and excited states, providing a low-cost alternative to quantum phase estimation. However, current QKS methods rely on a pre-generated subspace via real- or imaginary-time evolutions. Such subspace is not compact and may suffer from slow convergence and/or numerical stability problems, resulting in deep circuits. In this work, we develop an economic QKS algorithm, namely the quantum Davidson (QDavidson) algorithm, by leveraging the iterative growth of Krylov subspace and pre-conditioner within the Davidson scheme. The residues of eigenstates are used to expand the Krylov subspace, leading to a compact Krylov subspace close to the exact solutions. Consequently, fast convergence is achieved compared to other QKS methods (e.g., quantum Lanczos). The newly proposed QDavidson algorithm is employed to study the excited-state properties of various systems, including the Heisenberg spin model and real molecules on quantum simulators. Compared to the existing QKS method, the QDavidson algorithm converges fast and results in a much shallower circuit, making QDavidson a practical algorithm for computing both ground and excited states properties on quantum computers.
翻訳日:2023-02-16 00:58:33 公開日:2022-04-22
# ボソニックガウス系の量子r\'{e}nyiエントロピー汎関数

Quantum R\'{e}nyi Entropy Functionals for Bosonic Gaussian Systems ( http://arxiv.org/abs/2204.10737v1 )

ライセンス: Link先を確認
Kabgyun Jeong and Junseo Lee(参考訳) 本研究では、次数 $p>1$ とパワー $\kappa$ の量子 r\'{e}nyi エントロピーパワーの不等式を古典的な r\'{e}nyi-$p$ エントロピーパワー不等式(英語版)の量子アナログとして提案する。 この不等式を導出するために、一般化ビームスプリッター演算である量子畳み込みの混合演算により、ボソニックガウス系のWehrl-$p$エントロピーパワー不等式を利用する。 この観測は、量子R\'{e}nyi-$p$エントロピーパワーの不等式を、D$モードボソニックガウスの準確率分布に対して直接提供する。 提案された不等式は、量子チャネル容量、特にボソニックガウス量子チャネル上の普遍上界の非自明な計算に有用である。

In this study, the quantum R\'{e}nyi entropy power inequality of order $p>1$ and power $\kappa$ is suggested as a quantum analog of the classical R\'{e}nyi-$p$ entropy power inequality. To derive this inequality, we first exploit the Wehrl-$p$ entropy power inequality on bosonic Gaussian systems via the mixing operation of quantum convolution, which is a generalized beamsplitter operation. This observation directly provides a quantum R\'{e}nyi-$p$ entropy power inequality over a quasi-probability distribution for $D$-mode bosonic Gaussian regimes. The proposed inequality is expected to be useful for the nontrivial computing of quantum channel capacities, particularly universal upper bounds on bosonic Gaussian quantum channels.
翻訳日:2023-02-16 00:58:05 公開日:2022-04-22
# 量子シュール変換のためのマルチグラフアプローチ

A Multigraph Approach for Performing the Quantum Schur Transform ( http://arxiv.org/abs/2204.10694v1 )

ライセンス: Link先を確認
Edward Pearce-Crump(参考訳) 我々は、対称群の表現論へのオクンコフ・ヴェルシクのアプローチからインスピレーションを得て、シュル=ワイル双対性がどのように量子シュル変換を実行するかを理解する新しい方法を開発する。 量子シュア変換(quantum schur transform)は、計算基底である $(\mathbb{c}^d)^{\otimes n}$ と、$(\mathbb{c}^d)^{\otimes n}$ のシュア・ワイル基底との間の基底変換のユニタリな変換である。 我々は、schur-weyl-young graphと呼ばれる新しい多重グラフを記述し、同じ図で標準ワイル表と標準ヤング表の両方を表す。 ここでは,2つの表の項目を単純に見るだけで,Shur-Weyl-Youngグラフの隣接レベルに存在する2つの標準Weylテーブルロー間の遷移振幅を計算するための Louck の公式に対する大きな改善を提案する。 我々の結果を支える重要な理論的な要素はシュール=ワイル状態の分岐則の発見であり、これはシュル=ワイル分岐則と呼ばれる。 この分岐規則により、$n$ および $d$ に対して、上述した基底変換の変更を直接的に行うことができる。

We take inspiration from the Okounkov-Vershik approach to the representation theory of the symmetric groups to develop a new way of understanding how the Schur-Weyl duality can be used to perform the Quantum Schur Transform. The Quantum Schur Transform is a unitary change of basis transformation between the computational basis of $(\mathbb{C}^d)^{\otimes n}$ and the Schur-Weyl basis of $(\mathbb{C}^d)^{\otimes n}$. We describe a new multigraph, which we call the Schur-Weyl-Young graph, that represents both standard Weyl tableaux and standard Young tableaux in the same diagram. We suggest a major improvement on Louck's formula for calculating the transition amplitudes between two standard Weyl tableaux appearing in adjacent levels of the Schur-Weyl-Young graph for the case $d=2$, merely by looking at the entries in the two tableaux. The key theoretical component that underpins our results is the discovery of a branching rule for the Schur-Weyl states, which we call the Schur-Weyl branching rule. This branching rule allows us to perform the change of basis transformation described above in a straightforward manner for any $n$ and $d$.
翻訳日:2023-02-16 00:57:08 公開日:2022-04-22
# 不純物を含むスピン秩序の誘導:磁束ポーラロンの位相図

Inducing spin-order with an impurity: phase diagram of the magnetic Bose polaron ( http://arxiv.org/abs/2204.10960v1 )

ライセンス: Link先を確認
S. I. Mistakidis, G. M. Koutentakis, F. Grusdt, P. Schmelcher, H. R. Sadeghpour(参考訳) スピン波励起による不純物原子である磁性ボースポラロンを1次元ボース気体中で形成する。 有効ポテンシャルモデルの観点からは、不純物は、自己局在準粒子状態につながる不純物-中間体反発を克服できるホスト励起によって強く拘束される。 スピン成分間のラビカップリング,スピンスピンスピン相互作用,不純物-メジウムカップリングに関して, 自己結合型磁気ポラロン, 反発性非磁性(fr{\" o}hlich-type)ポーラロンおよび不純物-中間相分離レジームの位相図を考察した。 このような磁性ポーラロンの残基は、強い不純物-スピン相互作用を持つ強い魅力的な枝と反発的な枝の両方において実質的に減少し、不純物の顕著なドレッシングを示す。 不純物は強磁性スピン-スピン相関を抑えながら、磁気媒体のスピン偏極をプローブし、操作することができる。 生成したスピン波励起が顕著であるため、スピノルガスが不和合性に近づくと平均場理論は失敗する。 本研究は, 制御可能なスピンスピン相関と磁極状態を生成するために不純物を利用することができることを示す。

We investigate the formation of magnetic Bose polaron, an impurity atom dressed by spin-wave excitations, in a one-dimensional spinor Bose gas. In terms of an effective potential model the impurity is strongly confined by the host excitations which can even overcome the impurity-medium repulsion leading to a self-localized quasi-particle state. The phase diagram of the attractive and self-bound repulsive magnetic polaron, repulsive non-magnetic (Fr{\" o}hlich-type) polaron and impurity-medium phase-separation regimes is explored with respect to the Rabi-coupling between the spin components, spin-spin interactions and impurity-medium coupling. The residue of such magnetic polarons decreases substantially in both strong attractive and repulsive branches with strong impurity-spin interactions, illustrating significant dressing of the impurity. The impurity can be used to probe and maneuver the spin polarization of the magnetic medium while suppressing ferromagnetic spin-spin correlations. It is shown that mean-field theory fails as the spinor gas approaches immiscibility since the generated spin-wave excitations are prominent. Our findings illustrate that impurities can be utilized to generate controllable spin-spin correlations and magnetic polaron states which can be realized with current cold atom setups.
翻訳日:2023-02-16 00:51:05 公開日:2022-04-22
# 局所的量子状態判別における局所的測定の不適合性

Incompatibility of local measurements provide advantage in local quantum state discrimination ( http://arxiv.org/abs/2204.10948v1 )

ライセンス: Link先を確認
Kornikar Sen, Ujjwal Sen(参考訳) 同時に測定できない量子測定のパックは、非互換な測定のセットを形成すると言われている。 非互換な測定値の組は、アンサンブルから状態を準備して他の相手に送る量子状態識別タスクにおいて、対応するものよりも有利であり、後者は利用可能な測定値を用いて状態を検出する。 送信者が2部状態を作成し、2つの受信機にサブシステムを送信する局所量子状態識別タスクを考える。 受信機は、ローカル不整合測定を用いて送信された状態を検出しようとする。 不整合測定を用いて状態を推測する確率と、不整合測定を用いて状態を推測する最大確率の比率を解析した。 この比は局所的な測定値の不適合性のロバストネスの単純な関数によって上限される。 興味深いことに、すべての非互換な測定セットに対応して、この境界が達成できる少なくとも1つの局所状態判別タスクが存在する。 最適局所量子状態判別タスクは、グローバルおよびローカルな状態判別において、不整合性および整合性のある測定による検出を成功させる確率の比の差という意味で、この用語が使われる「非局所性」を含まないことを論じる。 結果は、タスクを区別するマルチパーティの局所量子状態の体系に一般化することができる。

A pack of quantum measurements that cannot be measured simultaneously is said to form a set of incompatible measurements. Every set of incompatible measurements have advantage over the compatible ones in a quantum state discrimination task where one prepares a state from an ensemble and sends it to another party, and the latter tries to detect the state using available measurements. We consider the local quantum state discrimination task where a sender prepares a bipartite state and sends the subsystems to two receivers. The receivers try to detect the sent state using locally incompatible measurements. We analyze the ratio of the probability of successfully guessing the state using incompatible measurements and the maximum probability of successfully guessing the state using compatible measurements. We find that this ratio is upper bounded by a simple function of robustnesses of incompatibilities of the local measurements. Interestingly, corresponding to every pair of sets of incompatible measurements, there exists at least one local state discrimination task where this bound can be achieved. We argue that the optimal local quantum state discrimination task does not present any "nonlocality", where the term is used in the sense of a difference between the ratios, of probabilities of successful detection via incompatible and compatible measurements, in global and local state discriminations. The results can be generalized to the regime of multipartite local quantum state distinguishing tasks.
翻訳日:2023-02-16 00:50:40 公開日:2022-04-22
# 位相差の最適抑制による量子制御ノイズ分光

Quantum Control Noise Spectroscopy with Optimal Suppression of Dephasing ( http://arxiv.org/abs/2204.10894v1 )

ライセンス: Link先を確認
Robert Barr, Yasuo Oda, Gregory Quiroz, B. David Clader, Leigh M. Norris(参考訳) 振幅制御ノイズの量子ノイズスペクトロスコピー(QNS)を、劣化ノイズや変形誤差が量子ビット力学に大きく寄与する設定に拡張する。 振幅雑音を特徴付ける以前のアプローチは、低周波消音ノイズと静的消音誤差の脆弱性によって制限されており、ターゲットの制御ノイズ信号を過大にし、振幅雑音スペクトルの推定にバイアスを導入することができる。 この問題を解決するために, スペクトル推定に必須の振幅フィルタのスペクトル濃度を維持しつつ, 低周波デファスノイズやデチューニング誤差を最適に抑制する振幅制御波形を同定するために, 最適制御を利用する。 数値最適化によって得られた波形は驚くほど単純な解析形式を持ち、特定の振幅や周波数の制約に従う正弦波を振動させる。 数値シミュレーションによるqns実験では、これらの波形はロバスト性が優れており、低周波のデファスメントノイズとデチューニングエラーによって既存のアプローチが偏りがある場合の振幅雑音スペクトルを正確に推定することができる。

We extend quantum noise spectroscopy (QNS) of amplitude control noise to settings where dephasing noise or detuning errors make significant contributions to qubit dynamics. Previous approaches to characterize amplitude noise are limited by their vulnerability to low-frequency dephasing noise and static detuning errors, which can overwhelm the target control noise signal and introduce bias into estimates of the amplitude noise spectrum. To overcome this problem, we leverage optimal control to identify a family of amplitude control waveforms that optimally suppress low-frequency dephasing noise and detuning errors, while maintaining the spectral concentration in the amplitude filter essential for spectral estimation. The waveforms found via numerical optimization have surprisingly simple analytic forms, consisting of oscillating sine waves obeying particular amplitude and frequency constraints. In numerically simulated QNS experiments, these waveforms demonstrate superior robustness, enabling accurate estimation of the amplitude noise spectrum in regimes where existing approaches are biased by low-frequency dephasing noise and detuning errors.
翻訳日:2023-02-16 00:50:06 公開日:2022-04-22
# mole:マルチモーダルな多目的ランドスケープでトンネルを掘る

MOLE: Digging Tunnels Through Multimodal Multi-Objective Landscapes ( http://arxiv.org/abs/2204.10848v1 )

ライセンス: Link先を確認
Lennart Sch\"apermeier, Christian Grimme, Pascal Kerschke(参考訳) 連続マルチモーダル多目的最適化(MMMOO)ランドスケープの可視化の最近の進歩は、その探索力学に新たな視点をもたらした。 局所効率(le)集合は局所探索のトラップと見なされることが多いが、決定空間で孤立することは稀である。 むしろ、アトラクション盆地の重ね合わせによる交叉は、少なくとも部分的にはより良い解を含むさらなる解集合をもたらす。 Multi-Objective Gradient Sliding Algorithm (MOGSA)は、これらの重ね合わせを利用するアルゴリズムの概念である。 線形 le 集合を持つ多くの mmmoo 問題に対して有望な性能を持つが、mogsa のより密接な解析により、より広範なテスト問題に十分一般化できないことが明らかとなった。 そこで我々はMOGSAの欠点を詳細に分析し,MOLE(Multi-Objective Landscape Explorer)という新しいアルゴリズムを提案する。 MMMOO問題のLE集合を効率的にモデル化し、活用することができる。 両対象のケースに対してMOLEの実装を提示し,Bi-Objective BBOBテストベッド上でのベンチマーク実験でアプローチの実用性を示す。

Recent advances in the visualization of continuous multimodal multi-objective optimization (MMMOO) landscapes brought a new perspective to their search dynamics. Locally efficient (LE) sets, often considered as traps for local search, are rarely isolated in the decision space. Rather, intersections by superposing attraction basins lead to further solution sets that at least partially contain better solutions. The Multi-Objective Gradient Sliding Algorithm (MOGSA) is an algorithmic concept developed to exploit these superpositions. While it has promising performance on many MMMOO problems with linear LE sets, closer analysis of MOGSA revealed that it does not sufficiently generalize to a wider set of test problems. Based on a detailed analysis of shortcomings of MOGSA, we propose a new algorithm, the Multi-Objective Landscape Explorer (MOLE). It is able to efficiently model and exploit LE sets in MMMOO problems. An implementation of MOLE is presented for the bi-objective case, and the practicality of the approach is shown in a benchmarking experiment on the Bi-Objective BBOB testbed.
翻訳日:2023-02-16 00:49:27 公開日:2022-04-22
# 逆発振器:擬遺伝性とコヒーレント状態

Inverted oscillator: pseudo hermiticity and coherent states ( http://arxiv.org/abs/2204.10804v1 )

ライセンス: Link先を確認
Rahma Zerimeche, Rostom Moufok, Nadjat Amaouche and Mustapha Maamache(参考訳) 標準と逆調和振動子が異なることが知られている。 このように正規発振器で {\omega} を i{\omega} に置き換えるには、反転発振器 h^{r} を与える必要がある。 この置換は反PT対称調和振動子ハミルトニアン(iH^{os})につながる。 擬似エルミキシー関係は、反pt対称調和ハミルトニアンと反転発振器を関連付けるために使われる。 単純な代数を用いて, 解析解を再現するために逆調和振動子を記述するラダー作用素を導入し, 位置と運動量の間の量子力学的不確かさを最小限に抑える逆コヒーレント状態を構成する。

It is known that the standard and the inverted harmonic oscillator are different. Replacing thus of {\omega} by i{\omega} in the regular oscillator is necessary going to give the inverted oscillator H^{r}. This replacement would lead to anti- PT-symmetric harmonic oscillator Hamiltonian (iH^{os}). The pseudo-hermiticity relation has been used here to relate the anti-PT-symmetric harmonic Hamiltonian to the inverted oscillator. By using a simple algebra, we introduce the ladder operators describing the inverted harmonic oscillator to reproduce the analytical solutions.We construct the inverted coherent states which minimize the quantum mechanical uncertainty between the position and the momentum.
翻訳日:2023-02-16 00:48:48 公開日:2022-04-22
# IBMの量子プラットフォーム:量子バッテリーの展望

IBM quantum platforms: a quantum battery perspective ( http://arxiv.org/abs/2204.10786v1 )

ライセンス: Link先を確認
Giulia Gemme, Michele Grossi, Dario Ferraro, Sofia Vallecorsa, Maura Sassetti(参考訳) 我々は、IBM量子チップの性能を量子電池として初めて特徴付け、特に単一量子ビットArmonkプロセッサに対処する。 qiskitパッケージを通じてibm量子プロセッサの一部で使用可能なパルスアクセスを利用することで、これらの小型電池を充電する古典的なドライブの異なるプロファイルの利点と限界を調べ、充電時間と蓄電エネルギーの最適な妥協を確立する。 さらに, 様々な初期条件が量子電池の機能に果たす役割について考察する。 解析の結果,量子コンピュータ応用に有害な量子ビットの初期化フェーズで発生する不可避なエラーは,エネルギー移動とストレージにわずかな影響しか及ぼさないことがわかった。 これは、パフォーマンスの改善に反故意に導く可能性がある。 これは、ibmの量子デバイスが、良質で安定した量子バッテリと見なすべき適切なパラメータの範囲にあるという事実の強い兆候であり、最近文献で議論された技術デバイスに匹敵するものである。

We characterize for the first time the performances of IBM quantum chips as quantum batteries, specifically addressing the single-qubit Armonk processor. By exploiting the Pulse access enabled to some of the IBM Quantum processors via the Qiskit package, we investigate advantages and limitations of different profiles for classical drives used to charge these miniaturized batteries, establishing the optimal compromise between charging time and stored energy. Moreover, we consider the role played by various possible initial conditions on the functioning of the quantum batteries. As main result of our analysis, we observe that unavoidable errors occurring in the initialization phase of the qubit, which can be detrimental for quantum computing applications, only marginally affects energy transfer and storage. This can lead counter-intuitively to improvements of the performances. This is a strong indication of the fact that IBM quantum devices are already in the proper range of parameters to be considered as good and stable quantum batteries, comparable to state of the art devices recently discussed in literature.
翻訳日:2023-02-16 00:48:12 公開日:2022-04-22
# 断熱的状態形成によるトポロジカル項を持つシュウィンガーモデルの古典的数値シミュレーション

Classically Emulated Digital Quantum Simulation of the Schwinger Model with Topological Term via Adiabatic State Preparation ( http://arxiv.org/abs/2001.00485v3 )

ライセンス: Link先を確認
Bipasha Chakraborty, Masazumi Honda, Taku Izubuchi, Yuta Kikuchi, Akio Tomiya(参考訳) ミンコフスキー時空における位相項を持つゲージ理論のディジタル量子シミュレーションを行うが、標準格子モンテカルロシミュレーションでは事実上アクセスできない。 我々は、Schwingerモデルとして知られる$\theta$-termで1+1$の量子電磁力学に焦点を当てる。 格子シュウィンガー模型の真の真空状態は、断熱状態の合成を用いて構成され、それによって真空に対するフェルミオン質量作用素の期待値を計算することができる。 連続体極限を取ると、無質量の場合の結果は既知の正確な結果と一致することが分かる。 大規模の場合、小質量状態における摂動理論と大質量状態における偏差との一致を見いだす。 妥当な連続限界を取るために必要な計算コストを見積もる。 その結果,デジタル量子シミュレーションはゲージ理論の非摂動的側面をリアルタイム・トポロジ的用語で探索するのに既に有用であることが示唆された。

We perform a digital quantum simulation of a gauge theory with a topological term in Minkowski spacetime, which is practically inaccessible by standard lattice Monte Carlo simulations. We focus on $1+1$ dimensional quantum electrodynamics with the $\theta$-term known as the Schwinger model. We construct the true vacuum state of a lattice Schwinger model using adiabatic state preparation which, in turn, allows us to compute an expectation value of the fermion mass operator with respect to the vacuum. Upon taking a continuum limit we find that our result in massless case agrees with the known exact result. In massive case, we find an agreement with mass perturbation theory in small mass regime and deviations in large mass regime. We estimate computational costs required to take a reasonable continuum limit. Our results imply that digital quantum simulation is already useful tool to explore non-perturbative aspects of gauge theories with real time and topological terms.
翻訳日:2023-01-16 04:54:04 公開日:2022-04-22
# SLOPEの強いスクリーニング規則

The Strong Screening Rule for SLOPE ( http://arxiv.org/abs/2005.03730v3 )

ライセンス: Link先を確認
Johan Larsson, Ma{\l}gorzata Bogdan, Jonas Wallin(参考訳) 観測数(n$)がはるかに少ないデータセットから、関連する特徴を抽出することは、現代の統計において、予測者数(p$)が大きな課題となる。 ラッソの一般化であるSorted L-One Penalized Estimation (SLOPE)はこの設定において有望な方法である。 しかしながら、SLOPEの現在の数値手順は、特に完全な正規化経路を推定する文脈において、ラッソのそれぞれのツールが楽しむ効率を欠いている。 lassoの効率性において重要な要素は、予測器スクリーニングルールである:モデルの推定前に予測器を破棄できるルールである。 これはSLOPEのそのようなルールを確立する最初の論文である。 我々は,SLOPEのサブディファレンシャルを検証して,SLOPEのスクリーニングルールを開発し,このルールがラッソの強い規則の一般化であることを示す。 私たちのルールはヒューリスティックです。つまり、予測器を誤って破棄する可能性があります。 そこで本研究では,このような状況が極めて稀であり,最適条件の簡易なチェックによって容易に保護できることを示す。 我々の数値実験は、このルールが実際にうまく機能していることを示し、$p \gg n$ ドメインのデータに対する桁違いの改善と、$n \gg p$ の計算オーバーヘッドの増大につながった。 また,設計行列における相関構造が規則に与える影響についても検討し,規則を用いるアルゴリズム戦略について議論する。 最後に、ルールの効率的な実装をRパッケージSLOPEに提供します。

Extracting relevant features from data sets where the number of observations ($n$) is much smaller then the number of predictors ($p$) is a major challenge in modern statistics. Sorted L-One Penalized Estimation (SLOPE), a generalization of the lasso, is a promising method within this setting. Current numerical procedures for SLOPE, however, lack the efficiency that respective tools for the lasso enjoy, particularly in the context of estimating a complete regularization path. A key component in the efficiency of the lasso is predictor screening rules: rules that allow predictors to be discarded before estimating the model. This is the first paper to establish such a rule for SLOPE. We develop a screening rule for SLOPE by examining its subdifferential and show that this rule is a generalization of the strong rule for the lasso. Our rule is heuristic, which means that it may discard predictors erroneously. We present conditions under which this may happen and show that such situations are rare and easily safeguarded against by a simple check of the optimality conditions. Our numerical experiments show that the rule performs well in practice, leading to improvements by orders of magnitude for data in the $p \gg n$ domain, as well as incurring no additional computational overhead when $n \gg p$. We also examine the effect of correlation structures in the design matrix on the rule and discuss algorithmic strategies for employing the rule. Finally, we provide an efficient implementation of the rule in our R package SLOPE.
翻訳日:2022-12-05 23:07:20 公開日:2022-04-22
# 単一ニューロン学習における最適化幾何の役割

The role of optimization geometry in single neuron learning ( http://arxiv.org/abs/2006.08575v4 )

ライセンス: Link先を確認
Nicholas M. Boffi, Stephen Tu, and Jean-Jacques E. Slotine(参考訳) 近年の数値実験により、深層ニューラルネットワークのような表現力のある非線形モデルクラスを学習する際の一般化性能に影響を与えることが示されている。 これらの観察は、現代の深層学習に重要な意味を持つが、関連する非凸最適化問題の難しさから理解されていない。 この現象の理解に向けて,二乗損失の下で一般化線形モデルを学ぶための擬似次数列の解析を行った。モデルパラメータの非線形性と,単一ニューロンを特別な場合として認める最適化の非凸性の両方を含む簡易問題である。 一般化誤差の非漸近境界を証明し、最適化幾何と特徴空間幾何との相互作用が学習モデルのサンプル性能を著しく特徴づける。 実験的に,本理論が提案する最適化幾何学の選択は,非線形および非凸ベクトル回復や低ランク行列センシングといった一般線形モデル推定問題の性能向上につながる。

Recent numerical experiments have demonstrated that the choice of optimization geometry used during training can impact generalization performance when learning expressive nonlinear model classes such as deep neural networks. These observations have important implications for modern deep learning but remain poorly understood due to the difficulty of the associated nonconvex optimization problem. Towards an understanding of this phenomenon, we analyze a family of pseudogradient methods for learning generalized linear models under the square loss - a simplified problem containing both nonlinearity in the model parameters and nonconvexity of the optimization which admits a single neuron as a special case. We prove non-asymptotic bounds on the generalization error that sharply characterize how the interplay between the optimization geometry and the feature space geometry sets the out-of-sample performance of the learned model. Experimentally, selecting the optimization geometry as suggested by our theory leads to improved performance in generalized linear model estimation problems such as nonlinear and nonconvex variants of sparse vector recovery and low-rank matrix sensing.
翻訳日:2022-11-21 03:50:21 公開日:2022-04-22
# 回避を伴う神経分類による干渉による検出限界と定量化の不確かさの低減

Reduction of detection limit and quantification uncertainty due to interferent by neural classification with abstention ( http://arxiv.org/abs/2205.07609v1 )

ライセンス: Link先を確認
Alex Hagen, Ken Jarman, Jesse Ward, Greg Eiden, Charles Barinaga, Emily Mace, Craig Aalseth, Anthony Carado(参考訳) 物理科学における多くの測定は、物理現象の発生回数が現象の源泉の発生率を知らせる、計数実験として用いられる。 しばしば、物理的現象(終末信号)の検出は自然発生の事象(終末背景)と区別することが困難である。 この場合、背景からの信号イベントの識別は分類器を使って行うことができ、単純なしきい値ベースの分類器から高度なニューラルネットワークまで様々である。 これらの分類器はしばしば最適な精度を得るために訓練され検証されるが、最適精度分類器は一般に最小検出限界を提供する分類器や最低量子化の不確かさと一致しない。 分類器を用いた計数実験における検出限界と定量化の不確かさの導出について述べる。 また,検出限界や定量化の不確かさを最小化するために,新しい禁制機構を提案する。 本稿では, ガス比例カウンタ内の非放射能事象からAr-37およびAr-39放射性崩壊を識別し, 無機シンチレータ内の光子から中性子を識別し, その結果を報告する。

Many measurements in the physical sciences can be cast as counting experiments, where the number of occurrences of a physical phenomenon informs the prevalence of the phenomenon's source. Often, detection of the physical phenomenon (termed signal) is difficult to distinguish from naturally occurring phenomena (termed background). In this case, the discrimination of signal events from background can be performed using classifiers, and they may range from simple, threshold-based classifiers to sophisticated neural networks. These classifiers are often trained and validated to obtain optimal accuracy, however we show that the optimal accuracy classifier does not generally coincide with a classifier that provides the lowest detection limit, nor the lowest quantification uncertainty. We present a derivation of the detection limit and quantification uncertainty in the classifier-based counting experiment case. We also present a novel abstention mechanism to minimize the detection limit or quantification uncertainty \emph{a posteriori}. We illustrate the method on two data sets from the physical sciences, discriminating Ar-37 and Ar-39 radioactive decay from non-radioactive events in a gas proportional counter, and discriminating neutrons from photons in an inorganic scintillator and report results therefrom.
翻訳日:2022-05-22 12:14:00 公開日:2022-04-22
# (参考訳) 自然知性の理論

A Theory of Natural Intelligence ( http://arxiv.org/abs/2205.00002v1 )

ライセンス: CC BY 4.0
Christoph von der Malsburg, Thilo Stadelmann, Benjamin F. Grewe(参考訳) 導入:現在のAI技術とは対照的に、動物や人間の脳で実現され、自然環境の目標を達成するための自然知能は、学習速度、一般化能力、自律性、創造性においてはるかに優れている。 これらの強みは、どのようにして、ニューラルネットワークで生み出されるアイデアと想像力を意味するのだろうか? 方法:文献をレビューし、私たちの自然環境と脳は共に複雑さが低い、つまり、その生成に必要となる情報が少なく、その結果、どちらも高度に構造化されている、という議論を提起した。 さらに、脳と自然環境の構造は密接に関連していると主張する。 結果: 脳の構造的規則性は網状断片(自己組織的ネットワークパターン)の形をとり,これらは脳が迅速に学習し,少数の例から一般化し,抽象的に定義された汎用目標と具体的状況のギャップを埋める強力な帰納的バイアスとなることが示唆された。 結論: この結果は, ニューラルネットワーク研究におけるオープンな問題に重要な影響を与えている。

Introduction: In contrast to current AI technology, natural intelligence -- the kind of autonomous intelligence that is realized in the brains of animals and humans to attain in their natural environment goals defined by a repertoire of innate behavioral schemata -- is far superior in terms of learning speed, generalization capabilities, autonomy and creativity. How are these strengths, by what means are ideas and imagination produced in natural neural networks? Methods: Reviewing the literature, we put forward the argument that both our natural environment and the brain are of low complexity, that is, require for their generation very little information and are consequently both highly structured. We further argue that the structures of brain and natural environment are closely related. Results: We propose that the structural regularity of the brain takes the form of net fragments (self-organized network patterns) and that these serve as the powerful inductive bias that enables the brain to learn quickly, generalize from few examples and bridge the gap between abstractly defined general goals and concrete situations. Conclusions: Our results have important bearings on open problems in artificial neural network research.
翻訳日:2022-05-09 02:06:35 公開日:2022-04-22
# (参考訳) 中国のスマートシティにおけるモノのインターネット(IoT)と人工知能(AI)の採用課題の分析

Analyzing the Adoption Challenges of the Internet of Things (IoT) and Artificial Intelligence (AI) for Smart Cities in China ( http://arxiv.org/abs/2205.01067v1 )

ライセンス: CC BY-SA 4.0
Ke Wang, Yafei Zhao, Rajan Kumar Gangadhari, Zhixing Li(参考訳) スマートシティは、国の成長において重要な役割を果たす。 近年、いくつかの国が持続可能な生活を提供するスマートシティの開発に多大な投資をしている。 しかし、交通・交通マンデーメント、エネルギー・水流通管理、大気質・廃棄物管理監視など、スマートシティ開発において克服すべき課題がいくつかある。 IoT(Internet of Things)とAI(AI)の能力は、スマートシティの目標を達成する上で有効であり、シンガポールやコペンハーゲンなど一部の都市で実証された例がある。 しかし、発展途上国におけるAIとIoTの採用にはいくつかの課題がある。 AIとIoTの採用を妨げる課題の分析は非常に限られている。 本研究は,スマートシティ開発における課題間の因果関係を解析することにより,この研究ギャップを埋めることを目的としている。 本稿では,AIとIoTの採用に向けた重要なチャルレンズを抽出するための文献をレビューした。 これは調査を進め、採用状況を分析するのに役立ちました。 そこで,PRISMA法を用いて文献レビューから10の課題を同定した。 その後、DEMATELを用いた専門家の意見に基づく主要な課題のうち、因果関係の決定を行う。 本研究では,課題の駆動と依存力について検討し,障壁間の因果関係を確立した。

Smart cities play a vital role in the growth of a nation. In recent years, several countries have made huge investments in developing smart cities to offer sustainable living. However, there are some challenges to overcome in smart city development, such as traffic and transportation man-agement, energy and water distribution and management, air quality and waste management monitoring, etc. The capabilities of the Internet of Things (IoT) and artificial intelligence (AI) can help to achieve some goals of smart cities, and there are proven examples from some cities like Singapore, Copenhagen, etc. However, the adoption of AI and the IoT in developing countries has some challenges. The analysis of challenges hindering the adoption of AI and the IoT are very limited. This study aims to fill this research gap by analyzing the causal relationships among the challenges in smart city development, and contains several parts that conclude the previous scholars work, as well as independent research and investigation, such as data collection and analysis based on DEMATEL. In this paper, we have reviewed the literature to extract key chal-lenges for the adoption of AI and the IoT. These helped us to proceed with the investigation and analyze the adoption status. Therefore, using the PRISMA method, 10 challenges were identified from the literature review. Subsequently, determination of the causal inter-relationships among the key challenges based on expert opinions using DEMATEL is performed. This study explored the driving and dependent power of the challenges, and causal relationships between the barriers were established.
翻訳日:2022-05-09 01:52:50 公開日:2022-04-22
# 連合学習:データインテリジェンスとプライバシのシンラインのバランス

Federated Learning: Balancing the Thin Line Between Data Intelligence and Privacy ( http://arxiv.org/abs/2204.13697v1 )

ライセンス: Link先を確認
Sherin Mary Mathews, Samuel A. Assefa(参考訳) 連合学習は、断片化された機密データから学び、機械学習モデルのトレーニング方法に革命をもたらした。 本稿では,連合学習の系統的概要と詳細な分類について述べる。 フェデレーション学習における既存のセキュリティ課題を調査し,データ中毒,推論攻撃,モデル中毒攻撃のための確立された防御技術の概要を提供する。 この研究はまた、非i.i.d.データ、高次元問題、異種アーキテクチャを扱うことに焦点を当て、連合学習の現在のトレーニング課題の概要を示し、関連する課題に対するいくつかの解決策について論じている。 最後に,連合学習訓練の管理における課題を議論し,オープン質問への集中型研究指導を提案する。 IoTエコシステムやヘルスケアアプリケーションなど、フェデレーション学習の潜在的な候補分野は、銀行や金融分野に特に焦点をあてて議論されている。

Federated learning holds great promise in learning from fragmented sensitive data and has revolutionized how machine learning models are trained. This article provides a systematic overview and detailed taxonomy of federated learning. We investigate the existing security challenges in federated learning and provide a comprehensive overview of established defense techniques for data poisoning, inference attacks, and model poisoning attacks. The work also presents an overview of current training challenges for federated learning, focusing on handling non-i.i.d. data, high dimensionality issues, and heterogeneous architecture, and discusses several solutions for the associated challenges. Finally, we discuss the remaining challenges in managing federated learning training and suggest focused research directions to address the open questions. Potential candidate areas for federated learning, including IoT ecosystem, healthcare applications, are discussed with a particular focus on banking and financial domains.
翻訳日:2022-05-08 23:37:16 公開日:2022-04-22
# ディープラーニング: 基本からpythonによるディープニューラルネットワークの構築まで

Deep Learning: From Basics to Building Deep Neural Networks with Python ( http://arxiv.org/abs/2205.01069v1 )

ライセンス: Link先を確認
Milad Vazan(参考訳) この本はディープラーニングに精通していない初心者を対象としている。 読者からの唯一の期待は、Pythonの基本的なプログラミングスキルをすでに持っていることです。

This book is intended for beginners who have no familiarity with deep learning. Our only expectation from readers is that they already have the basic programming skills in Python.
翻訳日:2022-05-08 23:34:55 公開日:2022-04-22
# 市場予測に応用された時系列データの因果分析

Causal Analysis of Generic Time Series Data Applied for Market Prediction ( http://arxiv.org/abs/2204.12928v1 )

ライセンス: Link先を確認
Anton Kolonin, Ali Raheman, Mukul Vishwas, Ikram Ansari, Juan Pinzon, Alice Ho(参考訳) 本研究は,金融市場予測の問題の文脈において,異なる性質の多様な時系列に適用される時間的シフト(遅延)ピアソン相関に基づく因果分析の適用性を検討する。 理論的な議論は、金融市場の環境に適用された多様な性質と疎性を持つ時系列データの特定の環境に対する実践的アプローチを説明する。 データは、リアルタイム取引やリミテッドオーダーブックのスナップショットのような生の市場データから計算可能なさまざまな財務指標と、感情や異なる認知歪みなどのソーシャルメディアニュースストリームで決定される指標を含む。 この手法は、データ取得と分析のためのアルゴリズムフレームワークの提示と実験結果の結論、および、様々な分野の市場データ間の因果関係を識別する可能性を指摘し、今後の課題と今後の研究の方向性についてさらなる議論を行う。

We explore the applicability of the causal analysis based on temporally shifted (lagged) Pearson correlation applied to diverse time series of different natures in context of the problem of financial market prediction. Theoretical discussion is followed by description of the practical approach for specific environment of time series data with diverse nature and sparsity, as applied for environments of financial markets. The data involves various financial metrics computable from raw market data such as real-time trades and snapshots of the limit order book as well as metrics determined upon social media news streams such as sentiment and different cognitive distortions. The approach is backed up with presentation of algorithmic framework for data acquisition and analysis, concluded with experimental results, and summary pointing out at the possibility to discriminate causal connections between different sorts of real field market data with further discussion on present issues and possible directions of the following work.
翻訳日:2022-05-01 09:28:07 公開日:2022-04-22
# (参考訳) ヒト脳-機械インタフェースのロバスト制御のための動的アンサンブルベイズフィルタ

Dynamic Ensemble Bayesian Filter for Robust Control of a Human Brain-machine Interface ( http://arxiv.org/abs/2204.11840v1 )

ライセンス: CC BY 4.0
Yu Qi, Xinyun Zhu, Kedi Xu, Feixiao Ren, Hongjie Jiang, Junming Zhu, Jianmin Zhang, Gang Pan, Yueming Wang(参考訳) 目的:脳機械インタフェース(BMI)は、人工装具やコンピュータカーソルなどのデバイスを直接脳に制御することを目的としており、移動性回復の大きな可能性を示している。 現在のBMIの1つの大きな制限は、神経信号の変動によるオンライン制御の不安定な性能であり、BMIの臨床的利用を著しく妨げている。 方法:オンラインBMI制御におけるニューラル変動に対処するため,動的アンサンブルベイズフィルタ(DyEnsemble)を提案する。 DyEnsembleは動的測定モデルを用いてベイズフィルタを拡張し、ニューラルネットワークに適応してパラメータを調整する。 これは候補関数のプールを学習し、神経信号に従って動的に重み付け、組み立てることによって達成される。 このように、DyEnsembleは信号の変動に対処し、オンライン制御の堅牢性を向上させる。 結果: オンラインbmi実験では,velocity kalmanフィルタと比較して, dyensembleは制御精度(成功率を13.9%向上させ, 到達時間を13.5%減少させる)とロバスト性(異なる実験日で安定的に変化する)を大幅に改善することが示された。 結論: オンラインBMI制御におけるDyEnsembleの優位性を示した。 意義: DyEnsembleは、堅牢なニューラルデコーディングのための新しく柔軟なフレームワークであり、異なるニューラルデコーディングアプリケーションに有用である。

Objective: Brain-machine interfaces (BMIs) aim to provide direct brain control of devices such as prostheses and computer cursors, which have demonstrated great potential for mobility restoration. One major limitation of current BMIs lies in the unstable performance in online control due to the variability of neural signals, which seriously hinders the clinical availability of BMIs. Method: To deal with the neural variability in online BMI control, we propose a dynamic ensemble Bayesian filter (DyEnsemble). DyEnsemble extends Bayesian filters with a dynamic measurement model, which adjusts its parameters in time adaptively with neural changes. This is achieved by learning a pool of candidate functions and dynamically weighting and assembling them according to neural signals. In this way, DyEnsemble copes with variability in signals and improves the robustness of online control. Results: Online BMI experiments with a human participant demonstrate that, compared with the velocity Kalman filter, DyEnsemble significantly improves the control accuracy (increases the success rate by 13.9% and reduces the reach time by 13.5% in the random target pursuit task) and robustness (performs more stably over different experiment days). Conclusion: Our results demonstrate the superiority of DyEnsemble in online BMI control. Significance: DyEnsemble frames a novel and flexible framework for robust neural decoding, which is beneficial to different neural decoding applications.
翻訳日:2022-04-29 08:04:01 公開日:2022-04-22
# (参考訳) 多目的組合せ最適化のための新しいコアガイドとハッティングセットアルゴリズム

New Core-Guided and Hitting Set Algorithms for Multi-Objective Combinatorial Optimization ( http://arxiv.org/abs/2204.10856v1 )

ライセンス: CC BY-SA 4.0
Jo\~ao Cortes, In\^es Lynce, Vasco Manquinho(参考訳) 過去10年間,sat(high effective propositional satisfiability)ソルバの反復的使用に頼り,単目的ブール最適化のためのアルゴリズムが多数提案されてきた。 しかし、Multi-Objective Combinatorial Optimization(MOCO)アルゴリズムにおけるSATソルバの使用は依然として少ない。 このMOCOの効率的なツールが不足しているため、目的関数の線形組み合わせや語彙順応を用いて、多目的として定式化された現実世界のアプリケーションの多くは、単目的に単純化されている。 本稿では,モコ解法の現状を2つの新しい不満足性に基づくアルゴリズムで拡張する。 1つ目はコア誘導MOCOソルバである。 2つ目は、セットベースのMOCOソルバだ。 広範囲のベンチマークで得られた実験結果から、我々の新しい不満足性ベースのアルゴリズムはMOCOの最先端SATベースのアルゴリズムより優れていることが示された。

In the last decade, a plethora of algorithms for single-objective Boolean optimization has been proposed that rely on the iterative usage of a highly effective Propositional Satisfiability (SAT) solver. But the use of SAT solvers in Multi-Objective Combinatorial Optimization (MOCO) algorithms is still scarce. Due to this shortage of efficient tools for MOCO, many real-world applications formulated as multi-objective are simplified to single-objective, using either a linear combination or a lexicographic ordering of the objective functions to optimize. In this paper, we extend the state of the art of MOCO solvers with two novel unsatisfiability-based algorithms. The first is a core-guided MOCO solver. The second is a hitting set-based MOCO solver. Experimental results obtained in a wide range of benchmark instances show that our new unsatisfiability-based algorithms can outperform state-of-the-art SAT-based algorithms for MOCO.
翻訳日:2022-04-28 08:54:12 公開日:2022-04-22
# (参考訳) サンプリング速度での学習-ランク付け--計算量最小のplacett-luce勾配推定

Learning-to-Rank at the Speed of Sampling: Plackett-Luce Gradient Estimation With Minimal Computational Complexity ( http://arxiv.org/abs/2204.10872v1 )

ライセンス: CC BY 4.0
Harrie Oosterhuis(参考訳) Plackett-Luceグラデーション推定により,サンプリング手法による確率的ランキングモデルの時間制約内での最適化が可能となる。 残念なことに、既存のメソッドの計算の複雑さは、ランキングの長さ、すなわちランキングのカットオフ、あるいはアイテムの収集サイズではうまくスケールしない。 本稿では,最良ソートアルゴリズムに匹敵する計算量で非バイアス勾配推定を行うPL-Rank-3アルゴリズムを提案する。 その結果,本手法は標準ソートが妥当な時間で実現可能なシナリオに適用できることがわかった。 実験結果から,性能を損なうことなく,最適化に要する時間が大きく向上することが示唆された。 この分野では、我々の貢献により、最先端の学習 to ランクの手法が以前実現可能だったよりもはるかに大きなスケールに適用できる可能性がある。

Plackett-Luce gradient estimation enables the optimization of stochastic ranking models within feasible time constraints through sampling techniques. Unfortunately, the computational complexity of existing methods does not scale well with the length of the rankings, i.e. the ranking cutoff, nor with the item collection size. In this paper, we introduce the novel PL-Rank-3 algorithm that performs unbiased gradient estimation with a computational complexity comparable to the best sorting algorithms. As a result, our novel learning-to-rank method is applicable in any scenario where standard sorting is feasible in reasonable time. Our experimental results indicate large gains in the time required for optimization, without any loss in performance. For the field, our contribution could potentially allow state-of-the-art learning-to-rank methods to be applied to much larger scales than previously feasible.
翻訳日:2022-04-28 08:04:09 公開日:2022-04-22
# (参考訳) ChapterBreak: 長距離言語モデルのためのチャレンジデータセット

ChapterBreak: A Challenge Dataset for Long-Range Language Models ( http://arxiv.org/abs/2204.10878v1 )

ライセンス: CC BY 4.0
Simeng Sun, Katherine Thai, Mohit Iyyer(参考訳) 長距離言語モデル(LRLM)のための多くのアーキテクチャが最近提案されているが、その言論レベルの言語理解能力の有意義な評価はまだ続いていない。 この目的のために、章境界で終わる物語から長いセグメントのLRLMを提供する挑戦データセットである章Breakを紹介し、同じ物語からサンプリングされた負のセグメントの集合と、その次の章の始まりを区別するよう要求する。 きめ細かい人間のアノテーションは、我々のデータセットが、グローバルコンテキストを理解する必要がある多くの複雑な章遷移(例えば、パラレルナラティブ、クリフハンガーエンディング)を含んでいることを示しています。 ChapterBreakの実験では、既存のLRLMは長距離コンテキストを効果的に活用できず、このタスクのために直接訓練されたセグメントレベルのモデルを大幅に上回っている。 LRLMに関するより原理的な研究を促進するために、私たちの章Breakデータセットを公開します。

While numerous architectures for long-range language models (LRLMs) have recently been proposed, a meaningful evaluation of their discourse-level language understanding capabilities has not yet followed. To this end, we introduce ChapterBreak, a challenge dataset that provides an LRLM with a long segment from a narrative that ends at a chapter boundary and asks it to distinguish the beginning of the ground-truth next chapter from a set of negative segments sampled from the same narrative. A fine-grained human annotation reveals that our dataset contains many complex types of chapter transitions (e.g., parallel narratives, cliffhanger endings) that require processing global context to comprehend. Experiments on ChapterBreak show that existing LRLMs fail to effectively leverage long-range context, substantially underperforming a segment-level model trained directly for this task. We publicly release our ChapterBreak dataset to spur more principled future research into LRLMs.
翻訳日:2022-04-28 07:53:01 公開日:2022-04-22
# (参考訳) 圧縮性:次元化を超えるクラスタリング問題におけるPCAのパワー

Compressibility: Power of PCA in Clustering Problems Beyond Dimensionality Reduction ( http://arxiv.org/abs/2204.10888v1 )

ライセンス: CC BY 4.0
Chandra Sekhar Mukherjee and Jiapeng Zhang(参考訳) 本稿では, 基本成分分析(PCA)の影響を, 次元化ツールを超えた非教師なしクラスタリングの文脈で理解するための一歩を踏み出した。 圧縮性と呼ばれるベクトルクラスタリング問題におけるPCAの別の性質について検討する。 この現象は、PCAがクラスタ間距離を比較的緩やかに減少させながら、同一クラスタに属するデータポイントの距離を著しく減少させることを示している。 このギャップは、実際に見られる多くの経験的な観察を説明する。 例えば、生物学におけるベクトルクラスタリングの応用であるシングルセルRNAシークエンシング分析では、データセットにPCAを適用することで、K平均のような古典的なクラスタリングアルゴリズムの精度が大幅に向上することが観察されている。 我々はこの圧縮ギャップを理論と実践の両方で研究する。 理論的には、PCAを比較的一般的な確率的設定で解析し、ランダムベクトルモデルと呼ぶ。 複数のシングルセルRNA-seqデータセット上でPCAの圧縮性を検証する。

In this paper we take a step towards understanding the impact of principle component analysis (PCA) in the context of unsupervised clustering beyond a dimensionality reduction tool. We explore another property of PCA in vector clustering problems, which we call compressibility. This phenomenon shows that PCA significantly reduces the distance of data points belonging to the same clusters, while reducing inter-cluster distances relatively mildly. This gap explains many empirical observations found in practice. For example, in single-cell RNA-sequencing analysis, which is an application of vector clustering in biology, it has been observed that applying PCA on datasets significantly improves the accuracy of classical clustering algorithms such as K-means. We study this compression gap in both theory and practice. On the theoretical side, we analyze PCA in a fairly general probabilistic setup, which we call the random vector model. In terms of practice, we verify the compressibility of PCA on multiple single-cell RNA-seq datasets.
翻訳日:2022-04-28 07:36:51 公開日:2022-04-22
# (参考訳) 継続的インテグレーションテストにおける機械学習テストケースプライオリティ化の比較検討

Comparative Study of Machine Learning Test Case Prioritization for Continuous Integration Testing ( http://arxiv.org/abs/2204.10899v1 )

ライセンス: CC BY-SA 4.0
Dusica Marijan(参考訳) 複雑なソフトウェアテストの課題に取り組むための機械学習の可能性を示す研究団体が増えている。 このような課題の1つは、高度に時間制約があり、反復的なコードコミットとテスト実行から大量のデータを生成する継続的インテグレーションテストに関するものだ。 このような設定では、マシンラーニング予測器のトレーニングに豊富なテストデータを使用することで、コード統合時に発生した回帰バグの検出を高速化するテストケースを特定できます。 しかし、さまざまな機械学習モデルは、継続的インテグレーションテストのコンテキストやパラメータによって異なるフォールト予測性能を持つことができる。例えば、継続的インテグレーションサイクルで利用可能な可変時間予算や、失敗するテストケースを優先順位付けするために学習に使用されるテスト実行履歴のサイズなどだ。 テストケースの優先順位付けに関する既存の研究は、継続的インテグレーションの実践に不可欠なこれら2つの要因をほとんど研究していない。 本研究では,本論文におけるテストケース優先順位付けタスクにおいて,最も優れた性能を示す機械学習手法の故障予測性能を包括的に比較する。 連続統合時間予算の異なる値と分類器の訓練に用いるテスト履歴の異なる値に対する故障検出テストの予測における分類器の精度を評価する。 評価では、継続的インテグレーションの実践から実世界の産業データセットを使用します。 その結果、異なる機械学習モデルは、モデルトレーニングに使用されるテスト履歴のサイズと、テストケース実行に利用可能なさまざまな時間予算で異なるパフォーマンスを持つことがわかった。 この結果から,継続的インテグレーションテストにおけるテスト優先化のための機械学習アプローチは,最適性能を達成するために慎重に設定されるべきであることが示唆された。

There is a growing body of research indicating the potential of machine learning to tackle complex software testing challenges. One such challenge pertains to continuous integration testing, which is highly time-constrained, and generates a large amount of data coming from iterative code commits and test runs. In such a setting, we can use plentiful test data for training machine learning predictors to identify test cases able to speed up the detection of regression bugs introduced during code integration. However, different machine learning models can have different fault prediction performance depending on the context and the parameters of continuous integration testing, for example variable time budget available for continuous integration cycles, or the size of test execution history used for learning to prioritize failing test cases. Existing studies on test case prioritization rarely study both of these factors, which are essential for the continuous integration practice. In this study we perform a comprehensive comparison of the fault prediction performance of machine learning approaches that have shown the best performance on test case prioritization tasks in the literature. We evaluate the accuracy of the classifiers in predicting fault-detecting tests for different values of the continuous integration time budget and with different length of test history used for training the classifiers. In evaluation, we use real-world industrial datasets from a continuous integration practice. The results show that different machine learning models have different performance for different size of test history used for model training and for different time budget available for test case execution. Our results imply that machine learning approaches for test prioritization in continuous integration testing should be carefully configured to achieve optimal performance.
翻訳日:2022-04-28 07:12:36 公開日:2022-04-22
# (参考訳) オンブランチ大豆ポッドのその場セグメンテーションのための合成インビトロ大豆ポッドデータセットからの移動学習

Transfer Learning from Synthetic In-vitro Soybean Pods Dataset for In-situ Segmentation of On-branch Soybean Pod ( http://arxiv.org/abs/2204.10902v1 )

ライセンス: CC BY 4.0
Si Yang, Lihua Zheng, Xieyuanli Chen, Laura Zabawa, Man Zhang, Minjuan Wang(参考訳) 成熟したダイズ植物は複雑な構造を持ち、ポッド同士が頻繁に触れ合っており、オンブランチダイズポッドのその場でのセグメンテーションの課題となっている。 ディープラーニングベースの手法は、正確なトレーニングと強力な一般化能力を達成することができるが、大規模なラベル付きデータを必要とする。 人工大豆ポッドを用いた人工大豆ポッドのin-situセグメンテーションモデルを訓練するためのラベル付きデータがないため,人工大豆ポッドの移動学習を提案する。 まず,アノテートされたサンプルを多数含む合成インビトロダイズポッドデータセットを高速に生成する,新しい自動画像生成法を提案する。 インビトロダイズポッドのサンプルを重ね合わせ、オンブランチダイズポッドの頻繁に物理的に触れていることをシミュレートする。 そして,2段階の伝達学習を設計する。 最初のステップでは、ソースドメイン(MSCOCOデータセット)と合成ターゲットドメイン(バイオダイズポッド内のデータセット)によって事前訓練されたインスタンスセグメンテーションネットワークを微調整します。 第2段階では,数種の実生大豆のサンプルを微調整し,シミュレーションから現実への移動を行う。 実験結果から,実世界のダイズ実生植物試験データセットにおいて,ap$_{50}$ が 0.80 であり,ap$_{50}$ が 0.77 であるような2段階伝達学習法の有効性が示された。 さらに,オンブランチダイズポッドのin-situセグメンテーション結果の可視化により,特にダイズポッドが重なり合う場合,他の方法よりも優れた性能を示すことが示された。

The mature soybean plants are of complex architecture with pods frequently touching each other, posing a challenge for in-situ segmentation of on-branch soybean pods. Deep learning-based methods can achieve accurate training and strong generalization capabilities, but it demands massive labeled data, which is often a limitation, especially for agricultural applications. As lacking the labeled data to train an in-situ segmentation model for on-branch soybean pods, we propose a transfer learning from synthetic in-vitro soybean pods. First, we present a novel automated image generation method to rapidly generate a synthetic in-vitro soybean pods dataset with plenty of annotated samples. The in-vitro soybean pods samples are overlapped to simulate the frequently physically touching of on-branch soybean pods. Then, we design a two-step transfer learning. In the first step, we finetune an instance segmentation network pretrained by a source domain (MS COCO dataset) with a synthetic target domain (in-vitro soybean pods dataset). In the second step, transferring from simulation to reality is performed by finetuning on a few real-world mature soybean plant samples. The experimental results show the effectiveness of the proposed two-step transfer learning method, such that AP$_{50}$ was 0.80 for the real-world mature soybean plant test dataset, which is higher than that of direct adaptation and its AP$_{50}$ was 0.77. Furthermore, the visualizations of in-situ segmentation results of on-branch soybean pods show that our method performs better than other methods, especially when soybean pods overlap densely.
翻訳日:2022-04-28 06:57:24 公開日:2022-04-22
# (参考訳) 演算子学習のための誤り変数モデリング

Error-in-variables modelling for operator learning ( http://arxiv.org/abs/2204.10909v1 )

ライセンス: CC BY 4.0
Ravi G. Patel, Indu Manickam, Myoungkyu Lee, Mamikon Gulian(参考訳) ディープオペレータ学習は、低次モデリングとpdeモデル発見の有望なツールとして登場した。 ディープニューラルネットワークの表現力、特に高次元を利用して、そのような手法は機能状態変数間のマッピングを学ぶ。 提案手法は従属変数のみにノイズを仮定するが, 操作者学習のための実験データや数値データは, 測定誤差の対象となる信号を表すため, 独立変数にもノイズを呈する。 スカラーデータの回帰では、ノイズの多い独立変数を説明できないと、偏りのあるパラメータ推定につながる。 雑音のない独立変数では、通常の最小二乗(OLS)を通した線形モデルは減衰バイアスを示し、傾きは過小評価される。 本研究では,独立変数と依存変数の両方において白色雑音を伴う線形作用素回帰に対する減衰バイアスのアナログを導出する。 非線形環境では、独立変数における雑音の存在下でのバーガーズ作用素の作用の非予測を数値的に示す。 本稿では,MOR-PhysicsとDeepONetという2つの演算子回帰法に対する誤差不変変数(EiV)モデルを提案する。 1Dおよび2Dのバーガース演算子を考えると、EeV演算子学習はOLS演算子学習を破る高雑音状態の演算子を頑健に回復することを示した。 また,時間発展型pde発見のための eiv モデルを導入し,ols と eiv が腐敗したデータから kuramoto-sivashinsky 進化演算子を学習する際にも同様に作用することを示し,ols オペレーター学習におけるバイアスの影響が対象オペレータの規則性に依存することを示唆する。

Deep operator learning has emerged as a promising tool for reduced-order modelling and PDE model discovery. Leveraging the expressive power of deep neural networks, especially in high dimensions, such methods learn the mapping between functional state variables. While proposed methods have assumed noise only in the dependent variables, experimental and numerical data for operator learning typically exhibit noise in the independent variables as well, since both variables represent signals that are subject to measurement error. In regression on scalar data, failure to account for noisy independent variables can lead to biased parameter estimates. With noisy independent variables, linear models fitted via ordinary least squares (OLS) will show attenuation bias, wherein the slope will be underestimated. In this work, we derive an analogue of attenuation bias for linear operator regression with white noise in both the independent and dependent variables. In the nonlinear setting, we computationally demonstrate underprediction of the action of the Burgers operator in the presence of noise in the independent variable. We propose error-in-variables (EiV) models for two operator regression methods, MOR-Physics and DeepONet, and demonstrate that these new models reduce bias in the presence of noisy independent variables for a variety of operator learning problems. Considering the Burgers operator in 1D and 2D, we demonstrate that EiV operator learning robustly recovers operators in high-noise regimes that defeat OLS operator learning. We also introduce an EiV model for time-evolving PDE discovery and show that OLS and EiV perform similarly in learning the Kuramoto-Sivashinsky evolution operator from corrupted data, suggesting that the effect of bias in OLS operator learning depends on the regularity of the target operator.
翻訳日:2022-04-28 06:41:22 公開日:2022-04-22
# (参考訳) MCSE: 文埋め込みのマルチモーダルコントラスト学習

MCSE: Multimodal Contrastive Learning of Sentence Embeddings ( http://arxiv.org/abs/2204.10931v1 )

ライセンス: CC BY 4.0
Miaoran Zhang, Marius Mosbach, David Ifeoluwa Adelani, Michael A. Hedderich, Dietrich Klakow(参考訳) 意味的に意味のある文の埋め込みを学習することは自然言語処理においてオープンな問題である。 本研究では,視覚情報とテキスト情報の両方をマルチモーダルコントラスト目的として活用する文埋め込み学習手法を提案する。 様々な意味的テキスト類似性タスクの実験を通じて、我々のアプローチは様々なデータセットと事前学習エンコーダのパフォーマンスを一貫して改善することを示した。 特に、少量のマルチモーダルデータと大きなテキストのみのコーパスを組み合わせることで、平均的な槍手の相関を1.7%向上させる。 テキスト埋め込み空間の特性を解析することにより,我々のモデルが意味的に類似した文の整合に優れており,その性能が向上していることを示す。

Learning semantically meaningful sentence embeddings is an open problem in natural language processing. In this work, we propose a sentence embedding learning approach that exploits both visual and textual information via a multimodal contrastive objective. Through experiments on a variety of semantic textual similarity tasks, we demonstrate that our approach consistently improves the performance across various datasets and pre-trained encoders. In particular, combining a small amount of multimodal data with a large text-only corpus, we improve the state-of-the-art average Spearman's correlation by 1.7%. By analyzing the properties of the textual embedding space, we show that our model excels in aligning semantically similar sentences, providing an explanation for its improved performance.
翻訳日:2022-04-28 06:09:01 公開日:2022-04-22
# (参考訳) 2つのモデルの物語:エッジモデルに対する侵入攻撃の構築

A Tale of Two Models: Constructing Evasive Attacks on Edge Models ( http://arxiv.org/abs/2204.10933v1 )

ライセンス: CC BY 4.0
Wei Hao, Aahil Awatramani, Jiayang Hu, Chengzhi Mao, Pin-Chun Chen, Eyal Cidon, Asaf Cidon and Junfeng Yang(参考訳) 完全精度のディープラーニングモデルは通常、エッジデバイスにデプロイするには大きすぎるか、あるいはコストがかかる。 限られたハードウェアリソースに対応するため、モデルは量子化やプルーニングといった様々なエッジ適応技術を用いてエッジに適応する。 このような手法は、トップライン精度に無視できない影響を与えるかもしれないが、適応されたモデルは、それらが導出される元のモデルと比較して、出力の微妙な違いを示す。 本稿では,従来のモデルと適応モデルの出力差を最大化する入力データに逆ノイズを加えることで,エッジ適応におけるこれらの差を利用した新たな回避攻撃DIVAを提案する。 このような攻撃は特に危険であり、悪意のある入力はエッジ上で実行される適応モデルを騙すが、検証、デバッグ、再トレーニングに使用される権威モデルバージョンとして機能する元のモデルでは事実上検出できないためである。 我々はDIVAを最先端の攻撃であるPGDと比較し、DIVAが適応モデルの攻撃に対してわずか1.7-3.6%悪くなるが、Whiteboxおよび半ブラックボックス設定下のオリジナルのモデルでは検出されない可能性が1.9-4.2倍高いことを示す。

Full-precision deep learning models are typically too large or costly to deploy on edge devices. To accommodate to the limited hardware resources, models are adapted to the edge using various edge-adaptation techniques, such as quantization and pruning. While such techniques may have a negligible impact on top-line accuracy, the adapted models exhibit subtle differences in output compared to the original model from which they are derived. In this paper, we introduce a new evasive attack, DIVA, that exploits these differences in edge adaptation, by adding adversarial noise to input data that maximizes the output difference between the original and adapted model. Such an attack is particularly dangerous, because the malicious input will trick the adapted model running on the edge, but will be virtually undetectable by the original model, which typically serves as the authoritative model version, used for validation, debugging and retraining. We compare DIVA to a state-of-the-art attack, PGD, and show that DIVA is only 1.7-3.6% worse on attacking the adapted model but 1.9-4.2 times more likely not to be detected by the the original model under a whitebox and semi-blackbox setting, compared to PGD.
翻訳日:2022-04-28 05:55:16 公開日:2022-04-22
# プレイスセルを用いたフレキシブルリワード探索行動の計算理論

A Computational Theory of Learning Flexible Reward-Seeking Behavior with Place Cells ( http://arxiv.org/abs/2204.11843v1 )

ライセンス: Link先を確認
Yuanxiang Gao(参考訳) 計算神経科学における重要な疑問は、プレース細胞のような空間的に調整されたニューロンが、動物の報酬探索行動の学習にどのように用いられるかである。 既存の計算モデルは生物学的な可能性に欠けるか、環境が変化すると行動の柔軟性に欠ける。 本稿では, 生物的信頼性を向上し, 行動の柔軟性を実現する計算理論を提案する。 まず, ガウス分布の混合を訓練し, プレースセルの焼成場をモデル化した。 次に,位置細胞間のシナプス強度行列を学習するためのヘビアン様規則を提案する。 このマトリックスは、連続時間マルコフ連鎖の遷移速度行列として解釈され、位置細胞のシーケンシャルリプレイを生成する。 リプレイ中、場所細胞から中脊髄ニューロン(MSN)へのシナプス強度は、場所-逆相関を記憶する規則のような時間差によって学習される。 リプレイ後、動物が報奨場所に近づくとMSNの活性化が増加するので、動物はMSNの活性化が増加する方向に沿って移動して報奨場所を見つけることができる。 我々はこの理論をMuJoCo物理シミュレータにおいて高忠実性仮想ラットに実装する。 複雑な迷路において、ラットは神経科学に触発された強化学習アルゴリズムであるディープqネットワークを実装したラットよりも学習効率と行動の柔軟性が著しく向上する。

An important open question in computational neuroscience is how various spatially tuned neurons, such as place cells, are used to support the learning of reward-seeking behavior of an animal. Existing computational models either lack biological plausibility or fall short of behavioral flexibility when environments change. In this paper, we propose a computational theory that achieves behavioral flexibility with better biological plausibility. We first train a mixture of Gaussian distributions to model the ensemble of firing fields of place cells. Then we propose a Hebbian-like rule to learn the synaptic strength matrix among place cells. This matrix is interpreted as the transition rate matrix of a continuous time Markov chain to generate the sequential replay of place cells. During replay, the synaptic strengths from place cells to medium spiny neurons (MSN) are learned by a temporal-difference like rule to store place-reward associations. After replay, the activation of MSN will ramp up when an animal approaches the rewarding place, so the animal can move along the direction where the MSN activation is increasing to find the rewarding place. We implement our theory into a high-fidelity virtual rat in the MuJoCo physics simulator. In a complex maze, the rat shows significantly better learning efficiency and behavioral flexibility than a rat that implements a neuroscience-inspired reinforcement learning algorithm, deep Q-network.
翻訳日:2022-04-27 13:09:07 公開日:2022-04-22
# ウェーブレットを用いた適応オンライン値関数近似

Adaptive Online Value Function Approximation with Wavelets ( http://arxiv.org/abs/2204.11842v1 )

ライセンス: Link先を確認
Michael Beukman and Michael Mitchley and Dean Wookey and Steven James and George Konidaris(参考訳) 連続状態空間や高次元状態空間では、値関数を表現するために関数近似を用いる必要がある。 線形関数近似は望ましい理論的保証を持ち、しばしばニューラルネットワークよりも計算とサンプルを少なくするが、ほとんどのアプローチは状態空間の次元が増加するにつれて関数の数が指数関数的に増加する。 本稿では,強化学習のためのウェーブレットベースを紹介する。 ウェーブレットは、固定基底として効果的に使用することができ、学習が進むにつれて、ベースセットを適応的に洗練することができるので、最小基底セットから始めることができる。 この適応法は、状態空間のある点における近似の粒度を増加させるか、必要に応じて異なる次元間の相互作用を追加することができる。 精度を損なうことなく適応的に洗練できる関数近似器を構築したい場合、ウェーブレットは必要かつ十分であることを示す。 さらに、固定ウェーブレット基底セットは、マウンテンカーやacrobotにおいて、より高性能なフーリエ基底に対して比較可能であり、この適応手法は、固定ウェーブレット基底と同等以上の性能を示す一方で、過大な初期基底集合に対処するための便利なアプローチを提供する。

Using function approximation to represent a value function is necessary for continuous and high-dimensional state spaces. Linear function approximation has desirable theoretical guarantees and often requires less compute and samples than neural networks, but most approaches suffer from an exponential growth in the number of functions as the dimensionality of the state space increases. In this work, we introduce the wavelet basis for reinforcement learning. Wavelets can effectively be used as a fixed basis and additionally provide the ability to adaptively refine the basis set as learning progresses, making it feasible to start with a minimal basis set. This adaptive method can either increase the granularity of the approximation at a point in state space, or add in interactions between different dimensions as necessary. We prove that wavelets are both necessary and sufficient if we wish to construct a function approximator that can be adaptively refined without loss of precision. We further demonstrate that a fixed wavelet basis set performs comparably against the high-performing Fourier basis on Mountain Car and Acrobot, and that the adaptive methods provide a convenient approach to addressing an oversized initial basis set, while demonstrating performance comparable to, or greater than, the fixed wavelet basis.
翻訳日:2022-04-27 12:40:40 公開日:2022-04-22
# フェデレーション画像分類におけるパーソナライズについて

A Closer Look at Personalization in Federated Image Classification ( http://arxiv.org/abs/2204.11841v1 )

ライセンス: Link先を確認
Changxing Jing, Yan Huang, Yihong Zhuang, Liyan Sun, Yue Huang, Zhenlong Xiao, Xinghao Ding(参考訳) フェデレーション学習(federated learning, fl)は、分散データ全体にわたって単一のグローバルモデルを学ぶために開発されたが、統計的な異質性の存在下でクライアント固有のパーソナライズを実現する場合には影響を受けやすい。 しかしながら、研究はロバストなグローバルモデルやパーソナライズされた分類器の学習に重点を置いている。 本稿では,表現学習の導入により,グローバルモデルの収束後に柔軟なパーソナライゼーションを実現することができることを示す。 本稿ではまず,非IIDデータがグローバルモデルの表現学習に悪影響を及ぼすかどうかを解析・判定する。 既存のFL法は、グローバルモデルが非IIDデータから一貫した不均一性を受ける分類に基づく局所モデルの平均であるような、共同学習表現と分類器のスキームに準拠している。 まず,非IIDデータに対してロバストなクライアント側の特徴表現モデルを学習し,それらをグローバルな共通表現モデルに集約する。 その後、前段で得られた共通表現に基づいて、各クライアントの分類子ヘッドを学習することでパーソナライゼーションを実現する。 特に、RepPerの2段階学習方式は、制約された計算能力を持つデバイスを対象とする軽量エッジコンピューティングに使用することができる。さまざまなデータセット(CIFAR-10/100、CINIC-10)と異種データ設定の実験により、RepPerは、非IIDデータに対する柔軟性とパーソナライゼーションの代替案よりも優れていることが示されている。

Federated Learning (FL) is developed to learn a single global model across the decentralized data, while is susceptible when realizing client-specific personalization in the presence of statistical heterogeneity. However, studies focus on learning a robust global model or personalized classifiers, which yield divergence due to inconsistent objectives. This paper shows that it is possible to achieve flexible personalization after the convergence of the global model by introducing representation learning. In this paper, we first analyze and determine that non-IID data harms representation learning of the global model. Existing FL methods adhere to the scheme of jointly learning representations and classifiers, where the global model is an average of classification-based local models that are consistently subject to heterogeneity from non-IID data. As a solution, we separate representation learning from classification learning in FL and propose RepPer, an independent two-stage personalized FL framework.We first learn the client-side feature representation models that are robust to non-IID data and aggregate them into a global common representation model. After that, we achieve personalization by learning a classifier head for each client, based on the common representation obtained at the former stage. Notably, the proposed two-stage learning scheme of RepPer can be potentially used for lightweight edge computing that involves devices with constrained computation power.Experiments on various datasets (CIFAR-10/100, CINIC-10) and heterogeneous data setup show that RepPer outperforms alternatives in flexibility and personalization on non-IID data.
翻訳日:2022-04-27 12:15:06 公開日:2022-04-22
# データ効率の良いバックドア攻撃

Data-Efficient Backdoor Attacks ( http://arxiv.org/abs/2204.12281v1 )

ライセンス: Link先を確認
Pengfei Xia, Ziqiang Li, Wei Zhang, and Bin Li(参考訳) 最近の研究では、ディープニューラルネットワークがバックドア攻撃に弱いことが証明されている。 具体的には、少数の有毒サンプルをトレーニングセットに混ぜることで、トレーニングされたモデルの振る舞いを悪意的に制御することができる。 既存の攻撃方法は、良性集合からクリーンなデータをランダムに選択し、トリガーをそこに埋め込むことで、そのような敵を構築する。 しかし、この選択戦略は、各中毒サンプルがバックドア注入に等しく寄与するという事実を無視し、中毒の効率を低下させる。 本稿では, 最適化問題として選択による有毒データ効率の向上を定式化し, フィルタ・更新戦略(FUS)を提案する。 また,cifar-10とimagenet-10を用いた実験結果から,無作為選択戦略と比較して,有毒試料量のわずか47%から75%で同じ攻撃成功率を達成できることがわかった。 さらに重要なことに、ある設定で選択された敵は、他の設定にうまく一般化でき、強い転送性を示す。

Recent studies have proven that deep neural networks are vulnerable to backdoor attacks. Specifically, by mixing a small number of poisoned samples into the training set, the behavior of the trained model can be maliciously controlled. Existing attack methods construct such adversaries by randomly selecting some clean data from the benign set and then embedding a trigger into them. However, this selection strategy ignores the fact that each poisoned sample contributes inequally to the backdoor injection, which reduces the efficiency of poisoning. In this paper, we formulate improving the poisoned data efficiency by the selection as an optimization problem and propose a Filtering-and-Updating Strategy (FUS) to solve it. The experimental results on CIFAR-10 and ImageNet-10 indicate that the proposed method is effective: the same attack success rate can be achieved with only 47% to 75% of the poisoned sample volume compared to the random selection strategy. More importantly, the adversaries selected according to one setting can generalize well to other settings, exhibiting strong transferability.
翻訳日:2022-04-27 12:12:40 公開日:2022-04-22
# (参考訳) ユーティリティを最大化するクエリオートコンプリートのためのカウンターファクトラーニング

Counterfactual Learning To Rank for Utility-Maximizing Query Autocompletion ( http://arxiv.org/abs/2204.10936v1 )

ライセンス: CC BY 4.0
Adam Block, Rahul Kidambi, Daniel N. Hill, Thorsten Joachims, and Inderjit S. Dhillon(参考訳) クエリ自動補完の従来の方法は、ユーザがリストから選択する完了クエリを予測することである。 このアプローチの欠点は、ユーザが現在の情報検索システムにおいて、どのクエリが最高の検索性能を提供するのかをよく知らないことである。 この制限を克服するために、下流検索性能に対するクエリ提案を明示的に最適化する新しいアプローチを提案する。 ここでは、各クエリ提案が生成するダウンストリームアイテムランキングによって表現されるランキングの集合をランク付けする問題として、これを定式化する。 次に,問合せ提案を項目ランキングの質によってランク付けする学習方法を提案する。 このアルゴリズムは、アイテム(例えばクリック、購入など)に対するフィードバックを利用して、偏見のない推定器を通じてクエリ提案を評価することで、ユーザが最適なクエリを書いたり、選択したりするという仮定を避けることができる。 提案手法の理論的支援を確立し,学習理論の保証を提供する。 また、公開されているデータセットに実験結果を示し、オンラインショッピングストアのデータを用いて実世界の応用性を実証する。

Conventional methods for query autocompletion aim to predict which completed query a user will select from a list. A shortcoming of this approach is that users often do not know which query will provide the best retrieval performance on the current information retrieval system, meaning that any query autocompletion methods trained to mimic user behavior can lead to suboptimal query suggestions. To overcome this limitation, we propose a new approach that explicitly optimizes the query suggestions for downstream retrieval performance. We formulate this as a problem of ranking a set of rankings, where each query suggestion is represented by the downstream item ranking it produces. We then present a learning method that ranks query suggestions by the quality of their item rankings. The algorithm is based on a counterfactual learning approach that is able to leverage feedback on the items (e.g., clicks, purchases) to evaluate query suggestions through an unbiased estimator, thus avoiding the assumption that users write or select optimal queries. We establish theoretical support for the proposed approach and provide learning-theoretic guarantees. We also present empirical results on publicly available datasets, and demonstrate real-world applicability using data from an online shopping store.
翻訳日:2022-04-27 12:10:23 公開日:2022-04-22
# (参考訳) 文書理解のための統一事前学習フレームワーク

Unified Pretraining Framework for Document Understanding ( http://arxiv.org/abs/2204.10939v1 )

ライセンス: CC BY 4.0
Jiuxiang Gu, Jason Kuen, Vlad I. Morariu, Handong Zhao, Nikolaos Barmpalios, Rajiv Jain, Ani Nenkova, Tong Sun(参考訳) document intelligenceは、ドキュメントからの情報抽出を自動化し、多くのビジネスアプリケーションをサポートする。 近年,大規模未ラベル文書データセットの自己教師型学習手法が,自己教師型学習モデルによるアノテーションの取り組みの軽減に向けて,有望な方向を導いてきた。 しかし、既存の文書事前学習手法のほとんどは依然として言語に支配されている。 文書理解のための統合事前学習フレームワークであるUDocを紹介する。 UDocは、ほとんどのドキュメント理解タスクをサポートするように設計されており、Transformerを拡張してマルチモーダル埋め込みを入力とする。 各入力要素は、入力された文書画像の意味領域から単語と視覚的特徴から構成される。 udocの重要な特徴は、3つの自己教師付き損失を利用して汎用表現を学び、表現をモデル文に奨励し、類似性を学習し、モダリティを整合させることである。 広範な経験的分析は、事前学習手順がより良いジョイント表現を学習し、下流タスクを改善することを証明している。

Document intelligence automates the extraction of information from documents and supports many business applications. Recent self-supervised learning methods on large-scale unlabeled document datasets have opened up promising directions towards reducing annotation efforts by training models with self-supervised objectives. However, most of the existing document pretraining methods are still language-dominated. We present UDoc, a new unified pretraining framework for document understanding. UDoc is designed to support most document understanding tasks, extending the Transformer to take multimodal embeddings as input. Each input element is composed of words and visual features from a semantic region of the input document image. An important feature of UDoc is that it learns a generic representation by making use of three self-supervised losses, encouraging the representation to model sentences, learn similarities, and align modalities. Extensive empirical analysis demonstrates that the pretraining procedure learns better joint representations and leads to improvements in downstream tasks.
翻訳日:2022-04-27 11:47:57 公開日:2022-04-22
# (参考訳) 複数のブラックボックスモデルを用いた感度検出におけるバランシングフェアネスと精度

Balancing Fairness and Accuracy in Sentiment Detection using Multiple Black Box Models ( http://arxiv.org/abs/2204.10940v1 )

ライセンス: CC BY 4.0
Abdulaziz A. Almuzaini, Vivek K. Singh(参考訳) センチメント検出は、製品レコメンデーション、サイバーバブル検出、誤情報検出といった複数の情報検索タスクのための重要なビルディングブロックである。 当然のことながら、さまざまなレベルの精度と公平性を持つ複数の商用APIが、感情検出に利用できるようになった。 複数のモダリティやブラックボックスモデルからの入力を組み合わせることで精度を高めることはマルチメディア・コンピューティングの文献で一般的に研究されているが、結果の公平性を高めるために異なるモダリティを組み合わせる作業はほとんど行われていない。 本研究では,2つのアクターニュース見出し設定において,性バイアスに対する複数の商業感情検出APIを監査し,そのバイアスレベルについて報告する。 次に,複数のブラックボックスモデルから協調学習を行うことにより,良好な精度と公平性を確保する「フレキシブルフェア回帰」手法を提案する。 結果は、複数のアプリケーションに対する公平で正確な感情検知のための道を開いた。

Sentiment detection is an important building block for multiple information retrieval tasks such as product recommendation, cyberbullying detection, and misinformation detection. Unsurprisingly, multiple commercial APIs, each with different levels of accuracy and fairness, are now available for sentiment detection. While combining inputs from multiple modalities or black-box models for increasing accuracy is commonly studied in multimedia computing literature, there has been little work on combining different modalities for increasing fairness of the resulting decision. In this work, we audit multiple commercial sentiment detection APIs for the gender bias in two actor news headlines settings and report on the level of bias observed. Next, we propose a "Flexible Fair Regression" approach, which ensures satisfactory accuracy and fairness by jointly learning from multiple black-box models. The results pave way for fair yet accurate sentiment detectors for multiple applications.
翻訳日:2022-04-27 11:30:48 公開日:2022-04-22
# (参考訳) 甲状腺癌分類改善のためのマルチスケールマルチインスタンス学習の評価

Evaluation of Multi-Scale Multiple Instance Learning to Improve Thyroid Cancer Classification ( http://arxiv.org/abs/2204.10942v1 )

ライセンス: CC BY-SA 4.0
Maximilian E. Tschuchnig, Philipp Grubm\"uller, Lea M. Stangassinger, Christina Kreutzer, S\'ebastien Couillard-Despr\'es, Gertie J. Oostingh, Anton Hittmair, Michael Gadermayr(参考訳) 甲状腺癌は現在、女性で5番目に多い悪性腫瘍である。 がんサブタイプの分化は治療と電流にとって重要であるため、手動の手法は時間と主観的であり、がんのコンピュータ支援による自動分化が重要である。 甲状腺癌の手技による分化は,病理組織学的特徴を用いて病理組織学的に解析される。 巨大なギガピクセルのスライド画像のため、ディープラーニングを用いた総合的な分類は不可能である。 パッチベースの複数のインスタンス学習アプローチと、単語の袋のような集約の組み合わせは、一般的なアプローチです。 この研究の貢献は、3つの異なるパッチ解決の特徴ベクトルを生成し、組み合わせる3つの異なる方法を分析することで、パッチベースの最先端メソッドを拡張することである。 その結果,3つのマルチスケールアプローチのうちの1つが改善し,他の1つはスコアが低下した。 これは個々のアプローチの分析と議論の動機を与える。

Thyroid cancer is currently the fifth most common malignancy diagnosed in women. Since differentiation of cancer sub-types is important for treatment and current, manual methods are time consuming and subjective, automatic computer-aided differentiation of cancer types is crucial. Manual differentiation of thyroid cancer is based on tissue sections, analysed by pathologists using histological features. Due to the enormous size of gigapixel whole slide images, holistic classification using deep learning methods is not feasible. Patch based multiple instance learning approaches, combined with aggregations such as bag-of-words, is a common approach. This work's contribution is to extend a patch based state-of-the-art method by generating and combining feature vectors of three different patch resolutions and analysing three distinct ways of combining them. The results showed improvements in one of the three multi-scale approaches, while the others led to decreased scores. This provides motivation for analysis and discussion of the individual approaches.
翻訳日:2022-04-27 11:21:13 公開日:2022-04-22
# 糖尿病性足部潰瘍の臨床像の機械解釈分節への翻訳

Translating Clinical Delineation of Diabetic Foot Ulcers into Machine Interpretable Segmentation ( http://arxiv.org/abs/2204.11618v1 )

ライセンス: Link先を確認
Connah Kendrick, Bill Cassidy, Joseph M. Pappachan, Claire O'Shea, Cornelious J. Fernandez, Elias Chacko, Koshy Jacob, Neil D. Reeves, Moi Hoon Yap(参考訳) 糖尿病性足潰瘍は, 厳密なモニタリングと管理を必要とする重篤な疾患である。 潰瘍の自動診断のための機械学習方法を訓練するには、臨床スタッフは根拠となる真実の注釈を提供する必要がある。 本稿では,糖尿病性足部潰瘍の新しいデータセットであるdfuc2022を提案する。 深層学習ネットワークによる臨床記述が機械的解釈可能か,画像処理の精細な輪郭を使うべきかを評価する。 一般的なディープラーニングアルゴリズムの選択を用いてベンチマーク結果を提供することで,dfu創傷の限界に関する新たな知見を導き,関連する問題を報告する。 本稿では,MICCAI 2022と連携してDFUC2022 Challengeを実現するためのベースラインモデルについて述べる。 リーダーボードはDiceスコアでランク付けされ、最高のFCNベースのメソッドは0.5708、DeepLabv3+は0.6277である。 本稿では,精細な輪郭を用いた画像処理が,機械予測結果とよりよく一致できることを実証する。 DFUC2022は2022年4月27日にリリースされる。

Diabetic foot ulcer is a severe condition that requires close monitoring and management. For training machine learning methods to auto-delineate the ulcer, clinical staff must provide ground truth annotations. In this paper, we propose a new diabetic foot ulcers dataset, namely DFUC2022, the largest segmentation dataset where ulcer regions were manually delineated by clinicians. We assess whether the clinical delineations are machine interpretable by deep learning networks or if image processing refined contour should be used. By providing benchmark results using a selection of popular deep learning algorithms, we draw new insights into the limitations of DFU wound delineation and report on the associated issues. This paper provides some observations on baseline models to facilitate DFUC2022 Challenge in conjunction with MICCAI 2022. The leaderboard will be ranked by Dice score, where the best FCN-based method is 0.5708 and DeepLabv3+ achieved the best score of 0.6277. This paper demonstrates that image processing using refined contour as ground truth can provide better agreement with machine predicted results. DFUC2022 will be released on the 27th April 2022.
翻訳日:2022-04-26 15:40:54 公開日:2022-04-22
# スケーラブル分散AIトレーニングシステムのためのFPGAベースのAIスマートNIC

FPGA-based AI Smart NICs for Scalable Distributed AI Training Systems ( http://arxiv.org/abs/2204.10943v1 )

ライセンス: Link先を確認
Rui Ma, Evangelos Georganas, Alexander Heinecke, Andrew Boutros, Eriko Nurvitadhi(参考訳) 人工知能(AI)技術の急速な進歩は、より大規模で計算集約的なモデルによって、無数のアプリケーションドメインにおいて、大幅な精度向上をもたらした。 このようなモデルを大量のデータでトレーニングするには、通常、多くの計算ノードへのスケーリングが必要であり、異なるノード間の重み勾配を交換するために、all-reduceのような集合的通信アルゴリズムに大きく依存する。 分散AIトレーニングシステムにおけるこれらの集合的通信操作のオーバーヘッドは、ノード数が増加するにつれてより顕著な効果で、そのパフォーマンスをボトルネックにすることができる。 本稿では,分散AIトレーニングのプロファイリングにより,まず全リデューサ動作のオーバーヘッドを特徴付ける。 そこで我々は,フィールドプログラマブルゲートアレイ(FPGA)を用いた分散AI訓練システムのための新しいスマートネットワークインタフェースカード(NIC)を提案し,全リデューサ操作を高速化し,データ圧縮によるネットワーク帯域幅利用を最適化する。 AIスマートNICは、より計算集約的なテンソル操作を実行するためにシステムの計算リソースを解放し、ノード間通信の効率を全般的に向上させる。 提案するFPGAベースのAIスマートNICの性能向上を,通常のNICを用いたベースラインシステムと比較して評価するために,6つの計算ノードからなる分散AIトレーニングシステムを用いて実測を行った。 また,これらの測定値を用いて解析モデルを検証することにより,大規模システムへのスケーリング時のパフォーマンス予測を行う。 提案するFPGAベースのAIスマートNICは,従来のNICを用いたベースラインシステムと比較して,6ノードで1.6倍,32ノードで2.5倍の性能向上が期待できる。

Rapid advances in artificial intelligence (AI) technology have led to significant accuracy improvements in a myriad of application domains at the cost of larger and more compute-intensive models. Training such models on massive amounts of data typically requires scaling to many compute nodes and relies heavily on collective communication algorithms, such as all-reduce, to exchange the weight gradients between different nodes. The overhead of these collective communication operations in a distributed AI training system can bottleneck its performance, with more pronounced effects as the number of nodes increases. In this paper, we first characterize the all-reduce operation overhead by profiling distributed AI training. Then, we propose a new smart network interface card (NIC) for distributed AI training systems using field-programmable gate arrays (FPGAs) to accelerate all-reduce operations and optimize network bandwidth utilization via data compression. The AI smart NIC frees up the system's compute resources to perform the more compute-intensive tensor operations and increases the overall node-to-node communication efficiency. We perform real measurements on a prototype distributed AI training system comprised of 6 compute nodes to evaluate the performance gains of our proposed FPGA-based AI smart NIC compared to a baseline system with regular NICs. We also use these measurements to validate an analytical model that we formulate to predict performance when scaling to larger systems. Our proposed FPGA-based AI smart NIC enhances overall training performance by 1.6x at 6 nodes, with an estimated 2.5x performance improvement at 32 nodes, compared to the baseline system using conventional NICs.
翻訳日:2022-04-26 14:50:39 公開日:2022-04-22
# プライバシ保護型ニューラルアーキテクチャ検索を目指して

Towards Privacy-Preserving Neural Architecture Search ( http://arxiv.org/abs/2204.10958v1 )

ライセンス: Link先を確認
Fuyi Wang and Leo Yu Zhang and Lei Pan and Shengshan Hu and Robin Doss(参考訳) 機械学習は、ネットワークトラフィック監視、EEG分類、顔認証など、さまざまな分野における信号処理の継続的な開発を促進する。 しかし、ディープラーニングモデルのトレーニングのために収集された膨大なユーザデータは、プライバシの懸念を高め、ネットワーク構造を手動で調整することが困難になる。 これらの問題に対処するために,ユーザのデータとモデルのパラメータ/ハイパーパラメータを保護するために,セキュアなマルチパーティ計算に基づくプライバシ保護型ニューラルネットワーク探索(PP-NAS)フレームワークを提案する。 PP-NASはNASタスクを2つの非凝固クラウドサーバにアウトソースし、混合プロトコル設計を最大限に活用する。 既存のPP機械学習フレームワークを補完して、セキュアなReLUとMax-poolingのガーブロード回路を大幅に効率良く再設計する(3 \sim 436$ times speed-up)。 我々は,softmax における指数関数近似の限界を回避し,精度を向上し,秘密共有よりも softmax 関数を近似する新しい手法を開発した。 広範な分析と実験により、pp-nasの安全性、効率、正確性が証明された。

Machine learning promotes the continuous development of signal processing in various fields, including network traffic monitoring, EEG classification, face identification, and many more. However, massive user data collected for training deep learning models raises privacy concerns and increases the difficulty of manually adjusting the network structure. To address these issues, we propose a privacy-preserving neural architecture search (PP-NAS) framework based on secure multi-party computation to protect users' data and the model's parameters/hyper-parameters. PP-NAS outsources the NAS task to two non-colluding cloud servers for making full advantage of mixed protocols design. Complement to the existing PP machine learning frameworks, we redesign the secure ReLU and Max-pooling garbled circuits for significantly better efficiency ($3 \sim 436$ times speed-up). We develop a new alternative to approximate the Softmax function over secret shares, which bypasses the limitation of approximating exponential operations in Softmax while improving accuracy. Extensive analyses and experiments demonstrate PP-NAS's superiority in security, efficiency, and accuracy.
翻訳日:2022-04-26 14:50:15 公開日:2022-04-22
# 学習画像圧縮のためのアイデンティティ保存損失

Identity Preserving Loss for Learned Image Compression ( http://arxiv.org/abs/2204.10869v1 )

ライセンス: Link先を確認
Jiuhong Xiao, Lavisha Aggarwal, Prithviraj Banerjee, Manoj Aggarwal and Gerard Medioni(参考訳) 組み込みデバイス上でのディープラーニングモデル推論は、計算リソースが限られているため、難しい。 一般的な代替手段は、組み込みデバイスからクラウドにイメージを送信する必要があるクラウド上でモデル推論を実行することである。 画像圧縮技術は、低帯域幅ネットワーク上の伝送遅延を低減するために、クラウドベースのアーキテクチャで一般的に用いられている。 本研究は、ダウンストリームタスク(認識など)の精度を維持しながら、標準HEVC/JPEG圧縮技術よりも高い圧縮比を達成するために、ドメイン固有の特徴を学習するエンドツーエンド画像圧縮フレームワークを提案する。 私たちのフレームワークでは、ダウンストリームタスクの微調整は必要ありません。 代表的なダウンストリームタスクとして、データセットとオフセット認識モデルが利用可能であるため、アプリケーションドメインとして顔を選択します。 本稿では,lfw (low- resolution) とceleba-hq (high- resolution) データセットに対する crf-23 hevc 圧縮の ~38% と ~42% のビット毎ピクセル (bpp) の圧縮を,認識精度のパリティを保ちながら達成する,ipr損失関数を提案する。 モデルがドメイン固有の特徴(例えば顔の特徴)を保持することを学習し、背景の詳細を犠牲にして、優れた圧縮比を達成する。 さらに,提案した圧縮モデルにより再構成された画像は,下流モデルアーキテクチャの変化に対して堅牢である。 CRF-23 HEVC圧縮の38%程度の低いBPP値を維持しながら、未確認の認識モデルを用いてLFWデータセット上での at-par 認識性能を示す。

Deep learning model inference on embedded devices is challenging due to the limited availability of computation resources. A popular alternative is to perform model inference on the cloud, which requires transmitting images from the embedded device to the cloud. Image compression techniques are commonly employed in such cloud-based architectures to reduce transmission latency over low bandwidth networks. This work proposes an end-to-end image compression framework that learns domain-specific features to achieve higher compression ratios than standard HEVC/JPEG compression techniques while maintaining accuracy on downstream tasks (e.g., recognition). Our framework does not require fine-tuning of the downstream task, which allows us to drop-in any off-the-shelf downstream task model without retraining. We choose faces as an application domain due to the ready availability of datasets and off-the-shelf recognition models as representative downstream tasks. We present a novel Identity Preserving Reconstruction (IPR) loss function which achieves Bits-Per-Pixel (BPP) values that are ~38% and ~42% of CRF-23 HEVC compression for LFW (low-resolution) and CelebA-HQ (high-resolution) datasets, respectively, while maintaining parity in recognition accuracy. The superior compression ratio is achieved as the model learns to retain the domain-specific features (e.g., facial features) while sacrificing details in the background. Furthermore, images reconstructed by our proposed compression model are robust to changes in downstream model architectures. We show at-par recognition performance on the LFW dataset with an unseen recognition model while retaining a lower BPP value of ~38% of CRF-23 HEVC compression.
翻訳日:2022-04-26 14:25:28 公開日:2022-04-22
# オートエンコーダ(GESTA)を用いたトラクトグラフィーにおける生成的サンプリング

Generative sampling in tractography using autoencoders (GESTA) ( http://arxiv.org/abs/2204.10891v1 )

ライセンス: Link先を確認
Jon Haitz Legarreta and Laurent Petit and Pierre-Marc Jodoin and Maxime Descoteaux(参考訳) 現在の道造影法は、局所方向情報を用いて、種子位置から流線を伝播させる。 このような種の多くは、ホワイトマターバンドルが他のものよりも「追跡が難しい」ため、早期停止や真の経路のマッピングに失敗する流線型を提供する。 その結果,白白白質と白質の空間被覆を欠いたトラクトグラフィーの再建が可能となった。 本研究では, GESTA (Generative Smpling in Tractography using Autoencoder) と呼ばれる生成型オートエンコーダに基づく手法を提案する。 他のディープラーニング手法と比較して、我々のオートエンコーダベースのフレームワークは、事前または固定されたバンドルセットに制約されない。 GESTAは、あらゆるホワイトマターバンドルに対して、新しく完全なストリームラインを生成する。 GESTAは人工脳とヒト脳の両方で有効であることが示されている。 我々の流線型評価フレームワークは,GESTAが生成する流線型が解剖学的に妥当であり,局所拡散信号に適合していることを保証する。 流線形評価基準は, 解剖学(白色物質被覆), 局所配向(方向), 流線型の幾何学的特徴, 灰白物質接続性を評価した。 GESTAフレームワークは、"Fiber Cup"の1.5倍の改善とISMRM 2015 Tractography Challengeデータセットの6倍の強化されたシードストリームラインを使用して、バンドルカバレッジを大幅に向上させる。 同様に、BIL&GINのカルロシンホモトピーデータセットに4倍の白色物質量増加を与える。 また、フォニックスや他のハード・ツー・トラック・バンドルのような低密度のバンドルでin vivoデータ上で新しいストリームラインを生成することに成功した。 したがってgestaは、ハード・トゥ・トラックバンドルのホワイトマター再構成を改善する最初のディープ・トラクトグラフィ生成法である。

Current tractography methods use the local orientation information to propagate streamlines from seed locations. Many such seeds provide streamlines that stop prematurely or fail to map the true pathways because some white matter bundles are "harder-to-track" than others. This results in tractography reconstructions with poor white and gray matter spatial coverage. In this work, we propose a generative, autoencoder-based method, named GESTA (Generative Sampling in Tractography using Autoencoders), that produces streamlines with better spatial coverage. Compared to other deep learning methods, our autoencoder-based framework is not constrained by any prior or a fixed set of bundles. GESTA produces new and complete streamlines for any white matter bundle. GESTA is shown to be effective on both synthetic and human brain in vivo data. Our streamline evaluation framework ensures that the streamlines produced by GESTA are anatomically plausible and fit well to the local diffusion signal. The streamline evaluation criteria assess anatomy (white matter coverage), local orientation alignment (direction), geometry features of streamlines, and optionally, gray matter connectivity. The GESTA framework offers considerable gains in bundle coverage using a reduced set of seeding streamlines with a 1.5x improvement for the "Fiber Cup", and 6x for the ISMRM 2015 Tractography Challenge datasets. Similarly, it provides a 4x white matter volume increase on the BIL&GIN callosal homotopic dataset. It also successfully generates new streamlines in poorly populated bundles, such as the fornix and other hard-to-track bundles, on in vivo data. GESTA is thus the first deep tractography generative method that can improve white matter reconstruction of hard-to-track bundles.
翻訳日:2022-04-26 13:41:36 公開日:2022-04-22
# 数分で牧草地を作る:ホルシュタイン・フリース牛の個体識別

Label a Herd in Minutes: Individual Holstein-Friesian Cattle Identification ( http://arxiv.org/abs/2204.10905v1 )

ライセンス: Link先を確認
Jing Gao, Tilo Burghardt, and Neill W. Campbell(参考訳) 本報告では,10分間のラベリング作業に留まらず,農場全体の視覚牛idシステムを訓練するための実践的評価手法について述べる。 特に,実世界の農業CCTVにおけるホルシュタイン・フリース人個人の自動識別作業において,牛の識別フレームワークの訓練に必要なアノテーション要件を大幅に削減するために,自己監督,計量学習,クラスタ分析,アクティブラーニングが相互に補完可能であることを示す。 公開されているCows2021データセットのテスト部分に対するアプローチを評価するために、運用中の農場の映像で自動配向牛の検出と追跡によって生成される435個のトラックレットに対して23,350フレームを使用します。 自己教師付きメートル法学習はまずまず、それぞれのトラックレットが別個の実体と見なされる候補のアイデンティティ空間を初期化する。 エンティティを牛のアイデンティティを表す等価クラスにグループ化することは、クラスタ分析とアクティブラーニングによる自動マージによって行われる。 重要な点として,アノテーションを最小限に抑えるため,人間の介入に基づいて自動選択が改善を再現できない点を特定する。 実験結果から,自動自己監督後のクラスタ分析と数分間のラベリングにより,自己監督のみで得られた74.9%(ARI=0.754)から153アイデンティティの検定精度が92.44%(ARI=0.93)に向上することが示された。 これらの有望な結果は、視覚牛のIDパイプラインにおける人間と機械の推論を調整した組み合わせは、最小限のラベル付け作業しか必要とせず、非常に効果的であることを示している。 この論文では、ソースコードとネットワークの重み付けを全て提供し、結果の再現を容易にする。

We describe a practically evaluated approach for training visual cattle ID systems for a whole farm requiring only ten minutes of labelling effort. In particular, for the task of automatic identification of individual Holstein-Friesians in real-world farm CCTV, we show that self-supervision, metric learning, cluster analysis, and active learning can complement each other to significantly reduce the annotation requirements usually needed to train cattle identification frameworks. Evaluating the approach on the test portion of the publicly available Cows2021 dataset, for training we use 23,350 frames across 435 single individual tracklets generated by automated oriented cattle detection and tracking in operational farm footage. Self-supervised metric learning is first employed to initialise a candidate identity space where each tracklet is considered a distinct entity. Grouping entities into equivalence classes representing cattle identities is then performed by automated merging via cluster analysis and active learning. Critically, we identify the inflection point at which automated choices cannot replicate improvements based on human intervention to reduce annotation to a minimum. Experimental results show that cluster analysis and a few minutes of labelling after automated self-supervision can improve the test identification accuracy of 153 identities to 92.44% (ARI=0.93) from the 74.9% (ARI=0.754) obtained by self-supervision only. These promising results indicate that a tailored combination of human and machine reasoning in visual cattle ID pipelines can be highly effective whilst requiring only minimal labelling effort. We provide all key source code and network weights with this paper for easy result reproduction.
翻訳日:2022-04-26 13:00:13 公開日:2022-04-22
# 4次元ニューラルフィールドによるオクルージョンの解明

Revealing Occlusions with 4D Neural Fields ( http://arxiv.org/abs/2204.10916v1 )

ライセンス: Link先を確認
Basile Van Hoorick, Purva Tendulka, Didac Suris, Dennis Park, Simon Stent, Carl Vondrick(参考訳) コンピュータビジョンシステムが動的な状況で動作するためには、オブジェクトの永続性を表現し、推論する必要がある。 我々は,物体が閉塞された場合でも,物体を持続できる単眼RGB-Dから4次元視覚表現を推定する学習フレームワークを提案する。 従来のビデオ表現とは異なり、点雲を連続的な表現にエンコードし、そのモデルが対時的コンテキストを横断してオクルージョンを解決することを可能にする。 本稿では,本論文とともに公開する2つの大規模ビデオデータセットを用いて,アーキテクチャ上の変更を伴わずに,複数のタスクの排除をうまく表現できることを示す。 可視化では、注意機構が隠された物体を自動で追従することを示している。 我々のアプローチはエンドツーエンドで訓練でき、容易に適応できるので、多くのビデオ理解タスクにおける閉塞処理に役立ちます。 データ、コード、モデルはhttps://occlusions.cs.columbia.edu/で入手できる。

For computer vision systems to operate in dynamic situations, they need to be able to represent and reason about object permanence. We introduce a framework for learning to estimate 4D visual representations from monocular RGB-D, which is able to persist objects, even once they become obstructed by occlusions. Unlike traditional video representations, we encode point clouds into a continuous representation, which permits the model to attend across the spatiotemporal context to resolve occlusions. On two large video datasets that we release along with this paper, our experiments show that the representation is able to successfully reveal occlusions for several tasks, without any architectural changes. Visualizations show that the attention mechanism automatically learns to follow occluded objects. Since our approach can be trained end-to-end and is easily adaptable, we believe it will be useful for handling occlusions in many video understanding tasks. Data, code, and models are available at https://occlusions.cs.columbia.edu/.
翻訳日:2022-04-26 12:59:46 公開日:2022-04-22
# HRPlanes:ディープラーニングのための高解像度航空機データセット

HRPlanes: High Resolution Airplane Dataset for Deep Learning ( http://arxiv.org/abs/2204.10959v1 )

ライセンス: Link先を確認
Tolga Bakirman and Elif Sertel(参考訳) 衛星画像からの航空機検出は、画像の複雑な背景とセンサー形状と大気効果に起因するデータ取得条件の違いのため、難しい課題である。 深層学習は,航空機の自動検出のための信頼性の高い高精度な手法を提供するが,有望な結果を得るためには大量のトレーニングデータが必要である。 本研究では,Google Earth(GE)の画像を用いて,各平面の境界ボックスにラベルを付けることで,高分解能平面(HRPlanes)と呼ばれる新しい航空機検出データセットを作成する。 HRPlanは、様々な衛星から得られた様々な地形、季節、衛星の幾何学的条件を表すために、世界中の様々な空港のGE画像を含む。 我々は, YOLOv4とFaster R-CNNという2つの広く使われているオブジェクト検出手法を用いて, データセットの評価を行った。 予備結果は,提案するデータセットが将来のアプリケーションにとって有用なデータソースおよびベンチマークデータセットとなることを示す。 さらに,提案するアーキテクチャと結果は,航空機検出のための異なるデータセットとモデルの転送学習に利用可能である。

Airplane detection from satellite imagery is a challenging task due to the complex backgrounds in the images and differences in data acquisition conditions caused by the sensor geometry and atmospheric effects. Deep learning methods provide reliable and accurate solutions for automatic detection of airplanes; however, huge amount of training data is required to obtain promising results. In this study, we create a novel airplane detection dataset called High Resolution Planes (HRPlanes) by using images from Google Earth (GE) and labeling the bounding box of each plane on the images. HRPlanes include GE images of several different airports across the world to represent a variety of landscape, seasonal and satellite geometry conditions obtained from different satellites. We evaluated our dataset with two widely used object detection methods namely YOLOv4 and Faster R-CNN. Our preliminary results show that the proposed dataset can be a valuable data source and benchmark data set for future applications. Moreover, proposed architectures and results of this study could be used for transfer learning of different datasets and models for airplane detection.
翻訳日:2022-04-26 12:41:12 公開日:2022-04-22
# 自然言語モデル理解における局所的特徴の帰属

Locally Aggregated Feature Attribution on Natural Language Model Understanding ( http://arxiv.org/abs/2204.10893v1 )

ライセンス: Link先を確認
Sheng Zhang, Jin Wang, Haitao Jiang, Rui Song(参考訳) ディープラーニングモデルの人気が高まり、モデル理解がより重要になる。 深いニューラルネットワークを解釈しやすくするために、多くの努力が注がれている。 いくつかの特徴帰属法はコンピュータビジョンにおいて有望な結果を示しており、特に基準データによる勾配の円滑化が堅牢で忠実な結果の鍵となっている。 しかし、nlpタスクへの勾配に基づくメソッドの直接適用は、入力が離散トークンで構成され、「参照」トークンが明示的に定義されていないため、自明ではない。 本研究では,NLPモデルのための新しい勾配に基づく特徴属性法である局所集約特徴属性(LAFA)を提案する。 あいまいな参照トークンに頼る代わりに、言語モデル埋め込みから派生した類似参照テキストを集約することで勾配を滑らかにする。 評価目的として,公開データセットのエンティティ認識や感情分析,構築したamazonカタログデータセットにおけるキー特徴検出など,さまざまなnlpタスクに関する実験も設計する。 提案手法の優れた性能を実験により実証した。

With the growing popularity of deep-learning models, model understanding becomes more important. Much effort has been devoted to demystify deep neural networks for better interpretability. Some feature attribution methods have shown promising results in computer vision, especially the gradient-based methods where effectively smoothing the gradients with reference data is key to a robust and faithful result. However, direct application of these gradient-based methods to NLP tasks is not trivial due to the fact that the input consists of discrete tokens and the "reference" tokens are not explicitly defined. In this work, we propose Locally Aggregated Feature Attribution (LAFA), a novel gradient-based feature attribution method for NLP models. Instead of relying on obscure reference tokens, it smooths gradients by aggregating similar reference texts derived from language model embeddings. For evaluation purpose, we also design experiments on different NLP tasks including Entity Recognition and Sentiment Analysis on public datasets as well as key feature detection on a constructed Amazon catalogue dataset. The superior performance of the proposed method is demonstrated through experiments.
翻訳日:2022-04-26 12:26:45 公開日:2022-04-22
# 映像・言語接地のための多レベルアライメント訓練手法

A Multi-level Alignment Training Scheme for Video-and-Language Grounding ( http://arxiv.org/abs/2204.10938v1 )

ライセンス: Link先を確認
Yubo Zhang, Feiyang Niu, Qing Ping, Govind Thattai(参考訳) ビデオと言語の接地課題を解決するために、ネットワークが2つのモード間の接続を理解することが鍵となる。 一対のビデオと言語の記述では、それらの意味関係はエンコーディングの類似性によって反映される。 優れたマルチモダリティエンコーダは、入力の両方のセマンティクスをうまく捉えて、埋め込み距離がそれらのセマンティクスの類似性に適切に変換される共有機能空間にエンコードできるべきです。 本研究では,ビデオと言語間のセマンティックな関係に着目し,符号化プロセスを直接形作る多段階アライメントトレーニング手法を開発した。 ビデオ言語アライメントペアのグローバルレベルとセグメントレベルは、高レベルコンテキストから細粒度セマンティクスまでの情報類似性に基づいて設計された。 対照的な損失は、正のアライメント対と負のアライメント対のエンコーディングの類似性を対比し、異なるセマンティクスの情報を保持しながら、類似情報が共有特徴空間に密にエンコードされるようにネットワークを訓練するために用いられた。 マルチレベルアライメントトレーニングは,様々なビデオ・言語グラウンドタスクに適用できる。 タスク固有のトレーニング損失とともに、我々のフレームワークは、複数のビデオQAおよび検索データセットにおける過去の最先端技術と同等のパフォーマンスを達成した。

To solve video-and-language grounding tasks, the key is for the network to understand the connection between the two modalities. For a pair of video and language description, their semantic relation is reflected by their encodings' similarity. A good multi-modality encoder should be able to well capture both inputs' semantics and encode them in the shared feature space where embedding distance gets properly translated into their semantic similarity. In this work, we focused on this semantic connection between video and language, and developed a multi-level alignment training scheme to directly shape the encoding process. Global and segment levels of video-language alignment pairs were designed, based on the information similarity ranging from high-level context to fine-grained semantics. The contrastive loss was used to contrast the encodings' similarities between the positive and negative alignment pairs, and to ensure the network is trained in such a way that similar information is encoded closely in the shared feature space while information of different semantics is kept apart. Our multi-level alignment training can be applied to various video-and-language grounding tasks. Together with the task-specific training loss, our framework achieved comparable performance to previous state-of-the-arts on multiple video QA and retrieval datasets.
翻訳日:2022-04-26 12:11:13 公開日:2022-04-22
# SegDiscover: 教師なしセマンティックセグメンテーションによる視覚概念発見

SegDiscover: Visual Concept Discovery via Unsupervised Semantic Segmentation ( http://arxiv.org/abs/2204.10926v1 )

ライセンス: Link先を確認
Haiyang Huang, Zhi Chen, Cynthia Rudin(参考訳) 意味的に意味のある概念のバンクは、理解可能な推論プロセスを示す機械学習モデルを構築するための出発点となります。 従来の方法には欠点がある:それらは「有用」なオブジェクトに対する人間のバイアスを含むラベル付きサポートセットに依存するか、1つのイメージ内で発生する複数の概念を特定するのに失敗する。 我々は,概念発見タスクを教師なし意味セグメンテーション問題として再構成し,複雑なシーンを持つ画像データセットから意味的に意味のある視覚概念を無監督で発見する新しいフレームワークsegdiscoverを提案する。 提案手法は,生画像から概念プリミティブを生成すること,自己教師付き事前学習エンコーダの潜在空間におけるクラスタリングによる概念発見,ニューラルネットワークスムージングによる概念改善の3つの重要な部分を含む。 実験結果から,本手法が単一画像内で複数の概念を発見できることを示すとともに,CityscapesやCOCO-Stuffといった複雑なデータセット上で,最先端の教師なし手法より優れていることを示す。 本手法は, 異なるエンコーダで得られた結果を比較することで, ニューラルネットワークの解説ツールとしてさらに活用できる。

Visual concept discovery has long been deemed important to improve interpretability of neural networks, because a bank of semantically meaningful concepts would provide us with a starting point for building machine learning models that exhibit intelligible reasoning process. Previous methods have disadvantages: either they rely on labelled support sets that incorporate human biases for objects that are "useful," or they fail to identify multiple concepts that occur within a single image. We reframe the concept discovery task as an unsupervised semantic segmentation problem, and present SegDiscover, a novel framework that discovers semantically meaningful visual concepts from imagery datasets with complex scenes without supervision. Our method contains three important pieces: generating concept primitives from raw images, discovering concepts by clustering in the latent space of a self-supervised pretrained encoder, and concept refinement via neural network smoothing. Experimental results provide evidence that our method can discover multiple concepts within a single image and outperforms state-of-the-art unsupervised methods on complex datasets such as Cityscapes and COCO-Stuff. Our method can be further used as a neural network explanation tool by comparing results obtained by different encoders.
翻訳日:2022-04-26 12:10:26 公開日:2022-04-22
# 色変化型皮膚セグメンテーション

Color Invariant Skin Segmentation ( http://arxiv.org/abs/2204.09882v2 )

ライセンス: Link先を確認
Han Xu, Abhijit Sarkar, A. Lynn Abbott(参考訳) 本稿では,カラー情報に頼らずに画像中の肌を自動的に検出する問題に対処する。 この研究の主な動機は、より軽い皮膚のトーンにかなり偏ったトレーニングデータセットを使用しても、皮膚のトーン全体にわたって一貫性のある結果を達成することである。 従来の皮膚検出法では,色覚をほぼ排他的に用いており,そのような情報がない場合にも有効に機能する新しいアプローチを提案する。 この作業の重要な側面は、トレーニング中に戦略的に適用される拡張によるデータセットの修復であり、一般化を促進するために色不変特徴学習(color invariant feature learning)を目標としている。 我々は,この概念を2つのアーキテクチャを用いて実証し,実験結果から,ベンチマークECUデータセットのほとんどのFitzpatrickスキントーンに対する精度とリコールの改善が示された。 さらにrfwデータセットを用いて実験を行い,提案手法が異なる民族間でより一貫して機能することを示し,肌色に基づくバイアスの可能性を低減した。 本研究の有効性を実証するため, グレースケール画像と非拘束照明下で得られた画像と人工フィルタを用いて広範囲な実験を行った。 ソースコード:https://github.com/HanXuMartin/Color-Invariant-Skin-Segmentation

This paper addresses the problem of automatically detecting human skin in images without reliance on color information. A primary motivation of the work has been to achieve results that are consistent across the full range of skin tones, even while using a training dataset that is significantly biased toward lighter skin tones. Previous skin-detection methods have used color cues almost exclusively, and we present a new approach that performs well in the absence of such information. A key aspect of the work is dataset repair through augmentation that is applied strategically during training, with the goal of color invariant feature learning to enhance generalization. We have demonstrated the concept using two architectures, and experimental results show improvements in both precision and recall for most Fitzpatrick skin tones in the benchmark ECU dataset. We further tested the system with the RFW dataset to show that the proposed method performs much more consistently across different ethnicities, thereby reducing the chance of bias based on skin color. To demonstrate the effectiveness of our work, extensive experiments were performed on grayscale images as well as images obtained under unconstrained illumination and with artificial filters. Source code: https://github.com/HanXuMartin/Color-Invariant-Skin-Segmentation
翻訳日:2022-04-26 10:33:07 公開日:2022-04-22
# (参考訳) SCOPE:動的コンピュータシステム最適化のための安全な探索

SCOPE: Safe Exploration for Dynamic Computer Systems Optimization ( http://arxiv.org/abs/2204.10451v1 )

ライセンス: CC BY 4.0
Hyunji Kim, Ahsan Pervaiz, Henry Hoffmann, Michael Carbin, Yi Ding(参考訳) 現代のコンピュータシステムは厳格な安全性の制約(電力制限など)の下で実行する必要があるが、高い性能(すなわち最小のレイテンシ)を提供する能力と相反することが多い。 以前の作業では、機械学習を使用して、システム実行が安全上の制約を最適に満たすように、ハードウェアリソースを自動チューニングする。 このようなソリューションは過去のシステム実行を監視し、異なるハードウェアリソース割り当ての下でシステムの振る舞いを学習した後、動的にリソースをチューニングしてアプリケーション実行を最適化します。 しかし、システム動作は異なるアプリケーションと、同じアプリケーションの異なる入力の間で大きく変化する可能性がある。 したがって、事前に収集したデータを用いて学習したモデルは、しばしば準最適であり、新しいアプリケーションや入力で使用する場合の安全性の制約に違反する。 この制限に対処するため,ハードウェアリソース,入力機能,アプリケーションのクロス製品である実行空間の概念を導入する。 ハードウェアリソースを動的かつ安全に実行空間から割り当てるために,新しい安全な探索フレームワークを活用した資源マネージャSCOPEを提案する。 我々は、さまざまなapache sparkアプリケーションを実行しながらハードウェアを動的に構成することで、パワー制約違反を最小限に抑えながら、レイテンシーを改善するスコープの能力を評価する。 電力制約違反を最小限に抑える以前のアプローチと比較して、SCOPEは9.5Xまでのレイテンシを改善しながら、同等の電力を消費する。 レイテンシを最小化する従来のアプローチと比較して、SCOPEは同様のレイテンシを実現するが、電力制約違反率を最大45.88倍に削減し、すべてのアプリケーションに対してほぼゼロの安全性制約違反を実現する。

Modern computer systems need to execute under strict safety constraints (e.g., a power limit), but doing so often conflicts with their ability to deliver high performance (i.e. minimal latency). Prior work uses machine learning to automatically tune hardware resources such that the system execution meets safety constraints optimally. Such solutions monitor past system executions to learn the system's behavior under different hardware resource allocations before dynamically tuning resources to optimize the application execution. However, system behavior can change significantly between different applications and even different inputs of the same applications. Hence, the models learned using data collected a priori are often suboptimal and violate safety constraints when used with new applications and inputs. To address this limitation, we introduce the concept of an execution space, which is the cross product of hardware resources, input features, and applications. To dynamically and safely allocate hardware resources from the execution space, we present SCOPE, a resource manager that leverages a novel safe exploration framework. We evaluate SCOPE's ability to deliver improved latency while minimizing power constraint violations by dynamically configuring hardware while running a variety of Apache Spark applications. Compared to prior approaches that minimize power constraint violations, SCOPE consumes comparable power while improving latency by up to 9.5X. Compared to prior approaches that minimize latency, SCOPE achieves similar latency but reduces power constraint violation rates by up to 45.88X, achieving almost zero safety constraint violations across all applications.
翻訳日:2022-04-26 00:32:52 公開日:2022-04-22
# (参考訳) テキスト・画像合成のための繰り返しアフィン変換

Recurrent Affine Transformation for Text-to-image Synthesis ( http://arxiv.org/abs/2204.10482v1 )

ライセンス: CC BY 4.0
Senmao Ye, Fei Liu, Minkui Tan(参考訳) テキストから画像への合成は、テキスト記述に基づいて自然画像を生成することを目的としている。 この課題の主な難点は、テキスト情報を画像合成プロセスに効果的に融合することである。 既存の手法は通常、適切なテキスト情報を複数の独立した融合ブロック(例えば条件付きバッチ正規化とインスタンス正規化)で合成プロセスに適応的に融合する。 しかし、孤立した核融合ブロックは互いに衝突するだけでなく、訓練の難しさも増す(補足の第一ページ参照)。 これらの問題に対処するために,我々は,すべての融合ブロックをリカレントニューラルネットワークと接続し,その長期依存をモデル化する生成的逆向ネットワークのためのリカレントアフィン変換(rat)を提案する。 さらに,テキストと合成画像間の意味的一貫性を向上させるために,空間的注意モデルを識別器に組み込む。 画像領域の一致を認識したテキスト記述は、ジェネレータを監督し、より関連性の高い画像コンテンツを合成する。 CUB, Oxford-102 および COCO データセットの大規模な実験は、最先端のモデルである \footnote{https://github.com/senmaoy/recurrent-Affine-Transformation-for-Text-to-image-Synthesis.git} と比較して提案モデルが優れていることを示している。

Text-to-image synthesis aims to generate natural images conditioned on text descriptions. The main difficulty of this task lies in effectively fusing text information into the image synthesis process. Existing methods usually adaptively fuse suitable text information into the synthesis process with multiple isolated fusion blocks (e.g., Conditional Batch Normalization and Instance Normalization). However, isolated fusion blocks not only conflict with each other but also increase the difficulty of training (see first page of the supplementary). To address these issues, we propose a Recurrent Affine Transformation (RAT) for Generative Adversarial Networks that connects all the fusion blocks with a recurrent neural network to model their long-term dependency. Besides, to improve semantic consistency between texts and synthesized images, we incorporate a spatial attention model in the discriminator. Being aware of matching image regions, text descriptions supervise the generator to synthesize more relevant image contents. Extensive experiments on the CUB, Oxford-102 and COCO datasets demonstrate the superiority of the proposed model in comparison to state-of-the-art models \footnote{https://github.com/senmaoy/Recurrent-Affine-Transformation-for-Text-to-image-Synthesis.git}
翻訳日:2022-04-26 00:07:50 公開日:2022-04-22
# (参考訳) NLPによるカテゴリー時系列の異常検出

NLP Based Anomaly Detection for Categorical Time Series ( http://arxiv.org/abs/2204.10483v1 )

ライセンス: CC BY 4.0
Matthew Horak and Sowmya Chandrasekaran and Giovanni Tobar(参考訳) 大規模多次元時系列における異常の同定は、複数の領域にわたる重要かつ困難なタスクである。 自然界においていくつかの変数がカテゴリー的である場合、このタスクに対処する文献にはほとんど方法がない。 本稿では,分類時系列と古典自然言語処理の類似性を定式化するとともに,3つの異なる機械学習異常検出モデルとそれに基づく根本原因調査モデルを実装しテストすることにより,異常検出と根本原因調査のためのこのアナロジーの強みを実証する。

Identifying anomalies in large multi-dimensional time series is a crucial and difficult task across multiple domains. Few methods exist in the literature that address this task when some of the variables are categorical in nature. We formalize an analogy between categorical time series and classical Natural Language Processing and demonstrate the strength of this analogy for anomaly detection and root cause investigation by implementing and testing three different machine learning anomaly detection and root cause investigation models based upon it.
翻訳日:2022-04-25 23:56:18 公開日:2022-04-22
# (参考訳) フェデレート学習のロバストなcovid-19胸部x線分類モデルの構築への応用

Application of Federated Learning in Building a Robust COVID-19 Chest X-ray Classification Model ( http://arxiv.org/abs/2204.10505v1 )

ライセンス: CC BY 4.0
Amartya Bhattacharya, Manish Gawali, Jitesh Seth, Viraj Kulkarni(参考訳) 問題を解決するために人工知能(AI)ベースのアルゴリズムを開発する一方で、大量のデータが重要な役割を果たす。 医療画像に関連する問題に対するAIベースのモデルを構築する場合、これらのデータは、取得した医療機関からアルゴリズムを開発する組織に転送する必要がある。 この動きは、HIPAA、GDPR等に準拠するような時間を要する形式であり、患者の個人情報が漏洩し、その機密性を損なうリスクもある。 これらの問題に対する1つの解決策は、フェデレーション学習フレームワークの使用である。 フェデレーション学習(fl)は、すべてのデータを中央サーバに移すことなく、異なる分布とデータ特性を持つ異なるソースのデータを使用することで、aiモデルの一般化と堅牢なaiモデルの作成を支援する。 本稿では,深層学習モデルの訓練にFLフレームワークを適用し,新型コロナウイルスの有無を予測する二項分類問題を解く。 3つの異なるデータソースを取り、それぞれのソースで個々のモデルをトレーニングしました。 そして、完全なデータに基づいてflモデルをトレーニングし、すべてのモデルパフォーマンスを比較しました。 FLモデルは個々のモデルよりも優れた性能を示すことを示した。 さらに、FLモデルは、中央サーバで組み合わせられたすべてのデータでトレーニングされたモデルと同等に実行される。 このように、フェデレートラーニングは、データ転送と規制オーバーヘッドのコストなしで、一般化されたAIモデルにつながる。

While developing artificial intelligence (AI)-based algorithms to solve problems, the amount of data plays a pivotal role - large amount of data helps the researchers and engineers to develop robust AI algorithms. In the case of building AI-based models for problems related to medical imaging, these data need to be transferred from the medical institutions where they were acquired to the organizations developing the algorithms. This movement of data involves time-consuming formalities like complying with HIPAA, GDPR, etc.There is also a risk of patients' private data getting leaked, compromising their confidentiality. One solution to these problems is using the Federated Learning framework. Federated Learning (FL) helps AI models to generalize better and create a robust AI model by using data from different sources having different distributions and data characteristics without moving all the data to a central server. In our paper, we apply the FL framework for training a deep learning model to solve a binary classification problem of predicting the presence or absence of COVID-19. We took three different sources of data and trained individual models on each source. Then we trained an FL model on the complete data and compared all the model performances. We demonstrated that the FL model performs better than the individual models. Moreover, the FL model performed at par with the model trained on all the data combined at a central server. Thus Federated Learning leads to generalized AI models without the cost of data transfer and regulatory overhead.
翻訳日:2022-04-25 23:45:07 公開日:2022-04-22
# (参考訳) 光沢のないキーポイントに基づく手話翻訳

Keypoint based Sign Language Translation without Glosses ( http://arxiv.org/abs/2204.10511v1 )

ライセンス: CC BY 4.0
Youngmin Kim, Minji Kwak, Dain Lee, Yeongeun Kim, Hyeongboo Baek(参考訳) 手話の翻訳 (slt) は手話認識 (slr) の研究と比較して、比較的研究されていないタスクである。 しかし、SLRは手話の独特の文法を認識する研究であり、これは話し言葉とは異なるものであり、非障害者が容易に解釈できないという問題がある。 ですから私たちは,手話ビデオで直接音声言語を翻訳する,という問題を解決するつもりです。 そこで本研究では,手話翻訳において,手話のスケルトン点に基づく翻訳を行い,これらの点をロバストに正規化するための新しいキーポイント正規化手法を提案する。 身体部位に応じてカスタマイズした正規化方式による性能改善に寄与した。 また,フレーム拡張とサンプリングを同時に行う確率的フレーム選択手法を提案する。 最後に、注意に基づく翻訳モデルを用いて音声言語に翻訳する。 本手法は,光沢のないデータセットに適用可能な方法で,様々なデータセットに適用することができる。 また, 定量的評価により, 評価精度が向上した。

Sign Language Translation (SLT) is a task that has not been studied relatively much compared to the study of Sign Language Recognition (SLR). However, the SLR is a study that recognizes the unique grammar of sign language, which is different from the spoken language and has a problem that non-disabled people cannot easily interpret. So, we're going to solve the problem of translating directly spoken language in sign language video. To this end, we propose a new keypoint normalization method for performing translation based on the skeleton point of the signer and robustly normalizing these points in sign language translation. It contributed to performance improvement by a customized normalization method depending on the body parts. In addition, we propose a stochastic frame selection method that enables frame augmentation and sampling at the same time. Finally, it is translated into the spoken language through an Attention-based translation model. Our method can be applied to various datasets in a way that can be applied to datasets without glosses. In addition, quantitative experimental evaluation proved the excellence of our method.
翻訳日:2022-04-25 23:37:53 公開日:2022-04-22
# (参考訳) MIPR: 画像再構成による医用画像の自動アノテーション

MIPR:Automatic Annotation of Medical Images with Pixel Rearrangement ( http://arxiv.org/abs/2204.10513v1 )

ライセンス: CC BY 4.0
Pingping Dai, Haiming Zhu, Shuang Ge, Ruihan Zhang, Xiang Qian, Xi Li, Kehong Yuan(参考訳) 近年報告された最先端のセマンティクスセグメンテーションのほとんどは、医学領域の完全な教師付きディープラーニングに基づいている。 どうやって? 高品質な注釈付きデータセットは、多大な労力とドメイン知識を必要とし、膨大な時間とコストを消費します。 semiを採用する以前の仕事? annoの欠如に対処するために教師なし学習と教師なし学習が提案されている。 ラベルのないデータでトレーニングを行い、優れたパーフォルを達成できる? マンス しかし、これらの手法は医師のように画像アノテーションを直接取得することはできない。 本稿では,半教師付き学習の自己学習に着想を得た。 別の角度からの注釈付きデータの欠如を解決するための新しいアプローチであるmedical image pixel rerangement(miprの略)を提案する。 MIPRは画像編集と擬似ラベル技術を組み合わせてラベル付きデータを取得する。 イテレーション数が増加するにつれて、編集された画像は元の画像に似ており、ラベル付き結果がドクターアノテーションに類似している。 そのため、MIPRはラベル付きデータのペアをピクセル再構成によるラベル付きデータの量から直接取得する。 mentは、設計された条件付き生成逆数ネットワークとセグメンテーションネットワークで実装される。 ISIC18の実験から, セグメンテーション課題における注記データの効果は, 医師のアノテーションと同等かそれ以上であることがわかった。

Most of the state-of-the-art semantic segmentation reported in recent years is based on fully supervised deep learning in the medical domain. How?ever, the high-quality annotated datasets require intense labor and domain knowledge, consuming enormous time and cost. Previous works that adopt semi?supervised and unsupervised learning are proposed to address the lack of anno?tated data through assisted training with unlabeled data and achieve good perfor?mance. Still, these methods can not directly get the image annotation as doctors do. In this paper, inspired by self-training of semi-supervised learning, we pro?pose a novel approach to solve the lack of annotated data from another angle, called medical image pixel rearrangement (short in MIPR). The MIPR combines image-editing and pseudo-label technology to obtain labeled data. As the number of iterations increases, the edited image is similar to the original image, and the labeled result is similar to the doctor annotation. Therefore, the MIPR is to get labeled pairs of data directly from amounts of unlabled data with pixel rearrange?ment, which is implemented with a designed conditional Generative Adversarial Networks and a segmentation network. Experiments on the ISIC18 show that the effect of the data annotated by our method for segmentation task is is equal to or even better than that of doctors annotations
翻訳日:2022-04-25 23:17:24 公開日:2022-04-22
# (参考訳) マルチホップ推論問題としての攻撃的テキスト検出の再考

Rethinking Offensive Text Detection as a Multi-Hop Reasoning Problem ( http://arxiv.org/abs/2204.10521v1 )

ライセンス: CC BY 4.0
Qiang Zhang, Jason Naradowsky, Yusuke Miyao(参考訳) 対話における暗黙的攻撃的テキスト検出のタスクを導入する。文は聞き手や文脈に応じて攻撃的あるいは非攻撃的解釈を持つ可能性がある。 我々は、この幅広い攻撃的発話の理解と、このタスクの研究を支援するデータセットSLIGHTのリリースには、推論が不可欠であると主張している。 このデータを用いた実験は、暗黙的に攻撃的な文を検出するように要求された場合、最先端の犯罪検出方法が不十分であり、${\sim} 11\%$精度しか得られていないことを示している。 既存の攻撃的テキスト検出データセットとは対照的に、軽微な特徴は、各曖昧な文から攻撃的解釈に到達できる精神過程を記述する推論の人間の注釈付き連鎖である。 既存の包摂モデルを用いてこれらの連鎖の確率を評価することにより,マルチホップ推論アプローチの可能性を探究し,単純な推論モデルでさえほとんどの状況で性能の向上を期待できることを示す。 さらに、連鎖の分析は人間の解釈過程の洞察を与え、追加のコモンセンス知識を取り入れることの重要性を強調する。

We introduce the task of implicit offensive text detection in dialogues, where a statement may have either an offensive or non-offensive interpretation, depending on the listener and context. We argue that reasoning is crucial for understanding this broader class of offensive utterances and release SLIGHT, a dataset to support research on this task. Experiments using the data show that state-of-the-art methods of offense detection perform poorly when asked to detect implicitly offensive statements, achieving only ${\sim} 11\%$ accuracy. In contrast to existing offensive text detection datasets, SLIGHT features human-annotated chains of reasoning which describe the mental process by which an offensive interpretation can be reached from each ambiguous statement. We explore the potential for a multi-hop reasoning approach by utilizing existing entailment models to score the probability of these chains and show that even naive reasoning models can yield improved performance in most situations. Furthermore, analysis of the chains provides insight into the human interpretation process and emphasizes the importance of incorporating additional commonsense knowledge.
翻訳日:2022-04-25 23:09:20 公開日:2022-04-22
# (参考訳) KALA:知識強化型言語モデル適応

KALA: Knowledge-Augmented Language Model Adaptation ( http://arxiv.org/abs/2204.10555v1 )

ライセンス: CC BY 4.0
Minki Kang, Jinheon Baek, Sung Ju Hwang(参考訳) プレトレーニング言語モデル(PLM)は、様々な自然言語理解タスクにおいて顕著な成功を収めた。 一方、plmの単純な微調整は、すべてのドメインからの知識をカバーできないため、ドメイン固有のタスクには最適ではないかもしれない。 PLMの適応的な事前トレーニングは、ドメイン固有の知識を得るのに役立つが、大きなトレーニングコストを必要とする。 さらに、適応事前学習は、その一般的な知識を壊滅的に忘れることによって、下流タスクにおけるPLMのパフォーマンスを損なう可能性がある。 PLM適応のための適応型事前学習の制限を克服するため,知識拡張言語モデル適応(KALA)と呼ばれる新しいドメイン適応フレームワークを提案し,エンティティとそれらの関係事実からなるドメイン知識によるPLMの中間的隠れ表現を変調する。 様々な領域にまたがる複数のデータセット上で,質問応答とエンティティ認識タスクの命名によるKALAの性能評価を行った。 その結果,計算効率は高いものの,kalaは適応型事前学習よりも優れていた。 コードはhttps://github.com/nardien/kala/。

Pre-trained language models (PLMs) have achieved remarkable success on various natural language understanding tasks. Simple fine-tuning of PLMs, on the other hand, might be suboptimal for domain-specific tasks because they cannot possibly cover knowledge from all domains. While adaptive pre-training of PLMs can help them obtain domain-specific knowledge, it requires a large training cost. Moreover, adaptive pre-training can harm the PLM's performance on the downstream task by causing catastrophic forgetting of its general knowledge. To overcome such limitations of adaptive pre-training for PLM adaption, we propose a novel domain adaption framework for PLMs coined as Knowledge-Augmented Language model Adaptation (KALA), which modulates the intermediate hidden representations of PLMs with domain knowledge, consisting of entities and their relational facts. We validate the performance of our KALA on question answering and named entity recognition tasks on multiple datasets across various domains. The results show that, despite being computationally efficient, our KALA largely outperforms adaptive pre-training. Code is available at: https://github.com/Nardien/KALA/.
翻訳日:2022-04-25 22:51:22 公開日:2022-04-22
# (参考訳) 対話応答のフルランク検索のためのスパースとデンスアプローチ

Sparse and Dense Approaches for the Full-rank Retrieval of Responses for Dialogues ( http://arxiv.org/abs/2204.10558v1 )

ライセンス: CC BY 4.0
Gustavo Penha and Claudia Hauff(参考訳) 与えられた対話コンテキストに対する応答のランク付けは、n$が10であるような限定的な$n$応答に対して、基調応答を再ランクする、一般的なベンチマークである。 会話応答ランキングにおけるこの設定の優位は、第1段階の検索ステップが見過ごされている間、神経再ランク付けの構築に多大な注意を向けている。 正しい答えは、常に$n$レスポンスの候補リストで利用可能であるため、この人工評価のセットアップは、常にそのトップ$n$リストの正しい応答をランク付けできる第1段階の検索ステップがあると仮定する。 本稿では,数百万の応答をn$で検索する,より現実的な応答検索の課題に焦点を当てる。 本稿では,スパース検索における対話コンテキストと応答拡張手法,およびゼロショットおよび微調整された高密度検索手法について検討する。 3つの異なる情報探索対話データセットに基づいて,学習された応答拡大手法がスパース検索の基盤となることを示す。 文表現が学習される言語モデルの事前学習の段階に続き、ターゲットの会話データに微調整を行う。 また,厳密検索モデルにおいて,難解な負のサンプリング技術がより悪い結果をもたらすという興味深い現象についても検討した。 コードとデータセットはhttps://github.com/guzpenha/transformer_rankers/tree/full_rank_retrieval_dialoguesで利用可能である。

Ranking responses for a given dialogue context is a popular benchmark in which the setup is to re-rank the ground-truth response over a limited set of $n$ responses, where $n$ is typically 10. The predominance of this setup in conversation response ranking has lead to a great deal of attention to building neural re-rankers, while the first-stage retrieval step has been overlooked. Since the correct answer is always available in the candidate list of $n$ responses, this artificial evaluation setup assumes that there is a first-stage retrieval step which is always able to rank the correct response in its top-$n$ list. In this paper we focus on the more realistic task of full-rank retrieval of responses, where $n$ can be up to millions of responses. We investigate both dialogue context and response expansion techniques for sparse retrieval, as well as zero-shot and fine-tuned dense retrieval approaches. Our findings based on three different information-seeking dialogue datasets reveal that a learned response expansion technique is a solid baseline for sparse retrieval. We find the best performing method overall to be dense retrieval with intermediate training, i.e. a step after the language model pre-training where sentence representations are learned, followed by fine-tuning on the target conversational data. We also investigate the intriguing phenomena that harder negatives sampling techniques lead to worse results for the fine-tuned dense retrieval models. The code and datasets are available at https://github.com/Guzpenha/transformer_rankers/tree/full_rank_retrieval_dialogues.
翻訳日:2022-04-25 22:14:32 公開日:2022-04-22
# (参考訳) 金属インプラントとの相互作用を考慮した骨組織の医用画像分割法の開発

Development of an algorithm for medical image segmentation of bone tissue in interaction with metallic implants ( http://arxiv.org/abs/2204.10560v1 )

ライセンス: CC BY 4.0
Fernando Garc\'ia-Torres, Carmen M\'inguez-Porter, Julia Tom\'as-Chenoll, Sof\'ia Iranzo-Egea, Juan-Manuel Belda-Lois(参考訳) 本研究は, 金属インプラントとの接触による骨成長計算のための人工知能に基づく医用画像分割アルゴリズムの開発に焦点をあてたものである。 %であり, 骨形成物による骨組織の成長を推定することが困難であった。 %は様々な種類の歪みやエラーの存在であり、人工物として知られている。 この研究を通じて、コンピュータ化されたマイクロトモグラフィー画像からなる2つのデータベースが使用されている。 骨とインプラントの組織は、トレーニングデータセットで手動で区切られた。 構築されるネットワークのタイプは、医療画像のセグメンテーションに明示的に使用される畳み込みニューラルネットワークであるu-netアーキテクチャに従っている。 ネットワーク精度の面では、モデルは約98\%に達した。 新たなデータセットから予測が得られた後(テストセット)、骨組織に属するピクセルの総数を算出する。 この体積は従来の手法で推定される体積の約15\%であり、通常は過大評価される。 この手法は優れた性能と結果を示しているが、改善には広いマージンがあり、ネットワークの様々なパラメータの変更や、トレーニングを改善するためにより大きなデータベースを使用する。

This preliminary study focuses on the development of a medical image segmentation algorithm based on artificial intelligence for calculating bone growth in contact with metallic implants. %as a result of the problem of estimating the growth of new bone tissue due to artifacts. %the presence of various types of distortions and errors, known as artifacts. Two databases consisting of computerized microtomography images have been used throughout this work: 100 images for training and 196 images for testing. Both bone and implant tissue were manually segmented in the training data set. The type of network constructed follows the U-Net architecture, a convolutional neural network explicitly used for medical image segmentation. In terms of network accuracy, the model reached around 98\%. Once the prediction was obtained from the new data set (test set), the total number of pixels belonging to bone tissue was calculated. This volume is around 15\% of the volume estimated by conventional techniques, which are usually overestimated. This method has shown its good performance and results, although it has a wide margin for improvement, modifying various parameters of the networks or using larger databases to improve training.
翻訳日:2022-04-25 21:48:41 公開日:2022-04-22
# (参考訳) 非共役ガウス過程モデルに対するピースワイド定数近似

A piece-wise constant approximation for non-conjugate Gaussian Process models ( http://arxiv.org/abs/2204.10575v1 )

ライセンス: CC BY 4.0
Sarem Seitz(参考訳) Gaussian Processes (GP) はベイズ機械学習において汎用的で一般的な手法である。 一般的な修正は、大きなデータセットを扱うのに適したスパース変分ガウス過程(SVGP)である。 GPはガウス分布のターゲット変数を閉形式でエレガントに扱うことができるが、その適用性は非ガウスデータにも拡張できる。 これらの拡張は通常閉形式で扱うことは不可能であり、従って近似解を必要とする。 本稿では,非ガウス確率を扱う際に必要となる逆リンク関数を,ピースワイド定数関数で近似することを提案する。 これにより対応する SVGP の下界に対する閉形式解が得られることが示される。 さらに、ピースワイド定数関数自体を最適化して、手元にあるデータから学習可能な逆リンク関数を実現できることを示す。

Gaussian Processes (GPs) are a versatile and popular method in Bayesian Machine Learning. A common modification are Sparse Variational Gaussian Processes (SVGPs) which are well suited to deal with large datasets. While GPs allow to elegantly deal with Gaussian-distributed target variables in closed form, their applicability can be extended to non-Gaussian data as well. These extensions are usually impossible to treat in closed form and hence require approximate solutions. This paper proposes to approximate the inverse-link function, which is necessary when working with non-Gaussian likelihoods, by a piece-wise constant function. It will be shown that this yields a closed form solution for the corresponding SVGP lower bound. In addition, it is demonstrated how the piece-wise constant function itself can be optimized, resulting in an inverse-link function that can be learnt from the data at hand.
翻訳日:2022-04-25 21:45:05 公開日:2022-04-22
# (参考訳) 非一様終端チェイス:サイズと複雑さ

Non-Uniformly Terminating Chase: Size and Complexity ( http://arxiv.org/abs/2204.10584v1 )

ライセンス: CC BY 4.0
Marco Calautti, Georg Gottlob, Andreas Pieris(参考訳) チェイス手順は、もともとデータベース制約の含意をチェックするために導入され、後にデータ交換ソリューションの計算に使われるようになったが、最近、ルールベースのオントロジ推論の中心的なアルゴリズムツールとなった。 この文脈では、鍵となる問題は非一様チェイス終了である:データベースw.r.t.のチェイスは終了するか? もしそうなら、チェイスの結果のサイズは? 本稿では,厳密な規則に基づくオントロジー言語を構成するタプル生成依存性 (TGD) に注目し,上記の中心的課題について考察する。 主な発見の1つは、保護されたTGDに対する一様でない半盲検追跡終了は、データベースの多項式時間 w.r.t で実現可能であり、追跡結果(有限である場合)のサイズは、データベースの線形時間 w.r.t である。 非一様チェイス終了に関する結果に向けて,もともとオントロジクエリ応答の文脈で導入された単純化や線形化といった基本的な手法がチェイス終了問題に安全に適用できることを示す。

The chase procedure, originally introduced for checking implication of database constraints, and later on used for computing data exchange solutions, has recently become a central algorithmic tool in rule-based ontological reasoning. In this context, a key problem is non-uniform chase termination: does the chase of a database w.r.t. a rule-based ontology terminate? And if this is the case, what is the size of the result of the chase? We focus on guarded tuple-generating dependencies (TGDs), which form a robust rule-based ontology language, and study the above central questions for the semi-oblivious version of the chase. One of our main findings is that non-uniform semi-oblivious chase termination for guarded TGDs is feasible in polynomial time w.r.t. the database, and the size of the result of the chase (whenever is finite) is linear w.r.t. the database. Towards our results concerning non-uniform chase termination, we show that basic techniques such as simplification and linearization, originally introduced in the context of ontological query answering, can be safely applied to the chase termination problem.
翻訳日:2022-04-25 21:28:03 公開日:2022-04-22
# (参考訳) 新たなカテゴリ発見のためのスペーシング損失

Spacing Loss for Discovering Novel Categories ( http://arxiv.org/abs/2204.10595v1 )

ライセンス: CC BY 4.0
K J Joseph, Sujoy Paul, Gaurav Aggarwal, Soma Biswas, Piyush Rai, Kai Han, Vineeth N Balasubramanian(参考訳) 新たなクラスディスカバリ(英: Novel Class Discovery、NCD)は、学習パラダイムである。機械学習モデルでは、不連続なクラスの集合からラベル付きインスタンスを利用することにより、ラベル付きデータからインスタンスを意味的にグループ化する。 本研究では,ラベル付きデータとラベルなしデータとを併用して新しいクラスを発見できるかどうかに基づいて,既存のncdアプローチを1段階と2段階のメソッドに特徴付ける。 次に、多次元スケーリングの手がかりを用いて、潜在空間における分離性を強制する単純かつ強力な損失関数を考案し、これをスペーシングロスと呼ぶ。 提案する定式化はスタンドアロンのメソッドとして動作するか,あるいは既存のメソッドにプラグインして拡張することができる。 CIFAR-10 と CIFAR-100 データセットの複数の設定に対して徹底的な実験評価を行い,スペーシング損失の有効性を検証した。

Novel Class Discovery (NCD) is a learning paradigm, where a machine learning model is tasked to semantically group instances from unlabeled data, by utilizing labeled instances from a disjoint set of classes. In this work, we first characterize existing NCD approaches into single-stage and two-stage methods based on whether they require access to labeled and unlabeled data together while discovering new classes. Next, we devise a simple yet powerful loss function that enforces separability in the latent space using cues from multi-dimensional scaling, which we refer to as Spacing Loss. Our proposed formulation can either operate as a standalone method or can be plugged into existing methods to enhance them. We validate the efficacy of Spacing Loss with thorough experimental evaluation across multiple settings on CIFAR-10 and CIFAR-100 datasets.
翻訳日:2022-04-25 19:28:04 公開日:2022-04-22
# (参考訳) 多言語NLUベンチマークにおける誤差源としての一般化量子化器

Generalized Quantifiers as a Source of Error in Multilingual NLU Benchmarks ( http://arxiv.org/abs/2204.10615v1 )

ライセンス: CC BY 4.0
Ruixiang Cui, Daniel Hershcovich, Anders S{\o}gaard(参考訳) 言語を表現する論理的アプローチは19世紀以来、量化語の計算モデルを開発し、評価してきたが、今日のNLUモデルは意味論の獲得に苦慮している。 我々は、NLUモデルの誤りに対するそれらの寄与を定量化するために、言語に依存しない量化語のセマンティクスの表現に一般化量化理論を頼っている。 nluベンチマークでは定量化器が普及しており、テスト時に発生することは性能低下と関連している。 多言語モデルは、不満足な量化子推論能力を示すが、英語以外の言語では必ずしも悪くはない。 直接的探索を容易にするために, 逆一般化量子化子nliタスク(gqnli)を提示し, 一般化量子化子推論において, 事前学習された言語モデルは明らかに頑健さを欠いていることを示す。

Logical approaches to representing language have developed and evaluated computational models of quantifier words since the 19th century, but today's NLU models still struggle to capture their semantics. We rely on Generalized Quantifier Theory for language-independent representations of the semantics of quantifier words, to quantify their contribution to the errors of NLU models. We find that quantifiers are pervasive in NLU benchmarks, and their occurrence at test time is associated with performance drops. Multilingual models also exhibit unsatisfying quantifier reasoning abilities, but not necessarily worse for non-English languages. To facilitate directly-targeted probing, we present an adversarial generalized quantifier NLI task (GQNLI) and show that pre-trained language models have a clear lack of robustness in generalized quantifier reasoning.
翻訳日:2022-04-25 19:18:11 公開日:2022-04-22
# (参考訳) UHDビデオストリームのためのSoCFPGAを用いたリアルタイムHOG+SVMオブジェクト検出

Real-time HOG+SVM based object detection using SoC FPGA for a UHD video stream ( http://arxiv.org/abs/2204.10619v1 )

ライセンス: CC BY 4.0
Mateusz Wasala and Tomasz Kryjak(参考訳) 物体検出は多くの視覚システムにおいて必須の要素である。 例えば、高度運転支援システム(ADAS)や高度映像監視システム(AVSS)では歩行者検出が用いられている。 現在、ほとんどの検出器は深層畳み込みニューラルネットワーク(例えば、YOLO -- You Only Look Once -- family)を使用しているが、計算の複雑さのため、特に限られたエネルギー予算の中で、非常に高解像度のビデオストリームをリアルタイムに処理することはできない。 本稿では,hog (histogram of oriented gradients) 特徴抽出とsvm (support vector machine) 分類を用いた,よく知られた歩行者検出器のハードウェア実装を提案する。 我々のシステムはAMD Xilinx Zynq UltraScale+ MPSoC (Multiprocessor System on Chip) デバイス上で動作しており、4K解像度のリアルタイム処理(UHD -- Ultra High Definition, 3840 x 2160 ピクセル)を毎秒60フレームで行うことができる。 このシステムは、歩行者を単一のスケールで検出することができる。 その結果,組込み視覚システムのリアルタイム実装において,再プログラム可能なデバイスに高い適合性が確認された。

Object detection is an essential component of many vision systems. For example, pedestrian detection is used in advanced driver assistance systems (ADAS) and advanced video surveillance systems (AVSS). Currently, most detectors use deep convolutional neural networks (e.g., the YOLO -- You Only Look Once -- family), which, however, due to their high computational complexity, are not able to process a very high-resolution video stream in real-time, especially within a limited energy budget. In this paper we present a hardware implementation of the well-known pedestrian detector with HOG (Histogram of Oriented Gradients) feature extraction and SVM (Support Vector Machine) classification. Our system running on AMD Xilinx Zynq UltraScale+ MPSoC (Multiprocessor System on Chip) device allows real-time processing of 4K resolution (UHD -- Ultra High Definition, 3840 x 2160 pixels) video for 60 frames per second. The system is capable of detecting a pedestrian in a single scale. The results obtained confirm the high suitability of reprogrammable devices in the real-time implementation of embedded vision systems.
翻訳日:2022-04-25 18:54:43 公開日:2022-04-22
# (参考訳) フィンランド依存構文解析のドメイン外評価

Out-of-Domain Evaluation of Finnish Dependency Parsing ( http://arxiv.org/abs/2204.10621v1 )

ライセンス: CC BY-SA 4.0
Jenna Kanerva and Filip Ginter(参考訳) 学界における一般的な実践は、トレーニングコーパスとは別に設定されるドメイン内評価データのモデルパフォーマンスを評価することである。 しかし、多くの実世界のアプリケーションでは、モデルが適用されるデータとトレーニングデータの特徴とは大きく異なる場合がある。 本稿では,5つの非常に異なるデータソース(web文書,臨床資料,オンライン議論,つぶやき,詩)と,universal dependencies frameworkの下でリリースされた2,122文中の19,382の構文語を含む,新たなudフィンランド・オード・アウトオブ・ドメイン・ツリーバンクを導入することにより,フィンランド語外の構文解析に注目する。 新しいツリーバンクとともに、フィンランドの3つのUDツリーバンク(TDT, PUD, OOD)から利用可能なセクションレベル情報を利用して、ドメイン外解析評価を行う。 既存のツリーバンクと比較すると、新しいフィンランド-oodには一般的なパーサにとってより困難なセクションが含まれており、興味深い評価設定を作成し、トレーニングドメイン外でパーサを適用する人たちに貴重な情報を提供する。

The prevailing practice in the academia is to evaluate the model performance on in-domain evaluation data typically set aside from the training corpus. However, in many real world applications the data on which the model is applied may very substantially differ from the characteristics of the training data. In this paper, we focus on Finnish out-of-domain parsing by introducing a novel UD Finnish-OOD out-of-domain treebank including five very distinct data sources (web documents, clinical, online discussions, tweets, and poetry), and a total of 19,382 syntactic words in 2,122 sentences released under the Universal Dependencies framework. Together with the new treebank, we present extensive out-of-domain parsing evaluation utilizing the available section-level information from three different Finnish UD treebanks (TDT, PUD, OOD). Compared to the previously existing treebanks, the new Finnish-OOD is shown include sections more challenging for the general parser, creating an interesting evaluation setting and yielding valuable information for those applying the parser outside of its training domain.
翻訳日:2022-04-25 18:45:09 公開日:2022-04-22
# (参考訳) 複数のカーネルの局所学習による未知顔提示攻撃検出

Unknown Face Presentation Attack Detection via Localised Learning of Multiple Kernels ( http://arxiv.org/abs/2204.10675v1 )

ライセンス: CC BY 4.0
Shervin Rahimzadeh Arashloo(参考訳) この論文は、未知の攻撃の要求シナリオにおいて、スプーフィング、つまりプレゼンテーション攻撃検出(PAD)に直面している。 以前の研究では、アンサンブル法、特に問題に対する多重カーネル学習のアプローチの利点が明らかになったが、そのような手法の1つの制限は、通常、観測空間全体を同じように扱い、データ固有の可変性と局所構造を無視していることである。 本研究は,1クラスにおける複数カーネル学習に関連する顔提示攻撃検出問題のこの側面について検討し,bona fide顔サンプルの固有局所構造から利益を得る。 より具体的には、一級フィッシャーヌル形式の成功に触発されて、局所的なカーネル重みの集合に結合行列ノルム制約を課し、ゼロショット一級未確認攻撃検出のための局所適応重みを推論することにより、凸局所化多重カーネル学習アルゴリズムを定式化する。 本稿では,ラデマッハ複素数を用いた局所化mklアルゴリズムに関する理論的研究を行い,その一般化を特徴付けるとともに,提案手法が他の選択肢よりも優れていることを示す。 一般対象画像データセットに対する提案手法の評価は、顔PADデータセットを用いた実験結果が未知/未知の顔提示攻撃の検出の可能性を検証する一方で、異常検出と新規検出の有効性を示す。

The paper studies face spoofing, a.k.a. presentation attack detection (PAD) in the demanding scenarios of unknown types of attack. While earlier studies have revealed the benefits of ensemble methods, and in particular, a multiple kernel learning approach to the problem, one limitation of such techniques is that they typically treat the entire observation space similarly and ignore any variability and local structure inherent to the data. This work studies this aspect of the face presentation attack detection problem in relation to multiple kernel learning in a one-class setting to benefit from intrinsic local structure in bona fide face samples. More concretely, inspired by the success of the one-class Fisher null formalism, we formulate a convex localised multiple kernel learning algorithm by imposing a joint matrix-norm constraint on the collection of local kernel weights and infer locally adaptive weights for zero-shot one-class unseen attack detection. We present a theoretical study of the proposed localised MKL algorithm using Rademacher complexities to characterise its generalisation capability and demonstrate the advantages of the proposed technique over some other options. An assessment of the proposed approach on general object image datasets illustrates its efficacy for abnormality and novelty detection while the results of the experiments on face PAD datasets verifies its potential in detecting unknown/unseen face presentation attacks.
翻訳日:2022-04-25 18:20:54 公開日:2022-04-22
# (参考訳) TASAC: バッチプロセス制御のための確率的ポリシー付きツインアクタ強化学習フレームワーク

TASAC: a twin-actor reinforcement learning framework with stochastic policy for batch process control ( http://arxiv.org/abs/2204.10685v1 )

ライセンス: CC BY 4.0
Tanuja Joshi, Hariprasad Kodamanaa, Harikumar Kandath, and Niket Kaisare(参考訳) 複雑な非線形ダイナミクスとバッチ間変動のため、バッチプロセスはプロセス制御に挑戦する。 正確なモデルがなく、結果として生じるプラントモデルミスマッチのため、これらの問題は高度なモデルベース制御戦略に対処するのが困難になる。 強化学習(rl)では、エージェントが環境と直接対話することでポリシーを学習し、この文脈で潜在的な選択肢を提供する。 アクター批判型アーキテクチャを持つRLフレームワークは、状態空間とアクション空間が連続しているシステムを制御するために最近人気になっている。 アクタと批評家のネットワークが合わさることで、同時政策学習による探索の強化により、エージェントはより優れたポリシーを学ぶことができることが示されている。 この目的のために、本研究では、バッチプロセス制御のための最大エントロピーフレームワークにアクターのアンサンブルを組み込むことにより、Twin Actor Soft Actor-Critic (TASAC)と呼ばれる確率的アクター批判RLアルゴリズムを提案する。

Due to their complex nonlinear dynamics and batch-to-batch variability, batch processes pose a challenge for process control. Due to the absence of accurate models and resulting plant-model mismatch, these problems become harder to address for advanced model-based control strategies. Reinforcement Learning (RL), wherein an agent learns the policy by directly interacting with the environment, offers a potential alternative in this context. RL frameworks with actor-critic architecture have recently become popular for controlling systems where state and action spaces are continuous. It has been shown that an ensemble of actor and critic networks further helps the agent learn better policies due to the enhanced exploration due to simultaneous policy learning. To this end, the current study proposes a stochastic actor-critic RL algorithm, termed Twin Actor Soft Actor-Critic (TASAC), by incorporating an ensemble of actors for learning, in a maximum entropy framework, for batch process control.
翻訳日:2022-04-25 17:40:12 公開日:2022-04-22
# (参考訳) 量子半教師付きカーネル学習

Quantum Semi-Supervised Kernel Learning ( http://arxiv.org/abs/2204.10700v1 )

ライセンス: CC BY 4.0
Seyran Saeedi, Aliakbar Panahi, Tom Arodz(参考訳) 量子コンピューティングは量子効果を利用して、古典的変種よりも高速にアルゴリズムを構築する。 機械学習では、与えられたモデルアーキテクチャの場合、モデルのトレーニング速度はトレーニングデータセットのサイズによって決定される。 したがって、量子機械学習の手法は、非常に大きなデータセットを使って学習を容易にする可能性がある。 機械学習モデルのトレーニング用データの可用性は着実に向上しているが、対応するラベルを取得するための特徴ベクトルの収集は、しばしば容易である。 この問題に対処するアプローチの1つは、ラベル付きサンプルだけでなくラベルなしの機能ベクトルも活用する半教師付き学習を使用することである。 本稿では,半教師付きカーネルサポートベクターマシンを訓練する量子機械学習アルゴリズムを提案する。 このアルゴリズムは量子サンプルに基づくハミルトンシミュレーションの最近の進歩を利用して、既存の量子LS-SVMアルゴリズムを拡張し、損失の半教師付き項を扱う。 アルゴリズムの計算複雑性に関する理論的研究を通じて、完全教師付き量子LS-SVMと同じスピードアップを維持していることを示す。

Quantum computing leverages quantum effects to build algorithms that are faster then their classical variants. In machine learning, for a given model architecture, the speed of training the model is typically determined by the size of the training dataset. Thus, quantum machine learning methods have the potential to facilitate learning using extremely large datasets. While the availability of data for training machine learning models is steadily increasing, oftentimes it is much easier to collect feature vectors that to obtain the corresponding labels. One of the approaches for addressing this issue is to use semi-supervised learning, which leverages not only the labeled samples, but also unlabeled feature vectors. Here, we present a quantum machine learning algorithm for training Semi-Supervised Kernel Support Vector Machines. The algorithm uses recent advances in quantum sample-based Hamiltonian simulation to extend the existing Quantum LS-SVM algorithm to handle the semi-supervised term in the loss. Through a theoretical study of the algorithm's computational complexity, we show that it maintains the same speedup as the fully-supervised Quantum LS-SVM.
翻訳日:2022-04-25 17:21:59 公開日:2022-04-22
# (参考訳) tweet2stance: ツイートのゼロショット学習アルゴリズムを利用したスタンス検出

Tweets2Stance: Users stance detection exploiting Zero-Shot Learning Algorithms on Tweets ( http://arxiv.org/abs/2204.10710v1 )

ライセンス: CC BY 4.0
Margherita Gambini, Tiziano Fagni, Caterina Senette, Maurizio Tesconi(参考訳) 近年、アクティブなソーシャルメディア利用者の政治的指向を予測することへの関心が高まっており、これは政治予測、意見ダイナミクスモデリング、ユーザー偏極の研究に大いに役立っている。 Twitterユーザーをターゲットとする既存のアプローチは、コンテンツベースの分析に依存するか、あるいはコンテンツ、ネットワーク、通信分析の混合に基づいている。 最近の研究の観点では、ユーザの政治的親和性は、主に主要な政治的・社会的問題に対する自身の立場に依存しているため、ソーシャルネットワーク上で共有されたユーザー生成コンテンツからユーザーのスタンスを検出することに焦点を移す。 この研究は、Twitterタイムラインのコンテンツベース分析を利用して、特定の社会的政治的発言に対するユーザのスタンスを予測する、完全に教師なしのスタンス検出フレームワークに焦点を当てている。 市民の政治的嗜好と政党の政治的スタンスを比較することで、市民の政治的傾きを識別するのに役立つオンラインツールである。 この研究の目的は、20の異なる声明に関する6つの当事者の合意レベルに関する知識から、Twitter上でTwitterアカウントが書いたものを活用する各声明に関して、P党のスタンスを予測することである。 この目的のために,ゼロショット学習技術に頼り,ラベルのないデータを迅速かつ正確に操作する新しい非教師なしスタンス検出フレームワークであるTweets2Stance(T2S)を提案する。 興味深いことに、t2sはあらゆるソーシャルメディアユーザーに対して、いかなる興味のある文脈でも適用できる。 複数の実験から得られた結果から、一般的な最大値f1値は0.4であるが、t2sはタスクの複雑さを考えると、一般的な最小mae 1.13でスタンスを正確に予測できることがわかった。

In the last years there has been a growing attention towards predicting the political orientation of active social media users, being this of great help to study political forecasts, opinion dynamics modeling and users polarization. Existing approaches, mainly targeting Twitter users, rely on content-based analysis or are based on a mixture of content, network and communication analysis. The recent research perspective exploits the fact that a user's political affinity mainly depends on his/her positions on major political and social issues, thus shifting the focus on detecting the stance of users through user-generated content shared on social networks. The work herein described focuses on a completely unsupervised stance detection framework that predicts the user's stance about specific social-political statements by exploiting content-based analysis of its Twitter timeline. The ground-truth user's stance may come from Voting Advice Applications, online tools that help citizens to identify their political leanings by comparing their political preferences with party political stances. Starting from the knowledge of the agreement level of six parties on 20 different statements, the objective of the study is to predict the stance of a Party p in regard to each statement s exploiting what the Twitter Party account wrote on Twitter. To this end we propose Tweets2Stance (T2S), a novel and totally unsupervised stance detector framework which relies on the zero-shot learning technique to quickly and accurately operate on non-labeled data. Interestingly, T2S can be applied to any social media user for any context of interest, not limited to the political one. Results obtained from multiple experiments show that, although the general maximum F1 value is 0.4, T2S can correctly predict the stance with a general minimum MAE of 1.13, which is a great achievement considering the task complexity.
翻訳日:2022-04-25 16:48:35 公開日:2022-04-22
# (参考訳) 説明可能なAIを用いたHVDC断面積流と周波数安定性の探索

Revealing interactions between HVDC cross-area flows and frequency stability with explainable AI ( http://arxiv.org/abs/2204.10727v1 )

ライセンス: CC BY 4.0
Sebastian P\"utz, Benjamin Sch\"afer, Dirk Witthaut, Johannes Kruse(参考訳) エネルギー遷移は、より揮発性のエネルギー源を電力グリッドに導入する。 この文脈では、高電圧直流(HVDC)リンクを介して異なる同期領域間の電力伝達がますます重要になる。 このようなリンクは、長距離輸送を可能にしたり、速度制御の振る舞いを活用することで揮発性発生のバランスをとることができる。 本稿では,電力グリッド周波数で表される電力不均衡と欧州の同期領域間のhvdcリンク上の電力流れの相互作用について検討する。 説明可能な機械学習を使用して、重要な依存関係を特定し、重要な機能の相互作用を解き放つ。 以上の結果から,市場ベースHVDC流は決定論的周波数偏差を生じさせることが示唆された。 さらに、様々なHVDC動作モードがグリッドとの相互作用に強く影響を及ぼす。 特に,HVDCリンクによる負荷周波数制御が周波数安定性に制御的あるいは外乱的影響をもたらすことを示す。

The energy transition introduces more volatile energy sources into the power grids. In this context, power transfer between different synchronous areas through High Voltage Direct Current (HVDC) links becomes increasingly important. Such links can balance volatile generation by enabling long-distance transport or by leveraging their fast control behavior. Here, we investigate the interaction of power imbalances - represented through the power grid frequency - and power flows on HVDC links between synchronous areas in Europe. We use explainable machine learning to identify key dependencies and disentangle the interaction of critical features. Our results show that market-based HVDC flows introduce deterministic frequency deviations, which however can be mitigated through strict ramping limits. Moreover, varying HVDC operation modes strongly affect the interaction with the grid. In particular, we show that load-frequency control via HVDC links can both have control-like or disturbance-like impacts on frequency stability.
翻訳日:2022-04-25 16:46:43 公開日:2022-04-22
# (参考訳) Diverse Instance Discovery: インスタンス対応マルチラベル画像認識のためのビジョン変換器

Diverse Instance Discovery: Vision-Transformer for Instance-Aware Multi-Label Image Recognition ( http://arxiv.org/abs/2204.10731v1 )

ライセンス: CC BY 4.0
Yunqing Hu, Xuan Jin, Yin Zhang, Haiwen Hong, Jingfeng Zhang, Feihu Yan, Yuan He, Hui Xue(参考訳) MLIR(Multi-label Image Recognition)の研究は通常、CNNを研究の出発点として使用している。 本稿では、視覚変換器(ViT)を研究基盤として、長距離依存モデルを用いたトランスフォーマーの利点をフル活用して、局所受容場に限定されたCNNの欠点を回避する。 しかし、異なるカテゴリ、スケール、空間関係の複数のオブジェクトを含むマルチラベル画像の場合、グローバル情報のみを使用するのが最適ではない。 当社の目標は,vitのパッチトークンと自己アテンション機構を活用して,マルチラベルイメージのリッチインスタンスをマイニングすることにあります。 この目的のために,意味圏認識モジュールと空間関係認識モジュールをそれぞれ提案し,その2つを再制約戦略で組み合わせ,インスタンス認識の注意マップを得る。 最後に,弱教師付きオブジェクトローカライゼーションに基づくマルチスケールな局所特徴抽出手法を提案し,マルチビューパイプラインを形成する。 本手法はラベルレベルでの弱教師付き情報のみを必要とし,付加的な知識注入や強い教師付き情報を必要としない。 3つのベンチマークデータセットを用いた実験により,本手法は従来よりも大幅に優れており,実験結果の公正な比較が得られた。

Previous works on multi-label image recognition (MLIR) usually use CNNs as a starting point for research. In this paper, we take pure Vision Transformer (ViT) as the research base and make full use of the advantages of Transformer with long-range dependency modeling to circumvent the disadvantages of CNNs limited to local receptive field. However, for multi-label images containing multiple objects from different categories, scales, and spatial relations, it is not optimal to use global information alone. Our goal is to leverage ViT's patch tokens and self-attention mechanism to mine rich instances in multi-label images, named diverse instance discovery (DiD). To this end, we propose a semantic category-aware module and a spatial relationship-aware module, respectively, and then combine the two by a re-constraint strategy to obtain instance-aware attention maps. Finally, we propose a weakly supervised object localization-based approach to extract multi-scale local features, to form a multi-view pipeline. Our method requires only weakly supervised information at the label level, no additional knowledge injection or other strongly supervised information is required. Experiments on three benchmark datasets show that our method significantly outperforms previous works and achieves state-of-the-art results under fair experimental comparisons.
翻訳日:2022-04-25 16:27:36 公開日:2022-04-22
# (参考訳) 顔認識パイプラインにおけるディープフェイクを活用した実画像と合成画像のドメインギャップの閉鎖

Leveraging Deepfakes to Close the Domain Gap between Real and Synthetic Images in Facial Capture Pipelines ( http://arxiv.org/abs/2204.10746v1 )

ライセンス: CC BY 4.0
Winnie Lin, Yilin Zhu, Demi Guo, Ron Fedkiw(参考訳) 携帯電話、ウェブカメラ、youtubeクリップ等)のビデオデータから3d顔モデルを構築し、追跡するためのエンドツーエンドパイプラインを提案する。 まず,従来のコンピュータグラフィックスパイプラインにおける衝突検出アルゴリズムに典型的な階層的クラスタリングフレームワークに基づく自動データキュレーションと検索手法を提案する。 その後,合成ターンテーブルを利用し,合成形状や画像の不整合に頑健な外観キャプチャのための合成多視点ステレオパイプラインを構築するためにディープフェイク技術を利用する。 結果のモデルはアニメーションリグに適合し、顔のパフォーマンスを追跡するのに使用される。 特に,我々はdeepfakeテクノロジを新規に使用することで,合成と実領域のギャップが大きいにもかかわらず,微分可能レンダラを用いた実データのロバストなトラッキングを可能にした。 最後に,モーションキャプチャレグレッサーの訓練方法について概説し,実世界の地上データや高度のカメラキャプチャ設定の必要性を回避するために,前述の手法を活用した。

We propose an end-to-end pipeline for both building and tracking 3D facial models from personalized in-the-wild (cellphone, webcam, youtube clips, etc.) video data. First, we present a method for automatic data curation and retrieval based on a hierarchical clustering framework typical of collision detection algorithms in traditional computer graphics pipelines. Subsequently, we utilize synthetic turntables and leverage deepfake technology in order to build a synthetic multi-view stereo pipeline for appearance capture that is robust to imperfect synthetic geometry and image misalignment. The resulting model is fit with an animation rig, which is then used to track facial performances. Notably, our novel use of deepfake technology enables us to perform robust tracking of in-the-wild data using differentiable renderers despite a significant synthetic-to-real domain gap. Finally, we outline how we train a motion capture regressor, leveraging the aforementioned techniques to avoid the need for real-world ground truth data and/or a high-end calibrated camera capture setup.
翻訳日:2022-04-25 16:18:04 公開日:2022-04-22
# (参考訳) Dite-HRNet:人間の姿勢推定のための動的軽量高分解能ネットワーク

Dite-HRNet: Dynamic Lightweight High-Resolution Network for Human Pose Estimation ( http://arxiv.org/abs/2204.10762v1 )

ライセンス: CC BY 4.0
Qun Li, Ziyi Zhang, Fu Xiao, Feng Zhang and Bir Bhanu(参考訳) 高分解能ネットワークは、人間のポーズ推定のためのマルチスケール特徴を抽出する際、顕著な能力を示すが、関節間の長距離相互作用を捉えられず、計算複雑性が高い。 これらの問題に対処するために,マルチスケールの文脈情報と,人間のポーズ推定のための長距離空間依存性をモデル化する動的軽量高解像度ネットワーク(Dite-HRNet)を提案する。 具体的には,動的分割畳み込みと適応コンテキストモデリングの2つの手法を提案し,それらを動的多スケールコンテキストブロックと動的グローバルコンテキストブロックという2つの新しい軽量ブロックに組み込む。 Dite-HRNetの基本構成単位であるこれらの2ブロックは、並列マルチ解像度アーキテクチャをフル活用する高解像度ネットワークのために特別に設計されている。 実験結果から,提案ネットワークはCOCOとMPIIの両方のポーズ推定データセットにおいて,最先端の軽量ネットワークよりも優れた性能を実現していることがわかった。 コードは \url{https://github.com/ziyizhang27/dite-hrnet} で入手できる。

A high-resolution network exhibits remarkable capability in extracting multi-scale features for human pose estimation, but fails to capture long-range interactions between joints and has high computational complexity. To address these problems, we present a Dynamic lightweight High-Resolution Network (Dite-HRNet), which can efficiently extract multi-scale contextual information and model long-range spatial dependency for human pose estimation. Specifically, we propose two methods, dynamic split convolution and adaptive context modeling, and embed them into two novel lightweight blocks, which are named dynamic multi-scale context block and dynamic global context block. These two blocks, as the basic component units of our Dite-HRNet, are specially designed for the high-resolution networks to make full use of the parallel multi-resolution architecture. Experimental results show that the proposed network achieves superior performance on both COCO and MPII human pose estimation datasets, surpassing the state-of-the-art lightweight networks. Code is available at: \url{https://github.com/ZiyiZhang27/Dite-HRNet}.
翻訳日:2022-04-25 15:51:56 公開日:2022-04-22
# (参考訳) 天気に対する「注意」の支払い:気象に配慮した注意に基づく物体検出

Pay "Attention" to Adverse Weather: Weather-aware Attention-based Object Detection ( http://arxiv.org/abs/2204.10803v1 )

ライセンス: CC BY 4.0
Saket S. Chaturvedi, Lan Zhang, Xiaoyong Yuan(参考訳) 近年の深層ニューラルネットワークの進歩にもかかわらず、悪天候での物体検出は、悪天候におけるセンサーの認識不足のために依然として困難である。 単一のセンサに頼る代わりに、マルチモーダルフュージョンは、複数のセンサに基づく冗長な検出情報を提供する有望なアプローチである。 しかし、既存のマルチモーダル核融合手法の多くは、動的悪天候下での様々な検出環境下での異なるセンサーの焦点の調整に効果がない。 また, 初期・後期のマルチモーダル融合作業では無視されてきた複雑な気象条件下で, 地域情報と地球情報を同時に観測することが重要である。 そこで本研究では,GLA(Global-Local Attention)フレームワークを提案する。このフレームワークは,マルチモーダルセンシングストリーム(カメラ,ゲートカメラ,ライダーデータ)を2つの融合段階において適応的に融合させる。 具体的には、glaは、ローカルアテンションネットワークによる早期融合と、グローバルアテンションネットワークによる後期融合を統合して、ローカル情報とグローバル情報の両方を扱う。 実験により,光霧,濃霧,積雪などの悪天候条件下での最先端核融合法と比較して,提案したGLAの優れた性能を示した。

Despite the recent advances of deep neural networks, object detection for adverse weather remains challenging due to the poor perception of some sensors in adverse weather. Instead of relying on one single sensor, multimodal fusion has been one promising approach to provide redundant detection information based on multiple sensors. However, most existing multimodal fusion approaches are ineffective in adjusting the focus of different sensors under varying detection environments in dynamic adverse weather conditions. Moreover, it is critical to simultaneously observe local and global information under complex weather conditions, which has been neglected in most early or late-stage multimodal fusion works. In view of these, this paper proposes a Global-Local Attention (GLA) framework to adaptively fuse the multi-modality sensing streams, i.e., camera, gated camera, and lidar data, at two fusion stages. Specifically, GLA integrates an early-stage fusion via a local attention network and a late-stage fusion via a global attention network to deal with both local and global information, which automatically allocates higher weights to the modality with better detection features at the late-stage fusion to cope with the specific weather condition adaptively. Experimental results demonstrate the superior performance of the proposed GLA compared with state-of-the-art fusion approaches under various adverse weather conditions, such as light fog, dense fog, and snow.
翻訳日:2022-04-25 15:36:47 公開日:2022-04-22
# (参考訳) 論文>「公共の道」 : コンテントな公共政策領域におけるアルゴリズム決定の審議

"Public(s)-in-the-Loop": Facilitating Deliberation of Algorithmic Decisions in Contentious Public Policy Domains ( http://arxiv.org/abs/2204.10814v1 )

ライセンス: CC BY 4.0
Hong Shen, \'Angel Alexander Cabrera, Adam Perer, Jason Hong(参考訳) 本稿では,議論の多い公共政策問題に対するアルゴリズム的意思決定において,人的影響をより深く関与する方法を考えるための枠組みを提案する。 コミュニケーション文献の見識から,「ループ内公開」アプローチを導入し,このアプローチの中心となる3つの特徴を列挙する。 これらの機能は、リシビズム予測のような論争の多い公共政策領域において、AI設計へのステークホルダーの参加に対する理解を深める方法を探る。 最後に、HCIコミュニティがこの作業をサポートするための研究アジェンダの一部をスケッチします。

This position paper offers a framework to think about how to better involve human influence in algorithmic decision-making of contentious public policy issues. Drawing from insights in communication literature, we introduce a "public(s)-in-the-loop" approach and enumerates three features that are central to this approach: publics as plural political entities, collective decision-making through deliberation, and the construction of publics. It explores how these features might advance our understanding of stakeholder participation in AI design in contentious public policy domains such as recidivism prediction. Finally, it sketches out part of a research agenda for the HCI community to support this work.
翻訳日:2022-04-25 15:25:24 公開日:2022-04-22
# (参考訳) Riemannian Langevinアルゴリズムの収束性

Convergence of the Riemannian Langevin Algorithm ( http://arxiv.org/abs/2204.10818v1 )

ライセンス: CC BY 4.0
Khashayar Gatmiry and Santosh S. Vempala(参考訳) 我々は、計量 $g$ の多様体上の自然測度に関して、密度 $\nu$ の分布からサンプリングする問題に対するリーマン・ランジュバンのアルゴリズムについて研究する。 対象密度は計量に関して対数ソボレフの不等式を満たすと仮定し、不調整ランゲヴィンアルゴリズムの多様体一般化が急速にヘッセン多様体に対して$\nu$に収束することを証明する。 これにより、適当な多様体上の滑らかな密度をサンプリングするために${\bf r}^n$の非スムース(拘束された)密度をサンプリングする問題を低減し、対数密度の勾配のみへのアクセスを必要とし、多様体上の自然なブラウン運動からサンプリングすることができる。 我々の分析ツールは,(1)多様体に対する自己整合の拡張,(2)多様体上の境界滑らか性に対する確率的アプローチである。 本手法では, 対数障壁によって定義される計量を用いて, ポリトープに制限された等尺密度をサンプリングする。

We study the Riemannian Langevin Algorithm for the problem of sampling from a distribution with density $\nu$ with respect to the natural measure on a manifold with metric $g$. We assume that the target density satisfies a log-Sobolev inequality with respect to the metric and prove that the manifold generalization of the Unadjusted Langevin Algorithm converges rapidly to $\nu$ for Hessian manifolds. This allows us to reduce the problem of sampling non-smooth (constrained) densities in ${\bf R}^n$ to sampling smooth densities over appropriate manifolds, while needing access only to the gradient of the log-density, and this, in turn, to sampling from the natural Brownian motion on the manifold. Our main analytic tools are (1) an extension of self-concordance to manifolds, and (2) a stochastic approach to bounding smoothness on manifolds. A special case of our approach is sampling isoperimetric densities restricted to polytopes by using the metric defined by the logarithmic barrier.
翻訳日:2022-04-25 15:21:34 公開日:2022-04-22
# (参考訳) 因果機械学習がマーケティング戦略をどのように活用するか--クーポンキャンペーンのパフォーマンスの評価と改善

How causal machine learning can leverage marketing strategies: Assessing and improving the performance of a coupon campaign ( http://arxiv.org/abs/2204.10820v1 )

ライセンス: CC BY 4.0
Henrika Langen and Martin Huber(参考訳) 本研究では,マーケティング介入,すなわちクーポンキャンペーンが小売企業の販売に与える影響を評価するために,因果機械学習アルゴリズムを適用する。 異なる種類のクーポンの平均的影響を評価するとともに、顧客サブグループ間、例えば、比較的高い購入率と低い購入率のクライアント間における因果効果の多様性についても検討する。 最後に,販売面でのマーケティング介入の有効性を最大化するために,最適政策学習を用いて,クーポンキャンペーンでターゲットとする顧客グループ(データ駆動型)を学習する。 本研究は、ビジネス分析における因果機械学習の適用事例を提供し、意思決定支援のための特定の企業ポリシー(マーケティングキャンペーンなど)の因果影響を評価する。

We apply causal machine learning algorithms to assess the causal effect of a marketing intervention, namely a coupon campaign, on the sales of a retail company. Besides assessing the average impacts of different types of coupons, we also investigate the heterogeneity of causal effects across subgroups of customers, e.g. across clients with relatively high vs. low previous purchases. Finally, we use optimal policy learning to learn (in a data-driven way) which customer groups should be targeted by the coupon campaign in order to maximize the marketing intervention's effectiveness in terms of sales. Our study provides a use case for the application of causal machine learning in business analytics, in order to evaluate the causal impact of specific firm policies (like marketing campaigns) for decision support.
翻訳日:2022-04-25 15:20:34 公開日:2022-04-22
# (参考訳) がん境界検出のためのビッグデータを提供するFederated Learning

Federated Learning Enables Big Data for Rare Cancer Boundary Detection ( http://arxiv.org/abs/2204.10836v1 )

ライセンス: CC BY 4.0
Sarthak Pati, Ujjwal Baid, Brandon Edwards, Micah Sheller, Shih-Han Wang, G Anthony Reina, Patrick Foley, Alexey Gruzdev, Deepthi Karkada, Christos Davatzikos, Chiharu Sako, Satyam Ghodasara, Michel Bilello, Suyash Mohan, Philipp Vollmuth, Gianluca Brugnara, Chandrakanth J Preetha, Felix Sahm, Klaus Maier-Hein, Maximilian Zenk, Martin Bendszus, Wolfgang Wick, Evan Calabrese, Jeffrey Rudie, Javier Villanueva-Meyer, Soonmee Cha, Madhura Ingalhalikar, Manali Jadhav, Umang Pandey, Jitender Saini, John Garrett, Matthew Larson, Robert Jeraj, Stuart Currie, Russell Frood, Kavi Fatania, Raymond Y Huang, Ken Chang, Carmen Bala\~na Quintero, Jaume Capellades, Josep Puig, Johannes Trenkler, Josef Pichler, Georg Necker, Andreas Haunschmidt, Stephan Meckel, Gaurav Shukla, Spencer Liem, Gregory S Alexander, Joseph Lombardo, Joshua D Palmer, Adam E Flanders, Adam P Dicker, Haris I Sair, Craig K Jones, Archana Venkataraman, Meirui Jiang, Tiffany Y So, Cheng Chen, Pheng Ann Heng, Qi Dou, Michal Kozubek, Filip Lux, Jan Mich\'alek, Petr Matula, Milo\v{s} Ke\v{r}kovsk\'y, Tereza Kop\v{r}ivov\'a, Marek Dost\'al, V\'aclav Vyb\'ihal, Michael A Vogelbaum, J Ross Mitchell, Joaquim Farinhas, Joseph A Maldjian, Chandan Ganesh Bangalore Yogananda, Marco C Pinho, Divya Reddy, James Holcomb, Benjamin C Wagner, Benjamin M Ellingson, Timothy F Cloughesy, Catalina Raymond, Talia Oughourlian, Akifumi Hagiwara, Chencai Wang, Minh-Son To, Sargam Bhardwaj, Chee Chong, Marc Agzarian, Alexandre Xavier Falc\~ao, Samuel B Martins, Bernardo C A Teixeira, Fl\'avia Sprenger, David Menotti, Diego R Lucio, Pamela LaMontagne, Daniel Marcus, Benedikt Wiestler, Florian Kofler, Ivan Ezhov, Marie Metz, Rajan Jain, Matthew Lee, Yvonne W Lui, Richard McKinley, Johannes Slotboom, Piotr Radojewski, Raphael Meier, Roland Wiest, Derrick Murcia, Eric Fu, Rourke Haas, John Thompson, David Ryan Ormond, Chaitra Badve, Andrew E Sloan, Vachan Vadmal, Kristin Waite, Rivka R Colen, Linmin Pei, Murat Ak, Ashok Srinivasan, J Rajiv Bapuraj, Arvind Rao, Nicholas Wang, Ota Yoshiaki, Toshio Moritani, Sevcan Turk, Joonsang Lee, Snehal Prabhudesai, Fanny Mor\'on, Jacob Mandel, Konstantinos Kamnitsas, Ben Glocker, Luke V M Dixon, Matthew Williams, Peter Zampakis, Vasileios Panagiotopoulos, Panagiotis Tsiganos, Sotiris Alexiou, Ilias Haliassos, Evangelia I Zacharaki, Konstantinos Moustakas, Christina Kalogeropoulou, Dimitrios M Kardamakis, Yoon Seong Choi, Seung-Koo Lee, Jong Hee Chang, Sung Soo Ahn, Bing Luo, Laila Poisson, Ning Wen, Pallavi Tiwari, Ruchika Verma, Rohan Bareja, Ipsa Yadav, Jonathan Chen, Neeraj Kumar, Marion Smits, Sebastian R van der Voort, Ahmed Alafandi, Fatih Incekara, Maarten MJ Wijnenga, Georgios Kapsas, Renske Gahrmann, Joost W Schouten, Hendrikus J Dubbink, Arnaud JPE Vincent, Martin J van den Bent, Pim J French, Stefan Klein, Yading Yuan, Sonam Sharma, Tzu-Chi Tseng, Saba Adabi, Simone P Niclou, Olivier Keunen, Ann-Christin Hau, Martin Valli\`eres, David Fortin, Martin Lepage, Bennett Landman, Karthik Ramadass, Kaiwen Xu, Silky Chotai, Lola B Chambless, Akshitkumar Mistry, Reid C Thompson, Yuriy Gusev, Krithika Bhuvaneshwar, Anousheh Sayah, Camelia Bencheqroun, Anas Belouali, Subha Madhavan, Thomas C Booth, Alysha Chelliah, Marc Modat, Haris Shuaib, Carmen Dragos, Aly Abayazeed, Kenneth Kolodziej, Michael Hill, Ahmed Abbassy, Shady Gamal, Mahmoud Mekhaimar, Mohamed Qayati, Mauricio Reyes, Ji Eun Park, Jihye Yun, Ho Sung Kim, Abhishek Mahajan, Mark Muzi, Sean Benson, Regina G H Beets-Tan, Jonas Teuwen, Alejandro Herrera-Trujillo, Maria Trujillo, William Escobar, Ana Abello, Jose Bernal, Jhon G\'omez, Joseph Choi, Stephen Baek, Yusung Kim, Heba Ismael, Bryan Allen, John M Buatti, Aikaterini Kotrotsou, Hongwei Li, Tobias Weiss, Michael Weller, Andrea Bink, Bertrand Pouymayou, Hassan F Shaykh, Joel Saltz, Prateek Prasanna, Sampurna Shrestha, Kartik M Mani, David Payne, Tahsin Kurc, Enrique Pelaez, Heydy Franco-Maldonado, Francis Loayza, Sebastian Quevedo, Pamela Guevara, Esteban Torche, Cristobal Mendoza, Franco Vera, Elvis R\'ios, Eduardo L\'opez, Sergio A Velastin, Godwin Ogbole, Dotun Oyekunle, Olubunmi Odafe-Oyibotha, Babatunde Osobu, Mustapha Shu'aibu, Adeleye Dorcas, Mayowa Soneye, Farouk Dako, Amber L Simpson, Mohammad Hamghalam, Jacob J Peoples, Ricky Hu, Anh Tran, Danielle Cutler, Fabio Y Moraes, Michael A Boss, James Gimpel, Deepak Kattil Veettil, Kendall Schmidt, Brian Bialecki, Sailaja Marella, Cynthia Price, Lisa Cimino, Charles Apgar, Prashant Shah, Bjoern Menze, Jill S Barnholtz-Sloan, Jason Martin, Spyridon Bakas(参考訳) 機械学習(ML)は多くの領域で約束されているが、サンプル外データへの一般化性には懸念がある。 これは現在、複数のサイトから多種多様なデータを集中的に共有することで解決されている。 しかし、このような中央集権化は様々な制限によりスケール(あるいは実現不可能)が困難である。 Federated ML (FL) は数値モデルのアップデートを共有するだけで、正確で一般化可能なMLモデルをトレーニングする代替手段を提供する。 6大陸にわたる71の医療機関のデータを含む、これまでで最大のfl研究から得られた知見により、グリオブラスト腫のまれな疾患に対する腫瘍境界の自動検出装置が作成され、文献で使用された患者の最大のデータセット(6,314人の患者から25,256件のmriスキャン)を用いている。 当科では, 外科的に標的とした腫瘍の悪性度を高めるために, 33%の改善率を示し, 腫瘍全体に対する23%の改善率を示した。 我々は研究を期待する。 1) 大規模・多種多様なデータによる医療研究の促進, まれな疾患や人口不足に対する有意義な結果の確保。 2)最終的な公開のためのコンセンサスモデルの性能最適化によるグリオ芽腫の定量的解析の促進 3)マルチサイトコラボレーションのパラダイムシフトとしてのflの有効性とタスク複雑性を実証し,データ共有の必要性を緩和する。

Although machine learning (ML) has shown promise in numerous domains, there are concerns about generalizability to out-of-sample data. This is currently addressed by centrally sharing ample, and importantly diverse, data from multiple sites. However, such centralization is challenging to scale (or even not feasible) due to various limitations. Federated ML (FL) provides an alternative to train accurate and generalizable ML models, by only sharing numerical model updates. Here we present findings from the largest FL study to-date, involving data from 71 healthcare institutions across 6 continents, to generate an automatic tumor boundary detector for the rare disease of glioblastoma, utilizing the largest dataset of such patients ever used in the literature (25,256 MRI scans from 6,314 patients). We demonstrate a 33% improvement over a publicly trained model to delineate the surgically targetable tumor, and 23% improvement over the tumor's entire extent. We anticipate our study to: 1) enable more studies in healthcare informed by large and diverse data, ensuring meaningful results for rare diseases and underrepresented populations, 2) facilitate further quantitative analyses for glioblastoma via performance optimization of our consensus model for eventual public release, and 3) demonstrate the effectiveness of FL at such scale and task complexity as a paradigm shift for multi-site collaborations, alleviating the need for data sharing.
翻訳日:2022-04-25 15:19:38 公開日:2022-04-22
# 記号回帰を伴うニューラルネットワークにおける隠れセマンティクスの探索

Exploring Hidden Semantics in Neural Networks with Symbolic Regression ( http://arxiv.org/abs/2204.10529v1 )

ライセンス: Link先を確認
Yuanzhen Luo, Qiang Lu, Xilei Hu, Jake Luo, Zhiguang Wang(参考訳) 最近の多くの研究は、ニューラルネットワーク(nns)のブラックボックス挙動を説明するメカニズムの開発に焦点を当てている。 しかしながら、ニューラルネットワークの潜在的な隠れセマンティクス(数学的表現)を抽出する作業はほとんど行われていない。 NNモデルの簡潔で明示的な数学的表現は、その振る舞いの理解と解釈を改善することができる。 そこで我々は,ニューラルネットワークの数学的表現を発見するために,ニューラルワーク(SRNet)のための新しい記号回帰法を提案する。 SRNetは、NN内の単一のレイヤの隠されたセマンティクスを表現するために、カルテシアン遺伝プログラミング(NNCGP)を作成する。 次に、NNの全レイヤの隠れセマンティクスを表現するために、マルチ染色体NCGPを利用する。 この方法は (1+$\lambda$) 進化戦略 (MNNCGP-ES) を用いて、NN内の全ての層の最終的な数学的表現を抽出する。 12のシンボリック回帰ベンチマークと5つの分類ベンチマークの実験は、SRNetがNNの各層間の複雑な関係を明らかにするだけでなく、NN全体の数学的表現を抽出できることを示している。 LIME や MAPLE と比較すると,SRNet は補間精度が高く,実際のモデルに近い傾向にある。

Many recent studies focus on developing mechanisms to explain the black-box behaviors of neural networks (NNs). However, little work has been done to extract the potential hidden semantics (mathematical representation) of a neural network. A succinct and explicit mathematical representation of a NN model could improve the understanding and interpretation of its behaviors. To address this need, we propose a novel symbolic regression method for neural works (called SRNet) to discover the mathematical expressions of a NN. SRNet creates a Cartesian genetic programming (NNCGP) to represent the hidden semantics of a single layer in a NN. It then leverages a multi-chromosome NNCGP to represent hidden semantics of all layers of the NN. The method uses a (1+$\lambda$) evolutionary strategy (called MNNCGP-ES) to extract the final mathematical expressions of all layers in the NN. Experiments on 12 symbolic regression benchmarks and 5 classification benchmarks show that SRNet not only can reveal the complex relationships between each layer of a NN but also can extract the mathematical representation of the whole NN. Compared with LIME and MAPLE, SRNet has higher interpolation accuracy and trends to approximate the real model on the practical dataset.
翻訳日:2022-04-25 14:48:12 公開日:2022-04-22
# 低解像度赤外線センサとCNNを用いたマイクロコントローラのプライバシー保護ソーシャル距離モニタリング

Privacy-preserving Social Distance Monitoring on Microcontrollers with Low-Resolution Infrared Sensors and CNNs ( http://arxiv.org/abs/2204.10541v1 )

ライセンス: Link先を確認
Chen Xie, Francesco Daghero, Yukai Chen, Marco Castellano, Luca Gandolfi, Andrea Calimera, Enrico Macii, Massimo Poncino, Daniele Jahier Pagliari(参考訳) 低解像度赤外線(IR)アレイセンサーは、屋内空間における社会的距離監視のための光学カメラやスマートフォン/ウェアラブルの代わりとして、低コスト、低消費電力、プライバシー保護を提供する。 本研究では,小型の畳み込みニューラルネットワーク (CNN) を用いた8x8 IRアレイセンサの生出力を処理することにより,社会的距離違反を正確に検出できることを実証する。 さらに、cnnは、マイクロコントローラ(mcu)ベースのセンサノード上で直接実行することができる。 新たに収集したオープンデータセットの結果から、最高のcnnは86.3%のバランスの取れた精度を達成し、最先端決定論的アルゴリズムによって達成された61%を大幅に上回っています。 CNNのアーキテクチャパラメータを変更することで、70.5-86.3%の精度と0.18-75kのパラメータからなる、豊富なパレートモデルが得られる。 STM32L476RG MCU上に配備されたこれらのモデルはレイテンシが0.73-5.33msであり、推力は9.38-68.57{\mu}Jである。

Low-resolution infrared (IR) array sensors offer a low-cost, low-power, and privacy-preserving alternative to optical cameras and smartphones/wearables for social distance monitoring in indoor spaces, permitting the recognition of basic shapes, without revealing the personal details of individuals. In this work, we demonstrate that an accurate detection of social distance violations can be achieved processing the raw output of a 8x8 IR array sensor with a small-sized Convolutional Neural Network (CNN). Furthermore, the CNN can be executed directly on a Microcontroller (MCU)-based sensor node. With results on a newly collected open dataset, we show that our best CNN achieves 86.3% balanced accuracy, significantly outperforming the 61% achieved by a state-of-the-art deterministic algorithm. Changing the architectural parameters of the CNN, we obtain a rich Pareto set of models, spanning 70.5-86.3% accuracy and 0.18-75k parameters. Deployed on a STM32L476RG MCU, these models have a latency of 0.73-5.33ms, with an energy consumption per inference of 9.38-68.57{\mu}J.
翻訳日:2022-04-25 14:47:51 公開日:2022-04-22
# inexact admmによる連合学習

Federated Learning via Inexact ADMM ( http://arxiv.org/abs/2204.10607v1 )

ライセンス: Link先を確認
Shenglong Zhou and Geoffrey Ye Li(参考訳) 連合学習における重要な問題の一つは、効率的な最適化アルゴリズムの開発方法である。 現在の製品のほとんどは、完全なデバイス参加と/またはコンバージェンスに対する強い仮定を必要とする。 本論文は,広く用いられている勾配降下型アルゴリズムと異なり,演算と通信効率が良く,ストラグラー効果に対処可能で,穏やかな条件下で収束可能な乗算器の逆方向法(admm)を開発した。

One of the crucial issues in federated learning is how to develop efficient optimization algorithms. Most of the current ones require full devices participation and/or impose strong assumptions for convergence. Different from the widely-used gradient descent-based algorithms, this paper develops an inexact alternating direction method of multipliers (ADMM), which is both computation and communication-efficient, capable of combating the stragglers' effect, and convergent under mild conditions.
翻訳日:2022-04-25 14:47:30 公開日:2022-04-22
# 潜在ディリクレ配置を用いた動的住宅エネルギーライフスタイルの構築

Constructing dynamic residential energy lifestyles using Latent Dirichlet Allocation ( http://arxiv.org/abs/2204.10770v1 )

ライセンス: Link先を確認
Xiao Chen, Chad Zanocco, June Flora, Ram Rajagopal(参考訳) 高度メータインフラストラクチャー(ami)の急速な拡張により、エネルギー情報環境は劇的に変化した。 しかし、この情報を利用して住宅の電力需要に関する実効的な洞察を生み出す能力は、まだ限られている。 本研究では,反復的かつ拡張性の高い動的エネルギーライフスタイルアプローチを用いて,住宅の電力需要を理解するための新しい枠組みを提案する。 エネルギーライフスタイルを得るために,テキストデータの潜在トピック構造を推定するために一般的に用いられる手法である潜在ディリクレ割当(lda)を適用し,一連の潜在家庭エネルギー属性を抽出する新しい手法を開発した。 そこで我々は,各世帯にエネルギー特性が混在し,エネルギーライフスタイルのまばらな集合体を識別するためのビルディングブロックを形成する,家庭用電力消費の新たな視点を提供する。 本研究では,6万世帯の1年毎のスマートメータデータを用いて実験を行い,一般利用パターンを記述した6つのエネルギー属性を抽出した。 次に、クラスタリング手法を用いてエネルギー属性比から6つの異なるエネルギーライフスタイルプロファイルを導出する。 我々のライフスタイルアプローチは、時間間隔の変動にも柔軟であり、家庭内および家庭内におけるエネルギーライフスタイルの動態を追跡するために、季節的に生活スタイルのアプローチ(オートゥムン、ウィンター、スプリング、サマー)を検証し、1年間に約73%の世帯が複数のライフスタイルを示すことを発見した。 これらのエネルギーライフスタイルを異なるエネルギー利用特性と比較し、需要応答プログラム設計とライフスタイルの変化分析の実践的応用について議論する。

The rapid expansion of Advanced Meter Infrastructure (AMI) has dramatically altered the energy information landscape. However, our ability to use this information to generate actionable insights about residential electricity demand remains limited. In this research, we propose and test a new framework for understanding residential electricity demand by using a dynamic energy lifestyles approach that is iterative and highly extensible. To obtain energy lifestyles, we develop a novel approach that applies Latent Dirichlet Allocation (LDA), a method commonly used for inferring the latent topical structure of text data, to extract a series of latent household energy attributes. By doing so, we provide a new perspective on household electricity consumption where each household is characterized by a mixture of energy attributes that form the building blocks for identifying a sparse collection of energy lifestyles. We examine this approach by running experiments on one year of hourly smart meter data from 60,000 households and we extract six energy attributes that describe general daily use patterns. We then use clustering techniques to derive six distinct energy lifestyle profiles from energy attribute proportions. Our lifestyle approach is also flexible to varying time interval lengths, and we test our lifestyle approach seasonally (Autumn, Winter, Spring, and Summer) to track energy lifestyle dynamics within and across households and find that around 73% of households manifest multiple lifestyles across a year. These energy lifestyles are then compared to different energy use characteristics, and we discuss their practical applications for demand response program design and lifestyle change analysis.
翻訳日:2022-04-25 14:47:22 公開日:2022-04-22
# 予測的意思決定のための人間とmlの相補的強みを結合する統一的枠組み

A Unifying Framework for Combining Complementary Strengths of Humans and ML toward Better Predictive Decision-Making ( http://arxiv.org/abs/2204.10806v1 )

ライセンス: Link先を確認
Charvi Rastogi, Liu Leqi, Kenneth Holstein, Hoda Heidari(参考訳) ハイブリッドな人間-MLシステムは、広範囲のドメインにおける連続的な決定をますます担当している。 成長する研究機関は、経験的および理論的分析を提供することで、これらのシステムに対する理解を深めてきた。 しかし、既存の実験結果は混ざり合っており、理論的な提案はしばしば互いに相容れない。 この研究の目標は、人間とmlの相補的な強みを組み合わせることで、個人が生み出すものよりも高品質な意思決定につながる状況を理解するための統一的な枠組みを提供することで、多くのニーズのある組織をこの分野に持ち込むことです。 我々は,人間-ml予測意思決定システムの文脈に着目し,人間とmlに基づく予測決定を組み合わせる最適な方法を検討し,その判断の変動の根本原因を考察する。 このスコープでは、2つの重要な貢献を行います。 まず、人間の心理学、機械学習、人間とコンピュータの相互作用に関する先行文献をもとに、人間と機械の意思決定が異なる幅広い基準を特徴付ける分類法を導入する。 2つ目の貢献は、人間とmlの予測決定を最適に集約する方法を定式化するための最適化ベースのフレームワークです。 提案するフレームワークは,人間-MLの相補性に関するいくつかの既存モデルを含む。 最後に重要なこととして、このフレームワークの探索分析は、この分野における今後の作業に重要な洞察を与えます。

Hybrid human-ML systems are increasingly in charge of consequential decisions in a wide range of domains. A growing body of work has advanced our understanding of these systems by providing empirical and theoretical analyses. However, existing empirical results are mixed, and theoretical proposals are often incompatible with each other. Our goal in this work is to bring much-needed organization to this field by offering a unifying framework for understanding conditions under which combining complementary strengths of human and ML leads to higher quality decisions than those produced by them individually -- a state to which we refer to as human-ML complementarity. We focus specifically on the context of human-ML predictive decision-making systems and investigate optimal ways of combining human and ML-based predictive decisions, accounting for the underlying causes of variation in their judgments. Within this scope, we present two crucial contributions. First, drawing upon prior literature in human psychology, machine learning, and human-computer interaction, we introduce a taxonomy characterizing a wide variety of criteria across which human and machine decision-making differ. Building on our taxonomy, our second contribution presents a unifying optimization-based framework for formalizing how human and ML predictive decisions should be aggregated optimally. We show that our proposed framework encompasses several existing models of human-ML complementarity as special cases. Last but not least, the exploratory analysis of our framework offers a critical piece of insight for future work in this area: the mechanism by which we combine human-ML judgments should be informed by the underlying causes of their diverging decisions.
翻訳日:2022-04-25 14:46:10 公開日:2022-04-22
# 強化学習に対する報酬報告

Reward Reports for Reinforcement Learning ( http://arxiv.org/abs/2204.10817v1 )

ライセンス: Link先を確認
Thomas Gilbert, Sarah Dean, Nathan Lambert, Tom Zick and Aaron Snoswell(参考訳) 複雑な社会的影響に直面して優れたシステムを構築するためには、株式とアクセスに対する動的なアプローチが必要である。 機械学習(ML)ドキュメンテーションへの最近のアプローチは、これらの複雑さについて検討するための分散フレームワークの可能性を実証している。 しかしながら、これらの開発は静的MLパラダイムに基づいており、フィードバックやデプロイ後のパフォーマンスの役割は未検討のままである。 一方, 強化学習設計における最近の研究により, 最適化目標がシステム動作に与える影響は広範囲に及び予測不可能であることが示されている。 本稿では,Reward Reportsと呼ぶ,デプロイされた学習システムの文書化のためのフレームワークをスケッチする。 強化学習に関する技術文献への様々な貢献から着想を得て、リワードレポートを、特定の自動化システムが最適化しているものの背後にある設計選択や仮定の更新を追跡する、生きたドキュメントとして概説する。 それらは単にモデルやデータの静的な特性ではなく、システムデプロイメントから生じる動的現象を追跡することを目的としている。 Reward Reportの要素を提示した後、DeepMindのMuZero、MovieLens、Project Flowトラフィック制御ポリシーの仮説的な展開の3つの例を挙げる。

The desire to build good systems in the face of complex societal effects requires a dynamic approach towards equity and access. Recent approaches to machine learning (ML) documentation have demonstrated the promise of discursive frameworks for deliberation about these complexities. However, these developments have been grounded in a static ML paradigm, leaving the role of feedback and post-deployment performance unexamined. Meanwhile, recent work in reinforcement learning design has shown that the effects of optimization objectives on the resultant system behavior can be wide-ranging and unpredictable. In this paper we sketch a framework for documenting deployed learning systems, which we call Reward Reports. Taking inspiration from various contributions to the technical literature on reinforcement learning, we outline Reward Reports as living documents that track updates to design choices and assumptions behind what a particular automated system is optimizing for. They are intended to track dynamic phenomena arising from system deployment, rather than merely static properties of models or data. After presenting the elements of a Reward Report, we provide three examples: DeepMind's MuZero, MovieLens, and a hypothetical deployment of a Project Flow traffic control policy.
翻訳日:2022-04-25 14:45:43 公開日:2022-04-22
# 空間分岐のための学習:アルゴリズム選択アプローチ

Learning for Spatial Branching: An Algorithm Selection Approach ( http://arxiv.org/abs/2204.10834v1 )

ライセンス: Link先を確認
Bissan Ghaddar, Ignacio G\'omez-Casares, Julio Gonz\'alez-D\'iaz, Brais Gonz\'alez-Rodr\'iguez, Beatriz Pateiro-L\'opez, Sof\'ia Rodr\'iguez-Ballesteros(参考訳) 分岐とバウンドの最適化アルゴリズムの性能向上のための機械学習技術の利用は、混合整数線形問題において非常に活発な分野であるが、非線形最適化ではほとんど行われていない。 このギャップを埋めるため、我々は空間分岐学習フレームワークを開発し、多項式最適化問題に対する修正-線形化手法の文脈でその有効性を示す。 提案した学習は、インスタンス固有の機能に基づいてオフラインで実行され、新しいインスタンスを解く際の計算オーバーヘッドがない。 新しいグラフベースの機能が導入され、学習に重要な役割を果たすことが判明した。 文献の異なるベンチマークインスタンスを用いた実験では、学習に基づく分岐規則が標準規則を大きく上回っていることが示されている。

The use of machine learning techniques to improve the performance of branch-and-bound optimization algorithms is a very active area in the context of mixed integer linear problems, but little has been done for non-linear optimization. To bridge this gap, we develop a learning framework for spatial branching and show its efficacy in the context of the Reformulation-Linearization Technique for polynomial optimization problems. The proposed learning is performed offline, based on instance-specific features and with no computational overhead when solving new instances. Novel graph-based features are introduced, which turn out to play an important role for the learning. Experiments on different benchmark instances from the literature show that the learning-based branching rule significantly outperforms the standard rules.
翻訳日:2022-04-25 14:45:25 公開日:2022-04-22
# PubMed Abstractsにおける遺伝子/プロテイン相互作用のグローバルマッピング:フレームワークとP53相互作用の実験

Global Mapping of Gene/Protein Interactions in PubMed Abstracts: A Framework and an Experiment with P53 Interactions ( http://arxiv.org/abs/2204.10476v1 )

ライセンス: Link先を確認
Xin Li, Hsinchun Chen, Zan Huang, Hua Su, Jesse D. Martinez(参考訳) 遺伝子/タンパク質相互作用は、細胞プロセスの徹底的な理解のために重要な情報を提供する。 近年,ゲノムワイド遺伝子ネットワークの構築と解析に多大な関心と努力が注がれている。 多くの生物医学文献は、遺伝子/タンパク質相互作用情報の重要な情報源である。 テキストマイニングツールの最近の進歩により、フリーテキストの文献から文書化されたインタラクションを自動的に抽出できるようになった。 本稿では,テキストマイニングツールを用いたバイオメディカル文献リポジトリから抽出した遺伝子/タンパク質相互作用に基づいて,大規模遺伝子機能ネットワークの構築と解析を行う包括的なフレームワークを提案する。 提案するフレームワークは,ネットワークトポロジ,ネットワークトポロジ-遺伝子機能関係,時間ネットワーク進化を解析し,文献における遺伝子機能相互作用に埋め込まれた貴重な情報を抽出する。 文献ベースのP53ネットワークは,P53に関連するPubMed抽象化の試験ベッドを用いて,小規模かつ大規模な特性を示す。 また、文献ベースネットワークの高次遺伝子は、手動でキュレートされたデータベースに出現する確率が高く、同じ経路の遺伝子は文献ベースネットワークの局所的なクラスタを形成する傾向にあることも見出した。 時間的解析により、他の多くの遺伝子と相互作用する遺伝子は、新たに発見された多数の相互作用に関与する傾向があることが示された。

Gene/protein interactions provide critical information for a thorough understanding of cellular processes. Recently, considerable interest and effort has been focused on the construction and analysis of genome-wide gene networks. The large body of biomedical literature is an important source of gene/protein interaction information. Recent advances in text mining tools have made it possible to automatically extract such documented interactions from free-text literature. In this paper, we propose a comprehensive framework for constructing and analyzing large-scale gene functional networks based on the gene/protein interactions extracted from biomedical literature repositories using text mining tools. Our proposed framework consists of analyses of the network topology, network topology-gene function relationship, and temporal network evolution to distill valuable information embedded in the gene functional interactions in literature. We demonstrate the application of the proposed framework using a testbed of P53-related PubMed abstracts, which shows that literature-based P53 networks exhibit small-world and scale-free properties. We also found that high degree genes in the literature-based networks have a high probability of appearing in the manually curated database and genes in the same pathway tend to form local clusters in our literature-based networks. Temporal analysis showed that genes interacting with many other genes tend to be involved in a large number of newly discovered interactions.
翻訳日:2022-04-25 14:44:34 公開日:2022-04-22
# 時間差学習の解析:線形システムアプローチ

Analysis of Temporal Difference Learning: Linear System Approach ( http://arxiv.org/abs/2204.10479v1 )

ライセンス: Link先を確認
Donghwan Lee and Do Wan Kim(参考訳) 本技術の目的は,確率線形系モデルに基づく時間差分学習(TD)の新しい有限時間収束解析を導入することである。 TD学習は、マルコフ決定過程の対応する値関数を推定することにより、所定のポリシーを評価するための基本的な強化学習(RL)である。 tdラーニングの理論解析に成功している研究はいくつかあるが、研究者たちが有限時間誤差境界の開発による統計効率の保証を発見したのは近年になってからである。 本稿では,線形システムモデルと線形システムコミュニティにおける標準概念を利用したTD学習の簡易制御理論有限時間解析を提案する。 提案した研究は、RL解析のための新しいシンプルなアレントを提供し、制御理論のアイデアに基づくTD学習とRLに関するさらなる洞察を提供する。

The goal of this technical note is to introduce a new finite-time convergence analysis of temporal difference (TD) learning based on stochastic linear system models. TD-learning is a fundamental reinforcement learning (RL) to evaluate a given policy by estimating the corresponding value function for a Markov decision process. While there has been a series of successful works in theoretical analysis of TDlearning, it was not until recently that researchers found some guarantees on its statistical efficiency by developing finite-time error bounds. In this paper, we propose a simple control theoretic finite-time analysis of TD-learning, which exploits linear system models and standard notions in linear system communities. The proposed work provides new simple templets for RL analysis, and additional insights on TD-learning and RL based on ideas in control theory.
翻訳日:2022-04-25 14:44:13 公開日:2022-04-22
# 混合整数非線形計画のブラックボックス最適化による行列の損失圧縮

Lossy compression of matrices by black-box optimisation of mixed-integer non-linear programming ( http://arxiv.org/abs/2204.10579v1 )

ライセンス: Link先を確認
Tadashi Kadowaki and Mitsuru Ambai(参考訳) エッジコンピューティングでは、データサイズの抑制は、計算資源(速度、メモリサイズ、電力)が制限された自動運転のような複雑なタスクを実行する機械学習モデルにとっての課題である。 行列データの効率的な損失圧縮は、整数と実行列の積に分解することによって導入された。 しかし、整数と実変数を同時に最適化する必要があるため、最適化は難しい。 本稿では,最近開発された black-box optimization (bbo) アルゴリズムを整数変数のイジングソルバを用いて活用することにより,この最適化を改善する。 さらに、アルゴリズムは、実変数と整数変数のそれぞれで線形かつ非線形な混合整数計画問題を解くのに使うことができる。 さらに, ising solvers (simulated annealing (sa), quantum annealing (qa) and simulated quenching (sq)) の選択とbboアルゴリズム (bocs, fmqa and their variations) の戦略の違いについて考察した。

In edge computing, suppressing data size is a challenge for machine learning models that perform complex tasks such as autonomous driving, in which computational resources (speed, memory size and power) are limited. Efficient lossy compression of matrix data has been introduced by decomposing it into the product of an integer and real matrices. However, its optimisation is difficult as it requires simultaneous optimisation of an integer and real variables. In this paper, we improve this optimisation by utilising recently developed black-box optimisation (BBO) algorithms with an Ising solver for integer variables. In addition, the algorithm can be used to solve mixed-integer programming problems that are linear and non-linear in terms of real and integer variables, respectively. The differences between the choice of Ising solvers (simulated annealing (SA), quantum annealing (QA) and simulated quenching (SQ)) and the strategies of the BBO algorithms (BOCS, FMQA and their variations) are discussed for further development of the BBO techniques.
翻訳日:2022-04-25 14:42:42 公開日:2022-04-22
# (参考訳) BERTに基づくセッションアウェアシークエンシャルレコメンデーションにおけるセッション情報の公開

Exploiting Session Information in BERT-based Session-aware Sequential Recommendation ( http://arxiv.org/abs/2204.10851v1 )

ライセンス: CC BY-SA 4.0
Jinseok Seol, Youngrok Ko, Sang-goo Lee(参考訳) レコメンデーションシステムでは、ユーザインタラクション履歴をシーケンシャルな情報として利用すると、パフォーマンスが大幅に向上する。 しかし、多くのオンラインサービスでは、ユーザーインタラクションはおそらく好みを共有するセッションによってグループ化され、通常のシーケンス表現技術とは異なるアプローチを必要とする。 この目的のために、階層構造や様々な視点を持つシーケンス表現モデルが開発されたが、かなり複雑なネットワーク構造を持つ。 本稿では,セッショントークンの利用,セッションセグメントの埋め込みの追加,タイムアウェアな自己アテンションなど,BERTベースのシーケンシャルレコメンデーションモデルにおける追加パラメータを最小化しながらセッション情報を活用することで,レコメンデーション性能を向上させる3つの手法を提案する。 提案手法の有効性を,広く利用されている推薦データセットの実験を通じて実証する。

In recommendation systems, utilizing the user interaction history as sequential information has resulted in great performance improvement. However, in many online services, user interactions are commonly grouped by sessions that presumably share preferences, which requires a different approach from ordinary sequence representation techniques. To this end, sequence representation models with a hierarchical structure or various viewpoints have been developed but with a rather complex network structure. In this paper, we propose three methods to improve recommendation performance by exploiting session information while minimizing additional parameters in a BERT-based sequential recommendation model: using session tokens, adding session segment embeddings, and a time-aware self-attention. We demonstrate the feasibility of the proposed methods through experiments on widely used recommendation datasets.
翻訳日:2022-04-25 14:39:59 公開日:2022-04-22
# 自動回帰検索エンジン: 文書識別子としてサブストリングを生成する

Autoregressive Search Engines: Generating Substrings as Document Identifiers ( http://arxiv.org/abs/2204.10628v1 )

ライセンス: Link先を確認
Michele Bevilacqua, Giuseppe Ottaviano, Patrick Lewis, Wen-tau Yih, Sebastian Riedel, Fabio Petroni(参考訳) 知識集約型言語タスクは、NLPシステムに正しい回答を提供し、与えられたコーパスでそれを支持する証拠を取得することを要求する。 自動回帰言語モデルは、回答を生成するデファクトスタンダードとして現れており、より新しくより強力なシステムが驚くべきペースで出現している。 本稿では,この(および今後の)進歩が,モデルアーキテクチャへの最小限の介入で,検索問題に直接適用可能であることを論じる。 従来、検索空間を階層構造に分割し、独自の識別子を自動回帰生成することで文書を検索する方法を模索してきた。 本研究では,検索空間の任意の構造を強制しない代替として,経路内のすべてのngramを識別子として使用することを提案する。 この設定により、自動回帰モデルを使用して、識別されたnグラムを生成してスコア付けし、効率的なデータ構造を通して完全なパスにマッピングすることができる。 経験的に、これは従来の自己回帰的アプローチに勝るだけでなく、KILTベンチマークでより確立されたパスレベルの検索ソリューションよりも10ポイント以上向上し、競合システムよりもはるかに軽いメモリフットプリントを使用しながら、いくつかのデータセット上で新たな最先端のダウンストリーム性能を確立した。 コードと事前トレーニング済みモデルはhttps://github.com/facebookresearch/seal。

Knowledge-intensive language tasks require NLP systems to both provide the correct answer and retrieve supporting evidence for it in a given corpus. Autoregressive language models are emerging as the de-facto standard for generating answers, with newer and more powerful systems emerging at an astonishing pace. In this paper we argue that all this (and future) progress can be directly applied to the retrieval problem with minimal intervention to the models' architecture. Previous work has explored ways to partition the search space into hierarchical structures and retrieve documents by autoregressively generating their unique identifier. In this work we propose an alternative that doesn't force any structure in the search space: using all ngrams in a passage as its possible identifiers. This setup allows us to use an autoregressive model to generate and score distinctive ngrams, that are then mapped to full passages through an efficient data structure. Empirically, we show this not only outperforms prior autoregressive approaches but also leads to an average improvement of at least 10 points over more established retrieval solutions for passage-level retrieval on the KILT benchmark, establishing new state-of-the-art downstream performance on some datasets, while using a considerably lighter memory footprint than competing systems. Code and pre-trained models at https://github.com/facebookresearch/SEAL.
翻訳日:2022-04-25 14:28:34 公開日:2022-04-22
# 変分近似のない多視点情報ボトルネック

Multi-view Information Bottleneck Without Variational Approximation ( http://arxiv.org/abs/2204.10530v1 )

ライセンス: Link先を確認
Qi Zhang, Shujian Yu, Jingmin Xin, Badong Chen(参考訳) 異なるビューにまたがる補完的情報を「インテリジェントに」利用することで、マルチビュー学習は分類タスクのパフォーマンスを向上させることができる。 本研究では,情報ボトルネックの原理を教師あり多視点学習シナリオに拡張し,最近提案された行列ベースr{\'e}nyiの$\alpha$-order entropy functionalを用いて,変分近似や逆訓練を必要とせず,直接目的を最適化する。 合成および実世界の両方のデータセットにおける実験結果から,本手法は各視点におけるノイズや冗長な情報に対する堅牢性の改善を享受することを示す。 コードは~\url{https://github.com/archy666/MEIB}で入手できる。

By "intelligently" fusing the complementary information across different views, multi-view learning is able to improve the performance of classification tasks. In this work, we extend the information bottleneck principle to a supervised multi-view learning scenario and use the recently proposed matrix-based R{\'e}nyi's $\alpha$-order entropy functional to optimize the resulting objective directly, without the necessity of variational approximation or adversarial training. Empirical results in both synthetic and real-world datasets suggest that our method enjoys improved robustness to noise and redundant information in each view, especially given limited training samples. Code is available at~\url{https://github.com/archy666/MEIB}.
翻訳日:2022-04-25 14:27:37 公開日:2022-04-22
# 変圧器を用いた終端記号回帰

End-to-end symbolic regression with transformers ( http://arxiv.org/abs/2204.10532v1 )

ライセンス: Link先を確認
Pierre-Alexandre Kamienny, St\'ephane d'Ascoli, Guillaume Lample, Fran\c{c}ois Charton(参考訳) シンボリック回帰(シンボリックレグレッション、英: symbolic regression)とは、関数の数学的表現をその値の観測から予測するタスクであり、通常2段階の手続きを伴う難しいタスクである: 数値定数の選択までの表現の「骨格」を予測し、非凸損失関数を最適化して定数を適合させる。 主要なアプローチは遺伝的プログラミングであり、このサブルーチンを何度も繰り返して候補を進化させる。 ニューラルネットワークは最近、正しい骨格を1回の試行で予測するように指示されているが、まだ強力ではない。 本稿では,この2段階の手順に挑戦し,定数を含む数学式を直接予測するトランスフォーマーをタスクする。 その後、情報初期化として非凸オプティマイザに供給することで予測定数を洗練することができる。 我々は、このエンドツーエンドアプローチが、時には改善ステップなしでも、より良い結果をもたらすことを示す。 SRBenchベンチマークから得られた問題をモデルとして評価し,数桁の高速推論で最先端の遺伝的プログラムの性能にアプローチすることを示す。

Symbolic regression, the task of predicting the mathematical expression of a function from the observation of its values, is a difficult task which usually involves a two-step procedure: predicting the "skeleton" of the expression up to the choice of numerical constants, then fitting the constants by optimizing a non-convex loss function. The dominant approach is genetic programming, which evolves candidates by iterating this subroutine a large number of times. Neural networks have recently been tasked to predict the correct skeleton in a single try, but remain much less powerful. In this paper, we challenge this two-step procedure, and task a Transformer to directly predict the full mathematical expression, constants included. One can subsequently refine the predicted constants by feeding them to the non-convex optimizer as an informed initialization. We present ablations to show that this end-to-end approach yields better results, sometimes even without the refinement step. We evaluate our model on problems from the SRBench benchmark and show that our model approaches the performance of state-of-the-art genetic programming with several orders of magnitude faster inference.
翻訳日:2022-04-25 14:27:22 公開日:2022-04-22
# 異なるプライベートモデルのためのシャーパーユーティリティ境界

Sharper Utility Bounds for Differentially Private Models ( http://arxiv.org/abs/2204.10536v1 )

ライセンス: Link先を確認
Yilin Kang, Yong Liu, Jian Li, Weiping Wang(参考訳) 本稿では、一般化バーンスタイン条件を導入することにより、勾配摂動法に基づいて、G$-Lipschitz,$L$-smooth,およびPolyak-{\L}ojasiewicz条件を仮定して、微分プライベートアルゴリズムに対して有界な高確率過剰集団リスクを、最初の$\mathcal{O}\big(\frac{\sqrt{p}}{n\epsilon}\big)として提案する。 プロパティ $G$-Lipschitz と $L$-smooth を $\alpha$-H{\"o}lder smoothness (これは非滑らかな設定で使用することができる) に置き換えると、高い確率境界は $\mathcal{O}\big(n^{-\frac {\alpha}{1+2\alpha}}\big)$ w.r.t $n$ となり、$\mathcal{O}\left(1/n\right)$ は$\alpha\in(0,1)$ となる。 この問題を解決するために、勾配摂動法の変種である \textbf{max$\{1,g\}$-Normalized Gradient Perturbation} (m-NGP)を提案する。 さらに、正規化により、高確率過剰集団リスクは、仮定により$\alpha$-H{\"o}lder smooth と Polyak-{\L}ojasiewicz 条件が$\mathcal{O}\big(\frac{\sqrt{p}}{n\epsilon}\big)$ が得られることが示され、これは最初の$\mathcal{O}\left(1/n\right)$ 高確率過剰集団リスクは非滑らかな条件下での微分プライベートアルゴリズムに対して w.r.t $n$ となる。 さらに,提案アルゴリズムm-NGPの性能評価を行い,実験結果から,m-NGPは実データセットよりも微分プライベートモデルの性能を向上させることが示された。 m-NGPは実データセット上のDPモデルのユーティリティ境界と精度を同時に改善することを示した。

In this paper, by introducing Generalized Bernstein condition, we propose the first $\mathcal{O}\big(\frac{\sqrt{p}}{n\epsilon}\big)$ high probability excess population risk bound for differentially private algorithms under the assumptions $G$-Lipschitz, $L$-smooth, and Polyak-{\L}ojasiewicz condition, based on gradient perturbation method. If we replace the properties $G$-Lipschitz and $L$-smooth by $\alpha$-H{\"o}lder smoothness (which can be used in non-smooth setting), the high probability bound comes to $\mathcal{O}\big(n^{-\frac{\alpha}{1+2\alpha}}\big)$ w.r.t $n$, which cannot achieve $\mathcal{O}\left(1/n\right)$ when $\alpha\in(0,1]$. To solve this problem, we propose a variant of gradient perturbation method, \textbf{max$\{1,g\}$-Normalized Gradient Perturbation} (m-NGP). We further show that by normalization, the high probability excess population risk bound under assumptions $\alpha$-H{\"o}lder smooth and Polyak-{\L}ojasiewicz condition can achieve $\mathcal{O}\big(\frac{\sqrt{p}}{n\epsilon}\big)$, which is the first $\mathcal{O}\left(1/n\right)$ high probability excess population risk bound w.r.t $n$ for differentially private algorithms under non-smooth conditions. Moreover, we evaluate the performance of the new proposed algorithm m-NGP, the experimental results show that m-NGP improves the performance of the differentially private model over real datasets. It demonstrates that m-NGP improves the utility bound and the accuracy of the DP model on real datasets simultaneously.
翻訳日:2022-04-25 14:27:02 公開日:2022-04-22
# 低分解能赤外線センサと適応推論を用いたエネルギー効率とプライバシーを考慮した社会距離モニタリング

Energy-efficient and Privacy-aware Social Distance Monitoring with Low-resolution Infrared Sensors and Adaptive Inference ( http://arxiv.org/abs/2204.10539v1 )

ライセンス: Link先を確認
Chen Xie, Daniele Jahier Pagliari, Andrea Calimera(参考訳) 低解像度赤外線センサと機械学習(ML)を組み合わせることで、屋内空間におけるプライバシー保護型ソーシャル距離監視ソリューションを実現することができる。 しかし、IoT(Internet of Things)エッジノード上でこれらのアプリケーションを実行する必要性は、エネルギー消費を重要視している。 本研究では、単純な起動トリガのカスケードと、8ビット量子化畳み込みニューラルネットワーク(CNN)からなるエネルギー効率のよい適応型推論ソリューションを提案する。 このような適応システムをIoTマイクロコントローラに展開することにより、8x8の低分解能IRセンサの出力を処理する場合、静的CNNベースのアプローチに対してエネルギー消費量を37~57%削減でき、精度は2%未満(バランスの取れた精度は83%)であることを示す。

Low-resolution infrared (IR) Sensors combined with machine learning (ML) can be leveraged to implement privacy-preserving social distance monitoring solutions in indoor spaces. However, the need of executing these applications on Internet of Things (IoT) edge nodes makes energy consumption critical. In this work, we propose an energy-efficient adaptive inference solution consisting of the cascade of a simple wake-up trigger and a 8-bit quantized Convolutional Neural Network (CNN), which is only invoked for difficult-to-classify frames. Deploying such adaptive system on a IoT Microcontroller, we show that, when processing the output of a 8x8 low-resolution IR sensor, we are able to reduce the energy consumption by 37-57% with respect to a static CNN-based approach, with an accuracy drop of less than 2% (83% balanced accuracy).
翻訳日:2022-04-25 14:26:09 公開日:2022-04-22
# データ表現のためのログベーススパース非負行列分解

Log-based Sparse Nonnegative Matrix Factorization for Data Representation ( http://arxiv.org/abs/2204.10647v1 )

ライセンス: Link先を確認
Chong Peng, Yiqun Zhang, Yongyong Chen, Zhao Kang, Chenglizhao Chen, Qiang Cheng(参考訳) 非負行列分解(NMF)は、非負のデータを部品ベースの表現で表すことの有効性から、近年広く研究されている。 For NMF, a sparser solution implies better parts-based representation.However, current NMF methods do not always generate sparse solutions.In this paper, we propose a new NMF method with log-norm imposed on the factor matrices to enhance the sparseness.Moreover, we propose a novel column-wisely sparse norm, named $\ell_{2,\log}$-(pseudo) norm to enhance the robustness of the proposed method.The $\ell_{2,\log}$-(pseudo) norm is invariant, continuous, and differentiable.For the $\ell_{2,\log}$ regularized shrinkage problem, we derive a closed-form solution, which can be used for other general problems.Efficient multiplicative updating rules are developed for the optimization, which theoretically guarantees the convergence of the objective value sequence.Extensive experimental results confirm the effectiveness of the proposed method, as well as the enhanced sparseness and robustness.

Nonnegative matrix factorization (NMF) has been widely studied in recent years due to its effectiveness in representing nonnegative data with parts-based representations. For NMF, a sparser solution implies better parts-based representation.However, current NMF methods do not always generate sparse solutions.In this paper, we propose a new NMF method with log-norm imposed on the factor matrices to enhance the sparseness.Moreover, we propose a novel column-wisely sparse norm, named $\ell_{2,\log}$-(pseudo) norm to enhance the robustness of the proposed method.The $\ell_{2,\log}$-(pseudo) norm is invariant, continuous, and differentiable.For the $\ell_{2,\log}$ regularized shrinkage problem, we derive a closed-form solution, which can be used for other general problems.Efficient multiplicative updating rules are developed for the optimization, which theoretically guarantees the convergence of the objective value sequence.Extensive experimental results confirm the effectiveness of the proposed method, as well as the enhanced sparseness and robustness.
翻訳日:2022-04-25 14:25:52 公開日:2022-04-22
# ユニバースに触発された教師付きコントラスト学習

Universum-inspired Supervised Contrastive Learning ( http://arxiv.org/abs/2204.10695v1 )

ライセンス: Link先を確認
Aiyang Han, Songcan Chen(参考訳) mixupは、元のデータポイントとラベルの凸の組み合わせによって追加のサンプルを生成する効率的なデータ拡張手法である。 理論的にはデータ特性に依存するが、mixupは、信頼できるロバスト性とニューラルネットワークトレーニングへの一般化に寄与する正規化器と校正器として機能する。 本稿では,対象のタスクを支援するためにクラス外サンプルを使用するUniversum Learningに触発され,対象のクラスに属さないドメイン内サンプルを生成する可能性,すなわちユニバーサム(universum)について検討する。 教師付きコントラスト学習の枠組みでは、ユニバーサムスタイルのMixupは驚くほど高品質なハードネガティブを生み出し、コントラスト学習における大きなバッチサイズの必要性を大いに軽減している。 これらの結果から,ユニバーサムデータを生成するためのミックスアップ戦略を組み込んだユニバーサムインスパイアコントラスト学習(unicon)を提案する。 ハードラベルを用いたMixupの改善だけでなく、ユニバーサムデータを生成するための新しい手法も開発している。 学習した表現の線形分類器を用いて、CIFAR-100上で81.68%のトップ-1精度を実現し、ResNet-50を用いたSupConのUniConとSupConの1024に対して、バッチサイズよりもはるかに小さい5%のマージンでアートの状態を上回りました。

Mixup is an efficient data augmentation method which generates additional samples through respective convex combinations of original data points and labels. Although being theoretically dependent on data properties, Mixup is reported to perform well as a regularizer and calibrator contributing reliable robustness and generalization to neural network training. In this paper, inspired by Universum Learning which uses out-of-class samples to assist the target tasks, we investigate Mixup from a largely under-explored perspective - the potential to generate in-domain samples that belong to none of the target classes, that is, universum. We find that in the framework of supervised contrastive learning, universum-style Mixup produces surprisingly high-quality hard negatives, greatly relieving the need for a large batch size in contrastive learning. With these findings, we propose Universum-inspired Contrastive learning (UniCon), which incorporates Mixup strategy to generate universum data as g-negatives and pushes them apart from anchor samples of the target classes. Our approach not only improves Mixup with hard labels, but also innovates a novel measure to generate universum data. With a linear classifier on the learned representations, our method achieves 81.68% top-1 accuracy on CIFAR-100, surpassing the state of art by a significant margin of 5% with a much smaller batch size, typically, 256 in UniCon vs. 1024 in SupCon using ResNet-50.
翻訳日:2022-04-25 14:25:01 公開日:2022-04-22
# インベントリおよびリミテッドスイッチによるMNLバンド

MNL-Bandits under Inventory and Limited Switches Constraints ( http://arxiv.org/abs/2204.10787v1 )

ライセンス: Link先を確認
Hongbin Zhang, Yu Yang, Feng Wu, Qixin Zhang(参考訳) 顧客への商品の表示を最適化することは、オフラインとオンラインの両方の小売業者の収益を増やす鍵となる。 本稿では、顧客好みの探索とデータから得られた顧客の選択の活用のトレードオフとして、MNL(Multi-Nomial Logit)選択モデルを採用して、商品に対する顧客の選択を捉え、小売業者の利益を最大化するために、計画的地平線上での品揃えを最適化する問題を考察する。 問題の設定をより現実的にするために、在庫制約と限定スイッチ制約の両方を検討し、小売業者はt$の時間前に資源在庫を使い果たすことが出来ず、顧客に示される分類を何度も切り替えることが禁じられている。 このような設定は、オンライン小売業者が顧客集団の仕分け選択を動的に最適化したい場合に当てはまる。 データから顧客の選択を学習しながら、分類を最適化する効率的なucbライクなアルゴリズムを開発した。 我々のアルゴリズムは,$O(T^\alpha)$スイッチが許される場合,$\tilde{O}\left(T^{1-\alpha/2}\right)$のサブ線形後悔を実現することができる。 %であり,後悔の限界は$t$に対して最適である。 大規模な数値実験により,アルゴリズムはベースラインよりも優れており,アルゴリズムの性能と理論上界とのギャップは小さいことがわかった。

Optimizing the assortment of products to display to customers is a key to increasing revenue for both offline and online retailers. To trade-off between exploring customers' preference and exploiting customers' choices learned from data, in this paper, by adopting the Multi-Nomial Logit (MNL) choice model to capture customers' choices over products, we study the problem of optimizing assortments over a planning horizon $T$ for maximizing the profit of the retailer. To make the problem setting more practical, we consider both the inventory constraint and the limited switches constraint, where the retailer cannot use up the resource inventory before time $T$ and is forbidden to switch the assortment shown to customers too many times. Such a setting suits the case when an online retailer wants to dynamically optimize the assortment selection for a population of customers. We develop an efficient UCB-like algorithm to optimize the assortments while learning customers' choices from data. We prove that our algorithm can achieve a sub-linear regret bound $\tilde{O}\left(T^{1-\alpha/2}\right)$ if $O(T^\alpha)$ switches are allowed. %, and our regret bound is optimal with respect to $T$. Extensive numerical experiments show that our algorithm outperforms baselines and the gap between our algorithm's performance and the theoretical upper bound is small.
翻訳日:2022-04-25 14:24:32 公開日:2022-04-22
# 確率的ニューラルネットワークのロバスト性に及ぼすサンプリングの影響

How Sampling Impacts the Robustness of Stochastic Neural Networks ( http://arxiv.org/abs/2204.10839v1 )

ライセンス: Link先を確認
Sina D\"aubener and Asja Fischer(参考訳) 確率的ニューラルネットワーク(snn)はランダム関数であり、このランダム関数の複数の実現を平均することで予測される。 これにより、一方のサンプルセットに基づいて逆攻撃を計算し、他方のサンプルセットで定義された予測に適用する。 本稿では,与えられた予測過程が計算された攻撃に対してロバストであるための十分な条件を導出することにより,この設定におけるロバスト性を分析する。 これにより、SNNの堅牢性向上につながる要因を特定し、分散とサンプルの量の影響を説明するのに役立ちます。 私たちの理論分析は、特に、洞察を与えてくれる。 (i)攻撃例の推定のために抽出されたサンプル量の増加が攻撃の強さを増加させる理由。 (ii) 推論中のサンプルサイズの減少がロバスト性にほとんど影響を与えない理由 (3) 実現間の高い予測分散がより高いロバスト性と関連している理由。 理論的な結果の妥当性を広範な実証分析により検証した。

Stochastic neural networks (SNNs) are random functions and predictions are gained by averaging over multiple realizations of this random function. Consequently, an adversarial attack is calculated based on one set of samples and applied to the prediction defined by another set of samples. In this paper we analyze robustness in this setting by deriving a sufficient condition for the given prediction process to be robust against the calculated attack. This allows us to identify the factors that lead to an increased robustness of SNNs and helps to explain the impact of the variance and the amount of samples. Among other things, our theoretical analysis gives insights into (i) why increasing the amount of samples drawn for the estimation of adversarial examples increases the attack's strength, (ii) why decreasing sample size during inference hardly influences the robustness, and (iii) why a higher prediction variance between realizations relates to a higher robustness. We verify the validity of our theoretical findings by an extensive empirical analysis.
翻訳日:2022-04-25 14:24:06 公開日:2022-04-22
# 対話型AIフェアネスにおけるエンドユーザの関与に向けて

Towards Involving End-users in Interactive Human-in-the-loop AI Fairness ( http://arxiv.org/abs/2204.10464v1 )

ライセンス: Link先を確認
Yuri Nakao, Simone Stumpf, Subeida Ahmed, Aisha Naseer and Lorenzo Strappelli(参考訳) 人工知能(AI)における公正性の確保は、遠縁な応用においてバイアスや差別に対処するために重要である。 最近の研究は、人間が公正さを判断する方法と、AIモデルを公平にするために機械学習の専門家(ML)をサポートする方法について調査し始めている。 インタラクティブ機械学習で使用される‘emph{explanatory debugging}’と呼ばれる説明可能なAI(XAI)アプローチからインスピレーションを得て、私たちの研究は解釈可能なインタラクティブなヒューマン・イン・ザ・ループインターフェースを設計することを模索している。 エンドユーザーとのワークショップを通じて、エンドユーザーによる予測がなぜ行われたのかの確認と、機能の重み付けを変更して公正な問題を“デバッグ”できるように、プロトタイプシステムを設計、実装しました。 このプロトタイプシステムの利用をオンライン研究を通して評価した。 世界中のフェアネスに関する多様な人的価値がもたらす影響を調査するために,我々は,このプロトタイプの使用において文化的次元がどのような役割を果たすかについても検討した。 私たちの結果は、エンドユーザがヒューマン・イン・ザ・ループアプローチでaiフェアネスを判断し、対処できるようにするためのインターフェースの設計に寄与します。

Ensuring fairness in artificial intelligence (AI) is important to counteract bias and discrimination in far-reaching applications. Recent work has started to investigate how humans judge fairness and how to support machine learning (ML) experts in making their AI models fairer. Drawing inspiration from an Explainable AI (XAI) approach called \emph{explanatory debugging} used in interactive machine learning, our work explores designing interpretable and interactive human-in-the-loop interfaces that allow ordinary end-users without any technical or domain background to identify potential fairness issues and possibly fix them in the context of loan decisions. Through workshops with end-users, we co-designed and implemented a prototype system that allowed end-users to see why predictions were made, and then to change weights on features to "debug" fairness issues. We evaluated the use of this prototype system through an online study. To investigate the implications of diverse human values about fairness around the globe, we also explored how cultural dimensions might play a role in using this prototype. Our results contribute to the design of interfaces to allow end-users to be involved in judging and addressing AI fairness through a human-in-the-loop approach.
翻訳日:2022-04-25 14:23:52 公開日:2022-04-22
# 受動型からアクティブ型ロボットの自己ローカライゼーションへのコンブネット機能導入--自我中心と世界中心の視点を用いて

Transferring ConvNet Features from Passive to Active Robot Self-Localization: The Use of Ego-Centric and World-Centric Views ( http://arxiv.org/abs/2204.10497v1 )

ライセンス: Link先を確認
Kanya Kurauchi, Kanji Tanaka, Ryogo Yamamoto, and Mitsuki Yoshida(参考訳) next-best-view(nbv) planner for visual place recognition(vpr)のトレーニングは、自律型ロボットナビゲーションにおいて、目標領域で収集された視覚体験をトレーニングデータとして使用するという、基本的に重要なタスクである。 しかし、日常ナビゲーションにおける様々な視覚的体験の収集は、リアルタイムロボットアプリケーションには費用がかかり、禁じられている。 我々は、新しい {\it domain-invariant} nbv plannerを用いてこの問題に対処する。 畳み込みニューラルネットワーク(CNN)に基づく標準VPRサブシステムは利用可能であり、ドメイン不変な状態認識能力はドメイン不変なNBVプランナーを訓練するために転送される。 具体的には,CNNモデルから利用可能な視覚的手がかりを,出力層cue (OLC) と中間層cue (ILC) の2つのタイプに分割する。 OLCは、CNNモデルの出力層で利用可能であり、世界中心のビュー座標系に関してロボットの状態(例えば、ロボット視点)を推定することを目的としている。 ILCは、CNNモデルの中間層内で、エゴ中心の視点に関する視覚的内容(例えば、唾液画像)の高レベルな記述として利用可能である。 本フレームワークでは,ICCとOLCを状態ベクトルにマッピングし,深層強化学習による多視点NBVプランナの訓練に使用する。 NCLTデータセットを用いて提案手法の有効性を検証する。

The training of a next-best-view (NBV) planner for visual place recognition (VPR) is a fundamentally important task in autonomous robot navigation, for which a typical approach is the use of visual experiences that are collected in the target domain as training data. However, the collection of a wide variety of visual experiences in everyday navigation is costly and prohibitive for real-time robotic applications. We address this issue by employing a novel {\it domain-invariant} NBV planner. A standard VPR subsystem based on a convolutional neural network (CNN) is assumed to be available, and its domain-invariant state recognition ability is proposed to be transferred to train the domain-invariant NBV planner. Specifically, we divide the visual cues that are available from the CNN model into two types: the output layer cue (OLC) and intermediate layer cue (ILC). The OLC is available at the output layer of the CNN model and aims to estimate the state of the robot (e.g., the robot viewpoint) with respect to the world-centric view coordinate system. The ILC is available within the middle layers of the CNN model as a high-level description of the visual content (e.g., a saliency image) with respect to the ego-centric view. In our framework, the ILC and OLC are mapped to a state vector and subsequently used to train a multiview NBV planner via deep reinforcement learning. Experiments using the public NCLT dataset validate the effectiveness of the proposed method.
翻訳日:2022-04-25 14:23:30 公開日:2022-04-22
# ぎこちない! 社会的ノルムを用いた反応計画のリアルタイム調整

Embracing AWKWARD! Real-time Adjustment of Reactive Planning Using Social Norms ( http://arxiv.org/abs/2204.10740v1 )

ライセンス: Link先を確認
Leila Methnani, Andreas Antoniades and Andreas Theodorou(参考訳) 本稿では,マルチエージェントシステムにおけるエージェント開発のためのAWKWARDエージェントアーキテクチャを提案する。 AWKWARDのエージェントは、環境や社会的状況の変化による社会的役割の要求に沿うように、リアルタイムで計画を再設定することができる。 提案されたハイブリッドアーキテクチャでは、振る舞い指向設計(BOD)を使用して、リアクティブプランニングを備えたエージェントの開発と、エージェントの動作の検証と調整のために組織的、社会的、相互作用の定義を提供するための確立されたOperAフレームワークを使用している。 operaとbodは共同で、社会的役割を進化させるためのエージェント計画のリアルタイム調整を実現し、個々のエージェントにおけるこの行動の変化を促すインタラクションに透明性という付加的なメリットを提供する。 このような組み合わせソリューションは、mas研究者がより強く、より堅牢なインテリジェントなエージェントチームの構築を追求するのに役立ちます。 dota2 -- 社会的相互作用に大きく依存するゲーム -- を,提案するハイブリッドアーキテクチャのサンプル実装のメディアとして使用しています。

This paper presents the AWKWARD agent architecture for the development of agents in Multi-Agent Systems. AWKWARD agents can have their plans re-configured in real time to align with social role requirements under changing environmental and social circumstances. The proposed hybrid architecture makes use of Behaviour Oriented Design (BOD) to develop agents with reactive planning and of the well-established OperA framework to provide organisational, social, and interaction definitions in order to validate and adjust agents' behaviours. Together, OperA and BOD can achieve real-time adjustment of agent plans for evolving social roles, while providing the additional benefit of transparency into the interactions that drive this behavioural change in individual agents. We present this architecture to motivate the bridging between traditional symbolic- and behaviour-based AI communities, where such combined solutions can help MAS researchers in their pursuit of building stronger, more robust intelligent agent teams. We use DOTA2 -- a game where success is heavily dependent on social interactions -- as a medium to demonstrate a sample implementation of our proposed hybrid architecture
翻訳日:2022-04-25 14:23:02 公開日:2022-04-22
# WaBERT: 音声言語理解のための低リソースエンドツーエンドモデル

WaBERT: A Low-resource End-to-end Model for Spoken Language Understanding and Speech-to-BERT Alignment ( http://arxiv.org/abs/2204.10461v1 )

ライセンス: Link先を確認
Lin Yao, Jianfei Song, Ruizhuo Xu, Yingfang Yang, Zijian Chen and Yafeng Deng(参考訳) 歴史的に、音声認識(ASR)や話者識別といった低レベルタスクが、音声分野における主要な焦点となっている。 近年,感情分析(SA)など,高レベル音声言語理解(SLU)タスクへの関心が高まっている。 しかし、SLUタスクのパフォーマンス改善は依然として大きな課題である。 基本的に、SLUタスクには2つの主要な方法がある: (1) 音声モデルを用いてテキストに音声を転送し、次に下流タスクの結果を得るために言語モデルを使用する2段階法; (2) 下流タスクに適合するように訓練済みの音声モデルを微調整する1段階法。 第1の方法は、イントネーションのような感情的な手がかりを失い、ASRプロセス中に認識エラーを引き起こし、第2の方法は必要な言語知識を欠いている。 本稿では,SLUタスクのための音声モデルと言語モデルを組み合わせた,新しいエンドツーエンドモデルであるWave BERT(WaBERT)を提案する。 WaBERTは事前訓練された音声と言語モデルに基づいているため、スクラッチからのトレーニングは必要ない。 また、トレーニング中にWaBERTのほとんどのパラメータも設定しました。 WaBERTを導入することで、短時間および低リソースのトレーニングプロセスに統合され、SLUE SAタスクのデベロップメントデータセットにおける結果がリコールスコアの1.15%、F1スコアの0.82%向上する。 さらに,音声とテキスト間のモノトニックアライメントを実現するために,連続連続統合・ファイア(cif)機構を改良した。

Historically lower-level tasks such as automatic speech recognition (ASR) and speaker identification are the main focus in the speech field. Interest has been growing in higher-level spoken language understanding (SLU) tasks recently, like sentiment analysis (SA). However, improving performances on SLU tasks remains a big challenge. Basically, there are two main methods for SLU tasks: (1) Two-stage method, which uses a speech model to transfer speech to text, then uses a language model to get the results of downstream tasks; (2) One-stage method, which just fine-tunes a pre-trained speech model to fit in the downstream tasks. The first method loses emotional cues such as intonation, and causes recognition errors during ASR process, and the second one lacks necessary language knowledge. In this paper, we propose the Wave BERT (WaBERT), a novel end-to-end model combining the speech model and the language model for SLU tasks. WaBERT is based on the pre-trained speech and language model, hence training from scratch is not needed. We also set most parameters of WaBERT frozen during training. By introducing WaBERT, audio-specific information and language knowledge are integrated in the short-time and low-resource training process to improve results on the dev dataset of SLUE SA tasks by 1.15% of recall score and 0.82% of F1 score. Additionally, we modify the serial Continuous Integrate-and-Fire (CIF) mechanism to achieve the monotonic alignment between the speech and text modalities.
翻訳日:2022-04-25 14:21:20 公開日:2022-04-22
# 音声認識のためのニューラルトランスデューサの学習

Efficient Training of Neural Transducer for Speech Recognition ( http://arxiv.org/abs/2204.10586v1 )

ライセンス: Link先を確認
Wei Zhou, Wilfried Michel, Ralf Schl\"uter, Hermann Ney(参考訳) 音声認識におけるシーケンシャル・ツー・シーケンス・モデリングのアプローチとして、RNN-Transducerは、サイズを拡大し、トレーニングエポックを増大させる、より洗練されたニューラルネットワークモデルで、進化するパフォーマンスを達成した。 強力な計算リソースは優れたモデルをトレーニングする上で必要不可欠であるように見えるが、より効率的なトレーニングパイプラインを慎重に設計することでそれを克服しようとしている。 本研究では,比較的短時間で計算資源を制限したスクラッチから高性能なニューラルトランスデューサモデルを構築するための,効率的な3段階プログレッシブトレーニングパイプラインを提案する。 LibrispeechとSwitchboardのコーパスで各ステージの有効性を実験的に検証した。 提案されたパイプラインは,最先端のパフォーマンスに近づくトランスデューサモデルを,たった2~3週間でトレーニングすることができる。 ベストコンバータトランスデューサは,35エポックのトレーニングで,Librispeechテストで4.1%のWERを達成した。

As one of the most popular sequence-to-sequence modeling approaches for speech recognition, the RNN-Transducer has achieved evolving performance with more and more sophisticated neural network models of growing size and increasing training epochs. While strong computation resources seem to be the prerequisite of training superior models, we try to overcome it by carefully designing a more efficient training pipeline. In this work, we propose an efficient 3-stage progressive training pipeline to build highly-performing neural transducer models from scratch with very limited computation resources in a reasonable short time period. The effectiveness of each stage is experimentally verified on both Librispeech and Switchboard corpora. The proposed pipeline is able to train transducer models approaching state-of-the-art performance with a single GPU in just 2-3 weeks. Our best conformer transducer achieves 4.1% WER on Librispeech test-other with only 35 epochs of training.
翻訳日:2022-04-25 14:20:51 公開日:2022-04-22
# LibriS2S: ドイツ語から英語への音声翻訳コーパス

LibriS2S: A German-English Speech-to-Speech Translation Corpus ( http://arxiv.org/abs/2204.10593v1 )

ライセンス: Link先を確認
Pedro Jeuris and Jan Niehues(参考訳) 近年,音声からテキストへの翻訳の分野への関心が高まっている。 これはこの地域の驚くべき改善につながった。 対照的に、音声音声翻訳の分野での活動は依然として限られているが、言語障壁を克服することが不可欠である。 制限要因の1つは、適切なトレーニングデータの提供であると考えています。 我々は、ドイツ語と英語による最初の音声合成学習コーパスLibriS2Sを作成することでこの問題に対処する。 このコーパスでは、ドイツ語と英語の音声を独立に生成し、両方の言語でテキストの偏りのない発音に繋がった。 これにより、ソース言語の発音に基づいて、直接学習して音声信号を生成する新しいテキストから音声への翻訳モデルを作成することができる。 本稿では,このコーパスを用いて,ソースコード情報を統合するFastSpeech 2モデルの例に基づくテキスト音声合成モデルを提案する。 我々は,音源音声からのピッチ,エネルギー,書き起こしなどの情報を付加入力として,モデルを適用することでこれを行う。

Recently, we have seen an increasing interest in the area of speech-to-text translation. This has led to astonishing improvements in this area. In contrast, the activities in the area of speech-to-speech translation is still limited, although it is essential to overcome the language barrier. We believe that one of the limiting factors is the availability of appropriate training data. We address this issue by creating LibriS2S, to our knowledge the first publicly available speech-to-speech training corpus between German and English. For this corpus, we used independently created audio for German and English leading to an unbiased pronunciation of the text in both languages. This allows the creation of a new text-to-speech and speech-to-speech translation model that directly learns to generate the speech signal based on the pronunciation of the source language. Using this created corpus, we propose Text-to-Speech models based on the example of the recently proposed FastSpeech 2 model that integrates source language information. We do this by adapting the model to take information such as the pitch, energy or transcript from the source speech as additional input.
翻訳日:2022-04-25 14:20:37 公開日:2022-04-22
# 共謀を通す道:オンライン共謀討論における共謀急進化の進化

Pathways through Conspiracy: The Evolution of Conspiracy Radicalization through Engagement in Online Conspiracy Discussions ( http://arxiv.org/abs/2204.10729v1 )

ライセンス: Link先を確認
Shruti Phadke, Mattia Samory, Tanushree Mitra(参考訳) オンライン陰謀論(CT)議論の参加者の破壊的なオフライン動員は、オンラインユーザーがどのように過激化陰謀の信念を形成するかを理解することの重要性を強調している。 先行研究は、オンラインCT議論への参加につながる要因を調査し、共謀信念の形成に関する理論を提供したが、ユーザがCTディスカッションコミュニティに参加すると、共謀の過激化がどのように進展するかはほとんど分かっていない。 本稿では, オンラインCT討論参加者を対象に, 様々なラジカル化段階の実験的モデリングを行う。 陰謀の関与が過激化にどのように関係しているかを解明するために,我々はまず,陰謀の関与経路を通じてCTによる議論を通してユーザの旅を特徴付ける。 具体的には、1億6900万のコントリビューションを通じて3600万のredditユーザを調査して、共謀行為の4つの異なる経路を明らかにする。 さらに,先行的な理論研究によって導かれる3段階の過激化をモデル化する。 ユーザーの特定のサブ人口、すなわち、定常的に高く、増大する共謀の関与経路上の集団は、様々な過激化段階を経て順次進行する。 対照的に、エンゲージメントパスを減らしたユーザは、CTの議論を特定のトピックに限定し、多様なディスカッショングループに参加し、陰謀のサブレディットとの適合度を低下させる。 オンラインCT議論から遠ざかるユーザを調査することにより、陰謀回復プロセスに関する有望な洞察を提供する。

The disruptive offline mobilization of participants in online conspiracy theory (CT) discussions has highlighted the importance of understanding how online users may form radicalized conspiracy beliefs. While prior work researched the factors leading up to joining online CT discussions and provided theories of how conspiracy beliefs form, we have little understanding of how conspiracy radicalization evolves after users join CT discussion communities. In this paper, we provide the empirical modeling of various radicalization phases in online CT discussion participants. To unpack how conspiracy engagement is related to radicalization, we first characterize the users' journey through CT discussions via conspiracy engagement pathways. Specifically, by studying 36K Reddit users through their 169M contributions, we uncover four distinct pathways of conspiracy engagement: steady high, increasing, decreasing, and steady low. We further model three successive stages of radicalization guided by prior theoretical works. Specific sub-populations of users, namely those on steady high and increasing conspiracy engagement pathways, progress successively through various radicalization stages. In contrast, users on the decreasing engagement pathway show distinct behavior: they limit their CT discussions to specialized topics, participate in diverse discussion groups, and show reduced conformity with conspiracy subreddits. By examining users who disengage from online CT discussions, this paper provides promising insights about conspiracy recovery process.
翻訳日:2022-04-25 14:20:20 公開日:2022-04-22
# 少数のrgbdカメラによるダイナミックビュー合成の学習

Learning Dynamic View Synthesis With Few RGBD Cameras ( http://arxiv.org/abs/2204.10477v1 )

ライセンス: Link先を確認
Shengze Wang, YoungJoong Kwon, Yuan Shen, Qian Zhang, Andrei State, Jia-Bin Huang, Henry Fuchs(参考訳) 近年,ダイナミックノベルビュー合成の進歩がみられた。 しかし、現在のディープラーニングモデルは、(1)先行モデル(例えば、SMPL人間モデル)、(2)重い前処理、(3)シーンごとの最適化を必要とすることが多い。 本稿では,RGBDカメラを用いてこれらの制限を取り除き,ダイナミック屋内シーンの視点映像を合成することを提案する。 我々はRGBDフレームから特徴点雲を生成し、それをニューラルレンダラーを介して自由視点ビデオにレンダリングする。 しかし、不正確で不安定で不完全な深さの測定は、激しい歪曲、フリック、ゴーストアーティファクトを引き起こす。 提案する周期再構成整合性モジュールと時間安定化モジュールを用いて時空間整合性を適用し,これらのアーティファクトを削減する。 そこで本研究では,未完成の深度を適応的に塗布して新規なビューを描画する,シンプルなRegional Depth-Inpaintingモジュールを提案する。 さらに,我々のアプローチを検証し,今後の研究を促進するためのヒューマンインタラクションデータセットを提案する。 データセットは43のマルチビューRGBDビデオシーケンスで構成され、人間と周囲の複雑な相互作用をキャプチャする。 HTIデータセットを用いた実験により,本手法はフレーム毎の画質と空間時間的一貫性に優れることがわかった。 近いうちにコードをリリースし、webサイトでデータセットを公開します。

There have been significant advancements in dynamic novel view synthesis in recent years. However, current deep learning models often require (1) prior models (e.g., SMPL human models), (2) heavy pre-processing, or (3) per-scene optimization. We propose to utilize RGBD cameras to remove these limitations and synthesize free-viewpoint videos of dynamic indoor scenes. We generate feature point clouds from RGBD frames and then render them into free-viewpoint videos via a neural renderer. However, the inaccurate, unstable, and incomplete depth measurements induce severe distortions, flickering, and ghosting artifacts. We enforce spatial-temporal consistency via the proposed Cycle Reconstruction Consistency and Temporal Stabilization module to reduce these artifacts. We introduce a simple Regional Depth-Inpainting module that adaptively inpaints missing depth values to render complete novel views. Additionally, we present a Human-Things Interactions dataset to validate our approach and facilitate future research. The dataset consists of 43 multi-view RGBD video sequences of everyday activities, capturing complex interactions between human subjects and their surroundings. Experiments on the HTI dataset show that our method outperforms the baseline per-frame image fidelity and spatial-temporal consistency. We will release our code, and the dataset on the website soon.
翻訳日:2022-04-25 14:19:36 公開日:2022-04-22
# 自律エージェントの創発的コンセンサスとしてのデータクラスタリング

Data Clustering as an Emergent Consensus of Autonomous Agents ( http://arxiv.org/abs/2204.10585v1 )

ライセンス: Link先を確認
Piotr Minakowski and Jan Peszek(参考訳) 本稿では,1次密度誘導コンセンサスプロトコルに基づくデータセグメンテーション手法を提案する。 データセグメンテーションアルゴリズムの停止基準につながるコンセンサスモデルの数学的に厳密な解析を提供する。 本手法を説明するために,バークレーセグメントデータセットから2次元形状データセットと選択した画像に適用した。 この手法は、DBSCANのようなマルチモーダル特徴空間に対する古典的クラスタリング手法の拡張と見なすことができる。 データクラスタリングと集合的振舞いの間には、興味深いつながりがある。

We present a data segmentation method based on a first-order density-induced consensus protocol. We provide a mathematically rigorous analysis of the consensus model leading to the stopping criteria of the data segmentation algorithm. To illustrate our method, the algorithm is applied to two-dimensional shape datasets and selected images from Berkeley Segmentation Dataset. The method can be seen as an augmentation of classical clustering techniques for multimodal feature space, such as DBSCAN. It showcases a curious connection between data clustering and collective behavior.
翻訳日:2022-04-25 14:19:16 公開日:2022-04-22
# 畳み込みニューラルネットワークによる画像の規則性に関する一考察

A Note on the Regularity of Images Generated by Convolutional Neural Networks ( http://arxiv.org/abs/2204.10588v1 )

ライセンス: Link先を確認
Andreas Habring and Martin Holler(参考訳) 畳み込みニューラルネットワークによって生成された画像の規則性、例えば、U-net、生成的敵ネットワーク、または、より深い画像の解析を行う。 分解独立で無限次元の設定では、そのようなイメージは常に連続であり、ある場合には連続的に微分可能であり、ジャンプ不連続性による画像のシャープエッジのモデリングが広く受け入れられていることに矛盾する。 このようなステートメントは無限次元の設定を必要とするが、実際に使用される(離散化された)ニューラルネットワークへの接続は、解像度が無限大に近づくときの限界を考慮して行われる。 その結果,本研究では,画像がネットワーク出力の場合のネットワーク重みの基本的なL2正規化を控えることが示唆された。

The regularity of images generated by convolutional neural networks, such as the U-net, generative adversarial networks, or the deep image prior, is analyzed. In a resolution-independent, infinite dimensional setting, it is shown that such images, represented as functions, are always continuous and, in some circumstances, even continuously differentiable, contradicting the widely accepted modeling of sharp edges in images via jump discontinuities. While such statements require an infinite dimensional setting, the connection to (discretized) neural networks used in practice is made by considering the limit as the resolution approaches infinity. As practical consequence, the results of this paper suggest to refrain from basic L2 regularization of network weights in case of images being the network output.
翻訳日:2022-04-25 14:18:19 公開日:2022-04-22
# SUES-200: ドローンと衛星間の複数シーンのクロスビュー画像ベンチマーク

SUES-200: A Multi-height Multi-scene Cross-view Image Benchmark Across Drone and Satellite ( http://arxiv.org/abs/2204.10704v1 )

ライセンス: Link先を確認
Runzhe Zhu(参考訳) クロスビュー画像マッチングの目的は、同じターゲットシーンの異なるプラットフォームから取得した画像をマッチングし、ターゲットシーンの位置を推定する位置決めシステムを支援することである。 ドローン技術の急速な発展により、クロスビューマッチング技術によるドローンの位置決めやナビゲーションの支援が課題となっている。 しかし、現在のクロスビューマッチングモデルの精度は依然として低く、主に既存の公開データセットには、異なる高さでドローンが取得した画像の違いが含まれておらず、シーンの種類は比較的均一であるため、複雑で変化するシーンに適応できない。 我々は,これらの問題に対処する新しいクロスビューデータセットSUES-200を提案する。SUES-200には,ドローンが4つの飛行高度で取得した画像と,対応する衛星視像を同一のターゲットシーンで撮影する。 我々の知る限り、SUES-200は飛行高度の異なるドローンの空中撮影で生じる違いを考察した最初のデータセットである。 さらに,クロスビューマッチングモデルの効率的なトレーニングテストと評価のためのパイプラインを構築する。 次に,クロスビューマッチングモデルの評価システムを用いて,ses-200上でcnnアーキテクチャが異なる特徴抽出器の性能を包括的に評価し,ロバストなベースラインモデルを提案する。 実験の結果、ses-200は異なる高さで高い識別率で特徴を学習するのに役立つことがわかった。 ドローンカメラのポーズや周囲の環境が航空写真に影響を及ぼさないため、ドローンの飛行高度が高くなるにつれて、マッチングシステムの指標の評価が向上する。

The purpose of cross-view image matching is to match images acquired from the different platforms of the same target scene and then help positioning system to infer the location of the target scene. With the rapid development of drone technology, how to help Drone positioning or navigation through cross-view matching technology has become a challenging research topic. However, the accuracy of current cross-view matching models is still low, mainly because the existing public datasets do not include the differences in images obtained by drones at different heights, and the types of scenes are relatively homogeneous, which makes the models unable to adapt to complex and changing scenes. We propose a new cross-view dataset, SUES-200, to address these issues.SUES-200 contains images acquired by the drone at four flight heights and the corresponding satellite view images under the same target scene. To our knowledge, SUES-200 is the first dataset that considers the differences generated by aerial photography of drones at different flight heights. In addition, we build a pipeline for efficient training testing and evaluation of cross-view matching models. Then, we comprehensively evaluate the performance of feature extractors with different CNN architectures on SUES-200 through an evaluation system for cross-view matching models and propose a robust baseline model. The experimental results show that SUES-200 can help the model learn features with high discrimination at different heights. Evaluating indicators of the matching system improves as the drone flight height gets higher because the drone camera pose and the surrounding environment have less influence on aerial photography.
翻訳日:2022-04-25 14:18:07 公開日:2022-04-22
# タグに基づくビデオインスタンスセグメンテーションのためのボトムアップアプローチ

Tag-Based Attention Guided Bottom-Up Approach for Video Instance Segmentation ( http://arxiv.org/abs/2204.10765v1 )

ライセンス: Link先を確認
Jyoti Kini and Mubarak Shah(参考訳) Video Instance Segmentationは、ビデオシーケンスにわたるオブジェクトインスタンスのセグメンテーションと追跡を扱う、基本的なコンピュータビジョンタスクである。 既存のほとんどの方法は、通常、各フレーム内のオブジェクトを検出し、セグメンテーションするために別々のネットワークを必要とする多段階トップダウンアプローチを採用し、学習したトラッキングヘッドを使用して、これらの検出を連続フレームに関連付けることで、このタスクを実現する。 しかし,本研究では,通常の領域プロモーター方式ではなく,画素レベルの粒度でのインスタンスマスク予測を実現するための,単純なエンドツーエンドのボトムアップ手法を提案する。 現代のフレームベースモデルとは異なり、我々のネットワークパイプラインは入力ビデオクリップを1つの3次元ボリュームとして処理し、時間情報を組み込む。 提案手法の主な考え方は,タグ割り当て問題としてビデオインスタンスセグメンテーションタスクを解決し,個別のタグ値を生成することで,ビデオシーケンス全体の個々のオブジェクトインスタンスを本質的に分離することである(ここで,各タグは0と1の間の任意の値になる可能性がある)。 そこで本研究では,異なるオブジェクトの十分な分離と同一オブジェクトの異なるインスタンスの同定が可能な,新しい時空間的タグ付け損失を提案する。 さらに,ビデオ内で同時にインスタンスの伝搬を学習しながら,インスタンスタグを改善するタグベースのアテンションモジュールを提案する。 評価の結果,本手法は,YouTube-VIS と DAVIS-19 のデータセット上での競合結果を提供し,他の最先端のパフォーマンス手法と比較して最小限の実行時間を有することがわかった。

Video Instance Segmentation is a fundamental computer vision task that deals with segmenting and tracking object instances across a video sequence. Most existing methods typically accomplish this task by employing a multi-stage top-down approach that usually involves separate networks to detect and segment objects in each frame, followed by associating these detections in consecutive frames using a learned tracking head. In this work, however, we introduce a simple end-to-end trainable bottom-up approach to achieve instance mask predictions at the pixel-level granularity, instead of the typical region-proposals-based approach. Unlike contemporary frame-based models, our network pipeline processes an input video clip as a single 3D volume to incorporate temporal information. The central idea of our formulation is to solve the video instance segmentation task as a tag assignment problem, such that generating distinct tag values essentially separates individual object instances across the video sequence (here each tag could be any arbitrary value between 0 and 1). To this end, we propose a novel spatio-temporal tagging loss that allows for sufficient separation of different objects as well as necessary identification of different instances of the same object. Furthermore, we present a tag-based attention module that improves instance tags, while concurrently learning instance propagation within a video. Evaluations demonstrate that our method provides competitive results on YouTube-VIS and DAVIS-19 datasets, and has minimum run-time compared to other state-of-the-art performance methods.
翻訳日:2022-04-25 14:17:38 公開日:2022-04-22
# カットアウト予測とタグ付けによる自己監督型ビデオオブジェクトセグメンテーション

Self-Supervised Video Object Segmentation via Cutout Prediction and Tagging ( http://arxiv.org/abs/2204.10846v1 )

ライセンス: Link先を確認
Jyoti Kini and Fahad Shahbaz Khan and Salman Khan and Mubarak Shah(参考訳) 本稿では,オブジェクト分割の精度向上を目的とした,自己教師型ビデオオブジェクトセグメンテーション(VOS)手法を提案する。 従来の自己監督型VOS法とは違い,本手法はオブジェクトの外観だけでなく,対象と背景の両方を考慮に入れた識別的学習損失の定式化に基づいている。 識別学習損失は、カットアウトベースの再構成(カットアウト領域はフレームの一部であり、画素を一定の値に置き換える)とタグ予測損失項とを含む。 カットアウトに基づく再構築用語は、カットアウト領域を付加した元の現在のフレームを再構築するために、現在のフレームと前のフレームの画素間の対応を学習するために単純なカットアウトスキームを使用する。 導入されたカットアウトパッチは、モデルが関心のあるオブジェクトの重要な特徴に重点を置き、より重要でないものほど、オクルージョンベースのシナリオに対処するために暗黙的にモデルを装備するように導く。 次に、タグ予測用語は、類似したカットアウト領域内の全画素のタグをグループ化し、他の再構成されたフレーム画素のタグと分離することにより、オブジェクトバックグランド分離性を促進する。 さらに,複数のスケールで微細な構造情報をキャプチャすることで,小物体分割の問題に対処するズームインスキームを提案する。 提案手法はCT-VOSと呼ばれ, DAVIS-2017 と Youtube-VOS の2つの試行錯誤ベンチマークで最先端の結果を得た。 詳細なアブレーションでは、物体の背景識別性を効果的に捉えるための損失定式化の重要性と、小型物体を正確に分割するためのズームイン方式の影響が示される。

We propose a novel self-supervised Video Object Segmentation (VOS) approach that strives to achieve better object-background discriminability for accurate object segmentation. Distinct from previous self-supervised VOS methods, our approach is based on a discriminative learning loss formulation that takes into account both object and background information to ensure object-background discriminability, rather than using only object appearance. The discriminative learning loss comprises cutout-based reconstruction (cutout region represents part of a frame, whose pixels are replaced with some constant values) and tag prediction loss terms. The cutout-based reconstruction term utilizes a simple cutout scheme to learn the pixel-wise correspondence between the current and previous frames in order to reconstruct the original current frame with added cutout region in it. The introduced cutout patch guides the model to focus as much on the significant features of the object of interest as the less significant ones, thereby implicitly equipping the model to address occlusion-based scenarios. Next, the tag prediction term encourages object-background separability by grouping tags of all pixels in the cutout region that are similar, while separating them from the tags of the rest of the reconstructed frame pixels. Additionally, we introduce a zoom-in scheme that addresses the problem of small object segmentation by capturing fine structural information at multiple scales. Our proposed approach, termed CT-VOS, achieves state-of-the-art results on two challenging benchmarks: DAVIS-2017 and Youtube-VOS. A detailed ablation showcases the importance of the proposed loss formulation to effectively capture object-background discriminability and the impact of our zoom-in scheme to accurately segment small-sized objects.
翻訳日:2022-04-25 14:17:08 公開日:2022-04-22
# (参考訳) iCAR:視覚認識のための画像分類と画像テキストアライメント

iCAR: Bridging Image Classification and Image-text Alignment for Visual Recognition ( http://arxiv.org/abs/2204.10760v1 )

ライセンス: CC BY 4.0
Yixuan Wei, Yue Cao, Zheng Zhang, Zhuliang Yao, Zhenda Xie, Han Hu, Baining Guo(参考訳) 画像分類は、予め定義されたカテゴリでイメージを分類するが、この10年間、ビジュアル表現学習の主流となっている。 しかし、画像テキストアライメントによる視覚学習は、特にゼロショット認識において有望なパフォーマンスを示すようになった。 これら2つの学習課題は相補的であり,視覚的学習のために組み合わせることを提案する。 本研究では,2つの学習タスクを効果的にブリッジする3つの適応による深層融合法を提案する。 まず,画像分類における従来の慣習である線形分類器を,比較性能を示すコサイン分類器を用いて修正する。 次に、画像分類問題をパラメトリック分類器重み学習からメタネットワークとしてのテキストエンコーダ学習に変換し、分類器重みを生成する。 学習テキストエンコーダは、画像分類と画像テキストアライメントの間で共有される。 第3に、クラス間の混乱を回避し、画像テキストアライメントに近い分類方法を実現するために、各クラス名を記述で強化する。 我々は,この深層融合アプローチが,Kunblith 12-datasetベンチマークのようなゼロショット/フェーショット画像分類から,微調整およびオープン語彙設定における動作認識,セマンティックセグメンテーション,オブジェクト検出といった下流タスクに至るまで,個々の学習や浅部融合アプローチよりも,様々な視覚的タスクやセットアップに優れていることを証明した。 コードはhttps://github.com/weiyx16/iCARで入手できる。

Image classification, which classifies images by pre-defined categories, has been the dominant approach to visual representation learning over the last decade. Visual learning through image-text alignment, however, has emerged to show promising performance, especially for zero-shot recognition. We believe that these two learning tasks are complementary, and suggest combining them for better visual learning. We propose a deep fusion method with three adaptations that effectively bridge two learning tasks, rather than shallow fusion through naive multi-task learning. First, we modify the previous common practice in image classification, a linear classifier, with a cosine classifier which shows comparable performance. Second, we convert the image classification problem from learning parametric category classifier weights to learning a text encoder as a meta network to generate category classifier weights. The learnt text encoder is shared between image classification and image-text alignment. Third, we enrich each class name with a description to avoid confusion between classes and make the classification method closer to the image-text alignment. We prove that this deep fusion approach performs better on a variety of visual recognition tasks and setups than the individual learning or shallow fusion approach, from zero-shot/few-shot image classification, such as the Kornblith 12-dataset benchmark, to downstream tasks of action recognition, semantic segmentation, and object detection in fine-tuning and open-vocabulary settings. The code will be available at https://github.com/weiyx16/iCAR.
翻訳日:2022-04-25 14:14:42 公開日:2022-04-22
# 改訂と再提出: ピアレビューにおけるテキストベースコラボレーションのテキスト間モデル

Revise and Resubmit: An Intertextual Model of Text-based Collaboration in Peer Review ( http://arxiv.org/abs/2204.10805v1 )

ライセンス: Link先を確認
Ilia Kuznetsov, Jan Buchmann, Max Eichler, Iryna Gurevych(参考訳) ピアレビューは、ほとんどの科学分野における出版プロセスの重要な要素である。 提出率の増加は品質と効率のレビューに負担をかけ、レビューと編集作業をサポートするアプリケーションの開発を動機付けた。 既存のNLP研究は個々のテキストの分析に重点を置いているが、編集補助には、このシナリオをサポートするための一般的なフレームワークとデータセットのペア間の相互作用をモデル化する必要があることが多い。テキスト間の関係は、テキスト間性理論の中核的な対象であり、NLPではまだ運用されていない文学研究におけるアプローチのファミリーである。 先行研究に触発されて,レビュー・リビジョン・アンド・リサブミットサイクルの完全なイテレーションを構成する3つの主要な現象を包含する,テキストベースのコラボレーションの最初の間文モデルを提案する。 ピアレビューは科学や出版フォーマットの分野で使用されているが、既存のデータセットはコンピュータサイエンスにおけるカンファレンススタイルのレビューのみに焦点を当てている。 そこで本稿では,論文の公開後レビューにおいて,提案したモデルを最初の注釈付きマルチドメインコーパスでインスタンス化し,テキスト間アノテーションの実践的側面に関する詳細な知見を提供する。 我々のリソースは、ピアレビューのための編集支援におけるNLPのマルチドメイン、きめ細かい応用への大きな一歩であり、テキストベースのコラボレーションの汎用的モデリングの道筋をたどっている。

Peer review is a key component of the publishing process in most fields of science. The increasing submission rates put a strain on reviewing quality and efficiency, motivating the development of applications to support the reviewing and editorial work. While existing NLP studies focus on the analysis of individual texts, editorial assistance often requires modeling interactions between pairs of texts -- yet general frameworks and datasets to support this scenario are missing. Relationships between texts are the core object of the intertextuality theory -- a family of approaches in literary studies not yet operationalized in NLP. Inspired by prior theoretical work, we propose the first intertextual model of text-based collaboration, which encompasses three major phenomena that make up a full iteration of the review-revise-and-resubmit cycle: pragmatic tagging, linking and long-document version alignment. While peer review is used across the fields of science and publication formats, existing datasets solely focus on conference-style review in computer science. Addressing this, we instantiate our proposed model in the first annotated multi-domain corpus in journal-style post-publication open peer review, and provide detailed insights into the practical aspects of intertextual annotation. Our resource is a major step towards multi-domain, fine-grained applications of NLP in editorial support for peer review, and our intertextual framework paves the path for general-purpose modeling of text-based collaboration.
翻訳日:2022-04-25 13:51:44 公開日:2022-04-22
# オープンドメインのチャットボットは、わずか数個の文字でフィクションのキャラクターを模倣する

Meet Your Favorite Character: Open-domain Chatbot Mimicking Fictional Characters with only a Few Utterances ( http://arxiv.org/abs/2204.10825v1 )

ライセンス: Link先を確認
Seungju Han, Beomsu Kim, Jin Yong Yoo, Seokjun Seo, Sangbum Kim, Enkhbayar Erdenee, Buru Chang(参考訳) 本稿では,架空のキャラクターの模倣を対話モデル構築の有望な方向として検討する。 そこで,本研究では,各キャラクターの発話を模倣した応答を生成できるような実用的なタスクを提案する。 さらに,ターゲットキャラクタの発話を含むプロンプトを用いて,大規模言語モデルのパワーを活用して応答を生成するpseudom dialog prompting(pdp)という新しい手法を提案する。 文字のスタイルをよりよく反映するために、PDPは文字の発話をダイアログ履歴として含むダイアログの形式でプロンプトを構築する。 提案課題では文字の発声のみが利用可能であるため、PDPは検索モデルを用いて予め定義されたコンテキスト候補のセットから、各発話を適切な擬似コンテキストとマッチングする。 人的および自動評価により,PDPはベースライン法よりも架空の文字のスタイルを反映した応答を生成する。

In this paper, we consider mimicking fictional characters as a promising direction for building engaging conversation models. To this end, we present a new practical task where only a few utterances of each fictional character are available to generate responses mimicking them. Furthermore, we propose a new method named Pseudo Dialog Prompting (PDP) that generates responses by leveraging the power of large-scale language models with prompts containing the target character's utterances. To better reflect the style of the character, PDP builds the prompts in the form of dialog that includes the character's utterances as dialog history. Since only utterances of the characters are available in the proposed task, PDP matches each utterance with an appropriate pseudo-context from a predefined set of context candidates using a retrieval model. Through human and automatic evaluation, we show that PDP generates responses that better reflect the style of fictional characters than baseline methods.
翻訳日:2022-04-25 13:51:16 公開日:2022-04-22
# ドメイン外検出のためのメトリック学習と適応境界

Metric Learning and Adaptive Boundary for Out-of-Domain Detection ( http://arxiv.org/abs/2204.10849v1 )

ライセンス: Link先を確認
Petr Lorenc, Tommaso Gargiani, Jan Pichl, Jakub Konr\'ad, Petr Marek, Ond\v{r}ej Kobza, Jan \v{S}ediv\'y(参考訳) 会話エージェントは通常、クローズドワールド環境向けに設計される。 残念ながら、ユーザーは予期せず振る舞うことができる。 オープンワールド環境に基づいて、トレーニングとテストデータが異なるディストリビューションからサンプリングされる状況に遭遇することがよくあります。 次に、異なる分布からのデータを外部ドメイン(OOD)と呼ぶ。 堅牢な会話エージェントは、これらのOOD発話に適切に反応する必要がある。 したがって、ロバストなOOD検出の重要性が強調される。 残念ながら、OODデータの収集は難しい作業です。 我々は,OODデータに依存しないOOD検出アルゴリズムを設計した。 提案アルゴリズムは,メトリック学習と適応的決定境界を併用する,シンプルだが効率的な手法に基づいている。 さらに,他のアルゴリズムと比較して,提案アルゴリズムは,ドメイン内(IND)クラスの精度を保ちながら,クラス数が低いシナリオにおいてOOD性能を著しく向上していることがわかった。

Conversational agents are usually designed for closed-world environments. Unfortunately, users can behave unexpectedly. Based on the open-world environment, we often encounter the situation that the training and test data are sampled from different distributions. Then, data from different distributions are called out-of-domain (OOD). A robust conversational agent needs to react to these OOD utterances adequately. Thus, the importance of robust OOD detection is emphasized. Unfortunately, collecting OOD data is a challenging task. We have designed an OOD detection algorithm independent of OOD data that outperforms a wide range of current state-of-the-art algorithms on publicly available datasets. Our algorithm is based on a simple but efficient approach of combining metric learning with adaptive decision boundary. Furthermore, compared to other algorithms, we have found that our proposed algorithm has significantly improved OOD performance in a scenario with a lower number of classes while preserving the accuracy for in-domain (IND) classes.
翻訳日:2022-04-25 13:50:58 公開日:2022-04-22
# OPerA: オブジェクト中心のパフォーマンス分析

OPerA: Object-Centric Performance Analysis ( http://arxiv.org/abs/2204.10662v1 )

ライセンス: Link先を確認
Gyunam Park, Jan Niklas Adams, and Wil. M. P. van der Aalst(参考訳) プロセスマイニングのパフォーマンス分析は、プロセスの形式表現としてプロセスモデルを使用することで、ビジネスプロセスのパフォーマンスに関する洞察を提供することを目的としています。 このような洞察は、形式的な意味論を持つモデルのコンテキストにおいて、プロセスアナリストによって確実に解釈されます。 既存のパフォーマンス分析技術は、単一のケース概念がビジネスプロセス(例えば、医療プロセスの患者)に存在すると仮定する。 しかし実際には、異なるオブジェクトが相互作用する可能性がある(例えば、o2cプロセスで順序、アイテム、デリバリ、請求書など)。 このような設定では、従来のテクニックは、待ち時間のようなパフォーマンスメトリクスに対する誤解や誤った洞察をもたらす可能性がある。 さらに重要なことに、オブジェクト間のインタラクションを考慮することで、同期時間、プール時間、ラグ時間といったオブジェクト中心のパフォーマンスメトリクスを定義できます。 本稿では,オブジェクト中心のペトリネットをビジネスプロセスの形式表現として用いることにより,複数の事例を考慮した性能分析手法を提案する。 提案手法は,新たに導入されたオブジェクト中心のパフォーマンス指標の導出をサポートしながら,既存のパフォーマンス指標を正確に計算する。 我々は,このアプローチをWebアプリケーションとして実装し,実生活ローンアプリケーションプロセスに基づくケーススタディを実施した。

Performance analysis in process mining aims to provide insights on the performance of a business process by using a process model as a formal representation of the process. Such insights are reliably interpreted by process analysts in the context of a model with formal semantics. Existing techniques for performance analysis assume that a single case notion exists in a business process (e.g., a patient in healthcare process). However, in reality, different objects might interact (e.g., order, item, delivery, and invoice in an O2C process). In such a setting, traditional techniques may yield misleading or even incorrect insights on performance metrics such as waiting time. More importantly, by considering the interaction between objects, we can define object-centric performance metrics such as synchronization time, pooling time, and lagging time. In this work, we propose a novel approach to performance analysis considering multiple case notions by using object-centric Petri nets as formal representations of business processes. The proposed approach correctly computes existing performance metrics, while supporting the derivation of newly-introduced object-centric performance metrics. We have implemented the approach as a web application and conducted a case study based on a real-life loan application process.
翻訳日:2022-04-25 13:50:45 公開日:2022-04-22
# HTN計画におけるリスク意識

Risk Awareness in HTN Planning ( http://arxiv.org/abs/2204.10669v1 )

ライセンス: Link先を確認
Ebaa Alnazer, Ilche Georgievski, Marco Aiello(参考訳) 実際の現実世界のドメインは、リソースの動作と使用がリスクを受け入れる必要がある不確定な状況によって特徴づけられる。 このような領域における行動の実行には、時間、お金、エネルギーなどのリソースを消費するコストが常に必要であり、そこでは、これらのコストに関する知識は、完全に未知のものから全く知られていないもの、さらにはコストの予測不可能なものまで様々である。 障害のような不確実な要因のために、アクションとそのコストが決定論的でないロボットドメインを考えてみてください。 利用可能なリソースのコストを考慮して実行すべきアクションを選択するには、リスクに対するスタンスを取る必要がある。 したがって、これらのドメインは不確実性の下で計画するだけでなく、リスクを受け入れながら計画することを求める。 階層型タスクネットワーク(HTN)計画を現実世界のアプリケーションで広く使われている計画手法として捉え、既存のアプローチがリスクを考慮していないことを観察することができる。 すなわち、単一コストのアクションを使用して最も確率的または最適な計画を計算することは、リスク中立性を表現するのに十分である。 本研究では,HTN計画が予測ユーティリティ理論,コストの確率分布を考慮した行動選択を可能にする決定理論の代表的な概念,ユーティリティ関数を用いて表現されたリスク態度を考慮し,リスクを意識することができることを仮定する。 特に,リスクを意識したHTN計画を,リスク中立性を超えた計算計画を可能にするアプローチとして定義する,行動コストの確率分布を用いたリスクと不確実性をモデル化するHTN計画の一般的な枠組みを紹介する。 実際、我々はリスクを意識した計画を立てるには、最も期待されるユーティリティーで計画を見つける必要がある。 最後に,HTN計画エージェントは,既存のHTN計画手法を適応させることで,リスクを意識したHTN計画問題の解決が可能であることを論じる。

Actual real-world domains are characterised by uncertain situations in which acting and use of resources require embracing risk. Performing actions in such domains always entails costs of consuming some resource, such as time, money, or energy, where the knowledge about these costs can range from totally known to totally unknown and even unknowable probabilities of costs. Think of robotic domains, where actions and their costs are non-deterministic due to uncertain factors like obstacles. Choosing which action to perform considering its cost on the available resource requires taking a stance on risk. Thus, these domains call for not only planning under uncertainty but also planning while embracing risk. Taking Hierarchical Task Network (HTN) planning as a widely used planning technique in real-world applications, one can observe that existing approaches do not account for risk. That is, computing most probable or optimal plans using actions with single-valued costs is only enough to express risk neutrality. In this work, we postulate that HTN planning can become risk aware by considering expected utility theory, a representative concept of decision theory that enables choosing actions considering a probability distribution of their costs and a given risk attitude expressed using a utility function. In particular, we introduce a general framework for HTN planning that allows modelling risk and uncertainty using a probability distribution of action costs upon which we define risk-aware HTN planning as an approach that accounts for the different risk attitudes and allows computing plans that go beyond risk neutrality. In fact, we layout that computing risk-aware plans requires finding plans with the highest expected utility. Finally, we argue that it is possible for HTN planning agents to solve specialised risk-aware HTN planning problems by adapting some existing HTN planning approaches.
翻訳日:2022-04-25 13:50:30 公開日:2022-04-22
# 注意に基づくハイブリッド画像品質評価ネットワーク、CNNが改善に役立つ

Attentions Help CNNs See Better: Attention-based Hybrid Image Quality Assessment Network ( http://arxiv.org/abs/2204.10485v1 )

ライセンス: Link先を確認
Shanshan Lao, Yuan Gong, Shuwei Shi, Sidi Yang, Tianhe Wu, Jiahao Wang, Weihao Xia, Yujiu Yang(参考訳) 画像品質評価(IQA)アルゴリズムは、画像品質に対する人間の認識を定量化する。 残念ながら、GAN(Generative Adversarial Network)によって生成された歪み画像を現実的なテクスチャで評価する際の性能低下がある。 そこで,本研究では,パッチレベルの予測手法が独立なイメージパッチを入力としてスコアを別々に計算するが,画像パッチ間の空間的関係モデリングを欠くという,iqaモデルのバックボーンにあると推測する。 そこで本研究では,gan ベースの iqa タスクにおいて,課題に対処し,よりよい性能を得るための注意に基づくハイブリッド画像品質評価ネットワーク (ahiq) を提案する。 まず、視覚変換器(ViT)ブランチと畳み込みニューラルネットワーク(CNN)ブランチを含む2分岐アーキテクチャを特徴抽出に適用する。 ハイブリッドアーキテクチャは、ViTがキャプチャした画像パッチ間のインタラクション情報と、CNNのローカルテクスチャの詳細を組み合わせる。 浅層CNNの特徴をより視覚的に正常な領域に集中させるために、ViTブランチからのセマンティック情報の助けを借りて変形可能な畳み込みを適用する。 最後に,パッチワイズスコア予測モジュールを用いて最終スコアを得る。 実験の結果,NTIRE 2022 Perceptual Image Quality Assessment Challengeのフルリファレンス(FR)トラックにおいて,本モデルが4つの標準IQAデータセット上で最先端の手法よりも優れていることがわかった。

Image quality assessment (IQA) algorithm aims to quantify the human perception of image quality. Unfortunately, there is a performance drop when assessing the distortion images generated by generative adversarial network (GAN) with seemingly realistic texture. In this work, we conjecture that this maladaptation lies in the backbone of IQA models, where patch-level prediction methods use independent image patches as input to calculate their scores separately, but lack spatial relationship modeling among image patches. Therefore, we propose an Attention-based Hybrid Image Quality Assessment Network (AHIQ) to deal with the challenge and get better performance on the GAN-based IQA task. Firstly, we adopt a two-branch architecture, including a vision transformer (ViT) branch and a convolutional neural network (CNN) branch for feature extraction. The hybrid architecture combines interaction information among image patches captured by ViT and local texture details from CNN. To make the features from shallow CNN more focused on the visually salient region, a deformable convolution is applied with the help of semantic information from the ViT branch. Finally, we use a patch-wise score prediction module to obtain the final score. The experiments show that our model outperforms the state-of-the-art methods on four standard IQA datasets and AHIQ ranked first on the Full Reference (FR) track of the NTIRE 2022 Perceptual Image Quality Assessment Challenge.
翻訳日:2022-04-25 13:48:22 公開日:2022-04-22
# 提案バランスリファインメントを用いたFew-Shotオブジェクト検出

Few-Shot Object Detection with Proposal Balance Refinement ( http://arxiv.org/abs/2204.10527v1 )

ライセンス: Link先を確認
Sueyeon Kim, Woo-Jeoung Nam, Seong-Whan Lee(参考訳) 近年,手動の注釈付きバウンディングボックスへの依存を大幅に軽減する可能性から,オブジェクト検出が注目されている。 既存の少数ショット物体検出文献では, 可能な限り識別的特徴埋め込みを得ることで, 境界ボックス分類に重点を置いているが, 新規サンプルの偏りによるiou(intersection-over-union)変動の欠如に対処する必要がある。 本稿では,比較的多くの低品質領域の提案によって引き起こされるIoUの不均衡を分析し,この不均衡が学習能力向上に重要な役割を果たしていることを明らかにする。 良く知られた2段階微調整技術は、新しい正のサンプルの品質と量不足を引き起こし、未確認の新規クラスの効果的な対象検出を妨げる。 この問題を軽減するために,補助的なシーケンシャルバウンディングボックスリファインメントプロセスを用いた,簡易かつ効果的なオブジェクト提案学習手法であるプロポーザルバランスリファインメントを用いた,数ショットオブジェクト検出モデルを提案する。 このプロセスにより、新たなクラスサンプルによって、検出器を様々なIoUスコアに最適化することができる。 当社のシーケンシャルステージアーキテクチャを十分に活用するために, 微調整戦略を改訂し, 地域提案ネットワークを新規クラスに公開することにより, 地域関心(roi)分類器とレグレッシャの学習機会を増大させる。 PASCAL VOCとCOCOに関する広範な評価は、我々のフレームワークが既存の少数ショットオブジェクト検出手法よりも大幅に優れていることを示している。

Few-shot object detection has gained significant attention in recent years as it has the potential to greatly reduce the reliance on large amounts of manually annotated bounding boxes. While most existing few-shot object detection literature primarily focuses on bounding box classification by obtaining as discriminative feature embeddings as possible, we emphasize the necessity of handling the lack of intersection-over-union (IoU) variations induced by a biased distribution of novel samples. In this paper, we analyze the IoU imbalance that is caused by the relatively high number of low-quality region proposals, and reveal that it plays a critical role in improving few-shot learning capabilities. The well-known two stage fine-tuning technique causes insufficient quality and quantity of the novel positive samples, which hinders the effective object detection of unseen novel classes. To alleviate this issue, we present a few-shot object detection model with proposal balance refinement, a simple yet effective approach in learning object proposals using an auxiliary sequential bounding box refinement process. This process enables the detector to be optimized on the various IoU scores through additional novel class samples. To fully exploit our sequential stage architecture, we revise the fine-tuning strategy and expose the Region Proposal Network to the novel classes in order to provide increased learning opportunities for the region-of-interest (RoI) classifiers and regressors. Our extensive assessments on PASCAL VOC and COCO demonstrate that our framework substantially outperforms other existing few-shot object detection approaches.
翻訳日:2022-04-25 13:47:57 公開日:2022-04-22
# jiff:ハイクオリティ・シングルビュー・クロージング・ヒューマン・リコンストラクションのための協調型暗黙的顔機能

JIFF: Jointly-aligned Implicit Face Function for High Quality Single View Clothed Human Reconstruction ( http://arxiv.org/abs/2204.10549v1 )

ライセンス: Link先を確認
Yukang Cao, Guanying Chen, Kai Han, Wenqi Yang, Kwan-Yee K. Wong(参考訳) 本稿では, 単一視点3次元人体再構成の問題点について述べる。 近年の暗黙的機能ベース手法では印象的な結果が得られたが,再建時の詳細な顔詳細は得られていない。 これにより、3Dテレプレゼンスのようなアプリケーションにおけるユーザエクスペリエンスは大きく低下する。 本稿では,再建における顔の質向上に焦点をあて,暗黙的機能に基づくアプローチとモデルに基づくアプローチのメリットを組み合わせた新しい統合型暗黙的顔機能(jiff)を提案する。 形状は3d morphable face modelを用い,詳細な顔形状情報をキャプチャする空間対応型3d特徴量を計算する。 このような空間整列3D特徴と画素整列2D特徴とを組み合わせて、高品質な顔再構成のための暗黙の顔関数を共同で予測する。 私たちはさらにパイプラインを拡張し、詳細な顔モデルの高品質なテクスチャを予測するための粗いto-fineアーキテクチャを導入しました。 公開データセット上で広範な評価が行われ,提案するjiffは,既存の最先端技術よりも優れた(定量的かつ質的に)性能を示している。

This paper addresses the problem of single view 3D human reconstruction. Recent implicit function based methods have shown impressive results, but they fail to recover fine face details in their reconstructions. This largely degrades user experience in applications like 3D telepresence. In this paper, we focus on improving the quality of face in the reconstruction and propose a novel Jointly-aligned Implicit Face Function (JIFF) that combines the merits of the implicit function based approach and model based approach. We employ a 3D morphable face model as our shape prior and compute space-aligned 3D features that capture detailed face geometry information. Such space-aligned 3D features are combined with pixel-aligned 2D features to jointly predict an implicit face function for high quality face reconstruction. We further extend our pipeline and introduce a coarse-to-fine architecture to predict high quality texture for our detailed face model. Extensive evaluations have been carried out on public datasets and our proposed JIFF has demonstrates superior performance (both quantitatively and qualitatively) over existing state-of-the-arts.
翻訳日:2022-04-25 13:47:30 公開日:2022-04-22
# 地表面を優先したスパースポイント雲の再構成

Reconstructing Surfaces for Sparse Point Clouds with On-Surface Priors ( http://arxiv.org/abs/2204.10603v1 )

ライセンス: Link先を確認
Baorui Ma, Yu-Shen Liu, Zhizhong Han(参考訳) 3次元点雲から表面を再構築することは重要な課題である。 現在の方法では、接地距離や点正規化なしに単一点雲から符号付き距離関数(SDF)を学習することで、表面を再構築することができる。 しかし、ポイントクラウドを密にする必要があるため、実際のアプリケーションでのパフォーマンスが劇的に制限される。 この問題を解決するため, 表面上の粗い点雲から高精度な表面を復元することを提案する。 我々は、スパースポイントクラウドで表される表面にクエリを投影することでSDFを学ぶためにニューラルネットワークを訓練する。 私たちのキーとなるアイデアは、表面にあるクエリプロジェクションと最小となるプロジェクション距離の両方を押すことで、署名された距離を推測することです。 これを達成するために、我々は、ある点がスパースポイントクラウド上にあるかどうかを判断する前に、表面をキャプチャするニューラルネットワークを訓練し、それを、見当たらないスパースポイントクラウドからsdfsを学ぶための微分可能な関数として活用する。 本手法は, 接地距離や点正規化を伴わずに, 単一のスパース点雲からSDFを学習することができる。 広範に使用されているベンチマークによる数値評価の結果,特に疎点雲の場合,最先端の復元精度が得られた。

It is an important task to reconstruct surfaces from 3D point clouds. Current methods are able to reconstruct surfaces by learning Signed Distance Functions (SDFs) from single point clouds without ground truth signed distances or point normals. However, they require the point clouds to be dense, which dramatically limits their performance in real applications. To resolve this issue, we propose to reconstruct highly accurate surfaces from sparse point clouds with an on-surface prior. We train a neural network to learn SDFs via projecting queries onto the surface represented by the sparse point cloud. Our key idea is to infer signed distances by pushing both the query projections to be on the surface and the projection distance to be the minimum. To achieve this, we train a neural network to capture the on-surface prior to determine whether a point is on a sparse point cloud or not, and then leverage it as a differentiable function to learn SDFs from unseen sparse point cloud. Our method can learn SDFs from a single sparse point cloud without ground truth signed distances or point normals. Our numerical evaluation under widely used benchmarks demonstrates that our method achieves state-of-the-art reconstruction accuracy, especially for sparse point clouds.
翻訳日:2022-04-25 13:47:11 公開日:2022-04-22
# 特徴量攻撃による移動性の向上

Enhancing the Transferability via Feature-Momentum Adversarial Attack ( http://arxiv.org/abs/2204.10606v1 )

ライセンス: Link先を確認
Xianglong and Yuezun Li and Haipeng Qu and Junyu Dong(参考訳) 現実の応用に対する現実的な脅威から、移動可能な敵攻撃が注目されている。 特に、機能レベルの敵攻撃は、中間的特徴を乱すことで転送可能性を高めることができる最近の分岐である。 既存のメソッドは通常、その値が対応する特徴要素の重要性を示す特徴のガイダンスマップを作成し、それに従って機能を破壊するために反復アルゴリズムを使用する。 しかし、既存の手法では誘導マップが固定されており、反復中に画像が変化するため、ネットワークの動作を一貫して反映することはできない。 本稿では,FMAA(Feature-Momentum Adversarial Attack)と呼ばれる新しい手法について述べる。 提案手法の重要な考え方は,各イテレーションにおける誘導マップをモーメントを用いて動的に推定し,カテゴリ関連特徴を効果的に乱すことである。 広範な実験により,本手法は,異なる対象モデルにおいて,他の最先端手法を大きく上回ることを示した。

Transferable adversarial attack has drawn increasing attention due to their practical threaten to real-world applications. In particular, the feature-level adversarial attack is one recent branch that can enhance the transferability via disturbing the intermediate features. The existing methods usually create a guidance map for features, where the value indicates the importance of the corresponding feature element and then employs an iterative algorithm to disrupt the features accordingly. However, the guidance map is fixed in existing methods, which can not consistently reflect the behavior of networks as the image is changed during iteration. In this paper, we describe a new method called Feature-Momentum Adversarial Attack (FMAA) to further improve transferability. The key idea of our method is that we estimate a guidance map dynamically at each iteration using momentum to effectively disturb the category-relevant features. Extensive experiments demonstrate that our method significantly outperforms other state-of-the-art methods by a large margin on different target models.
翻訳日:2022-04-25 13:46:46 公開日:2022-04-22
# Few-Shot Semantic Segmentationのための動的プロトタイプ畳み込みネットワーク

Dynamic Prototype Convolution Network for Few-Shot Semantic Segmentation ( http://arxiv.org/abs/2204.10638v1 )

ライセンス: Link先を確認
Jie Liu, Yanqi Bao, Guo-Sen Xie, Huan Xiong, Jan-Jakob Sonke, Efstratios Gavves(参考訳) 少数ショットセマンティックセグメンテーション(FSS)の鍵となる課題は、エピソードトレーニングシナリオの下で、サポートとクエリ機能および/またはプロトタイプ間の望ましいインタラクションを調整する方法である。 ほとんどの既存のFSSメソッドは、クエリオブジェクトのセグメンテーションにコサイン類似性や機能結合といった平易な操作のみを活用することで、このようなサポートクエリーインタラクションを実装している。 しかしながら、これらの相互作用アプローチは、例えば、セグメント化すべきクエリオブジェクトが穴とスロットを持っている場合、ほとんど常に不正確なセグメンテーションが発生するような、FSSで広く遭遇するクエリイメージの固有のオブジェクト詳細をうまくキャプチャすることはできない。 そこで,本稿では,上記の本質的詳細をフルに把握する動的プロトタイプ畳み込みネットワーク (dpcn) を提案する。 具体的には、DPCNにおいて、動的畳み込みモジュール(DCM)が最初に提案され、サポートフォアグラウンドから動的カーネルを生成する。 さらに,DPCNにサポートアクティベーションモジュール (SAM) と特徴フィルタリングモジュール (FFM) を設け,擬似マスクを生成し,クエリ画像の背景情報をフィルタリングする。 SAMとFFMは、クエリ機能から豊富なコンテキスト情報を抽出することができる。 我々のDPCNはkショットFSS設定下でも柔軟で効率的です。 PASCAL-5iとCOCO-20iの大規模な実験により、DPCNは1ショットと5ショットの両方で優れた性能が得られることが示された。

The key challenge for few-shot semantic segmentation (FSS) is how to tailor a desirable interaction among support and query features and/or their prototypes, under the episodic training scenario. Most existing FSS methods implement such support-query interactions by solely leveraging plain operations - e.g., cosine similarity and feature concatenation - for segmenting the query objects. However, these interaction approaches usually cannot well capture the intrinsic object details in the query images that are widely encountered in FSS, e.g., if the query object to be segmented has holes and slots, inaccurate segmentation almost always happens. To this end, we propose a dynamic prototype convolution network (DPCN) to fully capture the aforementioned intrinsic details for accurate FSS. Specifically, in DPCN, a dynamic convolution module (DCM) is firstly proposed to generate dynamic kernels from support foreground, then information interaction is achieved by convolution operations over query features using these kernels. Moreover, we equip DPCN with a support activation module (SAM) and a feature filtering module (FFM) to generate pseudo mask and filter out background information for the query images, respectively. SAM and FFM together can mine enriched context information from the query features. Our DPCN is also flexible and efficient under the k-shot FSS setting. Extensive experiments on PASCAL-5i and COCO-20i show that DPCN yields superior performances under both 1-shot and 5-shot settings.
翻訳日:2022-04-25 13:46:31 公開日:2022-04-22
# 画像品質向上のための露光補正モデル

Exposure Correction Model to Enhance Image Quality ( http://arxiv.org/abs/2204.10648v1 )

ライセンス: Link先を確認
Fevziye Irem Eyiokur and Dogucan Yaman and Haz{\i}m Kemal Ekenel and Alexander Waibel(参考訳) 画像中の露光誤差はコントラストの低下とコンテンツの視認性の低下を引き起こす。 本稿では,この問題に対処し,単一モデルで過大かつ過大な露光エラーに対処するために,エンドツーエンドの露光補正モデルを提案する。 本モデルは、補正された画像を合成するための画像エンコーダ、連続した残余ブロック、および画像デコーダを含む。 我々は、知覚的損失、特徴マッチング損失、およびマルチスケール識別器を用いて、生成された画像の品質を高め、トレーニングをより安定させる。 実験の結果,提案モデルの有効性が示された。 大規模露光データセットで最先端の結果を得る。 また,画像の露出設定がポートレートマッチング作業に及ぼす影響についても検討した。 その結果,画像の露出過多がポートレートマッチングモデルの性能を著しく低下させることがわかった。 提案モデルを用いて露出補正を行った結果,ポートレートマッチングの品質は著しく向上した。 https://github.com/yamand16/ExposureCorrection

Exposure errors in an image cause a degradation in the contrast and low visibility in the content. In this paper, we address this problem and propose an end-to-end exposure correction model in order to handle both under- and overexposure errors with a single model. Our model contains an image encoder, consecutive residual blocks, and image decoder to synthesize the corrected image. We utilize perceptual loss, feature matching loss, and multi-scale discriminator to increase the quality of the generated image as well as to make the training more stable. The experimental results indicate the effectiveness of proposed model. We achieve the state-of-the-art result on a large-scale exposure dataset. Besides, we investigate the effect of exposure setting of the image on the portrait matting task. We find that under- and overexposed images cause severe degradation in the performance of the portrait matting models. We show that after applying exposure correction with the proposed model, the portrait matting quality increases significantly. https://github.com/yamand16/ExposureCorrection
翻訳日:2022-04-25 13:46:03 公開日:2022-04-22
# DFAM-DETR:細い物体検出における変形可能な特徴に基づく注意機構DETR

DFAM-DETR: Deformable feature based attention mechanism DETR on slender object detection ( http://arxiv.org/abs/2204.10667v1 )

ライセンス: Link先を確認
Wen Feng, Wang Mei, Hu Xiaojie(参考訳) 物体検出はコンピュータビジョンの最も重要な側面の1つであり、様々な領域において大きな成果を上げている。 細い物体の検出に焦点を当てた研究はほとんどない。 CNNはオブジェクト検出に広く利用されているが、固定された幾何構造とサンプリングポイントのために細いオブジェクト検出では不十分である。 対照的に、Deformable DETRはグローバルから特定の機能を得ることができる。 細長い物体の検出精度と効率ではcnnを上回っているが、結果はまだ満足できない。 そこで我々は,変形可能なdetrの細長い物体検出精度と効率を向上させるために,変形可能な特徴に基づく注意機構(dfam)を提案する。 DFAMは、バックボーンネットワークの入力シーケンス全体から情報を集約する変形可能な畳み込みとアテンション機構の適応サンプリングポイントを有する。 この改良された検出器はDeformable Feature based Attention Mechanism DETR (DFAM-DETR) と名付けられた。 その結果,DFAM-DETRは細い物体に対して優れた検出性能を発揮することがわかった。

Object detection is one of the most significant aspects of computer vision, and it has achieved substantial results in a variety of domains. It is worth noting that there are few studies focusing on slender object detection. CNNs are widely employed in object detection, however it performs poorly on slender object detection due to the fixed geometric structure and sampling points. In comparison, Deformable DETR has the ability to obtain global to specific features. Even though it outperforms the CNNs in slender objects detection accuracy and efficiency, the results are still not satisfactory. Therefore, we propose Deformable Feature based Attention Mechanism (DFAM) to increase the slender object detection accuracy and efficiency of Deformable DETR. The DFAM has adaptive sampling points of deformable convolution and attention mechanism that aggregate information from the entire input sequence in the backbone network. This improved detector is named as Deformable Feature based Attention Mechanism DETR (DFAM- DETR). Results indicate that DFAM-DETR achieves outstanding detection performance on slender objects.
翻訳日:2022-04-25 13:45:49 公開日:2022-04-22
# トラックレットアソシエータによるトラッキングの改善

Improving tracking with a tracklet associator ( http://arxiv.org/abs/2204.10677v1 )

ライセンス: Link先を確認
R\'emi Nahon, Guillaume-Alexandre Bilodeau and Gilles Pesant(参考訳) マルチプルオブジェクトトラッキング(Multiple Object Tracking、MOT)は、コンピュータビジョンにおけるタスクであり、ビデオ内の様々なオブジェクトの位置を検出し、それらをユニークなアイデンティティに関連付けることを目的としている。 本稿では,制約プログラミング(CP)に基づく手法を提案する。その目的は,既存のトラッカーに移植することで,オブジェクトの関連性を改善することである。 モジュールアルゴリズムを3つの独立したフェーズに分割した。 第1フェーズは、ベーストラッカが提供するトラックレットを回復し、トラックレットが重なり合うような不確実性のあるアソシエーションが検出される場所でカットすることで、idスイッチが発生する可能性がある。 第2のフェーズでは、以前に構築されたトラックレットをBelief Propagation Constraint Programmingアルゴリズムを用いて関連付け、時間と空間におけるそれらのダイナミクスや距離といった複数の特性に基づいて各トラックレットにスコアを割り当てる様々な制約を提案する。 最後に、第3フェーズは、私たちが構築した軌道の残りの穴を埋める初歩的な補間モデルである。 実験の結果,我々のモデルが,hotaとidf1で得られた3点(3点から4点)をテストした最新トラッカすべてにおいて,結果の改善に繋がることがわかった。

Multiple object tracking (MOT) is a task in computer vision that aims to detect the position of various objects in videos and to associate them to a unique identity. We propose an approach based on Constraint Programming (CP) whose goal is to be grafted to any existing tracker in order to improve its object association results. We developed a modular algorithm divided into three independent phases. The first phase consists in recovering the tracklets provided by a base tracker and to cut them at the places where uncertain associations are spotted, for example, when tracklets overlap, which may cause identity switches. In the second phase, we associate the previously constructed tracklets using a Belief Propagation Constraint Programming algorithm, where we propose various constraints that assign scores to each of the tracklets based on multiple characteristics, such as their dynamics or the distance between them in time and space. Finally, the third phase is a rudimentary interpolation model to fill in the remaining holes in the trajectories we built. Experiments show that our model leads to improvements in the results for all three of the state-of-the-art trackers on which we tested it (3 to 4 points gained on HOTA and IDF1).
翻訳日:2022-04-25 13:44:57 公開日:2022-04-22
# 点雲上の3次元高密度キャプションのための空間性誘導変圧器

Spatiality-guided Transformer for 3D Dense Captioning on Point Clouds ( http://arxiv.org/abs/2204.10688v1 )

ライセンス: Link先を確認
Heng Wang, Chaoyi Zhang, Jianhui Yu, Weidong Cai(参考訳) 3Dポイントクラウドでのディエンスキャプションは、オブジェクトレベルの3Dシーン理解を含む、視覚と言語に関する新たなタスクである。 従来の3Dオブジェクト検出のように粗いセマンティッククラス予測とバウンディングボックスレグレッションとは別に、3D高密度キャプションは、各シーン対象の視覚的外観と空間的関係に関する自然言語記述のよりきめ細やかなインスタンスレベルラベルを作成することを目的としている。 そこで我々は,3dシーンにおける物体の相対空間性について特に検討し,トークン・ツー・トケン空間関係学習目的と対象中心デコーダを用いて空間案内エンコーダの設計を行い,高精度かつ空間性エンハンスドオブジェクトキャプションを生成するトランスフォーマベースのエンコーダ・デコーダアーキテクチャを提案する。 ScanReferとReferIt3Dの2つのベンチマークデータセットから評価し、提案したSpaCap3Dは、それぞれCIDEr@0.5IoUのベースラインメソッドScan2Capを4.94%、9.61%上回っている。 ソースコードと追加ファイルのプロジェクトページはhttps://spacap3d.github.io/で閲覧できます。

Dense captioning in 3D point clouds is an emerging vision-and-language task involving object-level 3D scene understanding. Apart from coarse semantic class prediction and bounding box regression as in traditional 3D object detection, 3D dense captioning aims at producing a further and finer instance-level label of natural language description on visual appearance and spatial relations for each scene object of interest. To detect and describe objects in a scene, following the spirit of neural machine translation, we propose a transformer-based encoder-decoder architecture, namely SpaCap3D, to transform objects into descriptions, where we especially investigate the relative spatiality of objects in 3D scenes and design a spatiality-guided encoder via a token-to-token spatial relation learning objective and an object-centric decoder for precise and spatiality-enhanced object caption generation. Evaluated on two benchmark datasets, ScanRefer and ReferIt3D, our proposed SpaCap3D outperforms the baseline method Scan2Cap by 4.94% and 9.61% in CIDEr@0.5IoU, respectively. Our project page with source code and supplementary files is available at https://SpaCap3D.github.io/ .
翻訳日:2022-04-25 13:44:34 公開日:2022-04-22
# ワンショットファイングラインド視覚認識のためのメタラーニングによる生成画像の強化

Reinforcing Generated Images via Meta-learning for One-Shot Fine-Grained Visual Recognition ( http://arxiv.org/abs/2204.10689v1 )

ライセンス: Link先を確認
Satoshi Tsutsui, Yanwei Fu, David Crandall(参考訳) ワンショットのきめ細かい視覚認識は、新しいきめ細かいクラスのトレーニング例が少ないという問題に苦しむことが多い。 この問題を軽減するために、GAN(Generative Adversarial Networks)に基づくオフザシェルフ画像生成技術は、追加のトレーニングイメージを作成する可能性がある。 しかし、これらのgan生成画像は、ワンショットの細粒度認識の精度を向上させるのに役に立たないことが多い。 本稿では,生成した画像と原画像を組み合わせたメタラーニングフレームワークを提案する。 具体的には、ジェネリックイメージジェネレータは、いくつかの新しいクラスのトレーニングインスタンスによって更新され、メタイメージ強化ネットワーク(MetaIRNet)は、1ショットのきめ細かい認識と画像強化を行うために提案されている。 本実験は,単発細粒度画像分類ベンチマークにおいて,ベースラインに対して一貫した改善を示す。 また,本解析により,補強画像はオリジナル画像やgan画像に比べて多様性が高いことが示された。

One-shot fine-grained visual recognition often suffers from the problem of having few training examples for new fine-grained classes. To alleviate this problem, off-the-shelf image generation techniques based on Generative Adversarial Networks (GANs) can potentially create additional training images. However, these GAN-generated images are often not helpful for actually improving the accuracy of one-shot fine-grained recognition. In this paper, we propose a meta-learning framework to combine generated images with original images, so that the resulting "hybrid" training images improve one-shot learning. Specifically, the generic image generator is updated by a few training instances of novel classes, and a Meta Image Reinforcing Network (MetaIRNet) is proposed to conduct one-shot fine-grained recognition as well as image reinforcement. Our experiments demonstrate consistent improvement over baselines on one-shot fine-grained image classification benchmarks. Furthermore, our analysis shows that the reinforced images have more diversity compared to the original and GAN-generated images.
翻訳日:2022-04-25 13:44:07 公開日:2022-04-22
# PU-EVA:フレキシブルスケールポイントクラウドアップサンプリングのためのエッジベクトルベースの近似ソリューション

PU-EVA: An Edge Vector based Approximation Solution for Flexible-scale Point Cloud Upsampling ( http://arxiv.org/abs/2204.10750v1 )

ライセンス: Link先を確認
Luqing Luo, Lulu Tang, Wanyi Zhou, Shizheng Wang, Zhi-Xin Yang(参考訳) 高品質の点雲は、点ベースのレンダリング、意味理解、表面再構成において実用的に重要である。 より密度が高く、より規則的なターゲットオブジェクトの近似に対するスパース、ノイズ、および不均一点雲のアップサンプリングは望ましいが難しい課題である。 既存のほとんどのメソッドは、アップサンプリングのポイント特徴を重複させ、アップサンプリングのスケールを一定のレートで制限している。 本研究では,エッジベクトルをベースとしたアフィン結合によりフレキシブルなアップサンプリング率を実現し,フレキシブルスケールのポイント雲に対するエッジベクトルに基づく近似(PU-EVA)の設計を提案する。 エッジベクトルに基づく近似は、エッジベクトルに基づくアフィン結合を介して隣り合う接続を符号化し、テイラー展開の2階項内の近似誤差を制限する。 EVAアップサンプリングは、ネットワークアーキテクチャによるアップサンプリングスケールを分離し、1回のトレーニングでフレキシブルアップサンプリングレートを達成する。 質的および定量的評価により, PU-EVAは, 近接面, 分布均一性, 幾何的細部保存の点で, 最先端技術よりも優れていることが示された。

High-quality point clouds have practical significance for point-based rendering, semantic understanding, and surface reconstruction. Upsampling sparse, noisy and nonuniform point clouds for a denser and more regular approximation of target objects is a desirable but challenging task. Most existing methods duplicate point features for upsampling, constraining the upsampling scales at a fixed rate. In this work, the flexible upsampling rates are achieved via edge vector based affine combinations, and a novel design of Edge Vector based Approximation for Flexible-scale Point clouds Upsampling (PU-EVA) is proposed. The edge vector based approximation encodes the neighboring connectivity via affine combinations based on edge vectors, and restricts the approximation error within the second-order term of Taylor's Expansion. The EVA upsampling decouples the upsampling scales with network architecture, achieving the flexible upsampling rates in one-time training. Qualitative and quantitative evaluations demonstrate that the proposed PU-EVA outperforms the state-of-the-art in terms of proximity-to-surface, distribution uniformity, and geometric details preservation.
翻訳日:2022-04-25 13:43:48 公開日:2022-04-22
# gen6d: rgb画像からのモデルフリーな6自由度物体ポーズ推定

Gen6D: Generalizable Model-Free 6-DoF Object Pose Estimation from RGB Images ( http://arxiv.org/abs/2204.10776v1 )

ライセンス: Link先を確認
Yuan Liu and Yilin Wen and Sida Peng and Cheng Lin and Xiaoxiao Long and Taku Komura and Wenping Wang(参考訳) 本稿では,Gen6Dと呼ばれるモデルフリーな6-DoFオブジェクトポーズ推定器を提案する。 既存の一般化可能なポーズ推定器は高品質なオブジェクトモデルを必要とするか、テスト時間内に追加の深度マップやオブジェクトマスクを必要とする。 対照的に、ポーズ推定器は、見えないオブジェクトのポーズ画像のみを必要とし、任意の環境でオブジェクトのポーズを正確に予測することができる。 Gen6Dはオブジェクト検出器、視点セレクタ、ポーズリファクターで構成され、これらは全て3Dオブジェクトモデルを必要としないため、見えないオブジェクトに一般化することができる。 実験によると、gen6dはmopedデータセットと新しいgenmopデータセットという2つのモデルフリーデータセットで最先端の結果を得る。 さらに、LINEMODデータセットでは、Gen6Dはインスタンス固有のポーズ推定器と比較して、競合的な結果が得られる。 プロジェクトページ: https://liuyuan-pal.github.io/gen6d/

In this paper, we present a generalizable model-free 6-DoF object pose estimator called Gen6D. Existing generalizable pose estimators either need high-quality object models or require additional depth maps or object masks in test time, which significantly limits their application scope. In contrast, our pose estimator only requires some posed images of the unseen object and is able to accurately predict the poses of the object in arbitrary environments. Gen6D consists of an object detector, a viewpoint selector and a pose refiner, all of which do not require the 3D object model and can generalize to unseen objects. Experiments show that Gen6D achieves state-of-the-art results on two model-free datasets: the MOPED dataset and a new GenMOP dataset collected by us. In addition, on the LINEMOD dataset, Gen6D achieves competitive results compared with instance-specific pose estimators. Project page: https://liuyuan-pal.github.io/Gen6D/.
翻訳日:2022-04-25 13:43:29 公開日:2022-04-22
# Control-NeRF:シーンレンダリングと操作のための編集可能な機能ボリューム

Control-NeRF: Editable Feature Volumes for Scene Rendering and Manipulation ( http://arxiv.org/abs/2204.10850v1 )

ライセンス: Link先を確認
Verica Lazova, Vladimir Guzov, Kyle Olszewski, Sergey Tulyakov, Gerard Pons-Moll(参考訳) 高品質な新規ビュー合成を実現しつつ,フレキシブルな3次元画像コンテンツ操作を実現する。 NeRFベースのアプローチは、新しいビュー合成に有効であるが、そのようなモデルは、ニューラルネットワーク内のシーンのすべての点の放射率を記憶する。 これらのモデルはシーン固有であり、3Dシーン表現が欠けているため、形状操作や合成といった古典的な編集は不可能である。 そのため、nerfベースのシーンの編集と合成は行われていない。 解釈可能かつ制御可能なシーン表現を得ることを目的として,モデルでは,シーン非依存のニューラルネットワークを用いて,シーン固有の特徴量の学習を行う。 このハイブリッド表現により、シーン固有の幾何学と外観からニューラルレンダリングを分離する。 レンダリングネットワークのパラメータを固定しつつ、シーン固有の3D特徴表現のみを最適化することで、新しいシーンに一般化することができる。 従って、最初のトレーニングステージで学習したレンダリング機能は、新しいシーンに容易に適用でき、アプローチをより柔軟にします。 さらに重要なことは、機能ボリュームはレンダリングモデルとは独立しているため、対応する機能ボリュームを編集してシーンを操作および結合することが可能である。 編集されたボリュームをレンダリングモデルにプラグインすることで、高品質な新規ビューを合成することができる。 シーンのミキシングやオブジェクトの変形,シーンへのオブジェクト挿入など,さまざまなシーン操作を実演すると同時に,フォトリアリスティックな結果も生み出す。

We present a novel method for performing flexible, 3D-aware image content manipulation while enabling high-quality novel view synthesis. While NeRF-based approaches are effective for novel view synthesis, such models memorize the radiance for every point in a scene within a neural network. Since these models are scene-specific and lack a 3D scene representation, classical editing such as shape manipulation, or combining scenes is not possible. Hence, editing and combining NeRF-based scenes has not been demonstrated. With the aim of obtaining interpretable and controllable scene representations, our model couples learnt scene-specific feature volumes with a scene agnostic neural rendering network. With this hybrid representation, we decouple neural rendering from scene-specific geometry and appearance. We can generalize to novel scenes by optimizing only the scene-specific 3D feature representation, while keeping the parameters of the rendering network fixed. The rendering function learnt during the initial training stage can thus be easily applied to new scenes, making our approach more flexible. More importantly, since the feature volumes are independent of the rendering model, we can manipulate and combine scenes by editing their corresponding feature volumes. The edited volume can then be plugged into the rendering model to synthesize high-quality novel views. We demonstrate various scene manipulations, including mixing scenes, deforming objects and inserting objects into scenes, while still producing photo-realistic results.
翻訳日:2022-04-25 13:43:12 公開日:2022-04-22
# (参考訳) e2eセグメンタ:長尺asrのジョイントセグメンテーションとデコード

E2E Segmenter: Joint Segmenting and Decoding for Long-Form ASR ( http://arxiv.org/abs/2204.10749v1 )

ライセンス: CC BY 4.0
W. Ronny Huang, Shuo-yiin Chang, David Rybach, Rohit Prabhavalkar, Tara N. Sainath, Cyril Allauzen, Cal Peyser, Zhiyun Lu(参考訳) 短時間から数時間の長い発話におけるエンドツーエンドのASRモデルの性能向上は、音声認識における継続的な課題である。 一般的な解決策は、音声/非音声情報に基づいてセグメント境界位置を決定する別個の音声活動検出器(VAD)を用いて、事前に音声を分割することである。 しかし、vadセグメンタは、例えば、全体として取られるべき完全な文は、中央に迷信を含む("set a alarm for... 5 o'clock")現実世界のスピーチに最適であるかもしれない。 本稿では,VADをストリーム形式でセグメント境界を予測可能なエンドツーエンドのASRモデルに置き換えることを提案する。 実世界のロングフォームオーディオ(YouTube)における最大30分間の実験では、最先端のコンフォーマーRNN-TモデルにおけるVADセグメンタベースラインと比較して、8.5%のWER改善と250ミリ秒の中央値終端遅延を実証した。

Improving the performance of end-to-end ASR models on long utterances ranging from minutes to hours in length is an ongoing challenge in speech recognition. A common solution is to segment the audio in advance using a separate voice activity detector (VAD) that decides segment boundary locations based purely on acoustic speech/non-speech information. VAD segmenters, however, may be sub-optimal for real-world speech where, e.g., a complete sentence that should be taken as a whole may contain hesitations in the middle ("set an alarm for... 5 o'clock"). We propose to replace the VAD with an end-to-end ASR model capable of predicting segment boundaries in a streaming fashion, allowing the segmentation decision to be conditioned not only on better acoustic features but also on semantic features from the decoded text with negligible extra computation. In experiments on real world long-form audio (YouTube) with lengths of up to 30 minutes, we demonstrate 8.5% relative WER improvement and 250 ms reduction in median end-of-segment latency compared to the VAD segmenter baseline on a state-of-the-art Conformer RNN-T model.
翻訳日:2022-04-25 13:41:30 公開日:2022-04-22
# CNNに埋め込まれた混成層におけるエキスパート利用のバランシング

Balancing Expert Utilization in Mixture-of-Experts Layers Embedded in CNNs ( http://arxiv.org/abs/2204.10598v1 )

ライセンス: Link先を確認
Svetlana Pavlitskaya, Christian Hubschneider, Lukas Struppek and J. Marius Z\"ollner(参考訳) この研究は、畳み込みニューラルネットワークに直接埋め込まれた疎開型Mixture of Expert (MoE)層における不均衡な専門家利用の問題に対処する。 安定したトレーニングプロセスを実現するために,ソフトとハードの制約に基づくアプローチを提案する。 厳しい制約により、特定の専門家の重みはゼロになり、ソフトな制約は専門家の貢献と追加の補助損失のバランスをとる。 その結果、ソフトな制約は専門家の利用をより良く扱い、専門家の専門化プロセスをサポートします。 我々の研究結果は、単一のデータセットとエンドツーエンドのトレーニングであっても、専門家は暗黙的に入力空間の個々のサブドメインに集中できることを示している。 moe埋め込みを持つ提案モデルのエキスパートは、適切なデータセットがなくても、暗黙的に異なるドメインに焦点を当てている。 例えば、CIFAR-100画像分類の専門家は、以前のデータクラスタリングなしで海洋動物や花などの異なるドメインを認識することを専門としている。 RetinaNetとCOCOデータセットによる実験は、オブジェクト検出の専門家が、異なるサイズのオブジェクトを検出できることも示している。

This work addresses the problem of unbalanced expert utilization in sparsely-gated Mixture of Expert (MoE) layers, embedded directly into convolutional neural networks. To enable a stable training process, we present both soft and hard constraint-based approaches. With hard constraints, the weights of certain experts are allowed to become zero, while soft constraints balance the contribution of experts with an additional auxiliary loss. As a result, soft constraints handle expert utilization better and support the expert specialization process, hard constraints mostly maintain generalized experts and increase the model performance for many applications. Our findings demonstrate that even with a single dataset and end-to-end training, experts can implicitly focus on individual sub-domains of the input space. Experts in the proposed models with MoE embeddings implicitly focus on distinct domains, even without suitable predefined datasets. As an example, experts trained for CIFAR-100 image classification specialize in recognizing different domains such as sea animals or flowers without previous data clustering. Experiments with RetinaNet and the COCO dataset further indicate that object detection experts can also specialize in detecting objects of distinct sizes.
翻訳日:2022-04-25 13:27:53 公開日:2022-04-22
# EmbedTrack -- オフセット学習とクラスタリングバンド幅によるセル分割と追跡の同時実行

EmbedTrack -- Simultaneous Cell Segmentation and Tracking Through Learning Offsets and Clustering Bandwidths ( http://arxiv.org/abs/2204.10713v1 )

ライセンス: Link先を確認
Katharina L\"offler and Ralf Mikut(参考訳) 細胞挙動を体系的に解析するには、細胞分割と追跡のための自動アプローチが必要である。 深層学習は細胞セグメンテーションのタスクにうまく応用されているが、深層学習を用いた細胞セグメンテーションと追跡を同時に行うアプローチは少ない。 本稿では,埋め込みの解釈が容易なセルセグメンテーションと追跡を同時に行う,単一の畳み込みニューラルネットワークであるembedtrackを提案する。 埋め込みとして、セルピクセルのセル中心へのオフセットと帯域幅が学習される。 我々は,Cell Tracking Challengeの9つの2Dデータセットにアプローチをベンチマークし,トップ3内の9つのデータセットのうち7つは,トップ1のパフォーマンスを含む7つのデータに対して実施する。 ソースコードはhttps://git.scc.kit.edu/kit-loe-ge/embedtrackで公開されている。

A systematic analysis of the cell behavior requires automated approaches for cell segmentation and tracking. While deep learning has been successfully applied for the task of cell segmentation, there are few approaches for simultaneous cell segmentation and tracking using deep learning. Here, we present EmbedTrack, a single convolutional neural network for simultaneous cell segmentation and tracking which predicts easy to interpret embeddings. As embeddings, offsets of cell pixels to their cell center and bandwidths are learned. We benchmark our approach on nine 2D data sets from the Cell Tracking Challenge, where our approach performs on seven out of nine data sets within the top 3 contestants including three top 1 performances. The source code is publicly available at https://git.scc.kit.edu/kit-loe-ge/embedtrack.
翻訳日:2022-04-25 13:27:34 公開日:2022-04-22
# 言語進化を理解するための創発的コミュニケーション:何が欠けているのか?

Emergent Communication for Understanding Human Language Evolution: What's Missing? ( http://arxiv.org/abs/2204.10590v1 )

ライセンス: Link先を確認
Lukas Galke, Yoav Ram, Limor Raviv(参考訳) 人間と人工ニューラルネットワークエージェント間の創発的な通信プロトコルは、同じ性質を共有しておらず、結果にいくつかの重大なミスマッチを示す。 構成性の出現と利点に関する3つの重要な現象を述べる: 学習の容易さ、一般化、グループサイズ効果(すなわち、より大きなグループがより体系的な言語を創出する)。 後者の2つは、言語進化研究における神経創発的コミュニケーションの使用を妨げる神経エージェントを完全に複製していない。 これらのミスマッチの原因の1つは、人間の認知的およびコミュニケーション的制約が、まだ統合されていないことである。 特に人間では、記憶の制約と話者とリスナーの役割の交代は言語構造の出現を阻害するが、神経シミュレーションではこれらの制約が欠如している。 このようなコミュニケーション的および認知的制約の導入は、神経エージェントによるより言語学的に有理な行動を促進することを示唆する。

Emergent communication protocols among humans and artificial neural network agents do not yet share the same properties and show some critical mismatches in results. We describe three important phenomena with respect to the emergence and benefits of compositionality: ease-of-learning, generalization, and group size effects (i.e., larger groups create more systematic languages). The latter two are not fully replicated with neural agents, which hinders the use of neural emergent communication for language evolution research. We argue that one possible reason for these mismatches is that key cognitive and communicative constraints of humans are not yet integrated. Specifically, in humans, memory constraints and the alternation between the roles of speaker and listener underlie the emergence of linguistic structure, yet these constraints are typically absent in neural simulations. We suggest that introducing such communicative and cognitive constraints would promote more linguistically plausible behaviors with neural agents.
翻訳日:2022-04-25 13:27:22 公開日:2022-04-22
# FAIR4Cov:COVID-19検出のための融合オーディオインスタンスと表現

FAIR4Cov: Fused Audio Instance and Representation for COVID-19 Detection ( http://arxiv.org/abs/2204.10581v1 )

ライセンス: Link先を確認
Tuan Truong, Matthias Lenga, Antoine Serrurier, Sadegh Mohammadi(参考訳) 体音の音声に基づく分類技術は、特に肺疾患における診断決定を支援するために長年研究されてきた。 新型コロナウイルス(covid-19)パンデミックの緊急性に対応するため、音響入力に基づいて新型コロナウイルス患者を特定するためのモデルが増えている。 ほとんどのモデルは干し草に焦点を当てており、干し草は新型コロナウイルスの最もよく知られた症状である。 しかし、呼吸や発声などの他の身体の音も、新型コロナウイルスと相関していることが判明した。 本研究は,特定の身体音に頼らずに,covid-19検出のための融合音声インスタンスと表現(fair4cov)を提案する。 波形およびスペクトログラム表現において、複数の体音から得られる結合特徴ベクトルを構築することに依存する。 FAIR4Covのコアコンポーネントは、複数のボディサウンドとオーディオ表現の関係を確立し、コンパクトな特徴ベクトルに統合するように訓練された自己注意融合ユニットである。 波形とスペクトログラム,波形とスペクトログラムの結合表現のみを用いて,身体音の異なる組み合わせについて実験を行った。 以上の結果から, 聴覚, 呼吸, 音声から抽出した特徴を組み合わすことで, 受信者動作特性曲線(AUC)スコアが0.8658, 感度が0.8057, 特異性が0.7958であることが示唆された。 このAUCは分光器でのみ訓練されたモデルよりも0.0227高く、波形でのみ訓練されたモデルよりも0.0847高い。 その結果、スペクトログラムと波形表現の組み合わせは抽出された特徴を豊かにし、単一の表現でモデルを上回ることを示した。

Audio-based classification techniques on body sounds have long been studied to support diagnostic decisions, particularly in pulmonary diseases. In response to the urgency of the COVID-19 pandemic, a growing number of models are developed to identify COVID-19 patients based on acoustic input. Most models focus on cough because the dry cough is the best-known symptom of COVID-19. However, other body sounds, such as breath and speech, have also been revealed to correlate with COVID-19 as well. In this work, rather than relying on a specific body sound, we propose Fused Audio Instance and Representation for COVID-19 Detection (FAIR4Cov). It relies on constructing a joint feature vector obtained from a plurality of body sounds in waveform and spectrogram representation. The core component of FAIR4Cov is a self-attention fusion unit that is trained to establish the relation of multiple body sounds and audio representations and integrate it into a compact feature vector. We set up our experiments on different combinations of body sounds using only waveform, spectrogram, and a joint representation of waveform and spectrogram. Our findings show that the use of self-attention to combine extracted features from cough, breath, and speech sounds leads to the best performance with an Area Under the Receiver Operating Characteristic Curve (AUC) score of 0.8658, a sensitivity of 0.8057, and a specificity of 0.7958. This AUC is 0.0227 higher than the one of the models trained on spectrograms only and 0.0847 higher than the one of the models trained on waveforms only. The results demonstrate that the combination of spectrogram with waveform representation helps to enrich the extracted features and outperforms the models with single representation.
翻訳日:2022-04-25 13:26:45 公開日:2022-04-22
# 注意」を用いた不正検出におけるグラフダイナミクスのモデル化

Modelling graph dynamics in fraud detection with "Attention" ( http://arxiv.org/abs/2204.10614v1 )

ライセンス: Link先を確認
Susie Xi Rao, Cl\'emence Lanfranchi, Shuai Zhang, Zhichao Han, Zitao Zhang, Wei Min, Mo Cheng, Yinan Shan, Yang Zhao, Ce Zhang(参考訳) オンライン小売プラットフォームでは、不正アカウントやトランザクションの検出が顧客エクスペリエンスの向上、損失の最小化、不正取引の回避に不可欠である。 グラフ上のディープラーニングのさまざまなモデルにもかかわらず、不均一でダイナミックなグラフを扱うためのアプローチはほとんど提案されていない。 本稿では,DyHGN(Dynamic Heterogeneous Graph Neural Network)とその変種について,時間情報と異種情報の両方をキャプチャする。 まず、ebayの登録とトランザクションデータから動的ヘテロジニアスグラフを構築する。 次に,双対エンティティ埋め込みと不均一グラフトランスフォーマによるモデルを構築する。 また,dyhgn-*モデルの挙動を理解するためにモデル説明可能性手法を用いる。 この結果から,データ構造,分布,計算コストに応じて,不均一な入力を持つグラフ力学を「注意」でモデル化する必要があることがわかった。

At online retail platforms, detecting fraudulent accounts and transactions is crucial to improve customer experience, minimize loss, and avoid unauthorized transactions. Despite the variety of different models for deep learning on graphs, few approaches have been proposed for dealing with graphs that are both heterogeneous and dynamic. In this paper, we propose DyHGN (Dynamic Heterogeneous Graph Neural Network) and its variants to capture both temporal and heterogeneous information. We first construct dynamic heterogeneous graphs from registration and transaction data from eBay. Then, we build models with diachronic entity embedding and heterogeneous graph transformer. We also use model explainability techniques to understand the behaviors of DyHGN-* models. Our findings reveal that modelling graph dynamics with heterogeneous inputs need to be conducted with "attention" depending on the data structure, distribution, and computation cost.
翻訳日:2022-04-25 13:26:17 公開日:2022-04-22
# ボルツマン政策分布:人間モデルにおける体系的準最適性の会計

The Boltzmann Policy Distribution: Accounting for Systematic Suboptimality in Human Models ( http://arxiv.org/abs/2204.10759v1 )

ライセンス: Link先を確認
Cassidy Laidlaw and Anca Dragan(参考訳) 予測と協調のための人間の行動モデルは、模倣学習を通じて大量のデータから学習するモデルと、ある報酬関数に対して人間の行動が騒々しく最適であると仮定するモデルである。 前者は非常に有用だが、ターゲット環境と配信で大量の人間データを収集できる場合に限り、その前者は非常に有用である。 ボルツマン合理性を含む後者のタイプの利点は、人間が実際に最適に近いときに、広範囲のデータなしで新しい環境で正確な予測を行う能力である。 しかしながら、これらのモデルは、人間が体系的な準最適性を示す場合、すなわち、最適な行動からの逸脱が独立ではなく、時間とともに一貫したときに失敗する。 我々の重要な洞察は、系統的な準最適性は、軌跡ではなく、時間とともに行動選択を行うポリシーを予測することによってモデル化できるということです。 ボルツマン政策分布(boltzmann policy distribution,bpd)は、人間の政策を先取りし、ベイズ推論を通じて人間の行動を一つのエピソードで観察することで系統的偏差を捉える。 BPDは高次元連続空間にポリシーが存在するため計算が難しいが、生成モデルやシーケンスモデルからのツールを活用し、効率的なサンプリングと推論を可能にする。 我々は,BPDが人間行動の予測と人間とAIの協調を,はるかに少ないデータを用いて,模倣学習に基づく人間モデルと同等に行えることを示す。

Models of human behavior for prediction and collaboration tend to fall into two categories: ones that learn from large amounts of data via imitation learning, and ones that assume human behavior to be noisily-optimal for some reward function. The former are very useful, but only when it is possible to gather a lot of human data in the target environment and distribution. The advantage of the latter type, which includes Boltzmann rationality, is the ability to make accurate predictions in new environments without extensive data when humans are actually close to optimal. However, these models fail when humans exhibit systematic suboptimality, i.e. when their deviations from optimal behavior are not independent, but instead consistent over time. Our key insight is that systematic suboptimality can be modeled by predicting policies, which couple action choices over time, instead of trajectories. We introduce the Boltzmann policy distribution (BPD), which serves as a prior over human policies and adapts via Bayesian inference to capture systematic deviations by observing human actions during a single episode. The BPD is difficult to compute and represent because policies lie in a high-dimensional continuous space, but we leverage tools from generative and sequence models to enable efficient sampling and inference. We show that the BPD enables prediction of human behavior and human-AI collaboration equally as well as imitation learning-based human models while using far less data.
翻訳日:2022-04-25 13:24:33 公開日:2022-04-22
# 遺伝子相互作用ネットワークを用いた遺伝子機能予測:コンテキストグラフカーネルアプローチ

Gene Function Prediction with Gene Interaction Networks: A Context Graph Kernel Approach ( http://arxiv.org/abs/2204.10473v1 )

ライセンス: Link先を確認
Xin Li, Hsinchun Chen, Jiexun Li, Zhu Zhang(参考訳) 遺伝子機能の予測は、ゲノム時代の生物学者にとって課題である。 遺伝子とその産物間の相互作用は、遺伝子機能の推測に使用できるネットワークを構成する。 これまでのほとんどの研究は、連鎖の仮定、すなわち、遺伝子相互作用は結合した遺伝子間の機能的類似性を示すと仮定している。 本研究では、遺伝子コンテキストグラフ、すなわち、焦点遺伝子に関連する遺伝子相互作用ネットワークを用いて、その機能を予測することを提案する。 カーネルベースの機械学習フレームワークでは、コンテキストグラフで情報をキャプチャするコンテキストグラフカーネルを設計する。 p53関連遺伝子のテストベッドに関する実験的研究は、間接的遺伝子相互作用の利点を示し、不整合性遺伝子や拡散核を最小化するためのアルゴリズムのような連鎖推定に基づく手法よりも、提案手法の実験的優位性を示す。

Predicting gene functions is a challenge for biologists in the post genomic era. Interactions among genes and their products compose networks that can be used to infer gene functions. Most previous studies adopt a linkage assumption, i.e., they assume that gene interactions indicate functional similarities between connected genes. In this study, we propose to use a gene's context graph, i.e., the gene interaction network associated with the focal gene, to infer its functions. In a kernel-based machine-learning framework, we design a context graph kernel to capture the information in context graphs. Our experimental study on a testbed of p53-related genes demonstrates the advantage of using indirect gene interactions and shows the empirical superiority of the proposed approach over linkage-assumption-based methods, such as the algorithm to minimize inconsistent connected genes and diffusion kernels.
翻訳日:2022-04-25 13:24:08 公開日:2022-04-22
# 2次元偏見のない3次元プライド:構造ベースリガンド設計のためのバイアス制御多レベル生成モデル

3D pride without 2D prejudice: Bias-controlled multi-level generative models for structure-based ligand design ( http://arxiv.org/abs/2204.10663v1 )

ライセンス: Link先を確認
Lucian Chan, Rajendra Kumar, Marcel Verdonk and Carl Poelking(参考訳) 構造に基づく分子設計の生成モデルは、ヒット・トゥ・リードの開発サイクルをスピードアップさせ、薬剤候補の品質を改善し、コストを削減できる可能性と共に、創薬において大きな可能性を秘めている。 しかし、データ空間とバイアスは、3D認識モデルの開発において2つの主要な障害となる。 本稿では、バイアス制御とデータ効率を改善するために、マルチレベルコントラスト学習に基づくファーストインキンドトレーニングプロトコルを提案する。 このフレームワークは、リガンド-タンパク質複合体のデータセットによる2次元生成モデリングで利用可能な巨大なデータ資源を活用する。 結果は、トポロジカルに偏りがなく、説明可能でカスタマイズ可能な階層的生成モデルである。 本研究では, 生成過程を化学, トポロジカル, 構造的文脈因子に分解することにより, 生成モデルの設計と評価における共通の落とし穴を回避できるだけでなく, 生成過程自体の詳細な洞察を得る方法を示す。 この透明性の向上はメソッド開発を著しく助け、新しさと親密性に対するきめ細かい制御を可能にする。

Generative models for structure-based molecular design hold significant promise for drug discovery, with the potential to speed up the hit-to-lead development cycle, while improving the quality of drug candidates and reducing costs. Data sparsity and bias are, however, two main roadblocks to the development of 3D-aware models. Here we propose a first-in-kind training protocol based on multi-level contrastive learning for improved bias control and data efficiency. The framework leverages the large data resources available for 2D generative modelling with datasets of ligand-protein complexes. The result are hierarchical generative models that are topologically unbiased, explainable and customizable. We show how, by deconvolving the generative posterior into chemical, topological and structural context factors, we not only avoid common pitfalls in the design and evaluation of generative models, but furthermore gain detailed insight into the generative process itself. This improved transparency significantly aids method development, besides allowing fine-grained control over novelty vs familiarity.
翻訳日:2022-04-25 13:23:54 公開日:2022-04-22
# グローバル収束保証付きニューラルネットワークにおける特徴学習について

On Feature Learning in Neural Networks with Global Convergence Guarantees ( http://arxiv.org/abs/2204.10782v1 )

ライセンス: Link先を確認
Zhengdao Chen, Eric Vanden-Eijnden and Joan Bruna(参考訳) 非漸近的グローバルコンバージェンス保証を認めながら特徴学習が可能なセットアップにおいて、勾配流(GF)を介して広範ニューラルネットワーク(NN)の最適化を検討する。 まず,平均場スケーリングと一般的な活性化関数のクラスを持つ広い浅層nnに対して,入力次元がトレーニングセットの大きさ以下であれば,gf 以下の線形レートでトレーニング損失がゼロに収束することを示す。 この解析に基づいて,gfを介して第2層から最終層を訓練する広層多層nnのモデルについて検討し,入力次元にかかわらずトレーニング損失をゼロに線形収束させることを証明した。 また、ニューラル・タンジェント・カーネル(NTK)方式とは異なり、我々の多層モデルは特徴学習を行い、NTK方式よりも優れた一般化性能が得られることを示す。

We study the optimization of wide neural networks (NNs) via gradient flow (GF) in setups that allow feature learning while admitting non-asymptotic global convergence guarantees. First, for wide shallow NNs under the mean-field scaling and with a general class of activation functions, we prove that when the input dimension is no less than the size of the training set, the training loss converges to zero at a linear rate under GF. Building upon this analysis, we study a model of wide multi-layer NNs whose second-to-last layer is trained via GF, for which we also prove a linear-rate convergence of the training loss to zero, but regardless of the input dimension. We also show empirically that, unlike in the Neural Tangent Kernel (NTK) regime, our multi-layer model exhibits feature learning and can achieve better generalization performance than its NTK counterpart.
翻訳日:2022-04-25 13:23:38 公開日:2022-04-22
# Fourier Imager Network (FIN): 優れた外部一般化を備えたホログラム再構成のためのディープニューラルネットワーク

Fourier Imager Network (FIN): A deep neural network for hologram reconstruction with superior external generalization ( http://arxiv.org/abs/2204.10533v1 )

ライセンス: Link先を確認
Hanlong Chen, Luzhe Huang, Tairan Liu, Aydogan Ozcan(参考訳) 深層学習に基づく画像再構成手法は位相回復とホログラフィックイメージングにおいて顕著な成功を収めている。 しかし、ネットワークで見ることのない新しいタイプのサンプルへの画像再構成性能の一般化は依然として課題である。 本稿では,FIN(Fourier Imager Network)と呼ばれるディープラーニングフレームワークを紹介し,新しいタイプのサンプルの生ホログラムからエンド・ツー・エンドの位相回復と画像再構成を行い,外部一般化において前例のない成功を収めた。 FINアーキテクチャは、学習可能なフィルタと大域受容場を用いて入力の空間周波数を処理する空間フーリエ変換モジュールに基づいている。 ホログラム再構成に使用されている既存の畳み込みディープニューラルネットワークと比較して、FINは新しいタイプのサンプルよりも優れた一般化を示し、画像推論速度もはるかに速く、サンプル領域の0.04 s/1 mm^2でホログラム再構成タスクを完了する。 ヒトの肺組織サンプルを用いてFINの性能を訓練し、ヒト前立腺、唾液腺組織、およびパップスミア標本で盲目的に試験し、優れた外部一般化と画像再構成速度を示した。 ホログラフィー顕微鏡と定量的位相イメージングの他に、FINと基盤となるニューラルネットワークアーキテクチャは、計算イメージングとマシンビジョンの分野で広く一般化可能なディープラーニングモデルを設計する様々な新しい機会を開くかもしれない。

Deep learning-based image reconstruction methods have achieved remarkable success in phase recovery and holographic imaging. However, the generalization of their image reconstruction performance to new types of samples never seen by the network remains a challenge. Here we introduce a deep learning framework, termed Fourier Imager Network (FIN), that can perform end-to-end phase recovery and image reconstruction from raw holograms of new types of samples, exhibiting unprecedented success in external generalization. FIN architecture is based on spatial Fourier transform modules that process the spatial frequencies of its inputs using learnable filters and a global receptive field. Compared with existing convolutional deep neural networks used for hologram reconstruction, FIN exhibits superior generalization to new types of samples, while also being much faster in its image inference speed, completing the hologram reconstruction task in ~0.04 s per 1 mm^2 of the sample area. We experimentally validated the performance of FIN by training it using human lung tissue samples and blindly testing it on human prostate, salivary gland tissue and Pap smear samples, proving its superior external generalization and image reconstruction speed. Beyond holographic microscopy and quantitative phase imaging, FIN and the underlying neural network architecture might open up various new opportunities to design broadly generalizable deep learning models in computational imaging and machine vision fields.
翻訳日:2022-04-25 13:23:21 公開日:2022-04-22
# 敵推定器

Adversarial Estimators ( http://arxiv.org/abs/2204.10495v1 )

ライセンス: Link先を確認
Jonas Metzger(参考訳) 敵推定器(A推定器)の漸近理論を開発する。 最大様相型推定器 (`M-estimators') と同様に、推定器と推定器は、それぞれ標本と人口平均の臨界点として定義される。 a-推定器はm-推定器を一般化し、その目的は1つのパラメータで最大化され、別のパラメータで最小化される。 計量学や因果推論でよく用いられるモーメント推定の連続的な累積一般化法は、m-推定フレームワークから明らかに外れるこのクラスの初期メンバーの1つである。 最近の生成的敵ネットワークの成功以来、a推定者は機械学習と因果推論のコンテキストの両方においてかなりの注目を集め、柔軟な敵は研究者が問題の特徴を手動で指定する必要性をなくすことができる。 本稿では,a-推定器の収束率をポイントワイズと部分同定の両方の下で特徴づける一般的な結果を示し,それらのパラメータの滑らかな関数のプラグイン推定のための漸近的ルートn正規性を求める。 未知のパラメータはすべてシーブによって近似される関数を含むことができる。 結果が一般に当てはまるが, シーブが(深度)ニューラルネットワークに対応する場合, 容易に検証可能な低レベル条件を提供する。 我々の理論は、ニューラルネットワークM-推定器の一般関数の漸近正規性(特別な場合として)ももたらし、これまで文献で確認されていた技術的問題を克服する。 我々は、計量学と機械学習にまたがって提案された様々なA推定器について検討し、この理論を用いてそれぞれに新しい統計結果を得る。 異なるA推定器を同じフレームワークに組み込むと、それらの間の興味深いつながりに気付き、最近の実践的アプリケーションの成功に対する直感と正式な正当化を提供します。

We develop an asymptotic theory of adversarial estimators (`A-estimators'). Like maximum-likelihood-type estimators (`M-estimators'), both the estimator and estimand are defined as the critical points of a sample and population average respectively. A-estimators generalize M-estimators, as their objective is maximized by one set of parameters and minimized by another. The continuous-updating Generalized Method of Moments estimator, popular in econometrics and causal inference, is among the earliest members of this class which distinctly falls outside the M-estimation framework. Since the recent success of Generative Adversarial Networks, A-estimators received considerable attention in both machine learning and causal inference contexts, where a flexible adversary can remove the need for researchers to manually specify which features of a problem are important. We present general results characterizing the convergence rates of A-estimators under both point-wise and partial identification, and derive the asymptotic root-n normality for plug-in estimates of smooth functionals of their parameters. All unknown parameters may contain functions which are approximated via sieves. While the results apply generally, we provide easily verifiable, low-level conditions for the case where the sieves correspond to (deep) neural networks. Our theory also yields the asymptotic normality of general functionals of neural network M-estimators (as a special case), overcoming technical issues previously identified by the literature. We examine a variety of A-estimators proposed across econometrics and machine learning and use our theory to derive novel statistical results for each of them. Embedding distinct A-estimators into the same framework, we notice interesting connections among them, providing intuition and formal justification for their recent success in practical applications.
翻訳日:2022-04-25 13:22:29 公開日:2022-04-22
# ポジティブ感情誘発を伴う多ターン共感対話に向けて

Towards Multi-Turn Empathetic Dialogs with Positive Emotion Elicitation ( http://arxiv.org/abs/2204.10509v1 )

ライセンス: Link先を確認
Shihang Wang, Xinchao Xu, Wenquan Wu, Zheng-Yu Niu, Hua Wu, Haifeng Wang(参考訳) 高齢者のケア、メンタルヘルスサポート、カスタマーサービスチャットなど、多くの現実世界のシナリオにおいて、感情的サポートは重要なスキルである。 本稿では,ユーザのポジティブな感情を促進するために,ポジティブな感情誘発を伴う共感的対話生成という新しい課題について述べる。 このタスクでは、エージェントは、マルチターンダイアログにおけるユーザのポジティブな感情を誘発するターゲットと共に共感反応を行う。 本研究では,PosEmoDial(約820kの対話,約3Mの発話)と呼ばれる,肯定的な感情誘発を伴う大規模感情対話データセットを収集する。 これらのダイアログでは、エージェントはユーザを、例えば悲しみのような最初の感情状態からポジティブな感情状態へと誘導しようとする。 次に,新しい損失関数設計を用いたポジティブ感情誘導対話生成モデルを提案する。 この損失関数は、ユーザからのポジティブな感情を導き出すだけでなく、ダイアログ全体のスムーズな感情遷移を確実にするダイアログモデルを促進する。 最後に、PosEmoDial上でベンチマーク結果を確立し、このデータセットと関連するソースコードを公開して将来の研究を促進する。

Emotional support is a crucial skill for many real-world scenarios, including caring for the elderly, mental health support, and customer service chats. This paper presents a novel task of empathetic dialog generation with positive emotion elicitation to promote users' positive emotions, similar to that of emotional support between humans. In this task, the agent conducts empathetic responses along with the target of eliciting the user's positive emotions in the multi-turn dialog. To facilitate the study of this task, we collect a large-scale emotional dialog dataset with positive emotion elicitation, called PosEmoDial (about 820k dialogs, 3M utterances). In these dialogs, the agent tries to guide the user from any possible initial emotional state, e.g., sadness, to a positive emotional state. Then we present a positive-emotion-guided dialog generation model with a novel loss function design. This loss function encourages the dialog model to not only elicit positive emotions from users but also ensure smooth emotional transitions along with the whole dialog. Finally, we establish benchmark results on PosEmoDial, and we will release this dataset and related source code to facilitate future studies.
翻訳日:2022-04-25 13:21:02 公開日:2022-04-22
# 著者プロファイリングのためのゼロとFew-shot学習

Zero and Few-shot Learning for Author Profiling ( http://arxiv.org/abs/2204.10543v1 )

ライセンス: Link先を確認
Mara Chinea-Rios and Thomas M\"uller and Gretel Liz De la Pe\~na Sarrac\'en and Francisco Rangel and Marc Franco-Salvador(参考訳) 著者プロファイルは、人の間で言語がどのように共有されるかを分析して著者の特徴を分類する。 本研究では,そのタスクを低リソースの視点から検討する。 スペイン語と英語のいくつかのプロファイリングタスクにおいて,包含度に基づくゼロと少数ショットの異なるモデルを探索し,システムの評価を行う。 さらに, 包含仮説の効果と, 数発訓練試料の大きさについて検討した。 また,ロベルタXLMに基づく教師付きテキスト分類器の精度は,平均50%未満のトレーニングデータを用いて,従来の手法の精度の80%に到達できることがわかった。

Author profiling classifies author characteristics by analyzing how language is shared among people. In this work, we study that task from a low-resource viewpoint: using little or no training data. We explore different zero and few-shot models based on entailment and evaluate our systems on several profiling tasks in Spanish and English. In addition, we study the effect of both the entailment hypothesis and the size of the few-shot training sample. We find that entailment-based models out-perform supervised text classifiers based on roberta-XLM and that we can reach 80% of the accuracy of previous approaches using less than 50\% of the training data on average.
翻訳日:2022-04-25 13:20:43 公開日:2022-04-22
# 物語生成における主人公のペルソナ制御のためのペルソナ誘導計画

Persona-Guided Planning for Controlling the Protagonist's Persona in Story Generation ( http://arxiv.org/abs/2204.10703v1 )

ライセンス: Link先を確認
Zhexin Zhang, Jiaxin Wen, Jian Guan, Minlie Huang(参考訳) 主人公に特定の個性を持たせることは、係わる物語を書くのに不可欠である。 本稿では、主人公がコヒーレントなイベントシーケンスを通じて特定のパーソナリティを提示すべき主文脈とペルソナ記述から物語を生成するストーリー生成における主人公のパーソナリティを制御することを目的としている。 そこで我々は,ペルソナとイベントの関係を明示的にモデル化するために,計画に基づく生成モデルconperを提案する。 コンペルはまず、1つの目標文を予測し、特定のペルソナに動機づけられた主人公の行動のイベントを計画し、予測されたペルソナ関連事象と常識知識のガイダンスを用いて一連のキーワードとしてプロットを計画し、最終的に全体を生成する。 自動評価と手動評価の両方の結果から、CONPERはより一貫性のあるペルソナ制御可能なストーリーを生成するために最先端のベースラインよりも優れていた。

Endowing the protagonist with a specific personality is essential for writing an engaging story. In this paper, we aim to control the protagonist's persona in story generation, i.e., generating a story from a leading context and a persona description, where the protagonist should exhibit the specified personality through a coherent event sequence. Considering that personas are usually embodied implicitly and sparsely in stories, we propose a planning-based generation model named CONPER to explicitly model the relationship between personas and events. CONPER first plans events of the protagonist's behavior which are motivated by the specified persona through predicting one target sentence, then plans the plot as a sequence of keywords with the guidance of the predicted persona-related events and commonsense knowledge, and finally generates the whole story. Both automatic and manual evaluation results demonstrate that CONPER outperforms state-of-the-art baselines for generating more coherent and persona-controllable stories.
翻訳日:2022-04-25 13:20:31 公開日:2022-04-22
# 極めてノイズの多いクラウドソーシングアノテーションによる中国の意見表現の同定

Identifying Chinese Opinion Expressions with Extremely-Noisy Crowdsourcing Annotations ( http://arxiv.org/abs/2204.10714v1 )

ライセンス: Link先を確認
Xin Zhang, Guangwei Xu, Yueheng Sun, Meishan Zhang, Xiaobin Wang, Min Zhang(参考訳) 最近のオピニオン表現識別(oei)は、手作業で構築されたトレーニングコーパスの品質と規模に大きく依存しているため、満足するのは難しい。 クラウドソーシングは,大規模で高品質なコーパスの構築を目的とした,実用的なソリューションのひとつだ。 本研究では,非常にノイズの多いクラウドソーシングアノテーションを用いて中国語のOEIを調査し,非常に低コストでデータセットを構築する。 zhangら(2021年)に従い、全てのアノテーションを、群衆の注釈子の観点から金本位制として扱うことにより、アノテーション-適応モデルを訓練し、全ての注釈子を混合した合成専門家を用いてモデルをテストする。 本手法は, 訓練段階では明示的にモデル化されないため, 訓練とテストの一貫性を高めるために, 適切な混合戦略により合成訓練サンプルを生成することを提案する。 構築したデータセットにおけるシミュレーション実験により,クラウドソーシングはoeiにとって非常に有望であり,提案手法はクラウドソーシングモデリングをさらに強化する。

Recent works of opinion expression identification (OEI) rely heavily on the quality and scale of the manually-constructed training corpus, which could be extremely difficult to satisfy. Crowdsourcing is one practical solution for this problem, aiming to create a large-scale but quality-unguaranteed corpus. In this work, we investigate Chinese OEI with extremely-noisy crowdsourcing annotations, constructing a dataset at a very low cost. Following zhang et al. (2021), we train the annotator-adapter model by regarding all annotations as gold-standard in terms of crowd annotators, and test the model by using a synthetic expert, which is a mixture of all annotators. As this annotator-mixture for testing is never modeled explicitly in the training phase, we propose to generate synthetic training samples by a pertinent mixup strategy to make the training and testing highly consistent. The simulation experiments on our constructed dataset show that crowdsourcing is highly promising for OEI, and our proposed annotator-mixup can further enhance the crowdsourcing modeling.
翻訳日:2022-04-25 13:20:11 公開日:2022-04-22
# ALQAC 2021コンペティションの概要

A Summary of the ALQAC 2021 Competition ( http://arxiv.org/abs/2204.10717v1 )

ライセンス: Link先を確認
Nguyen Ha Thanh, Bui Minh Quan, Chau Nguyen, Tung Le, Nguyen Minh Phuong, Dang Tran Binh, Vuong Thi Hai Yen, Teeradaj Racharak, Nguyen Le Minh, Tran Duc Vu, Phan Viet Anh, Nguyen Truong Son, Huy Tien Nguyen, Bhumindr Butr-indr, Peerapon Vateekul, Prachya Boonkwan(参考訳) 第1回自動法的質問回答コンテスト(ALQAC 2021)の評価を要約する。 今年のコンペティションには3つのタスクが含まれており、その中には法定テキスト情報検索(タスク1)、法定テキスト包含予測(タスク2)、法定テキスト質問応答(タスク3)が含まれる。 これらのタスクの最終目標は、特定の声明が合法であるかどうかを自動的に判断できるシステムを構築することである。 参加するチームのアプローチには制限はありません。 今年は,タスク1,6のチームがタスク2に参加し,5チームがタスク3に参加している。 総計36回が主催者に提出されている。 本稿では,各チームのアプローチ,公式な結果,競争に関する議論について要約する。 この論文では、アプローチ記述の提出に成功したチームの結果のみを報告します。

We summarize the evaluation of the first Automated Legal Question Answering Competition (ALQAC 2021). The competition this year contains three tasks, which aims at processing the statute law document, which are Legal Text Information Retrieval (Task 1), Legal Text Entailment Prediction (Task 2), and Legal Text Question Answering (Task 3). The final goal of these tasks is to build a system that can automatically determine whether a particular statement is lawful. There is no limit to the approaches of the participating teams. This year, there are 5 teams participating in Task 1, 6 teams participating in Task 2, and 5 teams participating in Task 3. There are in total 36 runs submitted to the organizer. In this paper, we summarize each team's approaches, official results, and some discussion about the competition. Only results of the teams who successfully submit their approach description paper are reported in this paper.
翻訳日:2022-04-25 13:19:43 公開日:2022-04-22
# faithdial:情報参照対話の忠実なベンチマーク

FaithDial: A Faithful Benchmark for Information-Seeking Dialogue ( http://arxiv.org/abs/2204.10757v1 )

ライセンス: Link先を確認
Nouha Dziri, Ehsan Kamalloo, Sivan Milton, Osmar Zaiane, Mo Yu, Edoardo M. Ponti, Siva Reddy(参考訳) 情報探索対話の目標は,知識ソースに基づく自然言語発話による探索クエリに応答することである。 しかし、対話システムは、幻覚として知られる現象である、サポートなしの発話をしばしば生み出す。 dziri et al. (2022) による幻覚に関する調査により、既存の知識に基づくベンチマークは警告レベル(回答の60%以上)で幻覚反応で汚染され、このデータに基づいてトレーニングされたモデルは幻覚をさらに増幅する(回答の80%以上)。 この行動を緩和するために、ウィキペディアのウィザード(WoW)ベンチマークで幻覚応答を編集することで、データ中心のソリューションを採用し、幻覚のない対話のための新しいベンチマークであるFaithDialを作成します。 我々は、信心はワオよりも忠実でありながら、熱心な会話を継続しているのを観察する。 FaithDialは以下の訓練信号として機能することを示す。 一 発話が忠実であるか否かを判別し、既存の対話コヒーレンスデータセットと比較して、BEGINベンチマークにおける21.1F1スコアの性能を高める幻覚批評家 ii) 高品質な対話生成。 我々は、一連の最先端モデルをベンチマークし、複数の自動メトリクスに基づいて最高レベルの忠実度と抽象性を達成できる補助的コントラスト目標を提案する。 さらに,信頼のメリットは,cmu-dogや topicalchat など,他のデータセットに対するゼロショット転送に一般化する。 最後に、人間による評価により、信条に基づいて訓練されたモデルによって生成された反応は、より解釈可能、協力的、および関与的であると認識される。

The goal of information-seeking dialogue is to respond to seeker queries with natural language utterances that are grounded on knowledge sources. However, dialogue systems often produce unsupported utterances, a phenomenon known as hallucination. Dziri et al. (2022)'s investigation of hallucinations has revealed that existing knowledge-grounded benchmarks are contaminated with hallucinated responses at an alarming level (>60% of the responses) and models trained on this data amplify hallucinations even further (>80% of the responses). To mitigate this behavior, we adopt a data-centric solution and create FaithDial, a new benchmark for hallucination-free dialogues, by editing hallucinated responses in the Wizard of Wikipedia (WoW) benchmark. We observe that FaithDial is more faithful than WoW while also maintaining engaging conversations. We show that FaithDial can serve as a training signal for: i) a hallucination critic, which discriminates whether an utterance is faithful or not, and boosts the performance by 21.1 F1 score on the BEGIN benchmark compared to existing datasets for dialogue coherence; ii) high-quality dialogue generation. We benchmark a series of state-of-the-art models and propose an auxiliary contrastive objective that achieves the highest level of faithfulness and abstractiveness based on several automated metrics. Further, we find that the benefits of FaithDial generalize to zero-shot transfer on other datasets, such as CMU-Dog and TopicalChat. Finally, human evaluation reveals that responses generated by models trained on FaithDial are perceived as more interpretable, cooperative, and engaging.
翻訳日:2022-04-25 13:19:28 公開日:2022-04-22
# (参考訳) 視覚データを用いた機能分布セマンティクスの学習

Learning Functional Distributional Semantics with Visual Data ( http://arxiv.org/abs/2204.10624v1 )

ライセンス: CC0 1.0
Yinhong Liu, Guy Emerson(参考訳) 機能分布セマンティクスは、最近提案された言語解釈可能性を提供する分布セマンティクスを学ぶためのフレームワークである。 単語の意味を数値ベクトルではなく二項分類器としてモデル化する。 本研究では,接地された視覚データを用いた機能分布セマンティクスモデルを訓練する手法を提案する。 私たちは、大きなテキストコーパスよりも、人間の言語習得で遭遇するデータの種類に近いVisual Genomeデータセットでそれをトレーニングします。 4つの外部評価データセットにおいて,本モデルは,視覚ゲノムから意味を学習する従来の研究よりも優れている。

Functional Distributional Semantics is a recently proposed framework for learning distributional semantics that provides linguistic interpretability. It models the meaning of a word as a binary classifier rather than a numerical vector. In this work, we propose a method to train a Functional Distributional Semantics model with grounded visual data. We train it on the Visual Genome dataset, which is closer to the kind of data encountered in human language acquisition than a large text corpus. On four external evaluation datasets, our model outperforms previous work on learning semantics from Visual Genome.
翻訳日:2022-04-25 13:17:56 公開日:2022-04-22
# エンドツーエンドタスク学習のための語彙自由多言語ニューラルトケナイザ

A Vocabulary-Free Multilingual Neural Tokenizer for End-to-End Task Learning ( http://arxiv.org/abs/2204.10815v1 )

ライセンス: Link先を確認
Md Mofijul Islam, Gustavo Aguilar, Pragaash Ponnusamy, Clint Solomon Mathialagan, Chengyuan Ma, Chenlei Guo(参考訳) サブワードトークン化は、最近のNLPモデルで一般的に使われる入力前処理ステップである。 しかし、エンドツーエンドのタスク学習を活用できるモデルの能力には制限がある。 周波数ベースの語彙生成は、低リソース言語におけるトークン化を損なうため、モデルが準最適表現を生成する。 さらに、固定語彙への依存は、言語とドメイン間のサブワードモデルの適応性を制限する。 本研究では,ヒューリスティックなサブワードトークン化からセグメンテーション情報を抽出し,語彙のないニューラルトークン化手法を提案する。 我々は多言語コーパスから一意な単語を処理して文字ベースのトークン化器を事前訓練し、言語間における単語の多様性を大きく向上させる。 サブワードメソッドで予め定義された語彙や固定された語彙とは異なり、tokenizerはエンドツーエンドのタスク学習を可能にし、最適なタスク固有のトークン化を実現します。 実験結果から,サブワードトークンライザをニューラルトークンライザに置き換えることで,マルチリンガル(NLI)タスクとコードスイッチング(センチメント分析)タスクのパフォーマンスが一貫して向上し,低リソース言語では大きな向上が見られた。 さらに,ニューラルトークン化器は,逆雑音(タイプミスやスペルミス)が存在する場合の下流タスクにおけるロバストな性能を示し,統計的サブワードトークン化器に対する初期改善をさらに高めている。

Subword tokenization is a commonly used input pre-processing step in most recent NLP models. However, it limits the models' ability to leverage end-to-end task learning. Its frequency-based vocabulary creation compromises tokenization in low-resource languages, leading models to produce suboptimal representations. Additionally, the dependency on a fixed vocabulary limits the subword models' adaptability across languages and domains. In this work, we propose a vocabulary-free neural tokenizer by distilling segmentation information from heuristic-based subword tokenization. We pre-train our character-based tokenizer by processing unique words from multilingual corpus, thereby extensively increasing word diversity across languages. Unlike the predefined and fixed vocabularies in subword methods, our tokenizer allows end-to-end task learning, resulting in optimal task-specific tokenization. The experimental results show that replacing the subword tokenizer with our neural tokenizer consistently improves performance on multilingual (NLI) and code-switching (sentiment analysis) tasks, with larger gains in low-resource languages. Additionally, our neural tokenizer exhibits a robust performance on downstream tasks when adversarial noise is present (typos and misspelling), further increasing the initial improvements over statistical subword tokenizers.
翻訳日:2022-04-25 13:03:02 公開日:2022-04-22
# SE-GAN: ブラシハンドライトフォント生成のための骨格強化GANモデル

SE-GAN: Skeleton Enhanced GAN-based Model for Brush Handwriting Font Generation ( http://arxiv.org/abs/2204.10484v1 )

ライセンス: Link先を確認
Shaozu Yuan, Ruixue Liu, Meng Chen, Baoyang Chen, Zhijie Qiu, Xiaodong He(参考訳) フォント生成に関する以前の研究は、文字の形が安定し、ストロークが明確に分離された標準的な印刷フォントに焦点を当てていた。 全身構造の変化や複雑なストロークの伝達を伴う筆跡フォント生成に関する研究は稀である。 そこで,本稿では,骨格情報を統合した新しいgan画像翻訳モデルを提案する。 まず、トレーニング画像から骨格を抽出し、次に画像エンコーダと骨格エンコーダを設計し、対応する特徴を抽出する。 モデルを誘導し、異なるドメイン間の特徴を学習するために、自己注意モジュールが考案された。 骨格判別装置は、まず、生成された画像から予め訓練された発電機で骨格画像を合成し、その現実性を目標画像に判定する。 6つのスタイルと15,000の高解像度画像からなる大規模な筆跡手書きフォント画像データセットも提供しています。 定量的および定性的な実験結果は,提案モデルの競合性を示すものである。

Previous works on font generation mainly focus on the standard print fonts where character's shape is stable and strokes are clearly separated. There is rare research on brush handwriting font generation, which involves holistic structure changes and complex strokes transfer. To address this issue, we propose a novel GAN-based image translation model by integrating the skeleton information. We first extract the skeleton from training images, then design an image encoder and a skeleton encoder to extract corresponding features. A self-attentive refined attention module is devised to guide the model to learn distinctive features between different domains. A skeleton discriminator is involved to first synthesize the skeleton image from the generated image with a pre-trained generator, then to judge its realness to the target one. We also contribute a large-scale brush handwriting font image dataset with six styles and 15,000 high-resolution images. Both quantitative and qualitative experimental results demonstrate the competitiveness of our proposed model.
翻訳日:2022-04-25 13:02:16 公開日:2022-04-22
# 連続微調整における表現シフトの緩和

Alleviating Representational Shift for Continual Fine-tuning ( http://arxiv.org/abs/2204.10535v1 )

ライセンス: Link先を確認
Shibo Jie, Zhi-Hong Deng, Ziheng Li(参考訳) 本研究では,継続学習の実践的な設定について考察する。 以前の研究によると、新しいタスクのトレーニングでは、以前のデータの機能(最多の層表現)が変更され、表現シフトと呼ばれる。 特徴のシフトに加えて、中間層の表現シフト(IRS)もバッチ正規化を乱すため重要であり、これは破滅的な忘れ込みのもう一つの重要な原因である。 そこで本研究では,クロスコンボリューションバッチ正規化(Xconv BN)と階層的微調整という2つのコンポーネントを組み込んだ微細チューニング手法であるConFiTを提案する。 Xconv BNは、事前の畳み込み実行手段を維持し、テスト前の畳み込み後の手段を復元する。 階層的な微調整は、事前トレーニングされたネットワークを微調整するマルチステージ戦略を活用し、Conv層の大規模な変更を防止し、IRSを緩和する。 4つのデータセットによる実験結果から,本手法はストレージオーバーヘッドの低い最先端手法よりも著しく優れていることがわかった。

We study a practical setting of continual learning: fine-tuning on a pre-trained model continually. Previous work has found that, when training on new tasks, the features (penultimate layer representations) of previous data will change, called representational shift. Besides the shift of features, we reveal that the intermediate layers' representational shift (IRS) also matters since it disrupts batch normalization, which is another crucial cause of catastrophic forgetting. Motivated by this, we propose ConFiT, a fine-tuning method incorporating two components, cross-convolution batch normalization (Xconv BN) and hierarchical fine-tuning. Xconv BN maintains pre-convolution running means instead of post-convolution, and recovers post-convolution ones before testing, which corrects the inaccurate estimates of means under IRS. Hierarchical fine-tuning leverages a multi-stage strategy to fine-tune the pre-trained network, preventing massive changes in Conv layers and thus alleviating IRS. Experimental results on four datasets show that our method remarkably outperforms several state-of-the-art methods with lower storage overhead.
翻訳日:2022-04-25 13:02:00 公開日:2022-04-22
# 神経コントラストクラスタリング:感覚分類のための完全に教師なしバイアス削減

Neural Contrastive Clustering: Fully Unsupervised Bias Reduction for Sentiment Classification ( http://arxiv.org/abs/2204.10467v1 )

ライセンス: Link先を確認
Jared Mowery(参考訳) 背景:ニューラルネットワークは相関バイアスによってバイアス付き分類結果を生成する(これらの相関関係が原因と効果の関係を表現していない場合でも、入力と出力の相関を学習してサンプルを分類する)。 目的: 本研究は, 相関バイアスを緩和する, 完全に教師なしの手法を導入し, ソーシャルメディアデータに対する感情分類で実証した。 方法: 感情分類における相関バイアスは、議論を呼ぶトピックに関する会話でしばしば生じる。 そこで本研究では,感情分類ラベルに基づくクラスタと教師なしトピックモデリングによるクラスタを対比するために,逆学習を用いる。 これにより、ニューラルネットワークは、バイアス付き分類結果を生成するトピック関連の特徴を学習することを妨げる。 結果: ベースライン分類器と比較して, ニューラルコントラッシブクラスタリングは, F1スコアに悪影響を及ぼすことなく, 人のラベル付きソーシャルメディアデータに対するバイアスが伴う文の精度を約2倍に向上させた。 完全に教師なしのアプローチであるにもかかわらず、ニューラルコントラッシブクラスタリングは、教師付きマスキングアプローチよりもバイアスが発生しやすい文の精度が向上する。 結論: ニューラルコントラッシブクラスタリングは感情テキスト分類における相関バイアスを低減する。 この技術を他のニューラルネットワークアーキテクチャやアプリケーションドメインに一般化するためのさらなる研究が必要である。

Background: Neural networks produce biased classification results due to correlation bias (they learn correlations between their inputs and outputs to classify samples, even when those correlations do not represent cause-and-effect relationships). Objective: This study introduces a fully unsupervised method of mitigating correlation bias, demonstrated with sentiment classification on COVID-19 social media data. Methods: Correlation bias in sentiment classification often arises in conversations about controversial topics. Therefore, this study uses adversarial learning to contrast clusters based on sentiment classification labels, with clusters produced by unsupervised topic modeling. This discourages the neural network from learning topic-related features that produce biased classification results. Results: Compared to a baseline classifier, neural contrastive clustering approximately doubles accuracy on bias-prone sentences for human-labeled COVID-19 social media data, without adversely affecting the classifier's overall F1 score. Despite being a fully unsupervised approach, neural contrastive clustering achieves a larger improvement in accuracy on bias-prone sentences than a supervised masking approach. Conclusions: Neural contrastive clustering reduces correlation bias in sentiment text classification. Further research is needed to explore generalizing this technique to other neural network architectures and application domains.
翻訳日:2022-04-25 13:01:19 公開日:2022-04-22
# SemEval-2022 Task 4:RoBERTaを用いた愛国語検出モデル

Taygete at SemEval-2022 Task 4: RoBERTa based models for detecting Patronising and Condescending Language ( http://arxiv.org/abs/2204.10519v1 )

ライセンス: Link先を確認
Jayant Chhillar(参考訳) 本研究は,SemEval 2022コンペティション(Task-4)の一環として,ニュース記事の抽出文中の助成・導出言語を検出するさまざまなモデルの開発について述べる。 本研究は、LSTMおよびCNN層と組み合わせた事前学習されたRoBERTa言語モデルに基づく異なるモデルについて検討する。 最良モデルは15$^{th}$ランクで、サブタスクAは0.5924、サブタスクBは12$^{th}$でマクロF1スコアは0.3763である。

This work describes the development of different models to detect patronising and condescending language within extracts of news articles as part of the SemEval 2022 competition (Task-4). This work explores different models based on the pre-trained RoBERTa language model coupled with LSTM and CNN layers. The best models achieved 15$^{th}$ rank with an F1-score of 0.5924 for subtask-A and 12$^{th}$ in subtask-B with a macro-F1 score of 0.3763.
翻訳日:2022-04-25 13:00:58 公開日:2022-04-22
# 説明可能なicd符号化のための階層的ラベル・アテンショントランスフォーマモデル

Hierarchical Label-wise Attention Transformer Model for Explainable ICD Coding ( http://arxiv.org/abs/2204.10716v1 )

ライセンス: Link先を確認
Leibo Liu, Oscar Perez-Concha, Anthony Nguyen, Vicki Bennett, Louisa Jorm(参考訳) 国際疾患分類(ICD)コーディングは、致死率と死亡率データを体系的に分類する上で重要な役割を果たしている。 本研究では,臨床文書からのICD符号の予測のための階層型ラベル・アテンション・トランスフォーマモデル (HiLAT) を提案する。 HiLATは、まず、臨床文書のトークンを表す事前訓練されたトランスフォーマーモデルを微調整する。 次にラベル固有の文書表現を作成する2段階の階層的ラベル毎の注意機構を採用する。 これらの表現は、入力された臨床文書に特定のICDコードが割り当てられているかどうかを予測するためにフィードフォワードニューラルネットワークによって使用される。 MIMIC-IIIデータベースから病院退院サマリーと対応するICD-9符号を用いたHiLATの評価を行った。 各種トランスフォーマーモデルの性能を調べるため,MIMIC-III 臨床ノートを用いてXLNet-Base から継続事前トレーニングを行うクリニカルプラスXLNet を開発した。 実験の結果,HILAT+ClinicalplusXLNetのF1スコアはMIMIC-IIIの最も頻繁なICD-9符号トップ50の最先端モデルよりも優れていた。 注意重みの可視化は、ICDコード予測の顔の妥当性を確認するための潜在的な説明可能性ツールを示す。

International Classification of Diseases (ICD) coding plays an important role in systematically classifying morbidity and mortality data. In this study, we propose a hierarchical label-wise attention Transformer model (HiLAT) for the explainable prediction of ICD codes from clinical documents. HiLAT firstly fine-tunes a pretrained Transformer model to represent the tokens of clinical documents. We subsequently employ a two-level hierarchical label-wise attention mechanism that creates label-specific document representations. These representations are in turn used by a feed-forward neural network to predict whether a specific ICD code is assigned to the input clinical document of interest. We evaluate HiLAT using hospital discharge summaries and their corresponding ICD-9 codes from the MIMIC-III database. To investigate the performance of different types of Transformer models, we develop ClinicalplusXLNet, which conducts continual pretraining from XLNet-Base using all the MIMIC-III clinical notes. The experiment results show that the F1 scores of the HiLAT+ClinicalplusXLNet outperform the previous state-of-the-art models for the top-50 most frequent ICD-9 codes from MIMIC-III. Visualisations of attention weights present a potential explainability tool for checking the face validity of ICD code predictions.
翻訳日:2022-04-25 13:00:47 公開日:2022-04-22
# 会話領域における抑うつの早期兆候の検出:低リソースシナリオにおける転帰学習の役割

Detecting early signs of depression in the conversational domain: The role of transfer learning in low-resource scenarios ( http://arxiv.org/abs/2204.10841v1 )

ライセンス: Link先を確認
Petr Lorenc, Ana-Sabina Uban, Paolo Rosso, Jan \v{S}ediv\'y(参考訳) 社会におけるうつ病の発生率の高さは、早期発見を支援する新しいデジタルツールの必要性を生じさせている。 この目的のために、既存の研究は主に十分な量のデータがあるソーシャルメディアの領域におけるうつ病の検出に重点を置いている。 しかし、SiriやAlexaのような会話エージェントの台頭により、会話ドメインはますます重要になっている。 残念ながら、会話領域にはデータが不足しています。 本研究では,ソーシャルメディアから会話領域へのドメイン適応に着目した研究を行う。 本手法は主にテキストのベクトル表現に保存された言語情報を利用する。 本稿では,うつ病の早期徴候と高リコールに苦しむユーザを分類する転校学習手法について述べる。 我々は,一般的な会話型データセット上で最先端の結果を得るとともに,その方法が会話型エージェントでどのように簡単に使用できるかを強調する。 すべてのソースコードを公開しています。

The high prevalence of depression in society has given rise to the need for new digital tools to assist in its early detection. To this end, existing research has mainly focused on detecting depression in the domain of social media, where there is a sufficient amount of data. However, with the rise of conversational agents like Siri or Alexa, the conversational domain is becoming more critical. Unfortunately, there is a lack of data in the conversational domain. We perform a study focusing on domain adaptation from social media to the conversational domain. Our approach mainly exploits the linguistic information preserved in the vector representation of text. We describe transfer learning techniques to classify users who suffer from early signs of depression with high recall. We achieve state-of-the-art results on a commonly used conversational dataset, and we highlight how the method can easily be used in conversational agents. We publicly release all source code.
翻訳日:2022-04-25 13:00:32 公開日:2022-04-22
# Paramixer: Dot-Product Self-Attentionよりも優れたスパースファクタにおける混合リンクのパラメータ化

Paramixer: Parameterizing Mixing Links in Sparse Factors Works Better than Dot-Product Self-Attention ( http://arxiv.org/abs/2204.10670v1 )

ライセンス: Link先を確認
Tong Yu, Ruslan Khalitov, Lei Cheng, Zhirong Yang(参考訳) セルフアテンション(self-attention)は、ニューラルネットワークのモデリングにおいて、長距離データ要素を混合するために広く使用される構成要素である。 ほとんどのセルフアテンションニューラルネットワークは、注意係数を指定するためにペアワイズなドット積を用いる。 しかし、これらの方法はシーケンス長$N$の計算コストが$O(N^2)である。 二次コストを緩和するためにいくつかの近似法が導入されたが、ドット積法の性能は注意行列因子化の低ランク制約によって依然としてボトルネックとなっている。 本稿では,パラミキサーと呼ばれる,スケーラブルで効率的な混合ブロックを提案する。 本手法は相互作用行列を複数のスパース行列に分解し,データ要素を入力としてMPPを用いて非ゼロ成分をパラメータ化する。 新しいビルディングブロックの全体的な計算コストは、$O(N \log N)$である。 さらに、パラミキサーのすべての分解行列はフルランクであるため、低ランクのボトルネックに悩まされない。 我々は,合成データと様々な実世界の長大データセットの両方で新しい手法をテストし,いくつかの最先端のアテンションネットワークと比較した。 実験の結果,paramixerはほとんどの学習タスクにおいて優れた性能を示すことがわかった。

Self-Attention is a widely used building block in neural modeling to mix long-range data elements. Most self-attention neural networks employ pairwise dot-products to specify the attention coefficients. However, these methods require $O(N^2)$ computing cost for sequence length $N$. Even though some approximation methods have been introduced to relieve the quadratic cost, the performance of the dot-product approach is still bottlenecked by the low-rank constraint in the attention matrix factorization. In this paper, we propose a novel scalable and effective mixing building block called Paramixer. Our method factorizes the interaction matrix into several sparse matrices, where we parameterize the non-zero entries by MLPs with the data elements as input. The overall computing cost of the new building block is as low as $O(N \log N)$. Moreover, all factorizing matrices in Paramixer are full-rank, so it does not suffer from the low-rank bottleneck. We have tested the new method on both synthetic and various real-world long sequential data sets and compared it with several state-of-the-art attention networks. The experimental results show that Paramixer has better performance in most learning tasks.
翻訳日:2022-04-25 12:59:31 公開日:2022-04-22
# TinyMLのための補助ネットワークによる深さ決定

Depth Pruning with Auxiliary Networks for TinyML ( http://arxiv.org/abs/2204.10546v1 )

ライセンス: Link先を確認
Josen Daniel De Leon and Rowel Atienza(参考訳) プルーニングは、低い計算要求と引き換えに精度を犠牲にするニューラルネットワーク最適化技術である。 プルーニングは、非常に制約のある環境をtinymlで処理する場合に有用である。 残念ながら、特別なハードウェア要件と、既にコンパクトなモデルにおけるその有効性に関する限定的な研究は、より広範な採用を妨げる。 深さプルーニングは特別なハードウェアを必要としないが、高い精度のフォールオフに苦しむプルーニングの一種である。 これを改善するために、中間特徴写像の効果的なインタプリタとして高効率な補助ネットワークを利用する修正を提案する。 その結果, MLPerfTiny Visual Wakewords (VWW) タスクでは93%, Keyword Spotting (KWS) タスクでは28%, 精度は0.65%, 1.06%であった。 Cortex-M0マイクロコントローラで評価すると,提案手法はVWWモデルのサイズを4.7倍,レイテンシを1.6倍削減し,直感的に精度を1%向上させる。 Cortex-M0のKWSモデルのサイズも1.2倍、レイテンシは1.2倍、精度は2.21%だった。

Pruning is a neural network optimization technique that sacrifices accuracy in exchange for lower computational requirements. Pruning has been useful when working with extremely constrained environments in tinyML. Unfortunately, special hardware requirements and limited study on its effectiveness on already compact models prevent its wider adoption. Depth pruning is a form of pruning that requires no specialized hardware but suffers from a large accuracy falloff. To improve this, we propose a modification that utilizes a highly efficient auxiliary network as an effective interpreter of intermediate feature maps. Our results show a parameter reduction of 93% on the MLPerfTiny Visual Wakewords (VWW) task and 28% on the Keyword Spotting (KWS) task with accuracy cost of 0.65% and 1.06% respectively. When evaluated on a Cortex-M0 microcontroller, our proposed method reduces the VWW model size by 4.7x and latency by 1.6x while counter intuitively gaining 1% accuracy. KWS model size on Cortex-M0 was also reduced by 1.2x and latency by 1.2x at the cost of 2.21% accuracy.
翻訳日:2022-04-25 12:58:39 公開日:2022-04-22
# (参考訳) meker: リンク予測と質問応答のためのメモリ効率のよい知識埋め込み表現

MEKER: Memory Efficient Knowledge Embedding Representation for Link Prediction and Question Answering ( http://arxiv.org/abs/2204.10629v1 )

ライセンス: CC BY 4.0
Viktoriia Chekalina, Anton Razzhigaev, Albert Sayapin, and Alexander Panchenko(参考訳) 知識グラフ(KG)は、事実を象徴的に構造化した記憶装置である。 KG埋め込みには、実世界の暗黙的な情報を必要とするNLPタスクで使用される簡潔なデータが含まれている。 さらに、実際のnlp割り当てに有用なkgのサイズは巨大であり、その上に埋め込みを作成するとメモリコストが問題となる。 我々は、kgを3階のバイナリテンソルとして表現し、データ固有の一般化バージョンを用いて標準cp分解を超越する。 標準CP-ALSアルゴリズムの一般化により、バックプロパゲーション機構なしで最適化勾配が得られる。 計算の利点を提供しながら、トレーニングに必要なメモリを減らす。 本研究では,リンク予測タスクと kg ベースの質問応答において sota に比較可能な性能を与えるメモリ効率のよい kg 埋め込みモデル meker を提案する。

Knowledge Graphs (KGs) are symbolically structured storages of facts. The KG embedding contains concise data used in NLP tasks requiring implicit information about the real world. Furthermore, the size of KGs that may be useful in actual NLP assignments is enormous, and creating embedding over it has memory cost issues. We represent KG as a 3rd-order binary tensor and move beyond the standard CP decomposition by using a data-specific generalized version of it. The generalization of the standard CP-ALS algorithm allows obtaining optimization gradients without a backpropagation mechanism. It reduces the memory needed in training while providing computational benefits. We propose a MEKER, a memory-efficient KG embedding model, which yields SOTA-comparable performance on link prediction tasks and KG-based Question Answering.
翻訳日:2022-04-25 12:56:31 公開日:2022-04-22
# Hypergraph Transformer:知識に基づく視覚質問応答のための弱教師付きマルチホップ推論

Hypergraph Transformer: Weakly-supervised Multi-hop Reasoning for Knowledge-based Visual Question Answering ( http://arxiv.org/abs/2204.10448v1 )

ライセンス: Link先を確認
Yu-Jung Heo, Eun-Sol Kim, Woo Suk Choi and Byoung-Tak Zhang(参考訳) knowledge-based visual question answering(qa)は、画像コンテンツそのもの以上の視覚的な外部知識を必要とする質問に答えることを目的としている。 弱い監督下でマルチホップ推論を必要とする複雑な質問に答えることは難しい問題である。 一 合理化の過程について監督を受けていないこと。 二 マルチホップ知識事実の高次意味論を捉えなければならない。 本稿では,質問と知識ベースにおける高レベル意味論をエンコードし,それらの間の高次関係を学習するためのハイパーグラフの概念を提案する。 提案手法であるハイパーグラフトランスフォーマ(hypergraph transformer)は,問合せハイパーグラフと問合せ認識型知識ハイパーグラフを構築し,2つのハイパーグラフ間の相互結合と両方のハイパーグラフ自体の相互結合を符号化することにより,回答を推定する。 2つの知識に基づく視覚的QAと2つの知識に基づくテキスト的QAに関する大規模な実験は、特にマルチホップ推論問題に対する我々の手法の有効性を示す。 ソースコードはhttps://github.com/yujungheo/kbvqa-publicで入手できます。

Knowledge-based visual question answering (QA) aims to answer a question which requires visually-grounded external knowledge beyond image content itself. Answering complex questions that require multi-hop reasoning under weak supervision is considered as a challenging problem since i) no supervision is given to the reasoning process and ii) high-order semantics of multi-hop knowledge facts need to be captured. In this paper, we introduce a concept of hypergraph to encode high-level semantics of a question and a knowledge base, and to learn high-order associations between them. The proposed model, Hypergraph Transformer, constructs a question hypergraph and a query-aware knowledge hypergraph, and infers an answer by encoding inter-associations between two hypergraphs and intra-associations in both hypergraph itself. Extensive experiments on two knowledge-based visual QA and two knowledge-based textual QA demonstrate the effectiveness of our method, especially for multi-hop reasoning problem. Our source code is available at https://github.com/yujungheo/kbvqa-public.
翻訳日:2022-04-25 12:40:24 公開日:2022-04-22
# 視覚言語タスクのためのユニモーダルエンコーダ活用のためのマルチモーダル適応蒸留

Multimodal Adaptive Distillation for Leveraging Unimodal Encoders for Vision-Language Tasks ( http://arxiv.org/abs/2204.10496v1 )

ライセンス: Link先を確認
Zhecan Wang, Noel Codella, Yen-Chun Chen, Luowei Zhou, Xiyang Dai, Bin Xiao, Jianwei Yang, Haoxuan You, Kai-Wei Chang, Shih-fu Chang, Lu Yuan(参考訳) 視覚言語(VL)タスクのためのクロスモーダルエンコーダは、しばしば注意深く計算された視覚言語データセットで事前訓練される。 これらのデータセットは1000万サンプルのオーダーに達するが、さらなるスケールアップには労働コストがかかる。 逆に、ユニモーダルエンコーダは、コスト抑制の少ない単純なアノテーションで事前訓練され、数十億から数十億のスケールを達成する。 その結果、単調エンコーダは多くの下流タスクで最先端(SOTA)を達成した。 しかしながら、VLタスクに適用する際の課題は残る。 プリトレーニングデータはクロスモーダルアーキテクチャに最適ではなく、重い計算リソースを必要とする。 さらに、ユニモーダルアーキテクチャは、VLタスクに重要な利点を示す、相互モーダル相互作用を欠いている。 したがって、VLタスクのために訓練済みのユニモーダルエンコーダを最大限に活用する方法はまだ活発な研究分野である。 本稿では,計算複雑性を保ちながら既存のVLのアプローチを増強するVLタスクに対して,一元的視覚とテキストエンコーダを利用する手法を提案する。 具体的には,事前学習エンコーダからクロスモーダルVLエンコーダへの有用な知識を適応的に蒸留するマルチモーダル適応蒸留(MAD)を提案する。 第2に、VLタスク性能に対するニュアンスの影響をより正確に把握するために、さまざまなデータ制約やドメインシフト条件に対して、Visual Commonsense Reasoning (VCR)、Visual Entailment (SNLI-VE)、Visual Question Answering (VQA)を含む評価プロトコルを導入する。 実験により,MADはVCR,SNLI-VE,VQAの低照度,ドメインシフト,完全教師付き条件において一貫したゲインを示し,VCR上でのSOTA性能を画像テキストデータで事前訓練された他の単一モデルと比較した。 最終的に、MADはCLIPの事前訓練されたビジョンエンコーダを使用した並行処理よりも優れている。 コードは利用可能になる。

Cross-modal encoders for vision-language (VL) tasks are often pretrained with carefully curated vision-language datasets. While these datasets reach an order of 10 million samples, the labor cost is prohibitive to scale further. Conversely, unimodal encoders are pretrained with simpler annotations that are less cost-prohibitive, achieving scales of hundreds of millions to billions. As a result, unimodal encoders have achieved state-of-art (SOTA) on many downstream tasks. However, challenges remain when applying to VL tasks. The pretraining data is not optimal for cross-modal architectures and requires heavy computational resources. In addition, unimodal architectures lack cross-modal interactions that have demonstrated significant benefits for VL tasks. Therefore, how to best leverage pretrained unimodal encoders for VL tasks is still an area of active research. In this work, we propose a method to leverage unimodal vision and text encoders for VL tasks that augment existing VL approaches while conserving computational complexity. Specifically, we propose Multimodal Adaptive Distillation (MAD), which adaptively distills useful knowledge from pretrained encoders to cross-modal VL encoders. Second, to better capture nuanced impacts on VL task performance, we introduce an evaluation protocol that includes Visual Commonsense Reasoning (VCR), Visual Entailment (SNLI-VE), and Visual Question Answering (VQA), across a variety of data constraints and conditions of domain shift. Experiments demonstrate that MAD leads to consistent gains in the low-shot, domain-shifted, and fully-supervised conditions on VCR, SNLI-VE, and VQA, achieving SOTA performance on VCR compared to other single models pretrained with image-text data. Finally, MAD outperforms concurrent works utilizing pretrained vision encoder from CLIP. Code will be made available.
翻訳日:2022-04-25 12:40:05 公開日:2022-04-22
# 連続学習のためのメモリ境界

Memory Bounds for Continual Learning ( http://arxiv.org/abs/2204.10830v1 )

ライセンス: Link先を確認
Xi Chen, Christos Papadimitriou and Binghui Peng(参考訳) 継続的学習(continentual learning、生涯学習)は、マシンラーニングの現在の課題のひとつです。 学習者は、1つ1つ1つずつ、1つ1つの異なる学習タスクを1つずつ解き、それ以前のタスクに対する適性を保ち続ける必要がある。 PACフレームワークにおける継続学習の複雑性理論的研究に着手する。 我々は,不適切な学習者であっても,$k$で線形に成長するメモリを必要とすることを示すために,コミュニケーションの複雑さを新たに活用する。 対数的に学習タスクに多くのパスが許容される場合、メモリ要求が十分にスケールする乗法重み付け更新に基づくアルゴリズムを提供する。 これらの結果は、継続学習に対する新しい有望なアプローチにつながる可能性があると推測する。

Continual learning, or lifelong learning, is a formidable current challenge to machine learning. It requires the learner to solve a sequence of $k$ different learning tasks, one after the other, while retaining its aptitude for earlier tasks; the continual learner should scale better than the obvious solution of developing and maintaining a separate learner for each of the $k$ tasks. We embark on a complexity-theoretic study of continual learning in the PAC framework. We make novel uses of communication complexity to establish that any continual learner, even an improper one, needs memory that grows linearly with $k$, strongly suggesting that the problem is intractable. When logarithmically many passes over the learning tasks are allowed, we provide an algorithm based on multiplicative weights update whose memory requirement scales well; we also establish that improper learning is necessary for such performance. We conjecture that these results may lead to new promising approaches to continual learning.
翻訳日:2022-04-25 12:39:32 公開日:2022-04-22
# Scaffoldへの学習: 教師のためのモデル説明の最適化

Learning to Scaffold: Optimizing Model Explanations for Teaching ( http://arxiv.org/abs/2204.10810v1 )

ライセンス: Link先を確認
Patrick Fernandes, Marcos Treviso, Danish Pruthi, Andr\'e F. T. Martins, Graham Neubig(参考訳) 現代の機械学習モデルは不透明であり、その結果、これらのモデルの振る舞いを説明する方法に関する学術的なサブフィールドが急成長している。 しかし、そのような説明を提供することの正確な目的は何ですか。 いくつかの研究は、説明は説明されているモデルをシミュレーションするために学生(人間または機械)に教えるのに役立つべきであり、説明の質は説明されていない例の学生のシミュレーション精度によって測定できると主張している。 本研究は,メタラーニング技術を活用して,学生モデルが原モデルのシミュレートをより効果的に学習するように説明を最適化することによって,説明自体の品質向上を図る。 3つの自然言語処理タスクとコンピュータビジョンタスクでモデルをトレーニングし,提案フレームワークを用いて抽出した説明を訓練した学生が,従来の手法で作成したものよりもはるかに効果的に教師をシミュレートできることを見出した。 ヒューマンアノテーションとユーザスタディを通じて、これらの学習された説明は、これらのタスクで必要な決定を人間がどのように説明するかとより密接に一致することが分かりました。 私たちのコードはhttps://github.com/coderpat/learning-scaffoldで利用可能です。

Modern machine learning models are opaque, and as a result there is a burgeoning academic subfield on methods that explain these models' behavior. However, what is the precise goal of providing such explanations, and how can we demonstrate that explanations achieve this goal? Some research argues that explanations should help teach a student (either human or machine) to simulate the model being explained, and that the quality of explanations can be measured by the simulation accuracy of students on unexplained examples. In this work, leveraging meta-learning techniques, we extend this idea to improve the quality of the explanations themselves, specifically by optimizing explanations such that student models more effectively learn to simulate the original model. We train models on three natural language processing and computer vision tasks, and find that students trained with explanations extracted with our framework are able to simulate the teacher significantly more effectively than ones produced with previous methods. Through human annotations and a user study, we further find that these learned explanations more closely align with how humans would explain the required decisions in these tasks. Our code is available at https://github.com/coderpat/learning-scaffold
翻訳日:2022-04-25 12:39:16 公開日:2022-04-22
# SalesBot:Chit-Chatからタスク指向対話への移行

SalesBot: Transitioning from Chit-Chat to Task-Oriented Dialogues ( http://arxiv.org/abs/2204.10591v1 )

ライセンス: Link先を確認
Ssu Chiu, Maolin Li, Yen-Ting Lin, Yun-Nung Chen(参考訳) 対話システムは通常、オープンドメインとタスク指向の2つのタイプに分類される。 まず、ユーザとのチャットと会話への参加に焦点を当て、対話のコンテキストに適合する適切なトピックを選択することが、対話の成功に不可欠である。 もう1つは、カジュアルな講演ではなく、例えば金曜日の夜に映画を見つける、歌を演奏するといった特定のタスクに焦点を当てている。 これらの2つの方向は異なる目的のために別々に研究されている。 しかし、ソーシャルチャットからタスク指向対話へのスムーズな移行がビジネスチャンスの引き金となり、そのようなシナリオに焦点を当てた公開データが存在しない。 そこで本稿では,オープンドメインのソーシャルチャットから徐々にタスク指向の目的へと移行する会話を調査し,この研究の方向性を促すための詳細なアノテーションを備えた大規模データセットをリリースする。 この目的を達成するために,オープンドメインの対話生成モデルを簡単に活用可能な,人間の関与なしに多数の対話を自動的に生成するフレームワークを提案する。 人的評価の結果,私たちの生成した対話データは自然な流れを適度に保ち,今後の研究の方向性や商業活動を導く大きな可能性を秘めていることがわかった。 さらに、リリースされたモデルは、研究者がターゲットシナリオで無制限の対話を自動生成することを可能にする。

Dialogue systems are usually categorized into two types, open-domain and task-oriented. The first one focuses on chatting with users and making them engage in the conversations, where selecting a proper topic to fit the dialogue context is essential for a successful dialogue. The other one focuses on a specific task instead of casual talks, e.g., finding a movie on Friday night, or playing a song. These two directions have been studied separately due to their different purposes. However, how smoothly transitioning from social chatting to task-oriented dialogues is important for triggering business opportunities, and there is no public data focusing on such scenarios. Hence, this paper focuses on investigating the conversations starting from open-domain social chatting and then gradually transitioning to task-oriented purposes, and releases a large-scale dataset with detailed annotations for encouraging this research direction. To achieve this goal, this paper proposes a framework to automatically generate many dialogues without human involvement, in which any powerful open-domain dialogue generation model can be easily leveraged. The human evaluation shows that our generated dialogue data has a natural flow at a reasonable quality, showing that our released data has a great potential of guiding future research directions and commercial activities. Furthermore, the released models allow researchers to automatically generate unlimited dialogues in the target scenarios, which can greatly benefit semi-supervised and unsupervised approaches.
翻訳日:2022-04-25 12:38:36 公開日:2022-04-22
# (参考訳) 深層学習による不正確な移動画像からの複雑な塩-ジオメトリの完全同定

Complete identification of complex salt-geometries from inaccurate migrated images using Deep Learning ( http://arxiv.org/abs/2204.09710v2 )

ライセンス: CC BY 4.0
Ana Paula O. Muller, Jesse C. Costa, Clecio R. Bom, Elisangela L. Faria, Matheus Klatt, Gabriel Teixeira, Marcelo P. de Albuquerque, Marcio P. de Albuquerque(参考訳) 移行した画像から塩分を除去することは、高度に計算された解析に依存し、利用可能なメソッドの解釈エラーや制限を受ける時間を要する活動である。 本研究では, コンボリューションニューラルネットワーク(cnn)を用いて, 不正確な流速モデル(堆積速度を合理的に近似するが, 塩包有物は含まない)から生成したマイグレーション画像を用いて, 塩包有物の形状を推定する手法を提案する。 本手法は, 堆積物のゼロオフセットまわりの反射に着目し, 大きなオフセットに塩反射のエネルギーを拡散させるため, 地下のコモン・イメージ・アグリゲーションに依拠する。 合成データを用いて,ネットワーク出力としてCNNと正しい塩マスクの入力チャネルとして,共通オフセット地下画像を使用するようにU-Netを訓練した。 ネットワークはソルトインクルージョンマスクを高い精度で予測することを学び、さらに以前に導入されなかった合成ベンチマークデータセットにも適用した。 実験では,u-netを用いて部分集束した表層オフセット画像から複雑な塩体形状を学習した。

Delimiting salt inclusions from migrated images is a time-consuming activity that relies on highly human-curated analysis and is subject to interpretation errors or limitations of the methods available. We propose to use migrated images produced from an inaccurate velocity model (with a reasonable approximation of sediment velocity, but without salt inclusions) to predict the correct salt inclusions shape using a Convolutional Neural Network (CNN). Our approach relies on subsurface Common Image Gathers to focus the sediments' reflections around the zero offset and to spread the energy of salt reflections over large offsets. Using synthetic data, we trained a U-Net to use common-offset subsurface images as input channels for the CNN and the correct salt-masks as network output. The network learned to predict the salt inclusions masks with high accuracy; moreover, it also performed well when applied to synthetic benchmark data sets that were not previously introduced. Our training process tuned the U-Net to successfully learn the shape of complex salt bodies from partially focused subsurface offset images.
翻訳日:2022-04-25 11:29:42 公開日:2022-04-22
# (参考訳) 法外強化学習におけるガウス混合批判の再考--サンプルベースアプローチ

Revisiting Gaussian mixture critics in off-policy reinforcement learning: a sample-based approach ( http://arxiv.org/abs/2204.10256v2 )

ライセンス: CC BY 4.0
Bobak Shahriari, Abbas Abdolmaleki, Arunkumar Byravan, Abe Friesen, Siqi Liu, Jost Tobias Springenberg, Nicolas Heess, Matt Hoffman, Martin Riedmiller(参考訳) 分散ポリシ評価を利用するアクター批判アルゴリズムは、多くの困難な制御タスクにおいて、非分配的なアルゴリズムよりも優れていることがしばしば示されている。 この挙動の例としては、DDPGとMPOを比較したD4PGとDMPOアルゴリズムがある[Barth-Maron et al., 2018; Hoffman et al., 2020]。 しかし、両エージェントは価値推定に関してC51の批判に依存しており、C51のアプローチの大きな欠点は、政策が達成できる最小値と最大値に関する事前知識と、分布推定の解決を固定するビンの数である。 タスクのDeepMindコントロールスイートは、標準化された報酬とエピソードの長さを使用しているため、スイート全体をこれらのハイパーパラメータの単一設定で解決することができるが、そうではないことが多い。 本稿では,ガウシアンとガウシアンを混合した天然の代替法と,オフ政治体制で学習するための単純なサンプルベース損失関数を再検討する。 本研究では,多種多様な課題 (ヒューマノイド, 犬, 四重極, マニピュレータドメインなど) において, その性能を実証的に評価し, 分散ハイパーパラメータの必要性を排除し, 最先端のパフォーマンスを達成できることを実証する。 最後に、Acmeエージェントリポジトリに実装を提供します。

Actor-critic algorithms that make use of distributional policy evaluation have frequently been shown to outperform their non-distributional counterparts on many challenging control tasks. Examples of this behavior include the D4PG and DMPO algorithms as compared to DDPG and MPO, respectively [Barth-Maron et al., 2018; Hoffman et al., 2020]. However, both agents rely on the C51 critic for value estimation.One major drawback of the C51 approach is its requirement of prior knowledge about the minimum andmaximum values a policy can attain as well as the number of bins used, which fixes the resolution ofthe distributional estimate. While the DeepMind control suite of tasks utilizes standardized rewards and episode lengths, thus enabling the entire suite to be solved with a single setting of these hyperparameters, this is often not the case. This paper revisits a natural alternative that removes this requirement, namelya mixture of Gaussians, and a simple sample-based loss function to train it in an off-policy regime. We empirically evaluate its performance on a broad range of continuous control tasks and demonstrate that it eliminates the need for these distributional hyperparameters and achieves state-of-the-art performance on a variety of challenging tasks (e.g. the humanoid, dog, quadruped, and manipulator domains). Finallywe provide an implementation in the Acme agent repository.
翻訳日:2022-04-25 11:14:36 公開日:2022-04-22
# インスタンスレベル予測を用いた介入型マルチインスタンス学習

Interventional Multi-Instance Learning with Deconfounded Instance-Level Prediction ( http://arxiv.org/abs/2204.09204v2 )

ライセンス: Link先を確認
Tiancheng Lin, Hongteng Xu, Canqian Yang and Yi Xu(参考訳) インスタンスのバッグの予測にマルチインスタンス学習(MIL)を適用する場合、インスタンスの予測精度はインスタンス自体だけでなく、対応するバッグのコンテキストにも依存することが多い。 因果推論の観点からは、このようなバッグコンテクストは共起者として機能し、モデルのロバスト性や解釈可能性の問題を引き起こす可能性がある。 この問題に焦点をあて,未確立のインスタンスレベルの予測を実現するために,新しい介入型マルチインスタンス学習(IMIL)フレームワークを提案する。 従来の確率ベース戦略とは異なり、因果的介入に基づく期待最大化(em)アルゴリズムを設計し、トレーニングフェーズにおける堅牢なインスタンス選択を提供し、バッグコンテキスト先行によるバイアスを抑制する。 病理画像解析実験により,il法は偽陽性を実質的に減少させ,最先端mil法を上回った。

When applying multi-instance learning (MIL) to make predictions for bags of instances, the prediction accuracy of an instance often depends on not only the instance itself but also its context in the corresponding bag. From the viewpoint of causal inference, such bag contextual prior works as a confounder and may result in model robustness and interpretability issues. Focusing on this problem, we propose a novel interventional multi-instance learning (IMIL) framework to achieve deconfounded instance-level prediction. Unlike traditional likelihood-based strategies, we design an Expectation-Maximization (EM) algorithm based on causal intervention, providing a robust instance selection in the training phase and suppressing the bias caused by the bag contextual prior. Experiments on pathological image analysis demonstrate that our IMIL method substantially reduces false positives and outperforms state-of-the-art MIL methods.
翻訳日:2022-04-25 11:00:33 公開日:2022-04-22
# カテゴリー間バランスによるロングテール問題の解法

Solving The Long-Tailed Problem via Intra- and Inter-Category Balance ( http://arxiv.org/abs/2204.09234v2 )

ライセンス: Link先を確認
Renhui Zhang, Tiancheng Lin, Rui Zhang, Yi Xu(参考訳) ビジュアル認識のためのベンチマークデータセットは、データが均一に分散されていると仮定する。 現在のアプローチでは、長い尾のデータセットを再サンプリングや再重み付け戦略によって均一な分散に変換するために、長い尾の問題を処理している。 これらのアプローチはテールクラスを強調するが、ヘッドクラスのハード例を無視し、パフォーマンスが低下する。 本稿では, カテゴリー適応精度を持つ新しい勾配調和機構を提案し, カテゴリ内およびカテゴリ間バランス戦略を用いて, 長い尾問題における難易度とサンプルサイズ不均衡を分離する。 具体的には、カテゴリ内バランスは、各カテゴリのハード例に注目して決定境界を最適化する一方で、カテゴリ間バランスは、各カテゴリを単位として決定境界のシフトを補正することを目的としている。 大規模な実験により、提案手法は全てのデータセットにおける他の手法よりも一貫して優れていることが示された。

Benchmark datasets for visual recognition assume that data is uniformly distributed, while real-world datasets obey long-tailed distribution. Current approaches handle the long-tailed problem to transform the long-tailed dataset to uniform distribution by re-sampling or re-weighting strategies. These approaches emphasize the tail classes but ignore the hard examples in head classes, which result in performance degradation. In this paper, we propose a novel gradient harmonized mechanism with category-wise adaptive precision to decouple the difficulty and sample size imbalance in the long-tailed problem, which are correspondingly solved via intra- and inter-category balance strategies. Specifically, intra-category balance focuses on the hard examples in each category to optimize the decision boundary, while inter-category balance aims to correct the shift of decision boundary by taking each category as a unit. Extensive experiments demonstrate that the proposed method consistently outperforms other approaches on all the datasets.
翻訳日:2022-04-25 11:00:17 公開日:2022-04-22
# 状況知覚誘導型イメージマットリング

Situational Perception Guided Image Matting ( http://arxiv.org/abs/2204.09276v3 )

ライセンス: Link先を確認
Bo Xu and Jiake Xie and Han Huang and Ziwen Li and Cheng Lu and Yong Tang and Yandong Guo(参考訳) ほとんどの自動マット方式は、前景を背景から切り離そうとしている。 しかし、既存のマッティングデータセットの量と主観バイアスが不十分であるため、与えられた画像におけるオブジェクトからオブジェクトへの関係とオブジェクトから環境への意味的関係を十分に探求することは困難である。 本稿では,マットアノテーションの主観的偏見を緩和し,視覚的・テクスチャ的タスクから抽出したより優れたグローバル・サリエンシのための十分な状況認識情報をキャプチャする状況認識ガイド画像マッチング(SPG-IM)手法を提案する。 SPG-IMは画像マッチングの主観的性質と高価なアノテーションを補うことにより、オブジェクト間やオブジェクト間サリエンシをよりよく関連付けることができる。 また,テキストセマンティックトランスフォーメーション(TST)モジュールを導入し,意味的特徴ストリームを効果的に変換し,統合して視覚的表現を導く。 さらに,多スケールの受容場と焦点を適応的に切り替えてグローバル・ローカルの細部を拡大するために,適応的焦点変換(AFT)リファインメントネットワークを提案する。 広範な実験により,視覚からテキストへのタスクにおける状況知覚指導の有効性が示され,本モデルは最先端手法を上回っている。 また、モデルにおける異なるコンポーネントの重要性を分析する。 コードはまもなくリリースされる。

Most automatic matting methods try to separate the salient foreground from the background. However, the insufficient quantity and subjective bias of the current existing matting datasets make it difficult to fully explore the semantic association between object-to-object and object-to-environment in a given image. In this paper, we propose a Situational Perception Guided Image Matting (SPG-IM) method that mitigates subjective bias of matting annotations and captures sufficient situational perception information for better global saliency distilled from the visual-to-textual task. SPG-IM can better associate inter-objects and object-to-environment saliency, and compensate the subjective nature of image matting and its expensive annotation. We also introduce a textual Semantic Transformation (TST) module that can effectively transform and integrate the semantic feature stream to guide the visual representations. In addition, an Adaptive Focal Transformation (AFT) Refinement Network is proposed to adaptively switch multi-scale receptive fields and focal points to enhance both global and local details. Extensive experiments demonstrate the effectiveness of situational perception guidance from the visual-to-textual tasks on image matting, and our model outperforms the state-of-the-art methods. We also analyze the significance of different components in our model. The code will be released soon.
翻訳日:2022-04-25 10:59:59 公開日:2022-04-22
# 純極線形時間論理における時限拡張ゴールの計画:標準計画への多項式還元

Planning for Temporally Extended Goals in Pure-Past Linear Temporal Logic: A Polynomial Reduction to Standard Planning ( http://arxiv.org/abs/2204.09960v2 )

ライセンス: Link先を確認
Giuseppe De Giacomo, Marco Favorito, Francesco Fuggitti(参考訳) PPLTL(Pure-Past LTL)で表される時間拡張目標について検討した。 PPLTLは、フォーマルメソッドの文献のように洗練されたタスクを表現できるのに対して、決定論的および非決定論的ドメイン(FOND)におけるプランニングの最悪の計算複雑性は、古典的な到達可能性の目標と同じである。 しかし, PPLTL目標の計画理論はよく理解されているものの, 実用ツールについては特に研究されていない。 本稿では,PLTLの目標を達成するための実際のツールの構築において,大きな前進を遂げる。 PPLTL目標の計画を標準計画に多項式変換する手法を考案する。 本稿では, 翻訳の形式的正確性, 複雑さ, 実用性について比較実験を行った。 その結果,FD や MyND といった最先端のツールが PPLTL の目標をシームレスに扱えるようになり,従来の到達性目標に対する印象的な性能を維持した。

We study temporally extended goals expressed in Pure-Past LTL (PPLTL). PPLTL is particularly interesting for expressing goals since it allows to express sophisticated tasks as in the Formal Methods literature, while the worst-case computational complexity of Planning in both deterministic and nondeterministic domains (FOND) remains the same as for classical reachability goals. However, while the theory of planning for PPLTL goals is well understood, practical tools have not been specifically investigated. In this paper, we make a significant leap forward in the construction of actual tools to handle PPLTL goals. We devise a technique to polynomially translate planning for PPLTL goals into standard planning. We show the formal correctness of the translation, its complexity, and its practical effectiveness through some comparative experiments. As a result, our translation enables state-of-the-art tools, such as FD or MyND, to handle PPLTL goals seamlessly, maintaining the impressive performances they have for classical reachability goals.
翻訳日:2022-04-25 10:59:37 公開日:2022-04-22