このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20220512となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# 多体量子魔法 Many-body quantum magic ( http://arxiv.org/abs/2010.13817v4 ) ライセンス: Link先を確認 | Zi-Wen Liu, Andreas Winter | (参考訳) マジック(非安定化器性)は、普遍的なフォールトトレラント量子計算を駆動する"燃料"の一種である。
計算や物理学における量子「複雑度」の起源を適切に研究し特徴付けるためには、魔法の定量化を厳密に理解することが重要である。
マジックの以前の研究は、主に小さなシステムに焦点を当て、離散ウィグナー形式(奇数素数次元においてのみうまく振る舞う)に大きく依存していた。
ここでは、多くの量子ビットの重要なケースに焦点をあてて、強く絡み合っているかもしれない真に多体な量子状態の魔法について、定量的に研究する。
まず、多体状態がいかに「魔法的」であるかという基本的な問題に対処し、様々な「良い」マジック測度に対して、$n$-qubit状態の最大マジックが本質的に$n$であることを示す。
すると、ほぼすべてのn$-qubit純状態が、ほぼ$n$の魔法を持っていることが分かる。
魔法が理解できる高度に絡み合った状態の明示的でスケーラブルなケースを求める中で、ハイパーグラフ状態の魔法と基礎となるブール関数の2階非線形性を結びつける。
次に,多体魔法を実践的・物理的文脈で研究する。
まず、クライアントがpauli測定値に制限されるmbqcの変種について検討する。
n$-qubit状態 ほぼn$マジックを持つ状態、すなわちほぼすべての状態は、古典的コンピュータ上で非自明なスピードアップを提供することができない。
次に、「自然」凝縮物質系の物理的興味を持つ魔法を解析する例を示す。
ブール関数法を用いて、特定の代表2次元SPT状態のマジックの明示的な境界を導出し、マジックと物質相の量子複雑性の間のさらなる関係についてコメントする。 Magic (non-stabilizerness) is a necessary but "expensive" kind of "fuel" to drive universal fault-tolerant quantum computation. To properly study and characterize the origin of quantum "complexity" in computation as well as physics, it is crucial to develop a rigorous understanding of the quantification of magic. Previous studies of magic mostly focused on small systems and largely relied on the discrete Wigner formalism (which is only well behaved in odd prime power dimensions). Here we present an initiatory study of the magic of genuinely many-body quantum states that may be strongly entangled, with focus on the important case of many qubits, at a quantitative level. We first address the basic question of how "magical" a many-body state can be, and show that the maximum magic of an $n$-qubit state is essentially $n$, simultaneously for a range of "good" magic measures. We then show that, in fact, almost all $n$-qubit pure states have magic of nearly $n$. In the quest for explicit, scalable cases of highly entangled states whose magic can be understood, we connect the magic of hypergraph states with the second-order nonlinearity of their underlying Boolean functions. Next, we go on and investigate many-body magic in practical and physical contexts. We first consider a variant of MBQC where the client is restricted to Pauli measurements, in which magic is a necessary feature of the initial "resource" state. We show that $n$-qubit states with nearly $n$ magic, or indeed almost all states, cannot supply nontrivial speedups over classical computers. We then present an example of analyzing the magic of "natural" condensed matter systems of physical interest. We apply the Boolean function techniques to derive explicit bounds on the magic of certain representative 2D SPT states, and comment on possible further connections between magic and the quantum complexity of phases of matter. | 翻訳日:2023-04-27 11:10:28 公開日:2022-05-12 |
# ネイティブ量子ハードウェア結合によるQAOAのためのターゲットグラフ結合の生成 Generating Target Graph Couplings for QAOA from Native Quantum Hardware Couplings ( http://arxiv.org/abs/2011.08165v2 ) ライセンス: Link先を確認 | Joel Rajakumar, Jai Moondra, Bryan Gard, Swati Gupta, and Creston D. Herold | (参考訳) 本稿では,Ising型量子スピン系における限定大域制御を用いた任意の対象結合グラフの構築手法を提案する。
提案手法は、量子近似最適化アルゴリズム(QAOA)をトラップされたイオン量子ハードウェア上に実装し、Max-Cutの近似解を求める。
我々は,この問題を数学的に記述し,$n$ノードの任意の非重み付き結合グラフを$oで生成するアルゴリズム構成について述べる。
(n)$Oの$m$エッジを持つグローバルエンタングリング演算と重み付きグラフ
(m)$オペレーション。
これらの上限は一般に厳密ではなく、グラフ結合問題を最適に解くために混合整数プログラムを定式化する。
我々は、$n\le8$の小さなグラフ上で数値実験を行い、演算が少ない最適なシーケンスを混合整数プログラムを用いて見つけることができることを示す。
最大カットqaoaのノイズシミュレーションは、標準のゲートベースのコンパイルよりもノイズの影響を受けにくいことを示している。 We present methods for constructing any target coupling graph using limited global controls in an Ising-like quantum spin system. Our approach is motivated by implementing the quantum approximate optimization algorithm (QAOA) on trapped ion quantum hardware to find approximate solutions to Max-Cut. We present a mathematical description of the problem and provide approximately optimal algorithmic constructions that generate arbitrary unweighted coupling graphs with $n$ nodes in $O(n)$ global entangling operations and weighted graphs with $m$ edges in $O(m)$ operations. These upper bounds are not tight in general, and we formulate a mixed-integer program to solve the graph coupling problem to optimality. We perform numeric experiments on small graphs with $n\le8$ and show that optimal sequences, which use fewer operations, can be found using mixed-integer programs. Noisy simulations of Max-Cut QAOA show that our implementation is less susceptible to noise than the standard gate-based compilation. | 翻訳日:2023-04-23 23:33:06 公開日:2022-05-12 |
# スケーラブルな転送進化最適化: 大きなタスクインスタンスを扱う Scalable Transfer Evolutionary Optimization: Coping with Big Task Instances ( http://arxiv.org/abs/2012.01830v2 ) ライセンス: Link先を確認 | Mojtaba Shakeri, Erfan Miahi, Abhishek Gupta and Yew-Soon Ong | (参考訳) 今日のデジタル世界では、大量の大規模クラウドベースのアプリケーションが生成し、操作するデータとモデルが爆発的に増えている。
このような条件下では,既存の移動進化的最適化フレームワークは,(1) 大量のソースタスクに対するスケーラビリティ,(2) 対象のタスクに対する関連するソースの分散性に対するオンライン学習アジリティという,2つの重要な品質特性を同時に満たすことができる。
これらの属性を満たすことで、負の転送の脅威を抑えつつ、大きなタスクインスタンスを持つシナリオへの転送最適化の実践的な展開が容易になる。
既存のアルゴリズムの応用は数十のソースタスクに限られているが、本論文では、タスク数において2桁以上のスケールアップを可能にするために、量子的に飛躍的に前進する:すなわち、1000のソースタスクインスタンスを超えるシナリオを効率的に処理する。
そこで我々は,2種の共進化種からなる新たな移動進化最適化フレームワークを,ソース知識空間と対象問題に対する解の探索空間に考案した。
特に共進化は、学習した知識をオンザフライで編成し、目標最適化タスクの収束を早めることができる。
我々は、多数のソースタスク・インスタンスからなる、事実上動機付けられた離散的かつ連続的な最適化事例の集合に対して、広範囲な実験を行った。
実験の結果,提案フレームワークはソースタスク数の増加とともに効率的にスケールできるだけでなく,スケーラビリティとオンライン学習の俊敏性という2つの特徴を満たし,関連情報源のスパース性に対する関連する知識の獲得にも有効であることがわかった。 In today's digital world, we are faced with an explosion of data and models produced and manipulated by numerous large-scale cloud-based applications. Under such settings, existing transfer evolutionary optimization frameworks grapple with simultaneously satisfying two important quality attributes, namely (1) scalability against a growing number of source tasks and (2) online learning agility against sparsity of relevant sources to the target task of interest. Satisfying these attributes shall facilitate practical deployment of transfer optimization to scenarios with big task-instances, while curbing the threat of negative transfer. While applications of existing algorithms are limited to tens of source tasks, in this paper, we take a quantum leap forward in enabling more than two orders of magnitude scale-up in the number of tasks; i.e., we efficiently handle scenarios beyond 1000 source task-instances. We devise a novel transfer evolutionary optimization framework comprising two co-evolving species for joint evolutions in the space of source knowledge and in the search space of solutions to the target problem. In particular, co-evolution enables the learned knowledge to be orchestrated on the fly, expediting convergence in the target optimization task. We have conducted an extensive series of experiments across a set of practically motivated discrete and continuous optimization examples comprising a large number of source task-instances, of which only a small fraction indicate source-target relatedness. The experimental results show that not only does our proposed framework scale efficiently with a growing number of source tasks but is also effective in capturing relevant knowledge against sparsity of related sources, fulfilling the two salient features of scalability and online learning agility. | 翻訳日:2023-04-22 05:36:40 公開日:2022-05-12 |
# 任意破壊下における浅回路の量子アドバンテージ Quantum Advantage with Shallow Circuits Under Arbitrary Corruption ( http://arxiv.org/abs/2105.00603v3 ) ライセンス: Link先を確認 | Atsuya Hasegawa and Fran\c{c}ois Le Gall | (参考訳) bravyi, gosset, k\"onig (science 2018), bene watts et al. (stoc 2019), coudron, stark and vidick (qip 2019) および le gall (ccc 2019) による最近の研究では、浅い(すなわち、小さな深さの)量子回路と古典回路の計算能力の無条件分離が示されている。
Using quantum error correction, Bravyi, Gosset, K\"onig and Tomamichel (Nature Physics 2020) further proved that a similar separation still persists even if quantum circuits are subject to local stochastic noise. In this paper, we consider the case where any constant fraction of the qubits (for instance, huge blocks of qubits) may be arbitrarily corrupted at the end of the computation. We make a first step forward towards establishing a quantum advantage even in this extremely challenging setting: we show that there exists a computational problem that can be solved in constant depth by a quantum circuit but such that even solving any large subproblem of this problem requires logarithmic depth with bounded fan-in classical circuits. This gives another compelling evidence of the computational power of quantum shallow circuits. In order to show our result, we consider the Graph State Sampling problem (which was also used in prior works) on expander graphs. We exploit the "robustness" of expander graphs against vertex corruption to show that a subproblem hard for small-depth classical circuits can still be extracted from the output of the corrupted quantum circuit. Recent works by Bravyi, Gosset and K\"onig (Science 2018), Bene Watts et al. (STOC 2019), Coudron, Stark and Vidick (QIP 2019) and Le Gall (CCC 2019) have shown unconditional separations between the computational powers of shallow (i.e., small-depth) quantum and classical circuits: quantum circuits can solve in constant depth computational problems that require logarithmic depth to solve with classical circuits. Using quantum error correction, Bravyi, Gosset, K\"onig and Tomamichel (Nature Physics 2020) further proved that a similar separation still persists even if quantum circuits are subject to local stochastic noise. In this paper, we consider the case where any constant fraction of the qubits (for instance, huge blocks of qubits) may be arbitrarily corrupted at the end of the computation. We make a first step forward towards establishing a quantum advantage even in this extremely challenging setting: we show that there exists a computational problem that can be solved in constant depth by a quantum circuit but such that even solving any large subproblem of this problem requires logarithmic depth with bounded fan-in classical circuits. This gives another compelling evidence of the computational power of quantum shallow circuits. In order to show our result, we consider the Graph State Sampling problem (which was also used in prior works) on expander graphs. We exploit the "robustness" of expander graphs against vertex corruption to show that a subproblem hard for small-depth classical circuits can still be extracted from the output of the corrupted quantum circuit. | 翻訳日:2023-04-01 18:02:47 公開日:2022-05-12 |
# Stern-Gerlach干渉計によるナノオブジェクト量子重ね合わせの構成 Constructing Nano-Object Quantum Superpositions with a Stern-Gerlach Interferometer ( http://arxiv.org/abs/2105.01094v3 ) ライセンス: Link先を確認 | Ryan J. Marshman, Anupam Mazumdar, Ron Folman, Sougato Bose | (参考訳) 量子力学、一般相対性理論の量子的側面、および古典的な重力の知覚と制約は、いずれも、巨大な物体の重ね合わせの空間的大きさによって実現される。
本稿では,最大0.1~10$秒の期間において,質量に対して${\cal o}(10^{-4}-10^{-8})$ m という大きな空間重ね合わせを構築するために,磁場勾配${\cal o}(10-100)$ tm$^{-1}$ が実現可能であることを示す。 Probing quantum mechanics, quantum aspects of general relativity along with the sensing and the constraining of classical gravity can all be enabled by unprecedented spatial sizes of superpositions of massive objects. In this paper, we show that there is a feasible setup sourced by realizable magnetic field gradients ${\cal O}(10-100)$ Tm$^{-1}$ to construct a large spatial superposition of ${\cal O}(10^{-4}-10^{-8})$ m for masses ${\cal O}(10^{-16}-10^{-14})$ kg over a time period of up to $0.1-10$ seconds. | 翻訳日:2023-04-01 17:40:21 公開日:2022-05-12 |
# アガシモデルのディジタル量子シミュレーション A digital quantum simulation of the Agassi model ( http://arxiv.org/abs/2105.02834v2 ) ライセンス: Link先を確認 | Pedro P\'erez-Fern\'andez, Jos\'e Miguel Arias, Jos\'e Enrique Garc\'ia-Ramos, Lucas Lamata | (参考訳) 核物理学からのアガシモデルのディジタル量子シミュレーションを提案し,解析した。
この提案は、4つの異なるサイトで行われている。
本提案手法の実現可能性を示すため,数値シミュレーションと解析評価を行った。
提案されたアプローチは、多くのサイトに対して完全にスケーラブルである。
量子相関関数をプローブとして、基底状態の計算を必要とせず、時間ダイナミクスを量子シミュレーションして量子位相を探索する手法も研究されている。
この量子シミュレーションにおける相関関数の時間ダイナミクスの振幅は、系の異なる量子位相と関連していることを示す証拠が与えられる。
このアプローチは、核物理学で有用なモデルのデジタル量子シミュレーションの道を確立する。 A digital quantum simulation of the Agassi model from nuclear physics is proposed and analyzed. The proposal is worked out for the case with four different sites. Numerical simulations and analytical estimations are presented to illustrate the feasibility of this proposal with current technology. The proposed approach is fully scalable to a larger number of sites. The use of a quantum correlation function as a probe to explore the quantum phases by quantum simulating the time dynamics, with no need of computing the ground state, is also studied. Evidence is given showing that the amplitude of the time dynamics of a correlation function in this quantum simulation is linked to the different quantum phases of the system. This approach establishes an avenue for the digital quantum simulation of useful models in nuclear physics. | 翻訳日:2023-04-01 07:38:39 公開日:2022-05-12 |
# シリコンバレーの愛の三角形:アルゴリズム、疑似科学、監査の探求 A Silicon Valley Love Triangle: Hiring Algorithms, Pseudo-Science, and the Quest for Auditability ( http://arxiv.org/abs/2106.12403v3 ) ライセンス: Link先を確認 | Mona Sloane, Emanuel Moss, Rumman Chowdhury | (参考訳) 本稿では,ADS採用のための社会技術評価を開発するための体系的アプローチを提案する。
我々は,人間の本質と能力の疑似科学的本質的な理解に根ざした前提を明らかにするためのマトリックスの利用と,これらの前提に対処できない新たな監査基準や実践について批判的に検討することを提案する。 In this paper, we suggest a systematic approach for developing socio-technical assessment for hiring ADS. We suggest using a matrix to expose underlying assumptions rooted in pseudoscientific essentialized understandings of human nature and capability, and to critically investigate emerging auditing standards and practices that fail to address these assumptions. | 翻訳日:2023-03-25 18:29:41 公開日:2022-05-12 |
# 仮想マイクロ波光子を介するコヒーレントスピン-スピンカップリング Coherent spin-spin coupling mediated by virtual microwave photons ( http://arxiv.org/abs/2108.01206v2 ) ライセンス: Link先を確認 | Patrick Harvey-Collard, Jurgen Dijkema, Guoji Zheng, Amir Sammak, Giordano Scappucci, and Lieven M. K. Vandersypen | (参考訳) 仮想マイクロ波光子による2つの電子スピンのコヒーレント結合について報告する。
各スピンは超伝導共振器の両端のシリコン二重量子ドットに閉じ込められ、約$g_s/2\pi = 40 \text{MHz}$までスピン光子結合を達成する。
2つのスピンは互いに共鳴するが、光子から切り離されたため、2J/2\pi = 20 \text{MHz}$の交換でスピン線幅よりも大きい回避された交差が観測される。
さらに、光子数状態はシフト2.\chi_s/2\pi = -13 \text{MHz}$からスピン周波数で誘導される。
これらの観測により、スピンを持つ回路量子力学の強い分散状態に達することが示されている。
実際の光子を持たないスピンスピンカップリングは、スピン量子ビットとチップ上のスピン量子ビットのスケーラブルネットワークの間の長距離2量子ゲートにとって不可欠である。 We report the coherent coupling of two electron spins at a distance via virtual microwave photons. Each spin is trapped in a silicon double quantum dot at either end of a superconducting resonator, achieving spin-photon couplings up to around $g_s/2\pi = 40 \ \text{MHz}$. As the two spins are brought into resonance with each other, but detuned from the photons, an avoided crossing larger than the spin linewidths is observed with an exchange splitting around $2J/2\pi = 20 \ \text{MHz}$. In addition, photon-number states are resolved from the shift $2\chi_s/2\pi = -13 \ \text{MHz}$ that they induce on the spin frequency. These observations demonstrate that we reach the strong dispersive regime of circuit quantum electrodynamics with spins. Achieving spin-spin coupling without real photons is essential to long-range two-qubit gates between spin qubits and scalable networks of spin qubits on a chip. | 翻訳日:2023-03-20 02:54:02 公開日:2022-05-12 |
# 捕捉イオンによるディラック粒子の超発光伝播のシミュレーション Simulating superluminal propagation of Dirac particles using trapped ions ( http://arxiv.org/abs/2110.01155v2 ) ライセンス: Link先を確認 | Qianqian Chen, Yaoming Chu, and Jianming Cai | (参考訳) 実験室における極限時空における量子現象のシミュレーションは、量子場理論と一般相対性理論の相互作用における基礎物理学を探求するための強力なアプローチである。
そこで本研究では,Alcubierreワープ駆動時空による超光速で伝播するディラック粒子の運動を,捕捉したイオンを用いてシミュレーションする。
このプラットフォームは、一般相対性理論の予測と一致した超光速として現れる傾斜した光円錐を観測できることを実証する。
さらに、相対論的量子力学から生じるZitterbewegung効果は超光伝搬に持続し、実験的に測定可能である。
このスキームは、他のエキゾチックな曲った時空におけるディラック方程式をシミュレートするために拡張することができるので、これらの極端な時空の基本極限についての洞察を得るための汎用的なツールを提供する。 Simulating quantum phenomena in extreme spacetimes in the laboratory represents a powerful approach to explore fundamental physics in the interplay of quantum field theory and general relativity. Here we propose to simulate the movement of a Dirac particle propagating with a superluminal velocity caused by the emergent Alcubierre warp drive spacetime using trapped ions. We demonstrate that the platform allows observing the tilted lightcone that manifests as a superluminal velocity, which is in agreement with the prediction of general relativity. Furthermore, the Zitterbewegung effect arising from relativistic quantum mechanics persists with the superluminal propagation and is experimentally measurable. The present scheme can be extended to simulate the Dirac equation in other exotic curved spacetimes, thus provides a versatile tool to gain insights into the fundamental limit of these extreme spacetimes. | 翻訳日:2023-03-12 14:16:56 公開日:2022-05-12 |
# 量子ビット関数構成による量子回路のキャラクタリゼーション Characterizing quantum circuits with qubit functional configurations ( http://arxiv.org/abs/2110.02390v3 ) ライセンス: Link先を確認 | Zixuan Hu and Sabre Kais | (参考訳) 量子回路を量子ビット関数構成で特徴づける理論を提案する。
任意の量子回路は、1ビットのユニタリゲートとCNOTゲートの交互配列に分解することができる。
各CNOTシーケンスは、現在の量子状態をキュービット関数構成の層に準備し、状態ベクトルエントリの集合的な修正方法に関する次の1-キュービットユニタリシーケンスのルールを指定する。
量子回路上のすべての機能的構成層は、同じ構成層を共有する他の多くの回路を含むことができるタイプを定義する。
機能構成のタイプを研究することで、多くの量子回路の特性と挙動をまとめて特徴づけることができる。
この理論を,変分量子アルゴリズムのハードウェア効率のよいアンサテズに適用する。
潜在的な応用においては、機能的構成理論は、それらの機能的構成タイプに基づいた量子アルゴリズムの体系的理解と開発を可能にする。 We propose a theory of characterizing quantum circuits with qubit functional configurations. Any quantum circuit can be decomposed into alternating sequences of 1-qubit unitary gates and CNOT gates. Each CNOT sequence prepares the current quantum state into a layer of qubit functional configuration to specify the rule for the next 1-qubit unitary sequence on how to collectively modify the state vector entries. All the functional configuration layers on a quantum circuit define its type which can include many other circuits sharing the same configuration layers. Studying the functional configuration types allows us to collectively characterize the properties and behaviors of many quantum circuits. We demonstrate the theory's application to the hardware-efficient ansatzes of variational quantum algorithms. For potential applications, the functional configuration theory may allow systematic understanding and development of quantum algorithms based on their functional configuration types. | 翻訳日:2023-03-12 10:08:43 公開日:2022-05-12 |
# 高密度キャビティにおけるエンタングルメント強化物質波干渉法 Entanglement-Enhanced Matter-Wave Interferometry in a High-Finesse Cavity ( http://arxiv.org/abs/2110.14027v2 ) ライセンス: Link先を確認 | Graham P. Greve, Chengyi Luo, Baochen Wu, James K. Thompson | (参考訳) 絡み合いは、量子センサーが独立原子の量子崩壊によって設定された標準量子限界を超えることを可能にする基本的な資源である。
集合キャビティ-QEDシステムは、レーザー冷却原子アンサンブルの内部自由度を含む多くの直接観測された絡み合いを生成することに成功した。
ここでは、個々の原子が重力下で自由に落下し、2つの経路が空間を通過すると同時に他の原子とも絡み合う700原子の物質波干渉計を実現するために、外部自由度の空洞qの絡み合いを示す。
我々は、直接観測されたメートルロジカルゲイン3.4^{+1.1}_{-0.9}$dBと2.5^{+0.6}_{-0.6}$dBの圧縮運動量状態を生成するための量子非破壊測定とキャビティ媒介スピン相互作用の両方を標準量子限界以下で示す。
エンタングル状態は、直接観測されたmetrological enhancementの1.7^{+0.5}_{-0.5}$ dbのマッハツェンダー光パルス干渉計に初めて注入された。
インプレシションの基本的な量子源の削減は、測定精度、帯域幅、精度を直接向上したり、サイズを縮小したりできる新しいリソースを提供する。
これらの結果は、慣性センサーの粒子の非局在化と絡み合い、新しい物理学、粒子、磁場の探索、将来の重力波検出器、平均場量子多体物理学を越えてアクセスするための新しい経路も開けた。 Entanglement is a fundamental resource that allows quantum sensors to surpass the standard quantum limit set by the quantum collapse of independent atoms. Collective cavity-QED systems have succeeded in generating large amounts of directly observed entanglement involving the internal degrees of freedom of laser-cooled atomic ensembles. Here we demonstrate cavity-QED entanglement of external degrees of freedom to realize a matter-wave interferometer of 700 atoms in which each individual atom falls freely under gravity and simultaneously traverses two paths through space while also entangled with the other atoms. We demonstrate both quantum non-demolition measurements and cavity-mediated spin interactions for generating squeezed momentum states with directly observed metrological gain $3.4^{+1.1}_{-0.9}$ dB and $2.5^{+0.6}_{-0.6}$ dB below the standard quantum limit respectively. An entangled state is for the first time successfully injected into a Mach-Zehnder light-pulse interferometer with $1.7^{+0.5}_{-0.5}$ dB of directly observed metrological enhancement. Reducing the fundamental quantum source of imprecision provides a new resource that can be exploited to directly enhance measurement precision, bandwidth, and accuracy or operate at reduced size. These results also open a new path for combining particle delocalization and entanglement for inertial sensors, searches for new physics, particles, and fields, future advanced gravitational wave detectors, and accessing beyond mean-field quantum many-body physics. | 翻訳日:2023-03-10 05:24:36 公開日:2022-05-12 |
# 分割振動共鳴による長距離非平衡コヒーレントトンネル Long-Range Non-Equilibrium Coherent Tunneling Induced by Fractional Vibronic Resonances ( http://arxiv.org/abs/2111.06137v2 ) ライセンス: Link先を確認 | R. Kevin Kessing, Pei-Yun Yang, Salvatore R. Manmana, and Jianshu Cao | (参考訳) 局所フォノン(傾きホルスタインモデル)に結合した分子鎖に対する非平衡励起に対する線形エネルギーバイアスの影響を,ランダムウォーク速度カーネル理論と非摂動・大規模並列化適応基底法の両方を用いて検討した。
線形応答理論と均質ポーラロンダイナミクスとは根本的に異なる構造的および離散的な振動共鳴挙動を明らかにする。
注目すべきことに、フォノンエネルギー $\hbar\omega$ とバイアス $\delta_\epsilon$ の共鳴は整数だけでなく分数比 $\delta_\epsilon/(\hbar\omega) = \frac{m}{n}$ で起こる。
これらの観測は、最近証明されたCy3系のモデル計算でも再現される。
潜在的な応用は分子エレクトロニクスから光学格子、コヒーレント量子輸送の振動工学による人工光収穫まで幅広い。 We study the influence of a linear energy bias on a non-equilibrium excitation on a chain of molecules coupled to local phonons (a tilted Holstein model) using both a random-walk rate kernel theory and a nonperturbative, massively parallelized adaptive-basis algorithm. We uncover structured and discrete vibronic resonance behavior fundamentally different from both linear response theory and homogeneous polaron dynamics. Remarkably, resonance between the phonon energy $\hbar\omega$ and the bias $\delta_\epsilon$ occurs not only at integer but also fractional ratios $\delta_\epsilon/(\hbar\omega) = \frac{m}{n}$, which effect long-range $n$-bond $m$-phonon tunneling. These observations are also reproduced in a model calculation of a recently demonstrated Cy3 system. Potential applications range from molecular electronics to optical lattices and artificial light harvesting via vibronic engineering of coherent quantum transport. | 翻訳日:2023-03-08 09:59:17 公開日:2022-05-12 |
# 平均効率40%を超える2つの光子間の量子論理ゲート Quantum-Logic Gate between Two Optical Photons with an Average Efficiency above 40% ( http://arxiv.org/abs/2111.09915v2 ) ライセンス: Link先を確認 | Thomas Stolz, Hendrik Hegels, Maximilian Winter, Bianca R\"ohr, Ya-Fen Hsiao, Lukas Husel, Gerhard Rempe, and Stephan D\"urr | (参考訳) 光量子ビットは、光ファイバーの情報伝達を優れた処理能力と一意に組み合わせ、そのため量子技術にとって魅力的なツールである。
しかし、大きな課題は、2ビット論理ゲートの低効率を克服することである。
光制御not(cnot)ゲートの効率は2003年に約11%に達し、それ以降は増加していない。
ここでは、この長年の記録を上回るように設計された新しいプラットフォームについて報告する。
この新しいスキームは本質的に確率的プロトコルを回避し、代わりに原子空洞系とライドバーグ電磁誘導透明性という2つの確立された量子非線形系の側面を組み合わせる。
2つの光子間のcnotゲートの平均効率は41.7(5)%で、選択後のプロセス忠実度は81(2)%である。
さらに,複数のターゲット量子ビットを持つCNOTゲートにスキームを拡張し,最大5個の光子の絡み合った状態を生成する。
これらの成果はすべて有望であり、ほとんどの高度なプロトコルが高効率論理ゲートから利益を得る光学量子情報処理を進歩させる可能性がある。 Optical qubits uniquely combine information transfer in optical fibers with a good processing capability and are therefore attractive tools for quantum technologies. A large challenge, however, is to overcome the low efficiency of two-qubit logic gates. The experimentally achieved efficiency in an optical controlled NOT (CNOT) gate reached approximately 11% in 2003 and has seen no increase since. Here we report on a new platform that was designed to surpass this long-standing record. The new scheme avoids inherently probabilistic protocols and, instead, combines aspects of two established quantum nonlinear systems: atom-cavity systems and Rydberg electromagnetically induced transparency. We demonstrate a CNOT gate between two optical photons with an average efficiency of 41.7(5)% at a postselected process fidelity of 81(2)%. Moreover, we extend the scheme to a CNOT gate with multiple target qubits and produce entangled states of presently up to five photons. All these achievements are promising and have the potential to advance optical quantum information processing in which almost all advanced protocols would profit from high-efficiency logic gates. | 翻訳日:2023-03-07 12:28:41 公開日:2022-05-12 |
# グラディメトリックスネールを用いた周波数可変カーフリー3波混合 Frequency-tunable Kerr-free three-wave mixing with a gradiometric SNAIL ( http://arxiv.org/abs/2112.09785v2 ) ライセンス: Link先を確認 | A. Miano, G. Liu, V. V. Sivak, N. E. Frattini, V. R. Joshi, W. Dai, L. Frunzio and M. H. Devoret | (参考訳) 3波混合は超伝導量子情報処理において重要なプロセスであり、超伝導キャビティ間の量子制限増幅とパラメトリックカップリングに関与している。
これらの操作は、スタークシフトのような望ましくない寄生作用が抑制されるカーフリーフラックスバイアスポイントを示すスネールベースのデバイスによって実装できる。
しかし、単一の磁束バイアスパラメータで、これらの回路は1つのkerrフリーポイントのみをホストすることができ、アプリケーションの範囲を制限できる。
本稿では,この制約を,実効インダクタンスとKerr係数を独立に調整可能な2分岐バイアス超伝導回路であるSNAILを用いて克服する方法を示す。
実験データから,1.7GHz帯の動作周波数に対応するフラックスバイアス点の連続体上での3波混合パラメトリック増幅器におけるKerr効果の抑制効果を示す。 Three-wave mixing is a key process in superconducting quantum information processing, being involved in quantum-limited amplification and parametric coupling between superconducting cavities. These operations can be implemented by SNAIL-based devices that present a Kerr-free flux-bias point where unwanted parasitic effects such as Stark shift are suppressed. However, with a single flux-bias parameter, these circuits can only host one Kerr-free point, limiting the range of their applications. In this Letter, we demonstrate how to overcome this constraint with a gradiometric SNAIL, a doubly-flux biased superconducting circuit for which both effective inductance and Kerr coefficient can be independently tuned. Experimental data show the capability of the gradiometric SNAIL to suppress Kerr effect in a three-wave mixing parametric amplifier over a continuum of flux bias points corresponding to a 1.7 GHz range of operating frequencies. | 翻訳日:2023-03-04 06:51:15 公開日:2022-05-12 |
# 圧縮光機械干渉計の力感度向上 Enhancing the force sensitivity of squeezed light optomechanical interferometer ( http://arxiv.org/abs/2201.10893v3 ) ライセンス: Link先を確認 | Sreeshna Subhash, Sanket Das, Tarak Nath Dey, Yong Li, Sankar Davuluri | (参考訳) 周波数依存型圧縮真空の適用により、標準量子限界を超える光干渉計の力感度は$e^{-r}$で向上し、$r$はスクイーズパラメータである。
本研究は, 量子光学的復元力とともに, 圧縮光を応用することにより, 標準量子限界を超える感度を$0<\zeta/\Delta <1$, $\zeta$を最適空洞崩壊速度とし, $\Delta$を空洞固有周波と駆動場との差分として, $0<\zeta/\Delta <1$により向上させることができることを示す。
本論文で述べる手法は、光機械ミラーの共鳴周波数よりもはるかに小さい周波数に制限される。 Application of frequency-dependent squeezed vacuum improves the force sensitivity of optomechanical interferometer beyond the standard quantum limit by a factor of $e^{-r}$, where $r$ is the squeezing parameter. In this work, we show that the application of squeezed light along with quantum optical restoring force can enhance the sensitivity beyond the standard quantum limit by a factor of $\sqrt{e^{-2r}\zeta/4\Delta}$, where $0< \zeta/\Delta <1$, with $\zeta$ as the optomechanical cavity decay rate and $\Delta$ as the detuning between cavity eigenfrequency and driving field. The technique described in this article is restricted to frequencies much smaller than the resonance frequency of the optomechanical mirror. | 翻訳日:2023-02-27 20:34:40 公開日:2022-05-12 |
# 長距離エキシトン輸送における放射損失の除去 Eliminating radiative losses in long-range exciton transport ( http://arxiv.org/abs/2201.13442v2 ) ライセンス: Link先を確認 | Scott Davidson, Felix A. Pollock and Erik M. Gauger | (参考訳) そこで,本質的なエネルギー勾配を持つ系において,エキソトニックエネルギー輸送中の放射損失を効果的に除去できることを実証する。
複数の部位から構成される「ユニット」細胞を繰り返す鎖状システムを考えることにより、単一のシステムパラメータ(ユニット・セル内結合)をチューニングすることで、比較的長い距離で効率よく、非常に堅牢な輸送が可能になることを示す。
この顕著な輸送性能は、系の固有状態がエネルギー的に分離された明るい部分空間と暗い部分空間に分割され、長い範囲の輸送が固有状態の「ダークチェーン」を通して効率的に進行することに由来する。
最後に,分子構造に特に関連のある内在的双極子モーメントの効果を議論し,適切に調整された双極子が他の(非放射的)損失プロセスに対するさらなる保護につながることを実証する。
我々の無次元オープン量子システムモデルは、幅広い実験プラットフォームに適用できるように設計されています。 We demonstrate that it is possible to effectively eliminate radiative losses during excitonic energy transport in systems with an intrinsic energy gradient. By considering chain-like systems of repeating `unit' cells which can each consist of multiple sites, we show that tuning a single system parameter (the intra-unit-cell coupling) leads to efficient and highly robust transport over relatively long distances. This remarkable transport performance is shown to originate from a partitioning of the system's eigenstates into energetically-separated bright and dark subspaces, allowing long range transport to proceed efficiently through a `dark chain' of eigenstates. Finally, we discuss the effects of intrinsic dipole moments, which are of particular relevance to molecular architectures, and demonstrate that appropriately-aligned dipoles can lead to additional protection against other (non-radiative) loss processes. Our dimensionless open quantum systems model is designed to be broadly applicable to a range of experimental platforms. | 翻訳日:2023-02-27 05:15:11 公開日:2022-05-12 |
# ストロンチウム88リドバーグ原子を用いた制御相ゲートの誤差予算化 Error-budgeting for a controlled-phase gate with strontium-88 Rydberg atoms ( http://arxiv.org/abs/2202.13849v2 ) ライセンス: Link先を確認 | Alice Pagano, Sebastian Weber, Daniel Jaschke, Tilman Pfau, Florian Meinert, Simone Montangero, and Hans Peter B\"uchler | (参考訳) Rydberg量子コンピュータにおける高忠実度制御相ゲートの実装について検討する。
このプロトコルは、levine et al [phys. rev. lett. 123, 170503 (2019)] によって実験的に実現された2つの量子ビットに関する対称ゲートに基づいているが、時間に依存した任意のパルス形状のデチューンが可能である。
パルス形状を最適化するために, ライドバーグ状態の時間を10%短縮し, ゲート不確かさへの主導的な寄与を減少させるレーザーパルス, すなわちライドバーグ状態からの減衰を導入する。
顕著なことに、この還元は、実験的な実現に必要なラビ周波数の変調および滑らかなオンオンにおける滑らかなパルスに対して達成できる。
我々は、ストロンチウム88原子に基づく実験的な現実的なセットアップのために、光子リコイル、微視的相互作用ポテンシャル、原子の調和トラップなどの基本的な誤差源の影響を慎重に分析する。
99.9%を超える平均ゲート忠実度は、非常に保守的な実験パラメータの推定に有効である。 We study the implementation of a high fidelity controlled-phase gate in a Rydberg quantum computer. The protocol is based on a symmetric gate with respect to the two qubits as experimentally realized by Levine et al [Phys. Rev. Lett. 123, 170503 (2019)], but allows for arbitrary pulse shapes with time-dependent detuning. Optimizing the pulse shapes, we introduce laser pulses which shorten the time spent in the Rydberg state by 10% and reduce the leading contribution to the gate infidelity, i.e., the decay from the Rydberg state. Remarkably, this reduction can be achieved for smooth pulses in detuning and smooth turning on of the Rabi frequency as required in any experimental realization. We carefully analyze the influence of fundamental error sources such as the photon recoil, the microscopic interaction potential, as well as the harmonic trapping of the atoms for an experimentally realistic setup based on strontium-88 atoms. We find that an average gate fidelity above 99.9% is possible for a very conservative estimation of experimental parameters. | 翻訳日:2023-02-23 17:49:27 公開日:2022-05-12 |
# 横運動量絡み合った二光子状態の対称性を操作する Manipulating the symmetry of transverse momentum entangled biphoton states ( http://arxiv.org/abs/2203.06260v2 ) ライセンス: Link先を確認 | Xiaoqin Gao, Yingwen Zhang, Alessio D'Errico, Felix Hufnagel, Khabat Heshami, Ebrahim Karimi | (参考訳) ベル状態はフォトニック量子情報処理の基本的な資源である。
これらの状態は多くのフォトニックな自由度で成功した。
しかし、運動量空間での操作は依然として困難である。
ここでは,空間的に変化する位相オブジェクトを用いることで,自由の運動量次数に絡み合った2光子状態の対称性を設計するためのスキームを提案する。
我々は,光子"バンチング"/"アンチバンチング"観測による運動量絡み合いの対称性を検証するために,ホン・ウー・マンデル干渉計をどのように構築する必要があるかを実証する。
また、この手法により、交換操作の下で任意の位相を取得する状態を生成する方法を示す。 Bell states are a fundamental resource in photonic quantum information processing. These states have been generated successfully in many photonic degrees of freedom. Their manipulation, however, in the momentum space remains challenging. Here, we present a scheme for engineering the symmetry of two-photon states entangled in the transverse momentum degree of freedom through the use of a spatially variable phase object. We demonstrate how a Hong-Ou-Mandel interferometer must be constructed to verify the symmetry in momentum entanglement via photon "bunching"/"anti-bunching" observation. We also show how this approach allows generating states that acquire an arbitrary phase under the exchange operation. | 翻訳日:2023-02-22 09:14:04 公開日:2022-05-12 |
# マルコフフィードバック制御による1次元光学格子中のボソニック原子合成熱浴の量子工学 Quantum engineering of a synthetic thermal bath for bosonic atoms in a one-dimensional optical lattice via Markovian feedback control ( http://arxiv.org/abs/2203.15670v2 ) ライセンス: Link先を確認 | Ling-Na Wu and Andr\'e Eckardt | (参考訳) マルコフフィードバック制御に基づく1次元光学格子におけるボソニック量子ガスの合成熱浴の設計手法を提案し,検討する。
本方式の性能は, 系の定常状態と有効熱状態との間の忠実度によって定量化される。
非相互作用粒子を持つ二重ウェル系および三重ウェル系では、定常状態は厳密な熱状態であることが判明し、これは全ての結合固有状態間の移動速度が詳細な平衡条件を満たすことに起因する。
このシナリオは、詳細なバランス条件がこれ以上保たない格子サイトが存在する場合に変化しますが、正確な近似のままです。
注目すべきは、我々のスキームは低温および高温で非常によく機能し、忠実度は1に近いことである。
中間温度状態(ボース凝縮状態へのクロスオーバーが発生している)における性能はわずかに悪化し、その忠実度はシステムサイズの増加とともに緩やかに低下する。
相互作用事例についても論じる。
非相互作用の場合とは対照的に、このスキームは高温でより優れた性能を発揮する。
もう1つの違いは、エンジニアリングできる最小温度が非ゼロであり、相互作用強度によって増加することである。 We propose and investigate a scheme for engineering a synthetic thermal bath for a bosonic quantum gas in a one-dimensional optical lattice based on Markovian feedback control. The performance of our scheme is quantified by the fidelity between the steady state of the system and the effective thermal state. For double-well and triple-well systems with non-interacting particles, the steady state is found to be an exact thermal state, which is attributed to the fact that the transfer rates between all pairs of coupled eigenstates satisfy detailed balance condition. The scenario changes when there are more lattice sites, where the detailed balance condition does not hold any more, but remains an accurate approximation. Remarkably, our scheme performs very well at low and high temperature regimes, with the fidelity close to one. The performance at the intermediate temperature regime (where a crossover into a Bose condensed regime occurs) is slightly worse, and the fidelity shows a gentle decrease with increasing system size. We also discuss the interacting cases. In contrast to the non-interacting cases, the scheme is found to perform better at a higher temperature. Another difference is that the minimal temperature that can be engineered is nonzero and increases with the interaction strength. | 翻訳日:2023-02-20 09:14:09 公開日:2022-05-12 |
# 建設プロジェクトガバナンスのデジタル化 Digital Enablers Of Construction Project Governance ( http://arxiv.org/abs/2205.05930v1 ) ライセンス: Link先を確認 | Paolo Eugenio Demagistris, Sandro Petruzzi, Rodolfo Pampaloni, Milan \v{S}migi\'c, Alberto De Marco, Waseem Khan and Filippo Maria Ottaviani | (参考訳) 建設プロジェクトのガバナンスは、建設業界のバリューチェーンに沿ったアクター間の合意に依存している。
これらの契約から生じる相互義務は、タイムリーな金融取引に依存している。
支払いシステムの自動化とデジタル進捗データへのアクセスの改善にもかかわらず、いくつかの支払いアプリケーションは非効率で時間を要する手続きとドキュメントに依存している。
本研究は、この問題を解決できる現在の技術進歩を考察する。
スマートコントラクトベースのアプローチは、自律的なプロセスをサポートする建設進捗支払いを管理するのに理想的であり、支払いとプロジェクトサイト進捗評価のギャップを埋める。
本稿では、分散型ブロックチェーンベースのシステム上でのスマートコントラクト実行を形式化し、建設支払いを自動化する方法を提供する。 Construction project governance relies on agreements between the actors along the construction industry value chain. The mutual obligations arising from these contracts rely on timely monetary transactions. Despite the advantages of automation in payment systems and improved access to digital progress data, several payment applications rely nonetheless on inefficient and time-consuming procedures and documentation. This study examines the present technological advancements that can lead to fix this problem. A smart contract-based approach is ideal for managing construction progress payments that support autonomous process, it fills the gap between payments and project site progress evaluations. This article offers a way for automating construction payments by formalizing smart contracts execution on a decentralized block-chain-based system. | 翻訳日:2023-02-19 16:50:21 公開日:2022-05-12 |
# 農業用車両と環境のサイバーセキュリティテストを目指して Towards a Cybersecurity Testbed for Agricultural Vehicles and Environments ( http://arxiv.org/abs/2205.05866v1 ) ライセンス: Link先を確認 | Mark Freyhof and George Grispos and Santosh Pitla and Cody Stolle | (参考訳) 現代の農場では、ますます多くの農業システムや車両がインターネットに接続されている。
ネットワーク化された農業機械の利点は魅力的だが、この技術的シフトはサイバー攻撃に繋がる環境を生み出している。
これまでの研究は、農業や農業における一般的なサイバーセキュリティの懸念に焦点を当ててきたが、ミニマルな研究は、サイバー犯罪者によって悪用される可能性のある実際の農業システムにおけるセキュリティ脆弱性を特定する技術に焦点を当てている。
そこで,本稿では,特定の農業システムで使用されている市販オフザシェルフコンポーネントのサイバーセキュリティ脆弱性の特定を支援する手段として,STAVE(STAVE for Agricultural Vehicles and Environments)を提案する。
本報告では,STAVEテストベッドの開発および改良に向けた現在進行中の研究成果について報告するとともに,無線および制御エリアネットワーク(CAN)バス農業車両部品のセキュリティ脆弱性の特定を目的としたサイバーセキュリティ実験について述べる。 In today's modern farm, an increasing number of agricultural systems and vehicles are connected to the Internet. While the benefits of networked agricultural machinery are attractive, this technological shift is also creating an environment that is conducive to cyberattacks. While previous research has focused on general cybersecurity concerns in the farming and agricultural industries, minimal research has focused on techniques for identifying security vulnerabilities within actual agricultural systems that could be exploited by cybercriminals. Hence, this paper presents STAVE - a Security Testbed for Agricultural Vehicles and Environments - as a potential solution to assist with the identification of cybersecurity vulnerabilities within commercially available off-the-shelf components used in certain agricultural systems. This paper reports ongoing research efforts to develop and refine the STAVE testbed, along with describing initial cybersecurity experimentation which aims to identify security vulnerabilities within wireless and Controller Area Network (CAN) Bus agricultural vehicle components. | 翻訳日:2023-02-19 16:50:11 公開日:2022-05-12 |
# 相対論的スピン1/2粒子のユニタリシフトパラメータ推定におけるウィグナー回転の影響 Effect of Wigner rotation on estimating unitary-shift parameter of relativistic spin-1/2 particle ( http://arxiv.org/abs/2204.10395v2 ) ライセンス: Link先を確認 | Shin Funada and Jun Suzuki | (参考訳) 一定の速度で一方向に移動する観測者に対して相対論的粒子の位置の期待値を推定するための精度限界を求める。
我々は、相対論的スピン1/2粒子の特定のモデルを使い、残りのフレームにスピンダウンを持つガウス波動関数によって記述される。
移動観察者のための粒子の状態ベクトルを導出するために、スピンと粒子の運動量とを絡むウィグナー回転を用いる。
移動フレームに対するこの波動関数に基づいて、任意の移動オブザーバに対する推定精度限界を設定する対称対数微分(SLD)クラマー・ラオ境界を求める。
移動観察者がスピン自由度を計測しない場合, 観測者の速度において, 推定精度は単調に低下することが示された。
これは、推定精度の限界が観測者の速度を増加させることで悪化することを意味するが、相対論的極限においても有限である。
我々は、任意の移動フレームにおけるSLD Fisher情報行列の正確な計算により、この情報損失の量を導出する。 We obtain the accuracy limit for estimating the expectation value of the position of a relativistic particle for an observer moving along one direction at a constant velocity. We use a specific model of a relativistic spin-1/2 particle described by a gaussian wave function with a spin down in the rest frame. To derive the state vector of the particle for the moving observer, we use the Wigner rotation that entangles the spin and the momentum of the particle. Based on this wave function for the moving frame, we obtain the symmetric logarithmic derivative (SLD) Cramer-Rao bound that sets the estimation accuracy limit for an arbitrary moving observer. It is shown that estimation accuracy decreases monotonically in the velocity of the observer when the moving observer does not measure the spin degree of freedom. This implies that the estimation accuracy limit worsens with increasing the observer's velocity, but it is finite even in the relativistic limit. We derive the amount of this information loss by the exact calculation of the SLD Fisher information matrix in an arbitrary moving frame. | 翻訳日:2023-02-16 03:27:12 公開日:2022-05-12 |
# 非負行列積状態を用いた密度行列再構成 Density matrix reconstruction using non-negative matrix product states ( http://arxiv.org/abs/2204.12383v2 ) ライセンス: Link先を確認 | Donghong Han and Chu Guo and Xiaoting Wang | (参考訳) 量子状態トモグラフィーは、量子情報処理の鍵となる技術であるが、その複雑さとシステムサイズが指数関数的に増加するため、困難である。
本研究では, サイズが指数関数的に増大しない測定結果の集合に基づいて, 最良非負行列積状態近似を反復的に求めるアルゴリズムを提案する。
ニューラルネットワークの状態に基づくトモグラフィー法と比較して,本手法は,未知の密度行列を行列積状態形式で容易に復元できるいわゆるテンソルトレイン表現を用いる。
応用として, このアルゴリズムの有効性を数値的に示し, 脱分極雑音下でのXXZスピン鎖の基底状態の再構成を行った。 Quantum state tomography is a key technique for quantum information processing, but is challenging due to the exponential growth of its complexity with the system size. In this work, we propose an algorithm which iteratively finds the best non-negative matrix product state approximation based on a set of measurement outcomes whose size does not necessarily grow exponentially. Compared to the tomography method based on neural network states, our scheme utilizes a so-called tensor train representation that allows straightforward recovery of the unknown density matrix in the matrix product state form. As applications, the effectiveness of our algorithm is numerically demonstrated to reconstruct the ground state of the XXZ spin chain under depolarizing noise. | 翻訳日:2023-02-15 12:06:25 公開日:2022-05-12 |
# 周波数分解型単一光子検出器のナノスケールアーキテクチャ Nanoscale Architecture for Frequency-Resolving Single-Photon Detectors ( http://arxiv.org/abs/2205.05817v1 ) ライセンス: Link先を確認 | Steve M. Young, Mohan Sarovar, Fran\c{c}ois L\'eonard | (参考訳) 単一光子検出器は、多くの基礎科学および技術応用において重要な役割を果たす。
高性能化が進んでいるが、高性能を維持しつつ光子周波数を解消できる単一光子検出器はいまだに不足している。
ここでは,光子場と結合的に相互作用するナノスケール素子からなる光検出器アーキテクチャが,高効率,低ジッタ,低ダークカウント率,高周波数分解能を同時に達成できることを示すために,量子力学シミュレーションを用いる。
メトリクス間のパフォーマンスとトレードオフに影響を与える要因について論じる。
最後に、そのようなアーキテクチャの物理的実現の可能性を示す。 Single photon detectors play a key role across a number of basic science and technology applications. While progress has been made in improving performance, single photon detectors that can maintain high performance while also resolving the photon frequency are still lacking. Here we employ quantum dynamical simulations to show that a photodetector architecture composed of nanoscale elements that collectively interact with the photon field can simultaneously achieve high efficiency, low jitter, low dark count rate, and high frequency resolution. We discuss the factors that impact performance and trade-offs between metrics. Finally, a potential physical realization of such an architecture is presented. | 翻訳日:2023-02-13 09:51:02 公開日:2022-05-12 |
# 制御された量子ウォークに基づくブロックハッシュ関数 Controlled Alternate Quantum Walk based Block Hash Function ( http://arxiv.org/abs/2205.05983v1 ) ライセンス: Link先を確認 | Dan Li, Panpan Ding, Yuqian Zhou, Yuguang Yang | (参考訳) ハッシュ関数は暗号学の重要な分野である。
制御された量子ウォークに基づくハッシュ関数は、安全でフレキシブルで高効率で互換性のある、新しいハッシュ関数の一種である。
既存の量子ウォークベースのハッシュ関数はすべて、ステップ毎に1ビットメッセージで制御される。
本稿では,バッチ量でメッセージを処理するために,自己ループを持つ完全グラフ上の時間的位置依存制御量子ウォークを用いて,量子ウォークベースのブロックハッシュ関数を制御する。
提示されたハッシュ関数はハッシュ処理を劇的に加速するので、より高効率である。 The hash function is an important branch of cryptology. Controlled quantum walk based hash function is a kind of novel hash function, which is safe, flexible, high-efficient, and compatible. All existing controlled quantum walk based hash functions are controlled by one bit message in each step. To process message in batch amounts, in this paper, controlled alternate quantum walk based block hash function is presented by using the time-position-dependent controlled quantum walks on complete graphs with self-loops. The presented hash function accelerate the hash processing dramatically, so it is more high-efficient. | 翻訳日:2023-02-13 09:47:59 公開日:2022-05-12 |
# 制御不能な制御:開系力学の量子制御 Controlling the uncontrollable: Quantum control of open system dynamics ( http://arxiv.org/abs/2205.05971v1 ) ライセンス: Link先を確認 | Shimshon Kallush, Roie Dann, and Ronnie Kosloff | (参考訳) オープン量子システムの制御は、現代の量子科学と技術の実現に不可欠な要素である。
本研究では, 熱力学的に一貫した枠組みを用いて, 運転者が環境との相互作用を変更できることを示す。
このような効果は力学方程式に組み込まれ、従属散逸を制御し、この関係は開システム制御の鍵となる。
制御過程の熱力学は、大きなエントロピー生成をもたらす環境への一方向のエネルギーの流れによって反映される。
制御パラダイムは、加熱や冷却などの状態変換に対するエントロピー変化状態を分析して表示される。
さらに、完全なメモリ損失を持つ非ユニタリリセット写像と、単一および二重キュービットのユニタリゲートの普遍集合に対して、散逸条件下での量子ゲートの生成が示される。 Control of open quantum systems is an essential ingredient to the realization of contemporary quantum science and technology. We demonstrate such control by employing a thermodynamically consistent framework, taking into account the fact that the drive can modify the interaction with environment. Such an effect is incorporated within the dynamical equation, leading to control dependent dissipation, this relation serves as the key element for open system control. Thermodynamics of the control process is reflected by a unidirectional flow of energy to the environment resulting in large entropy production. The control paradigm is displayed by analyzing entropy changing state to state transformations, such as heating and cooling. In addition, the generation of quantum gates under dissipative conditions is demonstrated for both non-unitary reset maps with complete memory loss and a universal set of single and double qubit unitary gates. | 翻訳日:2023-02-13 09:47:49 公開日:2022-05-12 |
# 量子モンテカルロ積分と量子振幅増幅による重力波整合フィルタリング Gravitational wave matched filtering by quantum Monte Carlo integration and quantum amplitude amplification ( http://arxiv.org/abs/2205.05966v1 ) ライセンス: Link先を確認 | Koichi Miyamoto, Gonzalo Morr\'as, Takahiro S. Yamamoto, Sachiko Kuroyanagi, Savvas Nesseris | (参考訳) 量子コンピューティングによる重い数値タスクの高速化は、物理学や天文学のデータ分析を含む様々な分野で活発に研究されている。
本稿では,Gaoらによる従来の研究に基づいて,重力波(GW)データ解析におけるマッチングフィルタリングのための新しい量子アルゴリズムを提案する。
研究報告 4 023006 (2022) [arXiv:2109.01535]
提案手法では,ガオ等で用いられる高速フーリエ変換の代わりにモンテカルロ積分法を用いて信号-雑音比(SNR)の計算を行い,量子振幅増幅による高SNR信号テンプレートの探索を行う。
このようにして,gaoなどのアルゴリズムと比較して量子ビット数を指数関数的に減少させ,テンプレート数に対する従来のgwマッチングフィルタリングに対する二次速度を維持できる。 The speedup of heavy numerical tasks by quantum computing is now actively investigated in various fields including data analysis in physics and astronomy. In this paper, we propose a new quantum algorithm for matched filtering in gravitational wave (GW) data analysis based on the previous work by Gao et al., Phys. Rev. Research 4, 023006 (2022) [arXiv:2109.01535]. Our approach uses the quantum algorithm for Monte Carlo integration for the signal-to-noise ratio (SNR) calculation instead of the fast Fourier transform used in Gao et al. and searches signal templates with high SNR by quantum amplitude amplification. In this way, we achieve an exponential reduction of the qubit number compared with Gao et al.'s algorithm, keeping a quadratic speedup over classical GW matched filtering with respect to the template number. | 翻訳日:2023-02-13 09:47:19 公開日:2022-05-12 |
# 単一トラップIon量子ビットの量子同期の観測 Observing Quantum Synchronization of a Single Trapped-Ion Qubit ( http://arxiv.org/abs/2205.05936v1 ) ライセンス: Link先を確認 | Liyun Zhang, Zhao Wang, Yucheng Wang, Junhua Zhang, Zhigang Wu, Jianwen Jie, Yao Lu | (参考訳) 少数の量子系を同期させることは、深層量子構造における同期を理解する上で極めて重要である。
最小の量子系である2段階の系が同期できるかどうかは、過去数年間理論的に議論されてきた。
ここでは初めて、トラップイオンシステムを用いて量子ビットを外部の駆動信号に同期できることを実証する。
工学的に完全に制御可能なゲインおよびダンピングプロセスにより、イオン量子ビットが同期され、駆動信号と同じ周波数で振動し、位相にロックされる。
同期のパラメータ領域を体系的に検討し,アーノルド舌の特徴的特徴を観察する。
その結果,最近の量子同期理論に基づく数値シミュレーションと非常によく一致した。
量子情報の基本単位を同期することにより、大規模量子ネットワークに量子同期を適用する可能性を開く。 Synchronizing a few-level quantum system is of fundamental importance to understanding synchronization in deep quantum regime. Whether a two-level system, the smallest quantum system, can be synchronized has been theoretically debated for the past several years. Here, for the first time, we demonstrate that a qubit can indeed be synchronized to an external driving signal by using a trapped-ion system. By engineering fully controllable gain and damping processes, an ion qubit is synchronized to oscillate at the same frequency as the driving signal and lock in phase. We systematically investigate the parameter regions of synchronization and observe characteristic features of the Arnold tongue. Our measurements agree remarkably well with numerical simulations based on recent theory on qubit synchronization. By synchronizing the basic unit of quantum information, our research opens up the possibility of applying quantum synchronization to large-scale quantum networks. | 翻訳日:2023-02-13 09:46:51 公開日:2022-05-12 |
# 量子および古典的プラットフォームで動作する量子回路の切断 Cutting Quantum Circuits to Run on Quantum and Classical Platforms ( http://arxiv.org/abs/2205.05836v1 ) ライセンス: Link先を確認 | Wei Tang, Margaret Martonosi | (参考訳) 量子コンピューティング(QC)は、古典コンピューティングよりも大幅にスピードアップする可能性を持つ新しいコンピューティングパラダイムを提供する。
各量子ビットは、量子アルゴリズムで利用可能な計算状態空間のサイズを2倍にする。
このような指数関数的に拡大したリーチはQCのパワーを弱めるが、同時に量子処理ユニット(QPU)ハードウェアの要求を満たす。
一方、中央処理ユニット(CPU)またはグラフィック処理ユニット(GPU)の量子回路の古典的なシミュレーションは、実行時やメモリによって急速にボトルネックとなるため、スケールが低下する。
本稿では,大規模量子回路を量子(qpu)および古典的プラットフォーム(cpuまたはgpu)に分散して協調処理を行う,スケーラブルなハイブリッドコンピューティング手法である cutqc を提案する。
CutQCは、QPUや古典的なシミュレーションの限界よりも大きい量子回路の評価を示し、実システムで達成される大きなNISQデバイスよりもはるかに高い量子回路評価忠実性を達成する。 Quantum computing (QC) offers a new computing paradigm that has the potential to provide significant speedups over classical computing. Each additional qubit doubles the size of the computational state space available to a quantum algorithm. Such exponentially expanding reach underlies QC's power, but at the same time puts demanding requirements on the quantum processing units (QPU) hardware. On the other hand, purely classical simulations of quantum circuits on either central processing unit (CPU) or graphics processing unit (GPU) scale poorly as they quickly become bottlenecked by runtime and memory. This paper introduces CutQC, a scalable hybrid computing approach that distributes a large quantum circuit onto quantum (QPU) and classical platforms (CPU or GPU) for co-processing. CutQC demonstrates evaluation of quantum circuits that are larger than the limit of QPU or classical simulation, and achieves much higher quantum circuit evaluation fidelity than the large NISQ devices achieve in real-system runs. | 翻訳日:2023-02-13 09:46:10 公開日:2022-05-12 |
# プロシージャコンテンツ生成のためのサロゲート不実現性フィトネス取得FI-2Pop Surrogate Infeasible Fitness Acquirement FI-2Pop for Procedural Content Generation ( http://arxiv.org/abs/2205.05834v1 ) ライセンス: Link先を確認 | Roberto Gallotta, Kai Arulkumaran, L. B. Soros | (参考訳) プロシージャコンテンツ生成(PCG)を用いてビデオゲームのコンテンツを生成する場合、高品質な機能資産を作成することが目的である。
従来の研究では、PCGのための実現不可能な2つの集団 (FI-2Pop) 制約付き最適化アルゴリズムを多次元の表現型エリート (MAP-Elites) アルゴリズムのアーカイブと組み合わせて様々な解を見つけることが一般的であった。
しかし、実現不可能な人口に対する適合関数は、違反する制約の数だけを考慮に入れる。
本報告では, 親が子どもを産み出す確率を重み付け, 子どもの体力を予測するために, 代理モデルを用いたFI-2Popのバリエーションを提案する。
これにより、より高い適合性、実現可能なソリューションへの選択が促進される。
本手法は,宇宙技術者のための宇宙船作成作業において,標準FI-2Popと,より最近のマルチエミッタ制約MAP-Elitesアルゴリズムの改善を示すものである。 When generating content for video games using procedural content generation (PCG), the goal is to create functional assets of high quality. Prior work has commonly leveraged the feasible-infeasible two-population (FI-2Pop) constrained optimisation algorithm for PCG, sometimes in combination with the multi-dimensional archive of phenotypic-elites (MAP-Elites) algorithm for finding a set of diverse solutions. However, the fitness function for the infeasible population only takes into account the number of constraints violated. In this paper we present a variant of FI-2Pop in which a surrogate model is trained to predict the fitness of feasible children from infeasible parents, weighted by the probability of producing feasible children. This drives selection towards higher-fitness, feasible solutions. We demonstrate our method on the task of generating spaceships for Space Engineers, showing improvements over both standard FI-2Pop, and the more recent multi-emitter constrained MAP-Elites algorithm. | 翻訳日:2023-02-13 09:45:53 公開日:2022-05-12 |
# 量子理論の創発とミンコフスキー時空 Emergence of Quantum Theory and Minkowski Spacetime ( http://arxiv.org/abs/2205.05829v1 ) ライセンス: Link先を確認 | Si-xue Qin | (参考訳) 最先端の物理学は、量子論と一般相対性理論という2つの非可換な分野から成り、それぞれ独自の領域で独立に機能する。
しかし、結局のところ、量子と時空とは何か?
重要な問題は決して解決されなかった。
本稿では、ミンコフスキー時空における量子論をユークリッド時空における古典物理学、すなわち古典力学と確率過程論の観点から再構成する可能性について述べる。
量子論とミンコフスキー時空は互いに結びつき、単一の基本的な実体から現れる可能性があることを示す。 The state-of-the-art physics consists of two irreconcilable branches, i.e., the quantum theory and the general relativity, which work well in their own territories, independently. However, what are quantum and spacetime after all? The key question was never addressed, satisfactorily. In this work, we describe a possibility to reformulate the quantum theory in the Minkowski spacetime from the viewpoint of classic physics in the Euclidean spacetime, i.e., classic mechanics and stochastic process theory. We show that quantum theory and Minkowski spacetime may connect with each other and emerge from a single fundamental entity. | 翻訳日:2023-02-13 09:45:34 公開日:2022-05-12 |
# 量子フーリエ変換に基づくセキュアなマルチパーティ量子和 Secure multi-party quantum summation based on quantum Fourier transform ( http://arxiv.org/abs/2205.06123v1 ) ライセンス: Link先を確認 | Hui-Yi Yang, Tian-Yu Ye | (参考訳) 本稿では,移動粒子を木型モードで伝送する量子フーリエ変換に基づく,セキュアなマルチパーティ量子和プロトコルを提案する。
初期量子状態の準備をする者は半正統であると仮定され、これは彼女が自分自身で誤解するかもしれないが、誰とも共謀しないことを意味する。
提案プロトコルは外部攻撃と参加者攻撃の両方に抵抗することができる。
特に、ある当事者は、他の当事者のプライベート整数列を得ることができず、n が当事者数である n-2 個の当事者が行う衝突攻撃に対して安全である。
さらに、提案プロトコルは、modulo d の追加を計算し、ビット単位ではなくシークレット・バイ・シークレット方式で加算の計算を実行する。 In this paper, we propose a novel secure multi-party quantum summation protocol based on quantum Fourier transform, where the traveling particles are transmitted in a tree-type mode. The party who prepares the initial quantum states is assumed to be semi-honest, which means that she may misbehave on her own but will not conspire with anyone. The proposed protocol can resist both the outside attacks and the participant attacks. Especially, one party cannot obtain other parties' private integer strings; and it is secure for the colluding attack performed by at most n-2 parties, where n is the number of parties. In addition, the proposed protocol calculates the addition of modulo d and implements the calculation of addition in a secret-by-secret way rather than a bit-by-bit way. | 翻訳日:2023-02-13 09:39:20 公開日:2022-05-12 |
# 量子ビットの少ない非正則グラフにおけるマルコフ鎖の高速量子混合 Faster quantum mixing of Markov chains in non-regular graph with fewer qubits ( http://arxiv.org/abs/2205.06099v1 ) ライセンス: Link先を確認 | Xinyin Li, Yun Shang | (参考訳) 定常分布からのサンプリングはマルコフ連鎖に基づくアルゴリズムの基本課題の1つであり、機械学習、組合せ最適化、ネットワーク科学において重要な応用がある。
量子の場合、マルコフ連鎖からのqサンプリングは、定常分布からの古典的なサンプリングではなく、定常分布の平方根に任意に近い振幅を持つ量子状態を作成するために構成できる。
本稿では,すべての可逆マルコフ連鎖に対する新しいqsamplingアルゴリズムを離散時間量子ウォークによって構築し,既存の結果と比較して制限なく動作させる。
具体的には、非正則グラフを高速化するだけでなく、既存の正則グラフの量子アルゴリズムを高速化するqsamplingアルゴリズムを構築する。
非正規グラフでは、量子高速フォワードアルゴリズムの起動は、特にスパースグラフ上の離散時間と連続時間の両方で既存の最先端のqsamplingアルゴリズムを加速させる。
既存のアルゴリズムと比較して、n はグラフ頂点の数である log n を減らす。
正規グラフでは、我々の結果は他の量子アルゴリズムと一致し、マルコフ連鎖のギャップへの依存は古典的な場合と比較して二次的なスピードアップを達成する。
どちらのケースでも、既存の結果と比較して必要となるアンシラキュービットの数を減らす。
いくつかの広く使われているグラフや、定常分布の到達が困難であるスパースグラフにおいて、我々のアルゴリズムは、制限なく古典的なケースに対して(ログ係数なしで)完全な二次加速度を達成する最初のアルゴリズムである。
成功確率振幅増幅を増大させる。
静止状態に新たな反射を生じさせるため,アンシラ量子ビットが少なく,独立した応用が考えられる。 Sampling from the stationary distribution is one of the fundamental tasks of Markov chain-based algorithms and has important applications in machine learning, combinatorial optimization and network science. For the quantum case, qsampling from Markov chains can be constructed as preparing quantum states with amplitudes arbitrarily close to the square root of a stationary distribution instead of classical sampling from a stationary distribution. In this paper, a new qsampling algorithm for all reversible Markov chains is constructed by discrete-time quantum walks and works without any limit compared with existing results. In detail, we build a qsampling algorithm that not only accelerates non-regular graphs but also keeps the speed-up of existing quantum algorithms for regular graphs. In non-regular graphs, the invocation of the quantum fast-forward algorithm accelerates existing state-of-the-art qsampling algorithms for both discrete-time and continuous-time cases, especially on sparse graphs. Compared to existing algorithms we reduce log n, where n is the number of graph vertices. In regular graphs, our result matches other quantum algorithms, and our reliance on the gap of Markov chains achieves quadratic speedup compared with classical cases. For both cases, we reduce the number of ancilla qubits required compared to the existing results. In some widely used graphs and a series of sparse graphs where stationary distributions are difficult to reach quickly, our algorithm is the first algorithm to achieve complete quadratic acceleration (without log factor) over the classical case without any limit. To enlarge success probability amplitude amplification is introduced. We construct a new reflection on stationary state with fewer ancilla qubits and think it may have independent application. | 翻訳日:2023-02-13 09:39:08 公開日:2022-05-12 |
# 大型コリメータ用走査型ペンタプリズムによる光収差のキャラクタリゼーション Characterization of optical aberrations with scanning pentaprism for large collimators ( http://arxiv.org/abs/2205.06081v1 ) ライセンス: Link先を確認 | Youn Seok Lee, Kimia Mohammadi, and Thomas Jennewein | (参考訳) 本稿では,大きなコリメーションミラーとレンズの光学収差を特徴付けるための実用的な装置を提案し,波面検出誤差の詳細な解析を行う。
走査型ペンタプリズム法を用いて局所波面傾斜の精密測定を行い, 伝送波面を最小二乗法により再構成する。
我々の実証実験は、カナダの量子暗号化科学衛星(QEYSSat)ミッションのために開発された20.3cmのレンズの伝送波面の逆線形測定を実証した。
実験では, 波面検出精度は 0.01{\lambda} より良く, 発散角分解能は 40 cm の範囲で 20{\mu}rad 以下であった。
我々は3次元レイトレーシングを用いて光学的セットアップをモデル化し、実験結果と理論予測との良好な定量的一致を見出す。 We present a practical apparatus for characterizing optical aberrations of large collimation mirrors and lenses, and give a detailed analysis of wavefront-detection errors. We utilize a scanning pentaprism technique for precise measurements of local wavefront slopes, and reconstruct transmitted wavefronts via a conventional least-squares method. Our proof-of-principle experiment demonstrates transverse linear measurements of transmitted wavefronts for a 20.3 cm lens developed for Canada's Quantum Encryption and Science Satellite (QEYSSat) mission. Our demonstration shows the wavefront-detection precision better than 0.01{\lambda} and the divergence-angle resolution less than 20{\mu}rad over the range of 40 cm. We model our optical setup using three-dimensional raytracing and find good quantitative agreement between experimental results and theoretical predictions which validates our methodology. | 翻訳日:2023-02-13 09:38:04 公開日:2022-05-12 |
# 行列のヒルベルト・シュミット空間の直交基底について On orthogonal bases in the Hilbert-Schmidt space of matrices ( http://arxiv.org/abs/2205.06035v1 ) ライセンス: Link先を確認 | Jens Siewert | (参考訳) 行列の直交基底による(有限次元)作用素の分解は、何十年もの間量子物理学の標準的な方法であった。
近年では、グラフ状態形式論や量子誤り訂正符号の理論など、量子情報に適用される様々な手法が普及しているが、同時に量子状態のブロッホ表現に関する研究が激化している。
この貢献において、有限次元直交行列基底を持つ様々な興味深い事実とアイデンティティを収集する。 Decomposition of (finite-dimensional) operators in terms of orthogonal bases of matrices has been a standard method in quantum physics for decades. In recent years, it has become increasingly popular because of various methodologies applied in quantum information, such as the graph state formalism and the theory of quantum error correcting codes, but also due to the intensified research on the Bloch representation of quantum states. In this contribution we collect various interesting facts and identities that hold for finite-dimensional orthogonal matrix bases. | 翻訳日:2023-02-13 09:36:58 公開日:2022-05-12 |
# 一様磁場中におけるランドーの量子化を再現したド・ブロイの二重解理論の1版 A version of de Broglie's double solution theory reproducing Landau's quantization in a uniform magnetic field ( http://arxiv.org/abs/2205.06292v1 ) ライセンス: Link先を確認 | Pierre Jamet and Aur\'elien Drezet | (参考訳) 本研究は,定磁場下で分裂する有名なランダウ準位を再現するために,ド・ブロイの二重解理論に基づくモデルを開発する。 In this work we develop a model based on the double solution theory of de Broglie in order to reproduce the famous Landau levels splitting in a constant magnetic field. | 翻訳日:2023-02-13 09:29:45 公開日:2022-05-12 |
# 高温超伝導体の電力・温度依存性モデル Power and temperature dependent model for High Q superconductors ( http://arxiv.org/abs/2205.06291v1 ) ライセンス: Link先を確認 | Ashish Alexander ((1) Laboratory for Physical Sciences, University of Maryland (2) Department of Electrical Engineering, University of Maryland), Christopher G. Weddle ((1) Laboratory for Physical Sciences, University of Maryland), Christopher J.K. Richardson ((1) Laboratory for Physical Sciences, University of Maryland (3) Department of Material Science and Engineering, University of Maryland) | (参考訳) コプラナー導波路超伝導共振器の内部品質係数の測定は、超伝導装置の損失を小さくする確立された方法である。
従来、共振器の損失は、品質係数のパワー依存モデルを用いた2レベルシステム(tls)欠陥のみに起因している。
しかし、過剰な非平衡準粒子は、回路量子電磁力学で使用される平面超伝導共振器の品質因子を制限できる。
ミリケルビン温度では、準粒子はクーパー対を1つの高エネルギーまたは複数のサブギャップ光子によって破ることで生成される。
ここでは、TLSと準粒子損失を同時に分離する共振器損失を評価するために、2温度・電力・温度依存モデルを提案する。
このモデルは、従来のTLSパワーと温度依存性と、超伝導損失の効果的な温度非平衡準粒子記述を組み合わせる。
準粒子記述は、外部準粒子生成源のレート方程式を用いて計算された準粒子数密度、組換えおよびトラップに基づいている。
数密度は、浴と異なる熱分布を用いて有効温度に変換される。
シリコン上の単結晶アルミニウムおよび窒化チタン薄膜から作製した高品質因子共振器の実験的測定を本モデルと解釈した。
このアプローチにより、準粒子とTLS損失の同定が可能となり、TiN共振器は低出力および低温でのTLSと準粒子の損失に匹敵するが、低温Al共振器の挙動は非平衡準粒子の損失に支配される。 Measuring the internal quality factor of coplanar waveguide superconducting resonators is an established method of determining small losses in superconducting devices. Traditionally, the resonator losses are only attributed to two-level system (TLS) defects using a power dependent model for the quality factor. However, excess non-equilibrium quasiparticles can also limit the quality factor of the planar superconducting resonators used in circuit quantum electrodynamics. At millikelvin temperatures, quasiparticles can be generated by breaking Cooper pairs via a single high-energy or multiple sub-gap photons. Here a two-temperature, power and temperature dependent model is proposed to evaluate resonator losses for isolating TLS and quasiparticle loss simultaneously. The model combines the conventional TLS power and temperature dependence with an effective temperature non-equilibrium quasiparticle description of the superconducting loss. The quasiparticle description is based on the quasiparticle number density calculated using rate equations for an external quasiparticle generation source, recombination, and trapping. The number density is translated to an effective temperature using a thermal distribution that may be different from the bath. Experimental measurements of high-quality factor resonators fabricated from single crystal aluminum and titanium nitride thin films on silicon are interpreted with the presented model. This approach enables identification of quasiparticle and TLS loss, resulting in the determination that the TiN resonator has comparable TLS and quasiparticle loss at low power and low-temperature, while the low-temperature Al resonator behavior is dominated by non-equilibrium quasiparticle loss. | 翻訳日:2023-02-13 09:29:40 公開日:2022-05-12 |
# スピノルボースガス中における容易平面強磁性体の凝縮と熱分解 Condensation and thermalization of an easy-plane ferromagnet in a spinor Bose gas ( http://arxiv.org/abs/2205.06188v1 ) ライセンス: Link先を確認 | Maximilian Pr\"ufer, Daniel Spitz, Stefan Lannig, Helmut Strobel, J\"urgen Berges, Markus K. Oberthaler | (参考訳) スピンの広範な制御により、スピントロニクスは将来のスケーラブルな量子デバイスにとって有望な候補となる。
スピン超流体系の生成には、コヒーレンスと緩和の蓄積に関する詳細な理解が必要である。
しかしながら、ロバストなコヒーレンス特性と熱化を忠実に確認するための関連するパラメータを決定するためには、空間および時間分解スピン観測器への直接アクセスが必要である。
本稿では, 均一な1次元スピノルボースガスを用いた簡易平面強磁性体の熱化について検討する。
スピン場に対する長距離コヒーレンスの動的出現と, ランダウの条件を実験的に検証することによりスピン超流動性を検証した。
1つの「質量」モード(ヒッグスモード)と2つの「質量なし」モード(ゴールドストーンモード)、それぞれ明示的および自発的対称性の破れの結果である。
本実験では, 容易平面強磁性ボース気体の熱化を初めて観測し, ボゴリューボフ近似の微視的モデルから得られた熱予測と関連する運動量分解観測量との一致を見いだした。
我々の方法と結果は、大型磁気スピン系の凝縮力学の定量的理解への道を開くとともに、その熱化における絡み合いとトポロジカル励起の役割を研究する。 The extensive control of spin makes spintronics a promising candidate for future scalable quantum devices. For the generation of spin-superfluid systems, a detailed understanding of the build-up of coherence and relaxation is necessary. However, to determine the relevant parameters for robust coherence properties and faithfully witnessing thermalization, the direct access to space- and time-resolved spin observables is needed. Here, we study the thermalization of an easy-plane ferromagnet employing a homogeneous one-dimensional spinor Bose gas. Building on the pristine control of preparation and readout we demonstrate the dynamic emergence of long-range coherence for the spin field and verify spin-superfluidity by experimentally testing Landau's criterion. We reveal the structure of the emergent quasi-particles: one 'massive'(Higgs) mode, and two 'massless' (Goldstone) modes - a consequence of explicit and spontaneous symmetry breaking, respectively. Our experiments allow for the first time to observe the thermalization of an easy-plane ferromagnetic Bose gas; we find agreement for the relevant momentum-resolved observables with a thermal prediction obtained from an underlying microscopic model within the Bogoliubov approximation. Our methods and results pave the way towards a quantitative understanding of condensation dynamics in large magnetic spin systems and the study of the role of entanglement and topological excitations for its thermalization. | 翻訳日:2023-02-13 09:27:51 公開日:2022-05-12 |
# 弱結合分子の振動ラダー脱落光安定化:遺伝的アルゴリズムによる量子最適制御 Vibrational ladder-descending photostabilization of a weakly bound molecule: Quantum optimal control with a genetic algorithm ( http://arxiv.org/abs/2205.06165v1 ) ライセンス: Link先を確認 | Mateo Londo\~no, Julio C. Arce | (参考訳) 極性分子を高次振動レベルからターゲット低次分子へ同一電子状態内で駆動する光制御方式を提案する。
この方式は、解析的な形状の赤外線チャープレーザーパルスを使用し、パラメータは遺伝的アルゴリズムに基づく量子最適制御のヒューリスティックな定式化によって最適化される。
この手法をkrbフェッシュバッハ分子の最低三重項電子状態における計算的に示す。 We propose an optical control scheme for driving a polar molecule from a high-lying vibrational level to a target low-lying one, within the same electronic state. The scheme utilizes an infrared chirped laser pulse with an analytical shape, whose parameters are optimized by means of a heuristic formulation of quantum optimal control based on a genetic algorithm. We illustrate this methodology computationally for a KRb Feshbach molecule in the lowest triplet electronic state. | 翻訳日:2023-02-13 09:27:26 公開日:2022-05-12 |
# 完全周波数ビンベルベースシンセサイザ Complete frequency-bin Bell basis synthesizer ( http://arxiv.org/abs/2205.06141v1 ) ライセンス: Link先を確認 | Suparna Seshadri, Hsuan-Hao Lu, Daniel E. Leaird, Andrew M. Weiner and Joseph M. Lukens | (参考訳) 単一スペクトル線と2重スペクトル線による自発的パラメトリック・ダウンコンバージョンを連続的にパンピングすることで、4つの周波数-ビンベル状態をすべて単一多用途に実験的に生成する。
本方式では, ポンプ構成の制御に強度変調を用い, オフザシェルフ通信機器のみを用いて, 所望のベル状態のターンキー生成を行う。
ベイズ推定を用いて生成したベル状態の密度行列を再構成し、すべてのケースに対して$\geq$97%を求める。
さらに,完全ベルベースシンセサイザによって実現される高分解能または非局所センシングのポテンシャルを示す状態である\unicode{x2013}$を含む光子によってトラバースされるコモンモードおよびディファレンシャルモードの時間遅延に対する周波数ビンベル状態の感度を示す。 We report the experimental generation of all four frequency-bin Bell states in a single versatile setup via successive pumping of spontaneous parametric downconversion with single and dual spectral lines. Our scheme utilizes intensity modulation to control the pump configuration and offers turn-key generation of any desired Bell state using only off-the-shelf telecommunication equipment. We employ Bayesian inference to reconstruct the density matrices of the generated Bell states, finding fidelities $\geq$ 97% for all cases. Additionally, we demonstrate the sensitivity of the frequency-bin Bell states to common-mode and differential-mode temporal delays traversed by the photons comprising the state$\unicode{x2013}$presenting the potential for either enhanced resolution or nonlocal sensing enabled by our complete Bell basis synthesizer. | 翻訳日:2023-02-13 09:27:06 公開日:2022-05-12 |
# 多成分系における一夫一婦制と一夫一妻制の関係 Tightening monogamy and polygamy relations of unified entanglement in multipartite systems ( http://arxiv.org/abs/2205.06394v1 ) ライセンス: Link先を確認 | Mei-Ming Zhang, Naihuan Jing, Hui Zhao | (参考訳) 多部量子系における統一絡み合いのモノガミーとポリガミーの不等式について検討する。
まず、任意の二分法の下でのマルチ量子ビット状態に対する統一-$(q, s)$エンタングルメントの単元不等式を導出し、次に三元状態の形成の絡み合いのパワーと多量子量子状態におけるそれらの一般化の値である$\alpha$th (0\leq\alpha\leq\frac{r}{2}, r\geq\sqrt{2}$) の単元不等式を得る。
また、任意の二分割の下でマルチ量子ビット状態に対するunified-$(q, s)$ の多元不等式を一般化する。
さらに、$\beta$th ($\beta\geq \max\{1, s\}, 0\leq s\leq s_0, 0\leq s_0\leq\sqrt{2}$) のポリガミー不等式を、$2\otimes2\otimes2$ および$n$-qubit量子系に対する生成の絡み合いについて検討する。
最後に, 詳細な例から, 従来の研究よりも厳密な結果が得られた。 We study the monogamy and polygamy inequalities of unified entanglement in multipartite quantum systems. We first derive the monogamy inequality of unified-$(q, s)$ entanglement for multi-qubit states under arbitrary bipartition, and then obtain the monogamy inequalities of the $\alpha$th ($0\leq\alpha\leq\frac{r}{2}, r\geq\sqrt{2}$) power of entanglement of formation for tripartite states and their generalizations in multi-qubit quantum states. We also generalize the polygamy inequalities of unified-$(q, s)$ entanglement for multi-qubit states under arbitrary bipartition. Moreover, we investigate polygamy inequalities of the $\beta$th ($\beta\geq \max\{1, s\}, 0\leq s\leq s_0, 0\leq s_0\leq\sqrt{2}$) power of the entanglement of formation for $2\otimes2\otimes2$ and $n$-qubit quantum systems. Finally, using detailed examples, we show that the results are tighter than previous studies. | 翻訳日:2023-02-13 09:21:26 公開日:2022-05-12 |
# 雑音環境下での効率的な量子状態追跡 Efficient Quantum State Tracking in Noisy Environments ( http://arxiv.org/abs/2205.06389v1 ) ライセンス: Link先を確認 | Markus Rambach, Akram Youssry, Marco Tomamichel, and Jacquiline Romero | (参考訳) 量子状態トモグラフィーは、量子状態 -- 密度行列 -- の最良の記述を見つけることを目的としており、量子計算と通信において不可欠な構成要素である。
状態トモグラフィの標準技術は変化状態の追跡が不可能であり、環境騒音の存在下では性能が悪いことが多い。
これらの問題を理論的に解くには異なるアプローチがあるが、これまで実験的な実証は少なかった。
提案手法は, オンライン・トモグラフィ法であり, 状態追跡が可能であり, 推定密度行列を最初の測定値から動的に更新し, 計算効率が向上し, ノイズデータにおいても高い推定値に収束する。
アルゴリズムは1つのパラメータ、その学習率で制御され、パフォーマンスを判断し、個々の実験にシミュレーションで調整することができる。
本稿では,光子の横空間モードにエンコードされたクトリット系における行列指数勾配トモグラフィーの実験的実装について述べる。
定常状態および進化状態における本手法の性能と環境騒音について検討し, いずれの場合においても約95%のフィデリティを見いだした。 Quantum state tomography, which aims to find the best description of a quantum state -- the density matrix, is an essential building block in quantum computation and communication. Standard techniques for state tomography are incapable of tracking changing states and often perform poorly in the presence of environmental noise. Although there are different approaches to solve these problems theoretically, experimental demonstrations have so far been sparse. Our approach, matrix-exponentiated gradient tomography, is an online tomography method that allows for state tracking, updates the estimated density matrix dynamically from the very first measurements, is computationally efficient, and converges to a good estimate quickly even with noisy data. The algorithm is controlled via a single parameter, its learning rate, which determines the performance and can be tailored in simulations to the individual experiment. We present an experimental implementation of matrix-exponentiated gradient tomography on a qutrit system encoded in the transverse spatial mode of photons. We investigate the performance of our method on stationary and evolving states, as well as significant environmental noise, and find fidelities of around 95% in all cases. | 翻訳日:2023-02-13 09:20:51 公開日:2022-05-12 |
# スピンスクイーズ原子状態のモード絡み合いネットワークによる分散量子センシング Distributed quantum sensing with a mode-entangled network of spin-squeezed atomic states ( http://arxiv.org/abs/2205.06382v1 ) ライセンス: Link先を確認 | Benjamin K. Malia, Yunfan Wu, Juli\'an Mart\'inez-Rinc\'on, Mark A. Kasevich | (参考訳) 量子センサーは正確な時間保持、フィールドセンシング、量子通信に使用される。
これらのセンサーの分散ネットワーク間の比較は、例えば異なる場所で時計を同期させることができる。
センサネットワークの性能は、ネットワークを実現するために使用される量子状態に関連する固有のノイズと同様に、技術的な課題によって制限される。
各ノードに局所的な絡み合いしか持たないネットワークの場合、ネットワークのノイズ性能はノード数の平方根で改善される。
ここでは,ネットワークノード間の非局所的絡み合いが,ネットワークサイズによるスケーリングを向上することを示す。
共有量子非劣化測定は、最大4ノードのクロックネットワークを絡ませる。
このネットワークは、非局所的な絡み合いのないものよりも4.5dBの精度が向上し、量子投影ノイズ限界で動作しているセンサーのネットワークに比べて11.6dBの精度が向上する。
センサ出力の固有差比較に最適化された科学的および技術的に関連のある構成において、原子時計および原子干渉計プロトコルを用いたアプローチの汎用性を示す。 Quantum sensors are used for precision timekeeping, field sensing, and quantum communication. Comparisons among a distributed network of these sensors are capable of, for example, synchronizing clocks at different locations. The performance of a sensor network is limited by technical challenges as well as the inherent noise associated with the quantum states used to realize the network. For networks with only local entanglement at each node, the noise performance of the network improves at best with square root of the number of nodes. Here, we demonstrate that nonlocal entanglement between network nodes offers better scaling with network size. A shared quantum nondemolition measurement entangles a clock network with up to four nodes. This network provides up to 4.5 dB better precision than one without nonlocal entanglement, and 11.6 dB improvement as compared to a network of sensors operating at the quantum projection noise limit. We demonstrate the generality of the approach with atomic clock and atomic interferometer protocols, in scientific and technologically relevant configurations optimized for intrinsically differential comparisons of sensor outputs. | 翻訳日:2023-02-13 09:20:15 公開日:2022-05-12 |
# 回帰量子コンピューティング Retrodictive Quantum Computing ( http://arxiv.org/abs/2205.06346v1 ) ライセンス: Link先を確認 | Jacques Carette and Gerardo Ortiz and Amr Sabry | (参考訳) 量子計算モデルは古典計算よりも強力であると考えられている。
量子アルゴリズムは、ある問題に対して、従来のアルゴリズムよりもリソース効率が良いことを証明することに集中している。
しかしながら、これらすべてが推論の標準的な予測パラダイムを前提としており、初期条件が与えられた場合、未来が答えを持つ。
未来から現在へ情報を持ち込み、それを有利に活用するのはどうでしょう?
これは、計算された関数の特定の形式から恩恵を受ける、推論(Retrodictive Computation)と呼ばれる、急進的な新しいアプローチである。
本稿では,量子ドイッチュ=ジョゼサ,ベルンシュタイン=ヴァジランニ,サイモン,グローバー,ショールのアルゴリズムのインスタンスを効率的に,かつ古典的に解くために,再帰的量子コンピューティングを実現するために記号計算のツールを使用する方法を示す。 Quantum models of computation are widely believed to be more powerful than classical ones. Efforts center on proving that, for a given problem, quantum algorithms are more resource efficient than any classical one. All this, however, assumes a standard predictive paradigm of reasoning where, given initial conditions, the future holds the answer. How about bringing information from the future to the present and exploit it to one's advantage? This is a radical new approach for reasoning, so-called Retrodictive Computation, that benefits from the specific form of the computed functions. We demonstrate how to use tools of symbolic computation to realize retrodictive quantum computing at scale and exploit it to efficiently, and classically, solve instances of the quantum Deutsch-Jozsa, Bernstein-Vazirani, Simon, Grover, and Shor's algorithms. | 翻訳日:2023-02-13 09:19:59 公開日:2022-05-12 |
# 量子2モード圧縮レーダにおけるジョセフソンパラメトリック増幅器 Engineered Josephson Parametric Amplifier in quantum two-modes squeezed radar ( http://arxiv.org/abs/2205.06344v1 ) ライセンス: Link先を確認 | Seyed Mohammad Hosseiny, Milad Norouzi, Jamileh Seyed-Yazdi, Mohammad Hossein Ghamat | (参考訳) ジョセフソンパラメトリック増幅器(JPA)工学は量子二モード圧縮レーダー(QTMS)において重要な要素であり、レーダーの性能や検出範囲や帯域幅を高める。
本研究ではQTMSレーダの設計に焦点を当てた研究領域に量子理論を適用した。
我々は、量子レーダ(QR)の性能を高めるために、JPA (EJPA) を適用した。
我々は,信号とアイドラーの相関について検討し,室温での絡み合いの維持戦略を提案する。
我々はQTMSレーダの量子信号対雑音比(SNR)と検出範囲方程式を定義する。
工学的なJPAは、量子レーダの性能を著しく向上させ、すなわち、量子SNRが約6dBに大きく向上し、より少ないチャネルで検出される確率が大幅に向上し、QTMSレーダ範囲が従来のJPAの半メートルから482mに大幅に増加した。 Josephson parametric amplifier (JPA) engineering is a significant component in the quantum two-mode squeezed radar (QTMS), to enhance, for instance, radar performance and the detection range or bandwidth. In this study, we apply quantum theory to a research domain focusing the design of QTMS radar. We apply engineered JPA (EJPA) to enhance the performance of a quantum radar (QR). We investigate the correlation between the signal and idler using and we propose strategies for maintaining entanglement at room temperature. We define the quantum signal-to-noise ratio (SNR) and detection range equations of the QTMS radar. The engineering JPA, leads to a remarkable improvement of the quantum radar performance, i.e. a large enhancement in quantum SNR of about 6 dB, a substantial improvement in the probability of detection through far fewer channels, and a huge increase in QTMS radar range, from half a meter in the conventional JPA to 482 m in the current study. | 翻訳日:2023-02-13 09:19:44 公開日:2022-05-12 |
# 量子絡み合いの平均容量 Average capacity of quantum entanglement ( http://arxiv.org/abs/2205.06343v1 ) ライセンス: Link先を確認 | Lu Wei | (参考訳) エンタングルメントエントロピーの代替として、エンタングルメントの容量は量子二部方程式系のエンタングルメントの度合いを探索し推定する有望な候補となる。
本研究では,乱数状態の主要モデルに対する絡み合い能力の典型的な挙動について検討する。
特に、平均容量の厳密で漸近的な公式はヒルベルト=シュミットとベール=ホールのアンサンブルの下で導出されている。
得られた式は、最近文献で計算された平均容量の部分的な結果を一般化する。
結果を導出するための重要な要素として,基礎となる直交多項式と特殊関数に関するランダム行列理論の最近の進歩を利用する。
エンタングルメントインジケータとしての平均容量の有用性を説明するために数値的研究が行われている。 As an alternative to entanglement entropies, the capacity of entanglement becomes a promising candidate to probe and estimate the degree of entanglement of quantum bipartite systems. In this work, we study the typical behavior of entanglement capacity over major models of random states. In particular, the exact and asymptotic formulas of average capacity have been derived under the Hilbert-Schmidt and Bures-Hall ensembles. The obtained formulas generalize some partial results of average capacity computed recently in the literature. As a key ingredient in deriving the results, we make use of recent advances in random matrix theory pertaining to the underlying orthogonal polynomials and special functions. Numerical study has been performed to illustrate the usefulness of average capacity as an entanglement indicator. | 翻訳日:2023-02-13 09:19:25 公開日:2022-05-12 |
# ノイズ記憶による量子テレポーテーションのスケジューリング Scheduling Quantum Teleportation with Noisy Memories ( http://arxiv.org/abs/2205.06300v1 ) ライセンス: Link先を確認 | Aparimit Chandra (1), Wenhan Dai (1 and 2), Don Towsley (1) ((1) University of Massachusetts Amherst, (2) Massachusetts Institute of Technology) | (参考訳) 量子テレポーテーションチャネルは、ファイバー上の量子ネットワークの実装における大きな課題であるフォトニックロスの効果を克服することができる。
テレポーテーションチャネルは、古典的な通信を必要とする確率過程である2つのノード間で絡み合った状態を分散することによって生成される。
これは、量子データがメモリに格納されたときにデコヒーレンスに悩まされるため、情報損失を引き起こす重大な遅延を引き起こす。
本研究では,量子ネットワークのノードにおける非コヒーレンスの影響を,ノイズの多いメモリプラットフォームにおける量子ビットの保存により定量化する。
我々は、メモリプラットフォームを、テレポーテーションチャネルの作成を待つ入力キュービットを格納するバッファとしてモデル化する。
メモリプラットフォームは、受信キュービットが提供される順序に加えて、デコヒーレンスレートとバッファサイズでパラメータ化される。
ノードにおける忠実度は項の線形和であり、時間とともに指数関数的に減衰し、その崩壊率はメモリプラットフォームのデコヒーレンス速度に依存することを示す。
これにより、Laplace Transformsを使用して、メモリプラットフォームの負荷、バッファサイズ、デコヒーレンス率に関して、平均忠実度を効率的に計算可能な関数を導出することができる。
バッファオーバーフロー管理のプッシュアウトを併用したLast In First Outのキュービットが,平均忠実度の観点から最適であることを示す。
最後に,このフレームワークを用いて単一リピータノードをモデル化し,このリピータが生成するテレポーテーションチャネルの平均忠実度を,完全ゲート操作と仮定して算出する。 Quantum teleportation channels can overcome the effects of photonic loss, a major challenge in the implementation of a quantum network over fiber. Teleportation channels are created by distributing an entangled state between two nodes which is a probabilistic process requiring classical communication. This causes critical delays that can cause information loss as quantum data suffers from decoherence when stored in memory. In this work, we quantify the effect of decoherence on fidelity at a node in a quantum network due to the storage of qubits in noisy memory platforms. We model the memory platform as a buffer that stores incoming qubits waiting for the creation of a teleportation channel. Memory platforms are parameterized with decoherence rate and buffer size, in addition to the order in which the incoming qubits are served. We show that fidelity at a node is a linear sum of terms, exponentially decaying with time, where the decay rate depends on the decoherence rate of the memory platform. This allows us to utilize Laplace Transforms to derive efficiently computable functions of average fidelity with respect to the load, buffer size, and decoherence rate of the memory platform. We prove that serving qubits in a Last In First Out order with pushout for buffer overflow management is optimal in terms of average fidelity. Lastly, we apply this framework to model a single repeater node to calculate the average fidelity of the teleportation channels created by this repeater assuming perfect gate operations. | 翻訳日:2023-02-13 09:18:44 公開日:2022-05-12 |
# 平行座標をもつ領域におけるロビン・ラプラシアンのスペクトル最適化 Spectral optimization for Robin Laplacian on domains admitting parallel coordinates ( http://arxiv.org/abs/2001.02718v3 ) ライセンス: Link先を確認 | Pavel Exner and Vladimir Lotoreichik | (参考訳) 本稿では,平行座標を許容する平面領域群,すなわち滑らかな閉曲線上に構築された固定幅ストリップと滑らかな境界を持つ凸集合の外部に対するロビン・ラプラシアンのスペクトル最適化を扱う。
曲線長が一定であれば、固定幅のストリップを参照する最初の固有値は、円環で最大化されたロビンパラメータの任意の値であることを示す。
さらに、負ロビンパラメータに対応する凸領域の外部における第二の固有値である$\omega$は、境界が$\partial\omega$の最大値以上の曲率を持つディスクの類似量を超えないことを証明する。 In this paper we deal with spectral optimization for the Robin Laplacian on a family of planar domains admitting parallel coordinates, namely a fixed-width strip built over a smooth closed curve and the exterior of a convex set with a smooth boundary. We show that if the curve length is kept fixed, the first eigenvalue referring to the fixed-width strip is for any value of the Robin parameter maximized by a circular annulus. Furthermore, we prove that the second eigenvalue in the exterior of a convex domain $\Omega$ corresponding to a negative Robin parameter does not exceed the analogous quantity for a disk whose boundary has a curvature larger than or equal to the maximum of that for $\partial\Omega$. | 翻訳日:2023-01-13 13:14:06 公開日:2022-05-12 |
# 人工魚群アルゴリズムの系譜 : 最近の進歩と応用 A Review of the Family of Artificial Fish Swarm Algorithms: Recent Advances and Applications ( http://arxiv.org/abs/2011.05700v2 ) ライセンス: Link先を確認 | Farhad Pourpanah and Ran Wang and Chee Peng Lim and Xi-Zhao Wang and Danial Yazdani | (参考訳) 人工魚群アルゴリズム(artificial fish swarm algorithm,afsa)は,魚類の自然教育における生態行動,捕食行動,群れ行動,追従行動に着想を得ている。
フレキシビリティ、高速収束、初期パラメータ設定に対する感度の低下など、多くの有能な性質から、AFSAのファミリーは実世界の最適化問題を解決するために広く応用された効果的なSwarm Intelligence(SI)方法論として登場した。
2002年に導入されて以来、連続、バイナリ、組合せ最適化問題に取り組むために多くの改良されたハイブリッドAFSAモデルが開発されてきた。
本稿では,ASFA,その改良およびハイブリッドモデル,およびそれに関連する応用を包含した,連続AFSAの簡潔なレビューを行う。
我々は2013年以降、高品質な雑誌に掲載された記事に焦点を当てている。
AFSAパラメータの変更、手順、サブファンクションに関する洞察を提供する。
これらの拡張の主な理由と他のハイブリッド手法との比較結果について論じる。
さらに, 連続最適化問題の解法として提案されているハイブリッド, 多目的, 動的AFSAモデルについて検討した。
また、AFSAの強化の可能性を分析し、AFSAベースのモデルの発展に向けた今後の研究の方向性を明らかにする。 The Artificial Fish Swarm Algorithm (AFSA) is inspired by the ecological behaviors of fish schooling in nature, viz., the preying, swarming and following behaviors. Owing to a number of salient properties, which include flexibility, fast convergence, and insensitivity to the initial parameter settings, the family of AFSA has emerged as an effective Swarm Intelligence (SI) methodology that has been widely applied to solve real-world optimization problems. Since its introduction in 2002, many improved and hybrid AFSA models have been developed to tackle continuous, binary, and combinatorial optimization problems. This paper aims to present a concise review of the continuous AFSA, encompassing the original ASFA, its improvements and hybrid models, as well as their associated applications. We focus on articles published in high-quality journals since 2013. Our review provides insights into AFSA parameters modifications, procedures and sub-functions. The main reasons for these enhancements and the comparison results with other hybrid methods are discussed. In addition, hybrid, multi-objective and dynamic AFSA models that have been proposed to solve continuous optimization problems are elucidated. We also analyse possible AFSA enhancements and highlight future research directions for advancing AFSA-based models. | 翻訳日:2022-09-26 23:42:36 公開日:2022-05-12 |
# 世界中のAI倫理の異なる顔:原則-実装ギャップ分析 The Different Faces of AI Ethics Across the World: A Principle-Implementation Gap Analysis ( http://arxiv.org/abs/2206.03225v1 ) ライセンス: Link先を確認 | Lionel Nganyewou Tidjon and Foutse Khomh | (参考訳) 人工知能(AI)は、医療、宇宙探査、銀行、金融といった分野で、私たちの日常生活を変えつつある。
これらのAIの急速な進歩は、倫理的に疑わしい結果をもたらす社会に対するAI技術の潜在的影響に注意を向けている。
近年、政府、国家、国際機関によっていくつかの倫理原則が公表されている。
これらの原則は、AIの倫理的開発、デプロイメント、ガバナンスを導くための高いレベルの規範を概説している。
しかしながら、これらの原則の抽象的な性質、多様性、文脈依存は、実装と運用を困難にし、結果として原則と実行の間にギャップが生じる。
最近の研究は、既存のAIの原則とガイドラインを分析して要約したが、原則と実装のギャップとそれらを緩和する方法に関する発見は提供されなかった。
これらの発見は、AI実装が倫理的原則と価値観に一致していることを保証するために特に重要である。
本稿では、特定の国や国に適合する潜在的な原理的特徴を特定することを目的として、現在のすべての大陸における倫理的AI原則の文脈的、グローバルな評価を行う。
次に、異なる国におけるAIの即応性と倫理的AI原則の現在の実装のレベルを分析し、AI原則の実装におけるギャップとその原因を特定する。
最後に,基本実装ギャップを軽減するための勧告を提案する。 Artificial Intelligence (AI) is transforming our daily life with several applications in healthcare, space exploration, banking and finance. These rapid progresses in AI have brought increasing attention to the potential impacts of AI technologies on society, with ethically questionable consequences. In recent years, several ethical principles have been released by governments, national and international organisations. These principles outline high-level precepts to guide the ethical development, deployment, and governance of AI. However, the abstract nature, diversity, and context-dependency of these principles make them difficult to implement and operationalize, resulting in gaps between principles and their execution. Most recent work analysed and summarized existing AI principles and guidelines but they did not provide findings on principle-implementation gaps and how to mitigate them. These findings are particularly important to ensure that AI implementations are aligned with ethical principles and values. In this paper, we provide a contextual and global evaluation of current ethical AI principles for all continents, with the aim to identify potential principle characteristics tailored to specific countries or applicable across countries. Next, we analyze the current level of AI readiness and current implementations of ethical AI principles in different countries, to identify gaps in the implementation of AI principles and their causes. Finally, we propose recommendations to mitigate the principle-implementation gaps. | 翻訳日:2022-06-12 09:30:41 公開日:2022-05-12 |
# (参考訳) 心電図の異常分類を改善するためのSimGANの進化 Evolving SimGANs to Improve Abnormal Electrocardiogram Classification ( http://arxiv.org/abs/2205.10116v1 ) ライセンス: CC BY 4.0 | Gabriel Wang, Anish Thite, Rodd Talebi, Anthony D'Achille, Alex Mussa, and Jason Zutty | (参考訳) 機械学習モデルは様々な領域で使われている。
しかし、機械学習手法は成功するために大量のデータを必要とすることが多い。
これは、現実世界のデータ収集が困難で費用がかかるドメインでは特に厄介です。
データシミュレータはこれらの領域の多くに存在するが、実世界のノイズの欠如などの要因により、実世界のデータを十分に反映していない。
近年,SimGAN法を用いて,シミュレーション画像データを実世界の分布によく適合するデータに洗練するために,GAN (Generative Adversarial Network) が改良されている。
進化コンピューティングはGAN進化に使われてきたが、現在SimGANを進化させるフレームワークは存在しない。
本稿では,(1)SimGAN法を拡張して1次元データを改良し,(2)進化的計算フレームワークであるEasy Cartesian Genetic Programming (ezCGP)を改良し,より正確にシミュレートされたデータを洗練するSimGANを作成し,(3)改良されたデータを評価するための特徴ベースのメトリクスを作成する。
我々はまた、前述の問題に悩まされる領域である心電図データセット(ECG)を強化するために、私たちのフレームワークを使用します。
特に、健康な心電図をシミュレートできるが、現在の心電図のシミュレータは存在しない。
その結果,シミュレートされた正常心電図データを用いて実世界の異常心電図を再現することで,異常心電図分類器の精度を向上させることができた。 Machine Learning models are used in a wide variety of domains. However, machine learning methods often require a large amount of data in order to be successful. This is especially troublesome in domains where collecting real-world data is difficult and/or expensive. Data simulators do exist for many of these domains, but they do not sufficiently reflect the real world data due to factors such as a lack of real-world noise. Recently generative adversarial networks (GANs) have been modified to refine simulated image data into data that better fits the real world distribution, using the SimGAN method. While evolutionary computing has been used for GAN evolution, there are currently no frameworks that can evolve a SimGAN. In this paper we (1) extend the SimGAN method to refine one-dimensional data, (2) modify Easy Cartesian Genetic Programming (ezCGP), an evolutionary computing framework, to create SimGANs that more accurately refine simulated data, and (3) create new feature-based quantitative metrics to evaluate refined data. We also use our framework to augment an electrocardiogram (ECG) dataset, a domain that suffers from the issues previously mentioned. In particular, while healthy ECGs can be simulated there are no current simulators of abnormal ECGs. We show that by using an evolved SimGAN to refine simulated healthy ECG data to mimic real-world abnormal ECGs, we can improve the accuracy of abnormal ECG classifiers. | 翻訳日:2022-06-06 08:28:54 公開日:2022-05-12 |
# (参考訳) 深層学習による地球磁気摂動予測 Global geomagnetic perturbation forecasting using Deep Learning ( http://arxiv.org/abs/2205.12734v1 ) ライセンス: CC BY 4.0 | Vishal Upendran, Panagiotis Tigas, Banafsheh Ferdousi, Teo Bloch, Mark C. M. Cheung, Siddha Ganju, Asti Bhatt, Ryan M. McGranaghan, Yarin Gal | (参考訳) 地磁気誘起電流(GIC)は、太陽風と地球の磁気圏の相互作用から生じる地球の磁場の時空間変化から生じ、我々の技術的に依存した社会に破滅的な破壊を引き起こす。
したがって,gicsを世界規模で予測するための計算モデルでは,空間分解能や時間的ケイデンスが増大し,迅速な改善が期待できる。
GICデータはプロプライエタリであるため、磁場摂動(dB/dt)の水平成分の時間変動がGICのプロキシとして使用される。
本研究では,太陽風測定のみを入力として,30分後に予測できる高速でグローバルなdB/dt予測モデルを開発した。
このモデルは、Gated Recurrent Unit を用いて太陽風の2時間の計測を要約し、球面調和ベースで折り畳まれた係数の予測を生成し、大域的な予測を可能にする。
デプロイすると、モデルは1秒未満で結果を生成し、1分間のケイデンスで水平磁気摂動成分のグローバルな予測を生成します。
我々は,2011年8月5日と2015年3月17日の2つの特定の嵐に対する文献におけるモデル間モデルの評価を行った。
当社のモデルでは,局所的および低時間的ケイデンスグローバルモデルと一貫した性能を示す一方,ベンチマークモデルと同等の性能を示す。
このような高時間周期と任意の空間分解能での迅速な推論は、最終的に地球上の任意の場所でdB/dtの正確な事前警戒を可能にする可能性がある。 Geomagnetically Induced Currents (GICs) arise from spatio-temporal changes to Earth's magnetic field which arise from the interaction of the solar wind with Earth's magnetosphere, and drive catastrophic destruction to our technologically dependent society. Hence, computational models to forecast GICs globally with large forecast horizon, high spatial resolution and temporal cadence are of increasing importance to perform prompt necessary mitigation. Since GIC data is proprietary, the time variability of horizontal component of the magnetic field perturbation (dB/dt) is used as a proxy for GICs. In this work, we develop a fast, global dB/dt forecasting model, which forecasts 30 minutes into the future using only solar wind measurements as input. The model summarizes 2 hours of solar wind measurement using a Gated Recurrent Unit, and generates forecasts of coefficients which are folded with a spherical harmonic basis to enable global forecasts. When deployed, our model produces results in under a second, and generates global forecasts for horizontal magnetic perturbation components at 1-minute cadence. We evaluate our model across models in literature for two specific storms of 5 August 2011 and 17 March 2015, while having a self-consistent benchmark model set. Our model outperforms, or has consistent performance with state-of-the-practice high time cadence local and low time cadence global models, while also outperforming/having comparable performance with the benchmark models. Such quick inferences at high temporal cadence and arbitrary spatial resolutions may ultimately enable accurate forewarning of dB/dt for any place on Earth, resulting in precautionary measures to be taken in an informed manner. | 翻訳日:2022-06-06 08:14:44 公開日:2022-05-12 |
# (参考訳) フィードバック勾配Descent:DNNの直交性を考慮した効率的で安定な最適化 Feedback Gradient Descent: Efficient and Stable Optimization with Orthogonality for DNNs ( http://arxiv.org/abs/2205.08385v1 ) ライセンス: CC BY 4.0 | Fanchen Bu, Dong Eui Chang | (参考訳) 直交性による最適化はディープニューラルネットワーク(DNN)のトレーニングに有用であることが示されている。
DNNに直交性を課すためには、計算効率と安定性が重要である。
しかし、リーマン最適化や厳密な制約を用いる既存の手法は安定性を確保できないが、ソフト制約を用いる手法は効率を向上できる。
本稿では,我々の知識に対してフィードバック勾配降下法(fgd)という新しい手法を提案する。
FGD はスティーフェル多様体の接束上の連続時間力学系の単純かつ必須のオイラー離散化に基づいて直交性を誘導する。
特に、フィードバック積分器と呼ばれる多様体上の数値積分法に着想を得て、初めてスティーフェル多様体の接バンドル上でこれをインスタンス化する。
画像分類実験において、FGDは精度、効率、安定性の点で既存の最先端手法より総合的に優れている。 The optimization with orthogonality has been shown useful in training deep neural networks (DNNs). To impose orthogonality on DNNs, both computational efficiency and stability are important. However, existing methods utilizing Riemannian optimization or hard constraints can only ensure stability while those using soft constraints can only improve efficiency. In this paper, we propose a novel method, named Feedback Gradient Descent (FGD), to our knowledge, the first work showing high efficiency and stability simultaneously. FGD induces orthogonality based on the simple yet indispensable Euler discretization of a continuous-time dynamical system on the tangent bundle of the Stiefel manifold. In particular, inspired by a numerical integration method on manifolds called Feedback Integrators, we propose to instantiate it on the tangent bundle of the Stiefel manifold for the first time. In the extensive image classification experiments, FGD comprehensively outperforms the existing state-of-the-art methods in terms of accuracy, efficiency, and stability. | 翻訳日:2022-05-22 12:49:32 公開日:2022-05-12 |
# (参考訳) 置換不変エージェントのための最小ニューラルネットワークモデル Minimal Neural Network Models for Permutation Invariant Agents ( http://arxiv.org/abs/2205.07868v1 ) ライセンス: CC BY 4.0 | Joachim Winther Pedersen, Sebastian Risi | (参考訳) 自然界の生物は、環境やそれ自身に対する変化に対して柔軟性を示すように進化してきた。
人工ニューラルネットワーク(anns)は、環境に作用する人工エージェントの制御に有用であることが証明されている。
しかし、強化学習型タスクに使用されるほとんどのANNモデルは、様々な入力サイズを許容しない剛体構造を持つ。
さらに、最適化中に見知らぬ順序で入力が提示されると破滅的に失敗する。
これら2つのANNの柔軟性は緩和でき、それらの解は単純で非常に関連性が高い。
置換不変性に対して、最適化されたパラメータは入力要素の特定のインデックスに結び付けられない。
サイズ不変性では、入力は射影数で成長しない共通の空間に投影されなければならない。
これらの制約に基づき、ANNに欠けている柔軟性を示す概念的にシンプルなモデルを構築する。
複数の制御問題に対してモデルの特性を実証し、入力指標の非常に高速な置換や入力サイズの変化に対処可能であることを示す。
アブレーション研究では、これらの特性を単純なフィードフォワード構造で達成できることが示されているが、再帰構造を最適化するのはずっと容易である。 Organisms in nature have evolved to exhibit flexibility in face of changes to the environment and/or to themselves. Artificial neural networks (ANNs) have proven useful for controlling of artificial agents acting in environments. However, most ANN models used for reinforcement learning-type tasks have a rigid structure that does not allow for varying input sizes. Further, they fail catastrophically if inputs are presented in an ordering unseen during optimization. We find that these two ANN inflexibilities can be mitigated and their solutions are simple and highly related. For permutation invariance, no optimized parameters can be tied to a specific index of the input elements. For size invariance, inputs must be projected onto a common space that does not grow with the number of projections. Based on these restrictions, we construct a conceptually simple model that exhibit flexibility most ANNs lack. We demonstrate the model's properties on multiple control problems, and show that it can cope with even very rapid permutations of input indices, as well as changes in input size. Ablation studies show that is possible to achieve these properties with simple feedforward structures, but that it is much easier to optimize recurrent structures. | 翻訳日:2022-05-22 12:31:38 公開日:2022-05-12 |
# (参考訳) 実世界の非線形力学系に対するベイズ物理学インフォームドニューラルネットワーク Bayesian Physics-Informed Neural Networks for real-world nonlinear dynamical systems ( http://arxiv.org/abs/2205.08304v1 ) ライセンス: CC BY 4.0 | Kevin Linka, Amelie Schafer, Xuhui Meng, Zongren Zou, George Em Karniadakis, Ellen Kuhl | (参考訳) 現実世界の力学現象を理解することは難しい課題である。
さまざまな科学分野にまたがって、機械学習は非線形力学系を分析し、ビッグデータのパターンを特定し、その周辺で決定する技術として進歩してきた。
ニューラルネットワークは現在、不完全な理解または超複雑なメカニズムを持つデータに対する普遍関数近似器として一貫して使用されている。
しかし、ニューラルネットワークだけは物理学の基本法則を無視し、しばしば妥当な予測を下せない。
ここでは、従来のニューラルネットワークモデルの予測可能性を改善するために、ニューラルネットワーク、物理情報モデリング、ベイズ推論を組み合わせることで、データ、物理、不確実性を統合する。
我々は、減衰した高調波発振器の物理モデルを、完全に接続されたフィードフォワードニューラルネットワークに組み込んで、単純で実証的なモデルシステムであるCOVID-19の発生ダイナミクスを探索する。
我々の物理インフォームドニューラルネットワークは、データと物理をシームレスに統合し、前方と逆の問題を堅牢に解き、補間と外挿の両方で、少量のノイズと不完全なデータでもうまく機能する。
わずかな追加コストで、データと物理の間の重み付けを自己適応的に学習できる。
ベイジアンニューラルネットワークと組み合わせることで、ベイジアン推論の先行として機能し、不確実性定量化のための信頼できる区間を提供することができる。
本研究は,ニューラルネットワーク,ベイズ推論,および両者の組み合わせの本質的利点とデメリットを明らかにし,モデル選択のための有用なガイドラインを提供する。
季節性内因性感染症の単純なモデル問題に対するこれらのアプローチを実証したに過ぎないが、根底にある概念や傾向はより複雑な疾患の病態に一般化し、より広い範囲で幅広い非線形力学系に一般化すると予想されている。 Understanding real-world dynamical phenomena remains a challenging task. Across various scientific disciplines, machine learning has advanced as the go-to technology to analyze nonlinear dynamical systems, identify patterns in big data, and make decision around them. Neural networks are now consistently used as universal function approximators for data with underlying mechanisms that are incompletely understood or exceedingly complex. However, neural networks alone ignore the fundamental laws of physics and often fail to make plausible predictions. Here we integrate data, physics, and uncertainties by combining neural networks, physics-informed modeling, and Bayesian inference to improve the predictive potential of traditional neural network models. We embed the physical model of a damped harmonic oscillator into a fully-connected feed-forward neural network to explore a simple and illustrative model system, the outbreak dynamics of COVID-19. Our Physics-Informed Neural Networks can seamlessly integrate data and physics, robustly solve forward and inverse problems, and perform well for both interpolation and extrapolation, even for a small amount of noisy and incomplete data. At only minor additional cost, they can self-adaptively learn the weighting between data and physics. Combined with Bayesian Neural Networks, they can serve as priors in a Bayesian Inference, and provide credible intervals for uncertainty quantification. Our study reveals the inherent advantages and disadvantages of Neural Networks, Bayesian Inference, and a combination of both and provides valuable guidelines for model selection. While we have only demonstrated these approaches for the simple model problem of a seasonal endemic infectious disease, we anticipate that the underlying concepts and trends generalize to more complex disease conditions and, more broadly, to a wide variety of nonlinear dynamical systems. | 翻訳日:2022-05-22 12:12:11 公開日:2022-05-12 |
# (参考訳) メモリ制約下におけるデータストリーム分類のためのモンドリアン森林 Mondrian Forest for Data Stream Classification Under Memory Constraints ( http://arxiv.org/abs/2205.07871v1 ) ライセンス: CC BY 4.0 | Martin Khannouz, Tristan Glatard | (参考訳) 教師付き学習アルゴリズムは一般的に、トレーニングとテストフェーズ中にデータモデルを保存するのに十分なメモリが利用できると仮定する。
しかし、モノのインターネットでは、データが無限のデータストリームの形になったり、メモリの少ないデバイスに学習アルゴリズムがデプロイされたりしたとき、この仮定は現実的ではない。
本稿では,オンライン・モンドリアン森林分類アルゴリズムを用いて,データストリーム上のメモリ制約に対処する。
特に、メモリ制限に達すると、新しいデータポイントでmondrianツリーを更新する5つのメモリ外戦略を設計する。
さらに,メモリ制約下でドリフトの概念をより堅牢にするためのトリミング機構も設計した。
拡張ノード戦略(extended node strategy)は、概念ドリフトが期待されているかどうかに応じて異なるトリミング機構を採用するべきであるが、すべての構成において、メモリ外戦略として最善のように見える。
私たちのメソッドはすべて、orpailleccオープンソースライブラリに実装されており、組み込みシステムやコネクテッドオブジェクトで使用できる準備ができています。 Supervised learning algorithms generally assume the availability of enough memory to store their data model during the training and test phases. However, in the Internet of Things, this assumption is unrealistic when data comes in the form of infinite data streams, or when learning algorithms are deployed on devices with reduced amounts of memory. In this paper, we adapt the online Mondrian forest classification algorithm to work with memory constraints on data streams. In particular, we design five out-of-memory strategies to update Mondrian trees with new data points when the memory limit is reached. Moreover, we design trimming mechanisms to make Mondrian trees more robust to concept drifts under memory constraints. We evaluate our algorithms on a variety of real and simulated datasets, and we conclude with recommendations on their use in different situations: the Extend Node strategy appears as the best out-of-memory strategy in all configurations, whereas different trimming mechanisms should be adopted depending on whether a concept drift is expected. All our methods are implemented in the OrpailleCC open-source library and are ready to be used on embedded systems and connected objects. | 翻訳日:2022-05-22 11:36:20 公開日:2022-05-12 |
# 低分解能レーダマイクロドップラーシグネチャの分布近傍検出 Near out-of-distribution detection for low-resolution radar micro-Doppler signatures ( http://arxiv.org/abs/2205.07869v1 ) ライセンス: Link先を確認 | Martin Bauw, Santiago Velasco-Forero, Jesus Angulo, Claude Adnet, Olivier Airiau | (参考訳) Near-of-distriion Detection (OOD) は、分類に必要な監督なしに意味的に類似したデータポイントを識別することを目的としている。
本稿では、他の種類のセンサや検出シナリオに拡張可能なレーダー目標検出のためのOODユースケースを提案する。
我々は,oodの妥当性と,その特定の監督要件を強調し,実生活の臨界系における類似するレーダーターゲット間におけるマルチモーダル・多様ターゲットクラスの検出について考察した。
スペクトルと共分散行列の入力表現を考慮した低分解能パルスレーダマイクロドップラーシグネチャにおける深部OOD法と非深部OOD法の比較を行った。
共分散表現は、署名を識別するのに専用の2階処理が適切かどうかを推定することを目的としている。
学習におけるラベル付き異常の潜在的寄与,自己指導学習,コントラスト学習の洞察,革新的学習の損失について考察し,誤認によるトレーニングセット汚染の影響について考察した。 Near out-of-distribution detection (OOD) aims at discriminating semantically similar data points without the supervision required for classification. This paper puts forward an OOD use case for radar targets detection extensible to other kinds of sensors and detection scenarios. We emphasize the relevance of OOD and its specific supervision requirements for the detection of a multimodal, diverse targets class among other similar radar targets and clutter in real-life critical systems. We propose a comparison of deep and non-deep OOD methods on simulated low-resolution pulse radar micro-Doppler signatures, considering both a spectral and a covariance matrix input representation. The covariance representation aims at estimating whether dedicated second-order processing is appropriate to discriminate signatures. The potential contributions of labeled anomalies in training, self-supervised learning, contrastive learning insights and innovative training losses are discussed, and the impact of training set contamination caused by mislabelling is investigated. | 翻訳日:2022-05-22 11:19:31 公開日:2022-05-12 |
# 部分観測データを用いたカオスシステムの深層学習 Deep Learning of Chaotic Systems from Partially-Observed Data ( http://arxiv.org/abs/2205.08384v1 ) ライセンス: Link先を確認 | Victor Churchill, Dongbin Xiu | (参考訳) 近年,完全あるいは部分観測データを用いた未知の力学系の学習とモデリングのための汎用的なデータ駆動数値フレームワークが開発されている。
この手法はディープニューラルネットワーク(DNN)を用いて未知系のフローマップのモデルを構築する。
フローマップの正確なdnn近似が構築されると、未知のシステムの効果的な予測モデルとして機能するように再帰的に実行される。
本稿では,この枠組みをカオスシステム,特に有名なLorenz 63および96システムに適用し,アプローチの予測性能を批判的に検証する。
カオスシステムの際立った特徴は、最小の摂動でさえ解軌道における大きな(有界であるにもかかわらず)偏差をもたらすことである。
これにより、ローカルモデルの精度が最終的に低下し、大きなポイントワイズエラーにつながるため、メソッドやデータ駆動メソッドの長期的な予測が疑問視される。
ここでは、カオス力学が学習されたかどうかを判断するために、他の定性的かつ定量的な尺度をいくつか採用する。
これには位相プロット、ヒストグラム、自己相関、相関次元、近似エントロピー、リャプノフ指数が含まれる。
これらの測定値を用いて,フローマップに基づくDNN学習法は,DNNが利用できる状態変数のサブセットのみであっても,カオスシステムを正確にモデル化できることを示した。
例えば、40の状態変数を持つlorenz 96システムでは、3つの変数のみのデータが利用可能であれば、3つの変数の効果的なdnnモデルを学習し、システムのカオス的振る舞いを正確に生成することができる。 Recently, a general data driven numerical framework has been developed for learning and modeling of unknown dynamical systems using fully- or partially-observed data. The method utilizes deep neural networks (DNNs) to construct a model for the flow map of the unknown system. Once an accurate DNN approximation of the flow map is constructed, it can be recursively executed to serve as an effective predictive model of the unknown system. In this paper, we apply this framework to chaotic systems, in particular the well-known Lorenz 63 and 96 systems, and critically examine the predictive performance of the approach. A distinct feature of chaotic systems is that even the smallest perturbations will lead to large (albeit bounded) deviations in the solution trajectories. This makes long-term predictions of the method, or any data driven methods, questionable, as the local model accuracy will eventually degrade and lead to large pointwise errors. Here we employ several other qualitative and quantitative measures to determine whether the chaotic dynamics have been learned. These include phase plots, histograms, autocorrelation, correlation dimension, approximate entropy, and Lyapunov exponent. Using these measures, we demonstrate that the flow map based DNN learning method is capable of accurately modeling chaotic systems, even when only a subset of the state variables are available to the DNNs. For example, for the Lorenz 96 system with 40 state variables, when data of only 3 variables are available, the method is able to learn an effective DNN model for the 3 variables and produce accurately the chaotic behavior of the system. | 翻訳日:2022-05-22 11:16:05 公開日:2022-05-12 |
# (参考訳) ScAN:自殺未遂と理想イベントのデータセット ScAN: Suicide Attempt and Ideation Events Dataset ( http://arxiv.org/abs/2205.07872v1 ) ライセンス: CC BY 4.0 | Bhanu Pratap Singh Rawat, Samuel Kovaly, Wilfred R. Pigeon, Hong Yu | (参考訳) 自殺は公衆衛生上の重要な問題であり、世界中の死因の1つである。
自殺未遂(SA)や自殺構想(SI)などの自殺行為は、自殺による死亡のリスク要因となっている。
患者の以前の情報と現在のSAおよびSIに関する情報は電子健康記録(EHR)にしばしば記録されている。
このようなドキュメンテーションの正確な検出は、患者の自殺行為の監視と予測を改善し、医療従事者に自殺予防対策を警告するのに役立つ。
本研究では,1k以上のehrノートと19k以上のアノテーション付きsaおよびsiイベント情報にまたがる公に利用可能なミームiiiデータセットのサブセットであるscanデータセットを最初に構築した。
アノテーションには自殺の方法などの属性も含まれている。
また,患者が入院中に発症した自殺行動のタイプ(SA,SI)を識別するための予測モジュールと,病院の病院滞在中に発症した自殺行動のタイプ(SA,SI)を抽出するための検索モジュールを備えたマルチタスクRoBERTaを用いた強力なベースラインモデルScanER(自殺未遂事象検索)も提供する。
SANERは自殺行動証拠を同定するマクロ・ウェイトF1スコア0.83と、患者病院におけるSAとSIの分類のためのマクロ・F1スコア0.78と0.60を達成した。
ScANとScanerは公開されている。 Suicide is an important public health concern and one of the leading causes of death worldwide. Suicidal behaviors, including suicide attempts (SA) and suicide ideations (SI), are leading risk factors for death by suicide. Information related to patients' previous and current SA and SI are frequently documented in the electronic health record (EHR) notes. Accurate detection of such documentation may help improve surveillance and predictions of patients' suicidal behaviors and alert medical professionals for suicide prevention efforts. In this study, we first built Suicide Attempt and Ideation Events (ScAN) dataset, a subset of the publicly available MIMIC III dataset spanning over 12k+ EHR notes with 19k+ annotated SA and SI events information. The annotations also contain attributes such as method of suicide attempt. We also provide a strong baseline model ScANER (Suicide Attempt and Ideation Events Retriever), a multi-task RoBERTa-based model with a retrieval module to extract all the relevant suicidal behavioral evidences from EHR notes of an hospital-stay and, and a prediction module to identify the type of suicidal behavior (SA and SI) concluded during the patient's stay at the hospital. ScANER achieved a macro-weighted F1-score of 0.83 for identifying suicidal behavioral evidences and a macro F1-score of 0.78 and 0.60 for classification of SA and SI for the patient's hospital-stay, respectively. ScAN and ScANER are publicly available. | 翻訳日:2022-05-22 11:14:02 公開日:2022-05-12 |
# 特徴と事例 共同選択:強化学習の視点から Feature and Instance Joint Selection: A Reinforcement Learning Perspective ( http://arxiv.org/abs/2205.07867v1 ) ライセンス: Link先を確認 | Wei Fan, Kunpeng Liu, Hao Liu, Hengshu Zhu, Hui Xiong, Yanjie Fu | (参考訳) 特徴選択と事例選択は2つの重要なデータ処理技術である。
しかし、このような選択は、主に別々に研究されているが、既存の共同選択に向けた研究は、特徴空間とインスタンス空間の間の細かな相互作用を無視している。
この課題に対処するために,統合選択タスクを実現し,各特徴の選択と各インスタンス間のインタラクションを同時に捉えるための強化学習ソリューションを提案する。
特に,シーケンシャルスキャン機構はエージェントの行動戦略として設計され,エージェントの協調性を高めるために協調交換環境が用いられる。
さらに、対話型パラダイムでは、エージェントがより効率的な探索を行うのに役立つ事前選択知識が導入されている。
最後に、実世界のデータセットに関する広範な実験により、パフォーマンスが改善された。 Feature selection and instance selection are two important techniques of data processing. However, such selections have mostly been studied separately, while existing work towards the joint selection conducts feature/instance selection coarsely; thus neglecting the latent fine-grained interaction between feature space and instance space. To address this challenge, we propose a reinforcement learning solution to accomplish the joint selection task and simultaneously capture the interaction between the selection of each feature and each instance. In particular, a sequential-scanning mechanism is designed as action strategy of agents, and a collaborative-changing environment is used to enhance agent collaboration. In addition, an interactive paradigm introduces prior selection knowledge to help agents for more efficient exploration. Finally, extensive experiments on real-world datasets have demonstrated improved performances. | 翻訳日:2022-05-22 10:57:06 公開日:2022-05-12 |
# 表現学習と爆発訓練を用いた教師なし運転行動分析 Unsupervised Driving Behavior Analysis using Representation Learning and Exploiting Group-based Training ( http://arxiv.org/abs/2205.07870v1 ) ライセンス: Link先を確認 | Soma Bandyopadhyay, Anish Datta, Shruti Sachan, Arpan Pal | (参考訳) 運転行動監視は、道路安全の管理と交通事故のリスク低減に重要な役割を果たしている。
運転行動は、車両特性、道路の種類、交通量といった複数の要因に影響されるが、最も重要なのは、個人の運転パターンである。
現在の作業は、駆動パターンのバリエーションを捉えてロバストな駆動パターン分析を行う。
多層Seq-2-seqオートエンコーダを用いて時系列の圧縮表現(Auto Encoded Compact Sequence)を学習し、階層的クラスタリングとベスト距離尺度の選択を推奨することで一貫したグループを形成する。
一貫性のあるグループは、データセットでキャプチャされた個人の駆動パターンのバリエーションを特定するのに役立つ。
これらのグループは、列車データと隠れテストデータの両方に対して生成される。
列車データを用いて形成された一貫したグループは、分類器の複数のインスタンスを訓練するために利用される。
最良の距離尺度の選択は、一貫したグループのベストトレインテストペアを選択するために使用される。
我々は,IMUセンサ(加速度計,ジャイロスコープ)から取得した信号を用いて,運転行動の分類を行うUAH-DriveSetデータセットの実験を行った。
提案手法はベンチマーク性能を大幅に向上させる。 Driving behavior monitoring plays a crucial role in managing road safety and decreasing the risk of traffic accidents. Driving behavior is affected by multiple factors like vehicle characteristics, types of roads, traffic, but, most importantly, the pattern of driving of individuals. Current work performs a robust driving pattern analysis by capturing variations in driving patterns. It forms consistent groups by learning compressed representation of time series (Auto Encoded Compact Sequence) using a multi-layer seq-2-seq autoencoder and exploiting hierarchical clustering along with recommending the choice of best distance measure. Consistent groups aid in identifying variations in driving patterns of individuals captured in the dataset. These groups are generated for both train and hidden test data. The consistent groups formed using train data, are exploited for training multiple instances of the classifier. Obtained choice of best distance measure is used to select the best train-test pair of consistent groups. We have experimented on the publicly available UAH-DriveSet dataset considering the signals captured from IMU sensors (accelerometer and gyroscope) for classifying driving behavior. We observe proposed method, significantly outperforms the benchmark performance. | 翻訳日:2022-05-22 10:56:53 公開日:2022-05-12 |
# 情報と証明の関連 Relating Information and Proof ( http://arxiv.org/abs/2205.07635v1 ) ライセンス: Link先を確認 | Anatol Slissenko | (参考訳) 数学の情報(英: information)は確率分布に基づいて不確実性(エントロピー)を測定する数である。
実生活における言語情報は命題であり、より正確には公式である。
しかし、そのような公式は証明によって正当化されるべきである。
私はこの情報の認識を形式化しようとしている。
証明の有益性の測定は、検討中の公式に関連する証明の集合に基づいている。
この可能な証明の集合('a knowledge base')は確率的測度を定義し、エントロピー重みはこの測度を用いて定義される。
本論文は主に概念的であり, どのようなアプローチが適用できるのかは明らかになっていない。 In mathematics information is a number that measures uncertainty (entropy) based on a probabilistic distribution, often of an obscure origin. In real life language information is a datum, a statement, more precisely, a formula. But such a formula should be justified by a proof. I try to formalize this perception of information. The measure of informativeness of a proof is based on the set of proofs related to the formulas under consideration. This set of possible proofs (`a knowledge base') defines a probabilistic measure, and entropic weight is defined using this measure. The paper is mainly conceptual, it is not clear where and how this approach can be applied. | 翻訳日:2022-05-17 15:46:02 公開日:2022-05-12 |
# (参考訳) アナログ深層学習ハードウェアのための適応ブロック浮動小数点法 Adaptive Block Floating-Point for Analog Deep Learning Hardware ( http://arxiv.org/abs/2205.06287v1 ) ライセンス: CC BY 4.0 | Ayon Basumallik, Darius Bunandar, Nicholas Dronen, Nicholas Harris, Ludmila Levkova, Calvin McCarter, Lakshmi Nair, David Walter, David Widemann | (参考訳) アナログ混合信号(AMS)デバイスは、デジタル信号よりも高速でエネルギー効率の高いディープニューラルネットワーク(DNN)推論を約束する。
しかし、近年の研究では、固定点数を持つAMSデバイス上のDNNが精度の低下により精度の低下を招き得ることが示されている。
このペナルティを緩和するために、AMS互換適応ブロック浮動小数点(ABFP)数表現を提案する。
また、出力のビット精度を増加させることなく、数表現の精度を向上させる方法として増幅(または利得)を導入する。
MLPerf データセンター推論ベンチマークにおける DNN に対する ABFP の有効性を評価する。
また,従来の量子化アウェアトレーニングと比較して,デバイスのノイズをサンプリングして微調整を高速化する差動ノイズ微調整(dnf)法を提案する。 Analog mixed-signal (AMS) devices promise faster, more energy-efficient deep neural network (DNN) inference than their digital counterparts. However, recent studies show that DNNs on AMS devices with fixed-point numbers can incur an accuracy penalty because of precision loss. To mitigate this penalty, we present a novel AMS-compatible adaptive block floating-point (ABFP) number representation. We also introduce amplification (or gain) as a method for increasing the accuracy of the number representation without increasing the bit precision of the output. We evaluate the effectiveness of ABFP on the DNNs in the MLPerf datacenter inference benchmark -- realizing less than $1\%$ loss in accuracy compared to FLOAT32. We also propose a novel method of finetuning for AMS devices, Differential Noise Finetuning (DNF), which samples device noise to speed up finetuning compared to conventional Quantization-Aware Training. | 翻訳日:2022-05-17 03:24:00 公開日:2022-05-12 |
# (参考訳) 映画レコメンデーションのためのディープコラボレーティブニューラルネットワークにおけるユーザと項目レビューの統合 Integrating User and Item Reviews in Deep Cooperative Neural Networks for Movie Recommendation ( http://arxiv.org/abs/2205.06296v1 ) ライセンス: CC BY 4.0 | Aristeidis Karras, Christos Karras | (参考訳) ユーザ評価には、オンラインプラットフォーム全体でかなりの量の情報が含まれる。
この情報ソースは、スパーシティの問題を緩和し、提案の質を高める可能性があるにもかかわらず、既存のレコメンデーションシステムの大部分によって無視されている。
この研究は、レビューテキストからアイテム属性とユーザの振る舞いを同時に学習するための深いモデルを示す。
Deep Cooperative Neural Networks (DeepCoNN) は、2つの並列ニューラルネットワークを最終層に接続したモデルである。
ネットワークの1つは、ユーザが提出したレビューからユーザ行動を学ぶことに焦点を当て、もう1つは、ユーザレビューからアイテム属性を学ぶ。
さらに、この2つのネットワークを接続するために共有レイヤが追加される。
因子化マシンのアプローチと同様に、共有レイヤは、人や物が相互に相互作用するために取得した潜在要因を許容する。
実験結果によると、多くのデータセットにおいて、DeepCoNNはすべてのベースラインレコメンデーションシステムを上回っている。 User evaluations include a significant quantity of information across online platforms. This information source has been neglected by the majority of existing recommendation systems, despite its potential to ease the sparsity issue and enhance the quality of suggestions. This work presents a deep model for concurrently learning item attributes and user behaviour from review text. Deep Cooperative Neural Networks (DeepCoNN) is the suggested model consisting of two parallel neural networks connected in their final layers. One of the networks focuses on learning user behaviour from reviews submitted by the user, while the other network learns item attributes from user reviews. On top, a shared layer is added to connect these two networks. Similar to factorization machine approaches, the shared layer allows latent factors acquired for people and things to interact with each other. On a number of datasets, DeepCoNN surpasses all baseline recommendation systems, according to experimental findings. | 翻訳日:2022-05-17 02:46:02 公開日:2022-05-12 |
# (参考訳) オーバーパラメータ化によるスタイルGANインバージョンの改善 Overparameterization Improves StyleGAN Inversion ( http://arxiv.org/abs/2205.06304v1 ) ライセンス: CC BY 4.0 | Yohan Poirier-Ginter, Alexandre Lessard, Ryan Smith, Jean-Fran\c{c}ois Lalonde | (参考訳) styleganのような深層生成モデルは、ピクセルの値ではなく、コンテンツによって画像を変更するというセマンティックな画像編集を約束している。
残念なことに、任意のイメージを扱うにはStyleGANジェネレータを反転する必要がある。
既存のインバージョンアプローチは、復元品質と下流編集性の間のトレードオフを伴って、有望だが不完全な結果が得られる。
品質を改善するために、これらのアプローチはトレーニング後のモデルの潜在空間を拡張する様々な技術に頼らなければならない。
一歩後退すると、これらの手法が本質的には、自由パラメータの数を増やすために、いずれかの方法で提案されることが分かる。
これは、逆転は制約が過小評価されているため困難であることを示している。
本研究では,従来のStyleGANアーキテクチャに簡単な変更を加えて,学習前の潜在空間を直接的かつ劇的に過度にパラメータ化する。
過パラメータ化は利用可能な自由度を高め、結果的に逆転を促進する。
これにより、エンコーダやトレーニング後の潜在空間の変更を必要とせずに、ほぼ完全な画像再構成が可能となる。
われわれのアプローチは、画像間の現実的な補間による編集可能性も維持する。 Deep generative models like StyleGAN hold the promise of semantic image editing: modifying images by their content, rather than their pixel values. Unfortunately, working with arbitrary images requires inverting the StyleGAN generator, which has remained challenging so far. Existing inversion approaches obtain promising yet imperfect results, having to trade-off between reconstruction quality and downstream editability. To improve quality, these approaches must resort to various techniques that extend the model latent space after training. Taking a step back, we observe that these methods essentially all propose, in one way or another, to increase the number of free parameters. This suggests that inversion might be difficult because it is underconstrained. In this work, we address this directly and dramatically overparameterize the latent space, before training, with simple changes to the original StyleGAN architecture. Our overparameterization increases the available degrees of freedom, which in turn facilitates inversion. We show that this allows us to obtain near-perfect image reconstruction without the need for encoders nor for altering the latent space after training. Our approach also retains editability, which we demonstrate by realistically interpolating between images. | 翻訳日:2022-05-17 02:37:16 公開日:2022-05-12 |
# (参考訳) ランダムな内積核行列のスペクトルに対する同値原理 An Equivalence Principle for the Spectrum of Random Inner-Product Kernel Matrices ( http://arxiv.org/abs/2205.06308v1 ) ライセンス: CC BY 4.0 | Yue M. Lu and Horng-Tzer Yau | (参考訳) 我々は、$\mathbb{R}^d$ の単位球面から一様に描画された$n$独立なデータベクトル間の対の内積に(非線形)カーネル関数を適用することで、成分を得るランダム行列を考える。
このモデルの研究は、内部積のカーネルランダム行列とそのスペクトル特性が重要な役割を果たす機械学習、統計、信号処理の問題によって動機付けられている。
核関数上の穏やかな条件の下では、いくつかの固定された $\ell \in \mathbb{n}$ と $\kappa \in \mathbb{r}$ に対して、$n / d^\ell \to \kappa \in (0, \infty)$ となるようなとき、これらの行列の経験的スペクトル分布の弱極限を確立する。
これは、線形スケーリング法($\ell = 1$ と $n/d \to \kappa$)で同じモデルを研究したcheng and singer (2013)の初期の結果を一般化している。
ランダムカーネル行列のスペクトルは、(シフトした)ウィッシュアート行列とガウス直交アンサンブルから引き出された独立行列の線型結合として構築された単純な行列モデルのスペクトルと漸近的に等価である。
ウィッシュアート行列のアスペクト比と線形結合の係数は$\ell$と直交エルミート多項式基底におけるカーネル関数の拡張によって決定される。
したがって、ランダムカーネル行列の制限スペクトルは、マルケンコ・パストゥル則と半円則の間の自由加法的畳み込みとして特徴づけることができる。 We consider random matrices whose entries are obtained by applying a (nonlinear) kernel function to the pairwise inner products between $n$ independent data vectors drawn uniformly from the unit sphere in $\mathbb{R}^d$. Our study of this model is motivated by problems in machine learning, statistics, and signal processing, where such inner-product kernel random matrices and their spectral properties play important roles. Under mild conditions on the kernel function, we establish the weak-limit of the empirical spectral distribution of these matrices when $d, n \to \infty$ such that $n / d^\ell \to \kappa \in (0, \infty)$, for some fixed $\ell \in \mathbb{N}$ and $\kappa \in \mathbb{R}$. This generalizes an earlier result of Cheng and Singer (2013), who studied the same model in the linear scaling regime (with $\ell = 1$ and $n/d \to \kappa$). The main insight of our work is a general equivalence principle: the spectrum of the random kernel matrix is asymptotically equivalent to that of a simpler matrix model, constructed as the linear combination of a (shifted) Wishart matrix and an independent matrix drawn from the Gaussian orthogonal ensemble. The aspect ratio of the Wishart matrix and the coefficients of the linear combination are determined by $\ell$ and by the expansion of the kernel function in the orthogonal Hermite polynomial basis. Consequently, the limiting spectrum of the random kernel matrix can be characterized as the free additive convolution between a Marchenko-Pastur law and a semicircle law. | 翻訳日:2022-05-17 02:23:15 公開日:2022-05-12 |
# (参考訳) 人間環境におけるロボット操作のための安全深層強化学習 Provably Safe Deep Reinforcement Learning for Robotic Manipulation in Human Environments ( http://arxiv.org/abs/2205.06311v1 ) ライセンス: CC BY 4.0 | Jakob Thumm and Matthias Althoff | (参考訳) 深部強化学習(RL)はマニピュレータの運動計画において有望な結果を示した。
しかし、rlベースのマニピュレータ制御において、人間のような非常にダイナミックな障害物の安全性を保証する方法はない。
この正式な安全保証の欠如は、現実世界の人間環境におけるマニピュレータへのRLの適用を妨げる。
そこで本研究では,マニピュレータ上でのRLアルゴリズムのトレーニングおよび展開中に,ISO認証による安全性を保証する遮蔽機構を提案する。
我々は、人間とマニピュレータの高速到達性解析を利用して、マニピュレータが人間の範囲内に入る前に完全に停止することを保証する。
提案手法は,事故発生時の衝突を防止し,安全性を保証し,RL性能を大幅に向上する。
人間のモーションキャプチャーデータを用いたシミュレーションにおいて,提案手法の性能を示す。 Deep reinforcement learning (RL) has shown promising results in the motion planning of manipulators. However, no method guarantees the safety of highly dynamic obstacles, such as humans, in RL-based manipulator control. This lack of formal safety assurances prevents the application of RL for manipulators in real-world human environments. Therefore, we propose a shielding mechanism that ensures ISO-verified human safety while training and deploying RL algorithms on manipulators. We utilize a fast reachability analysis of humans and manipulators to guarantee that the manipulator comes to a complete stop before a human is within its range. Our proposed method guarantees safety and significantly improves the RL performance by preventing episode-ending collisions. We demonstrate the performance of our proposed method in simulation using human motion capture data. | 翻訳日:2022-05-17 02:21:46 公開日:2022-05-12 |
# (参考訳) noun2verb: 単語クラス変換のための確率的フレームセマンティクス Noun2Verb: Probabilistic frame semantics for word class conversion ( http://arxiv.org/abs/2205.06321v1 ) ライセンス: CC BY 4.0 | Lei Yu, Yang Xu | (参考訳) 人間は、異なる文法クラス(単語クラス変換として知られる現象)にまたがって、柔軟に単語の使用を拡張できる。
名詞から動詞への変換(英: Noun-to-verb conversion, 英: Denominal verb)は、単語のクラス変換の最も一般的な形式の一つである。
しかし、既存の自然言語処理システムは、新しい動詞の解釈や生成に苦しめられている。
先行研究では、リスナーが話者との共有知識に基づいて意図した意味を計算できるならば、新しい語尾動詞の使用法が理解可能であることが示唆された。
ここでは,フレーム意味論に基づくこの提案の計算形式について考察する。
意味フレームにおける話者とリスナーの共有知識をモデル化し,新しい動詞用法の生成と理解をシミュレートする形式的枠組みであるnoun2verbを提案する。
パラフレーズによる新しい名詞用動詞の解釈と生成を学習する確率モデルを段階的に評価する。
本報告では,話者と聞き手が協調して意味フレーム上での協調分布を学習するモデルが,語用言語モデルよりも経験的語用動詞使用法をよりよく説明できることを示す。
1) 成人・子供両方の発話における現代英語
2)現代中国語、および
3)英語の歴史的発展。
我々の研究は、確率的フレームセマンティクスにおける単語のクラス変換を基礎とし、自然言語処理システムと人間の語彙的創造性のギャップを埋める。 Humans can flexibly extend word usages across different grammatical classes, a phenomenon known as word class conversion. Noun-to-verb conversion, or denominal verb (e.g., to Google a cheap flight), is one of the most prevalent forms of word class conversion. However, existing natural language processing systems are impoverished in interpreting and generating novel denominal verb usages. Previous work has suggested that novel denominal verb usages are comprehensible if the listener can compute the intended meaning based on shared knowledge with the speaker. Here we explore a computational formalism for this proposal couched in frame semantics. We present a formal framework, Noun2Verb, that simulates the production and comprehension of novel denominal verb usages by modeling shared knowledge of speaker and listener in semantic frames. We evaluate an incremental set of probabilistic models that learn to interpret and generate novel denominal verb usages via paraphrasing. We show that a model where the speaker and listener cooperatively learn the joint distribution over semantic frame elements better explains the empirical denominal verb usages than state-of-the-art language models, evaluated against data from 1) contemporary English in both adult and child speech, 2) contemporary Mandarin Chinese, and 3) the historical development of English. Our work grounds word class conversion in probabilistic frame semantics and bridges the gap between natural language processing systems and humans in lexical creativity. | 翻訳日:2022-05-17 02:07:17 公開日:2022-05-12 |
# (参考訳) 確率線形帯域におけるマルチ環境メタラーニング Multi-Environment Meta-Learning in Stochastic Linear Bandits ( http://arxiv.org/abs/2205.06326v1 ) ライセンス: CC BY 4.0 | Ahmadreza Moradipari, Mohammad Ghavamzadeh, Taha Rajabzadeh, Christos Thrampoulidis, Mahnoosh Alizadeh | (参考訳) 本研究では,マルチタスク線形確率帯域問題におけるメタラーニング(学習から学習への)アプローチについて検討する。
単一分布(すなわち単一環境)からパラメータをサンプリングした線形バンディット問題の列におけるメタラーニングに関する[1]の研究に着想を得て、タスクパラメータが混合分布から引き出される場合のメタラーニングの可能性について考察する。
そこで本研究では,ラベル付き環境を持つタスクでトレーニングを行う場合,新しいタスクが起源となる環境の知識を必要とせず,新たなタスクに対する後悔を少なくするofulアルゴリズムの正規化版を提案する。
具体的には、新しいアルゴリズムに対する後悔は、環境の誤分類の影響を捉え、各タスクを個別に学習することや、異なる混合成分を認識せずにメタラーニングすることの利点を強調する。 In this work we investigate meta-learning (or learning-to-learn) approaches in multi-task linear stochastic bandit problems that can originate from multiple environments. Inspired by the work of [1] on meta-learning in a sequence of linear bandit problems whose parameters are sampled from a single distribution (i.e., a single environment), here we consider the feasibility of meta-learning when task parameters are drawn from a mixture distribution instead. For this problem, we propose a regularized version of the OFUL algorithm that, when trained on tasks with labeled environments, achieves low regret on a new task without requiring knowledge of the environment from which the new task originates. Specifically, our regret bound for the new algorithm captures the effect of environment misclassification and highlights the benefits over learning each task separately or meta-learning without recognition of the distinct mixture components. | 翻訳日:2022-05-17 02:05:43 公開日:2022-05-12 |
# (参考訳) 協調型マルチエージェント確率線形帯域 Collaborative Multi-agent Stochastic Linear Bandits ( http://arxiv.org/abs/2205.06331v1 ) ライセンス: CC BY 4.0 | Ahmadreza Moradipari, Mohammad Ghavamzadeh, and Mahnoosh Alizadeh | (参考訳) 我々は,ネットワークを形成するN$エージェントが局所的に通信し,全体的な後悔を最小限に抑える,協調的マルチエージェント確率線形帯域設定について検討した。
この設定では、各エージェントは独自の線形バンディット問題(それ自体は報酬パラメータ)を持ち、ゴールは報酬パラメータの平均値として最高のグローバルアクションw.r.tを選択することである。
各ラウンドで各エージェントがアクションを提案し、1つのアクションがランダムに選択され、ネットワークアクションとして再生される。
すべてのエージェントは、プレイされたアクションの対応する報酬を観察し、加速されたコンセンサス手順を使用して、すべてのエージェントが取得した報酬の平均の見積もりを計算する。
本稿では,分散上信頼度境界(UCB)アルゴリズムを提案し,各通信ラウンドに関連付けられた後悔の線形成長を含む,T$ラウンドの後悔に基づく高い確率を証明した。
我々の後悔は、$\mathcal{o}\big(\sqrt{\frac{t}{n \log(1/|\lambda_2|)}}\cdot (\log t)^2\big)$という順序である。 We study a collaborative multi-agent stochastic linear bandit setting, where $N$ agents that form a network communicate locally to minimize their overall regret. In this setting, each agent has its own linear bandit problem (its own reward parameter) and the goal is to select the best global action w.r.t. the average of their reward parameters. At each round, each agent proposes an action, and one action is randomly selected and played as the network action. All the agents observe the corresponding rewards of the played actions and use an accelerated consensus procedure to compute an estimate of the average of the rewards obtained by all the agents. We propose a distributed upper confidence bound (UCB) algorithm and prove a high probability bound on its $T$-round regret in which we include a linear growth of regret associated with each communication round. Our regret bound is of order $\mathcal{O}\Big(\sqrt{\frac{T}{N \log(1/|\lambda_2|)}}\cdot (\log T)^2\Big)$, where $\lambda_2$ is the second largest (in absolute value) eigenvalue of the communication matrix. | 翻訳日:2022-05-17 01:48:55 公開日:2022-05-12 |
# (参考訳) 関数空間における一般化変分推論--ガウス測度とベイズ深層学習 Generalized Variational Inference in Function Spaces: Gaussian Measures meet Bayesian Deep Learning ( http://arxiv.org/abs/2205.06342v1 ) ライセンス: CC BY 4.0 | Veit D. Wild, Robert Hu, Dino Sejdinovic | (参考訳) 無限次元関数空間における一般化変分推論の枠組みを開発し、それをガウス・ワッサーシュタイン推論(GWI)と呼ばれる方法を構築する。
gwi は二乗可積分函数のヒルベルト空間上のガウス測度間のワッサーシュタイン距離を利用して、可搬最適化基準を用いて変分後点を判定し、標準変分関数空間推論で生じる病理を回避している。
GWIのエキサイティングな応用は、GWIの変分パラメトリションにおいてディープニューラルネットワークを使用する能力であり、その優れた予測性能とガウス過程に類似した原理化された不確実性定量化を組み合わせたものである。
提案手法は,複数のベンチマークデータセット上での最先端性能を得る。 We develop a framework for generalized variational inference in infinite-dimensional function spaces and use it to construct a method termed Gaussian Wasserstein inference (GWI). GWI leverages the Wasserstein distance between Gaussian measures on the Hilbert space of square-integrable functions in order to determine a variational posterior using a tractable optimisation criterion and avoids pathologies arising in standard variational function space inference. An exciting application of GWI is the ability to use deep neural networks in the variational parametrisation of GWI, combining their superior predictive performance with the principled uncertainty quantification analogous to that of Gaussian processes. The proposed method obtains state-of-the-art performance on several benchmark datasets. | 翻訳日:2022-05-17 01:33:12 公開日:2022-05-12 |
# (参考訳) 多言語ファウショット学習の経済性について:機械翻訳とマニュアルデータのコストパフォーマンストレードオフをモデル化する On the Economics of Multilingual Few-shot Learning: Modeling the Cost-Performance Trade-offs of Machine Translated and Manual Data ( http://arxiv.org/abs/2205.06350v1 ) ライセンス: CC BY 4.0 | Kabir Ahuja, Monojit Choudhury, Sandipan Dandapat | (参考訳) 本稿では,多言語多言語モデルのタスク固有の微調整のための,機械翻訳と手作業によるラベル付きデータ間の性能とコストのトレードオフを体系的に評価する枠組みを提案する。
本稿では,TyDIQA-GoldPデータセットのケーススタディによるフレームワークの有効性について述べる。
この研究の興味深い結論の1つは、機械翻訳のコストが0より大きい場合、最適性能は少なくとも手動で作成したデータで常に達成されるということである。
我々の知る限り、これは多言語モデルのトレーニングのためのデータ収集戦略を研究するために生産関数の概念を拡張しようとする最初の試みであり、NLPにおける他の同様のコスト対データトレードオフのための貴重なツールとして役立ちます。 Borrowing ideas from {\em Production functions} in micro-economics, in this paper we introduce a framework to systematically evaluate the performance and cost trade-offs between machine-translated and manually-created labelled data for task-specific fine-tuning of massively multilingual language models. We illustrate the effectiveness of our framework through a case-study on the TyDIQA-GoldP dataset. One of the interesting conclusions of the study is that if the cost of machine translation is greater than zero, the optimal performance at least cost is always achieved with at least some or only manually-created data. To our knowledge, this is the first attempt towards extending the concept of production functions to study data collection strategies for training multilingual models, and can serve as a valuable tool for other similar cost vs data trade-offs in NLP. | 翻訳日:2022-05-17 00:49:22 公開日:2022-05-12 |
# (参考訳) メタラーニングを用いたウォームスタートダート Warm-starting DARTS using meta-learning ( http://arxiv.org/abs/2205.06355v1 ) ライセンス: CC BY-SA 4.0 | Matej Grobelnik and Joaquin Vanschoren | (参考訳) neural architecture search(nas)は、自動機械学習(automl)の分野で大きな可能性を秘めている。
nasは手設計のネットワークを上回っており、ディープニューラルネットワークの設計を自動化して、人間の専門知識の必要性を更に減らしている。
しかし、ほとんどの研究は単一の特定のタスクを対象として行われ、複数のタスクに対するnasメソッドの研究はほとんど見過ごされている。
一般的に、新しいタスクのためのアーキテクチャを見つけるには2つの一般的な方法があります。
設計に効果がないスクラッチから検索するか、他のタスクから検出されたアーキテクチャを転送するかのいずれかで、パフォーマンス保証がなく、おそらく最適ではない。
本研究では,微分可能なアーキテクチャ探索(DARTS)を温めるメタラーニングフレームワークを提案する。
DARTSはNASメソッドであり、転送されたアーキテクチャで初期化することができ、新しいタスクに迅速に適応することができる。
タスク類似度尺度は、どの転送アーキテクチャが選択されているかを決定するために使用される。
さらに、複数のタスクで学んだ単純なメタ転送アーキテクチャも採用しています。
実験によると、ウォームスタートしたDARTSは競争力のあるアーキテクチャを見つけることができ、検索コストを平均60%削減できる。 Neural architecture search (NAS) has shown great promise in the field of automated machine learning (AutoML). NAS has outperformed hand-designed networks and made a significant step forward in the field of automating the design of deep neural networks, thus further reducing the need for human expertise. However, most research is done targeting a single specific task, leaving research of NAS methods over multiple tasks mostly overlooked. Generally, there exist two popular ways to find an architecture for some novel task. Either searching from scratch, which is ineffective by design, or transferring discovered architectures from other tasks, which provides no performance guarantees and is probably not optimal. In this work, we present a meta-learning framework to warm-start Differentiable architecture search (DARTS). DARTS is a NAS method that can be initialized with a transferred architecture and is able to quickly adapt to new tasks. A task similarity measure is used to determine which transfer architecture is selected, as transfer architectures found on similar tasks will likely perform better. Additionally, we employ a simple meta-transfer architecture that was learned over multiple tasks. Experiments show that warm-started DARTS is able to find competitive performing architectures while reducing searching costs on average by 60%. | 翻訳日:2022-05-17 00:34:40 公開日:2022-05-12 |
# (参考訳) 静的モデルとテストセットを超えて:タスクと言語間の事前訓練モデルの可能性のベンチマーク Beyond Static Models and Test Sets: Benchmarking the Potential of Pre-trained Models Across Tasks and Languages ( http://arxiv.org/abs/2205.06356v1 ) ライセンス: CC BY 4.0 | Kabir Ahuja, Sandipan Dandapat, Sunayana Sitaram, Monojit Choudhury | (参考訳) mBERTやXLMRのような最近のMMLM(Massively Multilingual Language Model)は約100言語をサポートしているが、既存の多言語NLPベンチマークでは、言語多様性の少ない少数の言語で評価データを提供している。
本稿は,多言語評価における既存の実践を信頼できないものにし,言語環境におけるMMLMの性能の全体像を提示しない。
NLPタスクの性能予測における最近の研究は,多言語NLPにおけるベンチマークの修正における潜在的な解決策として,データと言語型に関する特徴を活用して,異なる言語上でのMMLMの性能を推定することを提案する。
性能予測と4つの異なる多言語データセットのケーススタディを比較し、これらの手法は、追加の翻訳や評価コストを必要とせずに、翻訳ベースアプローチとほぼ同等のパフォーマンスを信頼性の高い推定を行うことができることを検証した。 Although recent Massively Multilingual Language Models (MMLMs) like mBERT and XLMR support around 100 languages, most existing multilingual NLP benchmarks provide evaluation data in only a handful of these languages with little linguistic diversity. We argue that this makes the existing practices in multilingual evaluation unreliable and does not provide a full picture of the performance of MMLMs across the linguistic landscape. We propose that the recent work done in Performance Prediction for NLP tasks can serve as a potential solution in fixing benchmarking in Multilingual NLP by utilizing features related to data and language typology to estimate the performance of an MMLM on different languages. We compare performance prediction with translating test data with a case study on four different multilingual datasets, and observe that these methods can provide reliable estimates of the performance that are often on-par with the translation based approaches, without the need for any additional translation as well as evaluation costs. | 翻訳日:2022-05-17 00:07:32 公開日:2022-05-12 |
# (参考訳) KASAM: 関数近似のためのスプライン付加モデル KASAM: Spline Additive Models for Function Approximation ( http://arxiv.org/abs/2205.06376v1 ) ライセンス: CC BY 4.0 | Heinrich van Deventer, Pieter Janse van Rensburg, Anna Bosman | (参考訳) ニューラルネットワークは、新しい概念が導入されたとき、過去の概念の破滅的な忘れと急速な未学習のために、継続的な学習ができないことで批判されている。
壊滅的な忘れは、特別に設計されたモデルと訓練技術によって軽減される。
本稿では, Spline Additive Model (SAM)について概説する。
SAMは多くの実用的なタスクに対して十分な表現力を持つ固有のメモリ保持を示すが、普遍的な関数近似器ではない。
sam は kolmogorov-arnold representation theorem を用いて、kolmogorov-arnold spline additive model (kasam) と呼ばれる新しい普遍関数近似子へと拡張される。
SAM と KASAM のメモリ保持、表現力、限界を解析的かつ実証的に説明する。
SAMは、連続的な学習タスクで重複する干渉の小さな領域で、堅牢だが不完全な記憶保持を示す。
KASAMは破滅的な忘れやすさを示した。
KASAMと擬似リハーサルトレーニングの併用により、回帰作業や記憶保持において優れた性能を示した。 Neural networks have been criticised for their inability to perform continual learning due to catastrophic forgetting and rapid unlearning of a past concept when a new concept is introduced. Catastrophic forgetting can be alleviated by specifically designed models and training techniques. This paper outlines a novel Spline Additive Model (SAM). SAM exhibits intrinsic memory retention with sufficient expressive power for many practical tasks, but is not a universal function approximator. SAM is extended with the Kolmogorov-Arnold representation theorem to a novel universal function approximator, called the Kolmogorov-Arnold Spline Additive Model - KASAM. The memory retention, expressive power and limitations of SAM and KASAM are illustrated analytically and empirically. SAM exhibited robust but imperfect memory retention, with small regions of overlapping interference in sequential learning tasks. KASAM exhibited greater susceptibility to catastrophic forgetting. KASAM in combination with pseudo-rehearsal training techniques exhibited superior performance in regression tasks and memory retention. | 翻訳日:2022-05-16 23:51:20 公開日:2022-05-12 |
# (参考訳) LANTERN-RD: 侵入型ランタンフライの緩和のためのディープラーニングの実現 LANTERN-RD: Enabling Deep Learning for Mitigation of the Invasive Spotted Lanternfly ( http://arxiv.org/abs/2205.06397v1 ) ライセンス: CC BY 4.0 | Srivatsa Kundurthy | (参考訳) スポット・ランタンフライ(英: Spotted Lanternfly、SLF)は、アメリカ合衆国北東部や日本などの地域の生物多様性と農業経済を脅かす侵入性植物ホッパーである。
研究者が昆虫の研究に没頭するにつれ、SLFを組み込む際に重要な下流に影響を及ぼすような、検出、ポーズ推定、正確な識別といったコンピュータビジョンのタスクには大きな可能性がある。
しかし、現在そのようなAIモデルをトレーニングするためのデータセットは公開されていない。
コンピュータビジョンの応用と、侵入SLF問題に挑戦するためのモチベーション向上を実現するため、我々は、観測されたランタンフライとその外観に関する最初のキュレートされた画像データセットであるLANTERN-RDを提案し、様々な照明条件、多様な背景、様々なポーズの被写体を特徴付ける。
VGG16ベースのベースラインCNNは、新しいコンピュータビジョンアプリケーションを刺激し、侵入SLF研究を加速するためのデータセットの可能性を検証する。
さらに, 簡易なモバイル分類アプリケーションにおいて, 教育モデルを実装し, 責任ある公衆衛生活動に直接力を与える。
本研究の包括的なミッションは、新しいSLFイメージデータセットを導入し、コンピュータビジョンアプリケーションを可能にする分類フレームワークをリリースし、侵略的なSLFを取り巻く研究を強化し、農業と経済の被害を最小限に抑えることである。 The Spotted Lanternfly (SLF) is an invasive planthopper that threatens the local biodiversity and agricultural economy of regions such as the Northeastern United States and Japan. As researchers scramble to study the insect, there is a great potential for computer vision tasks such as detection, pose estimation, and accurate identification to have important downstream implications in containing the SLF. However, there is currently no publicly available dataset for training such AI models. To enable computer vision applications and motivate advancements to challenge the invasive SLF problem, we propose LANTERN-RD, the first curated image dataset of the spotted lanternfly and its look-alikes, featuring images with varied lighting conditions, diverse backgrounds, and subjects in assorted poses. A VGG16-based baseline CNN validates the potential of this dataset for stimulating fresh computer vision applications to accelerate invasive SLF research. Additionally, we implement the trained model in a simple mobile classification application in order to directly empower responsible public mitigation efforts. The overarching mission of this work is to introduce a novel SLF image dataset and release a classification framework that enables computer vision applications, boosting studies surrounding the invasive SLF and assisting in minimizing its agricultural and economic damage. | 翻訳日:2022-05-16 23:50:21 公開日:2022-05-12 |
# 一般化ボルツマンマシンとしての詳細な平衡化学反応ネットワーク Detailed Balanced Chemical Reaction Networks as Generalized Boltzmann Machines ( http://arxiv.org/abs/2205.06313v1 ) ライセンス: Link先を確認 | William Poole, Thomas Ouldridge, Manoj Gopalkrishnan, and Erik Winfree | (参考訳) ミクロンサイズの相互作用分子の袋は、常に変動する環境に適応できるのか?
細胞性生命は肯定的な存在の証明を提供するが、生命の存在を許す原理は証明されていない。
バイオケミカル計算の工学と理解における課題の1つは、化学的変動による固有のノイズである。
本稿では, 機械学習理論, 化学反応ネットワーク理論, 統計物理学の知見から, 複雑な分布の表現と条件付けが可能な, 詳細なバランスの取れた化学反応ネットワークの広範かつ生物学的な分類を示す。
これらの結果は,生物化学計算機が内在性化学ノイズを用いて複雑な計算を行う方法を示している。
さらに, 熱力学的な推論コストを導出するために, 明示的な物理モデルを用いる。 Can a micron sized sack of interacting molecules understand, and adapt to a constantly-fluctuating environment? Cellular life provides an existence proof in the affirmative, but the principles that allow for life's existence are far from being proven. One challenge in engineering and understanding biochemical computation is the intrinsic noise due to chemical fluctuations. In this paper, we draw insights from machine learning theory, chemical reaction network theory, and statistical physics to show that the broad and biologically relevant class of detailed balanced chemical reaction networks is capable of representing and conditioning complex distributions. These results illustrate how a biochemical computer can use intrinsic chemical noise to perform complex computations. Furthermore, we use our explicit physical model to derive thermodynamic costs of inference. | 翻訳日:2022-05-16 14:15:33 公開日:2022-05-12 |
# 命題論理と量子化モーダル論理のPVS埋め込み PVS Embeddings of Propositional and Quantified Modal Logic ( http://arxiv.org/abs/2205.06391v1 ) ライセンス: Link先を確認 | John Rushby | (参考訳) 様相論理は、様々な真理のモードについての推論を可能にする:例えば、何かが真であることの意味や、それを単に信じることとは対照的に、何かが真であることを知る。
本稿では,pvs検証システムにおける命題論理と量化モーダル論理の組込みについて述べる。
PVSのリソースは、効率的な自動化を提供しながら、モーダルロジックの標準的な構文の多くをサポートする魅力的な方法でこれを行うことができる。
本報告では, 標準モーダル公理とアクセシビリティ関係の性質の関係, バーカン公式の属性, および, 定数領域および可変領域におけるその逆関係など, モーダル論理におけるいくつかの標準的トピックを, 正式に定義し, 検証する。 Modal logics allow reasoning about various modes of truth: for example, what it means for something to be possibly true, or to know that something is true as opposed to merely believing it. This report describes embeddings of propositional and quantified modal logic in the PVS verification system. The resources of PVS allow this to be done in an attractive way that supports much of the standard syntax of modal logic, while providing effective automation. The report introduces and formally specifies and verifies several standard topics in modal logic such as relationships between the standard modal axioms and properties of the accessibility relation, and attributes of the Barcan Formula and its converse in both constant and varying domains. | 翻訳日:2022-05-16 14:09:13 公開日:2022-05-12 |
# 配電用グラフ表現学習による電力系統の過渡安定度評価 Distribution-Aware Graph Representation Learning for Transient Stability Assessment of Power System ( http://arxiv.org/abs/2205.06576v1 ) ライセンス: Link先を確認 | Kaixuan Chen, Shunyu Liu, Na Yu, Rong Yan, Quan Zhang, Jie Song, Zunlei Feng, Mingli Song | (参考訳) リアルタイム過渡安定性評価(TSA)は、電力系統の安全な運転において重要な役割を果たす。
古典的な数値積分法である textit{i.e.} 時間領域シミュレーション (TDS) は、産業的に広く用いられているが、電力系統の高緯度高度化のため、必然的に高い計算複雑性に閉じ込められている。
本研究では,データ駆動型電力系統推定手法を提案し,TDSが時間ウィンドウのシミュレーション終了前に電力系統の安定性を迅速に予測し,精度を損なうことなく,安定性評価の平均シミュレーション時間を短縮できることを示した。
電力システムのトポロジーはグラフ構造であるので、グラフニューラルネットワークに基づく表現学習は電力システムの状態を学習するのに自然に適している。
そこで,電力系統のバスノード上での重要なアクティブ電力分布情報と反応性電力を観測することにより,電力系統の状態を記述するための情報グラフ表現ベクトルを探索する分布認識学習~(dal)モジュールを提案する。
次に、TSAをバイナリ分類タスクとして再定義し、数値積分なしで結果のグラフ表現から直接システムの安定性を決定する。
最後に,本手法をオンラインtsaタスクに適用する。
IEEE 39-busシステムとポーランド2383-busシステムのケーススタディにより,提案手法の有効性が示された。 The real-time transient stability assessment (TSA) plays a critical role in the secure operation of the power system. Although the classic numerical integration method, \textit{i.e.} time-domain simulation (TDS), has been widely used in industry practice, it is inevitably trapped in a high computational complexity due to the high latitude sophistication of the power system. In this work, a data-driven power system estimation method is proposed to quickly predict the stability of the power system before TDS reaches the end of simulating time windows, which can reduce the average simulation time of stability assessment without loss of accuracy. As the topology of the power system is in the form of graph structure, graph neural network based representation learning is naturally suitable for learning the status of the power system. Motivated by observing the distribution information of crucial active power and reactive power on the power system's bus nodes, we thus propose a distribution-aware learning~(DAL) module to explore an informative graph representation vector for describing the status of a power system. Then, TSA is re-defined as a binary classification task, and the stability of the system is determined directly from the resulting graph representation without numerical integration. Finally, we apply our method to the online TSA task. The case studies on the IEEE 39-bus system and Polish 2383-bus system demonstrate the effectiveness of our proposed method. | 翻訳日:2022-05-16 14:05:31 公開日:2022-05-12 |
# ガウス過程を用いたチャープ瞬時周波数の確率的推定 Probabilistic Estimation of Chirp Instantaneous Frequency Using Gaussian Processes ( http://arxiv.org/abs/2205.06306v1 ) ライセンス: Link先を確認 | Zheng Zhao, Simo S\"arkk\"a, Jens Sj\"olund, Thomas B. Sch\"on | (参考訳) チャープと瞬時周波数の真の形式が不明な場合にチャープ信号とその瞬時周波数関数を推定する確率論的手法を提案する。
そこで, 非線形確率微分方程式によって制御される結合カスケードガウス過程を表現し, 確率フィルタとスムーサを用いて後続分布を推定する。
モデルパラメータは最大確率推定によって決定される。
理論的結果は,推定法が有界平均2乗誤差を持つことを示している。
実験により, この手法は合成モデル上で多くのベースライン法より優れており, 重力波データの解析にも適用できることがわかった。 We present a probabilistic approach for estimating chirp signal and its instantaneous frequency function when the true forms of the chirp and instantaneous frequency are unknown. To do so, we represent them by joint cascading Gaussian processes governed by a non-linear stochastic differential equation, and estimate their posterior distribution by using stochastic filters and smoothers. The model parameters are determined via maximum likelihood estimation. Theoretical results show that the estimation method has a bounded mean squared error. Experiments show that the method outperforms a number of baseline methods on a synthetic model, and we also apply the method to analyse a gravitational wave data. | 翻訳日:2022-05-16 14:04:59 公開日:2022-05-12 |
# 複数の更新モデルにおけるメンバーシップ推論攻撃の組合せ How to Combine Membership-Inference Attacks on Multiple Updated Models ( http://arxiv.org/abs/2205.06369v1 ) ライセンス: Link先を確認 | Matthew Jagielski, Stanley Wu, Alina Oprea, Jonathan Ullman, Roxana Geambasu | (参考訳) 機械学習モデルは、トレーニングデータの参加者のプライバシに反するメンバーシップ推論(MI)攻撃に弱いことが、大規模な研究で示されている。
ほとんどのMI研究は、単一のスタンドアロンモデルの場合に焦点を当てている一方、本番の機械学習プラットフォームは、しばしば分散がシフトするデータに基づいて、時間とともにモデルを更新し、攻撃者により多くの情報を与える。
本稿では、MIを改善するために、1つ以上のモデル更新を利用する新たな攻撃を提案する。
我々のアプローチの重要な部分は、元のモデルと更新されたモデルに対して個別にマウントされたスタンドアロンMI攻撃からの豊富な情報を活用し、これらの情報を特定の方法で組み合わせて攻撃の有効性を向上させることである。
本稿では,それぞれの組み合わせ関数とチューニング手法のセットを提案し,様々な選択肢について解析的および定量的に正当性を示す。
4つの公開データセットから得られた結果から,我々の攻撃は,スタンドアロンモデルに対する攻撃に対して,敵に重大な優位性を与えるために更新情報を使用するのに有効であることが示された。
モデル更新によるMI攻撃に対する分布シフトの影響の初回測定を行い、より劇的な分布シフトにより、段階的な変化よりもMIリスクが著しく高いことを示す。
私たちのコードはhttps://www.github.com/stanleykywu/model-updatesで利用可能です。 A large body of research has shown that machine learning models are vulnerable to membership inference (MI) attacks that violate the privacy of the participants in the training data. Most MI research focuses on the case of a single standalone model, while production machine-learning platforms often update models over time, on data that often shifts in distribution, giving the attacker more information. This paper proposes new attacks that take advantage of one or more model updates to improve MI. A key part of our approach is to leverage rich information from standalone MI attacks mounted separately against the original and updated models, and to combine this information in specific ways to improve attack effectiveness. We propose a set of combination functions and tuning methods for each, and present both analytical and quantitative justification for various options. Our results on four public datasets show that our attacks are effective at using update information to give the adversary a significant advantage over attacks on standalone models, but also compared to a prior MI attack that takes advantage of model updates in a related machine-unlearning setting. We perform the first measurements of the impact of distribution shift on MI attacks with model updates, and show that a more drastic distribution shift results in significantly higher MI risk than a gradual shift. Our code is available at https://www.github.com/stanleykywu/model-updates. | 翻訳日:2022-05-16 14:04:48 公開日:2022-05-12 |
# プログレッシブカスケードネットワークを用いた解釈可能な気候変動モデル Interpretable Climate Change Modeling With Progressive Cascade Networks ( http://arxiv.org/abs/2205.06351v1 ) ライセンス: Link先を確認 | Charles Anderson, Jason Stock, David Anderson | (参考訳) 高次元データをモデリングするための典型的なディープラーニングアプローチは、しばしばデータに対する新しい理解を簡単に明らかにしない複雑なモデルをもたらす。
深層学習分野の研究は、深層ニューラルネットワークを解釈し、複雑さを減らすための新しい手法を積極的に追求している。
ここでは、線形モデルから始まり、データによってのみサポートされた複雑性を漸進的に追加するアプローチについて説明する。
気候の変化にかかわるパターンを調査するために、地球温度と降水を年々マッピングするモデルを訓練した応用例を示す。 Typical deep learning approaches to modeling high-dimensional data often result in complex models that do not easily reveal a new understanding of the data. Research in the deep learning field is very actively pursuing new methods to interpret deep neural networks and to reduce their complexity. An approach is described here that starts with linear models and incrementally adds complexity only as supported by the data. An application is shown in which models that map global temperature and precipitation to years are trained to investigate patterns associated with changes in climate. | 翻訳日:2022-05-16 13:35:52 公開日:2022-05-12 |
# 羽ばたき農業のための深層学習:予測と異常検出 Deep Learning for Prawn Farming: Forecasting and Anomaly Detection ( http://arxiv.org/abs/2205.06359v1 ) ライセンス: Link先を確認 | Joel Janek Dabrowski, Ashfaqur Rahman, Andrew Hellicar, Mashud Rana, Stuart Arnold | (参考訳) エビ池における水質管理のための意思決定支援システムを提案する。
このシステムは、24時間予測と水質パラメータの異常検出のための新しい方法で、さまざまなデータソースとディープラーニングモデルを使用する。
エビ農家に、成長の悪い環境を積極的に回避し、成長を最適化し、株を失うリスクを減らすためのツールを提供する。
これは、水質の悪い環境に反応して池の管理を強制される農家にとって大きな転換である。
私たちの知る限りでは、transformerを異常検出モデルとして初めて適用し、この養殖問題に一般的に異常検出を適用するのは初めてです。
我々の技術貢献には、多変量データにForecastNetを適用すること、天気予報データをデコーダに組み込むためにTransformerとAtentionモデルを適用することが含まれる。
溶存酸素の予測値の平均絶対値誤差は12%であり, 異常検出例は2例ある。
このシステムは、商業用エビ農場での2年目の展開で成功している。 We present a decision support system for managing water quality in prawn ponds. The system uses various sources of data and deep learning models in a novel way to provide 24-hour forecasting and anomaly detection of water quality parameters. It provides prawn farmers with tools to proactively avoid a poor growing environment, thereby optimising growth and reducing the risk of losing stock. This is a major shift for farmers who are forced to manage ponds by reactively correcting poor water quality conditions. To our knowledge, we are the first to apply Transformer as an anomaly detection model, and the first to apply anomaly detection in general to this aquaculture problem. Our technical contributions include adapting ForecastNet for multivariate data and adapting Transformer and the Attention model to incorporate weather forecast data into their decoders. We attain an average mean absolute percentage error of 12% for dissolved oxygen forecasts and we demonstrate two anomaly detection case studies. The system is successfully running in its second year of deployment on a commercial prawn farm. | 翻訳日:2022-05-16 13:35:43 公開日:2022-05-12 |
# 深部インバースグラフィーと学習可能レンダラーによる一例画像からのリアルタイムバーチャルトリオン Real-time Virtual-Try-On from a Single Example Image through Deep Inverse Graphics and Learned Differentiable Renderers ( http://arxiv.org/abs/2205.06305v1 ) ライセンス: Link先を確認 | Robin Kips, Ruowei Jiang, Sileye Ba, Brendan Duke, Matthieu Perrot, Pietro Gori, Isabelle Bloch | (参考訳) 拡張現実(augmented reality, ar)アプリケーションは、オンラインプラットフォームに急速に広がり、消費者は化粧、髪の死、靴など、さまざまな製品を試すことができる。
しかし、特定の製品の現実的なイメージを合成するためにレンダラーをパラメータ化することは、専門家の知識を必要とする課題である。
最近の研究は、サンプル画像から仮想試行のためのニューラルネットワークレンダリング手法を導入しているが、現在のアプローチはモバイルデバイスでリアルタイムに使用できない大規模な生成モデルに基づいている。
これにより、コンピュータグラフィックスとニューラルレンダリングアプローチの利点を組み合わせたハイブリッドな手法が求められます。
本稿では,与えられた拡張現実レンダリングエンジンのパラメータ空間への単一のサンプル画像のマッピングを学習するリアルタイム逆グラフィックスエンコーダを構築するための,ディープラーニングに基づく新しいフレームワークを提案する。
本手法は自己教師付き学習を活用し,多くの仮想試行アプリケーションに拡張可能なラベル付きトレーニングデータを必要としない。
さらに、ほとんどの拡張現実レンダラは、ポータブルデバイス上でリアルタイムに到達するためのアルゴリズム選択や実装制約のため、実際には区別できない。
逆グラフィックス問題におけるグラフィックスベースの微分可能レンダラの必要性を緩和するために,学習可能なイミテータモジュールを導入する。
我々の模倣者は、与えられた非微分可能レンダラーの挙動を正確に再現することを学ぶ生成ネットワークである。
本稿では,ネットワークがレンダリングパラメータ毎に正確かつ連続的な表現を学習することを保証するために,イミテータを訓練するための新しいレンダリング感度損失を提案する。
当社のフレームワークは,ソーシャルメディア上のインスピレーション付き参照画像から,未知の商品を仮想的に試せる新しいアプリケーションを実現する。
また、グラフィックアーティストが参照商品画像からリアルなレンダリングを自動的に作成するためにも使用できる。 Augmented reality applications have rapidly spread across online platforms, allowing consumers to virtually try-on a variety of products, such as makeup, hair dying, or shoes. However, parametrizing a renderer to synthesize realistic images of a given product remains a challenging task that requires expert knowledge. While recent work has introduced neural rendering methods for virtual try-on from example images, current approaches are based on large generative models that cannot be used in real-time on mobile devices. This calls for a hybrid method that combines the advantages of computer graphics and neural rendering approaches. In this paper we propose a novel framework based on deep learning to build a real-time inverse graphics encoder that learns to map a single example image into the parameter space of a given augmented reality rendering engine. Our method leverages self-supervised learning and does not require labeled training data which makes it extendable to many virtual try-on applications. Furthermore, most augmented reality renderers are not differentiable in practice due to algorithmic choices or implementation constraints to reach real-time on portable devices. To relax the need for a graphics-based differentiable renderer in inverse graphics problems, we introduce a trainable imitator module. Our imitator is a generative network that learns to accurately reproduce the behavior of a given non-differentiable renderer. We propose a novel rendering sensitivity loss to train the imitator, which ensures that the network learns an accurate and continuous representation for each rendering parameter. Our framework enables novel applications where consumers can virtually try-on a novel unknown product from an inspirational reference image on social media. It can also be used by graphics artists to automatically create realistic rendering from a reference product image. | 翻訳日:2022-05-16 13:14:56 公開日:2022-05-12 |
# 即時フィードバックによる逐次クエリ勧告の改善 Improving Sequential Query Recommendation with Immediate User Feedback ( http://arxiv.org/abs/2205.06297v1 ) ライセンス: Link先を確認 | Shameem A Puthiya Parambath, Christos Anagnostopoulos, Roderick Murray-Smith | (参考訳) 情報収集のための知識発見など,インタラクティブなデータ探索設定において,次のクエリレコメンデーションのためのアルゴリズムを提案する。
最先端のクエリレコメンデーションアルゴリズムは、過去のインタラクションデータを利用するシーケンスからシーケンスへの学習アプローチに基づいている。
本稿では,mab(multi-armed bandit)フレームワークを用いた即時ユーザフィードバックに対応するために,問合せレコメンデーションのためのトランスフォーマベース因果言語モデルの拡張を提案する。
本研究では,オンライン文献発見サービスからのログファイルを用いた大規模実験を行い,本アルゴリズムが,即時ユーザフィードバックを利用せず,最先端のトランスフォーマベースの問合せレコメンデーションモデルに関して,累積的後悔を大幅に改善できることを実証する。
データモデルとソースコードは ~\url{https://anonymous.4open.science/r/exp3_ss-9985/} で利用可能です。 We propose an algorithm for next query recommendation in interactive data exploration settings, like knowledge discovery for information gathering. The state-of-the-art query recommendation algorithms are based on sequence-to-sequence learning approaches that exploit historical interaction data. We propose to augment the transformer-based causal language models for query recommendations to adapt to the immediate user feedback using multi-armed bandit (MAB) framework. We conduct a large-scale experimental study using log files from a popular online literature discovery service and demonstrate that our algorithm improves the cumulative regret substantially, with respect to the state-of-the-art transformer-based query recommendation models, which do not make use of the immediate user feedback. Our data model and source code are available at ~\url{https://anonymous.4open.science/r/exp3_ss-9985/}. | 翻訳日:2022-05-16 13:10:08 公開日:2022-05-12 |
# $\alpha$-gan:収束と推定の保証 $\alpha$-GAN: Convergence and Estimation Guarantees ( http://arxiv.org/abs/2205.06393v1 ) ライセンス: Link先を確認 | Gowtham R. Kurri, Monica Welfert, Tyler Sypherd, Lalitha Sankar | (参考訳) 一般CPE損失関数 GANs の min-max 最適化と、関連する$f$-divergences の最小化との双方向対応性を証明する。
すると、$\alpha$-GAN を $\alpha$-loss で定義し、いくつかの GAN (Hellinger, vanilla, Total Variation) を補間し、有元発散の最小化に対応する。
すべての$\alpha\in \mathbb{R}_{>0}\cup\{\infty\}$に対して、$\alpha$-GAN によって誘導される有元発散が同値収束することを示す。
しかし、制限付き学習モデルと有限サンプルの下では、$\alpha$の関数として多様なGAN挙動を示す推定境界を提供する。
最後に、$\alpha$ハイパーパラメータのチューニングの実用性を強調したtoyデータセットについて実験結果を示す。 We prove a two-way correspondence between the min-max optimization of general CPE loss function GANs and the minimization of associated $f$-divergences. We then focus on $\alpha$-GAN, defined via the $\alpha$-loss, which interpolates several GANs (Hellinger, vanilla, Total Variation) and corresponds to the minimization of the Arimoto divergence. We show that the Arimoto divergences induced by $\alpha$-GAN equivalently converge, for all $\alpha\in \mathbb{R}_{>0}\cup\{\infty\}$. However, under restricted learning models and finite samples, we provide estimation bounds which indicate diverse GAN behavior as a function of $\alpha$. Finally, we present empirical results on a toy dataset that highlight the practical utility of tuning the $\alpha$ hyperparameter. | 翻訳日:2022-05-16 13:07:27 公開日:2022-05-12 |
# 自然文を用いた言語モデルにおけるバイアス理解 Using Natural Sentences for Understanding Biases in Language Models ( http://arxiv.org/abs/2205.06303v1 ) ライセンス: Link先を確認 | Sarah Alnegheimish, Alicia Guo, Yi Sun | (参考訳) 言語モデルにおけるバイアスの評価は、しばしば合成されたデータセットに限られる。
この依存は、言語モデルの特定の振る舞いをトリガーするプロンプトスタイルのデータセットの必要性にさかのぼる。
本稿では,ウィキペディアに存在する実世界の自然文から収集した職業に関する素早いデータセットを作成することで,このギャップに対処する。
言語モデルにおけるジェンダー占有バイアスの研究において,テンプレートに基づくプロンプトと自然文プロンプトの違いを理解することを目的とする。
テンプレートプロンプトの設計選択には, バイアス評価が非常に敏感であることが分かり, 自然な文プロンプトを体系的な評価に用いて, バイアスを発生させる可能性のある設計選択から離れることを提案する。 Evaluation of biases in language models is often limited to synthetically generated datasets. This dependence traces back to the need for a prompt-style dataset to trigger specific behaviors of language models. In this paper, we address this gap by creating a prompt dataset with respect to occupations collected from real-world natural sentences present in Wikipedia. We aim to understand the differences between using template-based prompts and natural sentence prompts when studying gender-occupation biases in language models. We find bias evaluations are very sensitive to the design choices of template prompts, and we propose using natural sentence prompts for systematic evaluations to step away from design choices that could introduce bias in the observations. | 翻訳日:2022-05-16 12:35:47 公開日:2022-05-12 |
# オブジェクト認識表現を用いた多目的シーンの視覚運動制御 Visuomotor Control in Multi-Object Scenes Using Object-Aware Representations ( http://arxiv.org/abs/2205.06333v1 ) ライセンス: Link先を確認 | Negin Heravi, Ayzaan Wahid, Corey Lynch, Pete Florence, Travis Armstrong, Jonathan Tompson, Pierre Sermanet, Jeannette Bohg, Debidatta Dwibedi | (参考訳) ロボット作業の完了には,シーンの知覚的理解と異なるコンポーネント間の関係が重要である。
表現学習は、このために強力なテクニックであることが示されているが、現在の方法論のほとんどは、必ずしも他のタスクにうまく移行しないタスク固有の表現を学ぶ。
さらに、教師付き手法で学習した表現は、現実世界で収集するのに高価なタスクごとに大きなラベル付きデータセットを必要とする。
ラベルのないデータから表現を得るために自己教師付き学習を使用することで、この問題を軽減できる。
しかし,現状の自己教師型表現学習法は対象非依存であり,多くのコンポーネントを持つシーンの複雑さを捉えるのに失敗するため,汎用ロボティクスタスクでは表現が不十分であることを示す。
本稿では,ロボット作業におけるオブジェクト指向表現学習の有効性について検討する。
我々の自己監督表現は、エージェントが環境の異なる部分と自由に相互作用するのを観察して学習し、2つの異なる設定でクエリされる。
(i)政策学習及び
(ii)オブジェクトの位置予測。
提案モデルでは,サンプル効率のよい制御ポリシを学習し,最先端のオブジェクト非依存技術や生のRGB画像で訓練された手法よりも優れていることを示す。
その結果、暗黙的行動クローニング(IBC)を用いた政策訓練において、低データ体制(1000トラジェクトリ)のパフォーマンスは20%向上した。
さらに,本手法は,多目的シーンにおけるオブジェクトローカライゼーションタスクのベースラインよりも優れる。 Perceptual understanding of the scene and the relationship between its different components is important for successful completion of robotic tasks. Representation learning has been shown to be a powerful technique for this, but most of the current methodologies learn task specific representations that do not necessarily transfer well to other tasks. Furthermore, representations learned by supervised methods require large labeled datasets for each task that are expensive to collect in the real world. Using self-supervised learning to obtain representations from unlabeled data can mitigate this problem. However, current self-supervised representation learning methods are mostly object agnostic, and we demonstrate that the resulting representations are insufficient for general purpose robotics tasks as they fail to capture the complexity of scenes with many components. In this paper, we explore the effectiveness of using object-aware representation learning techniques for robotic tasks. Our self-supervised representations are learned by observing the agent freely interacting with different parts of the environment and is queried in two different settings: (i) policy learning and (ii) object location prediction. We show that our model learns control policies in a sample-efficient manner and outperforms state-of-the-art object agnostic techniques as well as methods trained on raw RGB images. Our results show a 20 percent increase in performance in low data regimes (1000 trajectories) in policy training using implicit behavioral cloning (IBC). Furthermore, our method outperforms the baselines for the task of object localization in multi-object scenes. | 翻訳日:2022-05-16 12:19:08 公開日:2022-05-12 |
# (参考訳) 変圧器におけるデータ分散特性の創発的Few-Shot学習 Data Distributional Properties Drive Emergent Few-Shot Learning in Transformers ( http://arxiv.org/abs/2205.05055v2 ) ライセンス: CC BY 4.0 | Stephanie C.Y. Chan, Adam Santoro, Andrew K. Lampinen, Jane X. Wang, Aaditya Singh, Pierre H. Richemond, Jay McClelland, Felix Hill | (参考訳) 大規模なトランスフォーマーベースの言語モデルは、明示的にトレーニングされることなく、少数ショット学習(インコンテキスト学習とも呼ばれる)を行うことができる。
自然言語の特定の分布特性は、これらの特徴が、数発メタトレーニング(迅速な数発学習を促すために設計された)と標準教師付きトレーニング(段階的インウェイト学習を引き出すために設計された)のある種の補間に繋がる可能性があるため、この創発的な現象を引き起こす可能性があると仮定した。
また,これらの分布特性が言語以外の領域における創発的少数発学習につながると仮定した。
このアイデアに触発されて、私たちは標準的なイメージベースの少数ショットデータセットで一連の実験を行いました。
多くのデータ特性が、トランスフォーマーモデルにおける数発の学習の出現を促進することを発見した。
これらの特性はすべて自然言語で存在します -- バーストネス、ロングテールネス、多対多ラベルマッピングなどです。
このデータは、モデルが数ショットの学習に偏っているか、重みの情報を記憶しているかに影響を与えている。
しかし、この2つの機能は、クラス上のスキューでZipfianの分布である同じモデルで共存することができ、言語でも同様に発生する可能性があることが判明した。
特に、トランスフォーマーの少数ショット学習を誘発するトレーニングデータは、リカレントモデルにおける少数ショット学習を誘発することができなかった。
結論として、適切なデータ分散に適切なアーキテクチャを適用することでのみ、わずかなショット学習が生まれるということが分かりました。 Large transformer-based language models are able to perform few-shot learning (also known as in-context learning), without having been explicitly trained for it. We hypothesized that specific distributional properties of natural language might drive this emergent phenomenon, as these characteristics might lead to a kind of interpolation between few-shot meta-training (designed to elicit rapid few-shot learning) and standard supervised training (designed to elicit gradual in-weights learning). We also hypothesized that these distributional properties could lead to emergent few-shot learning in domains outside of language. Inspired by this idea, we ran a series of experiments on a standard image-based few-shot dataset. We discovered that a number of data properties did indeed promote the emergence of few-shot learning in transformer models. All of these properties are present in natural language -- burstiness, long-tailedness, and many-to-one or one-to-many label mappings. The data influenced whether models were biased towards either few-shot learning vs. memorizing information in their weights; models could generally perform well at only one or the other. However, we discovered that an additional distributional property could allow the two capabilities to co-exist in the same model -- a skewed, Zipfian distribution over classes -- which occurs in language as well. Notably, training data that could elicit few-shot learning in transformers were unable to elicit few-shot learning in recurrent models. In sum, we find that few-shot learning emerges only from applying the right architecture to the right data distribution; neither component is sufficient on its own. | 翻訳日:2022-05-16 02:16:38 公開日:2022-05-12 |
# エージェントによる生産・補助プロセスの分散・統合スケジューリングの概念とアルゴリズム Concepts and Algorithms for Agent-based Decentralized and Integrated Scheduling of Production and Auxiliary Processes ( http://arxiv.org/abs/2205.04461v2 ) ライセンス: Link先を確認 | Felix Gehlhoff, Alexander Fay | (参考訳) 個別の製品と短い製品ライフサイクルは、企業が伝統的な大量生産を再考するきっかけとなった。
industry 4.0のような新しい概念は、分散生産制御と情報の分散の出現を促進する。
このようなシナリオを実現するための有望な技術はマルチエージェントシステムである。
この貢献はエージェントベースの分散型および統合型スケジューリングアプローチの要件を分析する。
要求の一部は、エージェント間の通信がスケジューリング実行時間の主要なドライバであるため、線形にスケールする通信アーキテクチャを開発することである。
このアプローチは、運用、輸送、バッファリング、ツールなどの共有リソース操作を統合的にスケジュールし、それらの相互依存性を考慮します。
ロジスティクス要件の一部は、バッファ不足のような大きなワークピースの制約を反映している。
このアプローチは、例えば複数の企業からなるプロダクションネットワークで見られるような、大規模なシステムサイズにも適用可能な、一般的なソリューションを提供することを目的としている。
また、異なる種類の工場組織(フローショップ、求人店など)にも適用できる。
このアプローチは、産業要件に基づいた例を使って説明されます。
スケジューリングの実行時間を評価する実験が行われている。
結果は,アプローチの線形スケーリング挙動を示す。
また、同時交渉能力の分析を行う。 Individualized products and shorter product life cycles have driven companies to rethink traditional mass production. New concepts like Industry 4.0 foster the advent of decentralized production control and distribution of information. A promising technology for realizing such scenarios are Multi-agent systems. This contribution analyses the requirements for an agent-based decentralized and integrated scheduling approach. Part of the requirements is to develop a linearly scaling communication architecture, as the communication between the agents is a major driver of the scheduling execution time. The approach schedules production, transportation, buffering and shared resource operations such as tools in an integrated manner to account for interdependencies between them. Part of the logistics requirements reflect constraints for large workpieces such as buffer scarcity. The approach aims at providing a general solution that is also applicable to large system sizes that, for example, can be found in production networks with multiple companies. Further, it is applicable for different kinds of factory organization (flow shop, job shop etc.). The approach is explained using an example based on industrial requirements. Experiments have been conducted to evaluate the scheduling execution time. The results show the approach's linear scaling behavior. Also, analyses of the concurrent negotiation ability are conducted. | 翻訳日:2022-05-16 00:51:24 公開日:2022-05-12 |
# (参考訳) 参照表現の弱教師付きセグメンテーション Weakly-supervised segmentation of referring expressions ( http://arxiv.org/abs/2205.04725v2 ) ライセンス: CC BY 4.0 | Robin Strudel, Ivan Laptev, Cordelia Schmid | (参考訳) ビジュアルグラウンドは、与えられた参照表現に対応する画像内の領域(ボックスまたはセグメント)をローカライズする。
本研究では,これまで完全に教師された環境でのみ対処されてきた,参照表現からのイメージセグメンテーションに対処する。
しかし、完全な教師付きセットアップではピクセル単位での監視が必要であり、手動のアノテーションを犠牲にしてスケールするのは困難である。
そこで我々は、参照表現から弱教師付きイメージセグメンテーションのタスクを導入し、ピクセルレベルのアノテーションなしで画像レベルの参照表現から直接セグメンテーションマスクを学習するテキストベースセマンティックセグメンテーション(TSEG)を提案する。
本手法は,パッチテキストの類似性を計算し,新しいマルチラベルパッチ割り当て機構を用いて訓練中の分類目標を導出する。
得られた視覚的接地モデルは、与えられた自然言語表現に対応する画像領域をセグメント化する。
我々のアプローチTSEGは、困難であるPhraseCutとRefCOCOデータセット上で、弱教師付き参照表現セグメンテーションのための有望な結果を示す。
TSEGはまた、Pascal VOC上のセマンティックセグメンテーションのためのゼロショット設定で評価した場合の競合性能を示す。 Visual grounding localizes regions (boxes or segments) in the image corresponding to given referring expressions. In this work we address image segmentation from referring expressions, a problem that has so far only been addressed in a fully-supervised setting. A fully-supervised setup, however, requires pixel-wise supervision and is hard to scale given the expense of manual annotation. We therefore introduce a new task of weakly-supervised image segmentation from referring expressions and propose Text grounded semantic SEGgmentation (TSEG) that learns segmentation masks directly from image-level referring expressions without pixel-level annotations. Our transformer-based method computes patch-text similarities and guides the classification objective during training with a new multi-label patch assignment mechanism. The resulting visual grounding model segments image regions corresponding to given natural language expressions. Our approach TSEG demonstrates promising results for weakly-supervised referring expression segmentation on the challenging PhraseCut and RefCOCO datasets. TSEG also shows competitive performance when evaluated in a zero-shot setting for semantic segmentation on Pascal VOC. | 翻訳日:2022-05-14 17:41:55 公開日:2022-05-12 |
# (参考訳) 部分閉塞が歩行者検出性に及ぼす影響 The Impact of Partial Occlusion on Pedestrian Detectability ( http://arxiv.org/abs/2205.04812v3 ) ライセンス: CC BY 4.0 | Shane Gilroy, Darragh Mullins, Edward Jones, Ashkan Parsi and Martin Glavin | (参考訳) 脆弱な道路利用者のロバスト検出は、自動運転車を異種交通に配備するための安全上重要な要件である。
最も複雑な課題の1つは、対象の物体が、他の前景の物体の障害物によって、センサーに部分的にしか利用できない部分閉塞である。
多くの主要な歩行者検出ベンチマークは部分閉塞に対するアノテーションを提供しているが、それぞれのベンチマークは閉塞の発生と重症度の定義で大きく異なる。
近年の研究では、これらの症例では高い主観性が咬合レベルを分類するために用いられており、咬合は部分的および重閉塞などの2~3つの広いカテゴリに分類される。
これにより、どのベンチマークが使われているかによって、歩行者検出モデルのパフォーマンスが不正確または矛盾していることを報告できる。
本研究は, 歩行者検出モデルの客観的評価を容易にするため, 部分閉塞歩行者検出のための新しい客観的ベンチマークを提案する。
7つの歩行者検出モデルを用いて,0~99%の閉塞レベルについて評価を行った。
その結果, 歩行者検出性能は低下し, 歩行者咬合レベルが上昇するにつれて偽陰性検出数が増加することがわかった。
人気の高い歩行者検出ルーチン7つのうち、CenterNetは、SSDliteに続いて、全体的なパフォーマンスが最も高い。
RetinaNetの全体的な検出性能は、オクルージョンレベルの範囲で最低である。 Robust detection of vulnerable road users is a safety critical requirement for the deployment of autonomous vehicles in heterogeneous traffic. One of the most complex outstanding challenges is that of partial occlusion where a target object is only partially available to the sensor due to obstruction by another foreground object. A number of leading pedestrian detection benchmarks provide annotation for partial occlusion, however each benchmark varies greatly in their definition of the occurrence and severity of occlusion. Recent research demonstrates that a high degree of subjectivity is used to classify occlusion level in these cases and occlusion is typically categorized into 2 to 3 broad categories such as partially and heavily occluded. This can lead to inaccurate or inconsistent reporting of pedestrian detection model performance depending on which benchmark is used. This research introduces a novel, objective benchmark for partially occluded pedestrian detection to facilitate the objective characterization of pedestrian detection models. Characterization is carried out on seven popular pedestrian detection models for a range of occlusion levels from 0-99%. Results demonstrate that pedestrian detection performance degrades, and the number of false negative detections increase as pedestrian occlusion level increases. Of the seven popular pedestrian detection routines characterized, CenterNet has the greatest overall performance, followed by SSDlite. RetinaNet has the lowest overall detection performance across the range of occlusion levels. | 翻訳日:2022-05-14 15:18:43 公開日:2022-05-12 |
# (参考訳) 自己監視型異常検出:調査と展望 Self-Supervised Anomaly Detection: A Survey and Outlook ( http://arxiv.org/abs/2205.05173v2 ) ライセンス: CC BY 4.0 | Hadi Hojjati, Thi Kieu Khanh Ho, Narges Armanfard | (参考訳) 過去数年間、まれな事象の検出を主眼とする機械学習のサブフィールドである異常検出は、ディープラーニングモデルが前例のない成長を遂げた後、大幅な改善をみせた。
近年,自己教師付き学習の出現により,最先端精度をかなり超えた新しい異常検出アルゴリズムが開発されている。
本稿では,自己監督型異常検出における現在のアプローチを概観する。
共通のアプローチの技術的詳細を説明し、その強みと欠点について論じる。
また,これらのモデルの性能を,他の最先端の異常検出モデルと比較した。
最後に、既存のアルゴリズムを改善するための様々な新しい方向について論じる。 Over the past few years, anomaly detection, a subfield of machine learning that is mainly concerned with the detection of rare events, witnessed an immense improvement following the unprecedented growth of deep learning models. Recently, the emergence of self-supervised learning has sparked the development of new anomaly detection algorithms that surpassed state-of-the-art accuracy by a significant margin. This paper aims to review the current approaches in self-supervised anomaly detection. We present technical details of the common approaches and discuss their strengths and drawbacks. We also compare the performance of these models against each other and other state-of-the-art anomaly detection models. Finally, we discuss a variety of new directions for improving the existing algorithms. | 翻訳日:2022-05-14 06:56:14 公開日:2022-05-12 |
# (参考訳) AppTekのIWSLT 2022への提出 AppTek's Submission to the IWSLT 2022 Isometric Spoken Language Translation Task ( http://arxiv.org/abs/2205.05807v1 ) ライセンス: CC BY-SA 4.0 | Patrick Wilken, Evgeny Matusov | (参考訳) IWSLT 2022の評価において、Isometric Spoken Language Translation Taskに参加するために、AppTekは、ソース側とターゲット側擬似トークンから、位置符号化を置き換える文字の残りの長さの符号化まで、様々な長さ制御機構を備えた英語からドイツ語へのニューラルトランスフォーマーベースのシステムを開発した。
さらに、異なるシステム変種からの長さ対応仮説を文レベルで選択し、N-best候補を単一システムから再構成することで、翻訳長のコンプライアンスを向上する。
また,MST-Cトレーニングコーパスから派生した他の並列データ変種も良好な品質/所望長トレードオフのために重要であった。
実験結果から,BERTおよびBLEUスコアで測定したMT品質の損失を最小限に抑えつつ,90%以上の長さコンプライアンスレベルに達することが示唆された。 To participate in the Isometric Spoken Language Translation Task of the IWSLT 2022 evaluation, constrained condition, AppTek developed neural Transformer-based systems for English-to-German with various mechanisms of length control, ranging from source-side and target-side pseudo-tokens to encoding of remaining length in characters that replaces positional encoding. We further increased translation length compliance by sentence-level selection of length-compliant hypotheses from different system variants, as well as rescoring of N-best candidates from a single system. Length-compliant back-translated and forward-translated synthetic data, as well as other parallel data variants derived from the original MuST-C training corpus were important for a good quality/desired length trade-off. Our experimental results show that length compliance levels above 90% can be reached while minimizing losses in MT quality as measured in BERT and BLEU scores. | 翻訳日:2022-05-14 02:04:01 公開日:2022-05-12 |
# (参考訳) 生成モデルを用いたopen vocabulary extreme classification Open Vocabulary Extreme Classification Using Generative Models ( http://arxiv.org/abs/2205.05812v1 ) ライセンス: CC BY 4.0 | Daniel Simig, Fabio Petroni, Pouya Yanki, Kashyap Popat, Christina Du, Sebastian Riedel, Majid Yazdani | (参考訳) 極端なマルチラベル分類(XMC)タスクは、非常に大きなラベルセットからラベルのサブセットでコンテンツをタグ付けすることを目的としている。
ラベルの語彙は通常、ドメインの専門家によって事前に定義され、必要なタグをすべてキャプチャすると仮定される。
しかし、現実のシナリオでは、このラベルセットは大きいが、しばしば不完全であり、専門家はそれを洗練する必要がある。
この過程を単純化するシステムを開発するために,XMC (open vocabulary XMC) というタスクを導入する。
したがって、ゼロショット分類のように、いくつかのラベルのためのトレーニングデータを持たないことに加えて、モデルはいくつかのラベルをオンザフライで発明する必要がある。
本稿では, ラベルの集合をフラットシーケンスとして生成し, 予測されたラベル順序に依存しない新たな損失を用いて訓練する GROOV を提案する。
提案手法の有効性を示し,既知のラベルに対する最先端のソリューションと同等に実行しながら,groovが与えられた語彙以外の有意義なラベルを予測できる一般的なxmcデータセットを実験する。 The extreme multi-label classification (XMC) task aims at tagging content with a subset of labels from an extremely large label set. The label vocabulary is typically defined in advance by domain experts and assumed to capture all necessary tags. However in real world scenarios this label set, although large, is often incomplete and experts frequently need to refine it. To develop systems that simplify this process, we introduce the task of open vocabulary XMC (OXMC): given a piece of content, predict a set of labels, some of which may be outside of the known tag set. Hence, in addition to not having training data for some labels - as is the case in zero-shot classification - models need to invent some labels on-the-fly. We propose GROOV, a fine-tuned seq2seq model for OXMC that generates the set of labels as a flat sequence and is trained using a novel loss independent of predicted label order. We show the efficacy of the approach, experimenting with popular XMC datasets for which GROOV is able to predict meaningful labels outside the given vocabulary while performing on par with state-of-the-art solutions for known labels. | 翻訳日:2022-05-14 01:51:38 公開日:2022-05-12 |
# (参考訳) 文脈依存意思決定のための表現学習 Representation Learning for Context-Dependent Decision-Making ( http://arxiv.org/abs/2205.05820v1 ) ライセンス: CC BY 4.0 | Yuzhen Qin, Tommaso Menara, Samet Oymak, ShiNung Ching, and Fabio Pasqualetti | (参考訳) 人間は環境の変化に柔軟かつ迅速に適応することができる。
実証的な証拠は、表現学習が人間にそのような能力を与える上で重要な役割を担っていることを明らかにしている。
本研究は,文脈変化を伴う逐次意思決定シナリオにおける表現学習について考察する。
本研究では,文脈依存表現を学習し,伝達することが可能なオンラインアルゴリズムを提案する。
ケーススタディとして、我々のアルゴリズムを、シーケンシャルな意思決定における人間の精神的柔軟性の確立されたテストであるウィスコンシンカードソーティングタスクに適用する。
本アルゴリズムと標準Q-ラーニングアルゴリズムとDeep-Qラーニングアルゴリズムを比較し,適応表現学習の利点を実証する。 Humans are capable of adjusting to changing environments flexibly and quickly. Empirical evidence has revealed that representation learning plays a crucial role in endowing humans with such a capability. Inspired by this observation, we study representation learning in the sequential decision-making scenario with contextual changes. We propose an online algorithm that is able to learn and transfer context-dependent representations and show that it significantly outperforms the existing ones that do not learn representations adaptively. As a case study, we apply our algorithm to the Wisconsin Card Sorting Task, a well-established test for the mental flexibility of humans in sequential decision-making. By comparing our algorithm with the standard Q-learning and Deep-Q learning algorithms, we demonstrate the benefits of adaptive representation learning. | 翻訳日:2022-05-14 01:32:54 公開日:2022-05-12 |
# (参考訳) voxelパターンに基づくウェーブレットを用いたマルチビュー画像の連続ウェーブレット変換 Continuous wavelet transform of multiview images using wavelets based on voxel patterns ( http://arxiv.org/abs/2205.05823v1 ) ライセンス: CC BY 4.0 | Vladimir Saveljev | (参考訳) 本稿では,マルチビューディスプレイのボクセルパターンに基づくマルチビューウェーブレットを提案する。
二値および灰色スケール画像の直接および逆連続ウェーブレット変換を行った。
逆ウェーブレット変換への入力は、直接変換のウェーブレット係数の配列である。
復元画像は、マルチビュー画像の構造を正しく再現する。
また,視差の次元と3次元画像の深さも修正した。
修復および修正された画像はレンチキュラープレートを使用して3dで表示された。
それぞれの場合、視覚的な3D画像は適用された修正に対応する。
結果は立体視の3Dディスプレイに適用できる。 We propose the multiview wavelets based on voxel patterns of autostereoscopic multiview displays. Direct and inverse continuous wavelet transforms of binary and gray-scale images were performed. The input to the inverse wavelet transform was the array of wavelet coefficients of the direct transform. A restored image reproduces the structure of the multiview image correctly. Also, we modified the dimension of the parallax and the depth of 3D images. The restored and modified images were displayed in 3D using lenticular plates. In each case, the visual 3D picture corresponds to the applied modifications. The results can be applied to the autostereoscopic 3D displays. | 翻訳日:2022-05-14 01:14:17 公開日:2022-05-12 |
# (参考訳) プライバシ保護による分散機械学習の高速化 Privacy-Preserving Distributed Machine Learning Made Faster ( http://arxiv.org/abs/2205.05825v1 ) ライセンス: CC BY 4.0 | Zoe L. Jiang, Jiajing Gu, Hongxiao Wang, Yulin Wu, Junbin Fang, Siu-Ming Yiu, Wenjian Luo, Xuan Wang | (参考訳) 機械学習の開発により、単一のサーバがすべてのデータを処理することが困難になる。
したがって、機械学習タスクは複数のサーバに分散し、中央集権的な機械学習を分散タスクに変える必要がある。
しかし、分散機械学習では、プライバシは未解決の問題である。
マルチキー同型暗号はこの問題を解決するのに適した候補の1つである。
しかし、mktfhe (multi-key homomorphic encryption scheme) の最新の結果はnandゲートのみをサポートしている。
チューリング完全であるが、数学的計算をさらに支援するためには、NANDゲートの効率的なカプセル化が必要である。
本稿では,正および負の整数に対する一連の演算を正確に設計し,実装する。
まず,nandゲートと同等の効率性を持つブートストラップゲートの設計を行った。
第二に、基本2進ブートストラップゲートに基づいて、実用的な$k$-bit補数演算子を構築する。
生成された構造は、正整数と負整数の両方で加算、減算、乗算、除算を行うことができる。
最後に,分散プライバシ保存機械学習アルゴリズム,すなわち2つの異なる解を用いた線形回帰を実現することで,設計者の汎用性を実証した。
実験によると、我々が設計したオペレーターは実用的で効率的である。 With the development of machine learning, it is difficult for a single server to process all the data. So machine learning tasks need to be spread across multiple servers, turning the centralized machine learning into a distributed one. However, privacy remains an unsolved problem in distributed machine learning. Multi-key homomorphic encryption is one of the suitable candidates to solve the problem. However, the most recent result of the Multi-key homomorphic encryption scheme (MKTFHE) only supports the NAND gate. Although it is Turing complete, it requires efficient encapsulation of the NAND gate to further support mathematical calculation. This paper designs and implements a series of operations on positive and negative integers accurately. First, we design basic bootstrapped gates with the same efficiency as that of the NAND gate. Second, we construct practical $k$-bit complement mathematical operators based on our basic binary bootstrapped gates. The constructed created can perform addition, subtraction, multiplication, and division on both positive and negative integers. Finally, we demonstrated the generality of the designed operators by achieving a distributed privacy-preserving machine learning algorithm, i.e. linear regression with two different solutions. Experiments show that the operators we designed are practical and efficient. | 翻訳日:2022-05-14 01:04:49 公開日:2022-05-12 |
# (参考訳) スタックを用いたクロスドメインマイズショットメタラーニング Cross-domain Few-shot Meta-learning Using Stacking ( http://arxiv.org/abs/2205.05831v1 ) ライセンス: CC BY 4.0 | Hongyu Wang, Eibe Frank, Bernhard Pfahringer, Michael Mayo, Geoffrey Holmes | (参考訳) クロスドメイン少ショットメタラーニング(CDFSML)は、複数のソースドメインから明示的に異なる入力分布を持つインスタンススカースターゲットドメインに知識を移す必要がある学習問題に対処する。
最近発表されたCDFSML法は一般に、複数のソースドメインの知識を1つのバックボーン特徴抽出器に組み合わせた「ユニバーサルモデル」を構築している。
これにより効率的な推論が可能になるが、新しいソースドメインが追加されるたびにバックボーンを再計算する必要がある。
さらに、最先端のメソッドはバックボーン(通常、ソースドメインごとに1つ)の集合からユニバーサルモデルを引き継ぎ、バックボーンはユニバーサルモデルと同じアーキテクチャを持つように制約される。
メタ学習における古典的な積み重ね手法に着想を得たCDFSML法を提案する。
バックボーンのアーキテクチャや特徴形状に制約を課さず、ユニバーサルモデルの(再)計算の計算オーバーヘッドを発生させない。
ターゲットドメインタスクが与えられた場合、各バックボーンを個別に微調整し、クロスバリデーションを使用してタスクのインスタンススカースサポートセットからメタトレーニングデータを抽出し、このデータから単純な線形メタ分類器を学習する。
畳み込みニューラルネットワークを用いた画像分類を対象とし、よく知られたMeta-Datasetベンチマークのスタック化アプローチを評価し、競合する手法よりも精度が高いことを示す。 Cross-domain few-shot meta-learning (CDFSML) addresses learning problems where knowledge needs to be transferred from several source domains into an instance-scarce target domain with an explicitly different input distribution. Recently published CDFSML methods generally construct a "universal model" that combines knowledge of multiple source domains into one backbone feature extractor. This enables efficient inference but necessitates re-computation of the backbone whenever a new source domain is added. Moreover, state-of-the-art methods derive their universal model from a collection of backbones -- normally one for each source domain -- and the backbones may be constrained to have the same architecture as the universal model. We propose a CDFSML method that is inspired by the classic stacking approach to meta learning. It imposes no constraints on the backbones' architecture or feature shape and does not incur the computational overhead of (re-)computing a universal model. Given a target-domain task, it fine-tunes each backbone independently, uses cross-validation to extract meta training data from the task's instance-scarce support set, and learns a simple linear meta classifier from this data. We evaluate our stacking approach on the well-known Meta-Dataset benchmark, targeting image classification with convolutional neural networks, and show that it often yields substantially higher accuracy than competing methods. | 翻訳日:2022-05-14 01:03:53 公開日:2022-05-12 |
# (参考訳) クロスドメインクラウドカウントのための双方向アライメント Bi-level Alignment for Cross-Domain Crowd Counting ( http://arxiv.org/abs/2205.05844v1 ) ライセンス: CC BY 4.0 | Shenjian Gong, Shanshan Zhang, Jian Yang, Dengxin Dai and Bernt Schiele | (参考訳) 近年,群集密度推定が注目されている。
このタスクの主な課題は、大量のトレーニングデータで高品質な手動アノテーションを実現することである。
このようなアノテーションへの依存を避けるため、従来の研究は教師なしドメイン適応(UDA)技術を適用し、容易にアクセス可能な合成データから学習した知識を実世界のデータセットに転送する。
しかし、現在の最先端の手法は、補助的なタスクを訓練するための外部データに依存するか、高価な粗大な推定を適用している。
本研究は, 簡易かつ効率的に適用可能な, 逆学習に基づく新しい手法を開発することを目的とする。
合成データと実データとのドメイン間ギャップを低減するために,(1)タスク駆動型データアライメントと(2)細粒度機能アライメントからなるbi-level alignment framework(bla)を設計した。
従来のドメイン拡張手法とは対照的に、ソース上の最適な変換を探すためにAutoMLを導入します。
一方,アライメントの困難さを軽減するために,前景と背景の微粒なアライメントを別々に行う。
我々は,既存の手法を大差で上回る5つの実世界の群衆数ベンチマークについて評価した。
また、私たちのアプローチはシンプルで、実装が簡単で、適用も効率的です。
コードはhttps://github.com/Yankeegsj/BLAで公開されている。 Recently, crowd density estimation has received increasing attention. The main challenge for this task is to achieve high-quality manual annotations on a large amount of training data. To avoid reliance on such annotations, previous works apply unsupervised domain adaptation (UDA) techniques by transferring knowledge learned from easily accessible synthetic data to real-world datasets. However, current state-of-the-art methods either rely on external data for training an auxiliary task or apply an expensive coarse-to-fine estimation. In this work, we aim to develop a new adversarial learning based method, which is simple and efficient to apply. To reduce the domain gap between the synthetic and real data, we design a bi-level alignment framework (BLA) consisting of (1) task-driven data alignment and (2) fine-grained feature alignment. In contrast to previous domain augmentation methods, we introduce AutoML to search for an optimal transform on source, which well serves for the downstream task. On the other hand, we do fine-grained alignment for foreground and background separately to alleviate the alignment difficulty. We evaluate our approach on five real-world crowd counting benchmarks, where we outperform existing approaches by a large margin. Also, our approach is simple, easy to implement and efficient to apply. The code is publicly available at https://github.com/Yankeegsj/BLA. | 翻訳日:2022-05-14 00:50:05 公開日:2022-05-12 |
# (参考訳) Poincar\eの不等式によるMMSE下層境界 An MMSE Lower Bound via Poincar\'e Inequality ( http://arxiv.org/abs/2205.05848v1 ) ライセンス: CC BY 4.0 | Ian Zieder and Alex Dytso and Martina Cardone | (参考訳) 本稿では,ノイズが指数関数関数族に属することを前提に,雑音観測値である$\mathbf{y} \in \mathbb{r}^k$から$\mathbf{x} \in \mathbb{r}^d$を推定する最小平均二乗誤差(mmse)について検討する。
論文はMMSEの新たな下限を提供する。
この目的のために、MMSEの代替表現が最初に提示され、MMSEの閉形式式を導出するのに有用であると考えられている。
この新しい表現は Poincar\'e の不等式と共に使われ、MMSE に新しい下界を与える。
例えば、 cram\'{e}r-rao のバウンドとは異なり、新しいバウンドは入力 $\mathbf{x}$ 上のすべての可能な分布に対して成り立つ。
さらに、下限は、$\mathbf{x}$ が準ガウシアンであると仮定してガウシアンノイズ設定の高雑音環境においてタイトであることが示されている。
最後に、バウンドがすべてのノイズレジームでうまく機能することを示すいくつかの数値例を示す。 This paper studies the minimum mean squared error (MMSE) of estimating $\mathbf{X} \in \mathbb{R}^d$ from the noisy observation $\mathbf{Y} \in \mathbb{R}^k$, under the assumption that the noise (i.e., $\mathbf{Y}|\mathbf{X}$) is a member of the exponential family. The paper provides a new lower bound on the MMSE. Towards this end, an alternative representation of the MMSE is first presented, which is argued to be useful in deriving closed-form expressions for the MMSE. This new representation is then used together with the Poincar\'e inequality to provide a new lower bound on the MMSE. Unlike, for example, the Cram\'{e}r-Rao bound, the new bound holds for all possible distributions on the input $\mathbf{X}$. Moreover, the lower bound is shown to be tight in the high-noise regime for the Gaussian noise setting under the assumption that $\mathbf{X}$ is sub-Gaussian. Finally, several numerical examples are shown which demonstrate that the bound performs well in all noise regimes. | 翻訳日:2022-05-14 00:33:38 公開日:2022-05-12 |
# (参考訳) e-CARE: 説明可能な因果推論のための新しいデータセット e-CARE: a New Dataset for Exploring Explainable Causal Reasoning ( http://arxiv.org/abs/2205.05849v1 ) ライセンス: CC BY 4.0 | Li Du, Xiao Ding, Kai Xiong, Ting Liu, and Bing Qin | (参考訳) 因果関係を理解することは、様々な自然言語処理(NLP)アプリケーションにとって極めて重要である。
ラベル付き例を超えて、因果関係の概念的な説明は因果的事実の深い理解を提供し、因果的推論プロセスを促進する。
しかし、これらの説明情報は既存の因果推論資源にはまだ残っていない。
本稿では,21K以上の因果推論質問を含む人間記述型Causal Reasoningデータセット(e-CARE)と,因果的疑問の自然言語による説明によって,このギャップを埋める。
実験の結果, 因果的事実に対する正当な説明の生成は, いまだに最先端のモデルでは特に困難であり, 因果的推論モデルの正確性と安定性の促進に有用であることがわかった。 Understanding causality has vital importance for various Natural Language Processing (NLP) applications. Beyond the labeled instances, conceptual explanations of the causality can provide deep understanding of the causal facts to facilitate the causal reasoning process. However, such explanation information still remains absent in existing causal reasoning resources. In this paper, we fill this gap by presenting a human-annotated explainable CAusal REasoning dataset (e-CARE), which contains over 21K causal reasoning questions, together with natural language formed explanations of the causal questions. Experimental results show that generating valid explanations for causal facts still remains especially challenging for the state-of-the-art models, and the explanation information can be helpful for promoting the accuracy and stability of causal reasoning models. | 翻訳日:2022-05-13 23:55:07 公開日:2022-05-12 |
# (参考訳) S3E-GNN: カメラ再局在のためのグラフニューラルネットワークを用いた空間空間埋め込み S3E-GNN: Sparse Spatial Scene Embedding with Graph Neural Networks for Camera Relocalization ( http://arxiv.org/abs/2205.05861v1 ) ライセンス: CC BY 4.0 | Ran Cheng, Xinyu Jiang, Yuan Chen, Lige Liu, Tao Sun | (参考訳) カメラ再ローカライゼーションは、同時ローカライゼーションとマッピング(SLAM)システムの鍵となるコンポーネントである。
本稿では,グラフニューラルネットワークを用いたS3E-GNN(Sparse Spatial Scene Embedding with Graph Neural Networks)という学習に基づくアプローチを提案する。
S3E-GNNは2つのモジュールから構成される。
符号化モジュールでは、訓練されたS3EネットワークがRGB画像を埋め込みコードにエンコードし、空間的および意味的な埋め込みコードを暗黙的に表現する。
スラムシステムから得られる埋め込み符号と関連するポーズにより、各画像はポーズグラフ内のグラフノードとして表現される。
gnnクエリモジュールでは、ポーズグラフをカメラ再局在化のための埋め込み集約参照グラフに変換する。
課題のある環境で様々なシーンデータセットを収集し,実験を行う。
S3E-GNN法は,学習型埋め込みとGNNによるシーンマッチング機構により,従来のBag-of-words(BoW)よりも優れていた。 Camera relocalization is the key component of simultaneous localization and mapping (SLAM) systems. This paper proposes a learning-based approach, named Sparse Spatial Scene Embedding with Graph Neural Networks (S3E-GNN), as an end-to-end framework for efficient and robust camera relocalization. S3E-GNN consists of two modules. In the encoding module, a trained S3E network encodes RGB images into embedding codes to implicitly represent spatial and semantic embedding code. With embedding codes and the associated poses obtained from a SLAM system, each image is represented as a graph node in a pose graph. In the GNN query module, the pose graph is transformed to form a embedding-aggregated reference graph for camera relocalization. We collect various scene datasets in the challenging environments to perform experiments. Our results demonstrate that S3E-GNN method outperforms the traditional Bag-of-words (BoW) for camera relocalization due to learning-based embedding and GNN powered scene matching mechanism. | 翻訳日:2022-05-13 23:35:05 公開日:2022-05-12 |
# (参考訳) 適応計算と電力制御を併用したオーバーザ・エアフェデレーション学習 Over-the-Air Federated Learning with Joint Adaptive Computation and Power Control ( http://arxiv.org/abs/2205.05867v1 ) ライセンス: CC BY 4.0 | Haibo Yang, Peiwen Qiu, Jia Liu and Aylin Yener | (参考訳) 本稿では,ota-fl(over-the-air federated learning)について述べる。
OTA-FLは、無線媒体の重ね合わせ特性を利用して、空気上のモデルアグリゲーションを無料で行う。
これにより、エッジデバイスからの通信モデル更新で発生する通信コストを大幅に削減することができる。
この利点を最大限に活用し、ノイズのないチャネルによるモデルアグリゲーションを想定した従来型のフェデレーション学習に匹敵する学習性能を提供しながら、各エッジデバイスにおける電力制約を考慮した伝送スケーリングと各ラウンドの局所イテレーション数について考察する。
我々はまず,リプシッツ連続勾配を持つ一般関数の基本下界を確立することにより,OTA-FLのチャネルノイズによるトレーニング誤差を特徴づける。
次に,適応的トランシーバパワースケーリングスキームを導入することで,協調適応計算と電力制御(acpc-ota-fl)を備えた,空気上フェデレート学習アルゴリズムを提案する。
非凸目的関数と異種データを用いたトレーニングにおけるACPC-OTA-FLの収束解析について述べる。
本稿では,ACPC-OTA-FLの収束速度がFLのノイズフリー通信と一致することを示す。 This paper considers over-the-air federated learning (OTA-FL). OTA-FL exploits the superposition property of the wireless medium, and performs model aggregation over the air for free. Thus, it can greatly reduce the communication cost incurred in communicating model updates from the edge devices. In order to fully utilize this advantage while providing comparable learning performance to conventional federated learning that presumes model aggregation via noiseless channels, we consider the joint design of transmission scaling and the number of local iterations at each round, given the power constraint at each edge device. We first characterize the training error due to such channel noise in OTA-FL by establishing a fundamental lower bound for general functions with Lipschitz-continuous gradients. Then, by introducing an adaptive transceiver power scaling scheme, we propose an over-the-air federated learning algorithm with joint adaptive computation and power control (ACPC-OTA-FL). We provide the convergence analysis for ACPC-OTA-FL in training with non-convex objective functions and heterogeneous data. We show that the convergence rate of ACPC-OTA-FL matches that of FL with noise-free communications. | 翻訳日:2022-05-13 23:21:06 公開日:2022-05-12 |
# (参考訳) ロバストな教師なしシーケンスデータのアンタングル化に向けて-音楽オーディオを用いたケーススタディ Towards Robust Unsupervised Disentanglement of Sequential Data -- A Case Study Using Music Audio ( http://arxiv.org/abs/2205.05871v1 ) ライセンス: CC BY 4.0 | Yin-Jyun Luo, Sebastian Ewert, Simon Dixon | (参考訳) Disentangled Sequence Autoencoders (DSAE) は、動的潜伏変数と静的潜伏変数を持つ観測シーケンスを記述する確率的グラフィカルモデルのクラスである。
前者は観察と同一のフレームレートで情報を符号化し、後者は全シーケンスをグローバルに制御する。
これは帰納バイアスを導入し、根底にある局所的および大域的要因の教師なしの解離を促進する。
本稿では,バニラDSAEはモデルアーキテクチャの選択や動的潜伏変数の容量に敏感であり,静的潜伏変数を崩壊させる傾向にあることを示す。
そこで,本研究ではts-dsaeを提案する。ts-dsaeは,まずシーケンスレベルの事前分布を学習し,その後にモデルの正則化と補助目標の促進に活用し,絡み合いを促進する2段階学習フレームワークである。
提案されたフレームワークは完全に教師なしで、幅広いモデル構成にわたるグローバルファクタ崩壊問題に対して堅牢である。
また、通常、激しいパラメータチューニングやドメイン固有のデータ拡張を含む逆トレーニングのような典型的なソリューションも避ける。
本研究は,実世界の音響データセットと人工音響データセットの両面から,その頑健性を示す定量的,質的な評価を行う。 Disentangled sequential autoencoders (DSAEs) represent a class of probabilistic graphical models that describes an observed sequence with dynamic latent variables and a static latent variable. The former encode information at a frame rate identical to the observation, while the latter globally governs the entire sequence. This introduces an inductive bias and facilitates unsupervised disentanglement of the underlying local and global factors. In this paper, we show that the vanilla DSAE suffers from being sensitive to the choice of model architecture and capacity of the dynamic latent variables, and is prone to collapse the static latent variable. As a countermeasure, we propose TS-DSAE, a two-stage training framework that first learns sequence-level prior distributions, which are subsequently employed to regularise the model and facilitate auxiliary objectives to promote disentanglement. The proposed framework is fully unsupervised and robust against the global factor collapse problem across a wide range of model configurations. It also avoids typical solutions such as adversarial training which usually involves laborious parameter tuning, and domain-specific data augmentation. We conduct quantitative and qualitative evaluations to demonstrate its robustness in terms of disentanglement on both artificial and real-world music audio datasets. | 翻訳日:2022-05-13 22:41:10 公開日:2022-05-12 |
# (参考訳) ブラインド夜間画像品質評価のためのディープ分解とバイリニアポーリングネットワーク Deep Decomposition and Bilinear Pooling Network for Blind Night-Time Image Quality Evaluation ( http://arxiv.org/abs/2205.05880v1 ) ライセンス: CC BY 4.0 | Qiuping Jiang, Jiawu Xu, Wei Zhou, Xiongkuo Min, Guangtao Zhai | (参考訳) BIQA(Blind Image Quality Assessment, BIQA)は,過去数十年間,プリスタン参照情報なしで画像品質を正確に予測することを目的としている。
特に、ディープニューラルネットワークの助けを借りて、これまで大きな進歩を遂げてきた。
しかしながら、夜間画像(NTI)のBIQAでは、可視性、低コントラスト、付加雑音、色歪みなどの複雑な真の歪みに悩まされる場合がほとんどである。
これらの多様な真正性劣化は、特に、ブラインドNTI品質評価(NTIQE)のための効果的なディープニューラルネットワークの設計に挑戦する。
本稿では,この問題に対処するために,新たにDDB-Net(Deep decomposition and bilinear pooling network)を提案する。
DDB-Netには、画像分解モジュール、特徴符号化モジュール、双線形プールモジュールの3つのモジュールが含まれている。
画像分解モジュールは、Retinex理論にインスパイアされ、入力されたNTIを、照明情報を担当する照明層成分と、コンテンツ情報を担当する反射層成分とに分離する。
次に、特徴エンコーディングモジュールは、2つの分離されたコンポーネントに別々に根ざした劣化のマルチスケールな特徴表現を学習する。
最後に、照明関連およびコンテンツ関連劣化を2要素変動としてモデル化することにより、2つの多スケール特徴集合を双線形にプールして連結し、品質予測のための統一表現を形成する。
提案したDDB-Netの優位性は、2つのパブリックな夜間画像データベースに関する広範な実験によってよく検証されている。 Blind image quality assessment (BIQA), which aims to accurately predict the image quality without any pristine reference information, has been highly concerned in the past decades. Especially, with the help of deep neural networks, great progress has been achieved so far. However, it remains less investigated on BIQA for night-time images (NTIs) which usually suffer from complicated authentic distortions such as reduced visibility, low contrast, additive noises, and color distortions. These diverse authentic degradations particularly challenges the design of effective deep neural network for blind NTI quality evaluation (NTIQE). In this paper, we propose a novel deep decomposition and bilinear pooling network (DDB-Net) to better address this issue. The DDB-Net contains three modules, i.e., an image decomposition module, a feature encoding module, and a bilinear pooling module. The image decomposition module is inspired by the Retinex theory and involves decoupling the input NTI into an illumination layer component responsible for illumination information and a reflectance layer component responsible for content information. Then, the feature encoding module involves learning multi-scale feature representations of degradations that are rooted in the two decoupled components separately. Finally, by modeling illumination-related and content-related degradations as two-factor variations, the two multi-scale feature sets are bilinearly pooled and concatenated together to form a unified representation for quality prediction. The superiority of the proposed DDB-Net is well validated by extensive experiments on two publicly available night-time image databases. | 翻訳日:2022-05-13 22:27:58 公開日:2022-05-12 |
# (参考訳) エンティティマッチングの現実と理想のギャップを埋める - 再訪とベンチマークの再構築 Bridging the Gap between Reality and Ideality of Entity Matching: A Revisiting and Benchmark Re-Construction ( http://arxiv.org/abs/2205.05889v1 ) ライセンス: CC BY 4.0 | Tianshu Wang, Hongyu Lin, Cheng Fu, Xianpei Han, Le Sun, Feiyu Xiong, Hui Chen, Minlong Lu, Xiuwen Zhu | (参考訳) エンティティマッチング(EM)はエンティティ解決(ER)の最も重要なステップである。
現在のディープラーニングベースのメソッドは、標準のEMベンチマークで非常に印象的なパフォーマンスを実現していますが、実際のアプリケーションパフォーマンスはずっとフラストレーションがあります。
本稿では、現実と理想性のギャップは、エンティティマッチングの性質と矛盾する不合理なベンチマーク構築プロセスに起因し、現在のEMアプローチのバイアス評価につながることを強調する。
この目的のために,前回のベンチマークにおいて制限されたエンティティ,バランスラベル,シングルモーダルレコードをオープンエンティティ,不均衡ラベル,マルチモーダルレコードに段階的に変更することにより,前回のベンチマーク構築プロセスにおいて暗黙の重大な仮定に挑戦するために,新たなemコーパスを構築し,emベンチマークを再構築する。
実験結果から,従来のベンチマーク構築プロセスにおける仮定は,タスクの主な課題を隠蔽し,実体マッチングの現在の進展を著しく過大評価するオープン環境と一致しないことが示された。
構築されたベンチマークとコードが公開されている Entity matching (EM) is the most critical step for entity resolution (ER). While current deep learningbased methods achieve very impressive performance on standard EM benchmarks, their realworld application performance is much frustrating. In this paper, we highlight that such the gap between reality and ideality stems from the unreasonable benchmark construction process, which is inconsistent with the nature of entity matching and therefore leads to biased evaluations of current EM approaches. To this end, we build a new EM corpus and re-construct EM benchmarks to challenge critical assumptions implicit in the previous benchmark construction process by step-wisely changing the restricted entities, balanced labels, and single-modal records in previous benchmarks into open entities, imbalanced labels, and multimodal records in an open environment. Experimental results demonstrate that the assumptions made in the previous benchmark construction process are not coincidental with the open environment, which conceal the main challenges of the task and therefore significantly overestimate the current progress of entity matching. The constructed benchmarks and code are publicly released | 翻訳日:2022-05-13 22:06:09 公開日:2022-05-12 |
# (参考訳) ファサード解析R-CNNの構築 Building Facade Parsing R-CNN ( http://arxiv.org/abs/2205.05912v1 ) ライセンス: CC BY 4.0 | Sijie Wang, Qiyu Kang, Rui She, Wee Peng Tay, Diego Navarro Navarro, Andreas Hartmannsgruber | (参考訳) ファサード構築のためのピクセルレベルのラベルを予測するファサード解析は、自律走行車(AV)のコンピュータビジョン認識に応用されている。
しかし、フロントビューの代わりに、AVのオンボードカメラは、カメラの視点により、AVが走行している道路の両側にある建物のファサードの変形したビューをキャプチャする。
本稿では,トランスconvモジュール,一般化された境界ボックス検出,凸正規化を含むファサードr-cnnを提案し,変形したファサードビューの解析を行う。
実験により、ファサードr-cnnは、主にフロントビュー向けに開発された現在のファサード解析モデルよりも優れた性能を達成できることが示されている。
また,oxford robotcarファサードデータセットと呼ばれるoxford robotcarデータセットから派生した,新たなビルディングファサード解析データセットを公開する。
このデータセットには、ファサードオブジェクト構築の正確なアノテーションを付加したOxford RobotCarデータセットの500のストリートビューイメージが含まれている。
公開されたデータセットはhttps://github.com/sijieaaa/Oxford-RobotCar-Facadeで公開されている。 Building facade parsing, which predicts pixel-level labels for building facades, has applications in computer vision perception for autonomous vehicle (AV) driving. However, instead of a frontal view, an on-board camera of an AV captures a deformed view of the facade of the buildings on both sides of the road the AV is travelling on, due to the camera perspective. We propose Facade R-CNN, which includes a transconv module, generalized bounding box detection, and convex regularization, to perform parsing of deformed facade views. Experiments demonstrate that Facade R-CNN achieves better performance than the current state-of-the-art facade parsing models, which are primarily developed for frontal views. We also publish a new building facade parsing dataset derived from the Oxford RobotCar dataset, which we call the Oxford RobotCar Facade dataset. This dataset contains 500 street-view images from the Oxford RobotCar dataset augmented with accurate annotations of building facade objects. The published dataset is available at https://github.com/sijieaaa/Oxford-RobotCar-Facade | 翻訳日:2022-05-13 21:52:05 公開日:2022-05-12 |
# (参考訳) ray priors through reprojection: ニューラル・ラミアンス・フィールドの改良による新しい視野外挿 Ray Priors through Reprojection: Improving Neural Radiance Fields for Novel View Extrapolation ( http://arxiv.org/abs/2205.05922v1 ) ライセンス: CC BY 4.0 | Jian Zhang, Yuanqing Zhang, Huan Fu, Xiaowei Zhou, Bowen Cai, Jinchi Huang, Rongfei Jia, Binqiang Zhao, Xing Tang | (参考訳) neural radiance fields(nerf)は、シーンを表現し、フォトリアリスティックなイメージを合成するための強力なパラダイムとして登場した。
従来のNeRFの主な制限は、トレーニングの視点と大きく異なる新しい視点の下で、高品質なレンダリングを作成できないことだ。
本稿では,(1)トレーニング画像が物体をうまく表現できる,(2)トレーニング画像とテスト視点の分布との間には顕著な相違点がある,という新しい視点外挿設定について検討する。
本稿では、RapNeRF(RAY Priors)を解として提示する。
我々の洞察では、3次元表面の任意の可視射影の固有の外観は一貫性があるべきである。
そこで我々は,視認できないビューを視認されたビューで訓練できるランダムレイキャスティングポリシーを提案する。
さらに,観察した光線方向から予め計算した光線アトラスにより,外挿映像のレンダリング品質がさらに向上することを示した。
主な制限は、RapNeRFがマルチビュー整合性を利用するため、強いビュー依存効果を取り除くことである。 Neural Radiance Fields (NeRF) have emerged as a potent paradigm for representing scenes and synthesizing photo-realistic images. A main limitation of conventional NeRFs is that they often fail to produce high-quality renderings under novel viewpoints that are significantly different from the training viewpoints. In this paper, instead of exploiting few-shot image synthesis, we study the novel view extrapolation setting that (1) the training images can well describe an object, and (2) there is a notable discrepancy between the training and test viewpoints' distributions. We present RapNeRF (RAy Priors) as a solution. Our insight is that the inherent appearances of a 3D surface's arbitrary visible projections should be consistent. We thus propose a random ray casting policy that allows training unseen views using seen views. Furthermore, we show that a ray atlas pre-computed from the observed rays' viewing directions could further enhance the rendering quality for extrapolated views. A main limitation is that RapNeRF would remove the strong view-dependent effects because it leverages the multi-view consistency property. | 翻訳日:2022-05-13 21:35:55 公開日:2022-05-12 |
# (参考訳) マルチモーダルスマートデバイスシステムを用いたパーキンソン病のサブグループ発見 Subgroup discovery of Parkinson's Disease by utilizing a multi-modal smart device system ( http://arxiv.org/abs/2205.05961v1 ) ライセンス: CC BY 4.0 | Catharina Marie van Alen, Alexander Brenner, Tobias Warnecke and Julian Varghese | (参考訳) 近年、スマート消費者デバイスからのセンサーは、運動障害の診断において大きな可能性を示している。
この文脈では、電子アンケート、手の動き、音声キャプチャなどのデータモダリティがバイオマーカーの取得に成功し、パーキンソン病(PD)と健康管理(HC)と差分診断(DD)の区別を可能にした。
しかし、我々の知る限りでは、マルチモーダルスマートデバイスシステムによるアセスメントの包括的な評価はまだ不十分である。
PDを探索するために、私たちはスマートウォッチとスマートフォンを使用して、PD患者、DD、HCを含む504人の参加者からマルチモーダルデータを収集しました。
本研究の目的は,マルチモーダルデータと単一モーダルデータとがPD対HC,PD対DD,およびサブグループ識別のためのPD群クラスタリングに与える影響を評価することである。
様々なモダリティを組み合わせることで,分類精度が向上し,さらにPDクラスタが発見された。 In recent years, sensors from smart consumer devices have shown great diagnostic potential in movement disorders. In this context, data modalities such as electronic questionnaires, hand movement and voice captures have successfully captured biomarkers and allowed discrimination between Parkinson's disease (PD) and healthy controls (HC) or differential diagnosis (DD). However, to the best of our knowledge, a comprehensive evaluation of assessments with a multi-modal smart device system has still been lacking. In a prospective study exploring PD, we used smartwatches and smartphones to collect multi-modal data from 504 participants, including PD patients, DD and HC. This study aims to assess the effect of multi-modal vs. single-modal data on PD vs. HC and PD vs. DD classification, as well as on PD group clustering for subgroup identification. We were able to show that by combining various modalities, classification accuracy improved and further PD clusters were discovered. | 翻訳日:2022-05-13 21:34:51 公開日:2022-05-12 |
# (参考訳) TIPS-GAN : 教師なし対人2次元から3次元の姿勢推定における精度と安定性の向上 "Teaching Independent Parts Separately"(TIPS-GAN) : Improving Accuracy and Stability in Unsupervised Adversarial 2D to 3D Human Pose Estimation ( http://arxiv.org/abs/2205.05980v1 ) ライセンス: CC BY 4.0 | Peter Hardy and Srinandan Dasmahapatra and Hansung Kim | (参考訳) TIPS-GANは、教師なし対人2次元から3次元のポーズ推定における精度と安定性を改善するための新しいアプローチである。
本研究では,人間の運動骨格を空間依存構造として捉えるべきではないことを実証する。
実際、トレーニング中に完全な2Dポーズが提供されると、キーポイントの3D座標が他のすべてのキーポイントの2D位置と空間的に共依存していることが学習される固有のバイアスがある。
この理論を解明するために, 先行するアプローチを踏襲するが, 運動骨格, 背骨, 脚の空間的に独立した部分について2つの生成器を訓練した。
本研究では, 自己整合性の向上が評価誤差の低減の鍵となり, 標準対向サイクル内に新たな整合性制約が導入された。
次に知識蒸留による最終TIPSモデルを作成し,2次元ポーズ全体の3次元座標を予測し,結果を改善した。
さらに、真に教師なしのシナリオのトレーニングにどれくらいかかるかという、先進的な学習論文に残されている疑問に対処する手助けをする。
本研究では,2つの独立系発電機が,敵対的ネットワークの不安定化により分岐する単独発生器よりも長い期間,識別器に対して最小限の誤差を負うことを示す。
TIPSは、ベースラインのソロジェネレータと比較して平均誤差を18%削減する。
TIPSは他の教師なしアプローチを改善し、Human3.6MとMPI-INF-3DHPデータセットの評価において、教師なしアプローチと弱教師付きアプローチに強く反対する。 We present TIPS-GAN, a new approach to improve the accuracy and stability in unsupervised adversarial 2D to 3D human pose estimation. In our work we demonstrate that the human kinematic skeleton should not be assumed as one spatially dependent structure. In fact, we believe when a full 2D pose is provided during training, there is an inherent bias learned where the 3D coordinate of a keypoint is spatially codependent on the 2D locations of all other keypoints. To investigate our theory we follow previous adversarial approaches but trained two generators on spatially independent parts of the kinematic skeleton, the torso and the legs. During our study we find that improving self-consistency is key to lowering the evaluation error and therefore introduce new consistency constraints within the standard adversarial cycle. We then produced a final TIPS model via knowledge distillation which can predict the 3D coordinates for the entire 2D pose with improved results. Furthermore we help address the question left unanswered in prior adversarial learning papers of how long to train for a truly unsupervised scenario. We show that two independent generators training adversarially can hold a minimum error against a discriminator for a longer period of time than that of a solo generator which will diverge due to the adversarial network becoming unstable. TIPS decreases the average error by 18\% when compared to that of a baseline solo generator. TIPS improves upon other unsupervised approaches while also performing strongly against supervised and weakly-supervised approaches during evaluation on both the Human3.6M and MPI-INF-3DHP dataset. | 翻訳日:2022-05-13 21:28:10 公開日:2022-05-12 |
# (参考訳) AiSocrates:Ethical Quandary Questionsの回答に向けて AiSocrates: Towards Answering Ethical Quandary Questions ( http://arxiv.org/abs/2205.05989v1 ) ライセンス: CC BY 4.0 | Yejin Bang, Nayeon Lee, Tiezheng Yu, Leila Khalatbari, Yan Xu, Dan Su, Elham J. Barezi, Andrea Madotto, Hayden Kee, Pascale Fung | (参考訳) 様々なNLPタスクにおいて、大きな事前学習言語モデル(LLM)の印象的なパワーに基づいて重要な進歩がなされている。
これらの結果はLLMの限界を理解するための努力にインスピレーションを与え、人間のレベルでの自然言語理解の達成からどこまで遠いかを評価する。
本研究では, 倫理的基準生成質問応答の新たなタスクにより, LLMの能力に挑戦する。
倫理的な4次質問は、複数の矛盾する答えが1つの4次問題に存在する可能性があるため、より対処が難しい。
本稿では,神託のようなクローズドな回答を提供するのではなく,ソクラテス哲学のアプローチにおいて,異なる視点から倫理的四分儀への議論的な意見交換を提供するシステム,AiSocratesを提案する。
aisocratesは倫理的四分法に適用可能な異なる倫理的原則を探索し、プロンプトベースの少数ショット学習を通じて選択された原則に基づく回答を生成する。
また、倫理的原則を選択する際に、人間の制御可能性オプションを提供することによって安全性の懸念にも対処する。
AiSocratesは、複数の視点で倫理的四項質問に対する有望な回答を生成し、6.92%は人間の哲学者の回答を1つの尺度で表すよりも多いが、それでも人間の哲学者のコヒーレンスと完全に一致するように改善する必要がある。
我々は,AiSocratesが人的価値を明示的に組み込んだNLPシステムの開発に向けた有望なステップであると主張する。
研究目的でコードを公開しています。 Considerable advancements have been made in various NLP tasks based on the impressive power of large pre-trained language models (LLMs). These results have inspired efforts to understand the limits of LLMs so as to evaluate how far we are from achieving human level general natural language understanding. In this work, we challenge the capability of LLMs with the new task of Ethical Quandary Generative Question Answering. Ethical quandary questions are more challenging to address because multiple conflicting answers may exist to a single quandary. We propose a system, AiSocrates, that provides an answer with a deliberative exchange of different perspectives to an ethical quandary, in the approach of Socratic philosophy, instead of providing a closed answer like an oracle. AiSocrates searches for different ethical principles applicable to the ethical quandary and generates an answer conditioned on the chosen principles through prompt-based few-shot learning. We also address safety concerns by providing a human controllability option in choosing ethical principles. We show that AiSocrates generates promising answers to ethical quandary questions with multiple perspectives, 6.92% more often than answers written by human philosophers by one measure, but the system still needs improvement to match the coherence of human philosophers fully. We argue that AiSocrates is a promising step toward developing an NLP system that incorporates human values explicitly by prompt instructions. We are releasing the code for research purposes. | 翻訳日:2022-05-13 21:07:44 公開日:2022-05-12 |
# (参考訳) GNNを用いたスーパービジョンのない一般政策の学習 Learning Generalized Policies Without Supervision Using GNNs ( http://arxiv.org/abs/2205.06002v1 ) ライセンス: CC BY 4.0 | Simon St{\aa}hlberg, Blai Bonet, Hector Geffner | (参考訳) 本稿では,グラフニューラルネットワークを用いた古典的計画領域の一般化ポリシーの学習問題について考察する。
この問題は以前検討されてきたが、提案されたニューラルアーキテクチャは複雑であり、しばしば混合される。
本研究では、GNNアーキテクチャを用いて、学習値関数におけるポリシー欲求が、トレーニングで使用されるものよりも大きめのインスタンスに対して100%近い一般化を達成するか、あるいは、失敗を理解できなければならず、場合によっては論理的に固定されなければならないか、という、鮮明な実験結果と深い理解を目指している。
このために、gnnの表現力と一階述語論理の$c_{2}$フラグメント(つまり2変数のfolと数量化器)の関係性を利用する。
例えば、より表現力のある機能を必要とする一般的なポリシーを持つドメインは、ロール組成と$c_{2}$に適合しない推移的クロージャを符号化する適切な"派生原子"で拡張されると、gnnで解決できる。
この研究は、監督的な方法で最適な一般政策を学ぶためのGNNアプローチ(Stahlberg, Bonet, Geffner, 2022)に従っているが、学習されたポリシーはもはや最適である必要はなく(多くの計画領域が一般的な最適政策を持っていないため、範囲を広げる)、監督なしで学習される。
興味深いことに、最適な政策を生み出すことを目的とした価値ベースの強化学習手法は、最適性と一般化の目標がnpハードな領域で相反するので、必ずしも一般化する政策をもたらすとは限らない。 We consider the problem of learning generalized policies for classical planning domains using graph neural networks from small instances represented in lifted STRIPS. The problem has been considered before but the proposed neural architectures are complex and the results are often mixed. In this work, we use a simple and general GNN architecture and aim at obtaining crisp experimental results and a deeper understanding: either the policy greedy in the learned value function achieves close to 100% generalization over instances larger than those used in training, or the failure must be understood, and possibly fixed, logically. For this, we exploit the relation established between the expressive power of GNNs and the $C_{2}$ fragment of first-order logic (namely, FOL with 2 variables and counting quantifiers). We find for example that domains with general policies that require more expressive features can be solved with GNNs once the states are extended with suitable "derived atoms" encoding role compositions and transitive closures that do not fit into $C_{2}$. The work follows the GNN approach for learning optimal general policies in a supervised fashion (Stahlberg, Bonet, Geffner, 2022); but the learned policies are no longer required to be optimal (which expands the scope, as many planning domains do not have general optimal policies) and are learned without supervision. Interestingly, value-based reinforcement learning methods that aim to produce optimal policies, do not always yield policies that generalize, as the goals of optimality and generality are in conflict in domains where optimal planning is NP-hard. | 翻訳日:2022-05-13 20:44:28 公開日:2022-05-12 |
# (参考訳) Falsesum:要約におけるFactual Unconsistency認識のための文書レベルのNLI例の生成 Falsesum: Generating Document-level NLI Examples for Recognizing Factual Inconsistency in Summarization ( http://arxiv.org/abs/2205.06009v1 ) ライセンス: CC BY 4.0 | Prasetya Ajie Utama, Joshua Bambrick, Nafise Sadat Moosavi, Iryna Gurevych | (参考訳) ニューラルネットワークの抽象要約モデルは、ソースドキュメントと事実上矛盾する要約を生成する傾向があります。
これまでの研究は、自然言語推論(NLI)の下流適用として、そのような事実的矛盾を認識するタスクを導入してきた。
しかし、現状のNLIモデルは、ターゲットタスクに一般化できないため、この文脈では不十分である。
本研究では,学習データを高品質なタスク指向の例で拡張した場合に,NLIモデルがこのタスクに有効であることを示す。
我々は,人間の注釈付き要約を乱すための制御可能なテキスト生成モデルを活用したデータ生成パイプラインであるfalsesumを導入する。
これまで導入されたドキュメントレベルのnliデータセットと異なり、生成されたデータセットには、多様で一貫性のない、しかも妥当な例が含まれています。
本研究では,Falsesumを付加したNLIデータセットでトレーニングしたモデルを用いて,4つのベンチマークを用いて,要約における事実整合性を検出する。
データセットを取得するコードはhttps://github.com/joshbambrick/falsesumで入手できる。 Neural abstractive summarization models are prone to generate summaries which are factually inconsistent with their source documents. Previous work has introduced the task of recognizing such factual inconsistency as a downstream application of natural language inference (NLI). However, state-of-the-art NLI models perform poorly in this context due to their inability to generalize to the target task. In this work, we show that NLI models can be effective for this task when the training data is augmented with high-quality task-oriented examples. We introduce Falsesum, a data generation pipeline leveraging a controllable text generation model to perturb human-annotated summaries, introducing varying types of factual inconsistencies. Unlike previously introduced document-level NLI datasets, our generated dataset contains examples that are diverse and inconsistent yet plausible. We show that models trained on a Falsesum-augmented NLI dataset improve the state-of-the-art performance across four benchmarks for detecting factual inconsistency in summarization. The code to obtain the dataset is available online at https://github.com/joshbambrick/Falsesum | 翻訳日:2022-05-13 20:21:57 公開日:2022-05-12 |
# (参考訳) dtw at qur'an qa 2022: 低リソースドメインにおける質問応答のためのトランスフォーマーによる転送学習の活用 DTW at Qur'an QA 2022: Utilising Transfer Learning with Transformers for Question Answering in a Low-resource Domain ( http://arxiv.org/abs/2205.06025v1 ) ライセンス: CC BY 4.0 | Damith Premasiri, Tharindu Ranasinghe, Wajdi Zaghouani, Ruslan Mitkov | (参考訳) 機械読解(MRC)の課題は,機械の自然言語理解を評価する上で有用なベンチマークである。
自然言語処理(NLP)分野では、主に多くの言語でリリースされた大量のデータセットのために人気を集めている。
しかし、mrcの研究は宗教文献を含むいくつかの領域で研究されている。
qur'an qa 2022の共通タスクの目的は、qur'anに関する最先端の質問応答と理解研究を提供することで、このギャップを埋めることである。
本稿では,Quran QA 2022共有タスクのDTWエントリについて述べる。
提案手法は移動学習を用いてアラビアMRCデータの活用を行う。
さらに,様々なアンサンブル学習戦略を用いて,結果をさらに改善する。
提案手法は,テストセットにおいて,部分的相互ランク(pRR)スコアが0.49であり,タスク上での強い性能が証明された。 The task of machine reading comprehension (MRC) is a useful benchmark to evaluate the natural language understanding of machines. It has gained popularity in the natural language processing (NLP) field mainly due to the large number of datasets released for many languages. However, the research in MRC has been understudied in several domains, including religious texts. The goal of the Qur'an QA 2022 shared task is to fill this gap by producing state-of-the-art question answering and reading comprehension research on Qur'an. This paper describes the DTW entry to the Quran QA 2022 shared task. Our methodology uses transfer learning to take advantage of available Arabic MRC data. We further improve the results using various ensemble learning strategies. Our approach provided a partial Reciprocal Rank (pRR) score of 0.49 on the test set, proving its strong performance on the task. | 翻訳日:2022-05-13 20:01:05 公開日:2022-05-12 |
# (参考訳) 言語モデル制御のための属性関連情報を用いたサンプリング Sampling with Attribute-Related Information for Controlling Language Models ( http://arxiv.org/abs/2205.06036v1 ) ライセンス: CC BY 4.0 | Shangda Wu, Maosong Sun | (参考訳) 言語モデルを制御する主要なアプローチは、微調整された大きな言語モデルやプロンプトエンジニアリングに基づいている。
しかし、これらの方法は条件固有のデータやかなりの手作りを必要とすることが多い。
複雑なエンジニアリングや余分なデータを必要としない,新しい簡単なガイド付きデコーディング手法Gamma Smplingを提案する。
Gamma Samplingは、属性関連情報(人間や言語モデル自体が提供する)をサンプリングプロセスに導入し、言語モデルに望ましい属性を持つテキストを生成する。
生成したテキストのトピックや感情を制御する実験では、ガンマサンプリングは、生成したサンプルの多様性、属性の関連性、全体的な品質に優れ、生成速度は速い。
さらに, 関連性や反復性などの言語特性の制御にガンマサンプリングを応用し, 本手法の汎用性と有効性をさらに実証した。
Gamma Samplingは、サンプリングからのインポートガンマサンプリングを通じて、pythonパッケージサンプリングで利用可能である。 The dominant approaches for controlling language models are based on fine-tuning large language models or prompt engineering. However, these methods often require condition-specific data or considerable hand-crafting. We propose a new simple guided decoding method, Gamma Sampling, which does not require complex engineering and any extra data. Gamma Sampling introduces attribute-related information (provided by humans or language models themselves) into the sampling process to guide language models to generate texts with desired attributes. Experiments on controlling topics and sentiments of generated text show Gamma Sampling to be superior in diversity, attribute relevance and overall quality of generated samples while maintaining a fast generation speed. In addition, we successfully applied Gamma Sampling to control other attributes of language such as relatedness and repetition, which further demonstrates the versatility and effectiveness of this method. Gamma Sampling is now available in the python package samplings via import gamma sampling from samplings. | 翻訳日:2022-05-13 19:47:13 公開日:2022-05-12 |
# (参考訳) SimRelUz: ウズベキスタン語のセマンティック評価データセットとしての類似性と関連性スコア SimRelUz: Similarity and Relatedness scores as a Semantic Evaluation dataset for Uzbek language ( http://arxiv.org/abs/2205.06072v1 ) ライセンス: CC BY 4.0 | Ulugbek Salaev, Elmurod Kuriyozov, Carlos G\'omez-Rodr\'iguez | (参考訳) 単語間の意味的関連性は自然言語処理の核となる概念の一つであり,意味的評価が重要な課題である。
本稿では,低リソースのウズベク語のための単語ペアの類似度と関連度の集合であるsimreluzという意味モデル評価データセットを提案する。
データセットは、その形態的特徴、出現頻度、意味関係、および異なる年齢層と性別の11人のウズベク語話者による注釈に基づいて慎重に選択された1000組以上の単語からなる。
また,稀な単語や語彙外単語を扱う問題にも注意を払って,意味モデルの頑健さを徹底的に評価した。 Semantic relatedness between words is one of the core concepts in natural language processing, thus making semantic evaluation an important task. In this paper, we present a semantic model evaluation dataset: SimRelUz - a collection of similarity and relatedness scores of word pairs for the low-resource Uzbek language. The dataset consists of more than a thousand pairs of words carefully selected based on their morphological features, occurrence frequency, semantic relation, as well as annotated by eleven native Uzbek speakers from different age groups and gender. We also paid attention to the problem of dealing with rare words and out-of-vocabulary words to thoroughly evaluate the robustness of semantic models. | 翻訳日:2022-05-13 19:23:19 公開日:2022-05-12 |
# (参考訳) バンディット環境における行動による社会学習 Social learning via actions in bandit environments ( http://arxiv.org/abs/2205.06107v1 ) ライセンス: CC BY 4.0 | Aroon Narayanan | (参考訳) 私は、ベイジアン・バンディットの設定で、私的な支払いと公共行動による戦略的探究のゲームを研究します。
特に私は、エージェントが十分に悲観的になる時だけ、リスクのあるアクションからリスクのないアクションへと時間とともに切り替えるカスケード均衡を考察します。
これらの平衡は、ある条件下で存在し、それらの健全な性質を確立することを示す。
これらの平衡における個々の探索は、エージェントが共通の事前から開始するか否かによって、単エージェントレベルよりも多かれ少なかれ小さいが、最も楽観的なエージェントは常に過小評価される。
また、エージェントが強制可能な元ante契約を書けるようにすれば、最も元ante楽観的なエージェントがすべてのペイオフストリームを購入することになり、より確立された企業による小さなスタートアップの購入についての説明が得られます。 I study a game of strategic exploration with private payoffs and public actions in a Bayesian bandit setting. In particular, I look at cascade equilibria, in which agents switch over time from the risky action to the riskless action only when they become sufficiently pessimistic. I show that these equilibria exist under some conditions and establish their salient properties. Individual exploration in these equilibria can be more or less than the single-agent level depending on whether the agents start out with a common prior or not, but the most optimistic agent always underexplores. I also show that allowing the agents to write enforceable ex-ante contracts will lead to the most ex-ante optimistic agent to buy all payoff streams, providing an explanation to the buying out of smaller start-ups by more established firms. | 翻訳日:2022-05-13 19:12:06 公開日:2022-05-12 |
# (参考訳) 重み付きグラフ学習のための等価量子回路 Equivariant quantum circuits for learning on weighted graphs ( http://arxiv.org/abs/2205.06109v1 ) ライセンス: CC BY 4.0 | Andrea Skolik, Michele Cattelan, Sheir Yarkoni, Thomas B\"ack, Vedran Dunjko | (参考訳) 変分量子アルゴリズムは、雑音量子ハードウェアにおける短期的優位性の主要な候補である。
パラメータ化された量子回路をトレーニングして特定のタスクを解く場合、アルゴリズムのトレーニング可能性と性能を決定する最も重要な要素の1つである。
問題調整アンサーゼは最適化や量子化学のタスクの標準となり、非構造的アプローチよりも優れた性能を持つアルゴリズムを生み出している。
しかし、量子機械学習(qml)では、トレーニングデータ構造によって動機づけられたアンサtzeに関する文献は少ない。
システムサイズと回路深度を増大させることで非構造的アンサーゼがトレーニング不能になることが広く知られていることから、QMLコンテキストにおける問題調整回路アーキテクチャの研究も重要である。
本稿では,重み付きグラフのタスクを学習するためのアンサッツについて紹介する。
重み付きグラフ上の複素学習タスクにおけるこのアンサッツの性能を評価し,組合せ最適化問題に対するヒューリスティックを実装するためにmlモデルを用いた。
深さ1で ansatz の表現率を解析的に検討し,20 キュービットまでのインスタンスにおけるモデルの性能を,分散特性が徐々に破られる ansatzes と比較した。
当社のansatzは,小規模体制においても他国よりも優れています。
この結果から, 対称性保存アンサツェがQMLの成功の鍵であり, この分野での短期的優位性を実現するために研究の活発な領域であることが示唆された。 Variational quantum algorithms are the leading candidate for near-term advantage on noisy quantum hardware. When training a parametrized quantum circuit to solve a specific task, the choice of ansatz is one of the most important factors that determines the trainability and performance of the algorithm. Problem-tailored ansatzes have become the standard for tasks in optimization or quantum chemistry, and yield more efficient algorithms with better performance than unstructured approaches. In quantum machine learning (QML), however, the literature on ansatzes that are motivated by the training data structure is scarce. Considering that it is widely known that unstructured ansatzes can become untrainable with increasing system size and circuit depth, it is of key importance to also study problem-tailored circuit architectures in a QML context. In this work, we introduce an ansatz for learning tasks on weighted graphs that respects an important graph symmetry, namely equivariance under node permutations. We evaluate the performance of this ansatz on a complex learning task on weighted graphs, where a ML model is used to implement a heuristic for a combinatorial optimization problem. We analytically study the expressivity of our ansatz at depth one, and numerically compare the performance of our model on instances with up to 20 qubits to ansatzes where the equivariance property is gradually broken. We show that our ansatz outperforms all others even in the small-instance regime. Our results strengthen the notion that symmetry-preserving ansatzes are a key to success in QML and should be an active area of research in order to enable near-term advantages in this field. | 翻訳日:2022-05-13 19:02:30 公開日:2022-05-12 |
# (参考訳) 花の連合学習のためのセキュアアグリゲーション Secure Aggregation for Federated Learning in Flower ( http://arxiv.org/abs/2205.06117v1 ) ライセンス: CC BY 4.0 | Kwing Hei Li, Pedro Porto Buarque de Gusm\~ao, Daniel J. Beutel, Nicholas D. Lane | (参考訳) federated learning (fl)は、クライアントにトレーニング計算を委譲し、サーバ上で個別にトレーニングされたすべてのモデルを集約することで、共有予測モデルを学ぶことができる。
ローカルモデルからプライベート情報が推測されるのを防ぐため、セキュリティ集約(SA)プロトコルは、サーバが個別にトレーニングされたモデルを集約して検査できないことを保証するために使用される。
しかし、現在のflフレームワークにおけるsaの実装には、クライアントのドロップアウトに対する脆弱性や設定の困難など、制限がある。
本稿では、Flower FLフレームワークにおけるPythonユーザ向けSAの実装であるSalviaについて述べる。
半正直な脅威モデルのためのSecAgg(+)プロトコルに基づいて、Salviaはクライアントのドロップアウトに対して堅牢であり、さまざまな機械学習フレームワークと互換性のあるフレキシブルで使いやすいAPIを公開する。
本稿では、Salviaの実験性能がSecAgg(+)の理論計算と通信複雑性と一致することを示す。 Federated Learning (FL) allows parties to learn a shared prediction model by delegating the training computation to clients and aggregating all the separately trained models on the server. To prevent private information being inferred from local models, Secure Aggregation (SA) protocols are used to ensure that the server is unable to inspect individual trained models as it aggregates them. However, current implementations of SA in FL frameworks have limitations, including vulnerability to client dropouts or configuration difficulties. In this paper, we present Salvia, an implementation of SA for Python users in the Flower FL framework. Based on the SecAgg(+) protocols for a semi-honest threat model, Salvia is robust against client dropouts and exposes a flexible and easy-to-use API that is compatible with various machine learning frameworks. We show that Salvia's experimental performance is consistent with SecAgg(+)'s theoretical computation and communication complexities. | 翻訳日:2022-05-13 18:29:27 公開日:2022-05-12 |
# (参考訳) コードミキシングタミル英語コメントからの攻撃的スパン識別における共有課題の発見 Findings of the Shared Task on Offensive Span Identification from Code-Mixed Tamil-English Comments ( http://arxiv.org/abs/2205.06118v1 ) ライセンス: CC BY 4.0 | Manikandan Ravikiran, Bharathi Raja Chakravarthi, Anand Kumar Madasamy, Sangeetha Sivanesan, Ratnavel Rajalakshmi, Sajeetha Thavareesan, Rahul Ponnusamy, Shankar Mahadevan./ | (参考訳) ソーシャルメディアプラットフォームでは、攻撃的なコンテンツモデレーションが、健全なオンライン議論をサポートする上で不可欠である。
しかし、codemixed dravidian言語における彼らの流行は、攻撃性に寄与する部分を特定することなくコメント全体を分類することに限定されている。
このような制限は、主に攻撃的なスパンの注釈付きデータがないためである。
したがって、この共有タスクでは、タミル語でコード入りのソーシャルコメントを攻撃的なスパンで提供します。
本稿では,提案システムから得られたデータセット,方法,結果について概説する。 Offensive content moderation is vital in social media platforms to support healthy online discussions. However, their prevalence in codemixed Dravidian languages is limited to classifying whole comments without identifying part of it contributing to offensiveness. Such limitation is primarily due to the lack of annotated data for offensive spans. Accordingly, in this shared task, we provide Tamil-English code-mixed social comments with offensive spans. This paper outlines the dataset so released, methods, and results of the submitted systems | 翻訳日:2022-05-13 18:16:08 公開日:2022-05-12 |
# (参考訳) Rationale 抽出によるゼロショット符号混合攻撃スパン同定 Zero-shot Code-Mixed Offensive Span Identification through Rationale Extraction ( http://arxiv.org/abs/2205.06119v1 ) ライセンス: CC BY 4.0 | Manikandan Ravikiran, Bharathi Raja Chakravarthi | (参考訳) 本稿では,コードミキシングタミルデータセットを用いたゼロショット攻撃スパン識別における文レベル変換器の有効性について検討する。
より具体的には、ゼロショット攻撃スパン識別のためのトランスフォーマーに基づく攻撃言語分類モデルに適用するために、局所解釈モデルAgnostic Explanations (LIME) \cite{DBLP:conf/kdd/Ribeiro0G16}およびIntegrated Gradients (IG) \cite{DBLP:conf/icml/SundararajanTY17}の合理的抽出方法を評価する。
この結果、lime と ig はそれぞれ 26.35\% と 44.83\% のベースライン $f_{1}$ を示すことがわかった。
さらに,データセットサイズとトレーニングプロセスがスパン識別の全体的な精度に与える影響について検討した。
その結果, Masked Data Augmentation と Multilabel Training では LIME と IG がそれぞれ 50.23 % と 47.38 % で大きく改善されていることがわかった。
\textit{disclaimer : 本論文は、逸脱、粗悪、または攻撃的と見なすことができる例を含む。
この例は、著者やその雇用主や大学院の、あらゆる人(人)、グループ(人)、実践(人)、実体(人)に対する見解を表すものではない。
代わりに、言語研究の課題のみを強調するために使用される。
} This paper investigates the effectiveness of sentence-level transformers for zero-shot offensive span identification on a code-mixed Tamil dataset. More specifically, we evaluate rationale extraction methods of Local Interpretable Model Agnostic Explanations (LIME) \cite{DBLP:conf/kdd/Ribeiro0G16} and Integrated Gradients (IG) \cite{DBLP:conf/icml/SundararajanTY17} for adapting transformer based offensive language classification models for zero-shot offensive span identification. To this end, we find that LIME and IG show baseline $F_{1}$ of 26.35\% and 44.83\%, respectively. Besides, we study the effect of data set size and training process on the overall accuracy of span identification. As a result, we find both LIME and IG to show significant improvement with Masked Data Augmentation and Multilabel Training, with $F_{1}$ of 50.23\% and 47.38\% respectively. \textit{Disclaimer : This paper contains examples that may be considered profane, vulgar, or offensive. The examples do not represent the views of the authors or their employers/graduate schools towards any person(s), group(s), practice(s), or entity/entities. Instead they are used to emphasize only the linguistic research challenges.} | 翻訳日:2022-05-13 18:00:48 公開日:2022-05-12 |
# (参考訳) 侵入攻撃に対するロバスト学習決定リストのためのサンプル複雑度境界 Sample Complexity Bounds for Robustly Learning Decision Lists against Evasion Attacks ( http://arxiv.org/abs/2205.06127v1 ) ライセンス: CC BY 4.0 | Pascale Gourdeau, Varun Kanade, Marta Kwiatkowska and James Worrell | (参考訳) 敵機械学習の根本的な問題は、回避攻撃の存在下でどれだけのトレーニングデータが必要とされるかを定量化することである。
本稿では,PAC学習の枠組みの中で,意思決定リストのクラスに着目し,この問題に対処する。
リプシッツ条件を満たす入力データ上の確率分布について, 分布の仮定が相反する設定において必須であることを考慮すると, 近傍点が類似する確率を持つ。
私たちの重要な結果は、敵の予算(つまり各入力で摂動できるビット数)が、ロバストな学習のサンプル複雑性を決定する基本的な量であることを示している。
モノトン結合の類(本質的にはブール超キューブ上の最も単純な非自明な仮説クラス)であり、任意の超クラスは少なくとも敵の予算において指数関数的にサンプル複雑性を持つ。
固定された$k$ に対して、$k$-決定リストのクラスは$\log(n)$-bounded adversaryに対して多項式のサンプル複雑性を持つ。
これにより、効率的なpac学習アルゴリズムが常に一様分布下で効率的な$\log(n)$-robust学習アルゴリズムとして使用できるかどうかという疑問が浮き彫りになる。 A fundamental problem in adversarial machine learning is to quantify how much training data is needed in the presence of evasion attacks. In this paper we address this issue within the framework of PAC learning, focusing on the class of decision lists. Given that distributional assumptions are essential in the adversarial setting, we work with probability distributions on the input data that satisfy a Lipschitz condition: nearby points have similar probability. Our key results illustrate that the adversary's budget (that is, the number of bits it can perturb on each input) is a fundamental quantity in determining the sample complexity of robust learning. Our first main result is a sample-complexity lower bound: the class of monotone conjunctions (essentially the simplest non-trivial hypothesis class on the Boolean hypercube) and any superclass has sample complexity at least exponential in the adversary's budget. Our second main result is a corresponding upper bound: for every fixed $k$ the class of $k$-decision lists has polynomial sample complexity against a $\log(n)$-bounded adversary. This sheds further light on the question of whether an efficient PAC learning algorithm can always be used as an efficient $\log(n)$-robust learning algorithm under the uniform distribution. | 翻訳日:2022-05-13 17:50:16 公開日:2022-05-12 |
# (参考訳) 多言語モデルのゼロショット性能予測のためのマルチタスク学習 Multi Task Learning For Zero Shot Performance Prediction of Multilingual Models ( http://arxiv.org/abs/2205.06130v1 ) ライセンス: CC BY 4.0 | Kabir Ahuja, Shanu Kumar, Sandipan Dandapat and Monojit Choudhury | (参考訳) 超多言語トランスフォーマーに基づく言語モデルは、言語間のゼロショット転送において驚くほど効果的であることが観察されているが、性能は微調整に使用されるピボット言語によって異なる。
本研究では,マルチタスク学習問題としてモデル化することにより,タスクのゼロショット性能を予測する手法をいくつか構築する。
さまざまなタスクに対する予測モデルを共同でトレーニングすることで、モデルの実際のパフォーマンスを測定するために、ごく少数の言語でテストデータを持つタスクの正確な予測器を構築することができます。
当社のアプローチでは、より堅牢な機能選択の実行や、さまざまなタスクにわたるゼロショットパフォーマンスに影響を与える共通機能セットの特定も可能です。 Massively Multilingual Transformer based Language Models have been observed to be surprisingly effective on zero-shot transfer across languages, though the performance varies from language to language depending on the pivot language(s) used for fine-tuning. In this work, we build upon some of the existing techniques for predicting the zero-shot performance on a task, by modeling it as a multi-task learning problem. We jointly train predictive models for different tasks which helps us build more accurate predictors for tasks where we have test data in very few languages to measure the actual performance of the model. Our approach also lends us the ability to perform a much more robust feature selection and identify a common set of features that influence zero-shot performance across a variety of tasks. | 翻訳日:2022-05-13 17:32:46 公開日:2022-05-12 |
# (参考訳) Smooth-Reduce: 認証ロバスト性向上のためのパッチの活用 Smooth-Reduce: Leveraging Patches for Improved Certified Robustness ( http://arxiv.org/abs/2205.06154v1 ) ライセンス: CC BY 4.0 | Ameya Joshi, Minh Pham, Minsu Cho, Leonid Boytsov, Filipe Condessa, J. Zico Kolter, Chinmay Hegde | (参考訳) ランダムスムーシング(RS)は、ディープニューラルネットワーク分類器の堅牢性を証明するための高速でスケーラブルなテクニックであることが示されている。
しかし、rsに基づく手法では、大量のノイズを伴うデータ拡張が必要となり、精度が大幅に低下する。
我々は,分類子証明書の改善のためにパッチとアグリゲーションを活用する,トレーニングフリーな修正スムース化手法であるsmooth-reduceを提案する。
提案アルゴリズムは,入力画像から抽出した重なり合うパッチを分類し,予測ロジットを集約して,入力周辺の半径を大きくする。
我々は,2つの集約方式 -- 最大値と平均値 -- を調査し,両手法が同時アプローチと比較して,認証精度,平均radii,棄却率の点で優れた証明書を提供することを示した。
また,このような証明書に対する理論的保証も提供し,高額な再トレーニングを必要とする他のランダム化スムース化手法に対する大幅な改善を実証的に示す。
さらに,本手法をビデオに適用し,ビデオ分類者に対して有意義な証明書を提供する。
プロジェクトページはhttps://nyu-dice-lab.github.io/SmoothReduce/にある。 Randomized smoothing (RS) has been shown to be a fast, scalable technique for certifying the robustness of deep neural network classifiers. However, methods based on RS require augmenting data with large amounts of noise, which leads to significant drops in accuracy. We propose a training-free, modified smoothing approach, Smooth-Reduce, that leverages patching and aggregation to provide improved classifier certificates. Our algorithm classifies overlapping patches extracted from an input image, and aggregates the predicted logits to certify a larger radius around the input. We study two aggregation schemes -- max and mean -- and show that both approaches provide better certificates in terms of certified accuracy, average certified radii and abstention rates as compared to concurrent approaches. We also provide theoretical guarantees for such certificates, and empirically show significant improvements over other randomized smoothing methods that require expensive retraining. Further, we extend our approach to videos and provide meaningful certificates for video classifiers. A project page can be found at https://nyu-dice-lab.github.io/SmoothReduce/ | 翻訳日:2022-05-13 17:13:42 公開日:2022-05-12 |
# (参考訳) 開語彙物体検出のための局所視覚言語マッチング Localized Vision-Language Matching for Open-vocabulary Object Detection ( http://arxiv.org/abs/2205.06160v1 ) ライセンス: CC BY 4.0 | Maria A. Bravo, Sudhanshu Mittal and Thomas Brox | (参考訳) 本研究では,画像とキャプチャのペアに基づいて,既知のクラス群とともに新しいオブジェクトクラスを検出することを学ぶオープンワールドオブジェクト検出手法を提案する。
これは、まず位置誘導画像キャプチャマッチング技術を用いて、新しいクラスと既知のクラスの両方のクラスラベルを弱教師付きで学習し、次に、既知のクラスアノテーションを使用してオブジェクト検出タスクのモデルを専門化する2段階の訓練手法である。
単純な言語モデルは、新しいオブジェクトを検出するための大きな文脈化言語モデルよりも適していることを示す。
さらに,画像キャプチャ対情報を活用するための一貫性正規化手法を提案する。
提案手法は,既存のオープンワールド検出手法と比較して,データ効率が良い。 In this work, we propose an open-world object detection method that, based on image-caption pairs, learns to detect novel object classes along with a given set of known classes. It is a two-stage training approach that first uses a location-guided image-caption matching technique to learn class labels for both novel and known classes in a weakly-supervised manner and second specializes the model for the object detection task using known class annotations. We show that a simple language model fits better than a large contextualized language model for detecting novel objects. Moreover, we introduce a consistency-regularization technique to better exploit image-caption pair information. Our method compares favorably to existing open-world detection approaches while being data-efficient. | 翻訳日:2022-05-13 16:46:56 公開日:2022-05-12 |
# (参考訳) 分布セマンティクスにおける最小ショット学習のための依存構文解析の利用 Using dependency parsing for few-shot learning in distributional semantics ( http://arxiv.org/abs/2205.06168v1 ) ライセンス: CC BY 4.0 | Stefania Preda and Guy Emerson | (参考訳) 本研究では,限られた文脈文に基づいて稀な単語の意味を学習するタスクである,少数ショット学習の文脈における依存性解析情報を活用するという新しいアイデアを探求する。
まず、背景空間として依存性ベースの単語埋め込みモデルを用いて、数ショットの学習を行う。
第二に,依存性を用いることでベースラインモデルの付加性を高める,二点学習手法を提案する。 In this work, we explore the novel idea of employing dependency parsing information in the context of few-shot learning, the task of learning the meaning of a rare word based on a limited amount of context sentences. Firstly, we use dependency-based word embedding models as background spaces for few-shot learning. Secondly, we introduce two few-shot learning methods which enhance the additive baseline model by using dependencies. | 翻訳日:2022-05-13 16:31:05 公開日:2022-05-12 |
# (参考訳) トポロジカル優先による画像分割 Image Segmentation with Topological Priors ( http://arxiv.org/abs/2205.06197v1 ) ライセンス: CC BY 4.0 | Shakir Showkat Sofi, Nadezhda Alsahanova | (参考訳) トポロジカルな前提によるセグメンテーションタスクの解法は、微細な構造における誤りを少なくすることを示した。
本研究では,深層ニューラルネットワークトレーニングの前後でトポロジカルな事前処理を行う。
従来のUNetモデルにトポロジ的情報を組み込むことにより, トポロジ的正確性に直接関係するベッチ数誤差と, 様々な精度の指標を単純なセグメンテーションで比較したところ, トポロジ的情報の導入が有意に向上していることが判明した。
我々はISBI EMセグメンテーションデータセットの実験を行った。 Solving segmentation tasks with topological priors proved to make fewer errors in fine-scale structures. In this work, we use topological priors both before and during the deep neural network training procedure. We compared the results of the two approaches with simple segmentation on various accuracy metrics and the Betti number error, which is directly related to topological correctness, and discovered that incorporating topological information into the classical UNet model performed significantly better. We conducted experiments on the ISBI EM segmentation dataset. | 翻訳日:2022-05-13 16:23:26 公開日:2022-05-12 |
# (参考訳) 計算言語モデルを用いた人間の心理的特性の予測 Predicting Human Psychometric Properties Using Computational Language Models ( http://arxiv.org/abs/2205.06203v1 ) ライセンス: CC BY 4.0 | Antonio Laverghetta Jr., Animesh Nighojkar, Jamshidbek Mirzakhalov, John Licato | (参考訳) トランスフォーマーベースの言語モデル(LM)は、人間にインスパイアされた"コモンセンス"能力を模倣するタスクを含む、自然言語処理(NLP)ベンチマークにおける最先端のパフォーマンスを引き続き達成している。
LMが特定の言語的推論スキルを持つと言える程度をよりよく理解するために、研究者は精神測定からツールや概念を適応し始めている。
しかし、その逆の方向にどのようなメリットが流れるのか?
言い換えれば、LMは、その項目が人間の被験者に与えられるとき、テスト項目の心理測定特性を予測するのに役立ちますか?
もしそうなら、サイコメトリックな実践者にとっての利益は巨大であり、複数の経験的テストの必要性を減らすことができる。
我々は,言語能力の広範な診断試験において,多数の人的参加者とLM(トランスフォーマーおよび非トランスフォーマーベース)からの回答を収集する。
次に,ヒトの反応とLMの反応を別々に利用して,診断試験における項目の標準的な心理測定特性を計算する。
次に、これらの2つの予測セットの相関性を決定する。
トランスフォーマーをベースとしたLMは、ほとんどのカテゴリで一貫して人間の心理測定データを予測し、人間の心理測定データを集めるために、広範囲なヒトの治験を必要とせずに使用できることを示唆している。 Transformer-based language models (LMs) continue to achieve state-of-the-art performance on natural language processing (NLP) benchmarks, including tasks designed to mimic human-inspired "commonsense" competencies. To better understand the degree to which LMs can be said to have certain linguistic reasoning skills, researchers are beginning to adapt the tools and concepts from psychometrics. But to what extent can benefits flow in the other direction? In other words, can LMs be of use in predicting the psychometric properties of test items, when those items are given to human participants? If so, the benefit for psychometric practitioners is enormous, as it can reduce the need for multiple rounds of empirical testing. We gather responses from numerous human participants and LMs (transformer- and non-transformer-based) on a broad diagnostic test of linguistic competencies. We then use the human responses to calculate standard psychometric properties of the items in the diagnostic test, using the human responses and the LM responses separately. We then determine how well these two sets of predictions correlate. We find that transformer-based LMs predict the human psychometric data consistently well across most categories, suggesting that they can be used to gather human-like psychometric data without the need for extensive human trials. | 翻訳日:2022-05-13 16:14:27 公開日:2022-05-12 |
# (参考訳) CiteSum: Citation Text-Guided Scientific Extreme Summarization and Low-Resource Domain Adaptation CiteSum: Citation Text-guided Scientific Extreme Summarization and Low-resource Domain Adaptation ( http://arxiv.org/abs/2205.06207v1 ) ライセンス: CC BY 4.0 | Yuning Mao, Ming Zhong, Jiawei Han | (参考訳) scientific extreme summarization (tldr) は、科学論文の超短い要約を形成することを目的としている。
科学的なtldrデータセットをキュレートする以前の取り組みは、大量の人間のアノテーションとドメインの専門知識のためにスケールアップに失敗した。
本稿では,その引用文から科学論文のtldr要約を自動的に抽出する手法を提案する。
提案手法に基づき,従来のscitldrの約30倍の規模である,人間のアノテーションを伴わない新たなベンチマークであるcitesumを作成した。
citesumの包括的分析を行い,そのデータ特性を調べ,強いベースラインを確立する。
さらに、CiteSum(CITES)で事前訓練されたモデルを、監督が限定された新しいタスクやドメインに適用することで、CiteSumの有用性を実証する。
科学的極端要約では、CITESは細調整なしでSciTLDRのほとんど完全に教師された手法を上回り、128の例で最先端の結果を得る。
ニュースの極端な要約では、CITESはベースモデル(CiteSumでは事前訓練されていない)、+7.2 ROUGE-1ゼロショット性能、最先端の数ショット性能など、XSumで大幅に向上した。
ニュース見出し生成において、CITESはGigawordの教師なしおよびゼロショットメソッドの中で最高の性能を発揮する。 Scientific extreme summarization (TLDR) aims to form ultra-short summaries of scientific papers. Previous efforts on curating scientific TLDR datasets failed to scale up due to the heavy human annotation and domain expertise required. In this paper, we propose a simple yet effective approach to automatically extracting TLDR summaries for scientific papers from their citation texts. Based on the proposed approach, we create a new benchmark CiteSum without human annotation, which is around 30 times larger than the previous human-curated dataset SciTLDR. We conduct a comprehensive analysis of CiteSum, examining its data characteristics and establishing strong baselines. We further demonstrate the usefulness of CiteSum by adapting models pre-trained on CiteSum (named CITES) to new tasks and domains with limited supervision. For scientific extreme summarization, CITES outperforms most fully-supervised methods on SciTLDR without any fine-tuning and obtains state-of-the-art results with only 128 examples. For news extreme summarization, CITES achieves significant gains on XSum over its base model (not pre-trained on CiteSum), e.g., +7.2 ROUGE-1 zero-shot performance and state-of-the-art few-shot performance. For news headline generation, CITES performs the best among unsupervised and zero-shot methods on Gigaword. | 翻訳日:2022-05-13 15:55:07 公開日:2022-05-12 |
# (参考訳) 非連続的自己教師付き学習における予測ヘッドのメカニズム The Mechanism of Prediction Head in Non-contrastive Self-supervised Learning ( http://arxiv.org/abs/2205.06226v1 ) ライセンス: CC BY 4.0 | Zixin Wen, Yuanzhi Li | (参考訳) 近年,GrillらによるBootstrap Your Own Latent (BYOL)メソッドの驚くべき発見により,ネットワークにいわゆる予測ヘッドを追加すると,負の損失項を除去できることがわかった。
これにより、非コントラスト的自己指導学習の研究が始まった。
自明な崩壊したグローバル最適解が存在するとしても、(確率的な)勾配勾配で訓練されたニューラルネットワークが競争力のある表現を学習できるのは不思議である。
この現象はディープラーニングにおける暗黙のバイアスの典型的な例であり、ほとんど理解されていない。
本研究では,非コントラスト的自己指導学習における経験的,理論的発見について述べる。
実験により、予測ヘッドが非対角的エントリのみをトレーニング可能なID行列として初期化されると、自明なオプティマがトレーニング対象に残っているにもかかわらず、ネットワークは競合表現を学習できることがわかった。
理論的には、トレーニング可能だがアイデンティティ初期化予測ヘッドの振る舞いを理解するための枠組みを提案する。
簡単な設定で,予測ヘッドの置換効果と加速効果を特徴付ける。
置換効果は、一部のニューロンで強い特徴を学習すると、予測ヘッドを更新することで他のニューロンでこれらの特徴を学習する代わりに起こる。
そして、置換された特徴が他の弱い特徴の学習を加速し、それらを無視しないようにすることで加速効果が生じる。
この2つの効果により、ニューラルネットワークは、より強力な特徴を学ぶことだけに集中するのではなく、すべての特徴を学ぶことができる。
我々の知る限り、これはトレーニング可能な予測ヘッドと正規化を備えた非線形ニューラルネットワークを用いた非競合的手法に対する最初のエンドツーエンド最適化保証でもある。 Recently the surprising discovery of the Bootstrap Your Own Latent (BYOL) method by Grill et al. shows the negative term in contrastive loss can be removed if we add the so-called prediction head to the network. This initiated the research of non-contrastive self-supervised learning. It is mysterious why even when there exist trivial collapsed global optimal solutions, neural networks trained by (stochastic) gradient descent can still learn competitive representations. This phenomenon is a typical example of implicit bias in deep learning and remains little understood. In this work, we present our empirical and theoretical discoveries on non-contrastive self-supervised learning. Empirically, we find that when the prediction head is initialized as an identity matrix with only its off-diagonal entries being trainable, the network can learn competitive representations even though the trivial optima still exist in the training objective. Theoretically, we present a framework to understand the behavior of the trainable, but identity-initialized prediction head. Under a simple setting, we characterized the substitution effect and acceleration effect of the prediction head. The substitution effect happens when learning the stronger features in some neurons can substitute for learning these features in other neurons through updating the prediction head. And the acceleration effect happens when the substituted features can accelerate the learning of other weaker features to prevent them from being ignored. These two effects enable the neural networks to learn all the features rather than focus only on learning the stronger features, which is likely the cause of the dimensional collapse phenomenon. To the best of our knowledge, this is also the first end-to-end optimization guarantee for non-contrastive methods using nonlinear neural networks with a trainable prediction head and normalization. | 翻訳日:2022-05-13 15:35:38 公開日:2022-05-12 |
# (参考訳) リアルタイム人物再同定における多目的領域適応のための知識蒸留 Knowledge Distillation for Multi-Target Domain Adaptation in Real-Time Person Re-Identification ( http://arxiv.org/abs/2205.06237v1 ) ライセンス: CC BY 4.0 | F\'elix Remigereau, Djebril Mekhazni, Sajjad Abdoli, Le Thanh Nguyen-Meidine, Rafael M. O. Cruz and Eric Granger | (参考訳) 近年のディープラーニングアーキテクチャの成功にもかかわらず、人の再識別(ReID)は、リアルタイムアプリケーションでは難しい問題である。
ソースデータとターゲットビデオデータの間で発生するドメインシフトによって生じるreid精度の低下を制限するために、教師なし単一ターゲットドメイン適応法(stda)が最近提案されている。
人物ReIDデータのマルチモーダルな性質(カメラ視点やキャプチャ条件の違いによる)を考えると、共通のCNNバックボーンをトレーニングして、複数のターゲットドメインにわたるドメインシフトに対処することで、リアルタイムReIDアプリケーションに効率的なソリューションを提供することができる。
マルチターゲットドメイン適応(MTDA)は、ReID文献では広く扱われていないが、単純なアプローチは、異なるターゲットデータセットをブレンドし、共通のCNNをトレーニングするために混合上でSTDAを実行することである。
しかし、このアプローチは、特に、より小さなcnnを訓練するために、ますます多くの異なるターゲットドメインを混ぜ合わせると、一般化が貧弱になる可能性がある。
この問題を軽減するため,リアルタイムのReIDアプリケーションに適した知識蒸留(KD-ReID)に基づく新しいMTDA手法を提案する。
本手法は,特定の対象領域のデータに適応した複数の専門教師cnnから,それぞれを蒸留することにより,対象領域に共通軽量な学生バックボーンcnnを適用する。
特にOSNetのようなコンパクトなCNNバックボーンをトレーニングする場合に,MTDAの最先端手法よりも優れていることを示す。
以上の結果から,我々のフレキシブルMTDAアプローチは,リアルタイムビデオ監視アプリケーションのための費用対効果の高いReIDシステムの設計に有効であることが示唆された。 Despite the recent success of deep learning architectures, person re-identification (ReID) remains a challenging problem in real-word applications. Several unsupervised single-target domain adaptation (STDA) methods have recently been proposed to limit the decline in ReID accuracy caused by the domain shift that typically occurs between source and target video data. Given the multimodal nature of person ReID data (due to variations across camera viewpoints and capture conditions), training a common CNN backbone to address domain shifts across multiple target domains, can provide an efficient solution for real-time ReID applications. Although multi-target domain adaptation (MTDA) has not been widely addressed in the ReID literature, a straightforward approach consists in blending different target datasets, and performing STDA on the mixture to train a common CNN. However, this approach may lead to poor generalization, especially when blending a growing number of distinct target domains to train a smaller CNN. To alleviate this problem, we introduce a new MTDA method based on knowledge distillation (KD-ReID) that is suitable for real-time person ReID applications. Our method adapts a common lightweight student backbone CNN over the target domains by alternatively distilling from multiple specialized teacher CNNs, each one adapted on data from a specific target domain. Extensive experiments conducted on several challenging person ReID datasets indicate that our approach outperforms state-of-art methods for MTDA, including blending methods, particularly when training a compact CNN backbone like OSNet. Results suggest that our flexible MTDA approach can be employed to design cost-effective ReID systems for real-time video surveillance applications. | 翻訳日:2022-05-13 15:32:43 公開日:2022-05-12 |
# (参考訳) aiシステムの予測の反事実的説明は、ユーザの世界に対する直観を歪めているのだろうか?
もしそうなら、それを修正できますか。 Can counterfactual explanations of AI systems' predictions skew lay users' causal intuitions about the world? If so, can we correct for that? ( http://arxiv.org/abs/2205.06241v1 ) ライセンス: CC BY 4.0 | Marko Tesic, Ulrike Hahn | (参考訳) 対実的(CF)説明は、AIシステムの透明性を高め、リコースを提供するために、説明可能なAI-両方の説明可能性の1つとして採用されている。
しかし認知科学と心理学では、人々は定期的にCFを使って因果関係を表現している。
ほとんどのAIシステムは、データの関連性や相関を捉えるだけで、それらをカジュアルと解釈することは正当化されない。
本稿では,AIシステムの予測のCF説明が現実世界に対する人々の因果的信念に及ぼす影響を調査する2つの実験(Total N = 364)を提案する。
実験1では、aiシステムの予測をcfで説明することで、aiが使用する要因や特徴に関する人々の因果信念に(不当に)影響を与え、現実の世界で因果要因と見なされる可能性が高まることが分かりました。
誤報や健康警告メッセージに関する文献に触発された実験2では、因果的信念の不正な変化を正せるかどうかを検証した。
我々は、AIシステムが相関を捉え、必ずしも因果関係を捉えていないことを指摘し、CFの説明が人々の因果信念に与える影響を減らせることを指摘した。 Counterfactual (CF) explanations have been employed as one of the modes of explainability in explainable AI-both to increase the transparency of AI systems and to provide recourse. Cognitive science and psychology, however, have pointed out that people regularly use CFs to express causal relationships. Most AI systems are only able to capture associations or correlations in data so interpreting them as casual would not be justified. In this paper, we present two experiment (total N = 364) exploring the effects of CF explanations of AI system's predictions on lay people's causal beliefs about the real world. In Experiment 1 we found that providing CF explanations of an AI system's predictions does indeed (unjustifiably) affect people's causal beliefs regarding factors/features the AI uses and that people are more likely to view them as causal factors in the real world. Inspired by the literature on misinformation and health warning messaging, Experiment 2 tested whether we can correct for the unjustified change in causal beliefs. We found that pointing out that AI systems capture correlations and not necessarily causal relationships can attenuate the effects of CF explanations on people's causal beliefs. | 翻訳日:2022-05-13 15:22:36 公開日:2022-05-12 |
# (参考訳) Learned Vertex Descent: 3Dモデルフィッティングの新しい方向 Learned Vertex Descent: A New Direction for 3D Human Model Fitting ( http://arxiv.org/abs/2205.06254v1 ) ライセンス: CC BY 4.0 | Enric Corona, Gerard Pons-Moll, Guillem Aleny\`a, Francesc Moreno-Noguer | (参考訳) 画像やスキャンに適合する3次元モデルのための新しい最適化手法を提案する。
入力画像から低次元統計体モデル(例えばSMPL)のパラメータを直接回帰する既存のアプローチとは対照的に、我々は頂点間ニューラルネットワークのアンサンブルを訓練する。
ネットワークは、現在の頂点投影で抽出された神経的特徴に基づいて、分散的に、基底真理に向かって頂点降下方向を予測する。
推測では、このネットワークはLVDと呼ばれ、勾配-偏光最適化パイプライン内で、すべての頂点を1つの点に初期化しても、その収束は通常1秒で発生する。
徹底的な評価は、我々のアプローチが、非常に異なる体型を持つ衣服を身につけることができ、最先端技術と比較して大きな改善が達成できることを示している。
LVDはまた、人間と手の3次元モデル適合にも適用でき、よりシンプルで高速な方法でSOTAを大幅に改善したことを示す。 We propose a novel optimization-based paradigm for 3D human model fitting on images and scans. In contrast to existing approaches that directly regress the parameters of a low-dimensional statistical body model (e.g. SMPL) from input images, we train an ensemble of per-vertex neural fields network. The network predicts, in a distributed manner, the vertex descent direction towards the ground truth, based on neural features extracted at the current vertex projection. At inference, we employ this network, dubbed LVD, within a gradient-descent optimization pipeline until its convergence, which typically occurs in a fraction of a second even when initializing all vertices into a single point. An exhaustive evaluation demonstrates that our approach is able to capture the underlying body of clothed people with very different body shapes, achieving a significant improvement compared to state-of-the-art. LVD is also applicable to 3D model fitting of humans and hands, for which we show a significant improvement to the SOTA with a much simpler and faster method. | 翻訳日:2022-05-13 15:07:27 公開日:2022-05-12 |
# 強化学習のためのレーザーダイナミックスにおけるカオス反復性制御 Controlling chaotic itinerancy in laser dynamics for reinforcement learning ( http://arxiv.org/abs/2205.05987v1 ) ライセンス: Link先を確認 | Ryugo Iwami, Takatomo Mihana, Kazutaka Kanno, Satoshi Sunada, Makoto Naruse, and Atsushi Uchida | (参考訳) フォトニック人工知能は機械学習の加速にかなりの関心を集めているが、そのユニークな光学特性は高次機能を達成するために十分に活用されていない。
複数の準トラクター間の自発的な過渡的ダイナミクスを持つカオス的反復は、脳のような機能を実現するために用いられる。
本稿では,マルチモード半導体レーザにおけるカオス的不連続性を制御する手法を提案し,強化学習の基礎となる多腕バンディット問題と呼ばれる機械学習課題を解決する。
提案手法は光注入により制御されるモード競合力学における超高速カオスイテナント運動を利用する。
その結果,探索機構は従来の探索アルゴリズムとは全く異なり,スケーラブルであり,大規模バンディット問題に対する従来のアプローチに匹敵することがわかった。
本研究は,フォトニックハードウェアアクセラレーターとして複雑な機械学習タスクを効果的に解くために,カオス的イテナンシを利用する方法である。 Photonic artificial intelligence has attracted considerable interest in accelerating machine learning; however, the unique optical properties have not been fully utilized for achieving higher-order functionalities. Chaotic itinerancy, with its spontaneous transient dynamics among multiple quasi-attractors, can be employed to realize brain-like functionalities. In this paper, we propose a method for controlling the chaotic itinerancy in a multi-mode semiconductor laser to solve a machine learning task, known as the multi-armed bandit problem, which is fundamental to reinforcement learning. The proposed method utilizes ultrafast chaotic itinerant motion in mode competition dynamics controlled via optical injection. We found that the exploration mechanism is completely different from a conventional searching algorithm and is highly scalable, outperforming the conventional approaches for large-scale bandit problems. This study paves the way to utilize chaotic itinerancy for effectively solving complex machine learning tasks as photonic hardware accelerators. | 翻訳日:2022-05-13 14:46:57 公開日:2022-05-12 |
# (参考訳) 近接重複写真からの3次元モーメント 3D Moments from Near-Duplicate Photos ( http://arxiv.org/abs/2205.06255v1 ) ライセンス: CC BY 4.0 | Qianqian Wang, Zhengqi Li, David Salesin, Noah Snavely, Brian Curless, Janne Kontkanen | (参考訳) 我々は新しい計算写真効果である3D Momentsを紹介する。
入力として、重複に近い2つの写真、すなわち、類似の視点から移動する被写体の写真が、人々の写真コレクションで一般的です。
出力として、第1の写真から第2写真までのシーンの動きをスムーズに補間する映像を作成し、同時に3dの感覚を高める視差付きカメラモーションを生成する。
この効果を達成するために,シーンフローを付加した特徴ベース階層深度画像のペアとしてシーンを表現した。
この表現は、カメラ視点の独立制御とともに、モーション補間を可能にする。
本システムでは,モーションパララックスとシーンダイナミクスを備えたフォトリアリスティックな時空映像を生成できると同時に,オリジナルビューに隠された領域を再現する。
我々は,公開データセットや画像のベースラインよりも優れた性能を示す広範な実験を行った。
プロジェクトページ: https://3d-moments.github.io/ We introduce 3D Moments, a new computational photography effect. As input we take a pair of near-duplicate photos, i.e., photos of moving subjects from similar viewpoints, common in people's photo collections. As output, we produce a video that smoothly interpolates the scene motion from the first photo to the second, while also producing camera motion with parallax that gives a heightened sense of 3D. To achieve this effect, we represent the scene as a pair of feature-based layered depth images augmented with scene flow. This representation enables motion interpolation along with independent control of the camera viewpoint. Our system produces photorealistic space-time videos with motion parallax and scene dynamics, while plausibly recovering regions occluded in the original views. We conduct extensive experiments demonstrating superior performance over baselines on public datasets and in-the-wild photos. Project page: https://3d-moments.github.io/ | 翻訳日:2022-05-13 14:46:14 公開日:2022-05-12 |
# リカレントニューラルネットワークによる微生物増殖の動画フレーム予測 Performing Video Frame Prediction of Microbial Growth with a Recurrent Neural Network ( http://arxiv.org/abs/2205.05810v1 ) ライセンス: Link先を確認 | Connor Robertson, Jared L. Wilmoth, Scott Retterer, Miguel Fuentes-Cabrera | (参考訳) recurrent neural network (rnn) を用いてpseudomonas aeruginosaの2種の変異株の微生物増殖をビデオフレームで予測した。
rnnは蛍光顕微鏡とマイクロ流体力学を用いて取得した20フレームのビデオで訓練された。
このネットワークは、各ビデオの最後の10フレームを予測し、予測の精度を、原画像、人口曲線、個々のコロニーの数とサイズを比較して評価した。
全体として、このアプローチで予測が正確であることが分かりました。
この結果は微生物学における自律実験の設計に影響を与え、予測をより正確にするためのステップが議論されている。 A Recurrent Neural Network (RNN) was used to perform video frame prediction of microbial growth for a population of two mutants of Pseudomonas aeruginosa. The RNN was trained on videos of 20 frames that were acquired using fluorescence microscopy and microfluidics. The network predicted the last 10 frames of each video, and the accuracy's of the predictions was assessed by comparing raw images, population curves, and the number and size of individual colonies. Overall, we found the predictions to be accurate using this approach. The implications this result has on designing autonomous experiments in microbiology, and the steps that can be taken to make the predictions even more accurate, are discussed. | 翻訳日:2022-05-13 14:29:47 公開日:2022-05-12 |
# NER-MQMRC:Multi Question Machine Reading Comprehensionとして名前付きエンティティ認識を定式化する NER-MQMRC: Formulating Named Entity Recognition as Multi Question Machine Reading Comprehension ( http://arxiv.org/abs/2205.05904v1 ) ライセンス: Link先を確認 | Anubhav Shrimal, Avi Jain, Kartik Mehta, Promod Yenigalla | (参考訳) NERは伝統的にシーケンスラベリングタスクとして定式化されてきた。
しかし、近年、NERを機械読解タスク(Wang et al., 2020; Mengge et al., 2020)として、エンティティ名(または他の情報)を質問として、テキストを回答スニペットとして、コンテキストとして、エンティティ値として、テキストとして、そしてエンティティ値として扱う傾向がある。
これらの研究は、一度に1つの質問(関心)に基づいて MRC を考える。
一つのテキストに対して複数の質問(エンティティ毎に1つの質問)を同時に考えるマルチクエストMRCタスクとしてNERのポーズを提案する。
この定式化のための新しいBERTベースのマルチクエストMRC(NER-MQMRC)アーキテクチャを提案する。
NER-MQMRCアーキテクチャは、すべてのエンティティを自己注意でトークン埋め込みを学習するためのBERTへの入力とみなし、BERTベースのエンティティ表現を活用して、これらのトークン埋め込みをさらに改善する。
NER-SQMRCフレームワークベースモデルと比較すると,提案したアーキテクチャはトレーニングの2.5倍,推論の2.3倍の高速化を実現している。
さらに,本モデルの性能は,単一質問ベースのmrc (ner-sqmrc) (devlin et al., 2019) と比較して低下せず,ae-pub, ecommerce5pt, twitterのデータセットでは,それぞれ0.41%, +0.32%, +0.27%の上昇を示した。
本アーキテクチャは,大規模電子商取引属性(エンティティ)を50k以上の大容量の非構造化テキストから抽出し,高い性能と最適化されたトレーニングおよび推論ランタイムを備えたスケーラブルな実運用環境において抽出する。 NER has been traditionally formulated as a sequence labeling task. However, there has been recent trend in posing NER as a machine reading comprehension task (Wang et al., 2020; Mengge et al., 2020), where entity name (or other information) is considered as a question, text as the context and entity value in text as answer snippet. These works consider MRC based on a single question (entity) at a time. We propose posing NER as a multi-question MRC task, where multiple questions (one question per entity) are considered at the same time for a single text. We propose a novel BERT-based multi-question MRC (NER-MQMRC) architecture for this formulation. NER-MQMRC architecture considers all entities as input to BERT for learning token embeddings with self-attention and leverages BERT-based entity representation for further improving these token embeddings for NER task. Evaluation on three NER datasets show that our proposed architecture leads to average 2.5 times faster training and 2.3 times faster inference as compared to NER-SQMRC framework based models by considering all entities together in a single pass. Further, we show that our model performance does not degrade compared to single-question based MRC (NER-SQMRC) (Devlin et al., 2019) leading to F1 gain of +0.41%, +0.32% and +0.27% for AE-Pub, Ecommerce5PT and Twitter datasets respectively. We propose this architecture primarily to solve large scale e-commerce attribute (or entity) extraction from unstructured text of a magnitude of 50k+ attributes to be extracted on a scalable production environment with high performance and optimised training and inference runtimes. | 翻訳日:2022-05-13 14:29:34 公開日:2022-05-12 |
# Co-Association Matrix Self-Enhancementによるアンサンブルクラスタリング Ensemble Clustering via Co-association Matrix Self-enhancement ( http://arxiv.org/abs/2205.05937v1 ) ライセンス: Link先を確認 | Yuheng Jia, Sirui Tao, Ran Wang, Yongheng Wang | (参考訳) Ensembleクラスタリングは、一連のベースクラスタリング結果を統合して、より強力なクラスタを生成する。
既存の手法は通常、アンサンブルクラスタリングを達成するために、2つのサンプルが同じクラスタに何回グループ化されるかを測定するコアソシエーション(CA)マトリックスに依存している。
しかし、構築されたCA行列が低品質である場合、性能は低下する。
本稿では,CA行列を改良し,クラスタリング性能を向上する,シンプルで効果的なCA行列自己拡張フレームワークを提案する。
具体的には、まずベースクラスタリングから高信頼(HC)情報を抽出し、スパースHC行列を形成する。
HCマトリクスの信頼性の高い情報をCAマトリクスに伝播し、同時にCAマトリクスに従ってHCマトリクスを補完することにより、より優れたクラスタリングのための強化CAマトリクスを生成する。
技術的には、提案モデルは対称的制約付き凸最適化問題として定式化され、収束と大域的最適条件の交互反復アルゴリズムにより効率よく解かれる。
アンサンブルクラスタリングにおけるモデルの有効性,柔軟性,効率性を検証した8つのベンチマークデータセットに対する12の最先端手法との比較実験を行った。
コードとデータセットはhttps://github.com/Siritao/EC-CMSでダウンロードできる。 Ensemble clustering integrates a set of base clustering results to generate a stronger one. Existing methods usually rely on a co-association (CA) matrix that measures how many times two samples are grouped into the same cluster according to the base clusterings to achieve ensemble clustering. However, when the constructed CA matrix is of low quality, the performance will degrade. In this paper, we propose a simple yet effective CA matrix self-enhancement framework that can improve the CA matrix to achieve better clustering performance. Specifically, we first extract the high-confidence (HC) information from the base clusterings to form a sparse HC matrix. By propagating the highly-reliable information of the HC matrix to the CA matrix and complementing the HC matrix according to the CA matrix simultaneously, the proposed method generates an enhanced CA matrix for better clustering. Technically, the proposed model is formulated as a symmetric constrained convex optimization problem, which is efficiently solved by an alternating iterative algorithm with convergence and global optimum theoretically guaranteed. Extensive experimental comparisons with twelve state-of-the-art methods on eight benchmark datasets substantiate the effectiveness, flexibility and efficiency of the proposed model in ensemble clustering. The codes and datasets can be downloaded at https://github.com/Siritao/EC-CMS. | 翻訳日:2022-05-13 14:28:56 公開日:2022-05-12 |
# マルチリレーショナルインダクティブ薬物-遺伝子相互作用予測のためのコミュニティブサブグラフ表現学習 Communicative Subgraph Representation Learning for Multi-Relational Inductive Drug-Gene Interaction Prediction ( http://arxiv.org/abs/2205.05957v1 ) ライセンス: Link先を確認 | Jiahua Rao, Shuangjia Zheng, Sijie Mai, and Yuedong Yang | (参考訳) 薬物と遺伝子間の相互結合を照明することは、薬物開発と精密医学において重要なトピックである。
現在、薬物-遺伝子相互作用の計算予測は主にアゴニスト、アンタゴニストなどの他の関係型を考慮せずに結合相互作用に焦点を当てている。
加えて、既存の手法は高品質なドメイン機能に大きく依存するか、または本質的にトランスダクティブであり、外部情報を持たない薬物や遺伝子に一般化するモデルの能力を制限する。
そこで,本研究では,薬物と遺伝子の関係の予測をサブグラフパターンを用いて行うマルチリレーショナルインダクティブな薬物-遺伝子間相互作用予測(cosmig)のための新しいコミュニケーション型サブグラフ表現学習を提案する。
さらに,モデルでは,コミュニケーション的メッセージパッシング機構により,薬物-遺伝子グラフの関係性が強化された。
提案手法を評価するため,DGIdb と DrugBank のベンチマークデータセットを作成した。
2つのデータセットの総合的な実験により,本手法はトランスダクティブシナリオにおいて最先端のベースラインより優れ,インダクティブシナリオでは優れた性能を示した。
LINCS 実験検証や文献検証を含むさらなる実験分析も,本モデルの有効性を実証した。 Illuminating the interconnections between drugs and genes is an important topic in drug development and precision medicine. Currently, computational predictions of drug-gene interactions mainly focus on the binding interactions without considering other relation types like agonist, antagonist, etc. In addition, existing methods either heavily rely on high-quality domain features or are intrinsically transductive, which limits the capacity of models to generalize to drugs/genes that lack external information or are unseen during the training process. To address these problems, we propose a novel Communicative Subgraph representation learning for Multi-relational Inductive drug-Gene interactions prediction (CoSMIG), where the predictions of drug-gene relations are made through subgraph patterns, and thus are naturally inductive for unseen drugs/genes without retraining or utilizing external domain features. Moreover, the model strengthened the relations on the drug-gene graph through a communicative message passing mechanism. To evaluate our method, we compiled two new benchmark datasets from DrugBank and DGIdb. The comprehensive experiments on the two datasets showed that our method outperformed state-of-the-art baselines in the transductive scenarios and achieved superior performance in the inductive ones. Further experimental analysis including LINCS experimental validation and literature verification also demonstrated the value of our model. | 翻訳日:2022-05-13 14:28:37 公開日:2022-05-12 |
# GPN:グラフニューラルネットワークのための統合構造学習フレームワーク GPN: A Joint Structural Learning Framework for Graph Neural Networks ( http://arxiv.org/abs/2205.05964v1 ) ライセンス: Link先を確認 | Qianggang Ding, Deheng Ye, Tingyang Xu, Peilin Zhao | (参考訳) グラフニューラルネットワーク(GNN)は、さまざまなグラフタスクに適用されている。
GNNの既存の作業のほとんどは、与えられたグラフデータが最適であるという仮定に基づいているが、トレーニング用のグラフデータに欠落や不完全なエッジがあることは避けられない。
本稿では,グラフ構造と下流タスクを同時に学習するGNNベースの共同学習フレームワークである生成予測ネットワーク(GPN)を提案する。
具体的には,上位最適化(生成子)と下位最適化(予測子)の両方をgnnでインスタンス化する,この共同学習タスクのための2レベル最適化フレームワークを開発した。
我々の知る限りでは、この課題を解決するための最初のGNNベースの二段階最適化フレームワークである。
広範な実験により,本手法はベンチマークデータセットを用いて,広範囲のベースラインを上回った。 Graph neural networks (GNNs) have been applied into a variety of graph tasks. Most existing work of GNNs is based on the assumption that the given graph data is optimal, while it is inevitable that there exists missing or incomplete edges in the graph data for training, leading to degraded performance. In this paper, we propose Generative Predictive Network (GPN), a GNN-based joint learning framework that simultaneously learns the graph structure and the downstream task. Specifically, we develop a bilevel optimization framework for this joint learning task, in which the upper optimization (generator) and the lower optimization (predictor) are both instantiated with GNNs. To the best of our knowledge, our method is the first GNN-based bilevel optimization framework for resolving this task. Through extensive experiments, our method outperforms a wide range of baselines using benchmark datasets. | 翻訳日:2022-05-13 14:28:08 公開日:2022-05-12 |
# 変圧器を用いたパーキンソン病の移動度測定のためのマルチモーダル室内局在 Multimodal Indoor Localisation for Measuring Mobility in Parkinson's Disease using Transformers ( http://arxiv.org/abs/2205.06142v1 ) ライセンス: Link先を確認 | Ferdian Jovan, Ryan McConville, Catherine Morgan, Emma Tonkin, Alan Whone, Ian Craddock | (参考訳) パーキンソン病(英: Parkinson's disease、PD)は、徐々に進行する神経変性疾患である。
室内での移動量や部屋間の移動速度などの局所化は、移動度を表すプロキシ結果を提供し、デジタルバイオマーカーとして、この病気が進行するにつれて移動度がどのように変化するかを定量化することができる。
パーキンソン病の10人から収集したデータと、さまざまなセンサーを備えたスマートホームで5日間生活した10人のコントロールを使っています。
屋内でより効果的にローカライズするために,ウェアラブルデバイスから受信信号強度指標(RSSI)と加速度計データという2つのデータモダリティを利用したトランスフォーマーベースのアプローチを提案する。
我々のアプローチは非対称でダイナミックな相関を
a)異なるスケールとレベルの時間的相関を学習し、
b) 様々なゲーティング機構を利用して,モダリティ内で関連する特徴を選定し,不必要なモダリティを抑制すること。
実患者を対象とするデータセットでは,提案手法が平均89.9%の精度を示し,競争相手を上回った。
また、我々のモデルはパーキンソン病患者に対する家庭内移動率を1.13秒で予測できることを示した。 Parkinson's disease (PD) is a slowly progressive debilitating neurodegenerative disease which is prominently characterised by motor symptoms. Indoor localisation, including number and speed of room to room transitions, provides a proxy outcome which represents mobility and could be used as a digital biomarker to quantify how mobility changes as this disease progresses. We use data collected from 10 people with Parkinson's, and 10 controls, each of whom lived for five days in a smart home with various sensors. In order to more effectively localise them indoors, we propose a transformer-based approach utilizing two data modalities, Received Signal Strength Indicator (RSSI) and accelerometer data from wearable devices, which provide complementary views of movement. Our approach makes asymmetric and dynamic correlations by a) learning temporal correlations at different scales and levels, and b) utilizing various gating mechanisms to select relevant features within modality and suppress unnecessary modalities. On a dataset with real patients, we demonstrate that our proposed method gives an average accuracy of 89.9%, outperforming competitors. We also show that our model is able to better predict in-home mobility for people with Parkinson's with an average offset of 1.13 seconds to ground truth. | 翻訳日:2022-05-13 14:27:55 公開日:2022-05-12 |
# スターフライを用いたロボット調理:半流動物体の2次元的非包括的操作 Robot Cooking with Stir-fry: Bimanual Non-prehensile Manipulation of Semi-fluid Objects ( http://arxiv.org/abs/2205.05960v1 ) ライセンス: Link先を確認 | Junjia Liu, Yiting Chen, Zhipeng Dong, Shixiong Wang, Sylvain Calinon, Miao Li, and Fei Chen | (参考訳) 本文では,中国料理の調理法をバイマニアルロボットシステムに応用するアプローチについて述べる。
スターフライは、非常に動的に協調した動きの連続を必要とするが、これは通常、シェフにとって学ぶのが難しい。
本稿では,この変形可能な物体の操作を人間の実演から学習するための分離された枠組みを提案する。
まず、ロボットの双腕を異なる役割(リーダーとフォロワ)に分離し、古典的およびニューラルネットワークベースの手法を別々に学習し、2つのタスクを協調問題に変換する。
本稿では,両腕運動の時空間的関係を捉えるために,グラフとトランスフォーマーに基づくモデル-Structured-Transformerを提案する。
最後に,コンテンツ変形の視覚的なフィードバックを加えることで,動きを自動的に調整し,所望のスターフライ効果を実現できる。
このフレームワークをシミュレータを用いて検証し,実際のパンダロボットシステムにデプロイする。
実験により, 本フレームワークは, 両手動ロボットの旋回フライ動作を実現し, 両手動調整により他の変形可能な物体にも拡張できる可能性が示された。 This letter describes an approach to achieve well-known Chinese cooking art stir-fry on a bimanual robot system. Stir-fry requires a sequence of highly dynamic coordinated movements, which is usually difficult to learn for a chef, let alone transfer to robots. In this letter, we define a canonical stir-fry movement, and then propose a decoupled framework for learning this deformable object manipulation from human demonstration. First, the dual arms of the robot are decoupled into different roles (a leader and follower) and learned with classical and neural network-based methods separately, then the bimanual task is transformed into a coordination problem. To obtain general bimanual coordination, we secondly propose a Graph and Transformer based model -- Structured-Transformer, to capture the spatio-temporal relationship between dual-arm movements. Finally, by adding visual feedback of content deformation, our framework can adjust the movements automatically to achieve the desired stir-fry effect. We verify the framework by a simulator and deploy it on a real bimanual Panda robot system. The experimental results validate our framework can realize the bimanual robot stir-fry motion and have the potential to extend to other deformable objects with bimanual coordination. | 翻訳日:2022-05-13 14:25:25 公開日:2022-05-12 |
# アサーブ:アフィニティ融合を用いたマルチスライス胎児脳mriの反復的無作為運動補正フレームワーク AFFIRM: Affinity Fusion-based Framework for Iteratively Random Motion correction of multi-slice fetal brain MRI ( http://arxiv.org/abs/2205.05851v1 ) ライセンス: Link先を確認 | Wen Shi, Haoan Xu, Cong Sun, Jiwei Sun, Yamin Li, Xinyi Xu, Tianshu Zheng, Yi Zhang, Guangbin Wang and Dan Wu | (参考訳) 胎児脳のマルチスライス磁気共鳴画像は通常、重篤で任意の胎児と母体の動きによって汚染される。
したがって, 安定かつロバストな動作補正は, 臨床診断および定量的解析のために, 高分解能3次元胎児脳体積を再構成するために必要である。
しかし、従来の登録ベース補正は捕捉範囲が限られており、比較的大きな動きを検出するには不十分である。
そこで本研究では,マルチスライス胎児脳MRIの反復ランダム運動(AFFIRM)補正のためのAffinity Fusionベースのフレームワークを提案する。
複数のスライスのスタックからシーケンシャルな動きを学び、2dスライスと再構築された3dボリュームの間の特徴をアフィニティ融合を用いて統合する。
この方法は、脳の向きに関係なく正確な動きを推定し、シミュレーションされた動き分解データによる他の最先端学習法よりも優れており、回転の平均絶対誤差が48.4%減少し、変位が61.3%減少している。
次に,AFFIRMをマルチレゾリューションスライス・ツー・ボリューム登録に組み込み,異なる妊娠段階の胎児MRIで検査した。
その結果、AFFIRMを従来のパイプラインに加えることで、胎児脳の超解像再構成の成功率が77.2%から91.9%に向上した。 Multi-slice magnetic resonance images of the fetal brain are usually contaminated by severe and arbitrary fetal and maternal motion. Hence, stable and robust motion correction is necessary to reconstruct high-resolution 3D fetal brain volume for clinical diagnosis and quantitative analysis. However, the conventional registration-based correction has a limited capture range and is insufficient for detecting relatively large motions. Here, we present a novel Affinity Fusion-based Framework for Iteratively Random Motion (AFFIRM) correction of the multi-slice fetal brain MRI. It learns the sequential motion from multiple stacks of slices and integrates the features between 2D slices and reconstructed 3D volume using affinity fusion, which resembles the iterations between slice-to-volume registration and volumetric reconstruction in the regular pipeline. The method accurately estimates the motion regardless of brain orientations and outperforms other state-of-the-art learning-based methods on the simulated motion-corrupted data, with a 48.4% reduction of mean absolute error for rotation and 61.3% for displacement. We then incorporated AFFIRM into the multi-resolution slice-to-volume registration and tested it on the real-world fetal MRI scans at different gestation stages. The results indicated that adding AFFIRM to the conventional pipeline improved the success rate of fetal brain super-resolution reconstruction from 77.2% to 91.9%. | 翻訳日:2022-05-13 14:24:17 公開日:2022-05-12 |
# 映像における言語駆動行動定位のためのエンティティ認識とモーション認識トランスフォーマー Entity-aware and Motion-aware Transformers for Language-driven Action Localization in Videos ( http://arxiv.org/abs/2205.05854v1 ) ライセンス: Link先を確認 | Shuo Yang and Xinxiao Wu | (参考訳) ビデオにおける言語駆動のアクションローカライゼーションは、視覚言語的マッチングだけでなく、アクション境界予測も含む難しいタスクである。
最近の進歩は、言語クエリをビデオセグメントに合わせることで達成されているが、正確な境界の推定はまだ未検討である。
本稿では,まず,エンティティクエリを用いたクリップの粗い位置決めを行い,次に,動きクエリによる縮小した時間領域における正確な境界を微妙な予測により,映像中の動作を段階的に局所化するエンティティ認識およびモーション認識トランスを提案する。
エンティティ対応トランスフォーマーは、アクション関連ビデオクリップへの参加を容易にするために、クロスモーダルおよびクロスフレームアテンションを介してテキストエンティティを視覚表現学習に組み込む。
動き認識変換器は、長い短期記憶を自己アテンションモジュールに統合することにより、複数の時間スケールでの微粒な動き変化を捕捉し、アクション境界予測の精度をさらに向上する。
Charades-STAデータセットとTACoSデータセットの大規模な実験により,本手法が既存手法よりも優れた性能を発揮することが示された。 Language-driven action localization in videos is a challenging task that involves not only visual-linguistic matching but also action boundary prediction. Recent progress has been achieved through aligning language query to video segments, but estimating precise boundaries is still under-explored. In this paper, we propose entity-aware and motion-aware Transformers that progressively localizes actions in videos by first coarsely locating clips with entity queries and then finely predicting exact boundaries in a shrunken temporal region with motion queries. The entity-aware Transformer incorporates the textual entities into visual representation learning via cross-modal and cross-frame attentions to facilitate attending action-related video clips. The motion-aware Transformer captures fine-grained motion changes at multiple temporal scales via integrating long short-term memory into the self-attention module to further improve the precision of action boundary prediction. Extensive experiments on the Charades-STA and TACoS datasets demonstrate that our method achieves better performance than existing methods. | 翻訳日:2022-05-13 14:23:51 公開日:2022-05-12 |
# 学習型ビジュアルオドメトリーを用いた動的高密度RGB-D SLAM Dynamic Dense RGB-D SLAM using Learning-based Visual Odometry ( http://arxiv.org/abs/2205.05916v1 ) ライセンス: Link先を確認 | Shihao Shen, Yilin Cai, Jiayi Qiu, Guangzhao Li | (参考訳) 本稿では,学習に基づくビジュアルオドメトリーであるTartanVOに基づく高密度な動的RGB-D SLAMパイプラインを提案する。
TartanVOは、機能ベースの他の直接的な方法と同様に、高密度の光学的流れを通してカメラのポーズを推定するが、これは静的なシーンにのみ適用され、動的オブジェクトを無視する。
色濃度の仮定により、光学フローは動的画素と静的画素の区別ができない。
したがって,このような直接的手法で静的マップを再構築するには,光フロー出力を利用して動的/静的セグメンテーションを解決し,静的ポイントのみをマップに融合する。
さらに、動的な画素を取り除いた入力フレームを再描画し、視覚的なオドメトリーに繰り返し転送してポーズ推定を洗練させる。 We propose a dense dynamic RGB-D SLAM pipeline based on a learning-based visual odometry, TartanVO. TartanVO, like other direct methods rather than feature-based, estimates camera pose through dense optical flow, which only applies to static scenes and disregards dynamic objects. Due to the color constancy assumption, optical flow is not able to differentiate between dynamic and static pixels. Therefore, to reconstruct a static map through such direct methods, our pipeline resolves dynamic/static segmentation by leveraging the optical flow output, and only fuse static points into the map. Moreover, we rerender the input frames such that the dynamic pixels are removed and iteratively pass them back into the visual odometry to refine the pose estimate. | 翻訳日:2022-05-13 14:23:01 公開日:2022-05-12 |
# SimCPSR:論文提出推薦システムのための簡易コントラスト学習 SimCPSR: Simple Contrastive Learning for Paper Submission Recommendation System ( http://arxiv.org/abs/2205.05940v1 ) ライセンス: Link先を確認 | Duc H. Le, Tram T. Doan, Son T. Huynh, and Binh T. Nguyen | (参考訳) 多くの分野、特に学術分野においてレコメンデーションシステムは重要な役割を担い、研究者が会議や雑誌の選択プロセスを通じて研究成果を提出し、受け入れられることを支援する。
本研究は,紙提出推薦システムの効率的なアプローチとして,転送学習を用いたトランスベースモデルを提案する。
本質的な情報(タイトル、要約、キーワードのリストなど)をジャーナルの目的とスコープと組み合わせることで、このモデルは論文の受容を最大化するトップK誌を推薦することができる。
私たちのモデルは2つの州で開発されました
i) 単純なコントラスト学習フレームワークを用いて、事前学習言語モデル(LM)を微調整する。
我々は、単純な教師付きコントラスト目的を用いて、すべてのパラメータを微調整し、LMに文書表現を効果的に学習するよう促した。
(ii) 微調整されたlmは、下流タスクの特徴の異なる組み合わせで訓練された。
本研究は,表題,要約,キーワードを入力として組み合わせたテストセットにおいて,それぞれ0.5173,0.8097,0.8862,0.9496をトップ1,3,5,10の精度で達成した場合と比較して,論文提出推薦システムの効率を向上する手法を提案する。
論文の目的と範囲を組み込んだ本モデルは,トップ1,3,5,10に0.5194,0.08112,0.08866,0.09496をそれぞれ与え,エキサイティングな結果を示す。 The recommendation system plays a vital role in many areas, especially academic fields, to support researchers in submitting and increasing the acceptance of their work through the conference or journal selection process. This study proposes a transformer-based model using transfer learning as an efficient approach for the paper submission recommendation system. By combining essential information (such as the title, the abstract, and the list of keywords) with the aims and scopes of journals, the model can recommend the Top K journals that maximize the acceptance of the paper. Our model had developed through two states: (i) Fine-tuning the pre-trained language model (LM) with a simple contrastive learning framework. We utilized a simple supervised contrastive objective to fine-tune all parameters, encouraging the LM to learn the document representation effectively. (ii) The fine-tuned LM was then trained on different combinations of the features for the downstream task. This study suggests a more advanced method for enhancing the efficiency of the paper submission recommendation system compared to previous approaches when we respectively achieve 0.5173, 0.8097, 0.8862, 0.9496 for Top 1, 3, 5, and 10 accuracies on the test set for combining the title, abstract, and keywords as input features. Incorporating the journals' aims and scopes, our model shows an exciting result by getting 0.5194, 0.8112, 0.8866, and 0.9496 respective to Top 1, 3, 5, and 10. | 翻訳日:2022-05-13 14:22:48 公開日:2022-05-12 |
# fpsrs:論文提出推薦システムのための融合アプローチ FPSRS: A Fusion Approach for Paper Submission Recommendation System ( http://arxiv.org/abs/2205.05965v1 ) ライセンス: Link先を確認 | Son T. Huynh, Nhi Dang, Dac H. Nguyen, Phong T. Huynh, and Binh T. Nguyen | (参考訳) レコメンダーシステムはエンターテイメントや消費で人気が高まり、特に科学者に科学論文を提出することを推奨するアプリケーションで学術的に顕著である。
しかし、様々な受理率、影響要因、異なる出版社のランキングのため、科学論文を提出する適切な場所や雑誌を探すのには通常多くの時間と労力がかかる。
本稿では,Conv1D以外のRNN構造を用いてIAE/AIE 2021で発表した論文[13]から,新たな2つのアプローチを提案する。
さらに,DistilBertAimsという新しい手法を導入し,2つの大文字小文字に対してDistillBertを用いて, Title, Abstract, Keywords などの特徴をベクトル化し,Conv1d を用いて特徴抽出を行う。
さらに,aimとスコープの類似度スコアを他の特徴とともに計算する方法を提案し,類似度スコアの重み付けを連続的に更新し,さらにより多くのデータに適合させる。
実験結果から,第2のアプローチでは,前回の[13]よりも62.46%,12.44%高い性能が得られた。 Recommender systems have been increasingly popular in entertainment and consumption and are evident in academics, especially for applications that suggest submitting scientific articles to scientists. However, because of the various acceptance rates, impact factors, and rankings in different publishers, searching for a proper venue or journal to submit a scientific work usually takes a lot of time and effort. In this paper, we aim to present two newer approaches extended from our paper [13] presented at the conference IAE/AIE 2021 by employing RNN structures besides using Conv1D. In addition, we also introduce a new method, namely DistilBertAims, using DistillBert for two cases of uppercase and lower-case words to vectorize features such as Title, Abstract, and Keywords, and then use Conv1d to perform feature extraction. Furthermore, we propose a new calculation method for similarity score for Aim & Scope with other features; this helps keep the weights of similarity score calculation continuously updated and then continue to fit more data. The experimental results show that the second approach could obtain a better performance, which is 62.46% and 12.44% higher than the best of the previous study [13] in terms of the Top 1 accuracy. | 翻訳日:2022-05-13 14:22:23 公開日:2022-05-12 |
# tader: プロジェクト管理プラットフォームのための新しいタスク依存性推奨 TaDeR: A New Task Dependency Recommendation for Project Management Platform ( http://arxiv.org/abs/2205.05976v1 ) ライセンス: Link先を確認 | Quynh Nguyen, Dac H. Nguyen, Son T. Huynh, Hoa K. Dam, Binh T. Nguyen | (参考訳) 世界中のスタートアップや企業はプロジェクト管理ソフトウェアやツールを使ってプロジェクトを監視し、追跡し、管理している。
ソフトウェアプロジェクトでは、開始から終了までのタスク数がかなり多いため、現在のタスクを以前のタスクのグループに検索しリンクするのに多くの時間と労力がかかり、さらなる参照が必要になります。
本稿では,ユーザが作成したタスクに依存するタスクを提案できる効率的なタスク依存性推薦アルゴリズムを提案する。
この目的のために,効率的な機能エンジニアリングステップを示し,ディープニューラルネットワークを構築する。
2つの異なる大規模プロジェクト (momele.org の mdlsite と apache.org の flume) で、機能の組み合わせ 28 で最高の機能と、2 つの埋め込みメソッド (glove と fasttext) を使った最高のパフォーマンスモデルを見つけるために、広範囲な実験を行いました。
精度@k, mrr@k, recall@k (k = 1, 2, 3, 5) を用いた3種類のモデル (gru, cnn, lstm) と,コサイン類似度,ユークリッド距離,マンハッタン距離,チェビシェフ距離など,様々なマッチングスコア計算を行うtf-idf を基本モデルとして検討した。
多くの実験の後、グラブ埋め込みとcnnモデルはデータセットで最高の結果に達したので、提案手法としてこのモデルを選択しました。
さらに、後処理ステップにタイムフィルタを追加することで、レコメンデーションシステムの性能が大幅に向上する。
実験の結果,提案手法は精度@1では0.2335,データセットflumeではmr@1,リコール@1で0.2011に達することがわかった。
mdlsiteデータセットでは、精度@1では 0.1258、recall@1では mrr@1 と 0.1141 が得られた。
トップ5では、私たちのモデルは Accuracy@5で0.3040、FLUMEで0.2563 MRR@5、0.2651 Recall@5に達しました。
MDLSITEデータセットでは,0.5270 Accuracy@5,0.2689 MRR@5,0.2651 Recall@5が得られた。 Many startups and companies worldwide have been using project management software and tools to monitor, track and manage their projects. For software projects, the number of tasks from the beginning to the end is quite a large number that sometimes takes a lot of time and effort to search and link the current task to a group of previous ones for further references. This paper proposes an efficient task dependency recommendation algorithm to suggest tasks dependent on a given task that the user has just created. We present an efficient feature engineering step and construct a deep neural network to this aim. We performed extensive experiments on two different large projects (MDLSITE from moodle.org and FLUME from apache.org) to find the best features in 28 combinations of features and the best performance model using two embedding methods (GloVe and FastText). We consider three types of models (GRU, CNN, LSTM) using Accuracy@K, MRR@K, and Recall@K (where K = 1, 2, 3, and 5) and baseline models using traditional methods: TF-IDF with various matching score calculating such as cosine similarity, Euclidean distance, Manhattan distance, and Chebyshev distance. After many experiments, the GloVe Embedding and CNN model reached the best result in our dataset, so we chose this model as our proposed method. In addition, adding the time filter in the post-processing step can significantly improve the recommendation system's performance. The experimental results show that our proposed method can reach 0.2335 in Accuracy@1 and MRR@1 and 0.2011 in Recall@1 of dataset FLUME. With the MDLSITE dataset, we obtained 0.1258 in Accuracy@1 and MRR@1 and 0.1141 in Recall@1. In the top 5, our model reached 0.3040 in Accuracy@5, 0.2563 MRR@5, and 0.2651 Recall@5 in FLUME. In the MDLSITE dataset, our model got 0.5270 Accuracy@5, 0.2689 MRR@5, and 0.2651 Recall@5. | 翻訳日:2022-05-13 14:22:02 公開日:2022-05-12 |
# 画像超解像のためのブループリント分離残像ネットワーク Blueprint Separable Residual Network for Efficient Image Super-Resolution ( http://arxiv.org/abs/2205.05996v1 ) ライセンス: Link先を確認 | Zheyuan Li, Yingqi Liu, Xiangyu Chen, Haoming Cai, Jinjin Gu, Yu Qiao, Chao Dong | (参考訳) 単一画像超解像(SISR)の最近の進歩は、異常な性能を達成したが、エッジデバイスに適用するには計算コストが大きすぎる。
この問題を緩和するために、多くの新しい効果的な解決策が提案されている。
注意機構を備えた畳み込みニューラルネットワーク(CNN)は,その効率性と有効性から注目を集めている。
しかし、畳み込み作業には冗長性が残っている。
本稿では,2つの効率的な設計を含むBlueprint Separable Residual Network (BSRN)を提案する。
ひとつはブループリント分離畳み込み(bsconv: blueprint separable convolution)を使用することで、冗長畳み込み操作が実行される。
もうひとつは,より効果的なアテンションモジュールを導入することで,モデルの能力を高めることだ。
実験結果から,BSRNは既存の効率的なSR手法の最先端性能を実現することが示された。
さらに,我々のモデルであるBSRN-Sの小型版が NTIRE 2022 Efficient SR Challenge のモデル複雑性トラックで優勝した。
コードはhttps://github.com/xiaom233/bsrnで入手できる。 Recent advances in single image super-resolution (SISR) have achieved extraordinary performance, but the computational cost is too heavy to apply in edge devices. To alleviate this problem, many novel and effective solutions have been proposed. Convolutional neural network (CNN) with the attention mechanism has attracted increasing attention due to its efficiency and effectiveness. However, there is still redundancy in the convolution operation. In this paper, we propose Blueprint Separable Residual Network (BSRN) containing two efficient designs. One is the usage of blueprint separable convolution (BSConv), which takes place of the redundant convolution operation. The other is to enhance the model ability by introducing more effective attention modules. The experimental results show that BSRN achieves state-of-the-art performance among existing efficient SR methods. Moreover, a smaller variant of our model BSRN-S won the first place in model complexity track of NTIRE 2022 Efficient SR Challenge. The code is available at https://github.com/xiaom233/BSRN. | 翻訳日:2022-05-13 14:21:22 公開日:2022-05-12 |
# D3T-GAN:Few-shot画像生成のためのデータ依存ドメイン転送GAN D3T-GAN: Data-Dependent Domain Transfer GANs for Few-shot Image Generation ( http://arxiv.org/abs/2205.06032v1 ) ライセンス: Link先を確認 | Xintian Wu, Huanyu Wang, Yiming Wu, Xi Li | (参考訳) 重要かつ困難な問題として、少数のサンプルを与えられたGANモデルをトレーニングすることで、現実的な画像を生成することを目的としている。
数ショット生成の典型的な解決策は、よく訓練されたGANモデルをデータ豊富なソースドメインからデータ不足のターゲットドメインに転送することである。
本稿では,D3T-GANと呼ばれる自己監督型転送方式を提案する。
具体的には,ジェネレータと識別器間で知識を伝達する2つの個別戦略を設計する。
生成元間の知識を伝達するために,対象とするサンプルをソースジェネレータ空間に投影し,再構成するデータ依存変換を行う。
次に,変換サンプルから生成サンプルへの知識伝達を行う。
判別器間で知識を伝達するために,実検体と偽検体の両方において,ソース判別器からターゲット判別器への多段階識別知識蒸留を設計する。
広汎な実験により,本手法は生成画像の品質を向上し,一般的なデータセットにおける最先端のFIDスコアを実現する。 As an important and challenging problem, few-shot image generation aims at generating realistic images through training a GAN model given few samples. A typical solution for few-shot generation is to transfer a well-trained GAN model from a data-rich source domain to the data-deficient target domain. In this paper, we propose a novel self-supervised transfer scheme termed D3T-GAN, addressing the cross-domain GANs transfer in few-shot image generation. Specifically, we design two individual strategies to transfer knowledge between generators and discriminators, respectively. To transfer knowledge between generators, we conduct a data-dependent transformation, which projects and reconstructs the target samples into the source generator space. Then, we perform knowledge transfer from transformed samples to generated samples. To transfer knowledge between discriminators, we design a multi-level discriminant knowledge distillation from the source discriminator to the target discriminator on both the real and fake samples. Extensive experiments show that our method improve the quality of generated images and achieves the state-of-the-art FID scores on commonly used datasets. | 翻訳日:2022-05-13 14:21:07 公開日:2022-05-12 |
# 音声キャプションの自動化:最近の進歩と課題 Automated Audio Captioning: an Overview of Recent Progress and New Challenges ( http://arxiv.org/abs/2205.05949v1 ) ライセンス: Link先を確認 | Xinhao Mei, Xubo Liu, Mark D. Plumbley and Wenwu Wang | (参考訳) 自動音声キャプション(automated audio captioning)は、音声クリップに対して自然言語記述を生成するクロスモーダル翻訳タスクである。
このタスクは近年,無償で利用可能なデータセットのリリースによって注目を集めている。
この問題は、主にディープラーニング技術で解決されている。
異なるニューラルネットワークアーキテクチャを調査したり、キーワードや文情報などの補助情報を活用してキャプション生成を指導したり、この分野の発展を大いに促進したトレーニング戦略を用いるなど、多くのアプローチが提案されている。
本稿では,既存の評価指標やデータセットに対する様々なアプローチから,音声キャプションの自動生成における投稿の総合的なレビューを行う。
さらに,今後の課題と今後の研究の方向性について考察する。 Automated audio captioning is a cross-modal translation task that aims to generate natural language descriptions for given audio clips. This task has received increasing attention with the release of freely available datasets in recent years. The problem has been addressed predominantly with deep learning techniques. Numerous approaches have been proposed, such as investigating different neural network architectures, exploiting auxiliary information such as keywords or sentence information to guide caption generation, and employing different training strategies, which have greatly facilitated the development of this field. In this paper, we present a comprehensive review of the published contributions in automated audio captioning, from a variety of existing approaches to evaluation metrics and datasets. Moreover, we discuss open challenges and envisage possible future research directions. | 翻訳日:2022-05-13 14:20:48 公開日:2022-05-12 |
# 非線形振動多物理構造の仮想双晶-物理と深層学習に基づくアプローチ Virtual twins of nonlinear vibrating multiphysics microstructures: physics-based versus deep learning-based approaches ( http://arxiv.org/abs/2205.05928v1 ) ライセンス: Link先を確認 | Giorgio Gobat, Stefania Fresca, Andrea Manzoni, Attilio Frangi | (参考訳) マイクロ電気機械システム(micro-electro-mechanical-systems)は複雑な構造であり、幾何および多物理学の性質を持つ非線形構造を伴い、無数の用途でセンサーやアクチュエータとして用いられる。
完全次数表現から始め,高次複雑系のシミュレーションと最適化のための仮想双対として,正確で効率的かつリアルタイムな減数次モデルを生成するために,深層学習手法を適用する。
我々は,マイクロミラー,アーチ,ジャイロスコープにおける提案手法の信頼性を広範囲に検証し,内部共鳴のような複雑な動的進化を示す。
特に, 大規模有限要素モデルの非線形正規モードの抽出を可能にする直接パラメトリゼーション手法を用いて, 深層学習手法の精度と, 予測する不変多様体を再現・収束する能力について考察した。
最後に,電気機械ジャイロスコープに対処し,非インタラクティブ深層学習アプローチが複雑な多物理問題に容易に一般化できることを示す。 Micro-Electro-Mechanical-Systems are complex structures, often involving nonlinearites of geometric and multiphysics nature, that are used as sensors and actuators in countless applications. Starting from full-order representations, we apply deep learning techniques to generate accurate, efficient and real-time reduced order models to be used as virtual twin for the simulation and optimization of higher-level complex systems. We extensively test the reliability of the proposed procedures on micromirrors, arches and gyroscopes, also displaying intricate dynamical evolutions like internal resonances. In particular, we discuss the accuracy of the deep learning technique and its ability to replicate and converge to the invariant manifolds predicted using the recently developed direct parametrization approach that allows extracting the nonlinear normal modes of large finite element models. Finally, by addressing an electromechanical gyroscope, we show that the non-intrusive deep learning approach generalizes easily to complex multiphysics problems | 翻訳日:2022-05-13 14:17:33 公開日:2022-05-12 |
# 肯定的,否定的,中立的:セッションベースのニュースレコメンデーションにおける帰属的フィードバックのモデル化 Positive, Negative and Neutral: Modeling Implicit Feedback in Session-based News Recommendation ( http://arxiv.org/abs/2205.06058v1 ) ライセンス: Link先を確認 | Shansan Gong and Kenny Q. Zhu | (参考訳) 匿名読者向けのニュースレコメンデーションは多くのニュースポータルで有用だが、一時的なログインセッションで読者と記事間のやりとりが制限されている。
以前の作業では、セッションベースの推奨を次の項目予測タスクとして定式化する傾向があり、ユーザ行動からの暗黙のフィードバックは無視される。
そこで我々は,ポジティブなフィードバック(つまり,より多くの時間を費やす記事)とネガティブなフィードバック(クリックせずにスキップする記事)を通じて,ユーザの振る舞いをモデル化するための包括的なフレームワークを提案する。
さらに、このフレームワークは、セッション開始時刻と、最初の公開時刻を使った記事を、私たちが"中立的なフィードバック"と呼ぶ形で暗黙的にモデル化する。
実世界の3つのニュースデータセットに対する実証的な評価は、他の最先端のセッションベースの推奨アプローチよりも正確で多様性があり、予想外のパフォーマンスを示す。 News recommendation for anonymous readers is a useful but challenging task for many news portals, where interactions between readers and articles are limited within a temporary login session. Previous works tend to formulate session-based recommendation as a next item prediction task, while they neglect the implicit feedback from user behaviors, which indicates what users really like or dislike. Hence, we propose a comprehensive framework to model user behaviors through positive feedback (i.e., the articles they spend more time on) and negative feedback (i.e., the articles they choose to skip without clicking in). Moreover, the framework implicitly models the user using their session start time, and the article using its initial publishing time, in what we call "neutral feedback". Empirical evaluation on three real-world news datasets shows the framework's promising performance of more accurate, diverse and even unexpectedness recommendations than other state-of-the-art session-based recommendation approaches. | 翻訳日:2022-05-13 14:17:14 公開日:2022-05-12 |
# 資源制約IoTデバイスのためのニューラルネットワークを用いたOFDM受信装置 Neural Network-based OFDM Receiver for Resource Constrained IoT Devices ( http://arxiv.org/abs/2205.06159v1 ) ライセンス: Link先を確認 | Nasim Soltani, Hai Cheng, Mauro Belgiovine, Yanyu Li, Haoqing Li, Bahar Azari, Salvatore D'Oro, Tales Imbiriba, Tommaso Melodia, Pau Closas, Yanzhi Wang, Deniz Erdogmus, Kaushik Chowdhury | (参考訳) 直交周波数分割多重化(OFDM)ベースの波形は、最新のWiFi標準を含む多くのモノのインターネット(IoT)アプリケーションにおける通信リンクに使用される。
このようなOFDMベースのトランスシーバでは、チャネルタイプや変調方式の特定の選択に対して、チャネル推定、デマッピング、デコードに関連する多くの物理層関数が実装されている。
ハードワイヤによる選択をレシーバチェーンから切り離し、基盤となるハードウェアを変更することなく、多くの新しいシナリオでiotデプロイメントの柔軟性を高めるために、新しいモジュラー機械学習(ml)ベースのレシーバチェーン設計を探求する。
ここで、mlブロックはofdm受信機の個々の処理ブロックを置き換えるものであり、これをレガシチャネル推定、シンボルデマップ、デコードブロックとニューラルネットワーク(nns)の交換に具体的に記述する。
このモジュラーデザインのユニークな側面は、レガシブロックやmlブロックに柔軟な処理関数を割り当てることであり、それらは相互に共存できる。
さらに,資源制約型IoTデバイスにおけるNNの実装費用効果について,プルーニングと量子化,およびフィールドプログラマブルゲートアレイ(FPGA)内のこれらの圧縮NNのエミュレーションについて検討した。
提案手法は,従来の非ML受信機のビット誤り率を,シミュレーションとオーバーザエアで平均61%,10%向上させるものである。
さらに,従来のアルゴリズムと提案した圧縮NNとの計算複雑性の比較により,複雑性性能のトレードオフを示す。 Orthogonal Frequency Division Multiplexing (OFDM)-based waveforms are used for communication links in many current and emerging Internet of Things (IoT) applications, including the latest WiFi standards. For such OFDM-based transceivers, many core physical layer functions related to channel estimation, demapping, and decoding are implemented for specific choices of channel types and modulation schemes, among others. To decouple hard-wired choices from the receiver chain and thereby enhance the flexibility of IoT deployment in many novel scenarios without changing the underlying hardware, we explore a novel, modular Machine Learning (ML)-based receiver chain design. Here, ML blocks replace the individual processing blocks of an OFDM receiver, and we specifically describe this swapping for the legacy channel estimation, symbol demapping, and decoding blocks with Neural Networks (NNs). A unique aspect of this modular design is providing flexible allocation of processing functions to the legacy or ML blocks, allowing them to interchangeably coexist. Furthermore, we study the implementation cost-benefits of the proposed NNs in resource-constrained IoT devices through pruning and quantization, as well as emulation of these compressed NNs within Field Programmable Gate Arrays (FPGAs). Our evaluations demonstrate that the proposed modular NN-based receiver improves bit error rate of the traditional non-ML receiver by averagely 61% and 10% for the simulated and over-the-air datasets, respectively. We further show complexity-performance tradeoffs by presenting computational complexity comparisons between the traditional algorithms and the proposed compressed NNs. | 翻訳日:2022-05-13 14:16:15 公開日:2022-05-12 |
# kNN-Embed:多目的候補検索のためのローカルな平滑な埋め込みミックス kNN-Embed: Locally Smoothed Embedding Mixtures For Multi-interest Candidate Retrieval ( http://arxiv.org/abs/2205.06205v1 ) ライセンス: Link先を確認 | Ahmed El-Kishky, Thomas Markovich, Kenny Leung, Frank Portman, Aria Haghighi | (参考訳) 候補生成はレコメンデーションシステムにおける第1段階であり、入力ユーザに対して潜在的に関連するアイテムを取得するために軽量システムを使用する。
これらの候補項目は、より複雑なランキングモデルを用いて、リコメンデータシステムの後半段階でランク付けされ、刈り取られる。
候補生成はレコメンデーションファンネルの最上位であるため、下流ランキングモデルにフィードするハイリコール候補セットを検索することが重要である。
候補生成の一般的なアプローチは、単一の高密度クエリ埋め込みから近い近傍(ANN)探索を活用することであるが、このアプローチは、多くの近い重複を持つ低多様性の結果をもたらす可能性がある。
ユーザが複数の関心を持つことが多いため、候補検索は、ユーザの複数の関心を反映した多様な候補セットを理想的に返すべきである。
そこで我々は,高密度ANN検索における多様性向上のための一般的なアプローチであるkNN-Embedを紹介する。
kNN-Embedは、各ユーザを学習アイテムクラスタ上のスムーズな混合として表現し、ユーザの‘関心’を区別する。
各ユーザの混合成分をそれぞれの混合重みに比例してクエリすることにより、ユーザの関心事から要素を反映する候補の多様性の高い集合を検索する。
knn-embed と標準 ann 候補検索を実験的に比較し、3 つのデータセット間の全体的なリコールとダイバーシティの改善を示す。
この作業を伴って、当社は大規模なTwitterフォローグラフデータセットをオープンソース化し、レコメンダシステムのためのグラフマイニングと表現学習のさらなる研究を促進する。 Candidate generation is the first stage in recommendation systems, where a light-weight system is used to retrieve potentially relevant items for an input user. These candidate items are then ranked and pruned in later stages of recommender systems using a more complex ranking model. Since candidate generation is the top of the recommendation funnel, it is important to retrieve a high-recall candidate set to feed into downstream ranking models. A common approach for candidate generation is to leverage approximate nearest neighbor (ANN) search from a single dense query embedding; however, this approach this can yield a low-diversity result set with many near duplicates. As users often have multiple interests, candidate retrieval should ideally return a diverse set of candidates reflective of the user's multiple interests. To this end, we introduce kNN-Embed, a general approach to improving diversity in dense ANN-based retrieval. kNN-Embed represents each user as a smoothed mixture over learned item clusters that represent distinct `interests' of the user. By querying each of a user's mixture component in proportion to their mixture weights, we retrieve a high-diversity set of candidates reflecting elements from each of a user's interests. We experimentally compare kNN-Embed to standard ANN candidate retrieval, and show significant improvements in overall recall and improved diversity across three datasets. Accompanying this work, we open source a large Twitter follow-graph dataset, to spur further research in graph-mining and representation learning for recommender systems. | 翻訳日:2022-05-13 14:15:45 公開日:2022-05-12 |
# Sparseloop: テンソル加速器モデリングにおける解析的アプローチ Sparseloop: An Analytical Approach To Sparse Tensor Accelerator Modeling ( http://arxiv.org/abs/2205.05826v1 ) ライセンス: Link先を確認 | Yannan Nellie Wu, Po-An Tsai, Angshuman Parashar, Vivienne Sze, Joel S. Emer | (参考訳) 近年、スパーステンソル代数(例えばスパースニューラルネットワーク)を効率的に処理するために多くの加速器が提案されている。
しかし、これらの提案は、大きく多様なデザイン空間において単一ポイントである。
これらのスパーステンソルアクセラレーターの体系的な記述とモデリングサポートの欠如は、ハードウェア設計者が効率的で効率的な設計スペース探索を妨げている。
本稿ではまず,多種多様なテンソル型加速器の設計空間を体系的に記述する統合分類法を提案する。
提案された分類に基づいて、スパーステンソル加速器の早期評価と探索を可能にする、最初の高速で正確で柔軟な分析モデルフレームワークであるスパースループを導入した。
sparseloopは、さまざまなデータフローやスパースアクセラレーション機能(ゼロベースの計算の削除など)を含む、多数のアーキテクチャ仕様を理解する。
これらの仕様を用いて、Sparseloopは、確率テンソル密度モデルを用いてスパース加速度特徴によって導入された節約とオーバーヘッドと同様に、データ移動とデータフローによる計算を考慮しつつ、設計の処理速度とエネルギー効率を評価する。
代表的アクセラレータとワークロード全体で、Sparseloopはサイクルレベルのシミュレーションよりも2000倍以上高速なモデリング速度を実現し、相対的なパフォーマンストレンドを維持し、平均エラーは0.1%から8%に達する。
ケーススタディでは、スパーステンソル加速器を設計するための重要な洞察を明らかにする上で、スパースループの能力を示す(例えば、直交設計の側面を共設計することが重要である)。 In recent years, many accelerators have been proposed to efficiently process sparse tensor algebra applications (e.g., sparse neural networks). However, these proposals are single points in a large and diverse design space. The lack of systematic description and modeling support for these sparse tensor accelerators impedes hardware designers from efficient and effective design space exploration. This paper first presents a unified taxonomy to systematically describe the diverse sparse tensor accelerator design space. Based on the proposed taxonomy, it then introduces Sparseloop, the first fast, accurate, and flexible analytical modeling framework to enable early-stage evaluation and exploration of sparse tensor accelerators. Sparseloop comprehends a large set of architecture specifications, including various dataflows and sparse acceleration features (e.g., elimination of zero-based compute). Using these specifications, Sparseloop evaluates a design's processing speed and energy efficiency while accounting for data movement and compute incurred by the employed dataflow as well as the savings and overhead introduced by the sparse acceleration features using stochastic tensor density models. Across representative accelerators and workloads, Sparseloop achieves over 2000 times faster modeling speed than cycle-level simulations, maintains relative performance trends, and achieves 0.1% to 8% average error. With a case study, we demonstrate Sparseloop's ability to help reveal important insights for designing sparse tensor accelerators (e.g., it is important to co-design orthogonal design aspects). | 翻訳日:2022-05-13 14:15:19 公開日:2022-05-12 |
# ハーモニック・プラスノイズ源励振を用いた統一音源GAN Unified Source-Filter GAN with Harmonic-plus-Noise Source Excitation Generation ( http://arxiv.org/abs/2205.06053v1 ) ライセンス: Link先を確認 | Reo Yoneyama, Yi-Chiao Wu, Tomoki Toda | (参考訳) 本稿では,高調波プラスノイズ源励振発生機構を備えた統一音源フィルタネットワークを提案する。
前回の研究で我々は、ソースフィルタニューラルネットワークアーキテクチャを用いた柔軟な音声制御が可能な高忠実度ニューラルネットワークボコーダを開発するために、ソースフィルタGAN(uSFGAN)を統一的に提案した。
しかし、uSFGANの非周期音源励起信号のモデル化能力は不十分であり、自然な音声と生成された音声の間には音質の差がある。
音源励起モデルの改善と音質向上のために,周期成分と周期成分を別々に生成する新たな音源励起生成ネットワークを提案する。
HiFiGANの高度な対向訓練手順も、元のuSFGANで使用されるパラレルウェーブGANの代わりに採用されている。
主観的および主観的評価の結果から,修正uSFGANは音声制御性を維持しつつ基本uSFGANの音質を著しく向上させることが示された。 This paper introduces a unified source-filter network with a harmonic-plus-noise source excitation generation mechanism. In our previous work, we proposed unified Source-Filter GAN (uSFGAN) for developing a high-fidelity neural vocoder with flexible voice controllability using a unified source-filter neural network architecture. However, the capability of uSFGAN to model the aperiodic source excitation signal is insufficient, and there is still a gap in sound quality between the natural and generated speech. To improve the source excitation modeling and generated sound quality, a new source excitation generation network separately generating periodic and aperiodic components is proposed. The advanced adversarial training procedure of HiFiGAN is also adopted to replace that of Parallel WaveGAN used in the original uSFGAN. Both objective and subjective evaluation results show that the modified uSFGAN significantly improves the sound quality of the basic uSFGAN while maintaining the voice controllability. | 翻訳日:2022-05-13 14:14:52 公開日:2022-05-12 |
# 二元データから経験的因果グラフを推定し多次元貧困分析を支援するフレームワーク Framework for inferring empirical causal graphs from binary data to support multidimensional poverty analysis ( http://arxiv.org/abs/2205.06131v1 ) ライセンス: Link先を確認 | Chainarong Amornbunchornvej, Navaporn Surasvadi, Anon Plangprasopchok, and Suttipong Thajchayapong | (参考訳) 貧困は人類が直面する根本的な問題の1つです
多次元貧困指数(multidimensional poverty index, mpi)は、通貨を超えた人口の貧困問題を測定するための指標である。
しかし、MPIは貧困要因間の関連や因果関係に関する情報を提供できない。
教育は特定の地域で所得格差を引き起こすか?
教育不足は健康問題の原因なのでしょうか?
政策立案者は因果関係を知らないため、特定の人口の貧困問題の根本原因を特定できない。
さらに、MPIはバイナリデータを必要とするため、ほとんどの因果推論フレームワークでは分析できない。
本研究では,バイナリデータ間の信頼区間と因果関係を見出すための探索的データ分析フレームワークを提案する。
提案した枠組みは、貧困の問題がどれほど深刻かだけでなく、貧困要因間の因果関係も提供する。
さらに、因果方向の信頼区間を知ることで、因果関係がどれほど強いかを知ることができる。
シミュレーションデータセットと実世界の2つのデータセットをケーススタディとして、いくつかのベースラインアプローチによる提案フレームワークの評価を行った。
1)アメリカ合衆国の双子の出生:出生体重と双子の死亡との関係
2)タイの人口はチエンマイの378k世帯とコンカエン州の353k世帯から調査された。
私たちのフレームワークはたいていの場合、ベースラインよりもうまく機能しました。
最初のケーススタディでは、双子の死亡例のほとんどすべてが低出生体重の問題を持っているが、低出生体重の双子が全て死亡したわけではない。
第2のケーススタディでは、両州で喫煙と飲酒の関連が明らかとなり、チャンマイ県のみにおいて喫煙が飲酒を引き起こす原因となっている。
この枠組みは貧困の文脈を超えて適用できる。 Poverty is one of the fundamental issues that mankind faces. Multidimensional Poverty Index (MPI) is deployed for measuring poverty issues in a population beyond monetary. However, MPI cannot provide information regarding associations and causal relations among poverty factors. Does education cause income inequality in a specific region? Is lacking education a cause of health issues? By not knowing causal relations, policy maker cannot pinpoint root causes of poverty issues of a specific population, which might not be the same across different population. Additionally, MPI requires binary data, which cannot be analyzed by most of causal inference frameworks. In this work, we proposed an exploratory-data-analysis framework for finding possible causal relations with confidence intervals among binary data. The proposed framework provides not only how severe the issue of poverty is, but it also provides the causal relations among poverty factors. Moreover, knowing a confidence interval of degree of causal direction lets us know how strong a causal relation is. We evaluated the proposed framework with several baseline approaches in simulation datasets as well as using two real-world datasets as case studies 1) Twin births of the United States: the relation between birth weight and mortality of twin, and 2) Thailand population surveys from 378k households of Chiang Mai and 353k households of Khon Kaen provinces. Our framework performed better than baselines in most cases. The first case study reveals almost all mortality cases in twins have issues of low birth weights but not all low-birth-weight twins were died. The second case study reveals that smoking associates with drinking alcohol in both provinces and there is a causal relation of smoking causes drinking alcohol in only Chiang Mai province. The framework can be applied beyond the poverty context. | 翻訳日:2022-05-13 14:14:35 公開日:2022-05-12 |
# (参考訳) FETA: オープンドメイン対話におけるFew-Sampleタスク転送のベンチマーク FETA: A Benchmark for Few-Sample Task Transfer in Open-Domain Dialogue ( http://arxiv.org/abs/2205.06262v1 ) ライセンス: CC BY-SA 4.0 | Alon Albalak, Yi-Lin Tuan, Pegah Jandaghi, Connor Pryor, Luke Yoffe, Deepak Ramachandran, Lise Getoor, Jay Pujara, William Yang Wang | (参考訳) タスク転送は、関連するタスクに含まれる知識を転送し、言語モデルの微調整に必要なラベル付きデータの量を減らすことを約束する。
対話理解は多くの多様なタスクを含んでいるが、タスク転送は会話型AIでは十分に研究されていない。
オープンドメイン対話における少数タスク転送のベンチマークであるfetaを導入することで、会話的タスク転送を探求する。
fetaには10と7のタスクが注釈付けされた2つの会話セットが含まれており、データ内タスク転送の研究を可能にする。
3つの人気のある言語モデルと3つの学習アルゴリズムを用いて、132のソースターゲットタスクペア間の転送可能性を分析し、将来の作業のベースラインを作成する。
例えば、ほとんどのパフォーマンストレンドはモデル固有であり、スパン抽出と複数選択タスクはタスク転送から最も恩恵を受けます。
タスクの転送に加えて、fetaは、データセットとモデルアーキテクチャの事前トレーニングの効率と汎用性、および連続学習やマルチタスク学習のような学習設定に関する将来の研究にとって貴重なリソースとなる。 Task transfer, transferring knowledge contained in related tasks, holds the promise of reducing the quantity of labeled data required to fine-tune language models. Dialogue understanding encompasses many diverse tasks, yet task transfer has not been thoroughly studied in conversational AI. This work explores conversational task transfer by introducing FETA: a benchmark for few-sample task transfer in open-domain dialogue. FETA contains two underlying sets of conversations upon which there are 10 and 7 tasks annotated, enabling the study of intra-dataset task transfer; task transfer without domain adaptation. We utilize three popular language models and three learning algorithms to analyze the transferability between 132 source-target task pairs and create a baseline for future work. We run experiments in the single- and multi-source settings and report valuable findings, e.g., most performance trends are model-specific, and span extraction and multiple-choice tasks benefit the most from task transfer. In addition to task transfer, FETA can be a valuable resource for future research into the efficiency and generalizability of pre-training datasets and model architectures, as well as for learning settings such as continual and multitask learning. | 翻訳日:2022-05-13 14:13:39 公開日:2022-05-12 |
# Open Arabic Named Entity Recognition Toolsの比較 Comparing Open Arabic Named Entity Recognition Tools ( http://arxiv.org/abs/2205.05857v1 ) ライセンス: Link先を確認 | Abdullah Aldumaykhi, Saad Otai, Abdulkareem Alsudais | (参考訳) 本研究の目的は,CAMeL,Hatmi,Stanzaの3つのオープンアラビアNERツールの性能を比較し,評価することである。
我々は、MSAで書かれた30記事からなるコーパスを収集し、記事(文書)レベルにおいて、人物、組織、場所のすべてのエンティティを手動で注釈付けした。
その結果, スタンザとハトミの類似性が示唆され, スタンザとハトミは3つのエンティティタイプで最も高いf1スコアを得た。
しかし、CAMeLは人や組織の名前の精度が最も高かった。
次に,3つのツールから得られた結果を組み合わせた"マージ"手法と,3つのうち2つがエンティティと認識した場合にのみ,名前付きエンティティをタグ付けする"ボイト"手法を実装した。
以上の結果から, 合併はF1スコアの最高値となった。
さらに、合併は最も高いリコール値を持ち、投票は3つのエンティティタイプに対して最も高い精度の値を持っていた。
これは、マージがリコールが望まれるときにより適しており、一方、投票は精度が必要なときに最適であることを示している。
最後に,新型コロナウイルス関連記事21,635件のコーパスを収集し,マージ法と投票法を適用した。
本分析は,この2つの手法の精度とリコールのトレードオフを示す。 The main objective of this paper is to compare and evaluate the performances of three open Arabic NER tools: CAMeL, Hatmi, and Stanza. We collected a corpus consisting of 30 articles written in MSA and manually annotated all the entities of the person, organization, and location types at the article (document) level. Our results suggest a similarity between Stanza and Hatmi with the latter receiving the highest F1 score for the three entity types. However, CAMeL achieved the highest precision values for names of people and organizations. Following this, we implemented a "merge" method that combined the results from the three tools and a "vote" method that tagged named entities only when two of the three identified them as entities. Our results showed that merging achieved the highest overall F1 scores. Moreover, merging had the highest recall values while voting had the highest precision values for the three entity types. This indicates that merging is more suitable when recall is desired, while voting is optimal when precision is required. Finally, we collected a corpus of 21,635 articles related to COVID-19 and applied the merge and vote methods. Our analysis demonstrates the tradeoff between precision and recall for the two methods. | 翻訳日:2022-05-13 13:50:39 公開日:2022-05-12 |
# AdaVAE:言語モデリングのための変分オートエンコーダにおける適応型GPT-2探索 AdaVAE: Exploring Adaptive GPT-2s in Variational Auto-Encoders for Language Modeling ( http://arxiv.org/abs/2205.05862v1 ) ライセンス: Link先を確認 | Haoqin Tu, Zhongliang Yang, Jinshuai Yang, Siyu Zhang, Yongfeng Huang | (参考訳) 変分自動エンコーダ(VAE)は、自然言語の表現学習と生成の両方を達成するためのデファクト学習パラダイムとなっている。
しかし、既存のVAEベースの言語モデルでは、マルチタスクを扱うには強力でない基本RNNを使うか、ダウンストリームタスクに対して2つの事前訓練言語モデル(PLM)を微調整する。
本稿では,適応型GPT-2(AdaVAE)を用いた初のVAEフレームワークを提案する。
上記のシステムと異なり,適応パラメータ効率成分を用いたgpt-2を用いてvaeモデルのエンコーダとデコーダを統一する。
複数次元の実験により、adavaeは生成および表現モデリングにおいて、トレーニング中にアクティベートパラメータを追加して15\%未満でも、より優れた言語体系化が可能であることが検証された。
我々のコードは \url{https://github.com/ImKeTT/adavae} で入手できる。 Variational Auto-Encoder (VAE) has become the de-facto learning paradigm in achieving both representation learning and generation for natural language. However, existing VAE-based language models either employ elementary RNNs, which is not powerful to handle multi-tasks, or fine-tunes two pre-trained language models (PLMs) for any downstream task, which requires huge energy consumption. In this paper, we introduce the first VAE framework empowered with adaptive GPT-2s (AdaVAE). Different from mentioned systems, we unify both the encoder and decoder of VAE model using GPT-2s with adaptive parameter-efficient components. Experiments from multiple dimensions validate that AdaVAE is competent to better organize language in generation and representation modeling, even with less than $15\%$ additionally activated parameters during training. Our code is available at \url{https://github.com/ImKeTT/adavae}. | 翻訳日:2022-05-13 13:50:18 公開日:2022-05-12 |
# ヒンディー語とマラタイ語におけるジェンダーステレオタイプ Mitigating Gender Stereotypes in Hindi and Marathi ( http://arxiv.org/abs/2205.05901v1 ) ライセンス: Link先を確認 | Neeraja Kirtane, Tanvi Anand | (参考訳) 自然言語処理の利用が日々の生活で増加するにつれ、これらのシステム固有のジェンダーバイアスに対処する必要性も増大する。
これは、固有のバイアスが、機械翻訳のようなタスクを実行しながら、これらのシステムの出力のセマンティック構造に干渉するためである。
偏見を定量化し緩和するために英語で研究が行われているが、インド語における偏見の手法は比較的初期段階か欠落している。
ほとんどのIndic言語はジェンダー化されており、各名詞は各言語の文法規則に従って性別が割り当てられる。
その結果、評価は英語で行われているものと異なる。
本稿ではヒンディー語とマラティ語の性ステレオタイプを評価する。
方法が英語のものと異なるのは、ある単語の場合、男性や女性と違いがあるからである。
我々は、エンベディング・コヒーレンス・テスト(ECT)と相対ノルム距離(RND)の助けを借りて、中立的およびジェンダー的な職業語、感情語、偏見を測定するデータセットを作成する。
また、このバイアスを埋め込みから軽減しようともしています。
提案手法は,これらの言語における性バイアスを低減できることを示す。 As the use of natural language processing increases in our day-to-day life, the need to address gender bias inherent in these systems also amplifies. This is because the inherent bias interferes with the semantic structure of the output of these systems while performing tasks like machine translation. While research is being done in English to quantify and mitigate bias, debiasing methods in Indic Languages are either relatively nascent or absent for some Indic languages altogether. Most Indic languages are gendered, i.e., each noun is assigned a gender according to each language's grammar rules. As a consequence, evaluation differs from what is done in English. This paper evaluates the gender stereotypes in Hindi and Marathi languages. The methodologies will differ from the ones in the English language because there are masculine and feminine counterparts in the case of some words. We create a dataset of neutral and gendered occupation words, emotion words and measure bias with the help of Embedding Coherence Test (ECT) and Relative Norm Distance (RND). We also attempt to mitigate this bias from the embeddings. Experiments show that our proposed debiasing techniques reduce gender bias in these languages. | 翻訳日:2022-05-13 13:50:00 公開日:2022-05-12 |
# マルチモーダル単語分類のための計算的獲得モデル A Computational Acquisition Model for Multimodal Word Categorization ( http://arxiv.org/abs/2205.05974v1 ) ライセンス: Link先を確認 | Uri Berger, Gabriel Stanovsky, Omri Abend, Lea Frermann | (参考訳) テキストと画像の自己教師ありモデリングの最近の進歩は、クロスモーダル信号に重きを置き、児童言語獲得の計算モデルに新たな機会を与えている。
しかし、先行研究は、事前に定義された対象カテゴリのセットで注釈付けされた大きな画像データセットで訓練されたビジョンモデルに依存することで制限されている。
これは
(a)子どもが受ける情報に忠実でないこと
b) 事前提案されたカテゴリー構造のため, カテゴリー学習タスクに関するモデルの評価を禁止している。
我々は,このギャップに対処し,クロスモーダル・セルフ・スーパービジョンを用いた自然データに対するイメージ・キャプチャペアから学習した認知的インスパイアされたマルチモーダル獲得モデルを提案する。
本モデルでは,単語のカテゴリとオブジェクト認識能力について学習し,発達文献で報告されたような傾向を示す。
将来の参照と使用のために、コードとトレーニングされたモデルを公開します。 Recent advances in self-supervised modeling of text and images open new opportunities for computational models of child language acquisition, which is believed to rely heavily on cross-modal signals. However, prior studies have been limited by their reliance on vision models trained on large image datasets annotated with a pre-defined set of depicted object categories. This is (a) not faithful to the information children receive and (b) prohibits the evaluation of such models with respect to category learning tasks, due to the pre-imposed category structure. We address this gap, and present a cognitively-inspired, multimodal acquisition model, trained from image-caption pairs on naturalistic data using cross-modal self-supervision. We show that the model learns word categories and object recognition abilities, and presents trends reminiscent of those reported in the developmental literature. We make our code and trained models public for future reference and use. | 翻訳日:2022-05-13 13:49:42 公開日:2022-05-12 |
# IWSLT2022における低エネルギーNMTの領域適応と再配置による形式制御:SLT-CDT-UoS Controlling Formality in Low-Resource NMT with Domain Adaptation and Re-Ranking: SLT-CDT-UoS at IWSLT2022 ( http://arxiv.org/abs/2205.05990v1 ) ライセンス: Link先を確認 | Sebastian T. Vincent, Lo\"ic Barrault, Carolina Scarton | (参考訳) 本稿では,SLT-CDT-UoSグループによる,IWSLT 2022評価キャンペーンの一環として,音声言語翻訳の形式制御に関する第1回特別課題への提出について述べる。
私たちの取り組みは、データエンジニアリングと、最適な仮説選択のための目的関数の変更の2つの面で分割されました。
我々は,提案するコーパスから形式的文対と形式的文対を抽出するのに言語に依存しない手法を用い,ピボット言語として英語を使用し,タスクにおいてゼロショットとして扱われる言語に形式的アノテーションを伝播させた。
英語とドイツ語とスペイン語の試験セットでは、制約された設定では.935、制約のない設定では.995を平均精度で達成した。
英語対ロシア語と英語対イタリア語のゼロショット設定では、制約された設定では平均精度が.590、制約なしでは.659であった。 This paper describes the SLT-CDT-UoS group's submission to the first Special Task on Formality Control for Spoken Language Translation, part of the IWSLT 2022 Evaluation Campaign. Our efforts were split between two fronts: data engineering and altering the objective function for best hypothesis selection. We used language-independent methods to extract formal and informal sentence pairs from the provided corpora; using English as a pivot language, we propagated formality annotations to languages treated as zero-shot in the task; we also further improved formality controlling with a hypothesis re-ranking approach. On the test sets for English-to-German and English-to-Spanish, we achieved an average accuracy of .935 within the constrained setting and .995 within unconstrained setting. In a zero-shot setting for English-to-Russian and English-to-Italian, we scored average accuracy of .590 for constrained setting and .659 for unconstrained. | 翻訳日:2022-05-13 13:49:27 公開日:2022-05-12 |
# ニューラルネットワークモデルにおける抽象的同義関係の計算は人間に似ているか? Is the Computation of Abstract Sameness Relations Human-Like in Neural Language Models? ( http://arxiv.org/abs/2205.06149v1 ) ライセンス: Link先を確認 | Lukas Thoma, Benjamin Roth | (参考訳) 近年、ディープニューラルネットワークモデルは様々なnlpタスクにおいて強力な進歩を遂げている。
本研究では,現在最先端のNLPモデルが人間の認知から知られている基本的なメカニズムを示すかどうかを考察する。
調査は、幼児に対する様々な精神言語学的実験から多くの証拠がある比較的原始的なメカニズムに焦点を当てている。
抽象同性関係」の計算は、人間の言語習得と処理、特により複雑な文法規則の学習において重要な役割を担っていると仮定されている。
BERT や他の事前学習言語モデル (PLM) において, このメカニズムを解明するために, 幼児実験による実験設計を出発点とした。
そこで,本研究では,各要素を言語モデルの構成要素にマッピングする実験的な構成法を考案した。
本研究の課題は比較的単純であるが, 幼児における抽象的同性関係の認知能力は, 調査対象のPLMよりも強いことが示唆された。 In recent years, deep neural language models have made strong progress in various NLP tasks. This work explores one facet of the question whether state-of-the-art NLP models exhibit elementary mechanisms known from human cognition. The exploration is focused on a relatively primitive mechanism for which there is a lot of evidence from various psycholinguistic experiments with infants. The computation of "abstract sameness relations" is assumed to play an important role in human language acquisition and processing, especially in learning more complex grammar rules. In order to investigate this mechanism in BERT and other pre-trained language models (PLMs), the experiment designs from studies with infants were taken as the starting point. On this basis, we designed experimental settings in which each element from the original studies was mapped to a component of language models. Even though the task in our experiments was relatively simple, the results suggest that the cognitive faculty of computing abstract sameness relations is stronger in infants than in all investigated PLMs. | 翻訳日:2022-05-13 13:48:02 公開日:2022-05-12 |
# TreeMix: 自然言語理解のための構成成分に基づくデータ拡張 TreeMix: Compositional Constituency-based Data Augmentation for Natural Language Understanding ( http://arxiv.org/abs/2205.06153v1 ) ライセンス: Link先を確認 | Le Zhang, Zichao Yang, Diyi Yang | (参考訳) データ拡張は、過剰な適合に取り組むための効果的なアプローチです。
従来の多くの研究は、ノイズ注入、単語置換、バックトランスレーションなど、NLPのための異なるデータ拡張戦略を提案してきた。
効果はあるものの、言語構成性の1つの重要な特徴を見逃し、複雑な表現の意味は、その部分から作られる。
そこで本研究では,自然言語理解のための合成データ拡張手法であるTreeMixを提案する。
具体的には、TreeMixは、選択構文解析木を利用して、文章を構成サブ構造に分解し、ミックスアップデータ拡張技術を使って、それらを再結合して新しい文を生成する。
従来のアプローチと比較して、TreeMixは生成されたサンプルにより多様性を導入し、NLPデータの合成性を学ぶようモデルに促している。
テキスト分類とSCANに関する大規模な実験は、TreeMixが現在の最先端データ拡張手法より優れていることを示した。 Data augmentation is an effective approach to tackle over-fitting. Many previous works have proposed different data augmentations strategies for NLP, such as noise injection, word replacement, back-translation etc. Though effective, they missed one important characteristic of language--compositionality, meaning of a complex expression is built from its sub-parts. Motivated by this, we propose a compositional data augmentation approach for natural language understanding called TreeMix. Specifically, TreeMix leverages constituency parsing tree to decompose sentences into constituent sub-structures and the Mixup data augmentation technique to recombine them to generate new sentences. Compared with previous approaches, TreeMix introduces greater diversity to the samples generated and encourages models to learn compositionality of NLP data. Extensive experiments on text classification and SCAN demonstrate that TreeMix outperforms current state-of-the-art data augmentation methods. | 翻訳日:2022-05-13 13:47:45 公開日:2022-05-12 |
# モジュール変換器の事前学習による多言語性曲線の解離 Lifting the Curse of Multilinguality by Pre-training Modular Transformers ( http://arxiv.org/abs/2205.06266v1 ) ライセンス: Link先を確認 | Jonas Pfeiffer, Naman Goyal, Xi Victoria Lin, Xian Li, James Cross, Sebastian Riedel, Mikel Artetxe | (参考訳) 多言語事前学習モデルは多言語間のパフォーマンスを低下させる多言語性の呪いに苦しむことが知られている。
言語固有のモジュールを導入することでこの問題に対処し、言語定数当たりのトレーニング可能なパラメータの総数を保ちながら、モデルの総容量を拡大できる。
言語固有のコンポーネントをポストホックで学習する以前の作業とは対照的に、私たちは最初から言語間モジュール(X-Mod)モデルのモジュールを事前訓練しています。
自然言語推論,名前付きエンティティ認識,質問応答実験により,言語間の負の干渉を緩和するだけでなく,肯定的な伝達が可能となり,モノリンガルとクロスランガルのパフォーマンスが向上することが示された。
さらに,本手法では,事前学習された言語群にモデルの使用を制限せず,性能の計測可能な低下を伴わない言語の追加が可能となった。 Multilingual pre-trained models are known to suffer from the curse of multilinguality, which causes per-language performance to drop as they cover more languages. We address this issue by introducing language-specific modules, which allows us to grow the total capacity of the model, while keeping the total number of trainable parameters per language constant. In contrast with prior work that learns language-specific components post-hoc, we pre-train the modules of our Cross-lingual Modular (X-Mod) models from the start. Our experiments on natural language inference, named entity recognition and question answering show that our approach not only mitigates the negative interference between languages, but also enables positive transfer, resulting in improved monolingual and cross-lingual performance. Furthermore, our approach enables adding languages post-hoc with no measurable drop in performance, no longer limiting the model usage to the set of pre-trained languages. | 翻訳日:2022-05-13 13:47:29 公開日:2022-05-12 |
# ヒューリスティック検索としての汎用計画計算プログラム Computing Programs for Generalized Planning as Heuristic Search ( http://arxiv.org/abs/2205.06259v1 ) ライセンス: Link先を確認 | Javier Segovia-Aguas, Sergio Jim\'enez, Anders Jonsson | (参考訳) ヒューリスティック探索は古典計画における最も成功した手法の1つであるが、この計画パラダイムは一般化計画(GP)に直接適用されない。
本稿では,計画をヒューリスティック探索パラダイムとしてgpの特異性に適用し,gpに対する最初のネイティブヒューリスティック探索手法を提案する。
まず、GP問題における計画インスタンスの数と、これらのインスタンスのサイズに依存しないGPのためのプログラムベースのソリューション空間を定義する。
第2に,プログラムベースの解空間において最優先探索を実装し,異なる評価とヒューリスティック関数によって導かれるgpのbfgpアルゴリズムを定義する。 Although heuristic search is one of the most successful approaches to classical planning, this planning paradigm does not apply straightforwardly to Generalized Planning (GP). This paper adapts the planning as heuristic search paradigm to the particularities of GP, and presents the first native heuristic search approach to GP. First, the paper defines a program-based solution space for GP that is independent of the number of planning instances in a GP problem, and the size of these instances. Second, the paper defines the BFGP algorithm for GP, that implements a best-first search in our program-based solution space, and that is guided by different evaluation and heuristic functions. | 翻訳日:2022-05-13 13:45:04 公開日:2022-05-12 |
# sculpted neural pointsを用いたビュー合成 View Synthesis with Sculpted Neural Points ( http://arxiv.org/abs/2205.05869v1 ) ライセンス: Link先を確認 | Yiming Zuo, Jia Deng | (参考訳) 既存の画像群から新しいビューをレンダリングするレンダリング関数を復元する、というように、ビュー合成のタスクに対処します。
NeRFのような最近の多くの作品において、このレンダリング関数はシーン幾何学の暗黙的な神経表現を用いてパラメータ化されている。
暗黙的な神経表現は印象的な視覚品質を達成しているが、計算効率の欠点がある。
本研究では,ポイントクラウドを用いたビュー合成を行う新しい手法を提案する。
レンダリング速度を100倍以上速くしながら、NeRFよりも視覚的品質を向上する最初のポイントベース手法である。
提案手法は,分割可能な点ベースレンダリングに関する既存の研究に基づいているが,我々はSNP(Sculpted Neural Points)と呼ぶ新しい手法を導入し,再構成された点群におけるエラーやホールに対する堅牢性を大幅に向上させる。
実験により,ビュー合成の課題において,我々の彫刻技術はポイントベースと暗黙の表現ベースメソッドのギャップを埋めることを示した。
コードはhttps://github.com/princeton-vl/SNPで、補足ビデオはhttps://youtu.be/dBwCQP9uNwsで入手できる。 We address the task of view synthesis, which can be posed as recovering a rendering function that renders new views from a set of existing images. In many recent works such as NeRF, this rendering function is parameterized using implicit neural representations of scene geometry. Implicit neural representations have achieved impressive visual quality but have drawbacks in computational efficiency. In this work, we propose a new approach that performs view synthesis using point clouds. It is the first point-based method to achieve better visual quality than NeRF while being more than 100x faster in rendering speed. Our approach builds on existing works on differentiable point-based rendering but introduces a novel technique we call "Sculpted Neural Points (SNP)", which significantly improves the robustness to errors and holes in the reconstructed point cloud. Experiments show that on the task of view synthesis, our sculpting technique closes the gap between point-based and implicit representation-based methods. Code is available at https://github.com/princeton-vl/SNP and supplementary video at https://youtu.be/dBwCQP9uNws. | 翻訳日:2022-05-13 13:44:52 公開日:2022-05-12 |
# 音声ナレーションによる弱教師付き行動検出 Weakly-Supervised Action Detection Guided by Audio Narration ( http://arxiv.org/abs/2205.05895v1 ) ライセンス: Link先を確認 | Keren Ye and Adriana Kovashka | (参考訳) ビデオは画像よりも視覚概念学習のための、よりよく整理されたデータソースである。
空間情報のみを含む2次元画像とは異なり、追加の時間次元ブリッジは複数のモードを同期する。
しかし、ほとんどのビデオ検出ベンチマークでは、これらの追加のモダリティは十分に活用されていない。
例えば、EPIC Kitchensは、ファーストパーソン(エゴセントリックな)ビジョンにおける最大のデータセットであるが、それでもアクション境界を洗練してインスタンスレベルのアクションアノテーションを提供するために、クラウドソースされた情報に依存している。
我々は,洗練された境界を提供する映像検出データの高価なアノテーションを排除する方法について検討した。
本稿では,ナレーション監督から学び,rgb,モーションフロー,環境音といったマルチモーダル特徴を活用できるモデルを提案する。
本モデルは,無関係なフレームの使用を抑えつつ,ナレーションラベルに関連するフレームへの参加を学習する。
実験の結果,ノイズの多い音声ナレーションは優れた行動検出モデルを学ぶのに十分であることがわかった。 Videos are more well-organized curated data sources for visual concept learning than images. Unlike the 2-dimensional images which only involve the spatial information, the additional temporal dimension bridges and synchronizes multiple modalities. However, in most video detection benchmarks, these additional modalities are not fully utilized. For example, EPIC Kitchens is the largest dataset in first-person (egocentric) vision, yet it still relies on crowdsourced information to refine the action boundaries to provide instance-level action annotations. We explored how to eliminate the expensive annotations in video detection data which provide refined boundaries. We propose a model to learn from the narration supervision and utilize multimodal features, including RGB, motion flow, and ambient sound. Our model learns to attend to the frames related to the narration label while suppressing the irrelevant frames from being used. Our experiments show that noisy audio narration suffices to learn a good action detection model, thus reducing annotation expenses. | 翻訳日:2022-05-13 13:44:35 公開日:2022-05-12 |
# マルチモーダルデータを用いた転倒検出 Fall detection using multimodal data ( http://arxiv.org/abs/2205.05918v1 ) ライセンス: Link先を確認 | Thao V. Ha, Hoang Nguyen, Son T. Huynh, Trung T. Nguyen, Binh T. Nguyen | (参考訳) 近年,転倒の発生が増加し,高齢者に有害な影響を及ぼしている。
そこで,社会的コミュニティのための効率的な転倒検出アルゴリズムを構築するために,機械学習のアプローチやデータセットが導入された。
本稿では,大規模な公開データセット,すなわちUP-Fall Detection Datasetに基づく転倒検出問題について検討する。
このデータセットは、異なるセンサーと2台のカメラを使用して、12人のボランティアから収集された。
本稿では,これらのセンサやカメラから重要な特徴を抽出し,主要な問題に対する適切なモデルを構築する手法を提案する。
実験の結果,提案手法は,精度,精度,リコール,f1スコアの点で,このデータセットの最先端手法をバイパスできることがわかった。 In recent years, the occurrence of falls has increased and has had detrimental effects on older adults. Therefore, various machine learning approaches and datasets have been introduced to construct an efficient fall detection algorithm for the social community. This paper studies the fall detection problem based on a large public dataset, namely the UP-Fall Detection Dataset. This dataset was collected from a dozen of volunteers using different sensors and two cameras. We propose several techniques to obtain valuable features from these sensors and cameras and then construct suitable models for the main problem. The experimental results show that our proposed methods can bypass the state-of-the-art methods on this dataset in terms of accuracy, precision, recall, and F1 score. | 翻訳日:2022-05-13 13:44:21 公開日:2022-05-12 |
# 点を用いた弱半教師付き物体検出のためのグループR-CNN Group R-CNN for Weakly Semi-supervised Object Detection with Points ( http://arxiv.org/abs/2205.05920v1 ) ライセンス: Link先を確認 | Shilong Zhang, Zhuoran Yu, Liyang Liu, Xinjiang Wang, Aojun Zhou and Kai Chen | (参考訳) 本稿では,各インスタンスに1点のアノテートしか持たない弱ラベル画像と,境界ボックス付き完全アノテート画像の小さなセットと,弱ラベル画像の大きなセットとでトレーニングデータを結合する,ポイント付き弱半教師対象検出(WSSOD-P)の問題について検討する。
このタスクの中核は、各ポイントアノテーションの信頼できるバウンディングボックスを予測するために使用できる、よくラベルされたイメージ上に、ポイントツーボックスのレグレッシャをトレーニングすることである。
我々は、既存のCNNベースの検出器がこのタスクと互換性がないという以前の信念に挑戦する。
従来のR-CNNアーキテクチャをベースとして,実効的なR-CNN(Group R-CNN)を提案する。
グループR-CNNはまずインスタンスレベルの提案グループを使用して各ポイントアノテーションに対する提案のグループを生成し、高いリコール率を得ることができる。
異なるインスタンスを識別し、精度を向上させるために、元のR-CNN方式で採用されているバニラ代入戦略を置き換えるために、インスタンスレベルの提案代入を提案する。
そこで本研究では,この問題を克服するために,インスタンス認識機能拡張とインスタンス認識パラメータ生成からなるインスタンス認識表現学習を提案する。
MS-COCOベンチマークの総合的な実験により,本手法の有効性が示された。
特に、グループR-CNNは、PポイントDETRを3.9mAP、5%の良好なラベル付き画像で大幅に上回り、最も難しいシナリオである。
ソースコードはhttps://github.com/jshilong/GroupRCNNで確認できる。 We study the problem of weakly semi-supervised object detection with points (WSSOD-P), where the training data is combined by a small set of fully annotated images with bounding boxes and a large set of weakly-labeled images with only a single point annotated for each instance. The core of this task is to train a point-to-box regressor on well-labeled images that can be used to predict credible bounding boxes for each point annotation. We challenge the prior belief that existing CNN-based detectors are not compatible with this task. Based on the classic R-CNN architecture, we propose an effective point-to-box regressor: Group R-CNN. Group R-CNN first uses instance-level proposal grouping to generate a group of proposals for each point annotation and thus can obtain a high recall rate. To better distinguish different instances and improve precision, we propose instance-level proposal assignment to replace the vanilla assignment strategy adopted in the original R-CNN methods. As naive instance-level assignment brings converging difficulty, we propose instance-aware representation learning which consists of instance-aware feature enhancement and instance-aware parameter generation to overcome this issue. Comprehensive experiments on the MS-COCO benchmark demonstrate the effectiveness of our method. Specifically, Group R-CNN significantly outperforms the prior method Point DETR by 3.9 mAP with 5% well-labeled images, which is the most challenging scenario. The source code can be found at https://github.com/jshilong/GroupRCNN | 翻訳日:2022-05-13 13:44:11 公開日:2022-05-12 |
# リモートセンシング画像における小物体検出用シングルショット検出器の強化 Enhanced Single-shot Detector for Small Object Detection in Remote Sensing Images ( http://arxiv.org/abs/2205.05927v1 ) ライセンス: Link先を確認 | Pourya Shamsolmoali, Masoumeh Zareapoor, Eric Granger, Jocelyn Chanussot, Jie Yang | (参考訳) 小物体検出は難しい問題である。
ここ数年、畳み込みニューラルネットワークの手法は大きな進歩を遂げてきた。
しかし、現在の検出器は、小型物体の効果的な特徴抽出に苦慮している。
この課題に対処するため,画像ピラミッド単発検出器 (IPSSD) を提案する。
IPSSDでは、画像ピラミッドネットワークと組み合わせて、候補領域を生成するための意味的に強い特徴を抽出する。
提案するネットワークは,特徴ピラミッドネットワークから小規模な特徴を拡張できる。
提案モデルの性能を2つの公開データセットで評価し,他の最先端物体検出器と比較して優れた性能を示した。 Small-object detection is a challenging problem. In the last few years, the convolution neural networks methods have been achieved considerable progress. However, the current detectors struggle with effective features extraction for small-scale objects. To address this challenge, we propose image pyramid single-shot detector (IPSSD). In IPSSD, single-shot detector is adopted combined with an image pyramid network to extract semantically strong features for generating candidate regions. The proposed network can enhance the small-scale features from a feature pyramid network. We evaluated the performance of the proposed model on two public datasets and the results show the superior performance of our model compared to the other state-of-the-art object detectors. | 翻訳日:2022-05-13 13:41:52 公開日:2022-05-12 |
# 効率的な知識伝達のためのネットワークアーキテクチャ探索と圧縮 Target Aware Network Architecture Search and Compression for Efficient Knowledge Transfer ( http://arxiv.org/abs/2205.05967v1 ) ライセンス: Link先を確認 | S.H.Shabbeer Basha, Debapriya Tula, Sravan Kumar Vinakota, Shiv Ram Dubey | (参考訳) Transfer Learningは、畳み込みニューラルネットワーク(CNN)がソースドメインから知識を取得し、ターゲットドメインに転送することを可能にする。
従来、あるタスクから学んだ知識を別のタスクに転送する際、トレーニング済みのCNNの深い層はターゲットデータセット上で微調整される。
しかし、もともとソースタスク用に設計されたこれらのレイヤは、ターゲットタスクのために過剰にパラメータ化されます。
したがって、これらの層をターゲットデータセット上で微調整することで、ネットワークの複雑さが高いため、CNNの一般化能力が低下する。
そこで本研究では,効率的な知識伝達を実現する2段階フレームワーク tascnet を提案する。
最初の段階では、より深いレイヤの設定が自動的に学習され、ターゲットデータセット上で微調整される。
その後、第2段階では、冗長フィルタを微調整CNNから切断し、性能を保ちながら、目標タスクに対するネットワークの複雑さを低減する。
この2段階のメカニズムは、仮説空間から最適な構造(畳み込み層におけるフィルタの数、密度層におけるニューロンの数など)を持つ、事前訓練されたcnnのコンパクトバージョンを見つける。
提案手法の有効性を,CalTech-101,CalTech-256,Stanford Dogsのデータセット上でVGG-16,ResNet-50,DenseNet-121を用いて評価した。
提案したTASCNetは、学習可能なパラメータと資源効率の高い知識伝達を可能にするFLOPの両方を削減し、目標タスク上の事前学習CNNの計算複雑性を低減する。 Transfer Learning enables Convolutional Neural Networks (CNN) to acquire knowledge from a source domain and transfer it to a target domain, where collecting large-scale annotated examples is both time-consuming and expensive. Conventionally, while transferring the knowledge learned from one task to another task, the deeper layers of a pre-trained CNN are finetuned over the target dataset. However, these layers that are originally designed for the source task are over-parameterized for the target task. Thus, finetuning these layers over the target dataset reduces the generalization ability of the CNN due to high network complexity. To tackle this problem, we propose a two-stage framework called TASCNet which enables efficient knowledge transfer. In the first stage, the configuration of the deeper layers is learned automatically and finetuned over the target dataset. Later, in the second stage, the redundant filters are pruned from the fine-tuned CNN to decrease the network's complexity for the target task while preserving the performance. This two-stage mechanism finds a compact version of the pre-trained CNN with optimal structure (number of filters in a convolutional layer, number of neurons in a dense layer, and so on) from the hypothesis space. The efficacy of the proposed method is evaluated using VGG-16, ResNet-50, and DenseNet-121 on CalTech-101, CalTech-256, and Stanford Dogs datasets. The proposed TASCNet reduces the computational complexity of pre-trained CNNs over the target task by reducing both trainable parameters and FLOPs which enables resource-efficient knowledge transfer. | 翻訳日:2022-05-13 13:41:43 公開日:2022-05-12 |
# MPPNet:3次元時間物体検出のためのプロキシポイント付きマルチフレーム機能連携 MPPNet: Multi-Frame Feature Intertwining with Proxy Points for 3D Temporal Object Detection ( http://arxiv.org/abs/2205.05979v1 ) ライセンス: Link先を確認 | Xuesong Chen, Shaoshuai Shi, Benjin Zhu, Ka Chun Cheung, Hang Xu and Hongsheng Li | (参考訳) 正確な3D検出は、自動運転車やサービスロボットを含む多くのアプリケーションにとって不可欠である。
本稿では,点雲列を用いた3次元時空間物体検出のためのフレキシブルかつ高性能な3d検出フレームワークmppnetを提案する。
マルチフレーム特徴符号化のためのプロキシポイントと,より優れた検出を実現するためのインタラクションを備えた,新しい3階層フレームワークを提案する。
3つの階層はそれぞれフレーム毎の機能エンコーディング、ショートクリップ機能融合、全シーケンス機能アグリゲーションを行う。
適度な計算資源でロングシーケンス・ポイント・クラウドを処理できるようにするため、グループ内特徴混合とグループ間特徴注意が提案され、複数フレームの軌道特徴の集約に再帰的に適用される第2および第3の特徴符号化階層を形成する。
プロキシポイントは、各フレームの一貫性のあるオブジェクト表現として振る舞うだけでなく、フレーム間のフィーチャの相互作用を促進するクーリエとしても機能する。
largewaymo open datasetにおける実験は、短い(例えば4フレーム)と長い(例えば16フレーム)の雲列の両方に適用した場合、我々のアプローチが最先端の手法を大きなマージンで上回っていることを示している。
具体的には、MPPNetはLEVEL 2 mAPHメートル法で車、歩行者、自転車の計74.21%、74.62%、73.31%を達成した。 Accurate and reliable 3D detection is vital for many applications including autonomous driving vehicles and service robots. In this paper, we present a flexible and high-performance 3D detection framework, named MPPNet, for 3D temporal object detection with point cloud sequences. We propose a novel three-hierarchy framework with proxy points for multi-frame feature encoding and interactions to achieve better detection. The three hierarchies conduct per-frame feature encoding, short-clip feature fusion, and whole-sequence feature aggregation, respectively. To enable processing long-sequence point clouds with reasonable computational resources, intra-group feature mixing and inter-group feature attention are proposed to form the second and third feature encoding hierarchies, which are recurrently applied for aggregating multi-frame trajectory features. The proxy points not only act as consistent object representations for each frame, but also serve as the courier to facilitate feature interaction between frames. The experiments on largeWaymo Open dataset show that our approach outperforms state-of-the-art methods with large margins when applied to both short (e.g., 4-frame) and long (e.g., 16-frame) point cloud sequences. Specifically, MPPNet achieves 74.21%, 74.62% and 73.31% for vehicle, pedestrian and cyclist classes on the LEVEL 2 mAPH metric with 16-frame input. | 翻訳日:2022-05-13 13:41:15 公開日:2022-05-12 |
# スタイルGAN潜時空間におけるテンソルに基づく感情編集 Tensor-based Emotion Editing in the StyleGAN Latent Space ( http://arxiv.org/abs/2205.06102v1 ) ライセンス: Link先を確認 | Ren\'e Haas, Stella Gra{\ss}hof, and Sami S. Brandt | (参考訳) 本稿では,高次特異値分解(HOSVD)に基づくテンソルモデルを用いて,生成逆数ネットワークにおける意味的方向を検出する。
これは、最初にe4eエンコーダを使用して構造化された表情データベースを潜在空間に埋め込むことによって達成される。
具体的には,怒り,嫌悪感,恐怖,幸福,悲しみ,驚きの6つの感情に対応する潜伏空間の方向と,ヨー回転の方向を見出す。
これらの潜在空間方向は、実顔画像の表現やヨー回転を変えるために用いられる。
得られた方向を、他の2つの方法による類似の方向と比較する。
その結果,結果の視覚的品質はState-of-the-Artと同等であった。
また、テンソルに基づくモデルは、感情やヨー編集に適しており、新しい顔画像の感情やヨー回転は、画像のアイデンティティや他の属性に大きな影響を与えることなく、頑健に変化することができると結論付けることもできる。 In this paper, we use a tensor model based on the Higher-Order Singular Value Decomposition (HOSVD) to discover semantic directions in Generative Adversarial Networks. This is achieved by first embedding a structured facial expression database into the latent space using the e4e encoder. Specifically, we discover directions in latent space corresponding to the six prototypical emotions: anger, disgust, fear, happiness, sadness, and surprise, as well as a direction for yaw rotation. These latent space directions are employed to change the expression or yaw rotation of real face images. We compare our found directions to similar directions found by two other methods. The results show that the visual quality of the resultant edits are on par with State-of-the-Art. It can also be concluded that the tensor-based model is well suited for emotion and yaw editing, i.e., that the emotion or yaw rotation of a novel face image can be robustly changed without a significant effect on identity or other attributes in the images. | 翻訳日:2022-05-13 13:40:50 公開日:2022-05-12 |
# 適応視覚モード選択を用いた高効率深部視覚・慣性オドメトリ Efficient Deep Visual and Inertial Odometry with Adaptive Visual Modality Selection ( http://arxiv.org/abs/2205.06187v1 ) ライセンス: Link先を確認 | Mingyu Yang, Yu Chen, Hun-Seok Kim | (参考訳) 近年,視覚慣性計測(VIO)の深層学習によるアプローチは,従来の幾何学的手法よりも優れた性能を示している。
しかし、既存のすべての手法は、潜在的な計算冗長性をもたらす全てのポーズ推定に視覚的および慣性の測定の両方を用いる。
視覚データ処理は慣性測定ユニット(IMU)よりもはるかに高価であるが、必ずしもポーズ推定精度の向上に寄与するとは限らない。
本稿では,視覚モダリティを日和見的に解消することで計算冗長性を低減できる適応型深層学習型vio法を提案する。
具体的には、現在の動作状態とIMU読解に基づいて、視覚的特徴抽出器をオンザフライで不活性化させる政策ネットワークを訓練する。
Gumbel-Softmax のトリックを用いてポリシーネットワークをトレーニングし、エンドツーエンドのシステムトレーニングで決定プロセスを差別化できるようにする。
学習戦略は解釈可能であり、適応的な複雑性低減のためのシナリオ依存の意思決定パターンを示す。
実験の結果,本手法はkittiデータセットの計算複雑性を最大78.8%削減できるフルモダリティベースラインと同等あるいはそれ以上の性能が得られることがわかった。
私たちのコードはhttps://github.com/mingyuyng/Visual-Selective-VIOで共有されます。 In recent years, deep learning-based approaches for visual-inertial odometry (VIO) have shown remarkable performance outperforming traditional geometric methods. Yet, all existing methods use both the visual and inertial measurements for every pose estimation incurring potential computational redundancy. While visual data processing is much more expensive than that for the inertial measurement unit (IMU), it may not always contribute to improving the pose estimation accuracy. In this paper, we propose an adaptive deep-learning based VIO method that reduces computational redundancy by opportunistically disabling the visual modality. Specifically, we train a policy network that learns to deactivate the visual feature extractor on the fly based on the current motion state and IMU readings. A Gumbel-Softmax trick is adopted to train the policy network to make the decision process differentiable for end-to-end system training. The learned strategy is interpretable, and it shows scenario-dependent decision patterns for adaptive complexity reduction. Experiment results show that our method achieves a similar or even better performance than the full-modality baseline with up to 78.8% computational complexity reduction for KITTI dataset evaluation. Our code will be shared in https://github.com/mingyuyng/Visual-Selective-VIO | 翻訳日:2022-05-13 13:40:31 公開日:2022-05-12 |
# 視覚トランスフォーマーを用いた簡易オープンボキャブラリー物体検出 Simple Open-Vocabulary Object Detection with Vision Transformers ( http://arxiv.org/abs/2205.06230v1 ) ライセンス: Link先を確認 | Matthias Minderer, Alexey Gritsenko, Austin Stone, Maxim Neumann, Dirk Weissenborn, Alexey Dosovitskiy, Aravindh Mahendran, Anurag Arnab, Mostafa Dehghani, Zhuoran Shen, Xiao Wang, Xiaohua Zhai, Thomas Kipf, Neil Houlsby | (参考訳) 単純なアーキテクチャと大規模な事前学習を組み合わせることで、画像分類が大幅に改善された。
オブジェクト検出では、事前トレーニングとスケーリングのアプローチは、特にトレーニングデータが比較的少ない長い尾とオープンな語彙設定では、あまり確立されていない。
本稿では,画像テキストモデルをオープン語彙オブジェクト検出に転送するための強力なレシピを提案する。
我々は、最小限の修正、コントラスト的な画像テキスト事前学習、エンドツーエンド検出細調整を備えた標準のVision Transformerアーキテクチャを使用する。
その結果,画像レベルの事前学習とモデルサイズの増加により,下流検出タスクにおいて一貫した改善が得られた。
我々は,ゼロショットテキストコンディショニングおよびワンショット画像コンディショニングオブジェクト検出において,非常に強力な性能を達成するために必要な適応戦略と規則化を提供する。
コードとモデルはgithubで入手できる。 Combining simple architectures with large-scale pre-training has led to massive improvements in image classification. For object detection, pre-training and scaling approaches are less well established, especially in the long-tailed and open-vocabulary setting, where training data is relatively scarce. In this paper, we propose a strong recipe for transferring image-text models to open-vocabulary object detection. We use a standard Vision Transformer architecture with minimal modifications, contrastive image-text pre-training, and end-to-end detection fine-tuning. Our analysis of the scaling properties of this setup shows that increasing image-level pre-training and model size yield consistent improvements on the downstream detection task. We provide the adaptation strategies and regularizations needed to attain very strong performance on zero-shot text-conditioned and one-shot image-conditioned object detection. Code and models are available on GitHub. | 翻訳日:2022-05-13 13:40:11 公開日:2022-05-12 |
# (参考訳) ELODI:Positive-Congruent Trainingのためのロジット差分抑制 ELODI: Ensemble Logit Difference Inhibition for Positive-Congruent Training ( http://arxiv.org/abs/2205.06265v1 ) ライセンス: CC BY 4.0 | Yue Zhao, Yantao Shen, Yuanjun Xiong, Shuo Yang, Wei Xia, Zhuowen Tu, Bernt Shiele, Stefano Soatto | (参考訳) 負のフリップは、レガシーモデルを新しいものに置き換えた場合に、分類システムで発生するエラーである。
正フリップ率(NFR)を下げる既存の方法は、モデル蒸留による全体的な精度を犠牲にするか、推論コストを禁ずるアンサンブルを使用するかのいずれかである。
本稿では,単一モデルの推論コストにおいて,誤り率とNFRの両方でパラゴン性能を実現する分類システムを訓練する方法を提案する。
本研究では, 一般蒸留目的であるロジット差抑制法(ldi)を導入し, 通常の蒸留法と一致させることなく, 新旧モデル間のロジットの変化をペナライズする。
LDIは、NFRとともにエラー率を減らすためのモデル柔軟性を提供する。
この方法はLDIの参照モデルとして同質アンサンブルを使用するため、Ensemble LDI(ELODI)と呼ばれる。
参照モデルは、推論時に単一のモデルに置換することができる。
この手法では、負のフリップは一般に決定境界に近づかないが、エローディによって減少するロジット間の距離の偏差が大きいという観測を活用している。 Negative flips are errors introduced in a classification system when a legacy model is replaced with a new one. Existing methods to reduce the negative flip rate (NFR) either do so at the expense of overall accuracy using model distillation, or use ensembles, which multiply inference cost prohibitively. We present a method to train a classification system that achieves paragon performance in both error rate and NFR, at the inference cost of a single model. Our method introduces a generalized distillation objective, Logit Difference Inhibition (LDI), that penalizes changes in the logits between the new and old model, without forcing them to coincide as in ordinary distillation. LDI affords the model flexibility to reduce error rate along with NFR. The method uses a homogeneous ensemble as the reference model for LDI, hence the name Ensemble LDI, or ELODI. The reference model can then be substituted with a single model at inference time. The method leverages the observation that negative flips are typically not close to the decision boundary, but often exhibit large deviations in the distance among their logits, which are reduced by ELODI. | 翻訳日:2022-05-13 13:37:53 公開日:2022-05-12 |
# 強化学習のための特徴学習のための国家の逐次的性質の会計 Accounting for the Sequential Nature of States to Learn Features for Reinforcement Learning ( http://arxiv.org/abs/2205.06000v1 ) ライセンス: Link先を確認 | Nathan Michlo, Devon Jarvis, Richard Klein, Steven James | (参考訳) 本研究では,一般的な表現学習アプローチが失敗するデータの性質について検討する。
特に、状態が著しく重複しない環境では、変分オートエンコーダ(vaes)は有用な機能を学ぶことができない。
この失敗を単純なグリッドワールドドメインで実証し、その後、メトリック学習という形でソリューションを提供する。
しかし、メートル法学習は強化学習に欠けている距離関数の形での監督を必要とする。
これを克服するために,リプレイバッファ内の状態の逐次的性質を利用して距離メトリックを近似し,時間的近接状態も意味的に類似しているという仮定の下で,弱い監督信号を与える。
VAEをトリプルトロスで修正し、標準的なVAEが失敗する環境では、追加の監督なしに、下流タスクの有用な機能を学習できることを実証する。 In this work, we investigate the properties of data that cause popular representation learning approaches to fail. In particular, we find that in environments where states do not significantly overlap, variational autoencoders (VAEs) fail to learn useful features. We demonstrate this failure in a simple gridworld domain, and then provide a solution in the form of metric learning. However, metric learning requires supervision in the form of a distance function, which is absent in reinforcement learning. To overcome this, we leverage the sequential nature of states in a replay buffer to approximate a distance metric and provide a weak supervision signal, under the assumption that temporally close states are also semantically similar. We modify a VAE with triplet loss and demonstrate that this approach is able to learn useful features for downstream tasks, without additional supervision, in environments where standard VAEs fail. | 翻訳日:2022-05-13 13:09:52 公開日:2022-05-12 |
# 物体表現学習のための身体視 Embodied vision for learning object representations ( http://arxiv.org/abs/2205.06198v1 ) ライセンス: Link先を確認 | Arthur Aubret, C\'eline Teuli\`ere and Jochen Triesch | (参考訳) 最近の時間コントラスト学習アプローチは、監督なしで不変オブジェクト表現を学習する。
これはオブジェクトの連続したビューをクローズバイ内部表現にマッピングすることで達成される。
この学習アプローチを人間の物体認識発達のモデルとして考える場合、幼児が物体と相互作用しながら観察する視覚入力を考慮しておくことが重要である。
第一に、人間の視覚は高度に発達しており、高解像度は視野の中心領域でのみ利用可能である。
第二に、幼児の視野の深さが限られているため、ぼやけた背景に物体が見えることがある。
第三に、オブジェクト操作の間、幼児は、かなり短い腕のため、視野の大部分を占める近接物体をほとんど観察する。
本稿では,これらの効果が時間差学習を通して学習した視覚表現の質に与える影響について検討する。
この目的のために、私たちは視覚的に具現化されたエージェントを、近距離のフォトリアリスティックフラットの異なる場所のオブジェクトと“プレイ”させました。
各プレイセッションでエージェントは、別のオブジェクトを見るためにボディを回す前に、複数の方向でオブジェクトを見る。
結果として得られるビューのシーケンスは、タイムコントラスト学習アルゴリズムを提供する。
その結果,幼児を模倣した視覚統計では,慣れ親しんだ環境と新しい環境での物体認識精度が向上した。
この効果は、背景から抽出した特徴の減少、画像中の大きな特徴に対するニューラルネットワークバイアス、新奇な背景領域と慣れ親しんだ背景領域とのより類似性によって生じる。
視覚学習の具体的性質は、人間の物体知覚の発達を理解する上で重要であると結論づける。 Recent time-contrastive learning approaches manage to learn invariant object representations without supervision. This is achieved by mapping successive views of an object onto close-by internal representations. When considering this learning approach as a model of the development of human object recognition, it is important to consider what visual input a toddler would typically observe while interacting with objects. First, human vision is highly foveated, with high resolution only available in the central region of the field of view. Second, objects may be seen against a blurry background due to infants' limited depth of field. Third, during object manipulation a toddler mostly observes close objects filling a large part of the field of view due to their rather short arms. Here, we study how these effects impact the quality of visual representations learnt through time-contrastive learning. To this end, we let a visually embodied agent "play" with objects in different locations of a near photo-realistic flat. During each play session the agent views an object in multiple orientations before turning its body to view another object. The resulting sequence of views feeds a time-contrastive learning algorithm. Our results show that visual statistics mimicking those of a toddler improve object recognition accuracy in both familiar and novel environments. We argue that this effect is caused by the reduction of features extracted in the background, a neural network bias for large features in the image and a greater similarity between novel and familiar background regions. We conclude that the embodied nature of visual learning may be crucial for understanding the development of human object perception. | 翻訳日:2022-05-13 13:09:38 公開日:2022-05-12 |
# 高品質合成顔咬合セグメンテーションデータセットへの展開 Delving into High-Quality Synthetic Face Occlusion Segmentation Datasets ( http://arxiv.org/abs/2205.06218v1 ) ライセンス: Link先を確認 | Kenny T. R. Voo, Liming Jiang, Chen Change Loy | (参考訳) 本稿では,多くの下流アプリケーションにとって重要な課題である咬合対応顔セグメンテーションのためのデータセットの包括的解析を行う。
このようなデータセットの収集とアノテーションは時間がかかり、労力がかかる。
合成データ生成にはいくつかの取り組みがあるが、データの自然主義的な側面はいまだ研究されていない。
本研究では,高品質な自然主義的合成閉塞顔を生成するための自然主義的閉塞生成技術であるNatOccと,より一般的な合成閉塞データ生成手法であるランダム閉塞生成法(RandOcc)を提案する。
両方法の有効性とロバスト性について実験的に検討した。
モデル評価を容易にするために,RealOccとRealOcc-Wildの2つの高精細なアノテーションを用いた高精細な実世界の隠蔽顔データセットを提案する。
我々はさらに,新たに導入されたセグメント化ベンチマークの包括的な分析を行い,今後の調査への洞察を提供する。 This paper performs comprehensive analysis on datasets for occlusion-aware face segmentation, a task that is crucial for many downstream applications. The collection and annotation of such datasets are time-consuming and labor-intensive. Although some efforts have been made in synthetic data generation, the naturalistic aspect of data remains less explored. In our study, we propose two occlusion generation techniques, Naturalistic Occlusion Generation (NatOcc), for producing high-quality naturalistic synthetic occluded faces; and Random Occlusion Generation (RandOcc), a more general synthetic occluded data generation method. We empirically show the effectiveness and robustness of both methods, even for unseen occlusions. To facilitate model evaluation, we present two high-resolution real-world occluded face datasets with fine-grained annotations, RealOcc and RealOcc-Wild, featuring both careful alignment preprocessing and an in-the-wild setting for robustness test. We further conduct a comprehensive analysis on a newly introduced segmentation benchmark, offering insights for future exploration. | 翻訳日:2022-05-13 13:09:15 公開日:2022-05-12 |
# 両眼視覚強化学習による経済的精密操作と自己眼球協調 Economical Precise Manipulation and Auto Eye-Hand Coordination with Binocular Visual Reinforcement Learning ( http://arxiv.org/abs/2205.05963v1 ) ライセンス: Link先を確認 | Yiwen Chen, Sheng Guo, Lei Zhou, Xian Yao Ng, Marcelo H. Ang Jr | (参考訳) 多くのシナリオでは、精密なロボット操作タスク(挿入、ねじ、正確に選択)が必須である。
従来手法はこのような操作タスクで優れた性能を達成していた。
しかし、このような方法は通常は面倒なキャリブレーションや高価なセンサーを必要とする。
3D/RGB-Dカメラとトルク/フォースセンサーはロボットアプリケーションのコストを増し、必ずしも経済的ではないかもしれない。
本研究では,弱いキャリブレーションと低コストのウェブカメラのみを用いて,これらの問題を解決することを目的とする。
両眼アライメント学習(BAL)を提案し,眼の協調とポイントアライメント機能を自動的に学習して4つの課題を解決する。
本研究は未知の眼球運動に焦点をあて,眼球運動の自動キャリブレーション手法を提案する。
このアルゴリズムはシミュレーションで訓練され、実用的なパイプラインを使ってsim2realを実現し、実際のロボットでテストした。
提案手法は,4つのタスクに最小限のコストで,競争力に優れた結果が得られる。 Precision robotic manipulation tasks (insertion, screwing, precisely pick, precisely place) are required in many scenarios. Previous methods achieved good performance on such manipulation tasks. However, such methods typically require tedious calibration or expensive sensors. 3D/RGB-D cameras and torque/force sensors add to the cost of the robotic application and may not always be economical. In this work, we aim to solve these but using only weak-calibrated and low-cost webcams. We propose Binocular Alignment Learning (BAL), which could automatically learn the eye-hand coordination and points alignment capabilities to solve the four tasks. Our work focuses on working with unknown eye-hand coordination and proposes different ways of performing eye-in-hand camera calibration automatically. The algorithm was trained in simulation and used a practical pipeline to achieve sim2real and test it on the real robot. Our method achieves a competitively good result with minimal cost on the four tasks. | 翻訳日:2022-05-13 13:05:57 公開日:2022-05-12 |
# 電子メールアシスタント-ロボットプロセス自動化を用いた電子メール処理と管理の自動化 E-Mail Assistant -- Automation of E-Mail Handling and Management using Robotic Process Automation ( http://arxiv.org/abs/2205.05882v1 ) ライセンス: Link先を確認 | Arpit Khare, Sudhakar Singh, Richa Mishra, Shiv Prakash, Pratibha Dixit | (参考訳) 本稿では、情報抽出、分類等に使用される人工知能(AI)に関連するロボットプロセス自動化(RPA)を用いてロボットを設計するためのワークフローを提案する。
このボットには、メールをストレスのない仕事にする多くの機能がある。
セキュアなチャンネルを通じてメールボックスに自動的にログインし、有用で役に立たないメールを区別し、メールを異なるラベルに分類し、添付ファイルをダウンロードし、異なるディレクトリを作成し、ダウンロードしたファイルを関連するディレクトリに格納する。
役に立たないメールをゴミ箱に移す。
また、使い勝手のよいジョブ申請の場合は、送信者/申請者の名前で添付ファイルを改名するように訓練することもできる。
このボットは、システムの性能を改善するためにUiPathツールを使って設計およびテストされている。
この論文は、ボットに追加可能なさらなる機能についても論じている。 In this paper, a workflow for designing a bot using Robotic Process Automation (RPA), associated with Artificial Intelligence (AI) that is used for information extraction, classification, etc., is proposed. The bot is equipped with many features that make email handling a stress-free job. It automatically login into the mailbox through secured channels, distinguishes between the useful and not useful emails, classifies the emails into different labels, downloads the attached files, creates different directories, and stores the downloaded files into relevant directories. It moves the not useful emails into the trash. Further, the bot can also be trained to rename the attached files with the names of the sender/applicant in case of a job application for the sake of convenience. The bot is designed and tested using the UiPath tool to improve the performance of the system. The paper also discusses the further possible functionalities that can be added on to the bot. | 翻訳日:2022-05-13 13:05:28 公開日:2022-05-12 |
# 安全強化学習による緊急制約付き経済派遣 Contingency-constrained economic dispatch with safe reinforcement learning ( http://arxiv.org/abs/2205.06212v1 ) ライセンス: Link先を確認 | Michael Eichelbeck, Hannah Markgraf, Matthias Althoff | (参考訳) 将来の電力システムは、分散再生可能エネルギー源とエネルギー貯蔵システムのシェアが高いマイクログリッドに大きく依存するだろう。
この文脈における高い複雑さと不確実性により、従来の配電戦略が実現不可能になる可能性がある。
強化学習ベースの(rl)コントローラは、この課題に対処できるが、それ自体で安全保証を提供することはできない。
この制限を克服するために、経済派遣のための正式に検証されたRLコントローラを提案する。
従来の制約を時間依存の制約により拡張する。
セットベースの後方到達可能性分析を用いて一致制約を算出し、安全層を介してRLエージェントの動作を検証する。
安全でないアクションは安全なアクション空間に投影され、制約付きゾノトペ集合表現を計算効率に活用する。
本手法は実世界計測を用いて住宅利用事例で実証した。 Future power systems will rely heavily on micro grids with a high share of decentralised renewable energy sources and energy storage systems. The high complexity and uncertainty in this context might make conventional power dispatch strategies infeasible. Reinforcement-learning based (RL) controllers can address this challenge, however, cannot themselves provide safety guarantees, preventing their deployment in practice. To overcome this limitation, we propose a formally validated RL controller for economic dispatch. We extend conventional constraints by a time-dependent constraint encoding the islanding contingency. The contingency constraint is computed using set-based backwards reachability analysis and actions of the RL agent are verified through a safety layer. Unsafe actions are projected into the safe action space while leveraging constrained zonotope set representations for computational efficiency. The developed approach is demonstrated on a residential use case using real-world measurements. | 翻訳日:2022-05-13 13:05:13 公開日:2022-05-12 |
# 変分量子機械学習における爆発対称性 Exploiting symmetry in variational quantum machine learning ( http://arxiv.org/abs/2205.06217v1 ) ライセンス: Link先を確認 | Johannes Jakob Meyer, Marian Mularski, Elies Gil-Fuster, Antonio Anna Mele, Francesco Arzani, Alissa Wilms, Jens Eisert | (参考訳) 変分量子機械学習は、短期量子コンピュータの広範囲にわたる応用である。
変分量子学習モデルの成功は、学習タスクに関連する帰納的バイアスを符号化するモデルの適切なパラメトリゼーションを見つけることに大きく依存する。
しかし、適切なパラメトリゼーションを構築するための原則の導出についてはほとんど分かっていない。
本研究では,学習課題の対称性の下で,結果が不変な量子学習モデルを構築するために,学習問題の対称性をいつ,どのように活用できるかを概観する。
表現論のツールに基づいて、標準のゲート集合が、ゲート対称性の過程を通じて問題の対称性を尊重する同変ゲート集合にどのように変換できるかを示す。
提案手法を,非自明な対称性を特徴とする2つの玩具問題に対してベンチマークし,一般化性能の大幅な向上を観察する。
我々のツールは対称構造を持つ他の変分問題にも直接適用できるので、同変ゲートセットが変分量子固有ソルバにおいてどのように用いられるかを示す。 Variational quantum machine learning is an extensively studied application of near-term quantum computers. The success of variational quantum learning models crucially depends on finding a suitable parametrization of the model that encodes an inductive bias relevant to the learning task. However, precious little is known about guiding principles for the construction of suitable parametrizations. In this work, we holistically explore when and how symmetries of the learning problem can be exploited to construct quantum learning models with outcomes invariant under the symmetry of the learning task. Building on tools from representation theory, we show how a standard gateset can be transformed into an equivariant gateset that respects the symmetries of the problem at hand through a process of gate symmetrization. We benchmark the proposed methods on two toy problems that feature a non-trivial symmetry and observe a substantial increase in generalization performance. As our tools can also be applied in a straightforward way to other variational problems with symmetric structure, we show how equivariant gatesets can be used in variational quantum eigensolvers. | 翻訳日:2022-05-13 13:05:02 公開日:2022-05-12 |
# リスク対応型マルチアーマッドバンドの検討 A Survey of Risk-Aware Multi-Armed Bandits ( http://arxiv.org/abs/2205.05843v1 ) ライセンス: Link先を確認 | Vincent Y. F. Tan and Prashanth L.A. and Krishna Jagannathan | (参考訳) 臨床試験や金融ポートフォリオ最適化などのいくつかの応用では、期待値(または平均報酬)は、薬品やポートフォリオのメリットを十分に捉えていない。
このようなアプリケーションでは、リスクが重要な役割を担い、有害事象が発生した場合の損失を捉えるために、リスク対応のパフォーマンス指標が望ましい。
本調査は,既存のリスク対策研究,特に多武装バンディットの文脈を統合・要約することを目的としている。
我々は、様々な利害リスク対策をレビューし、その特性についてコメントする。
次に,種々のリスク対策における既存の濃度不等式について検討する。
次に, リスクを意識したバンディット問題の定義に着手し, リスクに敏感な対策の文脈において, 探索・爆発のトレードオフが現れるような後悔最小化設定のアルゴリズムと, 純粋な探索問題である最善のアーム識別設定を考察する。
今後の研究の課題と肥大化についてコメントし、結論づける。 In several applications such as clinical trials and financial portfolio optimization, the expected value (or the average reward) does not satisfactorily capture the merits of a drug or a portfolio. In such applications, risk plays a crucial role, and a risk-aware performance measure is preferable, so as to capture losses in the case of adverse events. This survey aims to consolidate and summarise the existing research on risk measures, specifically in the context of multi-armed bandits. We review various risk measures of interest, and comment on their properties. Next, we review existing concentration inequalities for various risk measures. Then, we proceed to defining risk-aware bandit problems, We consider algorithms for the regret minimization setting, where the exploration-exploitation trade-off manifests, as well as the best-arm identification setting, which is a pure exploration problem -- both in the context of risk-sensitive measures. We conclude by commenting on persisting challenges and fertile areas for future research. | 翻訳日:2022-05-13 13:04:45 公開日:2022-05-12 |
# Hybrid Semiparametric Bayesian Networks"へのコメント Comments on: "Hybrid Semiparametric Bayesian Networks" ( http://arxiv.org/abs/2205.05910v1 ) ライセンス: Link先を確認 | Marco Scutari | (参考訳) David Atienza氏、Pedro Larranaga氏、Concha Bielza氏(TEST, 2022)による論文"Hybrid Semiparametric Bayesian Networks"の議論を招いた。 Invited discussion on the paper "Hybrid Semiparametric Bayesian Networks" by David Atienza, Pedro Larranaga and Concha Bielza (TEST, 2022). | 翻訳日:2022-05-13 13:04:28 公開日:2022-05-12 |
# 準モンテカルロサンプリングによるPlanet-Luceモデルの低分散推定 Low-variance estimation in the Plackett-Luce model via quasi-Monte Carlo sampling ( http://arxiv.org/abs/2205.06024v1 ) ライセンス: Link先を確認 | Alexander Buchholz, Jan Malte Lichtenberg, Giuseppe Di Benedetto, Yannik Stein, Vito Bellini, Matteo Ruffini | (参考訳) Plackett-Luce(PL)モデルは、ランクリストのサンプリングに有用で直感的な確率モデルを提供するため、LTR(Learning-to-rank)においてユビキタスである。
評価基準のオフライン評価と最適化は実運用でLTR手法を使用する上で重要である。
PLモデルをランキングポリシーとして採用する場合、どちらのタスクもモデルに対する期待の計算を必要とする。
これらは通常モンテカルロ (mc) サンプリングによって近似されるが、なぜならランク付けされるアイテムの数の組合せスケーリングは解析計算を難解にするからである。
近年, Gumbel Top-k トリックによるサンプリングプロセスの計算効率の向上が進んでいるが, MC推定値のばらつきは大きい。
我々は,Gumbelトップkトリックと準モンテカルロサンプリング(QMC)を組み合わせることで,PLモデルにおけるより標本効率の高い予測値の予測値を生成する新しい手法を開発した。
実世界のamazon musicのレコメンデーションデータとyahoo learning-to-rankチャレンジを用いて,理論上,経験的に両立する。 The Plackett-Luce (PL) model is ubiquitous in learning-to-rank (LTR) because it provides a useful and intuitive probabilistic model for sampling ranked lists. Counterfactual offline evaluation and optimization of ranking metrics are pivotal for using LTR methods in production. When adopting the PL model as a ranking policy, both tasks require the computation of expectations with respect to the model. These are usually approximated via Monte-Carlo (MC) sampling, since the combinatorial scaling in the number of items to be ranked makes their analytical computation intractable. Despite recent advances in improving the computational efficiency of the sampling process via the Gumbel top-k trick, the MC estimates can suffer from high variance. We develop a novel approach to producing more sample-efficient estimators of expectations in the PL model by combining the Gumbel top-k trick with quasi-Monte Carlo (QMC) sampling, a well-established technique for variance reduction. We illustrate our findings both theoretically and empirically using real-world recommendation data from Amazon Music and the Yahoo learning-to-rank challenge. | 翻訳日:2022-05-13 13:03:20 公開日:2022-05-12 |
# 組織像の深部解釈可能分類と弱視的分類における不確かさの活用 Leveraging Uncertainty for Deep Interpretable Classification and Weakly-Supervised Segmentation of Histology Images ( http://arxiv.org/abs/2205.05841v1 ) ライセンス: Link先を確認 | Soufiane Belharbi, J\'er\^ome Rony, Jose Dolz, Ismail Ben Ayed, Luke McCaffrey, Eric Granger | (参考訳) イメージクラスラベルのみを使用してトレーニングされた深層教師付き手法は、解釈可能性のための画像分類とROIセグメンテーションを可能にする。
自然画像での成功にもかかわらず、ROIが背景モデルと視覚的に類似している歴史データに関していくつかの課題に直面している。
これらの手法は、偽陽性率を高める非識別領域を明示的にモデル化するメカニズムを欠いている。
そこで本研究では,非判別領域と判別領域の両方を対象とし,不均衡セグメント化と画像クラスラベルのみを用いた新しい正規化項を提案する。
提案手法は,セグメンテーションマスクを発生させるローカライザと,分類器の2つのネットワークで構成される。
トレーニング損失によりローカライザは、バックグラウンド領域を同時にモデル化しながら、ほとんどの差別領域を保持するセグメンテーションマスクを構築する。
2つの組織学的データセットに対する総合的な実験により,偽陽性の低減とROIの正確なセグメンテーションのメリットが示された。 Trained using only image class label, deep weakly supervised methods allow image classification and ROI segmentation for interpretability. Despite their success on natural images, they face several challenges over histology data where ROI are visually similar to background making models vulnerable to high pixel-wise false positives. These methods lack mechanisms for modeling explicitly non-discriminative regions which raises false-positive rates. We propose novel regularization terms, which enable the model to seek both non-discriminative and discriminative regions, while discouraging unbalanced segmentations and using only image class label. Our method is composed of two networks: a localizer that yields segmentation mask, followed by a classifier. The training loss pushes the localizer to build a segmentation mask that holds most discrimiantive regions while simultaneously modeling background regions. Comprehensive experiments over two histology datasets showed the merits of our method in reducing false positives and accurately segmenting ROI. | 翻訳日:2022-05-13 13:02:37 公開日:2022-05-12 |
# 非コントラストオルガン・アウェアセグメンテーションのための擬似ラベル誘導マルチコントラスト一般化 Pseudo-Label Guided Multi-Contrast Generalization for Non-Contrast Organ-Aware Segmentation ( http://arxiv.org/abs/2205.05898v1 ) ライセンス: Link先を確認 | Ho Hin Lee, Yucheng Tang, Riqiang Gao, Qi Yang, Xin Yu, Shunxing Bao, James G. Terry, J. Jeffrey Carr, Yuankai Huo, Bennett A. Landman | (参考訳) 非造影CT(non-contrast Computed tomography, NCCT)は, 肺がん検診, 全身性腹痛, 腎結石疑診, 外傷性評価, その他の多くの診断に一般的に用いられる。
しかし、コントラストの欠如は境界内の臓器を区別する。
本稿では,一対のコントラスト強調CT(CECT)を用いて,非コントラストセグメンテーションをゼロトラストラベルなしで計算する手法を提案する。
生成的敵対的アプローチとは違って,CECTを用いて相互に形態的コンテキストを計算して,偽の解剖学的コンテキストを生成する代わりに教師指導を行う。
さらに,"organ-specific"設定における強度相関をさらに強化し,臓器認識境界に対する感度を高める。
5倍のクロスバリデーションを用いた非コントラスト・コントラストctスキャンによるマルチオルガンセグメンテーションのアプローチを検証する。
オータセグメンテーションのための独立した非コントラストコホート上で完全な外部検証を行う。
現在の腹部臓器の分節状態と完全に監督された状態で比較すると,提案するパイプラインは3.98% (内部マルチオルガン注記) と8.00% (外大動脈注記) で腹腔内臓器分節を有意に高めている。
コードと事前訓練されたモデルはhttps://github.com/MASILab/ContrastMix.comで公開されている。 Non-contrast computed tomography (NCCT) is commonly acquired for lung cancer screening, assessment of general abdominal pain or suspected renal stones, trauma evaluation, and many other indications. However, the absence of contrast limits distinguishing organ in-between boundaries. In this paper, we propose a novel unsupervised approach that leverages pairwise contrast-enhanced CT (CECT) context to compute non-contrast segmentation without ground-truth label. Unlike generative adversarial approaches, we compute the pairwise morphological context with CECT to provide teacher guidance instead of generating fake anatomical context. Additionally, we further augment the intensity correlations in 'organ-specific' settings and increase the sensitivity to organ-aware boundary. We validate our approach on multi-organ segmentation with paired non-contrast & contrast-enhanced CT scans using five-fold cross-validation. Full external validations are performed on an independent non-contrast cohort for aorta segmentation. Compared with current abdominal organs segmentation state-of-the-art in fully supervised setting, our proposed pipeline achieves a significantly higher Dice by 3.98% (internal multi-organ annotated), and 8.00% (external aorta annotated) for abdominal organs segmentation. The code and pretrained models are publicly available at https://github.com/MASILab/ContrastMix. | 翻訳日:2022-05-13 13:02:22 公開日:2022-05-12 |
# 補助材料:GAUモデルの実装と実験 Supplementary Material: Implementation and Experiments for GAU-based Model ( http://arxiv.org/abs/2205.05842v1 ) ライセンス: Link先を確認 | Zhenjie Liu | (参考訳) 今年2月にGoogleは、高速でVRAMフットプリントが低く、パフォーマンスが向上した新しいTransformer variantであるFLASHを提案した。
これは、アテンション層とffnを組み合わせたgau(gated attention unit)と呼ばれるパフォーマンス層を設計することによって達成される。
本稿では,実装の詳細を理論的および実際的に再分析する。
次に,新しいGAUモデルを提案し,そのモデルを中国語コーパス上で事前学習する。
ベンチマークの結果、このモデルは開発平均スコア75.02、roformerv1より1%高く、45%高速であり、roformerv2とも競合していることがわかった。 In February this year Google proposed a new Transformer variant called FLASH, which has a faster speed, lower VRAM footprint and better performance. This is achieved by designing a performant layer named GAU (Gated Attention Unit), which combines the Attention layer and FFN. In this paper, some implementation details are re-analyzed both theoretically and practically. We then propose a novel GAU-based model and pre-train it model on a Chinese corpus. Results of the CLUE benchmark show that our model achieves a dev average score of 75.02, 1% higher than RoFormerV1 and being 45% faster, which is also competitive with RoFormerV2. | 翻訳日:2022-05-13 13:01:05 公開日:2022-05-12 |
# (参考訳) 一つのモデル, 複数のモード: テキスト, 音, 画像, ビデオ, コードに対するわずかに活性化されたアプローチ One Model, Multiple Modalities: A Sparsely Activated Approach for Text, Sound, Image, Video and Code ( http://arxiv.org/abs/2205.06126v1 ) ライセンス: CC BY 4.0 | Yong Dai, Duyu Tang, Liangxin Liu, Minghuan Tan, Cong Zhou, Jingquan Wang, Zhangyin Feng, Fan Zhang, Xueyu Hu, Shuming Shi | (参考訳) 人々は複数の感覚で世界を認識する(例えば、聴覚、単語の読み、物を見るなど)。
しかし、既存のAIシステムは個々のモダリティのみを処理する。
本稿では,単一モデルを用いた情報の多様性処理に優れた手法を提案する。
私たちの"{skillnet}"モデルでは、パラメータの異なる部分が、異なるモダリティを処理するために特別です。
すべてのモデルパラメータを常に活性化する従来の密集モデルとは異なり、我々のモデルはタスクに関連するスキルを持つパラメータの一部をわずかに活性化します。
このようなモデル設計により、skillnetはより解釈可能な方法でスキルを学ぶことができる。
我々は,テキスト,画像,音声,ビデオ,コードを含む5つのモードのモデルを開発した。
その結果、skillnetは5つのモダリティ特有の微調整モデルに比較可能な性能を示す。
さらに,本モデルは,同一のスパースに活性化された方法で自己教師付き事前学習をサポートし,異なるモードに対する初期化パラメータが向上する。
プレトレーニングにより,SkillNetの5つのモダリティにおける性能は,モダリティ特異的プレトレーニングのベースラインと同等かそれ以上に向上することがわかった。
中国におけるテキスト画像検索の課題では,Wukong{ViT-B} や Wenlan 2.0 などの既存システムに比べて,活性化パラメータの数が少なく,精度が向上する。 People perceive the world with multiple senses (e.g., through hearing sounds, reading words and seeing objects). However, most existing AI systems only process an individual modality. This paper presents an approach that excels at handling multiple modalities of information with a single model. In our "{SkillNet}" model, different parts of the parameters are specialized for processing different modalities. Unlike traditional dense models that always activate all the model parameters, our model sparsely activates parts of the parameters whose skills are relevant to the task. Such model design enables SkillNet to learn skills in a more interpretable way. We develop our model for five modalities including text, image, sound, video and code. Results show that, SkillNet performs comparably to five modality-specific fine-tuned models. Moreover, our model supports self-supervised pretraining with the same sparsely activated way, resulting in better initialized parameters for different modalities. We find that pretraining significantly improves the performance of SkillNet on five modalities, on par with or even better than baselines with modality-specific pretraining. On the task of Chinese text-to-image retrieval, our final system achieves higher accuracy than existing leading systems including Wukong{ViT-B} and Wenlan 2.0 while using less number of activated parameters. | 翻訳日:2022-05-13 12:59:39 公開日:2022-05-12 |
# 知識を求める - 言語を使って外部知識を問うためのrlエージェントのトレーニング Asking for Knowledge: Training RL Agents to Query External Knowledge Using Language ( http://arxiv.org/abs/2205.06111v1 ) ライセンス: Link先を確認 | Iou-Jen Liu, Xingdi Yuan, Marc-Alexandre C\^ot\'e, Pierre-Yves Oudeyer, Alexander G. Schwing | (参考訳) 困難な課題を解決するため、人間は外部の情報源から知識を得るよう質問する。
対照的に、古典的な強化学習エージェントはそのような能力がなく、しばしば探索的な行動に頼る。
現在の環境が知識のクエリをサポートすることは少ないため、これはさらに悪化する。
エージェントが言語を介して外部知識をクエリする方法を学習するために,まずグリッドワールドベースのQ-BabyAIとテキストベースのQ-TextWorldという2つの新しい環境を導入する。
物理的相互作用に加えて、エージェントはこれらの環境に特化した外部知識ソースに問い合わせて情報を集めることができる。
第2に,課題解決を支援する有意義な知識を問合せするための言語コマンドの生成を学習する"Aking for Knowledge"(AFK)エージェントを提案する。
AFKは、(1)大きなクエリ言語空間、(2)無関係情報、(3)意味のあるクエリを作るための遅延報酬に取り組むために、非パラメトリックメモリ、ポインタ機構、およびエピソード探索ボーナスを活用する。
大規模な実験により、AFKエージェントはQ-BabyAIとQ-TextWorld環境の最近のベースラインよりも優れていることが示された。 To solve difficult tasks, humans ask questions to acquire knowledge from external sources. In contrast, classical reinforcement learning agents lack such an ability and often resort to exploratory behavior. This is exacerbated as few present-day environments support querying for knowledge. In order to study how agents can be taught to query external knowledge via language, we first introduce two new environments: the grid-world-based Q-BabyAI and the text-based Q-TextWorld. In addition to physical interactions, an agent can query an external knowledge source specialized for these environments to gather information. Second, we propose the "Asking for Knowledge" (AFK) agent, which learns to generate language commands to query for meaningful knowledge that helps solve the tasks. AFK leverages a non-parametric memory, a pointer mechanism and an episodic exploration bonus to tackle (1) a large query language space, (2) irrelevant information, (3) delayed reward for making meaningful queries. Extensive experiments demonstrate that the AFK agent outperforms recent baselines on the challenging Q-BabyAI and Q-TextWorld environments. | 翻訳日:2022-05-13 12:31:23 公開日:2022-05-12 |
# テンプレートに基づくイベント抽出のための動的プリフィックスチューニング Dynamic Prefix-Tuning for Generative Template-based Event Extraction ( http://arxiv.org/abs/2205.06166v1 ) ライセンス: Link先を確認 | Xiao Liu, Heyan Huang, Ge Shi, Bo Wang | (参考訳) テンプレートベースの条件生成によるイベント抽出を生成的に検討する。
プロンプトによるシーケンス生成問題としてイベント抽出のタスクをキャスティングする傾向が高まっているが,これら生成ベースの手法には,サブオプティマイズと静的イベント型情報の使用という,2つの大きな課題がある。
本稿では,動的プレフィックス(GTEE-DynPref)を用いたテンプレートベースのイベント抽出手法を提案する。
実験結果から,本モデルがACE 2005における最先端分類モデルOneIEと競合する結果となり,ERE上での最高の性能が得られた。
さらに、私たちのモデルは、新しいタイプのイベントに効果的にポータブルであることが証明されています。 We consider event extraction in a generative manner with template-based conditional generation. Although there is a rising trend of casting the task of event extraction as a sequence generation problem with prompts, these generation-based methods have two significant challenges, including using suboptimal prompts and static event type information. In this paper, we propose a generative template-based event extraction method with dynamic prefix (GTEE-DynPref) by integrating context information with type-specific prefixes to learn a context-specific prefix for each context. Experimental results show that our model achieves competitive results with the state-of-the-art classification-based model OneIE on ACE 2005 and achieves the best performances on ERE. Additionally, our model is proven to be portable to new types of events effectively. | 翻訳日:2022-05-13 12:31:02 公開日:2022-05-12 |
# 字幕には何があるの?
データセット特有の言語的多様性と視覚記述モデルとメトリクスへの影響 What's in a Caption? Dataset-Specific Linguistic Diversity and Its Effect on Visual Description Models and Metrics ( http://arxiv.org/abs/2205.06253v1 ) ライセンス: Link先を確認 | David M. Chan, Austin Myers, Sudheendra Vijayanarasimhan, David A. Ross, Bryan Seybold, John F. Canny | (参考訳) 自動ビデオ記述の分野では大きな進歩があったが、新しいドメインへの自動記述モデルの一般化性能は、これらのシステムを現実世界で使用する上で大きな障壁となっている。
ほとんどの視覚的記述法は、評価指標の増加につながるトレーニングデータのパターンをキャプチャして活用することが知られていますが、そのパターンは何でしょうか?
本研究では、いくつかの一般的な視覚的記述データセットを調査し、モデルが活用するが、新しいドメインに一般化しないデータセット固有の言語パターンをキャプチャ、分析、理解する。
トークンレベル、サンプルレベル、データセットレベルでは、キャプションの多様性がジェネリックキャプションの生成の背後にある主要な要因であることがわかった。
さらに,現在最先端のモデルが,現代のメトリクスの接頭辞よりも優れており,この効果がデータセットの言語的多様性の成果であることを示す。
この言語的多様性を理解することは、強力なキャプションモデルを構築する上で鍵となるものであり、我々は、新しいデータの収集における多様性を維持するためのいくつかの方法とアプローチを推奨する。 While there have been significant gains in the field of automated video description, the generalization performance of automated description models to novel domains remains a major barrier to using these systems in the real world. Most visual description methods are known to capture and exploit patterns in the training data leading to evaluation metric increases, but what are those patterns? In this work, we examine several popular visual description datasets, and capture, analyze, and understand the dataset-specific linguistic patterns that models exploit but do not generalize to new domains. At the token level, sample level, and dataset level, we find that caption diversity is a major driving factor behind the generation of generic and uninformative captions. We further show that state-of-the-art models even outperform held-out ground truth captions on modern metrics, and that this effect is an artifact of linguistic diversity in datasets. Understanding this linguistic diversity is key to building strong captioning models, we recommend several methods and approaches for maintaining diversity in the collection of new data, and dealing with the consequences of limited diversity when using current models and metrics. | 翻訳日:2022-05-13 12:30:49 公開日:2022-05-12 |
# 赤外線不可視衣料:実世界の多角赤外線検知器を応用して Infrared Invisible Clothing:Hiding from Infrared Detectors at Multiple Angles in Real World ( http://arxiv.org/abs/2205.05909v1 ) ライセンス: Link先を確認 | Xiaopei Zhu, Zhanhao Hu, Siyuan Huang, Jianmin Li, Xiaolin Hu | (参考訳) 熱赤外イメージングは体温測定やセキュリティ監視などに広く用いられているが、その安全性の研究は近年のみ注目されている。
異なる角度で赤外線歩行者検知器を騙すことができる赤外線逆向きの衣服を提案した。
デジタル世界における布から衣服までのプロセスをシミュレートし,その逆の「QRコード」パターンを設計した。
本手法の核となるのは, 周期的に拡張可能な基本パターンを設計し, ランダムな刈り取りや変形後のパターンを相反する効果を持たせることであり, 逆向きの布を任意の3次元衣服に加工することができる。
その結果、最適化された「QRコード」パターンはYOLOv3の平均精度(AP)を87.7%下げ、ランダムな「QRコード」パターンと空白パターンはYOLOv3のAPを57.9%、デジタル世界では30.1%下げた。
次に、新しい素材であるエアロゲルで敵のシャツを作りました。
物理世界の実験では、逆行的な「QRコード」パターン服がYOLOv3のAPを64.6%下げ、ランダムな「QRコード」パターン服と完全断熱服がそれぞれYOLOv3のAPを28.3%、22.8%下げた。
モデルアンサンブル手法を用いて,未認識モデルに対する攻撃伝達性の改善を行った。 Thermal infrared imaging is widely used in body temperature measurement, security monitoring, and so on, but its safety research attracted attention only in recent years. We proposed the infrared adversarial clothing, which could fool infrared pedestrian detectors at different angles. We simulated the process from cloth to clothing in the digital world and then designed the adversarial "QR code" pattern. The core of our method is to design a basic pattern that can be expanded periodically, and make the pattern after random cropping and deformation still have an adversarial effect, then we can process the flat cloth with an adversarial pattern into any 3D clothes. The results showed that the optimized "QR code" pattern lowered the Average Precision (AP) of YOLOv3 by 87.7%, while the random "QR code" pattern and blank pattern lowered the AP of YOLOv3 by 57.9% and 30.1%, respectively, in the digital world. We then manufactured an adversarial shirt with a new material: aerogel. Physical-world experiments showed that the adversarial "QR code" pattern clothing lowered the AP of YOLOv3 by 64.6%, while the random "QR code" pattern clothing and fully heat-insulated clothing lowered the AP of YOLOv3 by 28.3% and 22.8%, respectively. We used the model ensemble technique to improve the attack transferability to unseen models. | 翻訳日:2022-05-13 12:30:28 公開日:2022-05-12 |
# 術中内視鏡デジタルビデオによる腎臓結石の深部形態認識 Deep morphological recognition of kidney stones using intra-operative endoscopic digital videos ( http://arxiv.org/abs/2205.06093v1 ) ライセンス: Link先を確認 | Vincent Estrade, Michel Daudon, Emmanuel Richard, Jean-Christophe Bernhard, Franck Bladou, Gregoire Robert, Laurent Facq, Baudouin Denis de Senneville | (参考訳) 腎臓結石の形態学的基準の収集と解析は,石疾患の審美学的診断に不可欠である。
しかし、現在最も確立された外科的介入であるレーザーによる尿石の断片化は、標的石の形態を損なう可能性がある。
本研究は, 術中標準セッションにおける石の形態的特徴の自動認識のための, 完全デジタル内視鏡映像シーケンスの処理性能と付加価値を評価するものである。
そこで, 臨床現場で取得した術中デジタル内視鏡映像を用いて, 石の形態をその場で予測するコンピュータ支援ビデオ分類器を開発した。
提案手法は,純石 (1つの形態を含む) と混合石 (少なくとも2つの形態を含む) について評価し, 「ia/calcium oxalate monohydrate (com), "iib/ calcium oxalate dihydrate (cod), "iiib/uric acid (ua) 形態について検討した。
71のディジタル内視鏡映像(形態素型50個,表示21個)を,提案するビデオ分類器(計56840フレーム)を用いて解析した。
提案手法では, 精度88%, 感度80%, 特異度95%, 精度78%, およびf1-score=78%のバランスをとっていた。
以上の結果から, ディジタル内視鏡映像系列に適用したaiは, 石の断片化過程の経過中に, 人的介入や良質な定常フレームの選択に頼らずに形態情報を収集できる有望なツールであることが示された。
この目的のために、フレームとピクセルレベルでの予測プロセスから無関係な画像情報を取り除く必要がある。 The collection and the analysis of kidney stone morphological criteria are essential for an aetiological diagnosis of stone disease. However, in-situ LASER-based fragmentation of urinary stones, which is now the most established chirurgical intervention, may destroy the morphology of the targeted stone. In the current study, we assess the performance and added value of processing complete digital endoscopic video sequences for the automatic recognition of stone morphological features during a standard-of-care intra-operative session. To this end, a computer-aided video classifier was developed to predict in-situ the morphology of stone using an intra-operative digital endoscopic video acquired in a clinical setting. The proposed technique was evaluated on pure (i.e. include one morphology) and mixed (i.e. include at least two morphologies) stones involving "Ia/Calcium Oxalate Monohydrate (COM)", "IIb/ Calcium Oxalate Dihydrate (COD)" and "IIIb/Uric Acid (UA)" morphologies. 71 digital endoscopic videos (50 exhibited only one morphological type and 21 displayed two) were analyzed using the proposed video classifier (56840 frames processed in total). Using the proposed approach, diagnostic performances (averaged over both pure and mixed stone types) were as follows: balanced accuracy=88%, sensitivity=80%, specificity=95%, precision=78% and F1-score=78%. The obtained results demonstrate that AI applied on digital endoscopic video sequences is a promising tool for collecting morphological information during the time-course of the stone fragmentation process without resorting to any human intervention for stone delineation or selection of good quality steady frames. To this end, irrelevant image information must be removed from the prediction process at both frame and pixel levels, which is now feasible thanks to the use of AI-dedicated networks. | 翻訳日:2022-05-13 12:30:02 公開日:2022-05-12 |
# F3A-GAN:生成対向ネットワークを用いた顔アニメーションのための顔の流れ F3A-GAN: Facial Flow for Face Animation with Generative Adversarial Networks ( http://arxiv.org/abs/2205.06204v1 ) ライセンス: Link先を確認 | Xintian Wu, Qihang Zhang, Yiming Wu, Huanyu Wang, Songyuan Li, Lingyun Sun, and Xi Li | (参考訳) 条件生成問題として定式化された顔アニメーションは、条件付き顔の動きによって駆動される単一の音源画像から連続顔画像を合成することを目的としている。
以前の作品は、顔の動きを1dまたは2d表現(アクションユニット、感情コード、ランドマークなど)の条件としてモデル化しており、これはしばしば、連続生成や大規模変換のような複雑なシナリオで品質の低い結果をもたらす。
この問題に対処するために、条件は運動情報保存と幾何学的連続性という2つの要件を満たすことが求められる。
そこで本研究では,人間の顔の自然な動きを表現するために,顔の流れと呼ばれる3次元幾何学的流れに基づく新しい表現を提案する。
他の条件と比較して,提案手法では顔の連続的な変化を良好に制御できる。
その後、顔の編集に顔フローを利用するため、条件付き顔フローを伴う連続画像を生成する合成フレームワークを構築する。
顔フローの動作情報を完全に活用するために, 画像から抽出した複数スケールの外観特徴と, フローから抽出した動き特徴とを階層的に結合する階層的条件付き枠組みを考案した。
フレームワークは複数の融合した機能を徐々にイメージにデコードする。
実験の結果,本手法は他の最先端手法と比較して有効性が示された。 Formulated as a conditional generation problem, face animation aims at synthesizing continuous face images from a single source image driven by a set of conditional face motion. Previous works mainly model the face motion as conditions with 1D or 2D representation (e.g., action units, emotion codes, landmark), which often leads to low-quality results in some complicated scenarios such as continuous generation and largepose transformation. To tackle this problem, the conditions are supposed to meet two requirements, i.e., motion information preserving and geometric continuity. To this end, we propose a novel representation based on a 3D geometric flow, termed facial flow, to represent the natural motion of the human face at any pose. Compared with other previous conditions, the proposed facial flow well controls the continuous changes to the face. After that, in order to utilize the facial flow for face editing, we build a synthesis framework generating continuous images with conditional facial flows. To fully take advantage of the motion information of facial flows, a hierarchical conditional framework is designed to combine the extracted multi-scale appearance features from images and motion features from flows in a hierarchical manner. The framework then decodes multiple fused features back to images progressively. Experimental results demonstrate the effectiveness of our method compared to other state-of-the-art methods. | 翻訳日:2022-05-13 12:29:28 公開日:2022-05-12 |
# VAEを用いた非教師付き構文解析用変圧器における誘導バイアスの爆発 Exploiting Inductive Bias in Transformers for Unsupervised Disentanglement of Syntax and Semantics with VAEs ( http://arxiv.org/abs/2205.05943v1 ) ライセンス: Link先を確認 | Ghazi Felhi, Joseph Le Roux, Djam\'e Seddah | (参考訳) 本稿では,テキスト生成のための生成モデルを提案する。
以前の研究とは対照的に、このモデルは選挙区解析のような構文情報やパラフレーズペアのような意味情報を必要としない。
我々のモデルは、Transformersのような注意に基づくアーキテクチャで見られる誘導バイアスにのみ依存する。
トランスフォーマーの注意では、キーが情報選択を処理し、値がどの情報を伝えるかを指定する。
我々のモデルはQKVAEと呼ばれ、1つの潜在変数がキーを推論し、別の変数が値を推論する遅延変数を読み取るために、アテンションをデコーダに使用しています。
遅延表現の実験と構文/意味伝達の実験を行い、QKVAEが不整合構文と意味論の明確な兆候を示すことを示した。
また,我々のモデルが教師付きモデルと比較した場合,構文伝達能力に競争力があることを示し,それと同等の教師付きモデルでは,構文変換と意味変換の両方において,かなり大量のデータ(50k以上のサンプル)を必要とすることを示した。
私たちの実験のコードは公開されています。 We propose a generative model for text generation, which exhibits disentangled latent representations of syntax and semantics. Contrary to previous work, this model does not need syntactic information such as constituency parses, or semantic information such as paraphrase pairs. Our model relies solely on the inductive bias found in attention-based architectures such as Transformers. In the attention of Transformers, keys handle information selection while values specify what information is conveyed. Our model, dubbed QKVAE, uses Attention in its decoder to read latent variables where one latent variable infers keys while another infers values. We run experiments on latent representations and experiments on syntax/semantics transfer which show that QKVAE displays clear signs of disentangled syntax and semantics. We also show that our model displays competitive syntax transfer capabilities when compared to supervised models and that comparable supervised models need a fairly large amount of data (more than 50K samples) to outperform it on both syntactic and semantic transfer. The code for our experiments is publicly available. | 翻訳日:2022-05-13 12:29:04 公開日:2022-05-12 |
# 微分プライベートテキストエンコーダを用いた公正NLPモデル Fair NLP Models with Differentially Private Text Encoders ( http://arxiv.org/abs/2205.06135v1 ) ライセンス: Link先を確認 | Gaurav Maheshwari, Pascal Denis, Mikaela Keller, Aur\'elien Bellet | (参考訳) 符号化されたテキスト表現は、しばしば個人(例えば人種や性別)の敏感な属性をキャプチャし、プライバシー上の懸念を生じさせ、下流モデルを特定のグループに不公平にすることができる。
本研究では,差分プライバシーと敵対的トレーニングのアイデアを組み合わせて,公平なモデルを誘導するプライベートテキスト表現を学習する手法であるフェデレートを提案する。
4つのNLPデータセット上で、表現のプライバシと下流モデルの公平性と精度のトレードオフを実証的に評価する。
以上の結果から, FEDERATEは従来手法を常に改善し, プライバシーと公平性は相互に肯定的に強化できることが示唆された。 Encoded text representations often capture sensitive attributes about individuals (e.g., race or gender), which raise privacy concerns and can make downstream models unfair to certain groups. In this work, we propose FEDERATE, an approach that combines ideas from differential privacy and adversarial training to learn private text representations which also induces fairer models. We empirically evaluate the trade-off between the privacy of the representations and the fairness and accuracy of the downstream model on four NLP datasets. Our results show that FEDERATE consistently improves upon previous methods, and thus suggest that privacy and fairness can positively reinforce each other. | 翻訳日:2022-05-13 12:28:46 公開日:2022-05-12 |
# 複数のデータセットを評価する早期アルツハイマー病分類のためのブラックボックスモデル記述のための機械学習ワークフロー Machine Learning Workflow to Explain Black-box Models for Early Alzheimer's Disease Classification Evaluated for Multiple Datasets ( http://arxiv.org/abs/2205.05907v1 ) ライセンス: Link先を確認 | Louise Bloch and Christoph M. Friedrich | (参考訳) 目的: 早期アルツハイマー病(ad)の検出には,ブラックボックス機械学習(ml)が多用された。
方法:eXtreme Gradient Boosting (XGBoost), Random Forest (RF), Support Vector Machine (SVM)ブラックボックスモデルを解釈するために,Shapley値に基づくワークフローを開発した。
すべてのモデルはアルツハイマー病のニューロイメージングイニシアチブ(adni)データセットで訓練され、独立したadniテストセットとして評価され、オーストラリアの外部イメージングおよびライフスタイルフラッグシップスタディ of ageing(aibl)とopen access series of imaging studies(oasis)データセットで評価された。
シェープの値は直感的に解釈可能な決定木(DT)やロジスティック回帰(LR)、および自然および置換特徴の重要性と比較された。
相関特徴による説明妥当性の低下を回避するため, 前方選択とアスペクト統合を行った。
結果:いくつかのブラックボックスモデルはDTとLRを上回った。
前方選択された特徴は、adと関連した脳領域に対応する。
シャープリー値では, 生物学的に有意な関連が中程度から強い相関関係にあることが明らかとなった。
AD変換を予測するための最も重要なRF特徴は扁桃体の体積と認知テストスコアであった。
優れた認知テスト性能と大きな脳容積は広告リスクを減少させた。
認知テストスコアでトレーニングされたモデルは、脳容積モデルを大幅に上回っている(p<0.05$)。
Cognitive Normal (CN) vs. ADモデルは、外部データセットへの転送に成功しました。
結論: 従来の研究と比較して, 脳量を用いたCN vs. Mild Cognitive Impairment (MCI)分類において, ADNIとAIBLの性能改善が達成された。
Shapley値と特徴的重要性は中程度から強い相関を示した。 Purpose: Hard-to-interpret Black-box Machine Learning (ML) were often used for early Alzheimer's Disease (AD) detection. Methods: To interpret eXtreme Gradient Boosting (XGBoost), Random Forest (RF), and Support Vector Machine (SVM) black-box models a workflow based on Shapley values was developed. All models were trained on the Alzheimer's Disease Neuroimaging Initiative (ADNI) dataset and evaluated for an independent ADNI test set, as well as the external Australian Imaging and Lifestyle flagship study of Ageing (AIBL), and Open Access Series of Imaging Studies (OASIS) datasets. Shapley values were compared to intuitively interpretable Decision Trees (DTs), and Logistic Regression (LR), as well as natural and permutation feature importances. To avoid the reduction of the explanation validity caused by correlated features, forward selection and aspect consolidation were implemented. Results: Some black-box models outperformed DTs and LR. The forward-selected features correspond to brain areas previously associated with AD. Shapley values identified biologically plausible associations with moderate to strong correlations with feature importances. The most important RF features to predict AD conversion were the volume of the amygdalae, and a cognitive test score. Good cognitive test performances and large brain volumes decreased the AD risk. The models trained using cognitive test scores significantly outperformed brain volumetric models ($p<0.05$). Cognitive Normal (CN) vs. AD models were successfully transferred to external datasets. Conclusion: In comparison to previous work, improved performances for ADNI and AIBL were achieved for CN vs. Mild Cognitive Impairment (MCI) classification using brain volumes. The Shapley values and the feature importances showed moderate to strong correlations. | 翻訳日:2022-05-13 12:27:33 公開日:2022-05-12 |
# SIBILA:新しい意思決定ツールにおける個人化医療に向けた高性能コンピューティングと解釈可能な機械学習の連携 SIBILA: High-performance computing and interpretable machine learning join efforts toward personalised medicine in a novel decision-making tool ( http://arxiv.org/abs/2205.06234v1 ) ライセンス: Link先を確認 | Antonio Jes\'us Banegas-Luna, Horacio P\'erez-S\'anchez | (参考訳) 背景と目的: パーソナライズド・メディカルは科学者にとって大きな課題である。
機械学習とディープラーニングの急速な成長は、個々の患者に対する最も適切な治療を予測するための有効な代替手段となった。
しかし、結果の解釈の欠如と高い計算量要求により、多くの人はこれらの手法の使用を嫌がる。
メソッド: いくつかの機械学習およびディープラーニングモデルは、単一のソフトウェアツールであるSIBILAに実装されている。
モデルがトレーニングされると、SIBILAは様々な解釈可能性手法を適用して、各モデルが予測する最も重要な入力特徴を特定する。
さらに、得られた全ての機能は、予測に対する各変数のグローバル帰属を推定するために共通に置かれる。
非専門家による利用を容易にするため、sibilaはhttps://bio-hpc.ucam.edu/sibila/のwebサーバとして無料で利用できる。
結果:SIBILAは分類問題と回帰問題における精度と効率を示すために3つのケーススタディに適用された。
最初の2つのケースは、SIBILAが不正なデータセットでも正確な予測ができることを示した。
最後のケースでは、SIBILAが実際のデータを用いて医療状況に適用可能であることを示す。
結論: 臨床医のための強力な意思決定ツールを目指してSIBILAが開発された。
SIBILAは、解釈可能な機械学習を利用して正確な予測を行い、モデルがどのように意思決定を行ったかを説明する新しいソフトウェアツールである。
SIBILAは高性能コンピューティングプラットフォーム上で実行でき、計算時間を劇的に削減できる。 Background and Objectives: Personalised medicine remains a major challenge for scientists. The rapid growth of Machine learning and Deep learning has made it a feasible alternative for predicting the most appropriate therapy for individual patients. However, the lack of interpretation of their results and high computational requirements make many reluctant to use these methods. Methods: Several Machine learning and Deep learning models have been implemented into a single software tool, SIBILA. Once the models are trained, SIBILA applies a range of interpretability methods to identify the input features that each model considered the most important to predict. In addition, all the features obtained are put in common to estimate the global attribution of each variable to the predictions. To facilitate its use by non-experts, SIBILA is also available to all users free of charge as a web server at https://bio-hpc.ucam.edu/sibila/. Results: SIBILA has been applied to three case studies to show its accuracy and efficiency in classification and regression problems. The first two cases proved that SIBILA can make accurate predictions even on uncleaned datasets. The last case demonstrates that SIBILA can be applied to medical contexts with real data. Conclusion: With the aim of becoming a powerful decision-making tool for clinicians, SIBILA has been developed. SIBILA is a novel software tool that leverages interpretable machine learning to make accurate predictions and explain how models made those decisions. SIBILA can be run on high-performance computing platforms, drastically reducing computing times. | 翻訳日:2022-05-13 12:27:02 公開日:2022-05-12 |
# 効率的な下界を持つ直交グロモフ-ワッセルシュタインの不一致 Orthogonal Gromov-Wasserstein Discrepancy with Efficient Lower Bound ( http://arxiv.org/abs/2205.05838v1 ) ライセンス: Link先を確認 | Hongwei Jin, Zishun Yu, Xinhua Zhang | (参考訳) 異なる測度空間からの構造化データを比較することは、例えばグラフ分類などの機械学習における基本的なタスクである。
グロモフ・ワッサーシュタイン(Gromov-Wasserstein、GW)は、最適輸送に基づく構造データ間の結合を定式化し、関係空間内を整列させることによって異なる構造間の非互換性に取り組む。
条件勾配やシンクホーンのような効率的な局所解法が利用できるが、固有の非凸性は依然としてトラクタブルな評価を防ぎ、既存の下界は実用には十分ではない。
この問題に対処するために、二次代入問題との結びつきから着想を得て、GWの代理として直交したGromov-Wasserstein(OGW)の不一致を提案する。
これは効率良く閉じた形の下界と$\mathcal{o}(n^3)$の複雑さを許容し、結合にノードの特徴を組み込んだグロモフ=ワッセルシュタイン距離(fgw)に直接拡張する。
合成と実世界の両方のデータセットに対する大規模な実験は、我々の下限の厳密さを示し、OGWとその下限は、グラフ集合に対して正確な予測と満足のいくバリセンタを効率的に提供する。 Comparing structured data from possibly different metric-measure spaces is a fundamental task in machine learning, with applications in, e.g., graph classification. The Gromov-Wasserstein (GW) discrepancy formulates a coupling between the structured data based on optimal transportation, tackling the incomparability between different structures by aligning the intra-relational geometries. Although efficient local solvers such as conditional gradient and Sinkhorn are available, the inherent non-convexity still prevents a tractable evaluation, and the existing lower bounds are not tight enough for practical use. To address this issue, we take inspiration from the connection with the quadratic assignment problem, and propose the orthogonal Gromov-Wasserstein (OGW) discrepancy as a surrogate of GW. It admits an efficient and closed-form lower bound with the complexity of $\mathcal{O}(n^3)$, and directly extends to the fused Gromov-Wasserstein (FGW) distance, incorporating node features into the coupling. Extensive experiments on both the synthetic and real-world datasets show the tightness of our lower bounds, and both OGW and its lower bounds efficiently deliver accurate predictions and satisfactory barycenters for graph sets. | 翻訳日:2022-05-13 12:26:38 公開日:2022-05-12 |
# 等角化深層学習を用いた不確かさ認識分類器の訓練 Training Uncertainty-Aware Classifiers with Conformalized Deep Learning ( http://arxiv.org/abs/2205.05878v1 ) ライセンス: Link先を確認 | Bat-Sheva Einbinder, Yaniv Romano, Matteo Sesia, Yanfei Zhou | (参考訳) ディープニューラルネットワークは、データの隠れたパターンを検出して予測を行う強力なツールだが、不確実性を理解し、信頼できる確率を推定するように設計されていない。
特に、自信過剰な傾向にある。
我々は,予測力を犠牲にすることなく,より信頼性の高い不確実性推定を可能にする新しい学習アルゴリズムを開発することでこの問題に対処した。
共形推論の進歩に触発された損失関数を最小化し、ホールドアウトデータを慎重に活用することでモデルの不確かさを定量化する。
合成データと実データを用いた実験では、最先端の代替案と比較して、ホールドアウトデータによる正確なキャリブレーション後、条件付きカバレッジの高いコンフォメーション予測セットがより小さいことが示されている。 Deep neural networks are powerful tools to detect hidden patterns in data and leverage them to make predictions, but they are not designed to understand uncertainty and estimate reliable probabilities. In particular, they tend to be overconfident. We address this problem by developing a novel training algorithm that can lead to more dependable uncertainty estimates, without sacrificing predictive power. The idea is to mitigate overconfidence by minimizing a loss function, inspired by advances in conformal inference, that quantifies model uncertainty by carefully leveraging hold-out data. Experiments with synthetic and real data demonstrate this method leads to smaller conformal prediction sets with higher conditional coverage, after exact calibration with hold-out data, compared to state-of-the-art alternatives. | 翻訳日:2022-05-13 12:26:12 公開日:2022-05-12 |
# 完全ベイジアン改良サーネームジオコーディングとサプリメントによるレース計算におけるセンサスデータ問題への対処 Addressing Census data problems in race imputation via fully Bayesian Improved Surname Geocoding and name supplements ( http://arxiv.org/abs/2205.06129v1 ) ライセンス: Link先を確認 | Kosuke Imai and Santiago Olivella and Evan T. R. Rosenman | (参考訳) 個人の人種や民族の予測は、社会科学や公衆衛生研究において重要な役割を果たす。
例としては、健康と投票における人種格差の研究がある。
近年,ベイジアン改良サーネームジオコーディング (BISG) は, ベイジのルールを用いて, センサス姓ファイルからの情報を個人宅のジオコーディングと組み合わせることで, この予測作業の指導的手法として登場した。
残念ながら、BISGは少数民族にとって不満足な予測性能に寄与する2つの国勢調査データ問題に悩まされている。
第一に、小年次国勢調査は、少数民族集団が居住する国勢調査区において、少数民族集団のカウントをゼロにすることが多い。
第二に、国勢調査の姓ファイルには頻繁に名前だけが含まれているため、多くの姓(特に少数民族)がリストから欠落している。
ゼロカウント問題に対処するために,BISG手法のna\\ive Bayesian推論を完全後部推論に拡張することにより,センサスカウントにおける潜在的測定誤差を考慮に入れた完全ベイズ改良サーネームジオコーディング(fBISG)手法を提案する。
紛失した苗字問題に対処するために,自給自足人種が利用可能な南部6州の投票者ファイルから取られた最終,第一,中間の氏名に関する追加データを用いて,国勢調査の姓データを補足する。
実証実験の結果,fBISGの方法論と名称サプリメントにより,人種集団,特にアジア諸国における人種的インパクションの精度が著しく向上することが示唆された。
提案手法は、追加の名前データとともに、オープンソースソフトウェアパッケージwruで利用可能である。 Prediction of an individual's race and ethnicity plays an important role in social science and public health research. Examples include studies of racial disparity in health and voting. Recently, Bayesian Improved Surname Geocoding (BISG), which uses Bayes' rule to combine information from Census surname files with the geocoding of an individual's residence, has emerged as a leading methodology for this prediction task. Unfortunately, BISG suffers from two Census data problems that contribute to unsatisfactory predictive performance for minorities. First, the decennial Census often contains zero counts for minority racial groups in the Census blocks where some members of those groups reside. Second, because the Census surname files only include frequent names, many surnames -- especially those of minorities -- are missing from the list. To address the zero counts problem, we introduce a fully Bayesian Improved Surname Geocoding (fBISG) methodology that accounts for potential measurement error in Census counts by extending the na\"ive Bayesian inference of the BISG methodology to full posterior inference. To address the missing surname problem, we supplement the Census surname data with additional data on last, first, and middle names taken from the voter files of six Southern states where self-reported race is available. Our empirical validation shows that the fBISG methodology and name supplements significantly improve the accuracy of race imputation across all racial groups, and especially for Asians. The proposed methodology, together with additional name data, is available via the open-source software package wru. | 翻訳日:2022-05-13 12:25:58 公開日:2022-05-12 |
# (参考訳) generalist (複数形 generalists) A Generalist Agent ( http://arxiv.org/abs/2205.06175v1 ) ライセンス: CC BY 4.0 | Scott Reed, Konrad Zolna, Emilio Parisotto, Sergio Gomez Colmenarejo, Alexander Novikov, Gabriel Barth-Maron, Mai Gimenez, Yury Sulsky, Jackie Kay, Jost Tobias Springenberg, Tom Eccles, Jake Bruce, Ali Razavi, Ashley Edwards, Nicolas Heess, Yutian Chen, Raia Hadsell, Oriol Vinyals, Mahyar Bordbar, Nando de Freitas | (参考訳) 大規模言語モデリングの進歩に触発されて、テキスト出力の領域を超えて単一の汎用エージェントを構築するために、同様のアプローチを適用する。
エージェントはgatoと呼ばれ、マルチモーダル、マルチタスク、マルチembodiment generalistポリシーとして機能します。
同じ重みを持つネットワークは、Atari、キャプション画像、チャット、実際のロボットアームによるスタックブロックなどを再生でき、そのコンテキストに基づいてテキスト、関節トルク、ボタンを押したり、その他のトークンを出力したりすることができる。
この報告では、モデルとデータを説明し、gatoの現在の機能について文書化する。 Inspired by progress in large-scale language modeling, we apply a similar approach towards building a single generalist agent beyond the realm of text outputs. The agent, which we refer to as Gato, works as a multi-modal, multi-task, multi-embodiment generalist policy. The same network with the same weights can play Atari, caption images, chat, stack blocks with a real robot arm and much more, deciding based on its context whether to output text, joint torques, button presses, or other tokens. In this report we describe the model and the data, and document the current capabilities of Gato. | 翻訳日:2022-05-13 12:25:31 公開日:2022-05-12 |
# 双目的ベイズ最適化における超体積改善の確率分布 Probability Distribution of Hypervolume Improvement in Bi-objective Bayesian Optimization ( http://arxiv.org/abs/2205.05505v2 ) ライセンス: Link先を確認 | Hao Wang, Kaifeng Yang, Michael Affenzeller, Michael Emmerich | (参考訳) この研究は、ベイズ最適化の双目的一般化のための超体積改善(HVI)の確率分布の正確な表現を提供する。
ここでは,単一目的の改善ではなく,パレート前線の現在の最良近似に関するハイパーボリューム指標の改善を検討する。
ガウス過程回帰モデルは、両方の目的関数に基づいて独立に訓練され、ベクトル値の対象関数の予測モデルとして機能する二変量分離ガウス分布となる。
いくつかのHVIベースの取得関数(改善の確率と高信頼境界)もHVIの正確な分布の助けを借りて活用される。
さらに,モンテカルロサンプリングによる近似よりも正確な分布の数値的精度と効率が優れていることを示す。
最後に,広く適用されたzdt問題集合上での分布平均取得関数のベンチマークを行い,多目的ベイズ最適化におけるhviの正確な分布の利点を示す。 This work provides the exact expression of the probability distribution of the hypervolume improvement (HVI) for bi-objective generalization of Bayesian optimization. Here, instead of a single-objective improvement, we consider the improvement of the hypervolume indicator concerning the current best approximation of the Pareto front. Gaussian process regression models are trained independently on both objective functions, resulting in a bi-variate separated Gaussian distribution serving as a predictive model for the vector-valued objective function. Some commonly HVI-based acquisition functions (probability of improvement and upper confidence bound) are also leveraged with the help of the exact distribution of HVI. In addition, we show the superior numerical accuracy and efficiency of the exact distribution compared to the commonly used approximation by Monte-Carlo sampling. Finally, we benchmark distribution-leveraged acquisition functions on the widely applied ZDT problem set, demonstrating a significant advantage of using the exact distribution of HVI in multi-objective Bayesian optimization. | 翻訳日:2022-05-13 12:24:05 公開日:2022-05-12 |
# モバイルでの顔検出:5つの実装と分析 Face Detection on Mobile: Five Implementations and Analysis ( http://arxiv.org/abs/2205.05572v2 ) ライセンス: Link先を確認 | Kostiantyn Khabarlak | (参考訳) 多くのケースでは、スマートフォンや他の高ポータブルデバイス上での顔検出が不可欠である。
アプリケーションには、モバイルフェイスアクセス制御システム、ドライバステータストラッキング、感情認識などが含まれる。
モバイルデバイスは処理能力が限られており、顔検出アプリケーションが動作してもバッテリー寿命が長い。
したがって、アルゴリズムの品質と複雑さの適切なバランスを取ることが重要です。
この作業では、モバイルに5つのアルゴリズムを適用します。
これらのアルゴリズムは手作りまたはニューラルネットワークベースの機能に基づいており、Viola-Jones(Haar Cascade)、LPP、HOG、MCCNN、BlazeFaceが含まれる。
入力画像解像度の異なる異なるデバイス上でのこれらのアルゴリズムの推論時間を解析する。
我々は、モバイルの顔アクセス制御システムや、潜在的に他のモバイルアプリケーションに最適なアルゴリズムを提供する。
興味深いことに、ケースドアルゴリズムは顔のないシーンでは高速に動作し、BlazeFaceは空のシーンでは遅い。
この行動の発散は実際は役に立つかもしれない。 In many practical cases face detection on smartphones or other highly portable devices is a necessity. Applications include mobile face access control systems, driver status tracking, emotion recognition, etc. Mobile devices have limited processing power and should have long-enough battery life even with face detection application running. Thus, striking the right balance between algorithm quality and complexity is crucial. In this work we adapt 5 algorithms to mobile. These algorithms are based on handcrafted or neural-network-based features and include: Viola-Jones (Haar cascade), LBP, HOG, MTCNN, BlazeFace. We analyze inference time of these algorithms on different devices with different input image resolutions. We provide guidance, which algorithms are the best fit for mobile face access control systems and potentially other mobile applications. Interestingly, we note that cascaded algorithms perform faster on scenes without faces, while BlazeFace is slower on empty scenes. Exploiting this behavior might be useful in practice. | 翻訳日:2022-05-13 12:23:52 公開日:2022-05-12 |
# 蒸留から硬度負サンプリングへ:スパークニューラルIRモデルをより効果的に From Distillation to Hard Negative Sampling: Making Sparse Neural IR Models More Effective ( http://arxiv.org/abs/2205.04733v2 ) ライセンス: Link先を確認 | Thibault Formal, Carlos Lassance, Benjamin Piwowarski, St\'ephane Clinchant | (参考訳) Approximate Nearest Neighborsサーチと組み合わせた高密度表現に基づくニューラルレトリバーは、蒸留の成功とトレーニングのサンプルのより優れたサンプリングにより、最近多くの注目を集めているが、それでも同じバックボーンアーキテクチャに依存している。
その間、伝統的な逆インデックス技術によって引き起こされたスパース表現学習は、明示的な語彙マッチングのような望ましいir優先から受け継がれている。
いくつかのアーキテクチャの変種が提案されているが、そのようなモデルの訓練にはより少ない労力が費やされている。
本研究では, 希薄な膨張型レトリバーであるSPLADEを用いて, 蒸留, 硬負マイニング, および事前学習言語モデルの初期化の効果について検討することにより, 密集モデルと同等のトレーニング改善の恩恵を受けることができるかを示す。
さらに、ドメイン内およびゼロショット設定における効率性と効率の関係について検討し、十分な表現力のあるモデルにおける両方のシナリオにおける最先端の結果をもたらす。 Neural retrievers based on dense representations combined with Approximate Nearest Neighbors search have recently received a lot of attention, owing their success to distillation and/or better sampling of examples for training -- while still relying on the same backbone architecture. In the meantime, sparse representation learning fueled by traditional inverted indexing techniques has seen a growing interest, inheriting from desirable IR priors such as explicit lexical matching. While some architectural variants have been proposed, a lesser effort has been put in the training of such models. In this work, we build on SPLADE -- a sparse expansion-based retriever -- and show to which extent it is able to benefit from the same training improvements as dense models, by studying the effect of distillation, hard-negative mining as well as the Pre-trained Language Model initialization. We furthermore study the link between effectiveness and efficiency, on in-domain and zero-shot settings, leading to state-of-the-art results in both scenarios for sufficiently expressive models. | 翻訳日:2022-05-13 12:23:37 公開日:2022-05-12 |
# 量子コンピュータはまだ実用的か?
テンソルネットワークを用いた推薦システムにおける特徴選択の事例 Are Quantum Computers Practical Yet? A Case for Feature Selection in Recommender Systems using Tensor Networks ( http://arxiv.org/abs/2205.04490v2 ) ライセンス: Link先を確認 | Artyom Nikitin, Andrei Chertkov, Rafael Ballester-Ripoll, Ivan Oseledets, Evgeny Frolov | (参考訳) 協調フィルタリングモデルは通常、コンテンツベースのフィルタリングモデルよりもよく機能し、注意深い機能工学を必要としない。
しかし、コールドスタートのシナリオでは、協調情報が不足したり、利用できない場合もあれば、コンテンツ情報が豊富である場合もあります。
したがって、コールドスタートレコメンデーションを改善する特定の機能の選択は重要かつ非自明なタスクとなる。
nembriniらによる最近のアプローチでは、機能選択は協調モデルとコンテンツベースモデルの相関互換性によって推進されている。
この問題はQUBO ( Quadratic Unconstrained Binary Optimization) として定式化され、NPハードな複雑さのため、D-Waveが提供する量子コンピュータ上で量子アニーリングを用いて解かれる。
報告された結果に触発されて、我々は現在の量子アニールがこの問題に勝るという考えを論じ、代わりに古典的なアルゴリズムに焦点をあてる。
特に、テンソルネットワークと多線型代数に基づく最近提案されたブラックボックスオプティマイザであるTTOptを用いてQUBOに取り組む。
本研究では,何千もの特徴を有する大規模問題に対して,この手法の計算可能性を示すとともに,各データ集合のd-waveによる解と同等の解を実証的に示す。 Collaborative filtering models generally perform better than content-based filtering models and do not require careful feature engineering. However, in the cold-start scenario collaborative information may be scarce or even unavailable, whereas the content information may be abundant, but also noisy and expensive to acquire. Thus, selection of particular features that improve cold-start recommendations becomes an important and non-trivial task. In the recent approach by Nembrini et al., the feature selection is driven by the correlational compatibility between collaborative and content-based models. The problem is formulated as a Quadratic Unconstrained Binary Optimization (QUBO) which, due to its NP-hard complexity, is solved using Quantum Annealing on a quantum computer provided by D-Wave. Inspired by the reported results, we contend the idea that current quantum annealers are superior for this problem and instead focus on classical algorithms. In particular, we tackle QUBO via TTOpt, a recently proposed black-box optimizer based on tensor networks and multilinear algebra. We show the computational feasibility of this method for large problems with thousands of features, and empirically demonstrate that the solutions found are comparable to the ones obtained with D-Wave across all examined datasets. | 翻訳日:2022-05-13 12:23:17 公開日:2022-05-12 |
# 識別最大化損失:損失と校正を単純に置き換えるだけで、分類精度、不確実性推定、分散検出を効率的に改善する Distinction Maximization Loss: Efficiently Improving Classification Accuracy, Uncertainty Estimation, and Out-of-Distribution Detection Simply Replacing the Loss and Calibrating ( http://arxiv.org/abs/2205.05874v1 ) ライセンス: Link先を確認 | David Mac\^edo, Cleber Zanchettin, Teresa Ludermir | (参考訳) 堅牢な決定論的ディープニューラルネットワークの構築は依然として課題である。
一方で, 分類精度を低下させるコストを犠牲にして, 分布外検出を改善する手法もある。
一方で、分類精度、分布外検出、不確実性推定を同時に向上させる手法もあるが、ハイパーパラメータをチューニングするために同じモデルを何度もトレーニングすることに加えて、推論効率は低下する。
本稿では,一般的に使用されているSoftMax損失(線形出力層,SoftMaxアクティベーション,クロスエントロピー損失)の代替として機能するDisMax損失を用いた,決定論的深層ニューラルネットワークのトレーニングを提案する。
IsoMax+の損失から始まり、正しいクラスに関連するものだけでなく、すべてのプロトタイプまでの距離に基づいた新しいロジットを作成しました。
また,分数確率正規化 ( fractional probability regularization) と呼ぶ手法を構築するための画像拡張手法を提案する。
さらに,分散検出を行う新たなスコアと,トレーニング後のネットワークのキャリブレーションを高速化する手法を提案する。
実験の結果,dismaxは,ハイパーパラメータチューニングや繰り返しモデルトレーニングを回避し,分類精度,不確実性推定,推論効率,分布外検出において,現在のアプローチをほぼ同時に上回ることがわかった。
この論文では、SoftMaxの損失をDisMaxの損失に置き換え、結果を再現するコードがhttps://github.com/dlmacedo/distinction-maximization-lossで公開されている。 Building robust deterministic deep neural networks is still a challenge. On the one hand, some approaches improve out-of-distribution detection at the cost of reducing classification accuracy in some situations. On the other hand, some methods simultaneously increase classification accuracy, out-of-distribution detection, and uncertainty estimation, but reduce inference efficiency, in addition to training the same model many times to tune hyperparameters. In this paper, we propose training deterministic deep neural networks using our DisMax loss, which works as a drop-in replacement for the commonly used SoftMax loss (i.e., the combination of the linear output layer, the SoftMax activation, and the cross-entropy loss). Starting from the IsoMax+ loss, we created novel logits that are based on the distance to all prototypes rather than just the one associated with the correct class. We also propose a novel way to augment images to construct what we call fractional probability regularization. Moreover, we propose a new score to perform out-of-distribution detection and a fast way to calibrate the network after training. Our experiments show that DisMax usually outperforms all current approaches simultaneously in classification accuracy, uncertainty estimation, inference efficiency, and out-of-distribution detection, avoiding hyperparameter tuning and repetitive model training. The code to replace the SoftMax loss with the DisMax loss and reproduce the results in this paper is available at https://github.com/dlmacedo/distinction-maximization-loss. | 翻訳日:2022-05-13 12:21:12 公開日:2022-05-12 |
# 単視点3次元再構成のためのトポロジカルアウェアな変形場 Topologically-Aware Deformation Fields for Single-View 3D Reconstruction ( http://arxiv.org/abs/2205.06267v1 ) ライセンス: Link先を確認 | Shivam Duggal, Deepak Pathak | (参考訳) 本稿では,非整合なカテゴリ固有の画像収集から3次元オブジェクト形状と密接なオブジェクト対応を学習するための新しいフレームワークを提案する。
3D形状は、カテゴリ固有の符号付き距離場の変形として暗黙的に生成され、3Dの監督なしに、非整列画像コレクションからのみ教師なしの方法で学習される。
一般に、インターネット上の画像収集にはいくつかのカテゴリ内幾何学的およびトポロジー的なバリエーションが含まれており、異なる椅子は異なるトポロジーを持つことができるため、ジョイント形状と対応推定の作業はより困難になる。
このため、先行研究は、クロスインスタンス対応をモデル化することなく、各3次元オブジェクト形状を個別に学習することに集中するか、最小限のカテゴリー内トポロジ的変動を持つカテゴリで関節形状と対応性の推定を行う。
対象空間の3次元点を圏固有の標準空間の高次元点にマッピングするトポロジカルな暗黙変形場を学習することで、これらの制約を克服する。
まず, 対象空間内の各3次元点を, トポロジ的に認識された変形場を用いて学習したカテゴリ固有の標準空間に暗黙的に変形させ, そして, 標準符号距離場として3次元形状を再構成することにより, 基礎となる3次元形状を再構成する。
標準形状と変形場の両方を、学習されたリカレントレイマーチ(SRN)を微分可能なレンダリングモジュールとして、逆グラフィック方式で学習する。
TARSと呼ばれる我々のアプローチは、ShapeNet、Pascal3D+、CUB、Pix3Dといったいくつかのデータセット上で、最先端の再構築フィリティを実現する。
結果ビデオとコード: https://shivamduggal4.github.io/tars-3d/ We present a new framework for learning 3D object shapes and dense cross-object 3D correspondences from just an unaligned category-specific image collection. The 3D shapes are generated implicitly as deformations to a category-specific signed distance field and are learned in an unsupervised manner solely from unaligned image collections without any 3D supervision. Generally, image collections on the internet contain several intra-category geometric and topological variations, for example, different chairs can have different topologies, which makes the task of joint shape and correspondence estimation much more challenging. Because of this, prior works either focus on learning each 3D object shape individually without modeling cross-instance correspondences or perform joint shape and correspondence estimation on categories with minimal intra-category topological variations. We overcome these restrictions by learning a topologically-aware implicit deformation field that maps a 3D point in the object space to a higher dimensional point in the category-specific canonical space. At inference time, given a single image, we reconstruct the underlying 3D shape by first implicitly deforming each 3D point in the object space to the learned category-specific canonical space using the topologically-aware deformation field and then reconstructing the 3D shape as a canonical signed distance field. Both canonical shape and deformation field are learned end-to-end in an inverse-graphics fashion using a learned recurrent ray marcher (SRN) as a differentiable rendering module. Our approach, dubbed TARS, achieves state-of-the-art reconstruction fidelity on several datasets: ShapeNet, Pascal3D+, CUB, and Pix3D chairs. Result videos and code at https://shivamduggal4.github.io/tars-3D/ | 翻訳日:2022-05-13 12:20:43 公開日:2022-05-12 |
# nflat:中国のエンティティ認識のための非フラットラティストランス NFLAT: Non-Flat-Lattice Transformer for Chinese Named Entity Recognition ( http://arxiv.org/abs/2205.05832v1 ) ライセンス: Link先を確認 | Shuang Wu, Xiaoning Song, Zhenhua Feng, Xiaojun Wu | (参考訳) 近年、FLATは中国の名前付きエンティティ認識(NER)において大きな成功を収めている。
単語境界の曖昧さや単語意味論の欠如によって生じる困難を緩和する平坦な格子を構築することで語彙強調を実現する。
この目的のためにFLATは、開始文字と終了文字の位置情報を用いて一致する単語を接続する。
しかし、この方法は長いテキストを扱う際により多くの単語にマッチし、非常に長い入力シーケンスをもたらす。
したがって、セルフアテンションと計算コストで使用されるメモリを増加させる。
この問題に対処するため,非平坦格子を構成することで計算コストとメモリコストを効果的に削減する新しい語彙拡張手法であるInterFormerを提案する。
さらに,中国NERタスクのための完全モデルであるNFLATを実装した。
NFLATはレキシコン融合とコンテキスト特徴符号化を分離する。
FLATと比較して、"word-character" と "word-word" の不要な注意計算を減らす。
これにより、メモリ使用量が約50\%削減され、ネットワークトレーニングにより広範なレキシコンやバッチを使用することができる。
いくつかの有名なベンチマークで得られた実験結果は、最先端の文字-単語ハイブリッドモデルよりも提案手法が優れていることを示している。 Recently, FLAT has achieved great success in Chinese Named Entity Recognition (NER). This method achieves lexical enhancement by constructing a flat lattice, which mitigates the difficulties posed by blurred word boundaries and the lack of word semantics. To this end, FLAT uses the position information of the starting and ending characters to connect the matching words. However, this method is likely to match more words when dealing with long texts, resulting in very long input sequences. Therefore, it increases the memory used by self-attention and computational costs. To deal with this issue, we advocate a novel lexical enhancement method, InterFormer, that effectively reduces the amount of computational and memory costs by constructing the non-flat-lattice. Furthermore, we implement a complete model, namely NFLAT, for the Chinese NER task. NFLAT decouples lexicon fusion and context feature encoding. Compared with FLAT, it reduces unnecessary attention calculations in "word-character" and "word-word". This reduces the memory usage by about 50\% and can use more extensive lexicons or higher batches for network training. The experimental results obtained on several well-known benchmarks demonstrate the superiority of the proposed method over the state-of-the-art character-word hybrid models. | 翻訳日:2022-05-13 12:20:13 公開日:2022-05-12 |
# Fuse-Motive Conversation SystemのためのChit-Chats強化タスク指向対話コーパス A Chit-Chats Enhanced Task-Oriented Dialogue Corpora for Fuse-Motive Conversation Systems ( http://arxiv.org/abs/2205.05886v1 ) ライセンス: Link先を確認 | Changhong Yu, Chunhong Zhang, Qi Sun | (参考訳) 知的対話システム構築の目的は、タスク指向対話システム(TOD)と、チットチャット(CC)のためのオープンドメインシステムという2つの動機のもと、大きく分けて追求されてきた。
従来のTODダイアログシステムはベンチマークテストセットでうまく機能するが、実際には自然シナリオに晒される際には望ましくない失敗を招き、マルチターンインタラクションにおいてTODとCCの両方を融合させる高いモチベーション・多様性を持つことができる。
産業用todシステムは,ユーザとtodとccのモチベーションをやり取りできる必要があるため,todとccの両方を含むヒューズモチベーション対話データセットの構築が重要である。
以前の作業のほとんどは、大規模なデータセットの収集と注釈付けに群衆労働者に依存しており、英語の設定に制限されている。
一方,我々の研究はより効果的な方法でこの問題に対処し,CCET(China Chat-Enhanced-Task)と呼ばれるマルチターン対話データセットをリリースしている。
また, CC音声で統合されたTODセッションの評価指標とともに, ヒューズ動機対話の形式化手法を提案する。 The goal of building intelligent dialogue systems has largely been separately pursued under two motives: task-oriented dialogue (TOD) systems, and open-domain systems for chit-chat (CC). Although previous TOD dialogue systems work well in the testing sets of benchmarks, they would lead to undesirable failure when being exposed to natural scenarios in practice, where user utterances can be of high motive-diversity that fusing both TOD and CC in multi-turn interaction. Since an industrial TOD system should be able to converse with the user between TOD and CC motives, constructing a fuse-motive dialogue dataset that contains both TOD or CC is important. Most prior work relies on crowd workers to collect and annotate large scale dataset and is restricted to English language setting. Our work, on the contrary, addresses this problem in a more effective way and releases a multi-turn dialogues dataset called CCET (Chinese Chat-Enhanced-Task). Meanwhile, we also propose a line of fuse-motive dialogues formalization approach, along with several evaluation metrics for TOD sessions that are integrated by CC utterances. | 翻訳日:2022-05-13 12:19:56 公開日:2022-05-12 |