このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210106となっている論文です。

PDF登録状況(公開日: 20210106)

TitleAuthorsAbstract論文公表日・翻訳日
# π共役系のS1(21Ag-)状態からのスピン絡み合った三重対対の光投影と空間分離

Optical projection and spatial separation of spin entangled triplet-pairs from the S1 (21Ag-) state of pi-conjugated systems ( http://arxiv.org/abs/2002.12465v2 )

ライセンス: Link先を確認
Raj Pandya, Qifei Gu, Alexandre Cheminal, Richard Y. S. Chen, Edward P. Booker, Richard Soucek, Michel Schott, Laurent Legrand, Fabrice Mathevet, Neil C. Greenham, Thierry Barisien, Andrew J. Musser, Alex W. Chin and Akshay Rao(参考訳) S1(21Ag-)状態は自然および合成π共役物質の光学的に暗い状態であり、エネルギー回収、光保護、一重項分裂などの光電子過程において重要な役割を果たす。 この広範な重要性にもかかわらず、s1 (21ag-) の波動関数の電子構造の直接的実験的特徴付けは希少で不確かであるが、先進的な理論では豊富なマルチエクソン性を持つと予測されている。 ここでは, 高分子, ポリジアセチレン, カロテノイドについて研究し, s1 (21ag-) がスピン絡み合った三重項励起子(1(tt))から強い寄与を持つ重ね合わせ状態であることを実験的に証明した。 さらに, 三重項吸収遷移を用いたs1(21ag-)波動関数の光学的操作により, 1(tt)成分を空間的に分離した三重項パイアの多様体に選択的に投影し, 寿命を最大1桁まで拡大し, 収率は蛍光間カップリングのレベルに大きく依存することを示した。 本研究は, pi共役材料中の21ag状態の統一像を示し, 分子量子技術のための一重項核分裂, フォトバイオロジー, エンタングルド(spin-1)粒子の生成にそのダイナミクスを利用するための新しい経路を開拓した。

The S1 (21Ag-) state is an optically dark state of natural and synthetic pi-conjugated materials that can play a critical role in optoelectronic processes such as, energy harvesting, photoprotection and singlet fission. Despite this widespread importance, direct experimental characterisations of the electronic structure of the S1 (21Ag-) wavefunction have remained scarce and uncertain, although advanced theory predicts it to have a rich multi-excitonic character. Here, studying an archetypal polymer, polydiacetylene, and carotenoids, we experimentally demonstrate that S1 (21Ag-) is a superposition state with strong contributions from spin-entangled pairs of triplet excitons (1(TT)). We further show that optical manipulation of the S1 (21Ag-) wavefunction using triplet absorption transitions allows selective projection of the 1(TT) component into a manifold of spatially separated triplet-pairs with lifetimes enhanced by up to one order of magnitude and whose yield is strongly dependent on the level of inter-chromophore coupling. Our results provide a unified picture of 21Ag-states in pi-conjugated materials and open new routes to exploit their dynamics in singlet fission, photobiology and for the generation of entangled (spin-1) particles for molecular quantum technologies.
翻訳日:2023-06-01 12:18:00 公開日:2021-01-06
# コロイドCdSe量子リングの光学的および電子的性質

Optical and electronic properties of colloidal CdSe Quantum Rings ( http://arxiv.org/abs/2003.11897v2 )

ライセンス: Link先を確認
James Xiao, Yun Liu, Violette Steinmetz, Mustafa \c{C}a\u{g}lar, Jeffrey Mc Hugh, Tomi Baikie, Nicolas Gauriot, Malgorzata Nguyen, Edoardo Ruggeri, Zahra Andaji-Garmaroudi, Samuel D. Stranks, Laurent Legrand, Thierry Barisien, Richard H. Friend, Neil C. Greenham, Akshay Rao and Raj Pandya(参考訳) 発光コロイドCdSeナノリングは、非自明なトロイダル形状から生じる特異な物理のポテンシャルによって興味を惹いた新しいタイプの半導体構造である。 しかし、複雑なトポロジーを持つこれらの物質の励起子の性質と動力学はまだよく理解されていない。 ここでは, フェムト秒振動分光, 温度分解光ルミネッセンス (pl) および単粒子測定を併用して研究を行った。 その結果,CdSeナノプレートレットのナノリングへの変換において,血小板の中心を穿孔することにより発光寿命が減少し,リングサイズと厚さのアンサンブル変化により発光スペクトルが広がることがわかった。 ナノリングのpl量子収率(約10%)と血小板(約30%)の低下は、以下の2つの相互作用によって引き起こされる。 (i)200cm-1のエキシトンとCdSeLOフォノン (II) ナノリングに高い表面電荷(〜50mV)を与えるセレンに富んだ負電荷トラップ。 これらの弱い放射性トラップ部位の個体群は、エキシトン放出に対する低温におけるトラップ放出の増加とともに、放出特性を支配している。 以上の結果から, ナノリングにおける励起子の性質と, フォノンと表面電荷の影響が, plスペクトルの幅広い形状とpl量子収率損失の起源を詳細に説明できることがわかった。 さらに, ナノリングの励起特性はトロイダル形状の結果であるだけでなく, 血小板中心の穿刺によって生じるトラップの結果でもあることが示唆された。

Luminescent colloidal CdSe nanorings are a new type of semiconductor structure that have attracted interest due to the potential for unique physics arising from their non-trivial toroidal shape. However, the exciton properties and dynamics of these materials with complex topology are not yet well understood. Here, we use a combination of femtosecond vibrational spectroscopy, temperature-resolved photoluminescence (PL), and single particle measurements to study these materials. We find that on transformation of CdSe nanoplatelets to nanorings, by perforating the center of platelets, the emission lifetime decreases and the emission spectrum broadens due to ensemble variations in the ring size and thickness. The reduced PL quantum yield of nanorings (~10%) compared to platelets (~30%) is attributed to an enhanced coupling between: (i) excitons and CdSe LO-phonons at 200 cm-1 and (ii) negatively charged selenium-rich traps which give nanorings a high surface charge (~-50 mV). Population of these weakly emissive trap sites dominates the emission properties with an increased trap emission at low temperatures relative to excitonic emission. Our results provide a detailed picture of the nature of excitons in nanorings and the influence of phonons and surface charge in explaining the broad shape of the PL spectrum and the origin of PL quantum yield losses. Furthermore, they suggest that the excitonic properties of nanorings are not solely a consequence of the toroidal shape but are also a result of traps introduced by puncturing the platelet center.
翻訳日:2023-05-31 12:03:07 公開日:2021-01-06
# 連星ブラックホール情報損失パラドックスと今後の展望

Binary Black Hole Information Loss Paradox & Future Prospects ( http://arxiv.org/abs/2004.04695v4 )

ライセンス: Link先を確認
Ayan Mitra, Pritam Chattopadhyay, Goutam Paul, Vasilios Zarikas(参考訳) ブラックホール情報パラドックスに取り組む様々な手法が提案されている。 パラドックスに取り組むための新しい方法は、擬似密度演算子を使用することである。 このアプローチは、1つのブラックホールに対する2量子エンタングルシステムでこの問題に対処することに成功している。 本稿では,greenberger horne zeilinger (ghz) 状態の3量子ビット系の配置を用いて,二値ブラックホール系との相互作用について述べる。 結果が理論値と良好に一致していることが示される。 また、二元ブラックホール系の量子ビット間の相関を考慮し、2つのブラックホール間の相互作用についても検討した。 この結果は,提案モデルと完全に一致している。 また、この検証に加えて、我々の光学装置における現代の重力波検出を入力源として利用し、量子情報や絡み合いに関するブラックホールの性質の研究において、重力波の観測資源とのギャップを埋める方法についても提案する。

Various techniques to tackle the black hole information paradox have been proposed. A new way out to tackle the paradox is via the use of a pseudo-density operator. This approach has successfully dealt with the problem with a two qubit entangle system for a single black hole. In this paper, we present the interaction with a binary black hole system by using an arrangement of the three qubit system of Greenberger Horne Zeilinger (GHZ) state. We show that our results are in excellent agreement with the theoretical value. We have also studied the interaction between the two black holes by considering the correlation between the qubits in the binary black hole system. The results depict a complete agreement with the proposed model. In addition to the verification, we also propose how modern detection of gravitational waves can be used on our optical setup as an input source, thus bridging the gap with the gravitational wave's observational resources in terms of studying black hole properties with respect to quantum information and entanglement.
翻訳日:2023-05-25 08:31:26 公開日:2021-01-06
# ヘテロ核長核Rydberg分子

Heteronuclear long-range Rydberg molecules ( http://arxiv.org/abs/2005.12672v2 )

ライセンス: Link先を確認
Michael Peper and Johannes Deiglmayr(参考訳) 一光子UV光解離による39Kと133Cの二重種磁気光学トラップにおけるホモ核Cs2,K2およびヘテロ核CsK長距離配位子の形成を示す。 ホモ核およびヘテロ核の光解離速度の異なる基底状態密度依存性と、自己イオン化による安定な分子イオンの検出は、曖昧な割り当てをもたらす。 長距離リドバーグ分子のバウンドバウンドミリ波分光を行い、1光子光結合ではアクセスできない分子状態にアクセスする。 最新の理論モデルと原子パラメータに基づく計算は、ホモ核とヘテロ核の長距離リドベルク分子から得られる全データの集合を一貫して再現しない。 これは、ヘテロ核長距離リドバーグ分子の光結合とミリ波分光が理論モデルの発展の基準となることを示している。

We present the formation of homonuclear Cs2, K2, and heteronuclear CsK long-range Rydberg molecules in a dual-species magneto-optical trap for 39K and 133Cs by one-photon UV photoassociation. The different ground-state-density dependence of homo- and heteronuclear photoassociation rates and the detection of stable molecular ions resulting from auto-ionization provide an unambiguous assignment. We perform bound-bound millimeter-wave spectroscopy of long-range Rydberg molecules to access molecular states not accessible by one-photon photoassociation. Calculations based on the most recent theoretical model and atomic parameters do not reproduce the full set of data from homo- and heteronuclear long-range Rydberg molecules consistently. This shows that photoassociation and millimeter-wave spectroscopy of heteronuclear long-range Rydberg molecules provide a benchmark for the development of theoretical models.
翻訳日:2023-05-18 07:41:13 公開日:2021-01-06
# 量子計算

Quantum Computation ( http://arxiv.org/abs/2006.02799v2 )

ライセンス: Link先を確認
Bhupesh Bishnoi(参考訳) 本研究ノートでは,量子計算と応用,量子計算とアルゴリズム,量子通信プロトコル,および量子工学者,研究者,科学者のための普遍量子計算を解説し,量子計算の核となる原理と実用的応用領域について概説する。 まず,現代のマイクロプロセッサが支配される前,量子コンピューティングがコンピュータの初期から出現した歴史的展望について論じる。 そして、この10年でムーアの法則の日没と共に、その探求が再び復活した。 物理系の挙動への計算のマッピングは、半導体や超伝導体を用いて、原子から光子まで幅広い物理系で量子ビットがどのように実現されるかを考えることで、歴史的な挑戦である。 計算アルゴリズムは、様々な物理システムと、量子システムによって提供されるこれらの新しい能力のために、通常の古典的コンピュータと比較して量子システムに情報をエンコードする可能性によっても変化する。 我々はまた、これらの進歩の新たな工学、科学、技術、ビジネス、社会的意味についても検討する。 量子計算パラダイムと古典計算パラダイムの大きな違いについて述べる。 実際の量子計算システムの開発者が現在直面しているエンジニアリング上の課題について議論し、理解する。 量子コンピュータが正しく機能するために必要な必須技術を評価する。 次に、これらの新しい計算機能に触発できる潜在的なビジネスアプリケーションについて述べます。 我々は、IBM Quantum Experienceを使って、小さなスケールで現実の問題を実行する。

In this research notebook in the four-part, quantum computation and applications, quantum computation and algorithms, quantum communication protocol, and universal quantum computation for quantum engineers, researchers, and scientists, we will discuss and summarized the core principles and practical application areas of quantum computation. We first discuss the historical prospect from which quantum computing emerged from the early days of computing before the dominance of modern microprocessors. And the re-emergence of that quest with the sunset of Moore's law in the current decade. The mapping of computation onto the behavior of physical systems is a historical challenge vividly illustrate by considering how quantum bits may be realized with a wide variety of physical systems, spanning from atoms to photons, using semiconductors and superconductors. The computing algorithms also change with the underline variety of physical systems and the possibility of encoding the information in the quantum systems compared to the ordinary classical computers because of these new abilities afforded by quantum systems. We will also consider the emerging engineering, science, technology, business, and social implications of these advancements. We will describe a substantial difference between quantum and classical computation paradigm. After we will discuss and understand engineering challenges currently faced by developers of the real quantum computation system. We will evaluate the essential technology required for quantum computers to be able to function correctly. Later on, discuss the potential business application, which can be touch by these new computation capabilities. We utilize the IBM Quantum Experience to run the real-world problem, although on a small scale.
翻訳日:2023-05-17 04:31:45 公開日:2021-01-06
# 長距離リドバーグ分子の光解離

Photodissociation of long-range Rydberg molecules ( http://arxiv.org/abs/2007.03371v2 )

ライセンス: Link先を確認
Michael Peper and Johannes Deiglmayr(参考訳) 電子物性を特徴付けるツールとして,超低温長距離配位Rydberg分子の光解離を示す。 我々は、2つの結合原子の高度に絡み合った電子スピンと核スピンでk2 37p分子を光結合し、高周波光解離を用いた非相互作用原子への分子状態の投影により、絡み合いを定量化する。 実験的な光解離速度と理論的予測を比較することで、光関連分子の電子的および核的波動関数をさらに特徴づける。 形成した長距離Rydberg分子の完全なキャラクタリゼーションに基づいて、Rydberg原子との相互作用を通して自由基底原子の超微細スピンフリップを実演する。

We present photodissociation of ultracold long-range Rydberg molecules as a tool to characterize their electronic properties. We photoassociate K2 37P molecules with highly entangled electronic and nuclear spins of the two bound atoms and quantify the entanglement by projection of the molecular state onto non-interacting atoms using radiofrequency photodissociation. By comparison of experimental photodissociation rates with theoretical predictions we further characterize the electronic and nuclear wavefunction of the photoassociated molecules. Based on the complete characterization of the formed long-range Rydberg molecules, we demonstrate a full hyperfine-spin flip of a free ground-state atom through the interaction with a Rydberg atom.
翻訳日:2023-05-11 02:00:01 公開日:2021-01-06
# 拡張Lipkin-Meshkov-Glick Hamiltonian

Extended Lipkin-Meshkov-Glick Hamiltonian ( http://arxiv.org/abs/2009.03593v2 )

ライセンス: Link先を確認
R. Romano, X. Roca-Maza, G. Col\`o, and Shihang Shen(参考訳) Lipkin-Meshkov-Glick (LMG) モデルは、多粒子系を扱うための様々な近似形式の有効性をテストするために考案された。 このモデルは、実際の物理システムの主要な特徴を捉えるために、正確に解決可能で非自明に構築された。 本稿では, 物理学の異なる分野において共通に使用される異なる多体近似が, 正確な lmg 解を明らかに記述できないという事実を概説する。 LMGモデルで採用されたものと同様の仮定で、一般の2体相互作用に基づく新しいハミルトンモデルを提案する。 新しいモデル (Extended LMG) は、元の LMG モデルよりも一般性が高いため、適用範囲が潜在的に大きいだけでなく、その正確な解の背後にある物理学も、一般的な多体近似によってより良く捉えることができる。 この改善の基盤として、ハミルトニアンにおいて、構成成分の数に依存してシステムを分極する新しい用語があり、関連する対称性の破れが議論され、より現実的なシステムの研究にいくつかの意味がある。

The Lipkin-Meshkov-Glick (LMG) model was devised to test the validity of different approximate formalisms to treat many-particle systems. The model was constructed to be exactly solvable and yet non-trivial, in order to capture some of the main features of real physical systems. In the present contribution, we explicitly review the fact that different many-body approximations commonly used in different fields in physics clearly fail to describe the exact LMG solution. With similar assumptions as those adopted for the LMG model, we propose a new Hamiltonian based on a general two-body interaction. The new model (Extended LMG) is not only more general than the original LMG model and, therefore, with a potentially larger spectrum of applicability, but also the physics behind its exact solution can be much better captured by common many-body approximations. At the basis of this improvement lies a new term in the Hamiltonian that depends on the number of constituents and polarizes the system; the associated symmetry breaking is discussed, together with some implications for the study of more realistic systems.
翻訳日:2023-05-03 05:13:25 公開日:2021-01-06
# 99%の忠実度を有するファイバ互換フォトニックフィードフォワード

Fiber-compatible photonic feed-forward with 99% fidelity ( http://arxiv.org/abs/2009.07868v2 )

ライセンス: Link先を確認
G. L. Zanin, M. J. Jacquet, M. Spagnolo, P. Schiansky, I. Alonso Calafell, L. A. Rozema and P. Walther(参考訳) フォトニック量子計算と量子インターネットの確立には、既存のインフラと互換性を持つために、ファイバベースの計測とフィードフォワードが必要である。 本稿では,光通信波長における単一光子偏光状態の遠隔調整を行い,その性能をベンチマークした,ファイバ互換の計測・フィードフォワード方式を提案する。 1つの光子の射影測定の結果は、超高速光スイッチで第2光子が取る経路を決定論的に制御する。 経路によく調整された {bulk} 受動偏光光学を配置することにより、他の実験誤差を補正した後、測定およびフィードフォワード忠実度(99.0$\pm$1%)を達成する。 本手法は,計算,通信,テレポーテーションを含む光量子実験に有用である。

Both photonic quantum computation and the establishment of a quantum internet require fiber-based measurement and feed-forward in order to be compatible with existing infrastructure. Here we present a fiber-compatible scheme for measurement and feed-forward, whose performance is benchmarked by carrying out remote preparation of single-photon polarization states at telecom-wavelengths. The result of a projective measurement on one photon deterministically controls the path a second photon takes with ultrafast optical switches. By placing well-calibrated {bulk} passive polarization optics in the paths, we achieve a measurement and feed-forward fidelity of (99.0 $\pm$ 1)%, after correcting for other experimental errors. Our methods are useful for photonic quantum experiments including computing, communication, and teleportation.
翻訳日:2023-05-02 02:19:50 公開日:2021-01-06
# 量子オートマトン回路における測定誘起相転移

Measurement-induced phase transitions in quantum automaton circuits ( http://arxiv.org/abs/2010.02196v2 )

ライセンス: Link先を確認
Jason Iaconis, Andrew Lucas, Xiao Chen(参考訳) 投影計測を受ける汎用量子オートマトン回路における絡み合いダイナミクスについて検討した。 我々は、r\'enyiエントロピーの大規模シミュレーションを可能にするだけでなく、指向型パーコレーション普遍性クラスに属する古典的なビット文字列モデルを用いて解釈可能な、エンタングルメントダイナミクスの物理画像を提供する効率的なアルゴリズムを設計する。 本研究では,EPRペアによって形成される状態の浄化動態と,製品状態から始まる絡み合いの成長について検討する。 どちらの場合においても、古典的有向パーコレーションの普遍性クラスにダイナミクスがあることを数値的に検証する。

We study the entanglement dynamics in a generic quantum automaton circuit subjected to projective measurements. We design an efficient algorithm which not only allows us to perform large scale simulation for the R\'enyi entropy but also provides a physical picture for the entanglement dynamics, which can be interpreted in terms of a classical bit-string model which belongs to the directed percolation universality class. We study the purification dynamics of a state formed by EPR pairs, and the growth of entanglement starting from a product state. In both cases, we verify numerically that the dynamics is in the universality class of classical directed percolation.
翻訳日:2023-04-29 22:26:56 公開日:2021-01-06
# 精神状態は非ローカルか?

Are mental states nonlocal? ( http://arxiv.org/abs/2010.03389v3 )

ライセンス: Link先を確認
Ovidiu Cristinel Stoica(参考訳) 精神状態が物理的状態の機能であるならば、それらは非局所的であり、説明される意味を持つ。 私は、心的状態が脳物理学に還元可能であり、それらが統合された経験であるならば、この非局所性は古典物理学が不十分であることを意味する。 その議論を思考実験で説明します。 非局所性の証明は単純で一般的なものであるが、結果は直感的ではないので、私はその記事の大部分を反対論、代替案、含意について論じている。 量子物理学がこの種の非局所性を許容する可能性について議論する。

I show that if mental states are function of physical states, then they are nonlocal, in a sense that will be explained. I argue that, if mental states are reducible to brain physics, and if they are integrated experiences, this nonlocality implies that Classical Physics is not enough, in particular the computationalist thesis does not hold. I illustrate the argument with a thought experiment. The proof of nonlocality is straightforward and general, but the result is counterintuitive, so I spend a large part of the article discussing possible objections, alternatives, and implications. I discuss the possibility that Quantum Physics allows this kind of nonlocality.
翻訳日:2023-04-29 19:53:20 公開日:2021-01-06
# 絡み合いの検出は、互いに偏りのないベースでより効果的である

Detecting Entanglement can be More Effective with Inequivalent Mutually Unbiased Bases ( http://arxiv.org/abs/2011.15078v2 )

ライセンス: Link先を確認
B. C. Hiesmayr, D. McNulty, S. Baek, S. Singha Roy, J. Bae, D. Chru\'sci\'nski(参考訳) Mutually Unbiased Bases (MUBs) は、量子状態の検証において、特に最適な量子状態トモグラフィーのための完全なセットを利用する際に、標準的なツールを提供する。 本研究では,非同値な mub 集合による絡み合いの検出について,特に拡張不能な mub に着目して検討する。 これらは、追加の偏りのない基底が構築できない基底であり、量子状態の検証には適さない。 ここでは、より高次元の他の非等価集合と同様に、拡張不可能な MUB が絡み合いの検証においてより効果的であることを示す。 さらに, 次元が大きくなるにつれて, 非等価な MUB を探索し, ハイゼンベルク・ワイル MUB 内に定期的にそのような集合が存在することを示す。 実験装置に最適MUBを付加することにより,より大規模な絡み合った状態を検出する段階的アプローチが可能であるため,実験者にとって特に有用である。

Mutually unbiased bases (MUBs) provide a standard tool in the verification of quantum states, especially when harnessing a complete set for optimal quantum state tomography. In this work, we investigate the detection of entanglement via inequivalent sets of MUBs, with a particular focus on unextendible MUBs. These are bases for which an additional unbiased basis cannot be constructed and, consequently, are unsuitable for quantum state verification. Here, we show that unextendible MUBs, as well as other inequivalent sets in higher dimensions, can be more effective in the verification of entanglement. Furthermore, we provide an efficient and systematic method to search for inequivalent MUBs and show that such sets occur regularly within the Heisenberg-Weyl MUBs, as the dimension increases. Our findings are particularly useful for experimentalists since adding optimal MUBs to an experimental setup enables a step-by-step approach to detect a larger class of entangled states.
翻訳日:2023-04-22 14:20:13 公開日:2021-01-06
# グラフェンの超高速電荷ダイナミクスのab-intioによる研究

Ab-intio study of ultrafast charge dynamics in graphene ( http://arxiv.org/abs/2012.00435v2 )

ライセンス: Link先を確認
Q. Z. Li, P. Elliott, J. K. Dewhurst, S. Sharma, S. Shallcross(参考訳) グラフェン単層は、ランドウ・ツェナー=シュタッケルベルク干渉(landau-zener-st\"uckelberg interference)という光場駆動干渉効果の1つを調べるのに理想的な材料である。 しかし、運動量空間における干渉パターンの直接観測は不可能であり、ランダウ-ツェナー-シュタッケルベルク干渉は光学的に誘導された残留電流を通してのみ間接的に観測される。 ここでは,実験で容易に得られる物体である過渡電子運動量密度(emd)が,運動量分解電荷励起の優れた説明を与えることを示す。 時間伝播波動関数を基底状態に投影し,emdと導電帯占有率を直接比較することにより,実時間依存密度関数の計算を行い,この2つの量が良好な一致を示す。 最も強いレーザーパルスでさえも、電子力学は$\pi$バンドによってほぼ完全に支配され、他のバンドへの遷移は強く抑制されている。 したがって、単純なモデルに基づくタイト結合アプローチはグラフェンのレーザー誘起電子動力学に優れた説明をもたらすことが期待できる。

Monolayer graphene provides an ideal material to explore one of the fundamental light-field driven interference effects: Landau-Zener-St\"uckelberg interference. However, direct observation of the resulting interference patterns in momentum space has not proven possible, with Landau-Zener-St\"uckelberg interference observed only indirectly through optically induced residual currents. Here we show that the transient electron momentum density (EMD), an object that can easily be obtained in experiment, provides an excellent description of momentum resolved charge excitation. We employ state-of-the-art time-dependent density function theory calculations, demonstrating by direct comparison of EMD with conduction band occupancy, obtained from projecting the time propagated wavefunction onto the ground state, that the two quantities are in excellent agreement. For even the most intense laser pulses we find that the electron dynamics to be almost completely dominated by the $\pi$-band, with transitions to other bands strongly suppressed. Simple model based tight-binding approaches can thus be expected to provide an excellent description for the laser induced electron dynamics in graphene.
翻訳日:2023-04-22 12:07:02 公開日:2021-01-06
# ベル状態に基づく半量子プライベート比較プロトコルのクリプトアナリシスと改善

Cryptanalysis and improvement of a semi-quantum private comparison protocol based on Bell states ( http://arxiv.org/abs/2012.13851v2 )

ライセンス: Link先を確認
Li Xie, Qin Li, Fang Yu, Xiaoping Lou, Cai Zhang(参考訳) 半量子プライベート比較(SQPC)は、量子能力に制限のある2人の参加者が、秘密の平等を半非正直な第三者(TP)の助けを借りて確実に比較することができる。 最近、江氏はベル状態に基づくSQPCプロトコル(Quantum Inf Process 19(6):180,2020)を提案し、安全であると主張した。 本稿では,江のSQPCプロトコルに対する2種類の攻撃について述べる。 最初の攻撃では、外部の盗聴器が参加者に間違った結果を受け入れる。 第2のタイプの攻撃では、悪意のある参加者は、他の参加者に間違った結果を受け入れるだけでなく、正直な参加者の秘密を学ぶ。 どちらの攻撃も検出されない。 さらに、これらの2種類の攻撃に抵抗できる改良されたSQPCプロトコルを提案する。

Semi-quantum private comparison (SQPC) allows two participants with limited quantum ability to securely compare the equality of their secrets with the help of a semi-dishonest third party (TP). Recently, Jiang proposed a SQPC protocol based on Bell states (Quantum Inf Process 19(6): 180, 2020) and claimed it is secure. In this paper, we present two types of attack on Jiang's SQPC protocol. In the first type of attack, an outside eavesdropper will make participants accept a wrong result. In the second type of attack, a malicious participant will not only make the other participant accept a wrong result, but also learn the secret of the honest participant. Neither type of attack will be detected. In addition, we propose an improved SQPC protocol that can resist these two types of attack.
翻訳日:2023-04-19 04:11:43 公開日:2021-01-06
# Adiabatic Passageによる単一Rydberg励起の実験的創製

Experimental Creation of Single Rydberg Excitations via Adiabatic Passage ( http://arxiv.org/abs/2101.01987v1 )

ライセンス: Link先を確認
Ming-Ti Zhou, Jian-Long Liu, Peng-Fei Sun, Zi-Ye An, Jun Li, Xiao-Hui Bao, Jian-Wei Pan(参考訳) 原子アンサンブルでは、量子情報は一般に単一の集合励起として運ばれる。 単一励起の生成が効率的で堅牢であれば非常に有利である。 ライドバーグ封鎖は、パルス領域を正確に制御し、多くの実験パラメータに敏感な集団ラビ振動による単一励起を決定論的に生成することを可能にする。 本稿では,メソスコピック原子アンサンブルにおけるRydberg励起過程の断熱的高速通過手法を実装した。 中間状態がオフ共振した2光子励起スキームを用い、1つの励起レーザのレーザー周波数を掃く。 チャープされたスキームは、集合Rydberg励起の内部位相を保存し、レーザー強度と周波数デチューニングのばらつきに対してより堅牢である。

In an atomic ensemble, quantum information is typically carried as single collective excitations. It is very advantageous if the creation of single excitations is efficient and robust. Rydberg blockade enables deterministic creation of single excitations via collective Rabi oscillation by precisely controlling the pulse area, being sensitive to many experimental parameters. In this paper, we implement the adiabatic rapid passage technique to the Rydberg excitation process in a mesoscopic atomic ensemble. We make use of a two-photon excitation scheme with an intermediate state off-resonant and sweep the laser frequency of one excitation laser. We find the chirped scheme preserves internal phases of the collective Rydberg excitation and be more robust against variance of laser intensity and frequency detuning.
翻訳日:2023-04-17 18:00:40 公開日:2021-01-06
# 決定論的単一イオン注入器を用いたダイヤモンド中の$^{15}\textrm{NV}^{-}$センターの作製

Fabrication of $^{15}\textrm{NV}^{-}$ centers in diamond using a deterministic single ion implanter ( http://arxiv.org/abs/2101.01979v1 )

ライセンス: Link先を確認
K. Groot-Berning, G. Jacob, C. Osterkamp, F. Jelezko, F. Schmidt-Kaler(参考訳) ダイヤモンドの窒素空白(nv)センターはセンシング、通信、初等量子プロセッサなどいくつかの重要な量子技術のためのプラットフォームである。 本文では, 決定論的単一イオン源を用いた移植によるNV中心の生成について述べる。 このために、同調的にレーザー・クールのシングル$^{15}\textrm{n}_2^+$分子イオンをポールトラップで捕獲し、5.9\,kevのエネルギーで抽出する。 その後、イオンは121(35)\,nmの側方分解能に焦点を合わせ、開口部やマスクによる空間的なフィルタリングなしにダイヤモンド基板に注入される。 高温アニール後、共焦点顕微鏡内のNV中心を検出し、約0.6\,$\%$の変換効率を決定する。 $^{15}\textrm{NV}$ centerは超微細な遷移とコヒーレンス時間で光学的に検出された磁気共鳴(ODMR)によって特徴づけられる。

Nitrogen Vacancy (NV) centers in diamond are a platform for several important quantum technologies, including sensing, communication and elementary quantum processors. In this letter we demonstrate the creation of NV centers by implantation using a deterministic single ion source. For this we sympathetically laser-cool single $^{15}\textrm{N}_2^+$ molecular ions in a Paul trap and extract them at an energy of 5.9\,keV. Subsequently the ions are focused with a lateral resolution of 121(35)\,nm and are implanted into a diamond substrate without any spatial filtering by apertures or masks. After high-temperature annealing, we detect the NV centers in a confocal microscope and determine a conversion efficiency of about 0.6\,$\%$. The $^{15}\textrm{NV}$ centers are characterized by optically detected magnetic resonance (ODMR) on the hyperfine transition and coherence time.
翻訳日:2023-04-17 18:00:19 公開日:2021-01-06
# 量子状態は$\psi$-onticモデルでどれくらい現実的か?

How Real are Quantum States in $\psi$-ontic Models? ( http://arxiv.org/abs/2101.01972v1 )

ライセンス: Link先を確認
Ronnie Hermens(参考訳) 量子状態とそれらの記述する系の間のメタフィジカルな関係について、長い間議論が続いている。 比較的最近の一連の {\psi}-オントロジーの定理は、ある仮定を受け入れるならば「量子状態は現実である」ことを示すものである。 本稿では,これらの定理に照らして,その主張が何を意味するのかを考察する。 たとえそのような定理の枠組みや仮定を受け入れても、そのような結論は保証されないと論じられている。 特に、システムの性質を記述するためにいわゆるオンティック状態がとられるとき、この状態と {\psi}-オントロジーの定理によって確立されたある量子状態との関係は、いかなる方法でもこれらの性質の量子状態の数え方を必要とするものではないと論じる。

There is a longstanding debate on the metaphysical relation between quantum states and the systems they describe. A series of relatively recent {\psi}-ontology theorems have been taken to show that, provided one accepts certain assumptions, "quantum states are real". In this paper I investigate the question of what that claim might be taken to mean in light of these theorems. It is argued that, even if one accepts the framework and assumptions employed by such theorems, such a conclusion is not warranted. Specifically, I argue that when a so-called ontic state is taken to describe the properties of a system, the relation between this state and some quantum state as established by {\psi}-ontology theorems, is not of the kind that would warrant counting the quantum state among these properties in any way.
翻訳日:2023-04-17 18:00:01 公開日:2021-01-06
# 2次元リドバーグ原子配列に基づく量子非線形光学

Quantum nonlinear optics based on two-dimensional Rydberg atom arrays ( http://arxiv.org/abs/2101.01936v1 )

ライセンス: Link先を確認
Mariona Moreno-Cardoner, Daniel Goncalves and Darrick E. Chang(参考訳) 本稿では, サブ波長, 二次元原子配列, ライドバーグ相互作用の組み合わせを, 高忠実度を持つ個々の光子間の強いコヒーレントな相互作用を実現するための強力なプラットフォームとして検討する。 特に、原子の空間秩序は、光を望ましくない方向に散乱させることなく効率的な原子-光相互作用を保証し、例えば、配列は個々の光子の完璧なミラーとして振る舞うことができる。 逆に、ライドバーグ相互作用により、単一の光子が大きな遮断半径$R_b$内のアレイの光学応答を変更でき、その後の光子の「穴」を効果的に打ち負かすことができる。 このようなシステムでは、コヒーレントなフォトン光子ゲートまたはスイッチが可能であり、エラースケーリング $\sim r_b^{-4}$ は乱れたアンサンブルの最もよく知られたスケーリングよりもはるかに優れている。 また,強い入力強度の限界におけるシステムの光学特性についても検討した。 この事前性は複雑で多体量子駆動の散逸系を表すが、古典鏡に打ち込まれた穴に基づく半古典的モデルによってその挙動をよく捉えることができる。

Here, we explore the combination of sub-wavelength, two-dimensional atomic arrays and Rydberg interactions as a powerful platform to realize strong, coherent interactions between individual photons with high fidelity. In particular, the spatial ordering of the atoms guarantees efficient atom-light interactions without the possibility of scattering light into unwanted directions, for example, allowing the array to act as a perfect mirror for individual photons. In turn, Rydberg interactions enable single photons to alter the optical response of the array within a potentially large blockade radius $R_b$, which can effectively punch a large "hole" for subsequent photons. We show that such a system enables a coherent photon-photon gate or switch, with an error scaling $\sim R_b^{-4}$ that is significantly better than the best known scaling in a disordered ensemble. We also investigate the optical properties of the system in the limit of strong input intensities. Although this a priori represents a complicated, many-body quantum driven dissipative system, we find that the behavior can be captured well by a semi-classical model based on holes punched in a classical mirror.
翻訳日:2023-04-17 17:59:45 公開日:2021-01-06
# x線キャビティによる分子内核励起の操作

Manipulating Core-Excitations in Molecules by X-ray Cavities ( http://arxiv.org/abs/2101.01838v1 )

ライセンス: Link先を確認
Bing Gu, Artur Nenov, Francesco Segatta, Marco Garavelli, and Shaul Mukamel(参考訳) 異なる原子のコア励起は高度に局所化され、したがって分離される。 x線キャビティに分子を配置することで、コア遷移はキャビティ光子の交換によって結合し、コアポーラリトンとして知られる非局在化されたハイブリッド光マター励起を形成する。 1,1-ジフルオロエチレン中の2つの非等価炭素原子に対するこれらの効果を示す。 X線吸収、2光子吸収、多次元4波混合におけるポラリトン信号が予測される。

Core-excitations on different atoms are highly localized and therefore decoupled. By placing molecules in an X-ray cavity the core-transitions become coupled via the exchange of cavity photons and form delocalized hybrid light-matter excitations known as core-polaritons. We demonstrate these effects for the two inequivalent carbon atoms in 1,1-difluoroethylene. Polariton signatures in the X-ray absorption, two-photon absorption, and multidimensional four-wave mixing, signals are predicted.
翻訳日:2023-04-17 17:58:35 公開日:2021-01-06
# スマートホームにおけるボットネット攻撃の分析・軽減のための脅威モデリング手法

A Threat Modelling Approach to Analyze and Mitigate Botnet Attacks in Smart Home Use Case ( http://arxiv.org/abs/2101.02147v1 )

ライセンス: Link先を確認
Syed Ghazanfar Abbas, Shahzaib Zahid, Faisal Hussain, Ghalib A. Shah, Muhammad Husnain(参考訳) IoTデバイスの急速な開発と利用にもかかわらず、IoTデバイスのセキュリティはまだ初期段階にある。 IoTデバイスのセキュリティの落とし穴により、ハッカーがIoTデバイスを乗っ取り、ボットネット攻撃のような悪意ある活動に使用するのが容易になった。 IoTデバイスの普及に伴い、ボットネット攻撃は急増している。 ボットネット攻撃はIoTデバイスユーザーだけでなく、世界の他の人々にとっても破滅的だ。 したがって、設計フェーズ中にiotデバイスで起こりうる脅威を特定し、緩和する重要なニーズがある。 脅威モデリングは、システム設計活動の初期段階における脅威を特定するために使用されるテクニックである。 本稿では,IoTスマートホームユースケースにおけるボットネット攻撃の分析と軽減を目的とした脅威モデリング手法を提案する。 提案手法は、strideと巨大な脅威モデリング手法を用いて、スマートホームユースケースにおける開発レベルおよびアプリケーションレベルの脅威を特定する。 さらに、ボットネット攻撃で特定された脅威を再現する。 最後に、ボットネット脅威を含む全ての特定脅威に対する緩和手法を提案する。

Despite the surging development and utilization of IoT devices, the security of IoT devices is still in infancy. The security pitfalls of IoT devices have made it easy for hackers to take over IoT devices and use them for malicious activities like botnet attacks. With the rampant emergence of IoT devices, botnet attacks are surging. The botnet attacks are not only catastrophic for IoT device users but also for the rest of the world. Therefore, there is a crucial need to identify and mitigate the possible threats in IoT devices during the design phase. Threat modelling is a technique that is used to identify the threats in the earlier stages of the system design activity. In this paper, we propose a threat modelling approach to analyze and mitigate the botnet attacks in an IoT smart home use case. The proposed methodology identifies the development-level and application-level threats in smart home use case using STRIDE and VAST threat modelling methods. Moreover, we reticulate the identified threats with botnet attacks. Finally, we propose the mitigation techniques for all identified threats including the botnet threats.
翻訳日:2023-04-17 17:52:46 公開日:2021-01-06
# CV状態とDV非局在光子の量子干渉によるハイブリッドCV-DVエンタングルメント生成

Heralded hybrid CV-DV entanglement generation by quantum interference between CV state and DV delocalized photon ( http://arxiv.org/abs/2101.02117v1 )

ライセンス: Link先を確認
Sergey A. Podoshvedov and Nguyen Ba An(参考訳) ハイブリッドな絡み合った状態は、異種量子ネットワーク内の量子情報処理に必要であることが証明される。 実験装置の入力条件に対して, CV-DVエンタングルメントをしっかりと提供する, 消費資源の既約数を持つ手法を提案する。 すなわち、CV状態のファミリーが導入される。 これらのCV状態は、まず非局在光子でビームスプリッター上に重畳され、次いでビームスプリッターの背後にある光検出器によって検出される。 出力中のハイブリッドCV-DV絡み合った状態の光子数ヘラルド生成を検出し、ビームスプリッタの伝送/反射係数と入力CV状態のサイズに依存しない。 生成した状態の非古典的性質を研究し、ネガティビティの観点からその絡み合い度を算出する。 生成した状態が最大に絡み合うように選択できる実験的な設定の入力パラメータの値の広い領域が存在する。 提案手法は入力CV状態の切り離されたバージョンにも適用可能である。 また,偶発CV状態を生成する簡単な方法を提案する。

Hybrid entangled states prove to be necessary for quantum information processing within heterogeneous quantum networks. A method with irreducible number of consumed resources that firmly provides hybrid CV-DV entanglement for any input conditions of the experimental setup is proposed. Namely, a family of CV states is introduced. Each of such CV states is first superimposed on a beam-splitter with a delocalized photon and then detected by a photo-detector behind the beam-splitter. Detection of any photon number heralds generation of a hybrid CV-DV entangled state in the outputs, independent of transmission/reflection coefficients of the beam-splitter and size of the input CV state. Nonclassical properties of the generated state are studied and their entanglement degree in terms of negativity is calculated. There are wide domains of values of input parameters of the experimental setup that can be chosen to make the generated state maximally entangled. The proposed method is also applicable to truncated versions of the input CV states. We also propose a simple method to produce even/odd CV states.
翻訳日:2023-04-17 17:52:31 公開日:2021-01-06
# キブルコイルにおける反磁性効果のパラドックスの分解能

Resolution of the paradox of the diamagnetic effect on the Kibble coil ( http://arxiv.org/abs/2101.02078v1 )

ライセンス: Link先を確認
Shisong Li, Stephan Schlamminger, Rafael Marangoni, Qing Wang, Darine Haddad, Frank Seifert, Leon Chao, David Newell, Wei Zhao(参考訳) 古典物理学から知られている非常に単純な電気-機械の原理を用いて、キブルバランスは量子電気標準とマクロ質量または力の測定との間に非常に正確かつ絶対的なつながりを確立する。 キブルバランスの成功は、基本的な定数(h$, $N_A$, $e$)の決定と、2019年に改訂された国際単位系における準量子質量の実現の両方において、マクスウェルの方程式の完全性と、ローレンツの力とファラデーの誘導の間の対称性に依存している。 しかし、最近のキブルバランスにおける現在の効果の理解の進歩は、厄介なパラドックスを示している。 反磁性効果は、質量オンと質量オフ測定の間をキャンセルしない力であり、報告された不確実性よりもほぼ2桁大きいレベルでの対称性の仮定に挑戦している。 もし存在すれば、反磁性効果は、速度モードで容易に明らかな相互効果のない重み付けモードで現れ、新しい測定システムの基礎において系統的誤りについて質問する。 仮定的な力は、磁場を変化させるコイル電流によって引き起こされ、計量電流によって体系的に調節される未計算の力を生成する。 ここで、この反磁性力の存在を示すが、付加的な力は計量と速度測定の等価性を変化させない。 我々は、対称性が保存される予期せぬ方法を明らかにし、典型的な材料や測地に対して、測定に対する全相対効果が$\approx 1\times10^{-9}$であることを示す。

Employing very simple electro-mechanical principles known from classical physics, the Kibble balance establishes a very precise and absolute link between quantum electrical standards and macroscopic mass or force measurements. The success of the Kibble balance, in both determining fundamental constants ($h$, $N_A$, $e$) and realizing a quasi-quantum mass in the 2019 newly revised International System of Units, relies on the perfection of Maxwell's equations and the symmetry they describe between Lorentz's force and Faraday's induction, a principle and a symmetry stunningly demonstrated in the weighing and velocity modes of Kibble balances to within $1\times10^{-8}$, with nothing but imperfect wires and magnets. However, recent advances in the understanding of the current effect in Kibble balances reveal a troubling paradox. A diamagnetic effect, a force that does not cancel between mass-on and mass-off measurement, is challenging balance maker's assumptions of symmetry at levels that are almost two orders of magnitude larger than the reported uncertainties. The diamagnetic effect, if it exists, shows up in weighing mode without a readily apparent reciprocal effect in the velocity mode, begging questions about systematic errors at the very foundation of the new measurement system. The hypothetical force is caused by the coil current changing the magnetic field, producing an unaccounted force that is systematically modulated with the weighing current. Here we show that this diamagnetic force exists, but the additional force does not change the equivalence between weighing and velocity measurements. We reveal the unexpected way that symmetry is preserved and show that for typical materials and geometries the total relative effect on the measurement is $\approx 1\times10^{-9}$.
翻訳日:2023-04-17 17:51:56 公開日:2021-01-06
# 廃止論者AIを目指して : 歴史的に黒人大学と大学の役割

Towards an Abolitionist AI: the role of Historically Black Colleges and Universities ( http://arxiv.org/abs/2101.02011v1 )

ライセンス: Link先を確認
Charles C. Earl(参考訳) 廃止は、解放を妨げる構造物を破壊して再建する過程である。 本稿は、米国における黒人の特定のケースを扱っているが、グローバルデコロニゼーション運動に関連している。 ルース・ウィルソン・ギルモア(Ruth Wilson Gilmore)による奴隷制度廃止の概念と感覚の基盤を用いて、私は歴史的に黒人大学と大学(HBCU)を、特に科学の中で黒人の卓越性を育成し維持することの明確な目的のために作られた、特定の種類の廃止論的なプロジェクトと見なしている。 次に、人工知能(AI)、そして一般のコンピューティングが、人種的抑圧と黒人の存在のさらなる抑止と減少にどのように貢献したかを検討する。 私は、コンピューティングにおけるHBCUの持つ空間が、ブラックライフの可能性と実現を促進する技術としてのAIの再認識にどのように貢献するかを調べて結論付けます。

Abolition is the process of destroying and then rebuilding the structures that impede liberation. This paper addresses the particular case of Black folk in the United States, but is relevant to the global decolonization movement. Using notions of abolition and infrastructures of feeling developed by Ruth Wilson Gilmore, I view Historically Black Colleges and Universities ( HBCUs ) as a particular kind of abolitionist project, created for the explicit purpose of nurturing and sustaining Black excellence particularly within the sciences. I then examine how artificial intelligence (AI) in particular and computing in general have contributed to racial oppression and the further confinement and diminishing of Black existence. I conclude by examining how the space held by HBCUs in computing might contribute to a re-imagining of AI as a technology that enhances the possibility and actualization of Black life.
翻訳日:2023-04-17 17:50:37 公開日:2021-01-06
# サブ秒寿命を有するキャビティ強化原子光子エンタングルメント

Cavity-Enhanced Atom-Photon Entanglement with Subsecond Lifetime ( http://arxiv.org/abs/2101.01988v1 )

ライセンス: Link先を確認
Xu-Jie Wang, Sheng-Jun Yang, Peng-Fei Sun, Bo Jing, Jun Li, Ming-Ti Zhou, Xiao-Hui Bao, Jian-Wei Pan(参考訳) 冷たい原子アンサンブルは光量子記憶に適しており、単一の光子との絡み合いは、多くの革命的応用を約束する量子ネットワークの構成要素を形成する。 効率性と寿命は記憶にとって最も重要なメリットの1つである。 本稿では,原子アンサンブルと1光子との絡み合いを,サブ秒寿命と高効率で実現する。 リングキャビティ内の二重制御モードを設計、絡み合いを作り、記憶寿命を延ばすために3次元光学格子を利用する。 メモリ効率は0.1秒のストレージで38%である。 1秒貯蔵後の原子-光子の絡み合いをベルの不等式を$S=2.36\pm0.14$で検証した。

A cold atomic ensemble suits well for optical quantum memories, and its entanglement with a single photon forms the building block for quantum networks that give promise for many revolutionary applications. Efficiency and lifetime are among the most important figures of merit for a memory. In this paper, we report the realization of entanglement between an atomic ensemble and a single-photon with subsecond lifetime and high efficiency. We engineer dual control modes in a ring cavity to create entanglement and make use of 3-dimensional optical lattice to prolong memory lifetime. The memory efficiency is 38% for 0.1 second storage. We verify the atom-photon entanglement after 1 second storage by testing the Bell inequality with a result of $S=2.36\pm0.14$.
翻訳日:2023-04-17 17:49:39 公開日:2021-01-06
# 前処理操作と逆圧縮

Preprocessing operations and the reverse compression ( http://arxiv.org/abs/2101.02277v1 )

ライセンス: Link先を確認
Matheus Capela and Fabio Costa(参考訳) 情報源符号化定理によって述べられているように、データの圧縮のタスクは、情報理論の基盤の1つである。 データ圧縮は通常、その以前の分布に従ってデータの統計的冗長性を利用する。 データの統計情報にアクセスできない状況に動機付けられるが,データに適用される変換に関する情報がいくつかあるため,逆圧縮と呼ばれる新しいデータ圧縮手法を提案する。 古典的情報処理と量子的情報処理の両方で動作するように定義されており、さらに使用するチャネルにのみ依存している: 識別不能な出力につながるすべての入力データは、その事前分布に関係なく、同じ状態に圧縮される。 さらに、このプロセスはプリプロセッシングのタイプ内で高次演算として特徴づけることができる。 また,この手法の古典的および量子的消去チャネルへの応用例として考察する。 これらの例は、ノイズのない逆圧縮は自明なケースでのみ起こりうることを示唆するが、ノイズのない逆圧縮の有意義な例が存在する。

The task of compression of data -- as stated by the source coding theorem -- is one of the cornerstones of information theory. Data compression usually exploits statistical redundancies in the data according to its prior distribution. Motivated by situations where one does not have access to the statistics of data, but has some information about a transformation that is going to be applied to it, we propose a novel method for data compression called reverse compression. It is defined in such a way that works for both classical and quantum information processes, and furthermore relies exclusively on the channel to be used: all input data leading to indistinguishable outputs is compressed to the same state, regardless of their prior distribution. Moreover, this process can be characterized as a higher order operation within the type of preprocessing. We also consider as an example the application of the method to the classical and quantum erasure channel. The examples suggest that noiseless reverse compression can take place only in trivial cases, although meaningful instances of noisy reverse compression can exist.
翻訳日:2023-04-17 17:41:40 公開日:2021-01-06
# 三角形が本物の三部作の絡み合いを支配する

A Triangle Governs Genuine Tripartite Entanglement ( http://arxiv.org/abs/2101.02260v1 )

ライセンス: Link先を確認
Songbo Xie and Joseph H. Eberly(参考訳) 3量子ビット系における絡み合い分布に対する以前見落とされた制約を初めて活用し、新しい真の3成分絡み合い測度を明らかにするために使用する。 いわゆる共起三角形の面積と解釈され、他の既存の測度と比較される。 新しい尺度は、異なる理由で以前の試みよりも優れている。 具体的な例は、ヒルベルト空間の高次元性のため、2つの三部交絡測度が同値であることを示すために示される。

A previously overlooked constraint for the distribution of entanglement in three-qubit systems is exploited for the first time and used to reveal a new genuine tripartite entanglement measure. It is interpreted as the area of a so-called concurrence triangle and is compared with other existing measures. The new measure is found superior to previous attempts for different reasons. A specific example is illustrated to show that two tripartite entanglement measures can be inequivalent due to the high dimensionality of the Hilbert space.
翻訳日:2023-04-17 17:41:26 公開日:2021-01-06
# 普遍性のコスト: 状態蒸留のオーバーヘッドとカラーコードによるコード切替の比較研究

The cost of universality: A comparative study of the overhead of state distillation and code switching with color codes ( http://arxiv.org/abs/2101.02211v1 )

ライセンス: Link先を確認
Michael E. Beverland, Aleksander Kubica, Krysta M. Svore(参考訳) フォールトトレランス(FT)スキームのオーバーヘッドを推定し削減することは、スケーラブルな量子コンピュータを実現するための重要なステップである。 特に興味深いのは、表面および色符号のような2次元(2次元)位相符号に基づくスキームで、閾値が高いが、非クリフォードゲートの自然な実装がない。 本研究では,回路ノイズ下での2次元色符号におけるtゲートの2つの主要なft実装を,実用上興味のある様々なパラメータで直接比較する。 本報告では,3次元カラーコードへのコードスイッチによるTゲートの実装は,空間的・空間的オーバーヘッドの両面において,状態蒸留の大幅な節約にはならない。 コードスイッチングによりTゲートに対して0.07(1)%の回路ノイズ閾値を求める。 これらの結果に到達するため、最適化されたコード切替手順を提供し、様々な改善の効果を限定する。 我々の分析における多くの中間結果は独立した関心事であるかもしれない。 例えば、回路ノイズに対する2Dカラーコードを最大閾値0.37(1)%に最適化し、Zノイズ下での完全な測定で3Dカラーコードに対して0.80(5)%の閾値を求める制限デコーダを適応し、最適化する。 我々の研究は、状態蒸留とコード切替のオーバーヘッドを直接比較し、将来のFTスキームとハードウェア設計の選択に光を当てています。

Estimating and reducing the overhead of fault tolerance (FT) schemes is a crucial step toward realizing scalable quantum computers. Of particular interest are schemes based on two-dimensional (2D) topological codes such as the surface and color codes which have high thresholds but lack a natural implementation of a non-Clifford gate. In this work, we directly compare two leading FT implementations of the T gate in 2D color codes under circuit noise across a wide range of parameters in regimes of practical interest. We report that implementing the T gate via code switching to a 3D color code does not offer substantial savings over state distillation in terms of either space or space-time overhead. We find a circuit noise threshold of 0.07(1)% for the T gate via code switching, almost an order of magnitude below that achievable by state distillation in the same setting. To arrive at these results, we provide and simulate an optimized code switching procedure, and bound the effect of various conceivable improvements. Many intermediate results in our analysis may be of independent interest. For example, we optimize the 2D color code for circuit noise yielding its largest threshold to date 0.37(1)%, and adapt and optimize the restriction decoder finding a threshold of 0.80(5)% for the 3D color code with perfect measurements under Z noise. Our work provides a much-needed direct comparison of the overhead of state distillation and code switching, and sheds light on the choice of future FT schemes and hardware designs.
翻訳日:2023-04-17 17:41:08 公開日:2021-01-06
# DeutschとDeutsch-Jozsa問題に対する量子回路の量子チューリングマシンへの変換

Translation of Quantum Circuits into Quantum Turing Machines for Deutsch and Deutsch-Jozsa Problems ( http://arxiv.org/abs/2101.02203v1 )

ライセンス: Link先を確認
Giuseppe Corrente(参考訳) 本稿では、量子チューリングマシン(QTM)の高レベルなドクティックな文脈および理論的研究における有用性を示す。 qtmを用いて、deutschおよびdeutsch-jozsaアルゴリズムの量子回路モデルと等価性を示す。 さらに,これらの例から量子回路から量子チューリングモデルへの変換戦略を紹介する。 さらに、qtmの観点からの重ね合わせや、量子回路形式でよく知られた簡単な例から始めるような量子コンピューティングのいくつかの特徴を述べる。

We want in this article to show the usefulness of Quantum Turing Machine (QTM) in a high-level didactic context as well as in theoretical studies. We use QTM to show its equivalence with quantum circuit model for Deutsch and Deutsch-Jozsa algorithms. Further we introduce a strategy of translation from Quantum Circuit to Quantum Turing models by these examples. Moreover we illustrate some features of Quantum Computing such as superposition from a QTM point of view and starting with few simple examples very known in Quantum Circuit form.
翻訳日:2023-04-17 17:40:15 公開日:2021-01-06
# 文脈的時間相関と非侵襲的測定を用いた時間的ペレス・メルミン不等式違反の実験的実証

Experimental demonstration of the violation of the temporal Peres-Mermin inequality using contextual temporal correlations and noninvasive measurements ( http://arxiv.org/abs/2101.02152v1 )

ライセンス: Link先を確認
Dileep Singh and Arvind and Kavita Dorai(参考訳) 本稿では、非侵襲的な量子計測に使用でき、NMR量子ビット上で実装できる一般化量子散乱回路を提案する。 このような測定は、時間的非文脈的不等式をテストする上で重要な要件である。 この回路を用いて、3ビットのNMR量子情報プロセッサ上でのペレス・メルミン不等式(KCBSの不等式(英語版)の時間的類似)の違反を実験的に実証する。 さらに,変換ベル型不等式(時間的KCBS不等式と空間的等価)の違反を実験的に証明し,時間的KCBS不等式とTsirelson境界が同じであることを示す。 時空 kcbs のシナリオでは、文脈境界は量子時空間と非局所境界よりも厳密に低い。

We present a generalized quantum scattering circuit which can be used to perform non-invasive quantum measurements, and implement it on NMR qubits. Such a measurement is a key requirement for testing temporal non-contextual inequalities. We use this circuit to experimentally demonstrate the violation of the Peres-Mermin inequality (which is the temporal analog of a Klyachko-Can- Binicioglu-Shumovsky (KCBS) inequality), on a three-qubit NMR quantum information processor. Further, we experimentally demonstrate the violation of a transformed Bell-type inequality (the spatial equivalent of the temporal KCBS inequality) and show that its Tsirelson bound is the same as that for the temporal KCBS inequality. In the temporal KCBS scenario, the contextual bound is strictly lower than the quantum temporal and nonlocal bounds.
翻訳日:2023-04-17 17:39:50 公開日:2021-01-06
# 緊急遠隔学習成功のための重要な要素としてのコンテキスト・入力・プロセス

Context, input and process as critical elements for successful Emergency Remote Learning ( http://arxiv.org/abs/2101.06112v1 )

ライセンス: Link先を確認
Luciana Oliveira, Anabela Mesquita, Arminda Sequeira, Adriana Oliveira and Paulino Silva(参考訳) 2020年春、世界は伝統的な階級からERL(Emergency Remote Teaching, Learning, Instruction)と呼ばれるものへと移行し、即時的で前例のない緩和戦略の策定を必要とする全てのアクターに真の課題を提起した。 しかし、この移行の影響は教育レベルでのみ研究することはできない。 本稿では,CIPPモデル(コンテキスト,入力,プロセス,製品評価)を用いて,第2波が再定義を迫る第1波におけるERLのコンテキスト,入力,プロセス要素間の相互関係について検討する。 閉ざされた質問紙に対する46変数, 学生回答(N=360)の相関分析により, オンライン授業におけるモチベーションとエンゲージメントの重要性が示唆された。 これはまた、オンライン授業がERLの間、よりポジティブな状態を保つ上で果たす役割に対する学生の認識を形作っている。

In Spring 2020, the world moved from traditional classes to what was coined as ERL (Emergency Remote Teaching, Learning, Instruction), posing real challenges to all actors involved, requiring an immediate, unprecedented, and unplanned devising of mitigation strategies. The impacts of this transition cannot, however, be studied only at the educational level, as it consists of a broader social shift with multidomain repercussions. In this paper, we use the CIPP model (Context, Input, Process and Product evaluations) to further investigate interrelations among the context, input and process elements of ERL during the first wave of COVID-19, as the second wave presses towards reconfining. A correlation analysis of 46 variables, based students responses (N=360) to a closed-ended questionnaire shows the crucial importance of motivation and engagement in online classes, as learning enablers or constrainers. These also shape the students perception of the role that online classes play in helping them to stay more positive during ERL.
翻訳日:2023-04-17 17:30:57 公開日:2021-01-06
# テクスチャ解析のためのヒストグラム層

Histogram Layers for Texture Analysis ( http://arxiv.org/abs/2001.00215v12 )

ライセンス: Link先を確認
Joshua Peeples, Weihuang Xu, and Alina Zare(参考訳) テクスチャ分析の重要な側面は、局所的空間的領域における値の分布を記述する特徴の抽出である。 ニューラルネットワークのための局所的なヒストグラム層を提示する。 提案するヒストグラム層は, 前述したようなグローバルヒストグラムを計算せず, テクスチャ解析のための局所的空間分布と, バックプロパゲーション中に推定されるパラメータを直接計算する。 本稿では,Deep Encoding Network Pooling, Deep Texture Encoding Network, Fisher Vector Convolutional Neural Network, Multi-level Texture Encoding and Representation on three material/texture data: 1) Describable Texture Dataset, (2) 屋外シーンにおける地上地形の拡張,(3) コンテキストデータセットにおけるマテリアルのサブセットなど,最先端のテクスチャ符号化手法との比較を行った。 その結果,提案するヒストグラム層の導入により性能が向上した。 Histogramレイヤのソースコードは、https://github.com/GatorSense/Histogram_Layer.comで公開されている。

An essential aspect of texture analysis is the extraction of features that describe the distribution of values in local, spatial regions. We present a localized histogram layer for artificial neural networks. Instead of computing global histograms as done previously, the proposed histogram layer directly computes the local, spatial distribution of features for texture analysis and parameters for the layer are estimated during backpropagation. We compare our method with state-of-the-art texture encoding methods such as the Deep Encoding Network Pooling, Deep Texture Encoding Network, Fisher Vector convolutional neural network, and Multi-level Texture Encoding and Representation on three material/texture datasets: (1) the Describable Texture Dataset; (2) an extension of the ground terrain in outdoor scenes; (3) and a subset of the Materials in Context dataset. Results indicate that the inclusion of the proposed histogram layer improves performance. The source code for the histogram layer is publicly available: https://github.com/GatorSense/Histogram_Layer.
翻訳日:2023-01-16 09:10:59 公開日:2021-01-06
# 人物再識別のための深層学習 : 調査と展望

Deep Learning for Person Re-identification: A Survey and Outlook ( http://arxiv.org/abs/2001.04193v2 )

ライセンス: Link先を確認
Mang Ye, Jianbing Shen, Gaojie Lin, Tao Xiang, Ling Shao, Steven C. H. Hoi(参考訳) 人物再識別(Re-ID)は、複数の重複しないカメラを通して興味ある人物を検索することを目的としている。 ディープニューラルネットワークの進歩とインテリジェントなビデオ監視の需要の増加により、コンピュータビジョンコミュニティへの関心が大幅に高まった。 人のRe-IDシステム開発に関わるコンポーネントを分離することにより、クローズドワールドとオープンワールドセッティングに分類する。 広く研究されているクローズドワールド・セッティングは、通常、様々な研究指向の仮定の下で適用され、多くのデータセットで深層学習技術を用いて成功した。 まず,3つの異なる視点から,密閉世界人Re-IDの詳細な分析を行い,詳細な特徴表現学習,深度メートル法学習,ランキング最適化を行う。 クローズドワールド環境下でのパフォーマンス飽和により、Re-IDの研究対象は最近オープンワールド環境へとシフトし、より困難な問題に直面している。 この設定は特定のシナリオ下での実践的なアプリケーションに近い。 オープンワールドのRe-IDを5つの異なる側面で要約する。 既存の手法の利点を解析することにより、我々は強力なAGWベースラインを設計し、FOURの異なるRe-IDタスクのための12のデータセット上で最先端または少なくとも同等のパフォーマンスを達成する。 一方,個人再識別のための新しい評価指標 (minp) を導入し,すべてのマッチングを見出すコストを示し,実際のアプリケーションに対する再識別システムを評価するための追加基準を提供する。 最後に、重要かつ未解明のオープンな問題について論じる。

Person re-identification (Re-ID) aims at retrieving a person of interest across multiple non-overlapping cameras. With the advancement of deep neural networks and increasing demand of intelligent video surveillance, it has gained significantly increased interest in the computer vision community. By dissecting the involved components in developing a person Re-ID system, we categorize it into the closed-world and open-world settings. The widely studied closed-world setting is usually applied under various research-oriented assumptions, and has achieved inspiring success using deep learning techniques on a number of datasets. We first conduct a comprehensive overview with in-depth analysis for closed-world person Re-ID from three different perspectives, including deep feature representation learning, deep metric learning and ranking optimization. With the performance saturation under closed-world setting, the research focus for person Re-ID has recently shifted to the open-world setting, facing more challenging issues. This setting is closer to practical applications under specific scenarios. We summarize the open-world Re-ID in terms of five different aspects. By analyzing the advantages of existing methods, we design a powerful AGW baseline, achieving state-of-the-art or at least comparable performance on twelve datasets for FOUR different Re-ID tasks. Meanwhile, we introduce a new evaluation metric (mINP) for person Re-ID, indicating the cost for finding all the correct matches, which provides an additional criteria to evaluate the Re-ID system for real applications. Finally, some important yet under-investigated open issues are discussed.
翻訳日:2023-01-11 23:25:58 公開日:2021-01-06
# パワーフロー解析のための物理誘導深層ニューラルネットワーク

Physics-Guided Deep Neural Networks for Power Flow Analysis ( http://arxiv.org/abs/2002.00097v2 )

ライセンス: Link先を確認
Xinyue Hu, Haoji Hu, Saurabh Verma, Zhi-Li Zhang(参考訳) PF(Solving Power Flow)方程式は、既存のシステムの最良の動作の決定、セキュリティ分析などを行う上で重要である、電力フロー解析の基礎である。 しかしながら、PF方程式はシステム力学や不確実性のため、時代遅れや利用できないこともあり、従来の数値的なアプローチは実現不可能である。 これらの懸念に対処するため、研究者は歴史的システム運用データからマッピングルールを学習し、pf問題を解決するためのデータ駆動アプローチを提案している。 それでも、従来のデータ駆動アプローチは、PF問題の過度に単純化された仮定や、電力システムを管理する物理法則の無視により、性能と一般化性に悩まされている。 本稿では,物理誘導型ニューラルネットワークによるPF問題の解法と,PFモデルを再構築するための補助的タスクを提案する。 kirchhoffの法則とシステムトポロジーの異なる粒度を再構成したpfモデルにエンコードすることで、ニューラルネットワークベースのpfソルバは補助タスクによって正規化され、物理法則によって制約される。 シミュレーションの結果,既存の非拘束型データ駆動手法と比較して,物理誘導型ニューラルネットワーク手法の性能と一般化性が向上した。 さらに, 物理誘導ニューラルネットワークの重み行列が, バスアミタンス行列との類似性を示すことにより, 電力系物理を具現化することを示した。

Solving power flow (PF) equations is the basis of power flow analysis, which is important in determining the best operation of existing systems, performing security analysis, etc. However, PF equations can be out-of-date or even unavailable due to system dynamics and uncertainties, making traditional numerical approaches infeasible. To address these concerns, researchers have proposed data-driven approaches to solve the PF problem by learning the mapping rules from historical system operation data. Nevertheless, prior data-driven approaches suffer from poor performance and generalizability, due to overly simplified assumptions of the PF problem or ignorance of physical laws governing power systems. In this paper, we propose a physics-guided neural network to solve the PF problem, with an auxiliary task to rebuild the PF model. By encoding different granularity of Kirchhoff's laws and system topology into the rebuilt PF model, our neural-network based PF solver is regularized by the auxiliary task and constrained by the physical laws. The simulation results show that our physics-guided neural network methods achieve better performance and generalizability compared to existing unconstrained data-driven approaches. Furthermore, we demonstrate that the weight matrices of our physics-guided neural networks embody power system physics by showing their similarities with the bus admittance matrices.
翻訳日:2023-01-05 06:12:40 公開日:2021-01-06
# DeepLight: 広告サービングにおけるCTR予測の高速化のためのディープライト機能インタラクション

DeepLight: Deep Lightweight Feature Interactions for Accelerating CTR Predictions in Ad Serving ( http://arxiv.org/abs/2002.06987v3 )

ライセンス: Link先を確認
Wei Deng and Junwei Pan and Tian Zhou and Deguang Kong and Aaron Flores and Guang Lin(参考訳) クリックスルー率(CTR)予測はオンラインディスプレイ広告において重要な課題である。 埋め込み型ニューラルネットワークは、浅いコンポーネントによる明示的な特徴相互作用とディープニューラルネットワーク(DNN)コンポーネントを用いたディープ特徴相互作用の両方を学ぶために提案されている。 しかし、これらの洗練されたモデルは、予測を少なくとも数百倍遅くする。 本稿では,CTR予測を3つの側面で高速化するフレームワークである 'emph{DeepLight} を提案する。 1) 浅い成分における情報的特徴相互作用を明示的に探索することにより,モデル推論を加速する。 2) DNN成分の層内および層間レベルでの冗長な層とパラメータ 3)最も識別性の高い信号を保存するため、埋め込み層のスパース性を促進する。 以上と組み合わせることで,予測精度を損なうことなく,Criteoデータセットの46倍,Avazuデータセットの27倍のモデル推定を高速化する。 これにより、複雑な埋め込みベースのニューラルネットワークを広告提供のためにプロダクションにデプロイすることに成功した。

Click-through rate (CTR) prediction is a crucial task in online display advertising. The embedding-based neural networks have been proposed to learn both explicit feature interactions through a shallow component and deep feature interactions using a deep neural network (DNN) component. These sophisticated models, however, slow down the prediction inference by at least hundreds of times. To address the issue of significantly increased serving delay and high memory usage for ad serving in production, this paper presents \emph{DeepLight}: a framework to accelerate the CTR predictions in three aspects: 1) accelerate the model inference via explicitly searching informative feature interactions in the shallow component; 2) prune redundant layers and parameters at intra-layer and inter-layer level in the DNN component; 3) promote the sparsity of the embedding layer to preserve the most discriminant signals. By combining the above efforts, the proposed approach accelerates the model inference by 46X on Criteo dataset and 27X on Avazu dataset without any loss on the prediction accuracy. This paves the way for successfully deploying complicated embedding-based neural networks in production for ad serving.
翻訳日:2022-12-31 12:37:42 公開日:2021-01-06
# マイクログリッドを用いたエッジコンピューティングのためのリスク対応エネルギースケジューリング:マルチエージェント深部強化学習アプローチ

Risk-Aware Energy Scheduling for Edge Computing with Microgrid: A Multi-Agent Deep Reinforcement Learning Approach ( http://arxiv.org/abs/2003.02157v3 )

ライセンス: Link先を確認
Md. Shirajum Munir, Sarder Fakhrul Abedin, Nguyen H. Tran, Zhu Han, Eui-Nam Huh, Choong Seon Hong(参考訳) 近年、マルチアクセスエッジコンピューティング(MEC)は、IoT(Internet of Things)アプリケーションやサービスを大規模に拡張する上で重要な手段となっている。 しかしながら、mecネットワークのエネルギー消費は、エネルギー需要推定のリスクを引き起こす揮発性タスクに依存する。 エネルギー供給者として、マイクログリッドはシームレスなエネルギー供給を容易にする。 しかし、再生可能資源や再生不能源からの予測不能なエネルギー発生により、エネルギー供給に関わるリスクも増大する。 特に、エネルギー不足のリスクはエネルギー消費と発電の両方の不確実性に関係している。 本稿では,マイクログリッドを用いたMECネットワークにおけるリスク対応エネルギースケジューリング問題について検討する。 まず、エネルギー消費と生成の両面での条件付き値-リスク(CVaR)の測定を考慮した最適化問題を定式化し、その目的は、MECネットワークにおけるスケジュールされたエネルギーの残余を最小化することである。 第2に,共同政策のナッシュ均衡を保証するマルチエージェント確率ゲームを用いて定式化問題を解析し,提案モデルの収束性を示す。 第3に,マルチエージェント深層強化学習(madrl)ベースの非同期アドバンテージアクタ-クリティック(a3c)アルゴリズムを共有ニューラルネットワークに適用することにより,この解を導出する。 本手法は, 状態空間の次元性の呪いを軽減し, 提案した問題に対するエージェント間の最善のポリシーを選択する。 最後に,実験結果から,単エージェントモデルとランダムエージェントモデルの両方と比較して,提案モデルの高精度エネルギースケジューリングのためのCVaRを考慮し,有意な性能向上を実現した。

In recent years, multi-access edge computing (MEC) is a key enabler for handling the massive expansion of Internet of Things (IoT) applications and services. However, energy consumption of a MEC network depends on volatile tasks that induces risk for energy demand estimations. As an energy supplier, a microgrid can facilitate seamless energy supply. However, the risk associated with energy supply is also increased due to unpredictable energy generation from renewable and non-renewable sources. Especially, the risk of energy shortfall is involved with uncertainties in both energy consumption and generation. In this paper, we study a risk-aware energy scheduling problem for a microgrid-powered MEC network. First, we formulate an optimization problem considering the conditional value-at-risk (CVaR) measurement for both energy consumption and generation, where the objective is to minimize the expected residual of scheduled energy for the MEC networks and we show this problem is an NP-hard problem. Second, we analyze our formulated problem using a multi-agent stochastic game that ensures the joint policy Nash equilibrium, and show the convergence of the proposed model. Third, we derive the solution by applying a multi-agent deep reinforcement learning (MADRL)-based asynchronous advantage actor-critic (A3C) algorithm with shared neural networks. This method mitigates the curse of dimensionality of the state space and chooses the best policy among the agents for the proposed problem. Finally, the experimental results establish a significant performance gain by considering CVaR for high accuracy energy scheduling of the proposed model than both the single and random agent models.
翻訳日:2022-12-30 01:22:13 公開日:2021-01-06
# ランダム化が重要。 強固な敵の攻撃から守る方法

Randomization matters. How to defend against strong adversarial attacks ( http://arxiv.org/abs/2002.11565v5 )

ライセンス: Link先を確認
Rafael Pinot, Raphael Ettedgui, Geovani Rizk, Yann Chevaleyre, Jamal Atif(参考訳) すべての敵攻撃に対して最適な堅牢性を保証する分類器はあるか? 本稿では,ゲーム理論的な視点を用いて,この問いに答える。 敵対的攻撃や防御は、古典的結果(例えば、イオン定理)が適用されない無限のゼロサムゲームを形成する。 分類器と敵器がどちらも決定論的であるゲームにおけるナッシュ均衡の非存在を実証し、決定論的システムにおいて上記の問題に対する負の答えを与える。 それでも、この問題は無作為な体制では未解決のままである。 本稿では,データセット分布の過小評価条件として,任意の決定論的分類器をランダム化することにより性能を向上できることを示す。 これにより、ランダム化を利用するための議論が生じ、強い敵攻撃に対して堅牢なランダム化分類器を構築するための新しいアルゴリズムが導かれる。 実験結果は理論解析を検証し,本手法が最先端の攻撃に対する敵意訓練をかなり上回ることを示した。

Is there a classifier that ensures optimal robustness against all adversarial attacks? This paper answers this question by adopting a game-theoretic point of view. We show that adversarial attacks and defenses form an infinite zero-sum game where classical results (e.g. Sion theorem) do not apply. We demonstrate the non-existence of a Nash equilibrium in our game when the classifier and the Adversary are both deterministic, hence giving a negative answer to the above question in the deterministic regime. Nonetheless, the question remains open in the randomized regime. We tackle this problem by showing that, undermild conditions on the dataset distribution, any deterministic classifier can be outperformed by a randomized one. This gives arguments for using randomization, and leads us to a new algorithm for building randomized classifiers that are robust to strong adversarial attacks. Empirical results validate our theoretical analysis, and show that our defense method considerably outperforms Adversarial Training against state-of-the-art attacks.
翻訳日:2022-12-28 14:42:46 公開日:2021-01-06
# 模擬前科者のメタラーニング埋め込みによるロボットの高速オンライン適応

Fast Online Adaptation in Robotics through Meta-Learning Embeddings of Simulated Priors ( http://arxiv.org/abs/2003.04663v2 )

ライセンス: Link先を確認
Rituraj Kaushik, Timoth\'ee Anne and Jean-Baptiste Mouret(参考訳) メタラーニングアルゴリズムは、数個のデータポイントでシステムの実際のダイナミクスにマッチするようにトレーニングできるような、動的モデルの初期パラメータセットを見つけることで、モデルベース強化学習(MBRL)アルゴリズムを加速することができる。 しかし、現実の世界では、ロボットはモーターの故障から、ロボットのダイナミクスが互いに著しく異なる岩の多い地形で自分自身を見つけるまで、あらゆる状況に遭遇する可能性がある。 本稿では,まず,メタトレーニング状況(事前の状況)がこれほど多様なダイナミクスを持つ場合,一組のメタトレーニングパラメータを出発点として使用する場合,実システムからの膨大な観察が必要であることを示す。 第2に,この制限を緩和するFAMLEと呼ばれるアルゴリズムを提案し,モデルのトレーニングにいくつかの初期出発点(初期パラメータ)をメタトレーニングし,段階的にモデルを現在の状況に適応させる最適な出発点をロボットが選択できるようにする。 我々は,FAMLEとMBRL,MBRLをメタトレーニングモデルとMAML,モデルフリーポリシー探索アルゴリズムPPOを比較し,FAMLEがロボットに対して,ベースラインよりもはるかに少ない時間で新たな損傷に適応できることを示す。

Meta-learning algorithms can accelerate the model-based reinforcement learning (MBRL) algorithms by finding an initial set of parameters for the dynamical model such that the model can be trained to match the actual dynamics of the system with only a few data-points. However, in the real world, a robot might encounter any situation starting from motor failures to finding itself in a rocky terrain where the dynamics of the robot can be significantly different from one another. In this paper, first, we show that when meta-training situations (the prior situations) have such diverse dynamics, using a single set of meta-trained parameters as a starting point still requires a large number of observations from the real system to learn a useful model of the dynamics. Second, we propose an algorithm called FAMLE that mitigates this limitation by meta-training several initial starting points (i.e., initial parameters) for training the model and allows the robot to select the most suitable starting point to adapt the model to the current situation with only a few gradient steps. We compare FAMLE to MBRL, MBRL with a meta-trained model with MAML, and model-free policy search algorithm PPO for various simulated and real robotic tasks, and show that FAMLE allows the robots to adapt to novel damages in significantly fewer time-steps than the baselines.
翻訳日:2022-12-24 20:55:29 公開日:2021-01-06
# カテゴリー特異的対称3次元キーポイントの教師なし学習

Unsupervised Learning of Category-Specific Symmetric 3D Keypoints from Point Sets ( http://arxiv.org/abs/2003.07619v3 )

ライセンス: Link先を確認
Clara Fernandez-Labrador, Ajad Chhatkuli, Danda Pani Paudel, Jose J. Guerrero, C\'edric Demonceaux and Luc Van Gool(参考訳) あるカテゴリのオブジェクトの集合からカテゴリ固有の3Dキーポイントの自動発見は難しい問題である。 理由の1つは、カテゴリ内のすべてのオブジェクトが必ずしも同じセマンティックな部分を持っているとは限らないことである。 この難易度は、物体が3次元の点雲で表されるときにさらに増大し、形状や未知の座標フレームが変化する。 キーポイントは、オブジェクトの形状を意味的に表現し、その対応性は、すべてのオブジェクトに対して整然として確立される。 本稿では,未知のカテゴリから,対象物の3次元点群を不一致に集めて,カテゴリ固有の3Dキーポイントを教師なしで学習することを目的とする。 そこで我々は,キーポイントによって定義される形状をカテゴリー内でモデル化し,対称面を想定せずに対称線形基底形状をモデル化する。 対称性の事前使用により、より高次なミスアライメントに適した安定なキーポイントが学習される。 私たちの知る限りでは、このようなキーポイントを直接3Dポイントクラウドから学ぶための最初の作業です。 4つのベンチマークデータセットのカテゴリを用いて、定量的および定性的な評価によって学習したキーポイントの品質を示す。 また,本手法によって発見されたキーポイントは,幾何学的にも意味的にも一致していることを示す。

Automatic discovery of category-specific 3D keypoints from a collection of objects of some category is a challenging problem. One reason is that not all objects in a category necessarily have the same semantic parts. The level of difficulty adds up further when objects are represented by 3D point clouds, with variations in shape and unknown coordinate frames. We define keypoints to be category-specific, if they meaningfully represent objects' shape and their correspondences can be simply established order-wise across all objects. This paper aims at learning category-specific 3D keypoints, in an unsupervised manner, using a collection of misaligned 3D point clouds of objects from an unknown category. In order to do so, we model shapes defined by the keypoints, within a category, using the symmetric linear basis shapes without assuming the plane of symmetry to be known. The usage of symmetry prior leads us to learn stable keypoints suitable for higher misalignments. To the best of our knowledge, this is the first work on learning such keypoints directly from 3D point clouds. Using categories from four benchmark datasets, we demonstrate the quality of our learned keypoints by quantitative and qualitative evaluations. Our experiments also show that the keypoints discovered by our method are geometrically and semantically consistent.
翻訳日:2022-12-22 21:32:38 公開日:2021-01-06
# 後方対応型表現学習に向けて

Towards Backward-Compatible Representation Learning ( http://arxiv.org/abs/2003.11942v3 )

ライセンス: Link先を確認
Yantao Shen, Yuanjun Xiong, Wei Xia, and Stefano Soatto(参考訳) 異なる次元を持ち、異なるニューラルネットワークアーキテクチャと損失関数を通じて学習した場合でも、以前計算したものと互換性のある視覚特徴を学習する方法を提案する。 互換性とは、そのような機能がイメージを比較するために使用される場合、"新しい"フィーチャを"古い"機能と直接比較することができるということです。 これにより、視覚検索システムは、埋め込みモデル(バックフィルと呼ばれるプロセス)を更新する際に、以前に見たすべての画像の新機能をバイパスすることができる。 成長を続ける大規模トレーニングデータセットとディープラーニングアーキテクチャとトレーニング方法の改善を活用する、新たな組み込みモデルの迅速なデプロイには、後方互換性が不可欠である。 本稿では、後方互換表現学習の第一歩として、後方互換学習(BCT)と呼ばれる埋め込みモデルの学習フレームワークを提案する。 顔認識のための学習埋め込みの実験では、bctでトレーニングされたモデルは精度を犠牲にすることなく後方互換性を実現し、視覚埋め込みのバックフィルフリーモデル更新を可能にした。

We propose a way to learn visual features that are compatible with previously computed ones even when they have different dimensions and are learned via different neural network architectures and loss functions. Compatible means that, if such features are used to compare images, then "new" features can be compared directly to "old" features, so they can be used interchangeably. This enables visual search systems to bypass computing new features for all previously seen images when updating the embedding models, a process known as backfilling. Backward compatibility is critical to quickly deploy new embedding models that leverage ever-growing large-scale training datasets and improvements in deep learning architectures and training methods. We propose a framework to train embedding models, called backward-compatible training (BCT), as a first step towards backward compatible representation learning. In experiments on learning embeddings for face recognition, models trained with BCT successfully achieve backward compatibility without sacrificing accuracy, thus enabling backfill-free model updates of visual embeddings.
翻訳日:2022-12-19 22:00:21 公開日:2021-01-06
# 平均値のレバレッジ:RLにおけるKL正規化の解析

Leverage the Average: an Analysis of KL Regularization in RL ( http://arxiv.org/abs/2003.14089v5 )

ライセンス: Link先を確認
Nino Vieillard, Tadashi Kozuno, Bruno Scherrer, Olivier Pietquin, R\'emi Munos, Matthieu Geist(参考訳) Kullback-Leibler(KL)正則化をコアコンポーネントとして用いた最近の強化学習(RL)アルゴリズムは優れた性能を示している。 しかし、KL正則化がなぜ役立つのかは理論上はほとんど分かっていない。 近似値反復スキームにおけるkl正規化について検討し,q値を暗黙的に平均化することを示す。 この知見を生かして、我々は非常に強いパフォーマンスバウンダリを提供し、まず第一に、水平線への線形依存(二次的ではなく)と、(累積効果の代わりに)推定誤差の平均化効果を含むエラー伝播項という、2つの望ましい側面を組み合わせる。 また,追加エントロピー正則化器のより一般的な場合についても検討した。 その結果、抽象的なスキームは多くの既存のRLアルゴリズムを含んでいる。 我々の仮定のいくつかはニューラルネットワークには当てはまらないので、この理論解析を広範な実証研究で補完する。

Recent Reinforcement Learning (RL) algorithms making use of Kullback-Leibler (KL) regularization as a core component have shown outstanding performance. Yet, only little is understood theoretically about why KL regularization helps, so far. We study KL regularization within an approximate value iteration scheme and show that it implicitly averages q-values. Leveraging this insight, we provide a very strong performance bound, the very first to combine two desirable aspects: a linear dependency to the horizon (instead of quadratic) and an error propagation term involving an averaging effect of the estimation errors (instead of an accumulation effect). We also study the more general case of an additional entropy regularizer. The resulting abstract scheme encompasses many existing RL algorithms. Some of our assumptions do not hold with neural networks, so we complement this theoretical analysis with an extensive empirical study.
翻訳日:2022-12-18 00:11:06 公開日:2021-01-06
# 単一画像対による構造解析

Structural-analogy from a Single Image Pair ( http://arxiv.org/abs/2004.02222v3 )

ライセンス: Link先を確認
Sagie Benaim, Ron Mokady, Amit Bermano, Daniel Cohen-Or, Lior Wolf(参考訳) 教師なし画像から画像への翻訳のタスクは、ディープニューラルネットワークの利用によって近年大きく進歩している。 典型的には、提案された解は2つの大きな対向しない画像の集合の分布を特徴付けることを学び、その形状をそのままに保ちながら、与えられた画像の外観を変えることができる。 本稿では,1対のイメージAとBのみを与えられた画像構造を理解するニューラルネットワークの機能について検討する。我々は,Bの外観とスタイルを保ちながら,Aに対応する構造的配置を持つ画像を生成するという,構造的に整合した画像を生成することを目指している。 これにより、類似が生成される粒度の制御が可能になり、スタイルと内容の区別が決定される。 構造的アライメントに加えて,画像A,Bのみを用いた条件生成作業において,ガイド画像合成,スタイルおよびテクスチャ転送,テキスト翻訳,ビデオ翻訳などの高品質な画像を生成するためにも使用できる。 私たちのコードと追加結果はhttps://github.com/rmokady/structural-analogy/で閲覧できます。

The task of unsupervised image-to-image translation has seen substantial advancements in recent years through the use of deep neural networks. Typically, the proposed solutions learn the characterizing distribution of two large, unpaired collections of images, and are able to alter the appearance of a given image, while keeping its geometry intact. In this paper, we explore the capabilities of neural networks to understand image structure given only a single pair of images, A and B. We seek to generate images that are structurally aligned: that is, to generate an image that keeps the appearance and style of B, but has a structural arrangement that corresponds to A. The key idea is to map between image patches at different scales. This enables controlling the granularity at which analogies are produced, which determines the conceptual distinction between style and content. In addition to structural alignment, our method can be used to generate high quality imagery in other conditional generation tasks utilizing images A and B only: guided image synthesis, style and texture transfer, text translation as well as video translation. Our code and additional results are available in https://github.com/rmokady/structural-analogy/.
翻訳日:2022-12-16 13:13:05 公開日:2021-01-06
# Capsule Networks - 確率論的視点

Capsule Networks -- A Probabilistic Perspective ( http://arxiv.org/abs/2004.03553v3 )

ライセンス: Link先を確認
Lewis Smith and Lisa Schut and Yarin Gal and Mark van der Wilk(参考訳) カプセル」モデルはオブジェクトのポーズを明示的に表現し、オブジェクトのポーズと構成要素の間の線形関係を強制しようとする。 このモデリング仮定は、サブオブジェクト/スーパーオブジェクトの関係がオブジェクトのポーズに不変であるため、視点変化に対するロバスト性をもたらすべきである。 本稿では,このようなカプセル仮定を符号化し,モデルの生成部分を推論機構から明確に分離する確率論的生成モデルについて述べる。 変分境界を用いて、近似推論スキームとは独立に生成モデルの性質を調べ、カプセルの仮定の失敗と推論の償却についての洞察を得る。 我々は,統一目的の適用性を実験的に実証し,モデルにおける償却推論に固有の問題を解決するためのテスト時間最適化の利用を実証した。

'Capsule' models try to explicitly represent the poses of objects, enforcing a linear relationship between an object's pose and that of its constituent parts. This modelling assumption should lead to robustness to viewpoint changes since the sub-object/super-object relationships are invariant to the poses of the object. We describe a probabilistic generative model which encodes such capsule assumptions, clearly separating the generative parts of the model from the inference mechanisms. With a variational bound we explore the properties of the generative model independently of the approximate inference scheme, and gain insights into failures of the capsule assumptions and inference amortisation. We experimentally demonstrate the applicability of our unified objective, and demonstrate the use of test time optimisation to solve problems inherent to amortised inference in our model.
翻訳日:2022-12-15 23:13:50 公開日:2021-01-06
# JPEG XS のタスクと内容への適応と優先順位

Adapting JPEG XS gains and priorities to tasks and contents ( http://arxiv.org/abs/2005.08768v3 )

ライセンス: Link先を確認
Benoit Brummer, Christophe De Vleeschouwer(参考訳) 画像圧縮の領域における現在のほとんどの研究は、アート圧縮比率の達成のみに焦点を当てているが、コンピューティングリソースの制約のため、今日のワークフローでは必ずしも利用できない。 低複雑さの画像コーデックの市場要求は、JPEG XSという軽量画像コーデックの開発と標準化につながっている。 本研究では,共分散行列適応進化戦略を用いて,そのゲインと優先度パラメータを最適化することにより,デスクトップコンテンツの視覚的品質保持やニューラルネットワーク分割タスクの高精度維持といった,特定のタスクやコンテンツにjpeg xs圧縮を適用することができることを示す。

Most current research in the domain of image compression focuses solely on achieving state of the art compression ratio, but that is not always usable in today's workflow due to the constraints on computing resources. Constant market requirements for a low-complexity image codec have led to the recent development and standardization of a lightweight image codec named JPEG XS. In this work we show that JPEG XS compression can be adapted to a specific given task and content, such as preserving visual quality on desktop content or maintaining high accuracy in neural network segmentation tasks, by optimizing its gain and priority parameters using the covariance matrix adaptation evolution strategy.
翻訳日:2022-12-01 23:49:52 公開日:2021-01-06
# ポリトープのためのフランク・ウルフの再考:厳密な相補性と空間性

Revisiting Frank-Wolfe for Polytopes: Strict Complementarity and Sparsity ( http://arxiv.org/abs/2006.00558v4 )

ライセンス: Link先を確認
Dan Garber(参考訳) 近年, 古典的フランク=ウルフ法(条件勾配法)の凸およびコンパクトポリトープ上の滑らかな凸最小化に対する簡単な修正が, 目的関数が二次的な成長特性を持つと仮定して線形速度に収束することが証明された。 しかし、これらの手法の速度は、大規模な問題に対する経験的成功を説明できない問題の次元に明確に依存する。 本稿では, 既に非常に単純な問題に対して, 最適解がポリトープの低次元面上にある場合でも, 次元依存性が最悪の場合には避けられないことを示す。 次に、ウルフの古典的書籍 \cite{wolfe1970} で既に検討されている厳密な相補性仮定の付加を再検討し、この条件下では、遠足と直線探索を伴うフランク=ウルフ法が、最適面の次元のみに依存する率で線形に収束することを示す。 ノイズに対する最適解の疎結合性を示すことを証明して、厳密な相補性を動機づける。

In recent years it was proved that simple modifications of the classical Frank-Wolfe algorithm (aka conditional gradient algorithm) for smooth convex minimization over convex and compact polytopes, converge with linear rate, assuming the objective function has the quadratic growth property. However, the rate of these methods depends explicitly on the dimension of the problem which cannot explain their empirical success for large scale problems. In this paper we first demonstrate that already for very simple problems and even when the optimal solution lies on a low-dimensional face of the polytope, such dependence on the dimension cannot be avoided in worst case. We then revisit the addition of a strict complementarity assumption already considered in Wolfe's classical book \cite{Wolfe1970}, and prove that under this condition, the Frank-Wolfe method with away-steps and line-search converges linearly with rate that depends explicitly only on the dimension of the optimal face. We motivate strict complementarity by proving that it implies sparsity-robustness of optimal solutions to noise.
翻訳日:2022-11-26 12:31:11 公開日:2021-01-06
# 勾配上昇によるメタラーニングバンディット政策

Meta-Learning Bandit Policies by Gradient Ascent ( http://arxiv.org/abs/2006.05094v2 )

ライセンス: Link先を確認
Branislav Kveton, Martin Mladenov, Chih-Wei Hsu, Manzil Zaheer, Csaba Szepesvari, and Craig Boutilier(参考訳) ほとんどのバンディットポリシーは、どんな問題でも後悔を最小限に抑えるように設計されており、基礎となる環境やベイズ的な意味では、環境パラメータの事前分布を仮定して、ほとんど仮定しない。 前者は実践的な環境では保守的すぎることが多いが、後者は実際に検証するのが難しい仮定を必要とする。 学習エージェントは、未知の事前分布である$\mathcal{p}$ からサンプル化されたbanditインスタンスにアクセスでき、$\mathcal{p}$ から引き出されたbanditインスタンスに対して平均で高い報酬を得ることを目指している。 この設定は、バンディット政策のメタラーニングの基礎を築き、多くの実践領域においてより現実的な仮定を反映しているため、特に重要である。 本稿では,識別可能で,ポリシー勾配を用いて最適化できるパラメータ化されたbanditポリシーの利用を提案する。 これは実装が容易な広く適用可能なフレームワークを提供する。 我々は,非文脈的・文脈的設定の両面において,包括的問題や政策の構造を反映した報酬勾配を導出し,識別可能かつ後悔の少ない多くの興味深い政策を提案する。 我々のアルゴリズム的および理論的貢献は、ベースライン減算の重要性、学習バイアス、および範囲問題に対する我々のアプローチの実践性を示す広範な実験によって支えられている。

Most bandit policies are designed to either minimize regret in any problem instance, making very few assumptions about the underlying environment, or in a Bayesian sense, assuming a prior distribution over environment parameters. The former are often too conservative in practical settings, while the latter require assumptions that are hard to verify in practice. We study bandit problems that fall between these two extremes, where the learning agent has access to sampled bandit instances from an unknown prior distribution $\mathcal{P}$ and aims to achieve high reward on average over the bandit instances drawn from $\mathcal{P}$. This setting is of a particular importance because it lays foundations for meta-learning of bandit policies and reflects more realistic assumptions in many practical domains. We propose the use of parameterized bandit policies that are differentiable and can be optimized using policy gradients. This provides a broadly applicable framework that is easy to implement. We derive reward gradients that reflect the structure of bandit problems and policies, for both non-contextual and contextual settings, and propose a number of interesting policies that are both differentiable and have low regret. Our algorithmic and theoretical contributions are supported by extensive experiments that show the importance of baseline subtraction, learned biases, and the practicality of our approach on a range problems.
翻訳日:2022-11-23 13:42:03 公開日:2021-01-06
# 勾配ブースティングによるトランスダクションの最適化と一般化解析と多スケールグラフニューラルネットワークへの応用

Optimization and Generalization Analysis of Transduction through Gradient Boosting and Application to Multi-scale Graph Neural Networks ( http://arxiv.org/abs/2006.08550v3 )

ライセンス: Link先を確認
Kenta Oono, Taiji Suzuki(参考訳) 現在のグラフニューラルネットワーク(GNN)は、オーバースムーシング(over-smoothing)と呼ばれる問題のため、自分自身を深くするのは難しいことが知られている。 マルチスケールGNNは、オーバースムーシング問題を緩和するための有望なアプローチである。 しかし、学習理論の観点からは、なぜ経験的に働くのかという説明はほとんどない。 本研究では,マルチスケールGNNを含むトランスダクティブ学習アルゴリズムの最適化と一般化を保証する。 ブースティング理論を用いて,弱い学習条件下での学習誤差の収束を証明した。 帰納的Rademacher複雑性の観点から一般化ギャップ境界と組み合わせることで、ある条件下でのノード集約数に応じて減少する特定の種類のマルチスケールGNNのテスト誤差境界を示す。 本研究は,マルチスケール構造の有効性を理論的に説明するものである。 実世界のノード予測タスクに対するマルチスケールGNNのトレーニングにブースティングアルゴリズムを適用した。 我々は,その性能が既存のGNNと同等であることを確認し,実用行動は理論的な観察と一致していることを確認する。 コードはhttps://github.com/delta2323/GB-GNNで入手できる。

It is known that the current graph neural networks (GNNs) are difficult to make themselves deep due to the problem known as over-smoothing. Multi-scale GNNs are a promising approach for mitigating the over-smoothing problem. However, there is little explanation of why it works empirically from the viewpoint of learning theory. In this study, we derive the optimization and generalization guarantees of transductive learning algorithms that include multi-scale GNNs. Using the boosting theory, we prove the convergence of the training error under weak learning-type conditions. By combining it with generalization gap bounds in terms of transductive Rademacher complexity, we show that a test error bound of a specific type of multi-scale GNNs that decreases corresponding to the number of node aggregations under some conditions. Our results offer theoretical explanations for the effectiveness of the multi-scale structure against the over-smoothing problem. We apply boosting algorithms to the training of multi-scale GNNs for real-world node prediction tasks. We confirm that its performance is comparable to existing GNNs, and the practical behaviors are consistent with theoretical observations. Code is available at https://github.com/delta2323/GB-GNN.
翻訳日:2022-11-21 03:50:40 公開日:2021-01-06
# 制約付きガウス過程回帰に関する調査:アプローチと実装課題

A Survey of Constrained Gaussian Process Regression: Approaches and Implementation Challenges ( http://arxiv.org/abs/2006.09319v3 )

ライセンス: Link先を確認
Laura Swiler, Mamikon Gulian, Ari Frankel, Cosmin Safta, John Jakeman(参考訳) ガウス過程回帰は高価なデータソースのサロゲートモデリングのための人気のあるベイズフレームワークである。 科学機械学習における幅広い取り組みの一環として、近年の多くの研究は、限定されたデータを補完し、モデルの振る舞いを規則化するために、ガウス過程の回帰に物理的制約やその他の事前情報を組み込んでいる。 本稿では, 正則性や有界制約, 単調性, 凸性制約, 線形PDEによる微分方程式制約, 境界条件制約など, ガウス過程制約のいくつかのクラスの概要と調査を行う。 各アプローチの背後にある戦略と実装の違いを比較し、制約によって引き起こされる計算上の課題について議論する。

Gaussian process regression is a popular Bayesian framework for surrogate modeling of expensive data sources. As part of a broader effort in scientific machine learning, many recent works have incorporated physical constraints or other a priori information within Gaussian process regression to supplement limited data and regularize the behavior of the model. We provide an overview and survey of several classes of Gaussian process constraints, including positivity or bound constraints, monotonicity and convexity constraints, differential equation constraints provided by linear PDEs, and boundary condition constraints. We compare the strategies behind each approach as well as the differences in implementation, concluding with a discussion of the computational challenges introduced by constraints.
翻訳日:2022-11-20 20:10:41 公開日:2021-01-06
# センターベース3次元物体検出・追跡

Center-based 3D Object Detection and Tracking ( http://arxiv.org/abs/2006.11275v2 )

ライセンス: Link先を確認
Tianwei Yin, Xingyi Zhou, Philipp Kr\"ahenb\"uhl(参考訳) 3次元オブジェクトは通常、ポイントクラウド内の3Dボックスとして表現される。 この表現は、よく研究されたイメージベースの2Dバウンディングボックス検出を模倣するが、さらなる課題が伴う。 3d世界の物体は特定の向きに従わず、ボックスベースの検出器は全ての向きを列挙したり、軸に並ぶ境界ボックスを回転させたりするのが困難である。 本稿では,3Dオブジェクトをポイントとして表現し,検出し,追跡することを提案する。 われわれのフレームワークであるCenterPointは、まずキーポイント検出器を用いて物体の中心を検知し、3次元サイズ、3次元方向、速度など他の属性に回帰する。 第2段階では、オブジェクトに追加のポイント機能を使用して、これらの見積もりを洗練します。 CenterPointでは、3Dオブジェクトの追跡はグリーディに近いポイントマッチングを単純化する。 その結果、検出と追跡のアルゴリズムは単純で効率的で効果的である。 CenterPointは3D検出と追跡の両方でnuScenesベンチマークで65.5 NDSと63.8 AMOTAで最先端のパフォーマンスを達成した。 Waymo Open Datasetでは、CenterPointはこれまでのシングルモデル手法を大きなマージンで上回り、Lidarのみの提出品の中で第1位である。 コードと事前トレーニングされたモデルは、https://github.com/tianweiy/centerpointで入手できる。

Three-dimensional objects are commonly represented as 3D boxes in a point-cloud. This representation mimics the well-studied image-based 2D bounding-box detection but comes with additional challenges. Objects in a 3D world do not follow any particular orientation, and box-based detectors have difficulties enumerating all orientations or fitting an axis-aligned bounding box to rotated objects. In this paper, we instead propose to represent, detect, and track 3D objects as points. Our framework, CenterPoint, first detects centers of objects using a keypoint detector and regresses to other attributes, including 3D size, 3D orientation, and velocity. In a second stage, it refines these estimates using additional point features on the object. In CenterPoint, 3D object tracking simplifies to greedy closest-point matching. The resulting detection and tracking algorithm is simple, efficient, and effective. CenterPoint achieved state-of-the-art performance on the nuScenes benchmark for both 3D detection and tracking, with 65.5 NDS and 63.8 AMOTA for a single model. On the Waymo Open Dataset, CenterPoint outperforms all previous single model method by a large margin and ranks first among all Lidar-only submissions. The code and pretrained models are available at https://github.com/tianweiy/CenterPoint.
翻訳日:2022-11-19 04:49:41 公開日:2021-01-06
# watsonの知覚モデルに基づく生成ニューラルネットワークの損失関数

A Loss Function for Generative Neural Networks Based on Watson's Perceptual Model ( http://arxiv.org/abs/2006.15057v3 )

ライセンス: Link先を確認
Steffen Czolbe, Oswin Krause, Ingemar Cox, Christian Igel(参考訳) 変動オートエンコーダ(VAE)を訓練して現実的な画像を生成するには、画像類似性の人間の知覚を反映する損失関数が必要である。 本稿では,周波数空間における重み付き距離を計算し,輝度とコントラストマスキングを考慮したWatsonの知覚モデルに基づく損失関数を提案する。 カラー画像にモデルを拡張し、フーリエ変換を用いてそのロバスト性を高め、画像をブロックに分割してアーチファクトを除去し、それを識別可能にする。 実験では、新しい損失関数で訓練されたvaesが、リアルで高品質な画像サンプルを生成した。 ユークリッド距離や構造類似度指数と比較すると、画像のぼやけは少なく、ディープニューラルネットワークによる損失に比べ、新しいアプローチでは計算リソースの削減と、アーティファクトの少ない生成イメージが必要になった。

To train Variational Autoencoders (VAEs) to generate realistic imagery requires a loss function that reflects human perception of image similarity. We propose such a loss function based on Watson's perceptual model, which computes a weighted distance in frequency space and accounts for luminance and contrast masking. We extend the model to color images, increase its robustness to translation by using the Fourier Transform, remove artifacts due to splitting the image into blocks, and make it differentiable. In experiments, VAEs trained with the new loss function generated realistic, high-quality image samples. Compared to using the Euclidean distance and the Structural Similarity Index, the images were less blurry; compared to deep neural network based losses, the new approach required less computational resources and generated images with less artifacts.
翻訳日:2022-11-16 20:45:36 公開日:2021-01-06
# アンサンブルネットワークと雑音層を用いたロバスト深層学習に向けて

Towards Robust Deep Learning with Ensemble Networks and Noisy Layers ( http://arxiv.org/abs/2007.01507v2 )

ライセンス: Link先を確認
Yuting Liang, Reza Samavi(参考訳) 本稿では,画像分類型ネットワークの逆例から保護する深層学習のアプローチを提案する。 アプローチは2つのメカニズムに依存している: 1) 精度を犠牲にして堅牢性を高めるメカニズム、そして、 2)精度は向上するが、常に堅牢性を高めないメカニズム。 この2つのメカニズムを組み合わせたアプローチは, 精度を維持しつつ, 敵対的事例から保護できることを示す。 我々は,その効果を実証するために,実験結果を用いてアプローチに対する潜在的な攻撃を定式化する。 また、我々のアプローチに対する堅牢性保証と、その保証の解釈も提供します。

In this paper we provide an approach for deep learning that protects against adversarial examples in image classification-type networks. The approach relies on two mechanisms:1) a mechanism that increases robustness at the expense of accuracy, and, 2) a mechanism that improves accuracy but does not always increase robustness. We show that an approach combining the two mechanisms can provide protection against adversarial examples while retaining accuracy. We formulate potential attacks on our approach with experimental results to demonstrate its effectiveness. We also provide a robustness guarantee for our approach along with an interpretation for the guarantee.
翻訳日:2022-11-14 05:02:36 公開日:2021-01-06
# SLAP:短寿命逆転摂動による身体的逆転例の改善

SLAP: Improving Physical Adversarial Examples with Short-Lived Adversarial Perturbations ( http://arxiv.org/abs/2007.04137v3 )

ライセンス: Link先を確認
Giulio Lovisotto, Henry Turner, Ivo Sluganovic, Martin Strohmeier, Ivan Martinovic(参考訳) 敵の例 (AE) の研究は急速に進んでいるが、静的な敵のパッチはいまだに現実の世界で攻撃を行うための主要な技術である。 本稿では,光プロジェクタを用いて物理的にロバストな実世界のaeを実現するための新しい手法である,短命な逆向摂動(slap)を提案する。 攻撃者は、特定の敵の摂動を現実世界の物体に投影し、それをAEに変換する。 これにより、敵は敵のパッチに比べて攻撃を制御できるようになる。 (i)任意で動的にオン・オフまたは修正することができる。 (ii)プロジェクションはパッチによって課される局所性制約に悩まされず、検出が困難になる。 自動走行シナリオにおけるSLAPの実現可能性について検討し,停止標識の検出に焦点をあてて,物体検出タスクと交通標識認識タスクの両方を対象として検討を行った。 我々は屋外を含む様々な環境光条件下で実験を行い、提案手法が極めて堅牢なAEを生成する場合、様々な角度と距離で最大99%の成功率で最先端のネットワークに誤分類を生じさせることを示す。 また,SLAP 生成した AE は敵パッチに見られる検出可能な動作を示さないため,物理的な AE 検出手法である SentiNet をバイパスする。 攻撃効果を80%まで抑えることができる対向学習を用いた適応ディフェンダーを含む他の防御効果の評価を行った。

Research into adversarial examples (AE) has developed rapidly, yet static adversarial patches are still the main technique for conducting attacks in the real world, despite being obvious, semi-permanent and unmodifiable once deployed. In this paper, we propose Short-Lived Adversarial Perturbations (SLAP), a novel technique that allows adversaries to realize physically robust real-world AE by using a light projector. Attackers can project a specifically crafted adversarial perturbation onto a real-world object, transforming it into an AE. This allows the adversary greater control over the attack compared to adversarial patches: (i) projections can be dynamically turned on and off or modified at will, (ii) projections do not suffer from the locality constraint imposed by patches, making them harder to detect. We study the feasibility of SLAP in the self-driving scenario, targeting both object detector and traffic sign recognition tasks, focusing on the detection of stop signs. We conduct experiments in a variety of ambient light conditions, including outdoors, showing how in non-bright settings the proposed method generates AE that are extremely robust, causing misclassifications on state-of-the-art networks with up to 99% success rate for a variety of angles and distances. We also demostrate that SLAP-generated AE do not present detectable behaviours seen in adversarial patches and therefore bypass SentiNet, a physical AE detection method. We evaluate other defences including an adaptive defender using adversarial learning which is able to thwart the attack effectiveness up to 80% even in favourable attacker conditions.
翻訳日:2022-11-12 12:39:36 公開日:2021-01-06
# 神経スパースボクセル場

Neural Sparse Voxel Fields ( http://arxiv.org/abs/2007.11571v2 )

ライセンス: Link先を確認
Lingjie Liu, Jiatao Gu, Kyaw Zaw Lin, Tat-Seng Chua, Christian Theobalt(参考訳) 古典的コンピュータグラフィックス技術を用いた実世界のシーンのフォトリアリスティックな自由視点レンダリングは、詳細な外観と幾何学モデルを取得するのが難しいため、難しい。 近年の研究では、3次元の監督なしに幾何学と外観の両方を暗黙的に符号化するシーン表現の学習によって有望な結果が示されている。 しかし、既存のアプローチでは、ネットワーク容量の制限や、シーン形状とカメラの正確な交点を見つけるのが難しいことによるぼやけたレンダリングがしばしば見られる。 これらの表現から高解像度画像を合成するには、しばしば時間を要する光線マーチが必要となる。 本研究では,高速かつ高品質な自由視点レンダリングのためのニューラルシーン表現であるNeural Sparse Voxel Fields (NSVF)を紹介する。 nsvfは、ばらばらなvoxel octreeで組織化されたvoxelに束縛された暗黙のフィールドの集合を定義し、各セルのローカルプロパティをモデル化する。 我々は,RGB画像の集合のみから,X線マーチング操作で基礎となるボクセル構造を段階的に学習する。 スパースなvoxel octree構造により、関連するシーンコンテンツを含まないvoxelをスキップすることで、新しいビューのレンダリングを高速化することができる。 提案手法は通常, 推定時の最先端技術(nerf(mildenhall et al., 2020)よりも10倍以上高速で, 高品質な結果が得られる。 また,明示的なスパースボクセル表現を利用することで,シーン編集やシーン構成に容易に適用できる。 また,複数シーン学習,移動人間の自由視点レンダリング,大規模シーンレンダリングなど,いくつかの課題を提示する。 コードとデータは当社のウェブサイトで入手できます。

Photo-realistic free-viewpoint rendering of real-world scenes using classical computer graphics techniques is challenging, because it requires the difficult step of capturing detailed appearance and geometry models. Recent studies have demonstrated promising results by learning scene representations that implicitly encode both geometry and appearance without 3D supervision. However, existing approaches in practice often show blurry renderings caused by the limited network capacity or the difficulty in finding accurate intersections of camera rays with the scene geometry. Synthesizing high-resolution imagery from these representations often requires time-consuming optical ray marching. In this work, we introduce Neural Sparse Voxel Fields (NSVF), a new neural scene representation for fast and high-quality free-viewpoint rendering. NSVF defines a set of voxel-bounded implicit fields organized in a sparse voxel octree to model local properties in each cell. We progressively learn the underlying voxel structures with a differentiable ray-marching operation from only a set of posed RGB images. With the sparse voxel octree structure, rendering novel views can be accelerated by skipping the voxels containing no relevant scene content. Our method is typically over 10 times faster than the state-of-the-art (namely, NeRF(Mildenhall et al., 2020)) at inference time while achieving higher quality results. Furthermore, by utilizing an explicit sparse voxel representation, our method can easily be applied to scene editing and scene composition. We also demonstrate several challenging tasks, including multi-scene learning, free-viewpoint rendering of a moving human, and large-scale scene rendering. Code and data are available at our website: https://github.com/facebookresearch/NSVF.
翻訳日:2022-11-07 22:29:25 公開日:2021-01-06
# nerf in the wild:未拘束フォトコレクションのためのニューラル・ラミアンス・フィールド

NeRF in the Wild: Neural Radiance Fields for Unconstrained Photo Collections ( http://arxiv.org/abs/2008.02268v3 )

ライセンス: Link先を確認
Ricardo Martin-Brualla, Noha Radwan, Mehdi S. M. Sajjadi, Jonathan T. Barron, Alexey Dosovitskiy, Daniel Duckworth(参考訳) 本研究では,非構造化画像のみを用いて複雑なシーンの新規ビューを合成する学習手法を提案する。 我々は,多層パーセプトロンの重みを用いて,シーンの密度と色を3次元座標の関数としてモデル化するニューラル・ラジアンス・フィールド(nerf)を構築した。 NeRFは、制御された設定下でキャプチャされた静的な被写体の画像に対してうまく機能するが、可変照明や過渡オクローダのような制御されていない画像において、ユビキタスで現実世界の現象をモデル化することはできない。 我々はこれらの問題に対処するためにNeRFの一連の拡張を導入し、インターネットから取得した非構造化画像の正確な再構築を可能にする。 我々はNeRF-Wと呼ばれるシステムを有名なランドマークのインターネット写真コレクションに適用し、従来よりもフォトリアリズムに近い時間的に一貫した新しいビューレンダリングを実証する。

We present a learning-based method for synthesizing novel views of complex scenes using only unstructured collections of in-the-wild photographs. We build on Neural Radiance Fields (NeRF), which uses the weights of a multilayer perceptron to model the density and color of a scene as a function of 3D coordinates. While NeRF works well on images of static subjects captured under controlled settings, it is incapable of modeling many ubiquitous, real-world phenomena in uncontrolled images, such as variable illumination or transient occluders. We introduce a series of extensions to NeRF to address these issues, thereby enabling accurate reconstructions from unstructured image collections taken from the internet. We apply our system, dubbed NeRF-W, to internet photo collections of famous landmarks, and demonstrate temporally consistent novel view renderings that are significantly closer to photorealism than the prior state of the art.
翻訳日:2022-11-02 18:02:24 公開日:2021-01-06
# 実環境における自動カリキュラム学習による視覚ナビゲーション

Embodied Visual Navigation with Automatic Curriculum Learning in Real Environments ( http://arxiv.org/abs/2009.05429v2 )

ライセンス: Link先を確認
Steven D. Morad, Roberto Mecca, Rudra P.K. Poudel, Stephan Liwicki, and Roberto Cipolla(参考訳) ナビゲーションタスクに適した自動カリキュラム学習手法であるNavACLを提案する。 NavACLは、幾何学的特徴を用いて関連タスクを訓練し、効率的に選択する。 実験では、navaclを用いてトレーニングした深層強化学習エージェントが、均一サンプリングでトレーニングされた最先端エージェントを有意に上回っている。 さらに,未知の屋内環境から,rgb画像のみを使用して意味的に特定されたターゲットへ移動できる。 障害回避ポリシーと凍結された機能ネットワークは、変更や再トレーニングの必要なしに、見えない実環境への転送をサポートする。 我々は,地上ロボットとクオータードローンを用いて,シミュレーションおよび実世界における我々の政策を評価する。 実際の結果のビデオは補足資料で見ることができる。

We present NavACL, a method of automatic curriculum learning tailored to the navigation task. NavACL is simple to train and efficiently selects relevant tasks using geometric features. In our experiments, deep reinforcement learning agents trained using NavACL significantly outperform state-of-the-art agents trained with uniform sampling -- the current standard. Furthermore, our agents can navigate through unknown cluttered indoor environments to semantically-specified targets using only RGB images. Obstacle-avoiding policies and frozen feature networks support transfer to unseen real-world environments, without any modification or retraining requirements. We evaluate our policies in simulation, and in the real world on a ground robot and a quadrotor drone. Videos of real-world results are available in the supplementary material.
翻訳日:2022-10-19 21:05:45 公開日:2021-01-06
# サッカーゴールキーパーによるバーチャルリアリティにおける視線運動の特徴分類

Eye Movement Feature Classification for Soccer Goalkeeper Expertise Identification in Virtual Reality ( http://arxiv.org/abs/2009.11676v2 )

ライセンス: Link先を確認
Benedikt Hosp, Florian Schultz, Oliver H\"oner, Enkelejda Kasneci(参考訳) サッカー選手の専門知識評価に関する最新の研究は、高い実験的制御や現実的なプレゼンテーションに焦点を当てることで、知覚的スキル(特に意思決定)の重要性を裏付けている。 スポーツ選手の知覚スキルを最適化して評価するために,全方向のフィールドシーンを捉え,バーチャルリアリティグラス上で12名,中間10名,初級13名のサッカーゴールキーパーに提示した。 すべてのシーンは、同じ自然のゴールキーパーの視点から表示され、ゴールキーパーへのリターンパス後に終了します。 彼らの視線行動に基づいて、彼らの専門知識を一般的な機械学習技術に分類した。 本研究は,視線行動に基づくゴールキーパーの客観的分類に有望な結果を示し,選手の知覚能力を高めるためのトレーニングシステムの設計に有用な洞察を与える。

The latest research in expertise assessment of soccer players has affirmed the importance of perceptual skills (especially for decision making) by focusing either on high experimental control or on a realistic presentation. To assess the perceptual skills of athletes in an optimized manner, we captured omnidirectional in-field scenes and showed these to 12 expert, 10 intermediate and 13 novice soccer goalkeepers on virtual reality glasses. All scenes were shown from the same natural goalkeeper perspective and ended after the return pass to the goalkeeper. Based on their gaze behavior we classified their expertise with common machine learning techniques. This pilot study shows promising results for objective classification of goalkeepers expertise based on their gaze behaviour and provided valuable insight to inform the design of training systems to enhance perceptual skills of athletes.
翻訳日:2022-10-15 15:07:28 公開日:2021-01-06
# 胸部X線画像からのCOVID-19感染マップの作成と検出

COVID-19 Infection Map Generation and Detection from Chest X-Ray Images ( http://arxiv.org/abs/2009.12698v2 )

ライセンス: Link先を確認
Aysen Degerli, Mete Ahishali, Mehmet Yamac, Serkan Kiranyaz, Muhammad E. H. Chowdhury, Khalid Hameed, Tahir Hamid, Rashid Mazhar, and Moncef Gabbouj(参考訳) コンピューター支援による診断は、治療や感染拡大防止のため、2019年の新型コロナウイルス感染症(COVID-19)の正確な診断に欠かせないものとなっている。 新型コロナウイルスの診断にディープラーニング技術を使うことが、多くの研究で提案されている。 しかし、非常に限られた胸部X線(CXR)画像レポジトリを使用して、少数の、数百のサンプルを検査している。 さらに、これらの方法は、新型コロナウイルス感染の深刻度を局所化することも評価することもできない。 この目的のために、近年の研究で深層ネットワークの活性化マップの探索が提案されている。 しかし、実際の寄生虫の局在が不正確なため、臨床使用には信頼性が低い。 本研究は,CXR画像からの感染地図の作成により,共同局在化,重症度評価,および新型コロナウイルス検出の新たな手法を提案する。 これを実現するために,2951 COVID-19サンプルを含む119,316枚のCXR画像を用いた最大データセットを作成した。 さらに,CXRデータセットは,新型コロナウイルス感染地域の接地トラストセグメンテーションマスクを用いて公開している。 詳細な実験のセットでは、最先端のセグメンテーションネットワークが、f1-scoreの83.20%でcovid-19感染をローカライズできることが示されています。 最後に、提案手法は94.96%の感度と99.88%の特異性を持つcovid-19検出性能を達成した。

Computer-aided diagnosis has become a necessity for accurate and immediate coronavirus disease 2019 (COVID-19) detection to aid treatment and prevent the spread of the virus. Numerous studies have proposed to use Deep Learning techniques for COVID-19 diagnosis. However, they have used very limited chest X-ray (CXR) image repositories for evaluation with a small number, a few hundreds, of COVID-19 samples. Moreover, these methods can neither localize nor grade the severity of COVID-19 infection. For this purpose, recent studies proposed to explore the activation maps of deep networks. However, they remain inaccurate for localizing the actual infestation making them unreliable for clinical use. This study proposes a novel method for the joint localization, severity grading, and detection of COVID-19 from CXR images by generating the so-called infection maps. To accomplish this, we have compiled the largest dataset with 119,316 CXR images including 2951 COVID-19 samples, where the annotation of the ground-truth segmentation masks is performed on CXRs by a novel collaborative human-machine approach. Furthermore, we publicly release the first CXR dataset with the ground-truth segmentation masks of the COVID-19 infected regions. A detailed set of experiments show that state-of-the-art segmentation networks can learn to localize COVID-19 infection with an F1-score of 83.20%, which is significantly superior to the activation maps created by the previous methods. Finally, the proposed approach achieved a COVID-19 detection performance with 94.96% sensitivity and 99.88% specificity.
翻訳日:2022-10-14 08:44:47 公開日:2021-01-06
# 少数のクエリからの適応型ジオローカライズ:ハイブリッドアプローチ

Adaptive-Attentive Geolocalization from few queries: a hybrid approach ( http://arxiv.org/abs/2010.06897v2 )

ライセンス: Link先を確認
Gabriele Moreno Berton, Valerio Paolicelli, Carlo Masone and Barbara Caputo(参考訳) そこでは,クエリとギャラリーが異なる視覚領域に属している場合において,ラベル付きギャラリーに対して,所定のクエリイメージをジオローカライズすることが目的である。 そこで本研究では,少数の非教師付きドメイン適応技術と組み合わせたアテンション機構を利用して,少数の未ラベルのドメイン画像を用いて対象の分布を学習することで,ドメインの堅牢なディープネットワークを構築することに注力する。 提案手法では,2桁小さい対象領域画像を用いて,現在の技術性能を上回ることができる。 最後に,クロスドメイン視覚位置認識のための新しい大規模データセットであるsvoxを提案する。 pytorchのコードはhttps://github.com/valeriopaolicelli/adageoで入手できる。

We address the task of cross-domain visual place recognition, where the goal is to geolocalize a given query image against a labeled gallery, in the case where the query and the gallery belong to different visual domains. To achieve this, we focus on building a domain robust deep network by leveraging over an attention mechanism combined with few-shot unsupervised domain adaptation techniques, where we use a small number of unlabeled target domain images to learn about the target distribution. With our method, we are able to outperform the current state of the art while using two orders of magnitude less target domain images. Finally we propose a new large-scale dataset for cross-domain visual place recognition, called SVOX. The pytorch code is available at https://github.com/valeriopaolicelli/AdAGeo .
翻訳日:2022-10-07 13:37:27 公開日:2021-01-06
# 実演によるモデルベース逆強化学習

Model-Based Inverse Reinforcement Learning from Visual Demonstrations ( http://arxiv.org/abs/2010.09034v2 )

ライセンス: Link先を確認
Neha Das and Sarah Bechtle and Todor Davchev and Dinesh Jayaraman and Akshara Rai and Franziska Meier(参考訳) 未知のダイナミクスを持つ実際のロボット操作タスクへのモデルベース逆強化学習(irl)のスケーリングは、まだ未解決の問題である。 重要な課題は、優れたダイナミクスモデルを学び、高次元の状態空間にスケールするアルゴリズムを開発し、視覚的および固有的なデモンストレーションから学ぶことができることだ。 本研究では,事前学習された視覚力学モデルを用いて,視覚人間によるデモンストレーションのみを与えられた場合のコスト関数を学習する,勾配に基づく逆強化学習フレームワークを提案する。 学習したコスト関数は、視覚モデル予測制御によって実証された振る舞いを再現するために使用される。 2つの基本的なオブジェクト操作タスクでハードウェアのフレームワークを評価する。

Scaling model-based inverse reinforcement learning (IRL) to real robotic manipulation tasks with unknown dynamics remains an open problem. The key challenges lie in learning good dynamics models, developing algorithms that scale to high-dimensional state-spaces and being able to learn from both visual and proprioceptive demonstrations. In this work, we present a gradient-based inverse reinforcement learning framework that utilizes a pre-trained visual dynamics model to learn cost functions when given only visual human demonstrations. The learned cost functions are then used to reproduce the demonstrated behavior via visual model predictive control. We evaluate our framework on hardware on two basic object manipulation tasks.
翻訳日:2022-10-06 04:31:18 公開日:2021-01-06
# 異種ネットワークのためのメタパスフリー半教師付き学習

Meta-path Free Semi-supervised Learning for Heterogeneous Networks ( http://arxiv.org/abs/2010.08924v2 )

ライセンス: Link先を確認
Shin-woo Park, Byung Jun Bae, Jinyoung Yeo, Seung-won Hwang(参考訳) グラフニューラルネットワーク(GNN)はグラフの表現学習に広く使われており、ノード分類などのタスクにおいて優れたパフォーマンスを実現している。 しかし、異なる種類のノードとリンクの異種グラフを分析することは、グラフニューラルネットワークに異種性を注入する上で大きな課題をもたらす。 一般的な治療法は、不均一グラフを均質グラフに変換するためのメタパスを手動または自動で設計することであるが、一階隣人の特徴がトレーニングや推論に完全に活用されないため、これは準最適である。 本稿では,メタパスを除く異種グラフに対して,単純かつ効率的なグラフニューラルネットワークを提案する。 具体的には,一般gnnのモデル容量を効果的に拡大することにより,モデルパラメータの異質性ストレスを緩和することに焦点を当てた。 6つの実世界のグラフに対する広範囲な実験結果から,提案モデルの性能は最先端モデルよりも優れているだけでなく,不均質性応力の低減とパラメータサイズの増大とのバランスの良さが示された。 私たちのコードは、結果の再生に自由に利用できます。

Graph neural networks (GNNs) have been widely used in representation learning on graphs and achieved superior performance in tasks such as node classification. However, analyzing heterogeneous graph of different types of nodes and links still brings great challenges for injecting the heterogeneity into a graph neural network. A general remedy is to manually or automatically design meta-paths to transform a heterogeneous graph into a homogeneous graph, but this is suboptimal since the features from the first-order neighbors are not fully leveraged for training and inference. In this paper, we propose simple and effective graph neural networks for heterogeneous graph, excluding the use of meta-paths. Specifically, our models focus on relaxing the heterogeneity stress for model parameters by expanding model capacity of general GNNs in an effective way. Extensive experimental results on six real-world graphs not only show the superior performance of our proposed models over the state-of-the-arts, but also demonstrate the potentially good balance between reducing the heterogeneity stress and increasing the parameter size. Our code is freely available for reproducing our results.
翻訳日:2022-10-06 03:58:23 公開日:2021-01-06
# In-Domain と Out-of-Distribution の表現ギャップの最大化に向けて

Towards Maximizing the Representation Gap between In-Domain & Out-of-Distribution Examples ( http://arxiv.org/abs/2010.10474v2 )

ライセンス: Link先を確認
Jay Nandy and Wynne Hsu and Mong Li Lee(参考訳) 既存の不確実性推定手法の中で、ディリクレ優先ネットワーク(DPN)は異なる予測不確実性タイプをモデル化している。 しかし、複数のクラス間で高いデータ不確実性を持つドメイン内の例の場合、DPNモデルでさえ、OOD検出性能を損なうことなく、アウト・オブ・ディストリビューション(OOD)の例から識別不能な表現をしばしば生成する。 この欠点に対処するため,DPN の新たな損失関数を提案し,ドメイン内と OOD の例間の \textit{representation gap} を最大化する。 実験の結果,提案手法はOOD検出性能を継続的に向上することが示された。

Among existing uncertainty estimation approaches, Dirichlet Prior Network (DPN) distinctly models different predictive uncertainty types. However, for in-domain examples with high data uncertainties among multiple classes, even a DPN model often produces indistinguishable representations from the out-of-distribution (OOD) examples, compromising their OOD detection performance. We address this shortcoming by proposing a novel loss function for DPN to maximize the \textit{representation gap} between in-domain and OOD examples. Experimental results demonstrate that our proposed approach consistently improves OOD detection performance.
翻訳日:2022-10-05 06:21:29 公開日:2021-01-06
# ベイズニューラルネットワークにおける解釈出力制約の導入

Incorporating Interpretable Output Constraints in Bayesian Neural Networks ( http://arxiv.org/abs/2010.10969v2 )

ライセンス: Link先を確認
Wanqian Yang, Lars Lorch, Moritz A. Graule, Himabindu Lakkaraju, Finale Doshi-Velez(参考訳) 監督されたモデルがデプロイされるドメインは、接地関数の事前のエキスパート知識や安全性や公平性といったデシデラタといったタスク固有の制約を伴います。 このような制約で推論するための新しい確率的フレームワークを導入し、タスクを償却可能な変種を含むベイズニューラルネットワーク(BNN)に効果的に組み込むことができるように事前を定式化する。 その結果、出力制約付きBNN (OC-BNN) は不確実性定量化のためのベイズフレームワークと完全に整合しており、ブラックボックス推論にも適用可能である。 解釈不能なパラメータ空間における典型的なBNN推論とは異なり、OC-BNNは、特に機械学習の専門知識を持たないモデルユーザーのために、組み込むことができる機能的な知識の範囲を広げる。 我々は、医療、刑事司法、信用スコアなどの複数の領域にまたがる実世界のデータセットに対するOC-BNNの有効性を実証する。

Domains where supervised models are deployed often come with task-specific constraints, such as prior expert knowledge on the ground-truth function, or desiderata like safety and fairness. We introduce a novel probabilistic framework for reasoning with such constraints and formulate a prior that enables us to effectively incorporate them into Bayesian neural networks (BNNs), including a variant that can be amortized over tasks. The resulting Output-Constrained BNN (OC-BNN) is fully consistent with the Bayesian framework for uncertainty quantification and is amenable to black-box inference. Unlike typical BNN inference in uninterpretable parameter space, OC-BNNs widen the range of functional knowledge that can be incorporated, especially for model users without expertise in machine learning. We demonstrate the efficacy of OC-BNNs on real-world datasets, spanning multiple domains such as healthcare, criminal justice, and credit scoring.
翻訳日:2022-10-04 23:06:01 公開日:2021-01-06
# 深層学習における不確かさの定量化:技術・応用・課題

A Review of Uncertainty Quantification in Deep Learning: Techniques, Applications and Challenges ( http://arxiv.org/abs/2011.06225v4 )

ライセンス: Link先を確認
Moloud Abdar, Farhad Pourpanah, Sadiq Hussain, Dana Rezazadegan, Li Liu, Mohammad Ghavamzadeh, Paul Fieguth, Xiaochun Cao, Abbas Khosravi, U Rajendra Acharya, Vladimir Makarenkov, Saeid Nahavandi(参考訳) 不確実性定量化(UQ)は、最適化と意思決定プロセスの両方において不確実性の低減に重要な役割を果たしている。 科学と工学における様々な現実世界の応用を解くために応用できる。 ベイズ近似とアンサンブル学習技術は、この文献で最も広く使われているUQ手法である。 この点に関して、研究者は様々なUQ手法を提案し、コンピュータビジョン(例えば、自動運転車や物体検出)、画像処理(例えば、画像復元)、医用画像分析(例えば、医用画像の分類とセグメンテーション)、自然言語処理(例えば、テキスト分類、ソーシャルメディアのテキストと復号化)、バイオインフォマティクス(英語版)など、様々な用途でその性能を調べてきた。 本研究では,ディープラーニングにおけるUQ手法の最近の進歩を概観する。 また,これらの手法の強化学習への応用についても検討した。 次に、UQ手法のいくつかの重要な応用について概説する。 最後に,UQ手法が直面する基本的な研究課題を概説し,今後の研究方向性について考察する。

Uncertainty quantification (UQ) plays a pivotal role in reduction of uncertainties during both optimization and decision making processes. It can be applied to solve a variety of real-world applications in science and engineering. Bayesian approximation and ensemble learning techniques are two most widely-used UQ methods in the literature. In this regard, researchers have proposed different UQ methods and examined their performance in a variety of applications such as computer vision (e.g., self-driving cars and object detection), image processing (e.g., image restoration), medical image analysis (e.g., medical image classification and segmentation), natural language processing (e.g., text classification, social media texts and recidivism risk-scoring), bioinformatics, etc. This study reviews recent advances in UQ methods used in deep learning. Moreover, we also investigate the application of these methods in reinforcement learning (RL). Then, we outline a few important applications of UQ methods. Finally, we briefly highlight the fundamental research challenges faced by UQ methods and discuss the future research directions in this field.
翻訳日:2022-09-26 06:14:49 公開日:2021-01-06
# ディープニューラルネットワークを用いた音楽帯域拡張のためのフィルタ一般化について

On Filter Generalization for Music Bandwidth Extension Using Deep Neural Networks ( http://arxiv.org/abs/2011.07274v2 )

ライセンス: Link先を確認
Serkan Sulun, Matthew E. P. Davies(参考訳) 本稿では,音楽帯域幅拡張(musical audio bandwidth extension)という,幅広い音声強調領域のサブトピックについて述べる。 本稿では,全帯域幅出力の再構成を目標とし,帯域制限信号がネットワークへの入力として提供されるディープニューラルネットワークを用いて帯域拡張問題を定式化する。 本研究の主な貢献は,ネットワークのトレーニングおよびテストにおいて,低域通過フィルタの選択が与える影響である。 ResNetとU-Netの2つの異なる技術状況において、トレーニングとテストのフィルタが一致した場合、最大7dBの信号-雑音比(SNR)の改善が得られることを示す。 しかし、これらのフィルタが異なる場合、改善は著しく低下し、一部の訓練条件下では帯域制限入力よりも低いSNRが得られる。 この明らかなフィルタ形状への過剰フィットを回避するために,訓練中に複数のローパスフィルタを用いたデータ拡張戦略を提案する。

In this paper, we address a sub-topic of the broad domain of audio enhancement, namely musical audio bandwidth extension. We formulate the bandwidth extension problem using deep neural networks, where a band-limited signal is provided as input to the network, with the goal of reconstructing a full-bandwidth output. Our main contribution centers on the impact of the choice of low pass filter when training and subsequently testing the network. For two different state of the art deep architectures, ResNet and U-Net, we demonstrate that when the training and testing filters are matched, improvements in signal-to-noise ratio (SNR) of up to 7dB can be obtained. However, when these filters differ, the improvement falls considerably and under some training conditions results in a lower SNR than the band-limited input. To circumvent this apparent overfitting to filter shape, we propose a data augmentation strategy which utilizes multiple low pass filters during training and leads to improved generalization to unseen filtering conditions at test time.
翻訳日:2022-09-25 13:18:41 公開日:2021-01-06
# タンパク質モデル品質評価のための分子グラフ上の球面畳み込み

Spherical convolutions on molecular graphs for protein model quality assessment ( http://arxiv.org/abs/2011.07980v2 )

ライセンス: Link先を確認
Ilia Igashov (MIPT, NANO-D), Nikita Pavlichenko (MIPT), Sergei Grudinin (NANO-D)(参考訳) 3Dオブジェクトの情報を処理するには、入力データの剛体変換、特に回転に安定な方法が必要である。 画像処理タスクでは、畳み込みニューラルネットワークが回転同変演算を用いてこの特性を達成する。 しかし、画像とは対照的に、グラフは一般に不規則なトポロジーを持つ。 これにより、これらの構造上の回転同変畳み込み演算を定義することが困難になる。 本研究では,分子グラフとして表されるタンパク質の3次元モデルを処理する球状グラフ畳み込みネットワーク(S-GCN)を提案する。 タンパク質分子では、個々のアミノ酸は共通のトポロジカルな要素を持つ。 これにより、各アミノ酸を局所座標系と明確に関連付け、グラフノード間の角情報を操作する回転同変球形フィルタを構築することができる。 タンパク質モデル品質評価問題の枠組みの中で,提案する球面畳み込み法は,標準的なメッセージパッシング手法と比較して,モデルアセスメントの質が著しく向上することを示す。 また、我々がCASP(Critical Assessment of Structure Prediction)ベンチマークで示したように、最先端の手法に匹敵する。 提案手法はタンパク質3Dモデルの幾何学的特徴のみで動作する。 これにより、グラフ構造が局所座標系を構築することができる任意の幾何学学習タスクに普遍的かつ適用できる。

Processing information on 3D objects requires methods stable to rigid-body transformations, in particular rotations, of the input data. In image processing tasks, convolutional neural networks achieve this property using rotation-equivariant operations. However, contrary to images, graphs generally have irregular topology. This makes it challenging to define a rotation-equivariant convolution operation on these structures. In this work, we propose Spherical Graph Convolutional Network (S-GCN) that processes 3D models of proteins represented as molecular graphs. In a protein molecule, individual amino acids have common topological elements. This allows us to unambiguously associate each amino acid with a local coordinate system and construct rotation-equivariant spherical filters that operate on angular information between graph nodes. Within the framework of the protein model quality assessment problem, we demonstrate that the proposed spherical convolution method significantly improves the quality of model assessment compared to the standard message-passing approach. It is also comparable to state-of-the-art methods, as we demonstrate on Critical Assessment of Structure Prediction (CASP) benchmarks. The proposed technique operates only on geometric features of protein 3D models. This makes it universal and applicable to any other geometric-learning task where the graph structure allows constructing local coordinate systems.
翻訳日:2022-09-25 01:08:45 公開日:2021-01-06
# 機械嗅覚における匂い検出のための匂いラベリング畳み込みエンコーダデコーダ

An Odor Labeling Convolutional Encoder-Decoder for Odor Sensing in Machine Olfaction ( http://arxiv.org/abs/2011.12538v2 )

ライセンス: Link先を確認
Tengteng Wen, Zhuofeng Mo, Jingshan Li, Qi Liu, Liming Wu and Dehan Luo(参考訳) 深層学習法は視覚・音響技術に広く応用されている。 本稿では,機械嗅覚における匂い識別のための畳み込みエンコーダデコーダ(olce)の匂いラベルを提案する。 OLCEは畳み込みニューラルネットワークエンコーダとデコーダを構成し、エンコーダ出力は匂いラベルに制約される。 電子鼻はガス応答のデータ収集に使われ、続いて規範的な実験が実施された。 アルゴリズムの有効性を評価するために、精度92.57%、精度92.29%、リコール率92.06%、F1スコア91.96%、カッパ係数90.76%が計算された。 また,このモデルと,機械の動作に使用されるアルゴリズムを比較した。 その結果,OLCEはこれらのアルゴリズムの中で最高の性能を示した。 この論文では、機械の嗅覚に関するいくつかの視点についても論じている。

Deep learning methods have been widely applied to visual and acoustic technology. In this paper, we proposed an odor labeling convolutional encoder-decoder (OLCE) for odor identification in machine olfaction. OLCE composes a convolutional neural network encoder and decoder where the encoder output is constrained to odor labels. An electronic nose was used for the data collection of gas responses followed by a normative experimental procedure. Several evaluation indexes were calculated to evaluate the algorithm effectiveness: accuracy 92.57%, precision 92.29%, recall rate 92.06%, F1-Score 91.96%, and Kappa coefficient 90.76%. We also compared the model with some algorithms used in machine olfaction. The comparison result demonstrated that OLCE had the best performance among these algorithms. In the paper, some perspectives of machine olfactions have been also discussed.
翻訳日:2022-09-21 03:24:32 公開日:2021-01-06
# (参考訳) 分子表現学習のための言語モデルの再プログラミング

Reprogramming Language Models for Molecular Representation Learning ( http://arxiv.org/abs/2012.03460v2 )

ライセンス: CC BY 4.0
Ria Vinod, Pin-Yu Chen, Payel Das(参考訳) 近年のトランスファーラーニングの進歩は、学習表現の転送によるドメイン適応に有望なアプローチとなった。 これは特に、置換タスクが、分子データ領域に共通する、明確に定義されたラベル付きデータの限られたサンプルを持つ場合に関係する。 これにより、転送学習は分子学習タスクを解決するのに理想的なアプローチとなる。 Adversarialのリプログラミングは、ニューラルネットワークを代替タスクに再利用することに成功したが、ほとんどの研究は、同じドメイン内のソースと代替タスクについて検討している。 本研究では,分子学習タスクのための事前学習済み言語モデルに対して,アート言語モデルの大規模状態における学習表現の活用を動機とする,辞書学習による表現再プログラミング(r2dl)という新しいアルゴリズムを提案する。 逆数プログラムは、k-SVDソルバを用いて、高密度ソースモデル入力空間(言語データ)とスパースターゲットモデル入力空間(例えば、化学および生物分子データ)との線形変換を学習し、符号化されたデータのスパース表現を辞書学習により近似する。 r2dlは、ドメイン固有のデータに基づいてトレーニングされた技術毒性予測モデルの状態によって確立されたベースラインを達成し、限られたトレーニングデータ設定でベースラインを上回る。

Recent advancements in transfer learning have made it a promising approach for domain adaptation via transfer of learned representations. This is especially when relevant when alternate tasks have limited samples of well-defined and labeled data, which is common in the molecule data domain. This makes transfer learning an ideal approach to solve molecular learning tasks. While Adversarial reprogramming has proven to be a successful method to repurpose neural networks for alternate tasks, most works consider source and alternate tasks within the same domain. In this work, we propose a new algorithm, Representation Reprogramming via Dictionary Learning (R2DL), for adversarially reprogramming pretrained language models for molecular learning tasks, motivated by leveraging learned representations in massive state of the art language models. The adversarial program learns a linear transformation between a dense source model input space (language data) and a sparse target model input space (e.g., chemical and biological molecule data) using a k-SVD solver to approximate a sparse representation of the encoded data, via dictionary learning. R2DL achieves the baseline established by state of the art toxicity prediction models trained on domain-specific data and outperforms the baseline in a limited training-data setting, thereby establishing avenues for domain-agnostic transfer learning for tasks with molecule data.
翻訳日:2021-05-21 06:39:40 公開日:2021-01-06
# 楕円過程に対するスペクトル-ドメイン $\mathcal{W}_2$ワッサーシュタイン距離とスペクトル-ドメインゲルリッチ境界

The Spectral-Domain $\mathcal{W}_2$ Wasserstein Distance for Elliptical Processes and the Spectral-Domain Gelbrich Bound ( http://arxiv.org/abs/2012.04023v2 )

ライセンス: Link先を確認
Song Fang and Quanyan Zhu(参考訳) この短い注記では、楕円的確率過程に対するスペクトル領域 $\mathcal{w}_2$ wasserstein 距離について、それらのパワースペクトルの観点から紹介する。 また、必ずしも楕円ではないプロセスに対してスペクトル領域 Gelbrich bound を導入する。

In this short note, we introduce the spectral-domain $\mathcal{W}_2$ Wasserstein distance for elliptical stochastic processes in terms of their power spectra. We also introduce the spectral-domain Gelbrich bound for processes that are not necessarily elliptical.
翻訳日:2021-05-16 21:32:27 公開日:2021-01-06
# 進化的および勾配的ポリシー探索の統合のための効率的な非同期手法

An Efficient Asynchronous Method for Integrating Evolutionary and Gradient-based Policy Search ( http://arxiv.org/abs/2012.05417v2 )

ライセンス: Link先を確認
Kyunghyun Lee, Byeong-Uk Lee, Ukcheol Shin and In So Kweon(参考訳) 深部強化学習(DRL)アルゴリズムと進化戦略(ES)は様々なタスクに適用されており、優れた性能を示している。 これらは反対の性質を持ち、DRLはサンプル効率が良く安定性が低い一方、ESは逆である。 近年,これらのアルゴリズムを組み合わせる試みがあるが,これらの手法は同期更新方式に完全に依存しているため,ESにおける並列処理の利点を最大化することは理想的ではない。 この課題を解決するため、非同期更新スキームが導入され、優れた時間効率と多様なポリシー探索が可能になった。 本稿では、ESの並列効率を最大化し、ポリシー勾配法と統合する非同期進化戦略強化学習(AES-RL)を提案する。 具体的には,1) ESとDRLを非同期にマージする新しいフレームワークを提案し,2) 時間効率,安定性,サンプル効率を両立させる非同期更新手法を提案する。 提案するフレームワークと更新手法は連続制御ベンチマーク作業で評価され,従来の手法に比べて性能と時間効率が優れていた。

Deep reinforcement learning (DRL) algorithms and evolution strategies (ES) have been applied to various tasks, showing excellent performances. These have the opposite properties, with DRL having good sample efficiency and poor stability, while ES being vice versa. Recently, there have been attempts to combine these algorithms, but these methods fully rely on synchronous update scheme, making it not ideal to maximize the benefits of the parallelism in ES. To solve this challenge, asynchronous update scheme was introduced, which is capable of good time-efficiency and diverse policy exploration. In this paper, we introduce an Asynchronous Evolution Strategy-Reinforcement Learning (AES-RL) that maximizes the parallel efficiency of ES and integrates it with policy gradient methods. Specifically, we propose 1) a novel framework to merge ES and DRL asynchronously and 2) various asynchronous update methods that can take all advantages of asynchronism, ES, and DRL, which are exploration and time efficiency, stability, and sample efficiency, respectively. The proposed framework and update methods are evaluated in continuous control benchmark work, showing superior performance as well as time efficiency compared to the previous methods.
翻訳日:2021-05-15 06:37:26 公開日:2021-01-06
# (参考訳) Primer AIの頭字語識別と曖昧化のためのシステム

Primer AI's Systems for Acronym Identification and Disambiguation ( http://arxiv.org/abs/2012.08013v2 )

ライセンス: CC BY 4.0
Nicholas Egan, John Bohannon(参考訳) 曖昧な頭字語が普及すると、人間や機械にとって科学文書を理解するのが難しくなり、テキスト中の頭字語を自動的に識別し、その意味を曖昧にするモデルが必要となる。 我々の頭字語識別モデルは、タグ予測にトークン埋め込みを学習し、頭字語非曖昧化モデルは、類似した文埋め込みをテスト例としてトレーニング例を見つける。 いずれのシステムも,提案手法よりも大幅な性能向上を実現し,SDU@AAAI-21共有タスクリーダーボード上で競争的に機能する。 私たちのモデルは、AuxAIとAuxADと呼ばれるこれらのタスクのための、新しい遠隔監視データセットに基づいてトレーニングされました。 また、SciADデータセットの重複競合問題を特定し、SciADの重複バージョンをSciAD-dedupeと呼ぶ形で作成した。 これら3つのデータセットを公開し、コミュニティが科学的文書理解をさらに前進させることを願っています。

The prevalence of ambiguous acronyms make scientific documents harder to understand for humans and machines alike, presenting a need for models that can automatically identify acronyms in text and disambiguate their meaning. We introduce new methods for acronym identification and disambiguation: our acronym identification model projects learned token embeddings onto tag predictions, and our acronym disambiguation model finds training examples with similar sentence embeddings as test examples. Both of our systems achieve significant performance gains over previously suggested methods, and perform competitively on the SDU@AAAI-21 shared task leaderboard. Our models were trained in part on new distantly-supervised datasets for these tasks which we call AuxAI and AuxAD. We also identified a duplication conflict issue in the SciAD dataset, and formed a deduplicated version of SciAD that we call SciAD-dedupe. We publicly released all three of these datasets, and hope that they help the community make further strides in scientific document understanding.
翻訳日:2021-05-08 15:11:36 公開日:2021-01-06
# 3次元部分ガイド型視覚データによる細粒度車両知覚

Fine-Grained Vehicle Perception via 3D Part-Guided Visual Data Augmentation ( http://arxiv.org/abs/2012.08055v2 )

ライセンス: Link先を確認
Feixiang Lu, Zongdai Liu, Hui Miao, Peng Wang, Liangjun Zhang, Ruigang Yang, Dinesh Manocha, Bin Zhou(参考訳) 物体とその3D可動部品を視覚的知覚モデルで完全に理解することは、自律的なエージェントが世界と対話できるためには不可欠である。 自動運転では、ドア、トランク、ボンネットなどの車両部品のダイナミクスと状態は、自動運転車の安全性を確保する上で不可欠な意味的情報と相互作用状態を提供することができる。 既存の視覚知覚モデルは、主にオブジェクト境界ボックス検出やポーズ推定などの粗い解析にフォーカスしており、これらの状況に対処することは滅多にない。 本稿では,3つの課題を解決することで,この重要な自動運転問題に対処する。 まず,人間の車間相互作用(VHI)のシナリオを再構築する前に,車体に動的部品を付加した3次元自動車モデルを実画像に組み込むことにより,データ不足に対処する効果的なトレーニングデータ生成プロセスを提案する。 当社のアプローチは、人間のインタラクションなしに完全に自動化されており、ディープニューラルネットワーク(dnn)をトレーニングするために、珍しい状態(vus)の多数の車両を生成できる。 次に,VUS解析のためのマルチタスクネットワークと,VHI解析のためのマルチストリームネットワークを提案する。 第3に、データ拡張アプローチの有効性を定量的に評価するために、実際のトラフィックシナリオ(例えば、荷物のオン/アウトや配置/削除)で最初のvusデータセットを構築します。 実験の結果,提案手法は2次元検出とインスタンス分割の他のベースライン手法を大きなマージン(8%以上)で前進させることがわかった。 さらに,これらの事例の発見と理解において,ネットワークは大きな改善をもたらす。 さらに、ソースコード、データセット、トレーニングされたモデルをGithub(https://github.com/zongdai/EditingForDNN)でリリースしました。

Holistically understanding an object and its 3D movable parts through visual perception models is essential for enabling an autonomous agent to interact with the world. For autonomous driving, the dynamics and states of vehicle parts such as doors, the trunk, and the bonnet can provide meaningful semantic information and interaction states, which are essential to ensuring the safety of the self-driving vehicle. Existing visual perception models mainly focus on coarse parsing such as object bounding box detection or pose estimation and rarely tackle these situations. In this paper, we address this important autonomous driving problem by solving three critical issues. First, to deal with data scarcity, we propose an effective training data generation process by fitting a 3D car model with dynamic parts to vehicles in real images before reconstructing human-vehicle interaction (VHI) scenarios. Our approach is fully automatic without any human interaction, which can generate a large number of vehicles in uncommon states (VUS) for training deep neural networks (DNNs). Second, to perform fine-grained vehicle perception, we present a multi-task network for VUS parsing and a multi-stream network for VHI parsing. Third, to quantitatively evaluate the effectiveness of our data augmentation approach, we build the first VUS dataset in real traffic scenarios (e.g., getting on/out or placing/removing luggage). Experimental results show that our approach advances other baseline methods in 2D detection and instance segmentation by a big margin (over 8%). In addition, our network yields large improvements in discovering and understanding these uncommon cases. Moreover, we have released the source code, the dataset, and the trained model on Github (https://github.com/zongdai/EditingForDNN).
翻訳日:2021-05-07 05:25:29 公開日:2021-01-06
# (参考訳) 学術文書理解のための頭字語識別と曖昧さ共有課題

Acronym Identification and Disambiguation Shared Tasks for Scientific Document Understanding ( http://arxiv.org/abs/2012.11760v4 )

ライセンス: CC BY 4.0
Amir Pouran Ben Veyseh, Franck Dernoncourt, Thien Huu Nguyen, Walter Chang, Leo Anthony Celi(参考訳) 頭字語は長い句の短い形式であり、特に学術的な執筆において、空間を節約し情報の伝達を容易にするためにしばしば使われる。 したがって、すべてのテキスト理解ツールは、テキスト中の頭字語(頭字語識別)を認識し、その正しい意味(頭字語不曖昧)を見つけることができるべきである。 これらのタスクに関する以前の研究のほとんどは、バイオメディカル領域に限定され、限られたデータセットで訓練された教師なしの方法やモデルを使用するため、科学的文書理解のためにうまく機能しない。 この方向の研究を進めるために,我々は,AI@SDU と AD@SDU という2つの共通課題を,それぞれ科学的文書に編成した。 2つの共有タスクはそれぞれ52と43の参加者を集めている。 提出されたシステムは、既存のベースラインと比べて大幅に改善されているが、人間レベルのパフォーマンスには程遠い。 本稿では,2つのタスクの共有と,各タスクの参加システムについてレビューする。

Acronyms are the short forms of longer phrases and they are frequently used in writing, especially scholarly writing, to save space and facilitate the communication of information. As such, every text understanding tool should be capable of recognizing acronyms in text (i.e., acronym identification) and also finding their correct meaning (i.e., acronym disambiguation). As most of the prior works on these tasks are restricted to the biomedical domain and use unsupervised methods or models trained on limited datasets, they fail to perform well for scientific document understanding. To push forward research in this direction, we have organized two shared task for acronym identification and acronym disambiguation in scientific documents, named AI@SDU and AD@SDU, respectively. The two shared tasks have attracted 52 and 43 participants, respectively. While the submitted systems make substantial improvements compared to the existing baselines, there are still far from the human-level performance. This paper reviews the two shared tasks and the prominent participating systems for each of them.
翻訳日:2021-04-27 04:33:03 公開日:2021-01-06
# BKT-LSTM:知識追跡と学生のパフォーマンス予測のための効率的な学生モデリング

BKT-LSTM: Efficient Student Modeling for knowledge tracing and student performance prediction ( http://arxiv.org/abs/2012.12218v2 )

ライセンス: Link先を確認
Sein Minn(参考訳) 近年,オンライン教育プラットフォームの利用が急速に増加している。 パーソナライズされた教育は、将来の学習環境において極めて重要になった。 知識追跡(KT)とは、知的学習システム(ITS)に適応的なソリューションを提供するために、過去の成果から学生の知識状態を検出し、将来のパフォーマンスを予測することを指す。 ベイズ知識追跡(英: Bayesian Knowledge Tracing、BKT)は、心理学的に意味のあるパラメータで各スキルの熟達レベルを捉え、学習システムの成功に広く利用されているモデルである。 しかし、各スキルモデルが独立して学習され、学生のパフォーマンス予測の効率が低いため、スキル間の学習伝達を検出することができない。 ディープニューラルネットワークに基づく最近のKTモデルは、驚くべき予測力を示しているが、価格がついた。 ニューラルネットワークの10万のパラメータは、認知理論を反映した心理的に意味のある解釈を提供することができない。 本稿では,BKT-LSTMと呼ばれる効率的な学生モデルを提案する。 bktで評価された個々の \textit{skill mastery}、k-meansクラスタリングで検出される \textit{ability profile} (スキル間の学習転送)、および \textit{problem difficulty} である。 これらの要素はすべて,LSTMの予測能力を活用することによって,学生の今後のパフォーマンス予測に考慮される。 BKT-LSTMは、DKTにおける過去のインタラクションのバイナリ値ではなく、これらの有意義な特徴を考慮し、学生のパフォーマンス予測における最先端の学生モデルよりも優れている。 また,BKT-LSTMモデルの各コンポーネントのアブレーション調査を行い,各コンポーネントが学生のパフォーマンス予測に大きく貢献することを示した。 したがって、現実世界の教育システムにおいて適応的でパーソナライズされた指導を提供する可能性がある。

Recently, we have seen a rapid rise in usage of online educational platforms. The personalized education became crucially important in future learning environments. Knowledge tracing (KT) refers to the detection of students' knowledge states and predict future performance given their past outcomes for providing adaptive solution to Intelligent Tutoring Systems (ITS). Bayesian Knowledge Tracing (BKT) is a model to capture mastery level of each skill with psychologically meaningful parameters and widely used in successful tutoring systems. However, it is unable to detect learning transfer across skills because each skill model is learned independently and shows lower efficiency in student performance prediction. While recent KT models based on deep neural networks shows impressive predictive power but it came with a price. Ten of thousands of parameters in neural networks are unable to provide psychologically meaningful interpretation that reflect to cognitive theory. In this paper, we proposed an efficient student model called BKT-LSTM. It contains three meaningful components: individual \textit{skill mastery} assessed by BKT, \textit{ability profile} (learning transfer across skills) detected by k-means clustering and \textit{problem difficulty}. All these components are taken into account in student's future performance prediction by leveraging predictive power of LSTM. BKT-LSTM outperforms state-of-the-art student models in student's performance prediction by considering these meaningful features instead of using binary values of student's past interaction in DKT. We also conduct ablation studies on each of BKT-LSTM model components to examine their value and each component shows significant contribution in student's performance prediction. Thus, it has potential for providing adaptive and personalized instruction in real-world educational systems.
翻訳日:2021-04-26 07:32:57 公開日:2021-01-06
# (参考訳) 分布学習による重み付き処理効果推定

Weighting-Based Treatment Effect Estimation via Distribution Learning ( http://arxiv.org/abs/2012.13805v3 )

ライセンス: CC BY 4.0
Dongcheng Zhang, Kunpeng Zhang(参考訳) 既存の治療効果推定の重み付け法は、しばしば確率スコアや共変量バランスの考え方に基づいて構築される。 彼らは通常、線形性や特定の機能形式のような偏りのない推定を得るために、治療の割り当てや結果モデルに強い仮定を課す。 本稿では,分散学習に基づく重み付け手法を開発し,この問題を緩和することを目的とする。 まず, 治療課題を条件とした共変量の真の分布を学習し, 治療群における共変量の密度と対照群の濃度の比を, 治療効果の推定の重みとして活用する。 具体的には,変数の変化による可逆変換を通じて,処理群と制御群の両方における共変量の分布を近似する。 本手法の優越性,堅牢性,一般化性を示すため,合成データと実データを用いて広範な実験を行った。 実験結果から, 平均処理効果を観測データで推定する手法は, 最先端の重み付けのみベンチマーク法よりも優れており, 重み付けと先進的な結果モデリング法を併用した2重み付け推定法において, その優位性を維持していることがわかった。

Existing weighting methods for treatment effect estimation are often built upon the idea of propensity scores or covariate balance. They usually impose strong assumptions on treatment assignment or outcome model to obtain unbiased estimation, such as linearity or specific functional forms, which easily leads to the major drawback of model mis-specification. In this paper, we aim to alleviate these issues by developing a distribution learning-based weighting method. We first learn the true underlying distribution of covariates conditioned on treatment assignment, then leverage the ratio of covariates' density in the treatment group to that of the control group as the weight for estimating treatment effects. Specifically, we propose to approximate the distribution of covariates in both treatment and control groups through invertible transformations via change of variables. To demonstrate the superiority, robustness, and generalizability of our method, we conduct extensive experiments using synthetic and real data. From the experiment results, we find that our method for estimating average treatment effect on treated (ATT) with observational data outperforms several cutting-edge weighting-only benchmarking methods, and it maintains its advantage under a doubly-robust estimation framework that combines weighting with some advanced outcome modeling methods.
翻訳日:2021-04-25 01:23:21 公開日:2021-01-06
# 年齢感性モバイルエッジコンピューティングのためのフェデレーションマルチエージェントアクタ・クリティカルラーニング

Federated Multi-Agent Actor-Critic Learning for Age Sensitive Mobile Edge Computing ( http://arxiv.org/abs/2012.14137v2 )

ライセンス: Link先を確認
Zheqi Zhu, Shuo Wan, Pingyi Fan, Khaled B. Letaief(参考訳) 新たな技術として,モバイルエッジコンピューティング(MEC)では,IoT(Industrial Internet of Things)や車両通信,スマートシティなど,さまざまな分散通信計算システムを対象とした新たな処理方式が導入されている。 本研究は,データと計算タスクの鮮度が重要となるMECシステムのタイムラインに主眼を置いている。 まず、年齢に敏感なMECモデルを定式化し、関心事の平均年齢(AoI)最小化問題を定式化する。 そこで, ヘテロジニアス・マルチエージェント・アクター・アトラクション(H-MAAC)と呼ばれる新しいポリシーに基づくマルチエージェント・ディープ・強化学習(RL)フレームワークを, エッジデバイスとセンターコントローラが, それぞれの観察を通して対話的戦略を学習するMECシステムにおける共同作業のパラダイムとして提案する。 本研究では,学習収束の利点を理論的に保証できるマルチエージェント協調により,エッジフェデレーション学習モードを導入することにより,システム性能の向上を図る。 私たちの知る限りでは、エッジフェデレーションモードとマルチエージェントアクター批判強化学習を組み合わせた最初の共同MECコラボレーションアルゴリズムです。 さらに,提案手法を評価し,古典的rl法と比較する。 その結果,提案フレームワークはシステム平均年齢のベースラインを上回るだけでなく,トレーニングプロセスの安定性も向上することがわかった。 さらに、シミュレーションの結果は、エッジフェデレーションコラボレーションの下でのシステム設計に対する革新的な視点を提供する。

As an emerging technique, mobile edge computing (MEC) introduces a new processing scheme for various distributed communication-computing systems such as industrial Internet of Things (IoT), vehicular communication, smart city, etc. In this work, we mainly focus on the timeliness of the MEC systems where the freshness of the data and computation tasks is significant. Firstly, we formulate a kind of age-sensitive MEC models and define the average age of information (AoI) minimization problems of interests. Then, a novel policy based multi-agent deep reinforcement learning (RL) framework, called heterogeneous multi-agent actor critic (H-MAAC), is proposed as a paradigm for joint collaboration in the investigated MEC systems, where edge devices and center controller learn the interactive strategies through their own observations. To improves the system performance, we develop the corresponding online algorithm by introducing an edge federated learning mode into the multi-agent cooperation whose advantages on learning convergence can be guaranteed theoretically. To the best of our knowledge, it's the first joint MEC collaboration algorithm that combines the edge federated mode with the multi-agent actor-critic reinforcement learning. Furthermore, we evaluate the proposed approach and compare it with classical RL based methods. As a result, the proposed framework not only outperforms the baseline on average system age, but also promotes the stability of training process. Besides, the simulation results provide some innovative perspectives for the system design under the edge federated collaboration.
翻訳日:2021-04-19 11:09:46 公開日:2021-01-06
# 高次元構造空間のベイズ最適化のためのグッドプラクティス

Good practices for Bayesian Optimization of high dimensional structured spaces ( http://arxiv.org/abs/2012.15471v2 )

ライセンス: Link先を確認
Eero Siivola, Javier Gonzalez, Andrei Paleyes, Aki Vehtari(参考訳) 構造化された高次元データの可用性が向上し、新たな最適化の機会が開かれた。 新しくて有望な道の1つは、構造化された高次元データを低次元連続表現に投影し、最適化問題を単純化し、従来の最適化法の適用を可能にするための教師なしの方法の探求である。 しかし、この研究は純粋に方法論的であり、実践者のニーズとはほとんど関係がない。 本稿では,高次元構造化データセットのベイズ最適化における探索空間設計選択の効果について検討する。 特に, 潜在空間の次元性, 獲得関数の役割の影響を解析し, 潜在空間の最適化境界を自動的に定義するための新しい手法を評価する。 最後に, 合成および実データを用いた実験結果に基づいて, 実践者の推薦を行う。

The increasing availability of structured but high dimensional data has opened new opportunities for optimization. One emerging and promising avenue is the exploration of unsupervised methods for projecting structured high dimensional data into low dimensional continuous representations, simplifying the optimization problem and enabling the application of traditional optimization methods. However, this line of research has been purely methodological with little connection to the needs of practitioners so far. In this paper, we study the effect of different search space design choices for performing Bayesian Optimization in high dimensional structured datasets. In particular, we analyse the influence of the dimensionality of the latent space, the role of the acquisition function and evaluate new methods to automatically define the optimization bounds in the latent space. Finally, based on experimental results using synthetic and real datasets, we provide recommendations for the practitioners.
翻訳日:2021-04-17 17:04:39 公開日:2021-01-06
# (参考訳) 補間用オートエンコーダ

AutoEncoder for Interpolation ( http://arxiv.org/abs/2101.00853v2 )

ライセンス: CC BY 4.0
Rahul Bhadani(参考訳) 物理科学では、センサーデータは時間とともに収集され、時系列データを生成する。 しかし、センサーの実際の状態や基礎となる物理によっては、データは騒がしいかもしれない。 さらに、センサー上のサンプルタイムの制限は、すべてのタイムポイントにデータを収集することができず、ある種の補間を必要とする可能性がある。 補間は十分に滑らかでなく、データにノイズを生じさせず、ノイズの大きいセンサデータのデリバティブ操作は、高次ダイナミクスを明らかにしない貧弱な場合がある。 本稿では,同時にデータをデノベートする補間を行うためのオートエンコーダを提案する。 実世界の簡単な例も提供されている。

In physical science, sensor data are collected over time to produce timeseries data. However, depending on the real-world condition and underlying physics of the sensor, data might be noisy. Besides, the limitation of sample-time on sensors may not allow collecting data over all the timepoints, may require some form of interpolation. Interpolation may not be smooth enough, fail to denoise data, and derivative operation on noisy sensor data may be poor that do not reveal any high order dynamics. In this article, we propose to use AutoEncoder to perform interpolation that also denoise data simultaneously. A brief example using a real-world is also provided.
翻訳日:2021-04-12 06:29:49 公開日:2021-01-06
# (参考訳) 凸最適化のための一階法

First-Order Methods for Convex Optimization ( http://arxiv.org/abs/2101.00935v2 )

ライセンス: CC BY 4.0
Pavel Dvurechensky and Mathias Staudigl and Shimrit Shtern(参考訳) 凸最適化問題の1次解法は,過去20年間,数学最適化の最前線にあった。 この重要なタイプのアルゴリズムの急速な発展は、機械学習、信号処理、イメージング、制御理論など、さまざまな応用で報告された成功ストーリーによって動機付けられた。 一階法は計算量が少ない場合に低精度の解を提供する可能性があり、大規模な最適化問題において魅力的なツールセットとなる。 本調査では,グラデーションに基づく最適化手法の重要な開発について紹介する。 これには古典的近位勾配法の非ユークリッド拡張とその加速版が含まれる。 さらに, プロジェクションフリー手法のクラス, および原始双対スキームの近近バージョンにおける最近の発展について調査した。 我々は、様々な重要な結果の完全な証明を行い、いくつかの最適化アルゴリズムの統一的な側面を強調する。

First-order methods for solving convex optimization problems have been at the forefront of mathematical optimization in the last 20 years. The rapid development of this important class of algorithms is motivated by the success stories reported in various applications, including most importantly machine learning, signal processing, imaging and control theory. First-order methods have the potential to provide low accuracy solutions at low computational complexity which makes them an attractive set of tools in large-scale optimization problems. In this survey we cover a number of key developments in gradient-based optimization methods. This includes non-Euclidean extensions of the classical proximal gradient method, and its accelerated versions. Additionally we survey recent developments within the class of projection-free methods, and proximal versions of primal-dual schemes. We give complete proofs for various key results, and highlight the unifying aspects of several optimization algorithms.
翻訳日:2021-04-12 05:36:45 公開日:2021-01-06
# ポルトガル語意味的役割ラベリング改善のためのトランスフォーマーとトランスファー学習

Transformers and Transfer Learning for Improving Portuguese Semantic Role Labeling ( http://arxiv.org/abs/2101.01213v2 )

ライセンス: Link先を確認
Sofia Oliveira and Daniel Loureiro and Al\'ipio Jorge(参考訳) Semantic Role Labeling (SRL)は、自然言語処理のコアタスクである。 英語では、変圧器モデルに基づく最近の手法は、以前の技術から大きく改善されている。 しかし、低リソース言語、特にポルトガルでは、現在利用可能なSRLモデルは訓練データ不足によって妨げられている。 本稿では,事前学習されたBERTモデル,線形層,ソフトマックス,ビタビ復号のみを用いたモデルアーキテクチャについて検討する。 ポルトガルでは15ドルF_1ドル以上のアートパフォーマンスが大幅に向上した。 さらに,多言語事前学習モデル (XLM-R) を用いた言語間移動学習と,ポルトガル語による係り受け解析からの伝達学習を利用して,ポルトガル語コーパスのSRL結果を改善する。 提案手法を実証的に評価し,利用可能な資源を考慮した最も適切なモデルの選択を支援するヒューリスティックを提案する。

Semantic Role Labeling (SRL) is a core Natural Language Processing task. For English, recent methods based on Transformer models have allowed for major improvements over the previous state of the art. However, for low resource languages, and in particular for Portuguese, currently available SRL models are hindered by scarce training data. In this paper, we explore a model architecture with only a pre-trained BERT-based model, a linear layer, softmax and Viterbi decoding. We substantially improve the state of the art performance in Portuguese by over 15$F_1$. Additionally, we improve SRL results in Portuguese corpora by exploiting cross-lingual transfer learning using multilingual pre-trained models (XLM-R), and transfer learning from dependency parsing in Portuguese. We evaluate the various proposed approaches empirically and as result we present an heuristic that supports the choice of the most appropriate model considering the available resources.
翻訳日:2021-04-11 22:57:04 公開日:2021-01-06
# 産業用ロボットのセマンティック記憶モデルとしての動的知識グラフ

Dynamic Knowledge Graphs as Semantic Memory Model for Industrial Robots ( http://arxiv.org/abs/2101.01099v2 )

ライセンス: Link先を確認
Mohak Sukhwani, Vishakh Duggal, Said Zahrai(参考訳) 本稿では,機械が情報や経験を収集し,時間とともに熟達することを可能にするセマンティックメモリのモデルを提案する。 データのセマンティック分析の後、情報は、自然言語で表現された命令を理解し、必要なタスクを決定論的に実行するために使用される知識グラフに格納される。 これは産業用ロボットの認知行動と直感的なユーザーインターフェースを付与するものであり、協調型ロボットが人間と一緒に働く時代において最も高く評価されている。 本論文は,提案の実用的実装とともに,システムのアーキテクチャを概説する。

In this paper, we present a model for semantic memory that allows machines to collect information and experiences to become more proficient with time. After a semantic analysis of the data, information is stored in a knowledge graph which is used to comprehend instructions, expressed in natural language, and execute the required tasks in a deterministic manner. This imparts industrial robots cognitive behavior and an intuitive user interface, which is most appreciated in an era, when collaborative robots are to work alongside humans. The paper outlines the architecture of the system together with a practical implementation of the proposal.
翻訳日:2021-04-11 22:51:56 公開日:2021-01-06
# (参考訳) ウェアラブルセンサを用いた人間の活動認識:レビュー,課題,評価ベンチマーク

Human Activity Recognition using Wearable Sensors: Review, Challenges, Evaluation Benchmark ( http://arxiv.org/abs/2101.01665v2 )

ライセンス: CC BY 4.0
Reem Abdel-Salam, Rana Mostafa and Mayada Hadhood(参考訳) ヒトの活動を認識することは、医療、パーソナルフィットネス、スマートデバイスにおけるヒューマンインタラクション応用の進展に重要な役割を果たす。 多くの論文が人間の活動表現のための様々な技術を提示し、区別可能な進歩をもたらした。 本研究では,ウェアラブルセンサを用いたヒトの行動認識において,最新のトップパフォーマンス技術に関する広範な文献レビューを行う。 MHealth, USCHAD, UTD-MHAD, WISDM, WHARF, OPPORTUNITY の6つの公開データセットを用いて, 標準化された評価の欠如と, 最先端技術との公正な比較の確保のために, 最先端技術の評価ベンチマークを適用した。 また,MHealth, USCHAD, UTD-MHADデータセットに関して適用されたのと同じ標準評価ベンチマークで, 高性能な手工芸技術とニューラルネットワークアーキテクチャを併用した実験的改良手法を提案する。

Recognizing human activity plays a significant role in the advancements of human-interaction applications in healthcare, personal fitness, and smart devices. Many papers presented various techniques for human activity representation that resulted in distinguishable progress. In this study, we conduct an extensive literature review on recent, top-performing techniques in human activity recognition based on wearable sensors. Due to the lack of standardized evaluation and to assess and ensure a fair comparison between the state-of-the-art techniques, we applied a standardized evaluation benchmark on the state-of-the-art techniques using six publicly available data-sets: MHealth, USCHAD, UTD-MHAD, WISDM, WHARF, and OPPORTUNITY. Also, we propose an experimental, improved approach that is a hybrid of enhanced handcrafted features and a neural network architecture which outperformed top-performing techniques with the same standardized evaluation benchmark applied concerning MHealth, USCHAD, UTD-MHAD data-sets.
翻訳日:2021-04-11 13:57:49 公開日:2021-01-06
# (参考訳) 機能的MRIからマリファナユーザを分類する大規模拡張グランガー因果関係

Large-Scale Extended Granger Causality for Classification of Marijuana Users From Functional MRI ( http://arxiv.org/abs/2101.01832v1 )

ライセンス: CC BY 4.0
M. Ali Vosoughi and Axel Wismuller(参考訳) マリファナの使用は脳ネットワーク接続の変化と関連していることが文献で示されている。 本研究では, 大規模拡張グランガー因果性 (lsXGC) を提案し, 静止状態fMRIを用いてこのような変化を捉えることができるか検討する。 本手法はディメンジョン低減とソース時系列拡張を併用し,予測時系列モデルを用いてfmri時系列間の有向因果関係を推定する。 それは、基礎となる動的システムの他のすべての時系列の存在下で、時系列の相互依存性を識別できるため、多変量アプローチである。 本稿では,Addiction Connectome Preprocessed Initiative (ACPI)データベースからADHDの小児診断を行った成人126名を対象に,マリファナユーザを一般的なコントロールから分類するためのバイオマーカーとして機能するかどうかを検討する。 分類の特徴としてlsxgcによって推定される脳結合を用いる。 特徴抽出後,kendall-tauランク相関係数による特徴抽出を行い,サポートベクターマシンによる分類を行った。 参考法として,関数接続の標準尺度として文献で一般的に用いられる相互相関法と比較した。 100個の異なるトレーニング/テスト(90%/10%)データ分割のクロスバリデーションスキームにおいて、[0.714, 0.985]の平均精度範囲と、[0.825, 0.969]の平均aucと、[0.779, 0.999]のすべてのテストされた特徴量に対して[0.779, 0.999]の受信特性曲線(auc)の下の平均領域を得る。 以上の結果から,大麻用バイオマーカーとしてのlsXGCの有用性が示唆された。

It has been shown in the literature that marijuana use is associated with changes in brain network connectivity. We propose large-scale Extended Granger Causality (lsXGC) and investigate whether it can capture such changes using resting-state fMRI. This method combines dimension reduction with source time-series augmentation and uses predictive time-series modeling for estimating directed causal relationships among fMRI time-series. It is a multivariate approach, since it is capable of identifying the interdependence of time-series in the presence of all other time-series of the underlying dynamic system. Here, we investigate whether this model can serve as a biomarker for classifying marijuana users from typical controls using 126 adult subjects with a childhood diagnosis of ADHD from the Addiction Connectome Preprocessed Initiative (ACPI) database. We use brain connections estimated by lsXGC as features for classification. After feature extraction, we perform feature selection by Kendall's-tau rank correlation coefficient followed by classification using a support vector machine. As a reference method, we compare our results with cross-correlation, which is typically used in the literature as a standard measure of functional connectivity. Within a cross-validation scheme of 100 different training/test (90%/10%) data splits, we obtain a mean accuracy range of [0.714, 0.985] and a mean Area Under the receiver operating characteristic Curve (AUC) range of [0.779, 0.999] across all tested numbers of features for lsXGC, which is significantly better than results obtained with cross-correlation, namely mean accuracy of [0.728, 0.912] and mean AUC of [0.825, 0.969]. Our results suggest the applicability of lsXGC as a potential biomarker for marijuana use.
翻訳日:2021-04-11 09:12:50 公開日:2021-01-06
# (参考訳) STEMIまたはNSTEMI患者における性・年齢集団による院内死亡リスクマーカー : 機械学習に基づくアプローチ

Risk markers by sex and age group for in-hospital mortality in patients with STEMI or NSTEMI: an approach based on machine learning ( http://arxiv.org/abs/2101.01835v1 )

ライセンス: CC BY 4.0
Blanca Vazquez, Gibran Fuentes, Fabian Garcia, Gabriela Borrayo, Juan Prohias(参考訳) 機械学習(ML)は、電子健康記録(EHR)から急性冠症候群(ACS)の臨床マーカーの同定において有望な結果を示した。 過去には、acsは、主に男性と女性に対する健康上の問題として、臨床試験で過小評価されていたため、両方の性が同じ臨床上の注意を向けられた。 マーカーを区別することの重要性を強調したアプローチもあるが、これらの区別はいまだに不明である。 本研究は,ST-elevation myocardial infarction (STEMI) と非ST-elevation myocardial infarction (NSTEMI) に対する性別および年齢群による宿主死亡マーカー同定のためのML手法の活用を目的とする。 MIMIC-IIIデータベースからSTEMI1,299例,NSTEMI2,820例を抽出した。 我々は,異なるハイパーパラメータ,臨床セット,ML手法による死亡予測モデルを訓練し,検証した。 ベストパフォーマンスモデルとゲーム理論を用いて予測を解釈し,stemi患者とnstemi患者のリスクマーカーを別々に同定した。 AUC=0.92 (95\% CI:0.87-0.98) と AUC=0.87 (95\% CI:0.80-0.93) である。 STEMIにとって、両方の性の主要なマーカーは低ナトリウム血症と代謝性アシドーシスである。 女性には急性腎不全、年齢は75歳、男性には慢性腎不全、年齢は70歳である。 対照的に、nstemiでは、両方の性別の上位マーカーは、高齢と挿管の手順である。 女性の具体的なマーカーは、クレアチニンレベルが低く、年齢が60歳であるのに対し、男性は左心房、年齢が70歳である。 性差マーカーの識別は,より適切な治療戦略につながる可能性があり,臨床効果が向上すると考えられる。

Machine learning (ML) has demonstrated promising results in the identification of clinical markers for Acute Coronary Syndrome (ACS) from electronic health records (EHR). In the past, the ACS was perceived as a health problem mainly for men and women were under-represented in clinical trials, which led to both sexes receiving the same clinical attention. Although some approaches have emphasized the importance of distinguishing markers, these distinctions remain unclear. This study aims at exploiting ML methods for identifying in-hospital mortality markers by sex and age-group for patients with ST-elevation myocardial infarction (STEMI) and the Non-ST-elevation myocardial infarction (NSTEMI) from EHR. From the MIMIC-III database, we extracted 1,299 patients with STEMI and 2,820 patients with NSTEMI. We trained and validated mortality prediction models with different hyperparameters, clinical sets, and ML methods. Using the best performing model and a game-theoretic approach to interpret predictions, we identified risk markers for patients with STEMI and NSTEMI separately. The models based on Extreme Gradient Boosting achieved the highest performance: AUC=0.92 (95\% CI:0.87-0.98) for STEMI and AUC=0.87 (95\% CI:0.80-0.93) for NSTEMI. For STEMI, the top markers for both sexes are the presence of hyponatremia, and metabolic acidosis. More specific markers for women are acute kidney failure, and age>75 years, while for men are chronic kidney failure, and age>70 years. In contrast, for NSTEMI, the top markers for both sexes are advanced age, and intubation procedures. The specific markers for women are low creatinine levels and age>60 years, whilst, for men are damage to the left atrium and age>70 years. We consider that distinguishing markers for sexes could lead to more appropriate treatment strategies, thus improving clinical outcomes.
翻訳日:2021-04-11 09:00:24 公開日:2021-01-06
# (参考訳) 長めのマルチトーカ記録における終端話者対応型ASRの仮説スティッチャ

Hypothesis Stitcher for End-to-End Speaker-attributed ASR on Long-form Multi-talker Recordings ( http://arxiv.org/abs/2101.01853v1 )

ライセンス: CC BY 4.0
Xuankai Chang, Naoyuki Kanda, Yashesh Gaur, Xiaofei Wang, Zhong Meng, Takuya Yoshioka(参考訳) 近年, 話者カウント, 音声認識, 話者識別を共同で行うために, 話者適応型自動音声認識(SA-ASR)モデルが提案されている。 このモデルは未知の話者数からなる単音重複音声に対して低話者分散単語誤り率(SA-WER)を達成した。 しかしながら、E2Eモデリングアプローチは、トレーニングとテスト条件のミスマッチに影響を受けやすい。 E2E SA-ASRモデルがトレーニング中のサンプルよりもはるかに長い記録に有効かどうかはまだ調査されていない。 本研究では,E2E SA-ASRタスクに長めの音声に対して単一話者ASRを実行するために,まず既知の復号化手法を適用した。 そこで本研究では,仮説ステッチラーというシーケンス・ツー・シーケンスモデルを用いた新しい手法を提案する。 モデルは、元のロングフォーム入力から抽出された短い音声セグメントから得られた複数の仮説を取り、融合した単一仮説を出力する。 仮説ステッチラーモデルのアーキテクチャ的バリエーションをいくつか提案し,従来の復号法と比較する。 LibriSpeech と LibriCSS コーパスを用いた実験により,SA-WER は長めのマルチトーカ記録において顕著に向上した。

An end-to-end (E2E) speaker-attributed automatic speech recognition (SA-ASR) model was proposed recently to jointly perform speaker counting, speech recognition and speaker identification. The model achieved a low speaker-attributed word error rate (SA-WER) for monaural overlapped speech comprising an unknown number of speakers. However, the E2E modeling approach is susceptible to the mismatch between the training and testing conditions. It has yet to be investigated whether the E2E SA-ASR model works well for recordings that are much longer than samples seen during training. In this work, we first apply a known decoding technique that was developed to perform single-speaker ASR for long-form audio to our E2E SA-ASR task. Then, we propose a novel method using a sequence-to-sequence model, called hypothesis stitcher. The model takes multiple hypotheses obtained from short audio segments that are extracted from the original long-form input, and it then outputs a fused single hypothesis. We propose several architectural variations of the hypothesis stitcher model and compare them with the conventional decoding methods. Experiments using LibriSpeech and LibriCSS corpora show that the proposed method significantly improves SA-WER especially for long-form multi-talker recordings.
翻訳日:2021-04-11 08:23:57 公開日:2021-01-06
# (参考訳) 潜流による強化学習

Reinforcement Learning with Latent Flow ( http://arxiv.org/abs/2101.01857v1 )

ライセンス: CC BY 4.0
Wenling Shang, Xiaofei Wang, Aravind Srinivas, Aravind Rajeswaran, Yang Gao, Pieter Abbeel, Michael Laskin(参考訳) 時間情報は強化学習(RL)による効果的な政策学習に不可欠である。 しかし、現在の最先端のRLアルゴリズムは、そのような情報が状態空間の一部として与えられると仮定するか、ピクセルから学ぶとき、フレームスタッキングの単純なヒューリスティックを用いて、画像観察に存在する時間情報を暗黙的にキャプチャする。 このヒューリスティックは、映像分類アーキテクチャの現在のパラダイムとは対照的で、光学フローや2ストリームアーキテクチャといった手法による時間情報の明示的なエンコーディングを利用して、最先端のパフォーマンスを達成する。 本稿では,遅延ベクトル差による時間情報を明示的に符号化するRLのためのネットワークアーキテクチャであるFlow of Latents for Reinforcement Learning(Flare)を紹介する。 We show that Flare (i) recovers optimal performance in state-based RL without explicit access to the state velocity, solely with positional state information, (ii) achieves state-of-the-art performance on pixel-based challenging continuous control tasks within the DeepMind control benchmark suite, namely quadruped walk, hopper hop, finger turn hard, pendulum swing, and walker run, and is the most sample efficient model-free pixel-based RL algorithm, outperforming the prior model-free state-of-the-art by 1.9X and 1.5X on the 500k and 1M step benchmarks, respectively, and (iv), when augmented over rainbow DQN, outperforms this state-of-the-art level baseline on 5 of 8 challenging Atari games at 100M time step benchmark.

Temporal information is essential to learning effective policies with Reinforcement Learning (RL). However, current state-of-the-art RL algorithms either assume that such information is given as part of the state space or, when learning from pixels, use the simple heuristic of frame-stacking to implicitly capture temporal information present in the image observations. This heuristic is in contrast to the current paradigm in video classification architectures, which utilize explicit encodings of temporal information through methods such as optical flow and two-stream architectures to achieve state-of-the-art performance. Inspired by leading video classification architectures, we introduce the Flow of Latents for Reinforcement Learning (Flare), a network architecture for RL that explicitly encodes temporal information through latent vector differences. We show that Flare (i) recovers optimal performance in state-based RL without explicit access to the state velocity, solely with positional state information, (ii) achieves state-of-the-art performance on pixel-based challenging continuous control tasks within the DeepMind control benchmark suite, namely quadruped walk, hopper hop, finger turn hard, pendulum swing, and walker run, and is the most sample efficient model-free pixel-based RL algorithm, outperforming the prior model-free state-of-the-art by 1.9X and 1.5X on the 500k and 1M step benchmarks, respectively, and (iv), when augmented over rainbow DQN, outperforms this state-of-the-art level baseline on 5 of 8 challenging Atari games at 100M time step benchmark.
翻訳日:2021-04-11 08:12:26 公開日:2021-01-06
# (参考訳) 分散システムのための環境伝達

Environment Transfer for Distributed Systems ( http://arxiv.org/abs/2101.01863v1 )

ライセンス: CC BY 4.0
Chunheng Jiang, Jae-wook Ahn, Nirmit Desai(参考訳) 様々な音響環境特性を表現できる量のデータを集めることは、分散音響機械学習にとって重要な問題である。 この問題に対処するためにいくつかのオーディオデータ拡張技術が導入されたが、既存のデータの単純な操作に留まり、環境の変動をカバーできない傾向にある。 本稿では,音声データ間の音響スタイルのテクスチャの転送に用いられてきた手法を拡張する手法を提案する。 分散音響データ拡張のための環境間で音声シグネチャを転送する。 本稿では,分類精度とコンテンツ保存に基づいて,生成した音響データを評価するメトリクスを考案する。 urbansound8kデータセットを用いて実験を行い,提案手法がコンテンツの特徴を維持しつつ,環境特性を伝達する音声データを生成することを示した。

Collecting sufficient amount of data that can represent various acoustic environmental attributes is a critical problem for distributed acoustic machine learning. Several audio data augmentation techniques have been introduced to address this problem but they tend to remain in simple manipulation of existing data and are insufficient to cover the variability of the environments. We propose a method to extend a technique that has been used for transferring acoustic style textures between audio data. The method transfers audio signatures between environments for distributed acoustic data augmentation. This paper devises metrics to evaluate the generated acoustic data, based on classification accuracy and content preservation. A series of experiments were conducted using UrbanSound8K dataset and the results show that the proposed method generates better audio data with transferred environmental features while preserving content features.
翻訳日:2021-04-11 07:52:25 公開日:2021-01-06
# (参考訳) Image-into-Audio Steganography のための多段階残像ホディング

Multi-Stage Residual Hiding for Image-into-Audio Steganography ( http://arxiv.org/abs/2101.01872v1 )

ライセンス: CC0 1.0
Wenxue Cui, Shaohui Liu, Feng Jiang, Yongliang Liu, Debin Zhao(参考訳) 音声通信技術の広範な応用により、インターネット上の音声データの流速が向上し、シークレット通信の一般的なキャリアとなった。 本稿では,カバーオーディオの知覚的忠実さを保ちながら,画像コンテンツをオーディオキャリアに隠蔽するクロスモーダルステガノグラフィー手法を提案する。 第1のネットワークは、異なるオーディオサブシーケンス内のマルチレベル残差エラーを対応するステージサブネットワークで符号化し、第2のネットワークは、修正されたキャリアからの残差エラーを対応するステージサブネットワークで復号し、最終的な結果を生成する。 提案するフレームワークのマルチステージ設計により,ペイロード容量の制御がより柔軟になるだけでなく,残差の緩やかな特性から隠蔽も容易になる。 定性的な実験により、キャリアの変更は人間のリスナーには知られず、復号された画像は極めて知性が高いことが示唆された。

The widespread application of audio communication technologies has speeded up audio data flowing across the Internet, which made it a popular carrier for covert communication. In this paper, we present a cross-modal steganography method for hiding image content into audio carriers while preserving the perceptual fidelity of the cover audio. In our framework, two multi-stage networks are designed: the first network encodes the decreasing multilevel residual errors inside different audio subsequences with the corresponding stage sub-networks, while the second network decodes the residual errors from the modified carrier with the corresponding stage sub-networks to produce the final revealed results. The multi-stage design of proposed framework not only make the controlling of payload capacity more flexible, but also make hiding easier because of the gradual sparse characteristic of residual errors. Qualitative experiments suggest that modifications to the carrier are unnoticeable by human listeners and that the decoded images are highly intelligible.
翻訳日:2021-04-11 07:33:20 公開日:2021-01-06
# (参考訳) 特徴埋め込み空間に基づくオフポリシーメタ強化学習

Off-Policy Meta-Reinforcement Learning Based on Feature Embedding Spaces ( http://arxiv.org/abs/2101.01883v1 )

ライセンス: CC BY 4.0
Takahisa Imagawa, Takuya Hiraoka, Yoshimasa Tsuruoka(参考訳) メタ強化学習(Meta-Reinforcement Learning, RL)は, 過去の課題から得られた経験を用いて, 深部RLにおけるサンプル非効率性の問題に対処する。 しかし、ほとんどのメタrlメソッドは、部分的にまたは完全にオン・ポリシーなデータを必要とし、すなわち過去のポリシーによって収集されたデータを再利用できないため、サンプル効率の改善を妨げている。 この問題を軽減するために,新たなメタRL法を提案し,学習の埋め込みと不確実性の評価を行う。 ELUEエージェントは、タスク間で共有される特徴埋め込み空間の学習によって特徴付けられる。 埋め込み空間上の信念モデルと、信念条件ポリシーとq関数を学ぶ。 そして、新しいタスクのために、事前訓練されたポリシーでデータを収集し、信念モデルに基づいてその信念を更新する。 信念の更新により、少量のデータでパフォーマンスが向上する。 さらに、ニューラルネットワークのパラメータを更新して、十分なデータがある場合に事前訓練された関係を調整する。 ELUEは,メタRLベンチマーク実験により,最先端のメタRL法よりも優れていることを示す。

Meta-reinforcement learning (RL) addresses the problem of sample inefficiency in deep RL by using experience obtained in past tasks for a new task to be solved. However, most meta-RL methods require partially or fully on-policy data, i.e., they cannot reuse the data collected by past policies, which hinders the improvement of sample efficiency. To alleviate this problem, we propose a novel off-policy meta-RL method, embedding learning and evaluation of uncertainty (ELUE). An ELUE agent is characterized by the learning of a feature embedding space shared among tasks. It learns a belief model over the embedding space and a belief-conditional policy and Q-function. Then, for a new task, it collects data by the pretrained policy, and updates its belief based on the belief model. Thanks to the belief update, the performance can be improved with a small amount of data. In addition, it updates the parameters of the neural networks to adjust the pretrained relationships when there are enough data. We demonstrate that ELUE outperforms state-of-the-art meta RL methods through experiments on meta-RL benchmarks.
翻訳日:2021-04-11 07:25:45 公開日:2021-01-06
# (参考訳) 正確な電池寿命予測のための統計的学習

Statistical learning for accurate and interpretable battery lifetime prediction ( http://arxiv.org/abs/2101.01885v1 )

ライセンス: CC BY 4.0
Peter M. Attia, Kristen A. Severson, Jeremy D. Witmer(参考訳) 劣化メカニズムの理解が不十分で,適切なトレーニングセットが利用できるアプリケーションでは,データ駆動によるバッテリー寿命予測が注目されている。 しかしながら、高度な機械学習とディープラーニングの手法は、最小限の機能エンジニアリングでハイパフォーマンスを提供する一方で、より単純な"統計学習"の方法は、特に小さなトレーニングセットにおいて、同等のパフォーマンスを達成し、物理的および統計的な解釈性も提供する。 本研究では,バッテリ寿命予測のためのシンプルで正確で解釈可能なデータ駆動モデルを開発するために,先述したデータセットを用いた。 まず、電池電気化学サイクルデータのコンパクトな表現として「容量行列」の概念を一連の特徴表現とともに提示する。 次に、多数の単変量モデルと多変量モデルを作成し、その多くが、以前このデータセットで公開された最高のパフォーマンスモデルに匹敵するパフォーマンスを達成する。 これらのモデルはまた、これらの細胞の分解に関する洞察を与える。 我々のアプローチは、新しいデータセットのモデルを迅速にトレーニングし、より高度な機械学習メソッドのパフォーマンスをベンチマークするためにも使用できます。

Data-driven methods for battery lifetime prediction are attracting increasing attention for applications in which the degradation mechanisms are poorly understood and suitable training sets are available. However, while advanced machine learning and deep learning methods offer high performance with minimal feature engineering, simpler "statistical learning" methods often achieve comparable performance, especially for small training sets, while also providing physical and statistical interpretability. In this work, we use a previously published dataset to develop simple, accurate, and interpretable data-driven models for battery lifetime prediction. We first present the "capacity matrix" concept as a compact representation of battery electrochemical cycling data, along with a series of feature representations. We then create a number of univariate and multivariate models, many of which achieve comparable performance to the highest-performing models previously published for this dataset. These models also provide insights into the degradation of these cells. Our approaches can be used both to quickly train models for a new dataset and to benchmark the performance of more advanced machine learning methods.
翻訳日:2021-04-11 07:09:10 公開日:2021-01-06
# (参考訳) 半教師付き学習によるリスナーバックチャネルの予測

Exploring Semi-Supervised Learning for Predicting Listener Backchannels ( http://arxiv.org/abs/2101.01899v1 )

ライセンス: CC BY 4.0
Vidit Jain, Maitree Leekha, Rajiv Ratn Shah, Jainendra Shukla(参考訳) 人間のような会話エージェントの開発は、HCI研究の主要な領域であり、多くのタスクを仮定している。 リスナーのバックチャネルを予測することは、このような活発に調査されたタスクである。 多くの研究はバックチャネル予測に異なるアプローチを用いたが、それらはすべて大規模なデータセットの手動アノテーションに依存している。 これは開発のスケーラビリティに影響を与えるボトルネックです。 そこで本研究では,半教師付き手法を用いてバックチャネルの識別プロセスを自動化することにより,アノテーションプロセスの緩和を提案する。 識別モジュールの実現可能性を分析するために, (a) 手動アノテーションラベルと (b) セミ教師付きラベルでトレーニングされたバックチャネル予測モデルを比較した。 定量的解析により,提案手法は前者のパフォーマンスの95%を達成することができた。 実験の結果,60%の被験者が,提案モデルが予測したバックチャネル応答をより自然なものであることがわかった。 最後に,バックチャネル信号のタイプに対するパーソナリティの影響を分析し,ユーザ調査の結果を検証した。

Developing human-like conversational agents is a prime area in HCI research and subsumes many tasks. Predicting listener backchannels is one such actively-researched task. While many studies have used different approaches for backchannel prediction, they all have depended on manual annotations for a large dataset. This is a bottleneck impacting the scalability of development. To this end, we propose using semi-supervised techniques to automate the process of identifying backchannels, thereby easing the annotation process. To analyze our identification module's feasibility, we compared the backchannel prediction models trained on (a) manually-annotated and (b) semi-supervised labels. Quantitative analysis revealed that the proposed semi-supervised approach could attain 95% of the former's performance. Our user-study findings revealed that almost 60% of the participants found the backchannel responses predicted by the proposed model more natural. Finally, we also analyzed the impact of personality on the type of backchannel signals and validated our findings in the user-study.
翻訳日:2021-04-11 07:07:56 公開日:2021-01-06
# (参考訳) 量的ゲームにおける満足感について

On Satisficing in Quantitative Games ( http://arxiv.org/abs/2101.02594v1 )

ライセンス: CC BY 4.0
Suguman Bansal, Krishnendu Chatterjee, Moshe Y. Vardi(参考訳) 計画と反応合成に関するいくつかの問題は、2人のプレイヤーによる定量的グラフゲームの分析に還元できる。 最適化とは分析の一形態である。 多くの場合、最適化問題を最適な解を探す代わりに、与えられたしきい値に従属する解を探索することが目的であるような {\em satisficing problem} に置き換えた方がよいと論じる。 本研究は,割引コストモデルを用いた2プレイヤーグラフゲームにおける満足度問題を定義し,検討する。 最適化問題と同様に数値手法で満足度を解くことができるが、この手法は最適化よりも説得力のある利点を示さない。 しかし、割引係数が整数である場合には、純粋にオートマトン法に基づく満足度に対する別のアプローチを示す。 このアプローチは、理論的にも経験的にもアルゴリズム的にもよりパフォーマンスが高く、過剰最適化を満足する幅広い適用性を示している。

Several problems in planning and reactive synthesis can be reduced to the analysis of two-player quantitative graph games. {\em Optimization} is one form of analysis. We argue that in many cases it may be better to replace the optimization problem with the {\em satisficing problem}, where instead of searching for optimal solutions, the goal is to search for solutions that adhere to a given threshold bound. This work defines and investigates the satisficing problem on a two-player graph game with the discounted-sum cost model. We show that while the satisficing problem can be solved using numerical methods just like the optimization problem, this approach does not render compelling benefits over optimization. When the discount factor is, however, an integer, we present another approach to satisficing, which is purely based on automata methods. We show that this approach is algorithmically more performant -- both theoretically and empirically -- and demonstrates the broader applicability of satisficing overoptimization.
翻訳日:2021-04-11 06:38:35 公開日:2021-01-06
# (参考訳) 機械学習と複数データセットを用いたフィッシング攻撃とwebサイト分類(比較分析)

Phishing Attacks and Websites Classification Using Machine Learning and Multiple Datasets (A Comparative Analysis) ( http://arxiv.org/abs/2101.02552v1 )

ライセンス: CC BY 4.0
Sohail Ahmed Khan and Wasiq Khan and Abir Hussain(参考訳) フィッシング攻撃は機密情報を得るために使用される最も一般的なサイバー攻撃であり、世界中の個人や組織に影響を与える。 近年,フィッシング攻撃,特にマシンインテリジェンスの展開を識別するために,様々な手法が提案されている。 しかし、既存の作業では、デプロイアルゴリズムと識別要因が非常に多様である。 本研究では,機械学習アルゴリズムを網羅的に分析し,その性能を複数のデータセットで評価する。 我々は,複数のデータセットにおける最も重要な特徴をさらに調査し,その分類性能を縮小した次元データセットと比較する。 統計的には、ランダムフォレストとニューラルネットワークは他の分類アルゴリズムよりも優れており、同定された特徴を用いて97%以上の精度を達成している。

Phishing attacks are the most common type of cyber-attacks used to obtain sensitive information and have been affecting individuals as well as organisations across the globe. Various techniques have been proposed to identify the phishing attacks specifically, deployment of machine intelligence in recent years. However, the deployed algorithms and discriminating factors are very diverse in existing works. In this study, we present a comprehensive analysis of various machine learning algorithms to evaluate their performances over multiple datasets. We further investigate the most significant features within multiple datasets and compare the classification performance with the reduced dimensional datasets. The statistical results indicate that random forest and artificial neural network outperform other classification algorithms, achieving over 97% accuracy using the identified features.
翻訳日:2021-04-11 05:57:59 公開日:2021-01-06
# (参考訳) 高次元パーセプトロンの伝達学習における相転移

Phase Transitions in Transfer Learning for High-Dimensional Perceptrons ( http://arxiv.org/abs/2101.01918v1 )

ライセンス: CC BY 4.0
Oussama Dhifallah and Yue M. Lu(参考訳) 伝達学習は、関連するソースタスクから学んだ知識を活用して、対象タスクの一般化性能を向上させる。 中心となる質問は、どの情報を転送すべきか、いつ転送が有益かを判断することである。 後者の問題は、転送元情報が実際に目標タスクの一般化性能を低下させるいわゆる負の伝達現象に関連している。 これは2つのタスクが十分に異なる場合に起こる。 本稿では,2つの関連するパーセプトロン学習タスクを研究することによって,伝達学習の理論解析を行う。 モデルの単純さにもかかわらず、実際に観察されるいくつかの重要な現象を再現します。 具体的には,2つのタスクの類似性が明確に定義されたしきい値を越えると,負の伝達から正の伝達への相転移が明らかとなる。

Transfer learning seeks to improve the generalization performance of a target task by exploiting the knowledge learned from a related source task. Central questions include deciding what information one should transfer and when transfer can be beneficial. The latter question is related to the so-called negative transfer phenomenon, where the transferred source information actually reduces the generalization performance of the target task. This happens when the two tasks are sufficiently dissimilar. In this paper, we present a theoretical analysis of transfer learning by studying a pair of related perceptron learning tasks. Despite the simplicity of our model, it reproduces several key phenomena observed in practice. Specifically, our asymptotic analysis reveals a phase transition from negative transfer to positive transfer as the similarity of the two tasks moves past a well-defined threshold.
翻訳日:2021-04-11 05:46:39 公開日:2021-01-06
# (参考訳) 重み付きアンサンブルモデルとネットワーク解析:自然機能接続による流体インテリジェンス予測法

Weighted Ensemble-model and Network Analysis: A method to predict fluid intelligence via naturalistic functional connectivity ( http://arxiv.org/abs/2101.01973v1 )

ライセンス: CC BY 4.0
Xiaobo Liu, Su Yang(参考訳) 目的: 自然主義的刺激(映画など)と機械学習技術によって引き起こされる機能的接続は、流体知能などの脳機能を探究する上で大きな洞察を与える。 しかし、機能的接続は多層化されていると考えられており、個々のモデルに基づく従来の機械学習は性能に限界があるだけでなく、脳ネットワークから多次元および多層情報を取り出すことができない。 方法: 本研究は多層脳ネットワーク構造に着想を得て, 機械学習とグラフ理論を組み合わせた重み付きアンサンブルモデルとネットワーク解析という新しい手法を提案する。 まず,機能的接続解析とグラフィカル理論を併用した。 予備処理したfMRIデータを用いて計算した機能接続とグラフィカルな指標を全てオートエンコーダに並列に入力し、特徴抽出を行い、流体インテリジェンスを予測する。 性能を向上させるために,木回帰とリッジ回帰モデルを自動的に積み重み付き値で融合させた。 最後に、コネクトームパターンをよりよく説明するためにオートエンコーダの層を可視化し、続いて脳機能のメカニズムを正当化する性能評価を行った。 結果: 提案手法は平均絶対偏差 3.85, 相関係数 0.66, r-二乗係数 0.42 で, 従来の手法よりも優れていた。 また,自動エンコーダアルゴリズムによって生物パターン抽出の最適化が自動化されたことも注目に値する。 結論: 提案手法は, 最先端の報告に勝るだけでなく, 自然界の映画状態における機能的接続状態から生物学的パターンを効果的に把握し, 臨床研究の可能性を秘めている。

Objectives: Functional connectivity triggered by naturalistic stimulus (e.g., movies) and machine learning techniques provide a great insight in exploring the brain functions such as fluid intelligence. However, functional connectivity are considered to be multi-layered, while traditional machine learning based on individual models not only are limited in performance, but also fail to extract multi-dimensional and multi-layered information from brain network. Methods: In this study, inspired by multi-layer brain network structure, we propose a new method namely Weighted Ensemble-model and Network Analysis, which combines the machine learning and graph theory for improved fluid intelligence prediction. Firstly, functional connectivity analysis and graphical theory were jointly employed. The functional connectivity and graphical indices computed using the preprocessed fMRI data were then all fed into auto-encoder parallelly for feature extraction to predict the fluid intelligence. In order to improve the performance, tree regression and ridge regression model were automatically stacked and fused with weighted values. Finally, layers of auto-encoder were visualized to better illustrate the connectome patterns, followed by the evaluation of the performance to justify the mechanism of brain functions. Results: Our proposed methods achieved best performance with 3.85 mean absolute deviation, 0.66 correlation coefficient and 0.42 R-squared coefficient, outperformed other state-of-the-art methods. It is also worth noting that, the optimization of the biological pattern extraction was automated though the auto-encoder algorithm. Conclusion: The proposed method not only outperforming the state-of-the-art reports, but also able to effectively capturing the biological patterns from functional connectivity during naturalistic movies state for potential clinical explorations.
翻訳日:2021-04-11 05:17:36 公開日:2021-01-06
# (参考訳) 階層型シングルブランチネットワークによるマルチオブジェクトトラッキング

Multi-object Tracking with a Hierarchical Single-branch Network ( http://arxiv.org/abs/2101.01984v1 )

ライセンス: CC BY 4.0
Fan Wang, Lei Luo, En Zhu, Siwei Wang, Jun Long(参考訳) 最近のMultiple Object Tracking(MOT)法は、オブジェクト検出とインスタンス再識別(Re-ID)を統合ネットワークに統合し、一段階のソリューションを構築しようとしている。 通常、これらの手法は1つのネットワーク内で分離された2つの分岐を用いて検出とRe-IDの相互関係を研究せずにそれぞれ達成し、トラッキング性能を必然的に損なう。 本稿では,この問題を解決するために,階層型単一ブランチネットワークに基づくオンライン多目的追跡フレームワークを提案する。 具体的には,改良された階層型オンラインインスタンスマッチング(ihoim)損失を利用して,オブジェクト検出と再id間の相互関係を明示的にモデル化する。 我々の新しいiHOIM損失関数は2つのサブタスクの目的を統一し、非常に混み合ったシーンでも優れた検出性能と特徴学習を促進する。 さらに,動きモデルによって予測される物体の位置を,検出結果と動き予測が異なるシナリオで相互に補完できるような,後続の物体検出のための領域提案として導入することを提案する。 MOT16およびMOT20データセットを用いた実験結果から,最先端の追跡性能が得られ,各コンポーネントの有効性が検証された。

Recent Multiple Object Tracking (MOT) methods have gradually attempted to integrate object detection and instance re-identification (Re-ID) into a united network to form a one-stage solution. Typically, these methods use two separated branches within a single network to accomplish detection and Re-ID respectively without studying the inter-relationship between them, which inevitably impedes the tracking performance. In this paper, we propose an online multi-object tracking framework based on a hierarchical single-branch network to solve this problem. Specifically, the proposed single-branch network utilizes an improved Hierarchical Online In-stance Matching (iHOIM) loss to explicitly model the inter-relationship between object detection and Re-ID. Our novel iHOIM loss function unifies the objectives of the two sub-tasks and encourages better detection performance and feature learning even in extremely crowded scenes. Moreover, we propose to introduce the object positions, predicted by a motion model, as region proposals for subsequent object detection, where the intuition is that detection results and motion predictions can complement each other in different scenarios. Experimental results on MOT16 and MOT20 datasets show that we can achieve state-of-the-art tracking performance, and the ablation study verifies the effectiveness of each proposed component.
翻訳日:2021-04-11 05:09:19 公開日:2021-01-06
# (参考訳) 手のジェスチャー認識と指先検出のための統一学習手法

A Unified Learning Approach for Hand Gesture Recognition and Fingertip Detection ( http://arxiv.org/abs/2101.02047v1 )

ライセンス: CC BY 4.0
Mohammad Mahmudul Alam, Mohammad Tariqul Islam, S. M. Mahbubur Rahman(参考訳) 人間とコンピュータの相互作用や手話の解釈では、手の動きを認識し、指先を検出することがコンピュータビジョン研究においてユビキタスになる。 本稿では,手指のジェスチャー認識と指先検出のための畳み込みニューラルネットワークの統一的アプローチを提案する。 提案アルゴリズムは1つのネットワークを用いて,ネットワークの前方伝播における指先と指先の位置の確率を予測する。 完全に接続された層から指先の位置を直接後退させる代わりに、指先の位置のアンサンブルを完全な畳み込みネットワークから後退させる。 その後、アンサンブル平均をとり、指先の最終位置を後退させる。 パイプライン全体が単一のネットワークを使用するため、計算速度は大幅に速い。 提案手法は,直接回帰法に比べて画素誤差が著しく減少し,ヒートマップベースのフレームワークを含む既存の指先検出法を上回った。

In human-computer interaction or sign language interpretation, recognizing hand gestures and detecting fingertips become ubiquitous in computer vision research. In this paper, a unified approach of convolutional neural network for both hand gesture recognition and fingertip detection is introduced. The proposed algorithm uses a single network to predict the probabilities of finger class and positions of fingertips in one forward propagation of the network. Instead of directly regressing the positions of fingertips from the fully connected layer, the ensemble of the position of fingertips is regressed from the fully convolutional network. Subsequently, the ensemble average is taken to regress the final position of fingertips. Since the whole pipeline uses a single network, it is significantly fast in computation. The proposed method results in remarkably less pixel error as compared to that in the direct regression approach and it outperforms the existing fingertip detection approaches including the Heatmap-based framework.
翻訳日:2021-04-11 04:57:54 公開日:2021-01-06
# (参考訳) 歴史地図セグメンテーションのための深層学習と数学的形態の組み合わせ

Combining Deep Learning and Mathematical Morphology for Historical Map Segmentation ( http://arxiv.org/abs/2101.02144v1 )

ライセンス: CC BY-SA 4.0
Yizi Chen (1,2), Edwin Carlinet (1), Joseph Chazalon (1), Cl\'ement Mallet (2), Bertrand Dum\'enieu (3), Julien Perret (2,3) ((1) EPITA Research and Development Lab. (LRDE), EPITA, France, (2) Univ. Gustave Eiffel, IGN-ENSG, LaSTIG, (3) LaD\'eHiS, CRH, EHESS)(参考訳) 歴史地図のデジタル化は、古代、脆弱、独特、アクセス不能な情報ソースの研究を可能にする。 主要なマップ機能は、その後のテーマ分析の時間を通して検索および追跡することができる。 この研究の目的は、ベクトル化ステップ、すなわち、地図のラスター画像から興味のある対象のベクトル形状を抽出することである。 特に,建物,建物ブロック,庭園,河川などのクローズドな形状検出に関心がある。 時間的進化を監視するためです 歴史的地図画像は重要なパターン認識課題を呈する。 従来の数学的形態学(MM)を用いて閉じた形状を抽出することは、複数の地図特徴やテキストが重複しているため非常に困難である。 さらに、最先端の畳み込みニューラルネットワーク(cnn)は、コンテンツイメージフィルタリングのために完全に設計されているが、閉じた形状検出に関する保証はない。 また、歴史的地図のテクスチャ情報や色情報がないため、CNNがそれらの境界のみで表される形状を検出することは困難である。 我々の貢献は、CNN(エッジ検出とフィルタリングの効率)とMM(閉じた形状の保証抽出)の強みを組み合わせて、そのような課題を達成するパイプラインである。 公共データセットに対する我々のアプローチの評価は、歴史的地図における物体の閉じた境界を抽出する効果を示す。

The digitization of historical maps enables the study of ancient, fragile, unique, and hardly accessible information sources. Main map features can be retrieved and tracked through the time for subsequent thematic analysis. The goal of this work is the vectorization step, i.e., the extraction of vector shapes of the objects of interest from raster images of maps. We are particularly interested in closed shape detection such as buildings, building blocks, gardens, rivers, etc. in order to monitor their temporal evolution. Historical map images present significant pattern recognition challenges. The extraction of closed shapes by using traditional Mathematical Morphology (MM) is highly challenging due to the overlapping of multiple map features and texts. Moreover, state-of-the-art Convolutional Neural Networks (CNN) are perfectly designed for content image filtering but provide no guarantee about closed shape detection. Also, the lack of textural and color information of historical maps makes it hard for CNN to detect shapes that are represented by only their boundaries. Our contribution is a pipeline that combines the strengths of CNN (efficient edge detection and filtering) and MM (guaranteed extraction of closed shapes) in order to achieve such a task. The evaluation of our approach on a public dataset shows its effectiveness for extracting the closed boundaries of objects in historical maps.
翻訳日:2021-04-11 04:27:31 公開日:2021-01-06
# (参考訳) アンサンブルゲームにおける分類器の共有値

The Shapley Value of Classifiers in Ensemble Games ( http://arxiv.org/abs/2101.02153v1 )

ライセンス: CC BY 4.0
Benedek Rozemberczki and Rik Sarkar(参考訳) アンサンブルモデルにおいて、個々の分類器の公正値をどのように決定するか。 我々は,この問題に答えるために,移動可能な実用協力型ゲームの新しいクラスを導入する。 アンサンブルゲームのプレイヤーは、データセットからポイントを正確にラベル付けするためにアンサンブルで協調する事前訓練されたバイナリ分類器である。 我々は,アンサンブルゲームのShapley値に基づいて,個々のモデルのペイオフを指定するスケーラブルなアルゴリズムを設計する。 これらのゲームにおける分類器の近似シェープ値は、高い予測モデルの部分群を選択するための適切な尺度であることを示す。 さらに、モデル品質に関して機械学習のアンサンブルの不均一性を定量化するための新しい計量であるShapley entropyを導入する。 我々はShapley値近似アルゴリズムが正確で,大規模アンサンブルやビッグデータまで拡張可能であることを解析的に証明した。 グラフ分類タスクの実験結果から、TroupeはアンサンブルゲームにおけるShapley値の正確な推定を行う。 我々は、シェープリー値が大きなアンサンブルを刈り取るのに有効であることを示し、複雑な分類器が正誤分類決定において主要な役割を担っていることを示し、敵対的モデルが低い評価を受けることを示す。

How do we decide the fair value of individual classifiers in an ensemble model? We introduce a new class of transferable utility cooperative games to answer this question. The players in ensemble games are pre-trained binary classifiers that collaborate in an ensemble to correctly label points from a dataset. We design Troupe a scalable algorithm that designates payoffs to individual models based on the Shapley value of those in the ensemble game. We show that the approximate Shapley value of classifiers in these games is an adequate measure for selecting a subgroup of highly predictive models. In addition, we introduce the Shapley entropy a new metric to quantify the heterogeneity of machine learning ensembles when it comes to model quality. We analytically prove that our Shapley value approximation algorithm is accurate and scales to large ensembles and big data. Experimental results on graph classification tasks establish that Troupe gives precise estimates of the Shapley value in ensemble games. We demonstrate that the Shapley value can be used for pruning large ensembles, show that complex classifiers have a prime role in correct and incorrect classification decisions, and provide evidence that adversarial models receive a low valuation.
翻訳日:2021-04-11 04:16:26 公開日:2021-01-06
# (参考訳) 財務開示におけるテキスト分析

Text analysis in financial disclosures ( http://arxiv.org/abs/2101.04480v1 )

ライセンス: CC BY 4.0
Sridhar Ravula(参考訳) 財務開示分析と知識抽出は金融分析の重要な問題である。 一般的な方法は、ウィンドウドレッシングや過去の焦点といった制限に悩まされる量比と技法に大きく依存する。 企業の財務情報開示のほとんどの情報は構造化されていないテキストであり、その健康に関する貴重な情報を含んでいる。 人間と機械は、その膨大な量と非構造的な性質のために、それを十分に分析できない。 研究者は最近、情報開示のテキストコンテンツを分析し始めた。 本稿では,金融・会計における非構造化データ分析における先行研究について述べる。 また、計算言語学におけるアートメソッドの現状を探求し、自然言語処理(NLP)における現在の方法論についてレビューする。 具体的には、テキスト分析アプローチで使用されるテキストソース、言語属性、ファーム属性、数学的モデルに関する研究に焦点を当てる。 本研究は,現在の感情指標への焦点の限界を強調し,より広い将来研究領域を強調することで,開示分析手法に寄与する。

Financial disclosure analysis and Knowledge extraction is an important financial analysis problem. Prevailing methods depend predominantly on quantitative ratios and techniques, which suffer from limitations like window dressing and past focus. Most of the information in a firm's financial disclosures is in unstructured text and contains valuable information about its health. Humans and machines fail to analyze it satisfactorily due to the enormous volume and unstructured nature, respectively. Researchers have started analyzing text content in disclosures recently. This paper covers the previous work in unstructured data analysis in Finance and Accounting. It also explores the state of art methods in computational linguistics and reviews the current methodologies in Natural Language Processing (NLP). Specifically, it focuses on research related to text source, linguistic attributes, firm attributes, and mathematical models employed in the text analysis approach. This work contributes to disclosure analysis methods by highlighting the limitations of the current focus on sentiment metrics and highlighting broader future research areas
翻訳日:2021-04-11 03:59:52 公開日:2021-01-06
# (参考訳) コーニックプログラミングによるランダムドット製品グラフのベイズ推定

Bayesian Inference of Random Dot Product Graphs via Conic Programming ( http://arxiv.org/abs/2101.02180v1 )

ライセンス: CC BY 4.0
David Wu, David R. Palmer, Daryl R. Deford(参考訳) 本稿では,ランダムドット積グラフ(RDPG)の潜在確率行列を推定するための凸錐プログラムを提案する。 最適化問題は、追加の核ノルム正規化項でベルヌーイ最大度関数を最大化する。 双対問題は、MaxCut問題のよく知られた半定値プログラム緩和に関連して、特によい形式を持つ。 原始双対最適性条件を用いて、原始解と双対解のエントリとランクを制限した。 さらに, 最適目的値を限定し, 軽度な技術的仮定の下で, わずかに修正されたモデルの確率推定の漸近的一貫性を証明した。 RDPGの合成実験は、自然クラスターを復元するだけでなく、元のデータの低次元形状も明らかにする。 また,この手法は,空手クラブグラフとアメリカ合衆国上院世論投票グラフの潜在構造を復元し,数百ノードまでのグラフに拡張可能であることを実証した。

We present a convex cone program to infer the latent probability matrix of a random dot product graph (RDPG). The optimization problem maximizes the Bernoulli maximum likelihood function with an added nuclear norm regularization term. The dual problem has a particularly nice form, related to the well-known semidefinite program relaxation of the MaxCut problem. Using the primal-dual optimality conditions, we bound the entries and rank of the primal and dual solutions. Furthermore, we bound the optimal objective value and prove asymptotic consistency of the probability estimates of a slightly modified model under mild technical assumptions. Our experiments on synthetic RDPGs not only recover natural clusters, but also reveal the underlying low-dimensional geometry of the original data. We also demonstrate that the method recovers latent structure in the Karate Club Graph and synthetic U.S. Senate vote graphs and is scalable to graphs with up to a few hundred nodes.
翻訳日:2021-04-11 03:30:24 公開日:2021-01-06
# (参考訳) Hypernetworks を用いた正規化圧縮型MRI画像再構成

Regularization-Agnostic Compressed Sensing MRI Reconstruction with Hypernetworks ( http://arxiv.org/abs/2101.02194v1 )

ライセンス: CC BY 4.0
Alan Q. Wang, Adrian V. Dalca, Mert R. Sabuncu(参考訳) 圧縮センシングMRI(CS-MRI)におけるアンダーサンプリングk空間の再構成は、正規化最小二乗法により古典的に解決される。 近年、深層学習は、アンダーサンプル計測のデータセットに基づいて再構成ネットワークをトレーニングすることで、この最適化を改善している。 ここで重要な設計選択は正規化関数(s)と対応する重み(s)である。 本稿では,正規化重みの関数として分離された再構成ネットワークのパラメータを生成するためにハイパーネットワークを利用する新たな戦略を探求し,正規化に依存しない再構築モデルを提案する。 実験時, アンダーサンプル画像の場合, 我々のモデルは, 異なる量の正規化で高速に再構成を計算できる。 特に全体的な品質が類似した状況において,これらの復元の変動性を分析する。 最後に,ハイパーネットワーク容量を制限したリコンストラクション性能を最大化する効率的なデータ駆動方式を提案する。 私たちのコードはhttps://github.com/alanqrwang/RegAgnosticCSMRIで公開されています。

Reconstructing under-sampled k-space measurements in Compressed Sensing MRI (CS-MRI) is classically solved with regularized least-squares. Recently, deep learning has been used to amortize this optimization by training reconstruction networks on a dataset of under-sampled measurements. Here, a crucial design choice is the regularization function(s) and corresponding weight(s). In this paper, we explore a novel strategy of using a hypernetwork to generate the parameters of a separate reconstruction network as a function of the regularization weight(s), resulting in a regularization-agnostic reconstruction model. At test time, for a given under-sampled image, our model can rapidly compute reconstructions with different amounts of regularization. We analyze the variability of these reconstructions, especially in situations when the overall quality is similar. Finally, we propose and empirically demonstrate an efficient and data-driven way of maximizing reconstruction performance given limited hypernetwork capacity. Our code is publicly available at https://github.com/alanqrwang/RegAgnosticCSMRI.
翻訳日:2021-04-11 02:57:50 公開日:2021-01-06
# (参考訳) 転校学習のための動的認識状態埋め込みの学習

Learn Dynamic-Aware State Embedding for Transfer Learning ( http://arxiv.org/abs/2101.02230v1 )

ライセンス: CC BY 4.0
Kaige Yang(参考訳) トランスファー強化学習は、以前のタスクから得られた経験を活用して、目に見えない新しいタスクを解決するサンプル効率を向上させることを目的としている。 報酬関数を除く全てのタスク(MDP)が同じ環境を共有できるような設定を考える。 この設定では、MDPのダイナミクスは、一様ランダムなポリシーによって推測できる、転送のよい知識である。 しかし、一様無作為政策によって生成される軌道は政策改善に役立たず、サンプル効率を著しく損なう。 代わりに、バイナリmdpダイナミックは、均一なランダムポリシーの必要性を避ける任意のポリシーの軌跡から推測できると観察する。 バイナリMDPダイナミックは、すべてのタスクで共有される状態構造を含んでいるので、転送には適していると考えています。 この観察に基づいて,二進法mdp動的オンラインを推定する手法と,それを利用して状態埋め込み学習のガイドを行い,それを新しいタスクに転送する手法を提案する。 我々は国家の埋め込み学習と政策学習を別々に維持する。 その結果、学習状態の埋め込みはタスクとポリシーに依存しないため、転送学習に理想的です。 さらに, 状態空間の探索を容易にするため, 推定された二分法mdpダイナミックに基づく新たな固有報酬を提案する。 提案手法はモデルフリーなRLアルゴリズムと組み合わせて利用できる。 2つのインスタンスを \algo{dqn} と \algo{a2c} に基づいて示す。 集中実験の結果,様々な転校学習タスクにおいて提案手法の利点が示された。

Transfer reinforcement learning aims to improve the sample efficiency of solving unseen new tasks by leveraging experiences obtained from previous tasks. We consider the setting where all tasks (MDPs) share the same environment dynamic except reward function. In this setting, the MDP dynamic is a good knowledge to transfer, which can be inferred by uniformly random policy. However, trajectories generated by uniform random policy are not useful for policy improvement, which impairs the sample efficiency severely. Instead, we observe that the binary MDP dynamic can be inferred from trajectories of any policy which avoids the need of uniform random policy. As the binary MDP dynamic contains the state structure shared over all tasks we believe it is suitable to transfer. Built on this observation, we introduce a method to infer the binary MDP dynamic on-line and at the same time utilize it to guide state embedding learning, which is then transferred to new tasks. We keep state embedding learning and policy learning separately. As a result, the learned state embedding is task and policy agnostic which makes it ideal for transfer learning. In addition, to facilitate the exploration over the state space, we propose a novel intrinsic reward based on the inferred binary MDP dynamic. Our method can be used out-of-box in combination with model-free RL algorithms. We show two instances on the basis of \algo{DQN} and \algo{A2C}. Empirical results of intensive experiments show the advantage of our proposed method in various transfer learning tasks.
翻訳日:2021-04-11 02:47:56 公開日:2021-01-06
# (参考訳) アリストテレスはラップトップを使ったか? 暗黙的推論戦略を用いた質問応答ベンチマーク

Did Aristotle Use a Laptop? A Question Answering Benchmark with Implicit Reasoning Strategies ( http://arxiv.org/abs/2101.02235v1 )

ライセンス: CC0 1.0
Mor Geva, Daniel Khashabi, Elad Segal, Tushar Khot, Dan Roth, Jonathan Berant(参考訳) マルチホップ推論の現在のデータセットにおける重要な制限は、質問に答えるために必要なステップが明示的に記述されていることである。 本研究では,必要な推論ステップが暗黙的であり,戦略を用いて推測されるべきである,質問応答(QA)ベンチマークであるStrategyQAを紹介する。 このセットアップの根本的な課題は、幅広い潜在的な戦略をカバーしながら、クラウドソーシングワーカーからこのような創造的な質問を引き出す方法である。 本稿では,用語ベースのプライミングを組み合わせてアノテータを刺激し,アノテータの個体群を慎重に制御するデータ収集手法を提案する。 さらに,(1) 回答のための推論ステップへの分解,(2) それぞれのステップに対する回答を含むウィキペディアの段落について,各質問に注釈を付ける。 総合的に、StrategyQAには2,780の例があり、それぞれが戦略問題、その分解、証拠パラグラフで構成されている。 分析によると、StrategyQAの質問は短く、トピックの多様性があり、幅広い戦略をカバーする。 経験的に、このタスクで人間は良く(87%)、最良のベースラインは$\sim$66%の精度に達する。

A key limitation in current datasets for multi-hop reasoning is that the required steps for answering the question are mentioned in it explicitly. In this work, we introduce StrategyQA, a question answering (QA) benchmark where the required reasoning steps are implicit in the question, and should be inferred using a strategy. A fundamental challenge in this setup is how to elicit such creative questions from crowdsourcing workers, while covering a broad range of potential strategies. We propose a data collection procedure that combines term-based priming to inspire annotators, careful control over the annotator population, and adversarial filtering for eliminating reasoning shortcuts. Moreover, we annotate each question with (1) a decomposition into reasoning steps for answering it, and (2) Wikipedia paragraphs that contain the answers to each step. Overall, StrategyQA includes 2,780 examples, each consisting of a strategy question, its decomposition, and evidence paragraphs. Analysis shows that questions in StrategyQA are short, topic-diverse, and cover a wide range of strategies. Empirically, we show that humans perform well (87%) on this task, while our best baseline reaches an accuracy of $\sim$66%.
翻訳日:2021-04-11 02:37:05 公開日:2021-01-06
# (参考訳) ユーザ・エグゼクティブ・マキナ : テキスト分析におけるデザイン・プローブとしてのシミュレーション

User Ex Machina : Simulation as a Design Probe in Human-in-the-Loop Text Analytics ( http://arxiv.org/abs/2101.02244v1 )

ライセンス: CC BY 4.0
Anamaria Crisan, Michael Correll(参考訳) トピックモデルは文書のクラスタリングやテキストコーパスのテーマ要素の抽出に広く利用されている。 これらのモデルは最適化が難しいままであり、ドメインの専門家が自分の知識を使って制御し調整する"人道的"なアプローチがしばしば必要です。 しかし、これらのモデルの脆弱性、不完全性、不透明性は、たとえ小さな変更であっても、結果としてモデルが大きく、望ましくない変更を引き起こす可能性があることを意味する。 本稿では,話題モデルと人間中心インタラクションのシミュレーションに基づく分析を行い,ユーザ行動の共通クラスに対する話題モデルの感度を測定することを目的とする。 ユーザインタラクションには、大きさが違うが、多くの場合、ユーザが評価するのが難しい方法で、結果のモデリングの品質に悪影響を及ぼす影響があることが分かりました。 我々は,これらの欠陥を克服するために,トピックモデルインタフェースへの感度と「多元的」解析の導入を提案する。

Topic models are widely used analysis techniques for clustering documents and surfacing thematic elements of text corpora. These models remain challenging to optimize and often require a "human-in-the-loop" approach where domain experts use their knowledge to steer and adjust. However, the fragility, incompleteness, and opacity of these models means even minor changes could induce large and potentially undesirable changes in resulting model. In this paper we conduct a simulation-based analysis of human-centered interactions with topic models, with the objective of measuring the sensitivity of topic models to common classes of user actions. We find that user interactions have impacts that differ in magnitude but often negatively affect the quality of the resulting modelling in a way that can be difficult for the user to evaluate. We suggest the incorporation of sensitivity and "multiverse" analyses to topic model interfaces to surface and overcome these deficiencies.
翻訳日:2021-04-11 02:19:10 公開日:2021-01-06
# (参考訳) RNNは再帰的Nested Subject-Verb Agreementsを学習できるか?

Can RNNs learn Recursive Nested Subject-Verb Agreements? ( http://arxiv.org/abs/2101.02258v1 )

ライセンス: CC BY 4.0
Yair Lakretz, Th\'eo Desbordes, Jean-R\'emi King, Beno\^it Crabb\'e, Maxime Oquab, Stanislas Dehaene(参考訳) 現代言語学の基本原理の1つは、言語処理は再帰的にネストされた木構造を抽出する能力を必要とすると述べている。 しかし、このコードがニューラルネットワークでどのように実装されるのかは不明だ。 リカレントニューラルネットワーク(RNN)の最近の進歩は、いくつかの言語タスクにおいて、ほぼ人間に近いパフォーマンスを実現している。 本稿では,RNNにおける再帰的処理を研究するための新しい枠組みを提案する。 文の長さと構文木の深さを独立に操作する簡易な確率論的文脈自由文法を用いて6種類のRNNを訓練した。 すべてのRNNは、トレーニング中に見られるものよりも長く、主観的な依存関係に一般化した。 しかし、より深い木構造への体系的な一般化は行われず、ネストした木(スタック-RNN)を学習する構造バイアスを持つものさえもなかった。 また,本研究では,lstm系モデルの一般化パターンにおけるプライマシーとrecency効果を明らかにし,これらのモデルが中央埋め込み木構造の外側と内側でよく機能するが,中間層ではよく機能しないことを示した。 最後に,ネストした木構造を持つ文の処理中にモデルの内部状態を調べることで,文法的合意情報の複雑な符号化(例)を見出した。 複数の単語の名詞の全ての情報が単一の単位によって運ばれた文法的数)。 これらの結果は, 系統的再帰的ルールを学習することなく, ニューラルネットワークが有界なネスト木構造を抽出する方法を示している。

One of the fundamental principles of contemporary linguistics states that language processing requires the ability to extract recursively nested tree structures. However, it remains unclear whether and how this code could be implemented in neural circuits. Recent advances in Recurrent Neural Networks (RNNs), which achieve near-human performance in some language tasks, provide a compelling model to address such questions. Here, we present a new framework to study recursive processing in RNNs, using subject-verb agreement as a probe into the representations of the neural network. We trained six distinct types of RNNs on a simplified probabilistic context-free grammar designed to independently manipulate the length of a sentence and the depth of its syntactic tree. All RNNs generalized to subject-verb dependencies longer than those seen during training. However, none systematically generalized to deeper tree structures, even those with a structural bias towards learning nested tree (i.e., stack-RNNs). In addition, our analyses revealed primacy and recency effects in the generalization patterns of LSTM-based models, showing that these models tend to perform well on the outer- and innermost parts of a center-embedded tree structure, but poorly on its middle levels. Finally, probing the internal states of the model during the processing of sentences with nested tree structures, we found a complex encoding of grammatical agreement information (e.g. grammatical number), in which all the information for multiple words nouns was carried by a single unit. Taken together, these results indicate how neural networks may extract bounded nested tree structures, without learning a systematic recursive rule.
翻訳日:2021-04-11 01:53:02 公開日:2021-01-06
# (参考訳) 遊ばせてくれ ゲーマー! 複雑な現象と決定木を言語的に記述したコンピュータゲームにおけるImitative Learning

Teach me to play, gamer! Imitative learning in computer games via linguistic description of complex phenomena and decision tree ( http://arxiv.org/abs/2101.02264v1 )

ライセンス: CC BY 4.0
Clemente Rubio-Manzano, Tomas Lermanda, CLaudia Martinez, Alejandra Segura, Christian Vidal(参考訳) 本稿では,複雑な現象の言語的記述に基づく模倣による新しい機械学習モデルを提案する。 このアイデアは、まず、ゲームの実行トレースに基づいて計算知覚ネットワークを作成し、次にファジィ論理(言語変数とif-then規則)を用いてそれを表現することによって、人間のプレイヤーの振る舞いを捉える。 この知識から、一連のデータ(データセット)が自動的に作成され、決定木に基づく学習モデルを生成する。 このモデルは後にボットの動きを自動的に制御するために使われる。 その結果、人間のプレイヤーを模倣する人工エージェントが生まれる。 私たちはこの技術を実装、テスト、評価しました。 その結果,ゲーム開発における知的エージェントの動作を設計・実装する上で,本手法が優れた代替手段となる可能性が示唆された。

In this article, we present a new machine learning model by imitation based on the linguistic description of complex phenomena. The idea consists of, first, capturing the behaviour of human players by creating a computational perception network based on the execution traces of the games and, second, representing it using fuzzy logic (linguistic variables and if-then rules). From this knowledge, a set of data (dataset) is automatically created to generate a learning model based on decision trees. This model will be used later to automatically control the movements of a bot. The result is an artificial agent that mimics the human player. We have implemented, tested and evaluated this technology. The results obtained are interesting and promising, showing that this method can be a good alternative to design and implement the behaviour of intelligent agents in video game development.
翻訳日:2021-04-11 01:47:39 公開日:2021-01-06
# (参考訳) LightLayers:画像分類のためのパラメータ効率の良いDenseと畳み込み層

LightLayers: Parameter Efficient Dense and Convolutional Layers for Image Classification ( http://arxiv.org/abs/2101.02268v1 )

ライセンス: CC BY 4.0
Debesh Jha, Anis Yazidi, Michael A. Riegler, Dag Johansen, H{\aa}vard D. Johansen, and P{\aa}l Halvorsen(参考訳) ディープニューラルネットワーク(DNN)は、コンピュータビジョンや他の多くのパターン認識タスクにおいてデファクトスタンダードになっている。 DNNの重要な欠点は、トレーニングフェーズが非常に計算コストが高いことだ。 最先端のハードウェアを購入したり、クラウドにホストされたインフラストラクチャを利用する余裕のない組織や個人は、トレーニングが完了するまで長い待ち時間に直面したり、モデルをトレーニングできない場合があります。 トレーニング時間を短縮する新しい方法を調査することは、この欠点を緩和し、新しいアルゴリズムとモデルのより迅速な開発を可能にする潜在的な解決策となる。 本稿では,ディープニューラルネットワーク(dnn)における学習可能なパラメータ数を削減する手法であるlightlayersを提案する。 提案された光層はlightdense層とlightconv2d層で構成され、通常のconv2d層と同等の効率だがパラメータは少ない。 我々は,dnnモデルの複雑さを低減し,計算能力の少ない軽量なdnnモデルを実現するため,精度を損なうことなく行列分解を行う。 MNIST、Fashion MNIST、CI-FAR 10、CIFAR 100データセット上でLightLayersをテストしました。 MNIST, Fashion MNIST, CIFAR-10 データセットに対して, CIFAR 100 はパラメータが少なくて許容できる性能を示した。

Deep Neural Networks (DNNs) have become the de-facto standard in computer vision, as well as in many other pattern recognition tasks. A key drawback of DNNs is that the training phase can be very computationally expensive. Organizations or individuals that cannot afford purchasing state-of-the-art hardware or tapping into cloud-hosted infrastructures may face a long waiting time before the training completes or might not be able to train a model at all. Investigating novel ways to reduce the training time could be a potential solution to alleviate this drawback, and thus enabling more rapid development of new algorithms and models. In this paper, we propose LightLayers, a method for reducing the number of trainable parameters in deep neural networks (DNN). The proposed LightLayers consists of LightDense andLightConv2D layer that are as efficient as regular Conv2D and Dense layers, but uses less parameters. We resort to Matrix Factorization to reduce the complexity of the DNN models resulting into lightweight DNNmodels that require less computational power, without much loss in the accuracy. We have tested LightLayers on MNIST, Fashion MNIST, CI-FAR 10, and CIFAR 100 datasets. Promising results are obtained for MNIST, Fashion MNIST, CIFAR-10 datasets whereas CIFAR 100 shows acceptable performance by using fewer parameters.
翻訳日:2021-04-11 01:34:24 公開日:2021-01-06
# (参考訳) クラスウェイト計算における選択表現学習を用いた部分領域適応

Partial Domain Adaptation Using Selective Representation Learning For Class-Weight Computation ( http://arxiv.org/abs/2101.02275v1 )

ライセンス: CC BY 4.0
Sandipan Choudhuri, Riti Paul, Arunabha Sen, Baoxin Li, Hemanth Venkateswara(参考訳) ディープラーニングモデルの一般化能力は、リッチラベルデータに依存する。 大規模アノテート情報を用いたこの監視は、データ収集とそのアノテーションが膨大なコストを伴うほとんどの現実のシナリオにおいて制限される。 この分布差を橋渡しする様々なドメイン適応技術が文献に存在している。 しかし、これらのモデルのほとんどは、両方のドメインのラベルセットを同一にする必要がある。 より実践的で困難なシナリオに対処するために、ソースラベルセットがターゲットラベルセットのスーパーセットである部分的なドメイン適応の観点から問題文を定式化する。 本研究は,画像スタイルが各ドメインにプライベートであるという動機から,画像コンテンツ情報からのみ外部クラスを識別し,ソース画像からのクラスコンテンツにのみ依存するラベル分類器を訓練する手法を開発した。 さらに、ソフトクラスレベルの重みを0(外部ソースクラス)と1(共有クラス)の2つのクラスタに変換し、クラスタ間の分散を最大化することにより、ソースドメインにプライベートなクラスからサンプルの負の転送の排除を実現する。

The generalization power of deep-learning models is dependent on rich-labelled data. This supervision using large-scaled annotated information is restrictive in most real-world scenarios where data collection and their annotation involve huge cost. Various domain adaptation techniques exist in literature that bridge this distribution discrepancy. However, a majority of these models require the label sets of both the domains to be identical. To tackle a more practical and challenging scenario, we formulate the problem statement from a partial domain adaptation perspective, where the source label set is a super set of the target label set. Driven by the motivation that image styles are private to each domain, in this work, we develop a method that identifies outlier classes exclusively from image content information and train a label classifier exclusively on class-content from source images. Additionally, elimination of negative transfer of samples from classes private to the source domain is achieved by transforming the soft class-level weights into two clusters, 0 (outlier source classes) and 1 (shared classes) by maximizing the between-cluster variance between them.
翻訳日:2021-04-11 01:24:48 公開日:2021-01-06
# (参考訳) 遅延フィードバックのモデリングにおけるクリック毎の多くの変換処理

Handling many conversions per click in modeling delayed feedback ( http://arxiv.org/abs/2101.02284v1 )

ライセンス: CC BY 4.0
Ashwinkumar Badanidiyuru, Andrew Evdokimov, Vinodh Krishnan, Pan Li, Wynn Vonnegut, Jayden Wang(参考訳) クリック後変換(購入やその他のイベント)の期待値や数を予測することは、パフォーマンスベースのデジタル広告において重要なタスクである。 変換オプティマイザモデルのトレーニングにおいて、最も重要な側面の1つは、変換に関して遅延したフィードバックを扱うことである。 このタスクは、広告主ごとに遅延分布が異なり、ロングテールであり、しばしば特定のパラメトリック分布のクラスに従わず、時間とともに変化する可能性があるため、難しい。 3つの中核的なアイデアに基づいた不偏推定モデルを用いて,これらの課題に取り組む。 第1のアイデアは、ラベルを異なる遅延バケットを持つラベルの合計として分割することであり、それぞれのラベルは成熟ラベルのみで、第2のアイデアは温度計エンコーディングを使用して精度を高め、推論コストを削減し、第3のアイデアはモデルの安定性を高め、分布のドリフトを処理するために補助情報を使用することである。

Predicting the expected value or number of post-click conversions (purchases or other events) is a key task in performance-based digital advertising. In training a conversion optimizer model, one of the most crucial aspects is handling delayed feedback with respect to conversions, which can happen multiple times with varying delay. This task is difficult, as the delay distribution is different for each advertiser, is long-tailed, often does not follow any particular class of parametric distributions, and can change over time. We tackle these challenges using an unbiased estimation model based on three core ideas. The first idea is to split the label as a sum of labels with different delay buckets, each of which trains only on mature label, the second is to use thermometer encoding to increase accuracy and reduce inference cost, and the third is to use auxiliary information to increase the stability of the model and to handle drift in the distribution.
翻訳日:2021-04-11 01:17:59 公開日:2021-01-06
# (参考訳) Hyperboost: 勾配ブースティングサロゲートモデルによるハイパーパラメータ最適化

Hyperboost: Hyperparameter Optimization by Gradient Boosting surrogate models ( http://arxiv.org/abs/2101.02289v1 )

ライセンス: CC BY 4.0
Jeroen van Hoof, Joaquin Vanschoren(参考訳) Bayesian Optimizationは、自動機械学習(AutoML)システムでアルゴリズムをチューニングするための一般的なツールである。 現在の最先端の手法は、ランダムフォレストやガウス過程を利用して、特定のハイパーパラメータの設定でアルゴリズムのパフォーマンスを予測するサロゲートモデルを構築する。 本稿では,非観測ハイパーパラメータ設定の性能を楽観的に推定し,非観測および観測されたハイパーパラメータ設定間の距離メトリックと組み合わせて探索を規制する,グラデーションブースティングに基づく新しいサーロゲートモデルを提案する。 実験により,新しい手法は,ある程度の分類問題に対して,最先端技術より優れていることを示す。

Bayesian Optimization is a popular tool for tuning algorithms in automatic machine learning (AutoML) systems. Current state-of-the-art methods leverage Random Forests or Gaussian processes to build a surrogate model that predicts algorithm performance given a certain set of hyperparameter settings. In this paper, we propose a new surrogate model based on gradient boosting, where we use quantile regression to provide optimistic estimates of the performance of an unobserved hyperparameter setting, and combine this with a distance metric between unobserved and observed hyperparameter settings to help regulate exploration. We demonstrate empirically that the new method is able to outperform some state-of-the art techniques across a reasonable sized set of classification problems.
翻訳日:2021-04-11 01:05:12 公開日:2021-01-06
# (参考訳) 血小板利用の需要予測:一変量時系列から多変量モデルへ

Demand Forecasting for Platelet Usage: from Univariate Time Series to Multivariate Models ( http://arxiv.org/abs/2101.02305v1 )

ライセンス: CC BY 4.0
Maryam Motamedi, Na Li, Douglas G. Down and Nancy M. Heddle(参考訳) 血小板製品も高価で、棚の寿命も非常に短い。 血小板の使用率は非常に可変であるため、血小板の需要と供給の効果的な管理は非常に重要であるが困難である。 本研究の目的は,Canadian Blood Services (CBS) における血小板需要の効率的な予測モデルを提供することである。 この目標を達成するために、ARIMA(Auto Regressive moving Average)、Prophet(Prophet)、Lasso regression(Laast absolute shrinkage and selection operator)、LSTM(Long Short-Term Memory)ネットワークの4つの異なる需要予測手法を活用し、評価する。 2010年から2018年までオンタリオ州ハミルトンの4つの病院において, 集中血輸血センターのための大規模臨床データセットを用いて, 製品仕様, 受給者特性, 受験者検査結果などの情報とともに血小板輸血を行った。 本研究は, 統計時系列モデルからデータ駆動回帰まで, 臨床予測器と異なる量のデータを用いた血小板輸血のための機械学習手法を初めて活用したものである。 多変量法は一般に最も精度が高いが、十分なデータが得られれば、ARIMAのようなより単純な時系列法が十分であると考えられる。 また,多変量モデルに対して臨床指標(インプット)を選択するアプローチについてもコメントする。

Platelet products are both expensive and have very short shelf lives. As usage rates for platelets are highly variable, the effective management of platelet demand and supply is very important yet challenging. The primary goal of this paper is to present an efficient forecasting model for platelet demand at Canadian Blood Services (CBS). To accomplish this goal, four different demand forecasting methods, ARIMA (Auto Regressive Moving Average), Prophet, lasso regression (least absolute shrinkage and selection operator) and LSTM (Long Short-Term Memory) networks are utilized and evaluated. We use a large clinical dataset for a centralized blood distribution centre for four hospitals in Hamilton, Ontario, spanning from 2010 to 2018 and consisting of daily platelet transfusions along with information such as the product specifications, the recipients' characteristics, and the recipients' laboratory test results. This study is the first to utilize different methods from statistical time series models to data-driven regression and a machine learning technique for platelet transfusion using clinical predictors and with different amounts of data. We find that the multivariate approaches have the highest accuracy in general, however, if sufficient data are available, a simpler time series approach such as ARIMA appears to be sufficient. We also comment on the approach to choose clinical indicators (inputs) for the multivariate models.
翻訳日:2021-04-11 00:46:04 公開日:2021-01-06
# スケッチを用いたマージオントロジーからの順序埋め込み

Order Embeddings from Merged Ontologies using Sketching ( http://arxiv.org/abs/2101.02158v1 )

ライセンス: Link先を確認
Kenneth L. Clarkson and Sanjana Sahayaraj(参考訳) オントロジーから順序埋め込みを生成するための単純で低リソースのメソッドを与える。 このような埋め込みは単語をベクトルにマッピングし、ハイパーネミーやハイポニーミーのような単語の順序関係を直接的に表現する。 本手法では,スケッチ技法,特にcountsketchを用いて次元の縮小を行う。 また, オントロジー, 特に医学領域におけるマージ手法について検討し, 順序関係を保存した。 我々は,医療オントロジーとwordnetの計算結果を提供し,融合手法が有効であることを示し,汎用領域と特殊領域の両方において正確な表現を与える。

We give a simple, low resource method to produce order embeddings from ontologies. Such embeddings map words to vectors so that order relations on the words, such as hypernymy/hyponymy, are represented in a direct way. Our method uses sketching techniques, in particular countsketch, for dimensionality reduction. We also study methods to merge ontologies, in particular those in medical domains, so that order relations are preserved. We give computational results for medical ontologies and for wordnet, showing that our merging techniques are effective and our embedding yields an accurate representation in both generic and specialised domains.
翻訳日:2021-04-11 00:17:07 公開日:2021-01-06
# マルチモーダル特徴を用いたオンデバイス文書分類

On-Device Document Classification using multimodal features ( http://arxiv.org/abs/2101.01880v1 )

ライセンス: Link先を確認
Sugam Garg, Harichandana and Sumit Kumar(参考訳) 小さなスクリーンショットから大きなビデオまで、文書は現代のスマートフォンのスペースの大部分を占める。 携帯電話の文書は様々な情報源から蓄積でき、携帯のストレージ容量が高いため、数百の文書が短期間に蓄積される。 しかし、ほとんどの検索方法はメタ情報か文書中のテキストのみに依存しているため、文書の検索や管理は厄介な作業である。 本稿では,単一のモダリティで分類が不十分であることを示すとともに,デバイス上で文書を分類する新たなパイプラインを提案することにより,サーバへのプライベートなデータ転送を防止できることを示す。 そこで我々は,OCR(Optical Character Recognition)のためのオープンソースライブラリと,パイプラインに新たなモデルアーキテクチャを統合する。 デバイス上の推論に必要なメトリックであるサイズに対するモデルを最適化する。 この分類モデルを標準のマルチモーダルデータセットfood-101でベンチマークし、30%のモデル圧縮で以前の技術と競合する結果を示す。

From small screenshots to large videos, documents take up a bulk of space in a modern smartphone. Documents in a phone can accumulate from various sources, and with the high storage capacity of mobiles, hundreds of documents are accumulated in a short period. However, searching or managing documents remains an onerous task, since most search methods depend on meta-information or only text in a document. In this paper, we showcase that a single modality is insufficient for classification and present a novel pipeline to classify documents on-device, thus preventing any private user data transfer to server. For this task, we integrate an open-source library for Optical Character Recognition (OCR) and our novel model architecture in the pipeline. We optimise the model for size, a necessary metric for on-device inference. We benchmark our classification model with a standard multimodal dataset FOOD-101 and showcase competitive results with the previous State of the Art with 30% model compression.
翻訳日:2021-04-11 00:16:57 公開日:2021-01-06
# 軍事訓練のための適応型合成文字

Adaptive Synthetic Characters for Military Training ( http://arxiv.org/abs/2101.02185v1 )

ライセンス: Link先を確認
Volkan Ustun, Rajay Kumar, Adam Reilly, Seyed Sajjadi, Andrew Miller(参考訳) 現在の軍事シミュレーションにおける合成文字の挙動は、通常、最小の知性を持つルールベースおよびリアクティブ計算モデルによって生成されるため、限られている。 このような計算モデルはキャラクタの経験を反映することができないため、コストと労働集約的なプロセスによって考案された最も効果的な行動モデルでさえも脆弱な知性をもたらす。 機械学習と合成エンティティの経験を適切な事前知識と組み合わせた観察に基づく行動モデル適応は、既存の計算行動モデルの問題に対処し、軍事訓練シミュレーションにおけるより良いトレーニングエクスペリエンスを生み出すことができる。 本稿では,人間の学習者とそのニーズを学習シミュレーションで認識しながら,信頼できる行動のコヒーレントなシーケンスを実行できる自律的な合成文字を作成することを目的とした枠組みを提案する。 このフレームワークは、3つの相互補完的なコンポーネントをまとめる。 最初のコンポーネントはUnityベースのシミュレーション環境である。Rapid Integration and Development Environment(RIDE)はOne World Terrain(OWT)モデルをサポートし、機械学習実験を実行およびサポートすることができる。 2つ目は、様々なシミュレーション環境とインターフェースし、さらに様々な学習アルゴリズムを活用できる、新しいマルチエージェント強化および模倣学習フレームワークであるshivaである。 最後のコンポーネントであるSigma Cognitive Architectureは、象徴的で確率論的推論能力を備えた行動モデルを強化するものだ。 我々は、このフレームワークを現実的な地形上で活用し、機械学習を軍事シミュレーションに持ち込むための重要なステップとして、概念実証行動モデルの作成に成功した。

Behaviors of the synthetic characters in current military simulations are limited since they are generally generated by rule-based and reactive computational models with minimal intelligence. Such computational models cannot adapt to reflect the experience of the characters, resulting in brittle intelligence for even the most effective behavior models devised via costly and labor-intensive processes. Observation-based behavior model adaptation that leverages machine learning and the experience of synthetic entities in combination with appropriate prior knowledge can address the issues in the existing computational behavior models to create a better training experience in military training simulations. In this paper, we introduce a framework that aims to create autonomous synthetic characters that can perform coherent sequences of believable behavior while being aware of human trainees and their needs within a training simulation. This framework brings together three mutually complementary components. The first component is a Unity-based simulation environment - Rapid Integration and Development Environment (RIDE) - supporting One World Terrain (OWT) models and capable of running and supporting machine learning experiments. The second is Shiva, a novel multi-agent reinforcement and imitation learning framework that can interface with a variety of simulation environments, and that can additionally utilize a variety of learning algorithms. The final component is the Sigma Cognitive Architecture that will augment the behavior models with symbolic and probabilistic reasoning capabilities. We have successfully created proof-of-concept behavior models leveraging this framework on realistic terrain as an essential step towards bringing machine learning into military simulations.
翻訳日:2021-04-11 00:16:42 公開日:2021-01-06
# シミュレーションにおける合成文字の制御:認知アーキテクチャとシグマの場合

Controlling Synthetic Characters in Simulations: A Case for Cognitive Architectures and Sigma ( http://arxiv.org/abs/2101.02231v1 )

ライセンス: Link先を確認
Volkan Ustun, Paul S. Rosenbloom, Seyed Sajjadi, Jeremy Nuttal(参考訳) シミュレーションは、仮想世界やビデオゲームのような類似のアプリケーションと同様に、相互作用する合成文字に対して現実的で信頼できる振る舞いを生成する知性の計算モデルを必要とする。 認知的アーキテクチャ(cognitive architecture)は、自然系と人工系の両方における知的行動の基盤となる固定された構造のモデルであり、心の標準的なモデルに向けた現在の取り組みで証明されているように、概念的に有効な共通基盤を提供し、これらの合成文字に対して人間のような知的行動を生成する。 Sigmaは認知アーキテクチャとシステムであり、象徴的認知アーキテクチャ、確率的グラフィカルモデル、そしてより最近のニューラルモデルに関する40年間にわたる独立した研究から学んだことを、グラフィカルアーキテクチャ仮説の下で組み合わせようとしている。 シグマは、従来の認知能力だけでなく、重要な非認知的側面の統一化に向けて、因子グラフの拡張形式を活用し、認知的、自律的、対話的、感情的、適応的な新しい種類の認知モデルを構築するためのユニークな機会を生み出している。 In this paper, we will introduce Sigma along with its diverse capabilities and then use three distinct proof-of-concept Sigma models to highlight combinations of these capabilities: (1) Distributional reinforcement learning models in; (2) A pair of adaptive and interactive agent models that demonstrate rule-based, probabilistic, and social reasoning; and (3) A knowledge-free exploration model in which an agent leverages only architectural appraisal variables, namely attention and curiosity, to locate an item while building up a map in a Unity environment.

Simulations, along with other similar applications like virtual worlds and video games, require computational models of intelligence that generate realistic and credible behavior for the participating synthetic characters. Cognitive architectures, which are models of the fixed structure underlying intelligent behavior in both natural and artificial systems, provide a conceptually valid common basis, as evidenced by the current efforts towards a standard model of the mind, to generate human-like intelligent behavior for these synthetic characters. Sigma is a cognitive architecture and system that strives to combine what has been learned from four decades of independent work on symbolic cognitive architectures, probabilistic graphical models, and more recently neural models, under its graphical architecture hypothesis. Sigma leverages an extended form of factor graphs towards a uniform grand unification of not only traditional cognitive capabilities but also key non-cognitive aspects, creating unique opportunities for the construction of new kinds of cognitive models that possess a Theory-of-Mind and that are perceptual, autonomous, interactive, affective, and adaptive. In this paper, we will introduce Sigma along with its diverse capabilities and then use three distinct proof-of-concept Sigma models to highlight combinations of these capabilities: (1) Distributional reinforcement learning models in; (2) A pair of adaptive and interactive agent models that demonstrate rule-based, probabilistic, and social reasoning; and (3) A knowledge-free exploration model in which an agent leverages only architectural appraisal variables, namely attention and curiosity, to locate an item while building up a map in a Unity environment.
翻訳日:2021-04-11 00:16:18 公開日:2021-01-06
# 時系列深層学習モデルの水文学におけるデータ相乗効果

The data synergy effects of time-series deep learning models in hydrology ( http://arxiv.org/abs/2101.01876v1 )

ライセンス: Link先を確認
Kuai Fang, Daniel Kifer, Kathryn Lawson, Dapeng Feng, Chaopeng Shen(参考訳) 水文学のような地球科学的分野の変数に統計モデルを適用する場合、大きな空間領域を複数の領域に分割し、データ全体(統一とも呼ばれる)に単一のモデルを適用する代わりに各領域を別々に研究することが慣例である。 これらの分野における伝統的な知恵は、各領域に別々に構築されたモデルは、各領域内の均質性のため、より高いパフォーマンスをもたらすことを示唆している。 しかし、トレーニングデータを分割することで、各モデルはより少ないデータポイントにアクセスでき、リージョン間の共通点から学べない。 ここでは,2つの水文学的な例(土壌水分と流水)を通して,ビッグデータとディープラーニング(DL)の時代において,統一が地域化を著しく上回っていることを論じる。 共通dlアーキテクチャは、個別のカスタマイズなしでも、地域固有の差異を正確に学習しながら、地域共通性から利益を得るモデルを自動的に構築することができる。 我々は、データシナジー(data synergy)と呼ばれる効果を強調し、特徴のある異なる領域からデータをプールすると、DLモデルの結果が改善された。 実際、DLモデルの性能は、均質なトレーニングデータよりも、より多様なデータから恩恵を受けている。 我々は、dlモデルがモデルに十分な識別情報を提供しながら、共通性を特定するために自動的に内部表現を調整することを仮定する。 この結果は、より大きなデータセットをまとめることを提案し、学術コミュニティはデータ共有とコンパイルにもっと重点を置くべきであることを示唆している。

When fitting statistical models to variables in geoscientific disciplines such as hydrology, it is a customary practice to regionalize - to divide a large spatial domain into multiple regions and study each region separately - instead of fitting a single model on the entire data (also known as unification). Traditional wisdom in these fields suggests that models built for each region separately will have higher performance because of homogeneity within each region. However, by partitioning the training data, each model has access to fewer data points and cannot learn from commonalities between regions. Here, through two hydrologic examples (soil moisture and streamflow), we argue that unification can often significantly outperform regionalization in the era of big data and deep learning (DL). Common DL architectures, even without bespoke customization, can automatically build models that benefit from regional commonality while accurately learning region-specific differences. We highlight an effect we call data synergy, where the results of the DL models improved when data were pooled together from characteristically different regions. In fact, the performance of the DL models benefited from more diverse rather than more homogeneous training data. We hypothesize that DL models automatically adjust their internal representations to identify commonalities while also providing sufficient discriminatory information to the model. The results here advocate for pooling together larger datasets, and suggest the academic community should place greater emphasis on data sharing and compilation.
翻訳日:2021-04-11 00:15:30 公開日:2021-01-06
# 連続最適輸送の公正性

Fairness with Continuous Optimal Transport ( http://arxiv.org/abs/2101.02084v1 )

ライセンス: Link先を確認
Silvia Chiappa and Aldo Pacchiano(参考訳) 最適輸送(OT)は、公平性問題に対処するための強力で柔軟なアプローチとして認識されつつあるが、現在のOTフェアネス法は離散OTの使用に限られている。 本稿では, OT文献の最近の進歩を活用し, 連続OTの二重定式化に基づく確率階調法を導入する。 本手法は,データが少ない場合には離散OT法よりも優れた性能を示し,それ以外は同様の性能を示す。 また、連続的および離散的なOT法は、MLシステムの現実的な応用において起こりうる様々な不公平なレベルに適応するために、モデルパラメータを継続的に調整できることを示す。

Whilst optimal transport (OT) is increasingly being recognized as a powerful and flexible approach for dealing with fairness issues, current OT fairness methods are confined to the use of discrete OT. In this paper, we leverage recent advances from the OT literature to introduce a stochastic-gradient fairness method based on a dual formulation of continuous OT. We show that this method gives superior performance to discrete OT methods when little data is available to solve the OT problem, and similar performance otherwise. We also show that both continuous and discrete OT methods are able to continually adjust the model parameters to adapt to different levels of unfairness that might occur in real-world applications of ML systems.
翻訳日:2021-04-11 00:15:07 公開日:2021-01-06
# 時系列予測にはディープラーニングモデルが必要なのでしょうか?

Do We Really Need Deep Learning Models for Time Series Forecasting? ( http://arxiv.org/abs/2101.02118v1 )

ライセンス: Link先を確認
Shereen Elsayed, Daniela Thyssens, Ahmed Rashed, Lars Schmidt-Thieme and Hadi Samer Jomaa(参考訳) 時系列予測は、電力消費量、交通量、空気品質の予測に限らず、幅広い応用があるため、機械学習において重要なタスクである。 従来の予測モデルは、ローリング平均、ベクトル自動回帰、自動回帰統合移動平均に依存していた。 一方で、より競争力のあるパフォーマンスで同じ問題に取り組むために、ディープラーニングとマトリックス分解モデルが最近提案されている。 しかし、そのようなモデルの大きな欠点は、従来の手法に比べて複雑すぎる傾向があることである。 本稿では,これらの高度に複雑なディープラーニングモデルが代替手段がないかどうかを問う。 我々は,時系列予測のための勾配ブースティング回帰木を再検討することにより,単純かつ強力なベースラインのプールを強化することを目的とする。 具体的には、ディープラーニングモデルに類似したウィンドウ方式で、勾配木ブースティングモデルによる時系列データの扱い方を再設定する。 トレーニングウィンドウ毎に、ターゲット値は外部特徴と連結され、フラット化されて、マルチ出力勾配向上回帰ツリーモデルのための1つの入力インスタンスを形成する。 我々は過去数年間にトップレベルのカンファレンスで発表された8つの最先端ディープラーニングモデルに対する9つのデータセットの比較研究を行った。 その結果,提案手法は最先端モデルに匹敵することがわかった。

Time series forecasting is a crucial task in machine learning, as it has a wide range of applications including but not limited to forecasting electricity consumption, traffic, and air quality. Traditional forecasting models relied on rolling averages, vector auto-regression and auto-regressive integrated moving averages. On the other hand, deep learning and matrix factorization models have been recently proposed to tackle the same problem with more competitive performance. However, one major drawback of such models is that they tend to be overly complex in comparison to traditional techniques. In this paper, we try to answer whether these highly complex deep learning models are without alternative. We aim to enrich the pool of simple but powerful baselines by revisiting the gradient boosting regression trees for time series forecasting. Specifically, we reconfigure the way time series data is handled by Gradient Tree Boosting models in a windowed fashion that is similar to the deep learning models. For each training window, the target values are concatenated with external features, and then flattened to form one input instance for a multi-output gradient boosting regression tree model. We conducted a comparative study on nine datasets for eight state-of-the-art deep-learning models that were presented at top-level conferences in the last years. The results demonstrated that the proposed approach outperforms all of the state-of-the-art models.
翻訳日:2021-04-11 00:14:54 公開日:2021-01-06
# TGCN:マルチオブジェクト追跡のための時間領域グラフ畳み込みネットワーク

TGCN: Time Domain Graph Convolutional Network for Multiple Objects Tracking ( http://arxiv.org/abs/2101.01861v1 )

ライセンス: Link先を確認
Jie Zhang(参考訳) 複数のオブジェクト追跡は、ビデオ内の各オブジェクトにIDを与える。 難しいのは、予測されたオブジェクトと検出されたオブジェクトを同じフレームでマッチングする方法だ。 マッチング機能には、外観機能、位置情報機能などが含まれる。 予測対象のこれらの特徴は、基本的には以前のフレームに基づいている。 However, few papers describe the relationship in the time domain between the previous frame features and the current frame features.In this paper, we proposed a time domain graph convolutional network for multiple objects tracking.The model is mainly divided into two parts, we first use convolutional neural network (CNN) to extract pedestrian appearance feature, which is a normal operation processing image in deep learning, then we use GCN to model some past frames' appearance feature to get the prediction appearance feature of the current frame. この拡張により、過去のいくつかのフレーム間の関係に応じて、現在のフレームのポーズ特徴を得ることができる。 実験評価の結果,mot16ではmotaが1.3倍向上し,高いフレームレートで性能が向上した。

Multiple object tracking is to give each object an id in the video. The difficulty is how to match the predicted objects and detected objects in same frames. Matching features include appearance features, location features, etc. These features of the predicted object are basically based on some previous frames. However, few papers describe the relationship in the time domain between the previous frame features and the current frame features.In this paper, we proposed a time domain graph convolutional network for multiple objects tracking.The model is mainly divided into two parts, we first use convolutional neural network (CNN) to extract pedestrian appearance feature, which is a normal operation processing image in deep learning, then we use GCN to model some past frames' appearance feature to get the prediction appearance feature of the current frame. Due to this extension, we can get the pose features of the current frame according to the relationship between some frames in the past. Experimental evaluation shows that our extensions improve the MOTA by 1.3 on the MOT16, achieving overall competitive performance at high frame rates.
翻訳日:2021-04-11 00:14:36 公開日:2021-01-06
# モダリティ特異的蒸留

Modality-specific Distillation ( http://arxiv.org/abs/2101.01881v1 )

ライセンス: Link先を確認
Woojeong Jin, Maziar Sanjabi, Shaoliang Nie, Liang Tan, Xiang Ren, Hamed Firooz(参考訳) 大きなニューラルネットワークは、計算コストと推論の遅いため、モバイルデバイスにデプロイすることができない。 知識蒸留(KD)は、大きな「教師」モデルからより小さな「学生」モデルに知識を移すことにより、性能を維持しながら、モデルサイズを縮小する技術である。 しかし、視覚言語データセットのようなマルチモーダルデータセット上のKDは、比較的未探索であり、異なるモーダルが異なるタイプの情報を示すため、そのようなマルチモーダル情報の消化は困難である。 本稿では,マルチモーダルデータセット上で教師からの知識を効果的に伝達するための,モーダル比蒸留(MSD)を提案する。 既存のKDアプローチはマルチモーダル設定に適用できるが、学生はモダリティ固有の予測にアクセスできない。 本研究の目的は,教師のモダリティに特有の予測を模倣し,各モダリティに補助的損失項を導入することである。 それぞれのモダリティは予測に異なる重要性を持っているため、補助的損失に対する重み付けアプローチ(メタラーニングアプローチ)を提案し、これらの損失項の最適重み付けを学習する。 実験では,msdの有効性と重み付け方式を実証し,kdよりも優れた性能が得られることを示す。

Large neural networks are impractical to deploy on mobile devices due to their heavy computational cost and slow inference. Knowledge distillation (KD) is a technique to reduce the model size while retaining performance by transferring knowledge from a large "teacher" model to a smaller "student" model. However, KD on multimodal datasets such as vision-language datasets is relatively unexplored and digesting such multimodal information is challenging since different modalities present different types of information. In this paper, we propose modality-specific distillation (MSD) to effectively transfer knowledge from a teacher on multimodal datasets. Existing KD approaches can be applied to multimodal setup, but a student doesn't have access to modality-specific predictions. Our idea aims at mimicking a teacher's modality-specific predictions by introducing an auxiliary loss term for each modality. Because each modality has different importance for predictions, we also propose weighting approaches for the auxiliary losses; a meta-learning approach to learn the optimal weights on these loss terms. In our experiments, we demonstrate the effectiveness of our MSD and the weighting scheme and show that it achieves better performance than KD.
翻訳日:2021-04-11 00:14:24 公開日:2021-01-06
# リモートセンシングデータと機械学習を用いた森林火災の予測

Predicting Forest Fire Using Remote Sensing Data And Machine Learning ( http://arxiv.org/abs/2101.01975v1 )

ライセンス: Link先を確認
Suwei Yang, Massimo Lupascu, Kuldeep S. Meel(参考訳) 過去数十年間、森林破壊と気候変動により森林火災が増加している。 東南アジアでは、インドネシアは熱帯の泥炭林の森林火災で最も影響を受けた国である。 これらの火災は気候に大きな影響を与え、広範な健康、社会、経済問題を引き起こしている。 カナダ森林火災警報システムのような既存の森林火災予報システムは、手作りの特徴に基づいており、高額の機器を地上に設置し、メンテナンスする必要があるため、インドネシアのような発展途上国では困難である。 インドネシアの森林火災を予測するためにリモートセンシングデータを用いた,費用対効果の高い機械学習に基づく新しいアプローチを提案する。 我々の予測モデルは、受信演算子特性(ROC)曲線の下で0.81以上の領域を達成し、同じタスクにおいてROC曲線下で0.70を超えることのないベースラインアプローチよりも大幅に向上する。 モデルの性能は, ROC曲線下0.81領域に留まり, 縮小したデータで評価した。 その結果,機械学習に基づくアプローチが森林火災予測システムに信頼性と費用対効果をもたらす可能性が示唆された。

Over the last few decades, deforestation and climate change have caused increasing number of forest fires. In Southeast Asia, Indonesia has been the most affected country by tropical peatland forest fires. These fires have a significant impact on the climate resulting in extensive health, social and economic issues. Existing forest fire prediction systems, such as the Canadian Forest Fire Danger Rating System, are based on handcrafted features and require installation and maintenance of expensive instruments on the ground, which can be a challenge for developing countries such as Indonesia. We propose a novel, cost-effective, machine-learning based approach that uses remote sensing data to predict forest fires in Indonesia. Our prediction model achieves more than 0.81 area under the receiver operator characteristic (ROC) curve, performing significantly better than the baseline approach which never exceeds 0.70 area under ROC curve on the same tasks. Our model's performance remained above 0.81 area under ROC curve even when evaluated with reduced data. The results support our claim that machine-learning based approaches can lead to reliable and cost-effective forest fire prediction systems.
翻訳日:2021-04-11 00:14:05 公開日:2021-01-06
# アナログ計算と合成勾配による設計による対向ロバスト性

Adversarial Robustness by Design through Analog Computing and Synthetic Gradients ( http://arxiv.org/abs/2101.02115v1 )

ライセンス: Link先を確認
Alessandro Cappelli, Ruben Ohana, Julien Launay, Laurent Meunier, Iacopo Poli, Florent Krzakala(参考訳) 我々は,光コプロセッサにインスパイアされた敵攻撃に対する新たな防御機構を提案し,ホワイトボックスとブラックボックスの両方の設定において,自然な精度を損なうことなく堅牢性を実現する。 このハードウェアコプロセッサは、パラメータが未知であり、十分な寸法の十分な精度で取得できない非線形固定ランダム変換を実行する。 ホワイトボックス設定では、我々の防御はランダム投影のパラメータを難読化することで機能する。 難読化勾配に依存する他の防御法とは異なり、難読化パラメータに対する信頼できる後方微分可能な近似を構築することはできない。 さらに, ハイブリッドバックプロパゲーション-合成勾配法では, モデルが良好な自然精度に達する一方で, 逆例生成に使用する場合も同様のアプローチが最適である。 光学系におけるランダムプロジェクションとバイナライゼーションの組み合わせにより、様々な種類のブラックボックス攻撃に対するロバスト性も向上する。 最後に,当社のハイブリッドトレーニング手法は,転送攻撃に対する堅牢な機能を構築する。 我々は,CIFAR-10 と CIFAR-100 上に,VGG ライクなアーキテクチャを配置し,CIFAR-10 と CIFAR-100 コードはhttps://github.com/lightonai/adversarial-robustness-by-designで入手できる。

We propose a new defense mechanism against adversarial attacks inspired by an optical co-processor, providing robustness without compromising natural accuracy in both white-box and black-box settings. This hardware co-processor performs a nonlinear fixed random transformation, where the parameters are unknown and impossible to retrieve with sufficient precision for large enough dimensions. In the white-box setting, our defense works by obfuscating the parameters of the random projection. Unlike other defenses relying on obfuscated gradients, we find we are unable to build a reliable backward differentiable approximation for obfuscated parameters. Moreover, while our model reaches a good natural accuracy with a hybrid backpropagation - synthetic gradient method, the same approach is suboptimal if employed to generate adversarial examples. We find the combination of a random projection and binarization in the optical system also improves robustness against various types of black-box attacks. Finally, our hybrid training method builds robust features against transfer attacks. We demonstrate our approach on a VGG-like architecture, placing the defense on top of the convolutional features, on CIFAR-10 and CIFAR-100. Code is available at https://github.com/lightonai/adversarial-robustness-by-design.
翻訳日:2021-04-11 00:13:50 公開日:2021-01-06
# シングルショットマルチタスク歩行者検出と行動予測

Single Shot Multitask Pedestrian Detection and Behavior Prediction ( http://arxiv.org/abs/2101.02232v1 )

ライセンス: Link先を確認
Prateek Agrawal and Pratik Prabhanjan Brahma(参考訳) 歩行者の行動を検知し、予測することは、自動運転車が安全に計画し、対話する上で極めて重要である。 この分野にはいくつかの研究があるが、高速でメモリ効率の良いモデルを持つことは重要である。 本研究では,空間的時間的マルチタスクによる歩行者検出と意図予測を行う新しいアーキテクチャを提案する。 提案手法は,すべての歩行者の意図を単一ショットで検出・予測できると同時に,関連するオブジェクトレベルの情報やインタラクションで特徴を共有することで,より正確な精度を実現することによって,遅延を著しく低減する。

Detecting and predicting the behavior of pedestrians is extremely crucial for self-driving vehicles to plan and interact with them safely. Although there have been several research works in this area, it is important to have fast and memory efficient models such that it can operate in embedded hardware in these autonomous machines. In this work, we propose a novel architecture using spatial-temporal multi-tasking to do camera based pedestrian detection and intention prediction. Our approach significantly reduces the latency by being able to detect and predict all pedestrians' intention in a single shot manner while also being able to attain better accuracy by sharing features with relevant object level information and interactions.
翻訳日:2021-04-11 00:12:48 公開日:2021-01-06
# 量子インスパイアされた体験リプレイによる深層強化学習

Deep Reinforcement Learning with Quantum-inspired Experience Replay ( http://arxiv.org/abs/2101.02034v1 )

ライセンス: Link先を確認
Qing Wei, Hailan Ma, Chunlin Chen, Daoyi Dong(参考訳) 本稿では,経験的リプレイを伴う深部強化学習(DRL)のために,量子計算にインスパイアされた新しいトレーニングパラダイムを提案する。 DRLの従来の経験リプレイ機構とは対照的に、量子インスパイアされた経験リプレイ(DRL-QER)を用いた深層強化学習では、各経験の複雑さと再生時間(遷移とも呼ばれる)に応じて、リプレイバッファから経験を適応的に選択し、探索と搾取のバランスをとる。 DRL-QERでは、遷移をまず量子表現で定式化し、その遷移に対して準備操作と減価演算を行う。 この過程では, 時間差誤差(TDエラー)と経験の重要性との関係を反映し, 減価償却操作を考慮し, 遷移の多様性を確保する。 Atari 2600ゲームにおける実験結果から、DRL-QERはDRL-PERやDCRLといった最先端のアルゴリズムよりも訓練効率が向上し、ダブルネットワークやデュエルネットワークといったメモリベースのDRLアプローチにも適用可能であることが示された。

In this paper, a novel training paradigm inspired by quantum computation is proposed for deep reinforcement learning (DRL) with experience replay. In contrast to traditional experience replay mechanism in DRL, the proposed deep reinforcement learning with quantum-inspired experience replay (DRL-QER) adaptively chooses experiences from the replay buffer according to the complexity and the replayed times of each experience (also called transition), to achieve a balance between exploration and exploitation. In DRL-QER, transitions are first formulated in quantum representations, and then the preparation operation and the depreciation operation are performed on the transitions. In this progress, the preparation operation reflects the relationship between the temporal difference errors (TD-errors) and the importance of the experiences, while the depreciation operation is taken into account to ensure the diversity of the transitions. The experimental results on Atari 2600 games show that DRL-QER outperforms state-of-the-art algorithms such as DRL-PER and DCRL on most of these games with improved training efficiency, and is also applicable to such memory-based DRL approaches as double network and dueling network.
翻訳日:2021-04-11 00:12:38 公開日:2021-01-06
# ランダム化ニューラルネットワークのクロスバリデーションと不確実性判定とモバイルセンサへの応用

Cross-Validation and Uncertainty Determination for Randomized Neural Networks with Applications to Mobile Sensors ( http://arxiv.org/abs/2101.01990v1 )

ライセンス: Link先を確認
Ansgar Steland and Bart E. Pieters(参考訳) 極端学習マシンのようなランダム化された人工ニューラルネットワークは、限られたコンピュータリソースとグリーン機械学習の下で教師付き学習を行うための魅力的で効率的な方法を提供する。 これは、モバイルデバイス(センサー)に弱い人工知能を装備する際に特に当てはまる。 このようなネットワークと回帰手法による教師あり学習について,一般化と予測誤差の整合性および境界性の観点から考察した。 特に,センサを移動させて非定常かつ依存的なサンプルに導くデータを用いて,最近の研究成果をレビューした。 ランダム化されたネットワークがサンプル外性能のランダム化に繋がるので、ランダム性に対処し、サンプル外性能を改善するためのクロスバリデーション手法を検討する。 さらに, 2段階推定に基づいて, 平均外乱予測誤差に対する信頼区間の観点から, 結果の不確かさを計算的に効率的に判定する手法について議論した。 本手法は車両統合太陽光発電における予測問題に適用される。

Randomized artificial neural networks such as extreme learning machines provide an attractive and efficient method for supervised learning under limited computing ressources and green machine learning. This especially applies when equipping mobile devices (sensors) with weak artificial intelligence. Results are discussed about supervised learning with such networks and regression methods in terms of consistency and bounds for the generalization and prediction error. Especially, some recent results are reviewed addressing learning with data sampled by moving sensors leading to non-stationary and dependent samples. As randomized networks lead to random out-of-sample performance measures, we study a cross-validation approach to handle the randomness and make use of it to improve out-of-sample performance. Additionally, a computationally efficient approach to determine the resulting uncertainty in terms of a confidence interval for the mean out-of-sample prediction error is discussed based on two-stage estimation. The approach is applied to a prediction problem arising in vehicle integrated photovoltaics.
翻訳日:2021-04-11 00:11:53 公開日:2021-01-06
# 密度比推定を用いた教師なし表現学習の統一的視点:相互情報、非線形ICAおよび非線形部分空間推定の最大化

A unified view for unsupervised representation learning with density ratio estimation: Maximization of mutual information, nonlinear ICA and nonlinear subspace estimation ( http://arxiv.org/abs/2101.02083v1 )

ライセンス: Link先を確認
Hiroaki Sasaki and Takashi Takenouchi(参考訳) 教師なし表現学習は機械学習における最も重要な問題の1つである。 最近の有望な手法は対照的な学習に基づいている。 しかし、対照的な学習はしばしばヒューリスティックな考えに依存しているため、対照的な学習が何をしているのかを理解することは容易ではない。 本稿では,教師なし表現学習の有望な目標は密度比推定であり,コントラスト学習への理解を促進することを強調する。 本稿では,非教師なし表現学習のための3つの枠組み,すなわち相互情報の最大化(mi),非線形独立成分分析(ica),および低次元非線形部分空間推定のための新しい枠組みを理論的に示すことを目的とする。 この統合された視点は、比較学習がMIの最大化、非線形ICAの実行、あるいは提案フレームワークの低次元非線形部分空間の推定などとみなすことができる条件下で明らかにする。 さらに,各フレームワークの理論的貢献も行う: 特定の条件下での密度比推定によりMIを最大化できることを示す一方,非線形ICA解析では,数値実験で明らかに支持されている潜伏成分の回収に関する新たな知見を明らかにする。 さらに,提案フレームワークの非線形部分空間を推定する理論条件も確立されている。 統一的な視点から、密度比推定による教師なし表現学習のための2つの実践的手法を提案し、第1の方法は、表現学習のためのアウトリー・ロバスト法であり、第2の方法は、サンプリング効率のよい非線形ICA法である。 最後に,非線形icaにおける提案手法の有用性を数値的に示し,下流課題の分類への応用を行った。

Unsupervised representation learning is one of the most important problems in machine learning. Recent promising methods are based on contrastive learning. However, contrastive learning often relies on heuristic ideas, and therefore it is not easy to understand what contrastive learning is doing. This paper emphasizes that density ratio estimation is a promising goal for unsupervised representation learning, and promotes understanding to contrastive learning. Our primal contribution is to theoretically show that density ratio estimation unifies three frameworks for unsupervised representation learning: Maximization of mutual information (MI), nonlinear independent component analysis (ICA) and a novel framework for estimation of a lower-dimensional nonlinear subspace proposed in this paper. This unified view clarifies under what conditions contrastive learning can be regarded as maximizing MI, performing nonlinear ICA or estimating the lower-dimensional nonlinear subspace in the proposed framework. Furthermore, we also make theoretical contributions in each of the three frameworks: We show that MI can be maximized through density ratio estimation under certain conditions, while our analysis for nonlinear ICA reveals a novel insight for recovery of the latent source components, which is clearly supported by numerical experiments. In addition, some theoretical conditions are also established to estimate a nonlinear subspace in the proposed framework. Based on the unified view, we propose two practical methods for unsupervised representation learning through density ratio estimation: The first method is an outlier-robust method for representation learning, while the second one is a sample-efficient nonlinear ICA method. Finally, we numerically demonstrate usefulness of the proposed methods in nonlinear ICA and through application to a downstream task for classification.
翻訳日:2021-04-11 00:11:41 公開日:2021-01-06
# アンサッツ表現性と勾配マグニチュードおよび不毛高原の連結

Connecting ansatz expressibility to gradient magnitudes and barren plateaus ( http://arxiv.org/abs/2101.02138v1 )

ライセンス: Link先を確認
Zo\"e Holmes, Kunal Sharma, M. Cerezo, Patrick J. Coles(参考訳) パラメータ化量子回路は変分問題を解くための ans\"{a}tze として機能し、短期量子コンピュータをプログラミングするための柔軟なパラダイムを提供する。 理想的には、そのような ans\"{a}tze は、所望の解の近接近似にアクセスできるように高度に表現的であるべきである。 一方、アンザッツはトレーニングを可能にする十分な大きな勾配を持つ必要がある。 ここで、これらの2つの重要な特性、表現可能性と訓練可能性の基本的な関係を導出する。 これは、正確な2-設計を形成する ans\"{a}tze を任意の ans\"{a}tze に持つ、確立された不毛台地現象を拡張することによって行われる。 具体的には,アンサッツの表現性の観点から,コスト勾配のばらつきを2設計からの距離で算出する。 結果として得られた境界は、非常に表現力の高い ans\"{a}tze がよりフラットなコストランドスケープを示し、したがって訓練が困難になることを示している。 さらに,表現度が勾配スケーリングに与える影響を示す数値を提示し,不毛高原を回避するための戦略設計の意義について考察する。

Parameterized quantum circuits serve as ans\"{a}tze for solving variational problems and provide a flexible paradigm for programming near-term quantum computers. Ideally, such ans\"{a}tze should be highly expressive so that a close approximation of the desired solution can be accessed. On the other hand, the ansatz must also have sufficiently large gradients to allow for training. Here, we derive a fundamental relationship between these two essential properties: expressibility and trainability. This is done by extending the well established barren plateau phenomenon, which holds for ans\"{a}tze that form exact 2-designs, to arbitrary ans\"{a}tze. Specifically, we calculate the variance in the cost gradient in terms of the expressibility of the ansatz, as measured by its distance from being a 2-design. Our resulting bounds indicate that highly expressive ans\"{a}tze exhibit flatter cost landscapes and therefore will be harder to train. Furthermore, we provide numerics illustrating the effect of expressiblity on gradient scalings, and we discuss the implications for designing strategies to avoid barren plateaus.
翻訳日:2021-04-11 00:11:13 公開日:2021-01-06
# 適応性制約下における線形関数近似による効率的強化学習

Provably Efficient Reinforcement Learning with Linear Function Approximation Under Adaptivity Constraints ( http://arxiv.org/abs/2101.02195v1 )

ライセンス: Link先を確認
Tianhao Wang and Dongruo Zhou and Quanquan Gu(参考訳) 適応性制約の下で線形関数近似を用いた強化学習(RL)について検討した。 バッチ学習モデルとレアポリシースイッチモデルという2つの一般的な限定適応モデルを検討し,線形マルコフ決定プロセスに対する2つの効率的なオンラインrlアルゴリズムを提案する。 具体的には、バッチ学習モデルに対して、提案したLSVI-UCB-Batchアルゴリズムは、$\tilde O(\sqrt{d^3H^3T} + dHT/B)$ regret, where $d$ is the dimension of the feature mapping, $H$ is the episode length, $T$ is the number of interaction and $B$ is the number of batches。 その結果、$\sqrt{t/dh}$バッチのみを使用して$\tilde o(\sqrt{d^3h^3t})$ regretを得ることができた。 希少なポリシースイッチモデルでは、LSVI-UCB-RareSwitchアルゴリズムは、$\tilde O(\sqrt{d^3H^3T[1+T/(dH)]^{dH/B}})を後悔し、$dH\log T$ポリシースイッチは$\tilde O(\sqrt{d^3H^3T})を後悔する。 我々のアルゴリズムはLSVI-UCBアルゴリズム(Jin et al., 2019)と同じ残念な結果を得るが、適応性はかなり小さい。

We study reinforcement learning (RL) with linear function approximation under the adaptivity constraint. We consider two popular limited adaptivity models: batch learning model and rare policy switch model, and propose two efficient online RL algorithms for linear Markov decision processes. In specific, for the batch learning model, our proposed LSVI-UCB-Batch algorithm achieves an $\tilde O(\sqrt{d^3H^3T} + dHT/B)$ regret, where $d$ is the dimension of the feature mapping, $H$ is the episode length, $T$ is the number of interactions and $B$ is the number of batches. Our result suggests that it suffices to use only $\sqrt{T/dH}$ batches to obtain $\tilde O(\sqrt{d^3H^3T})$ regret. For the rare policy switch model, our proposed LSVI-UCB-RareSwitch algorithm enjoys an $\tilde O(\sqrt{d^3H^3T[1+T/(dH)]^{dH/B}})$ regret, which implies that $dH\log T$ policy switches suffice to obtain the $\tilde O(\sqrt{d^3H^3T})$ regret. Our algorithms achieve the same regret as the LSVI-UCB algorithm (Jin et al., 2019), yet with a substantially smaller amount of adaptivity.
翻訳日:2021-04-11 00:10:53 公開日:2021-01-06
# ジョイント2d-3d学習による屋外地形マッピングのための空中画像からのメッシュ再構成

Mesh Reconstruction from Aerial Images for Outdoor Terrain Mapping Using Joint 2D-3D Learning ( http://arxiv.org/abs/2101.01844v1 )

ライセンス: Link先を確認
Qiaojun Feng, Nikolay Atanasov(参考訳) 本稿では,無人航空機の頭上画像を用いた屋外地形マッピングについて述べる。 飛行中の空中画像からの深度推定は困難である。 機能ベースのローカライズとマッピング技術はリアルタイムのオドメトリとスパースポイントの再構成をもたらすが、密集した環境モデルは通常、かなりの計算とストレージでオフラインで復元される。 本稿では,各カメラのキーフレームに局所メッシュを再構築し,グローバル環境モデルに組み込む2次元3次元学習手法を提案する。 各ローカルメッシュはスパース深さ測定から初期化される。 画像特徴をカメラ投影によりメッシュ頂点と関連付け,グラフ畳み込みを用いて2次元再投影深度と3次元メッシュ監督に基づいてメッシュ頂点を洗練する。 実空画像を用いた定量的・質的評価は,環境モニタリングおよび監視アプリケーションを支援する手法の可能性を示している。

This paper addresses outdoor terrain mapping using overhead images obtained from an unmanned aerial vehicle. Dense depth estimation from aerial images during flight is challenging. While feature-based localization and mapping techniques can deliver real-time odometry and sparse points reconstruction, a dense environment model is generally recovered offline with significant computation and storage. This paper develops a joint 2D-3D learning approach to reconstruct local meshes at each camera keyframe, which can be assembled into a global environment model. Each local mesh is initialized from sparse depth measurements. We associate image features with the mesh vertices through camera projection and apply graph convolution to refine the mesh vertices based on joint 2-D reprojected depth and 3-D mesh supervision. Quantitative and qualitative evaluations using real aerial images show the potential of our method to support environmental monitoring and surveillance applications.
翻訳日:2021-04-11 00:10:17 公開日:2021-01-06
# 生成型adversarial networkにおけるモデル抽出と防御

Model Extraction and Defenses on Generative Adversarial Networks ( http://arxiv.org/abs/2101.02069v1 )

ライセンス: Link先を確認
Hailong Hu, Jun Pang(参考訳) モデル抽出攻撃は、ターゲットモデルへのクエリアクセスを通じて機械学習モデルを複製することを目的としている。 初期の研究は主に識別モデルに焦点をあてた。 成功にもかかわらず、生成モデルに対するモデル抽出攻撃は、あまりよく研究されていない。 本稿では,gans(generative adversarial network)に対するモデル抽出攻撃の可能性について体系的に検討する。 具体的には,まず,GANに対するモデル抽出攻撃の精度と忠実度を定義する。 次に, 敵の目標と背景知識に基づき, 精度抽出と忠実性抽出の観点から, gansに対するモデル抽出攻撃について検討する。 さらに,300万以上の画像で訓練された最先端ganを新たなドメインに移植して,モデル抽出攻撃の適用範囲を広げる,抽出されたモデルに関する知識の伝達が可能なケーススタディも実施する。 最後に,GANモデルの実用性とセキュリティのトレードオフを考慮した効果的な防衛手法を提案する。

Model extraction attacks aim to duplicate a machine learning model through query access to a target model. Early studies mainly focus on discriminative models. Despite the success, model extraction attacks against generative models are less well explored. In this paper, we systematically study the feasibility of model extraction attacks against generative adversarial networks (GANs). Specifically, we first define accuracy and fidelity on model extraction attacks against GANs. Then we study model extraction attacks against GANs from the perspective of accuracy extraction and fidelity extraction, according to the adversary's goals and background knowledge. We further conduct a case study where an adversary can transfer knowledge of the extracted model which steals a state-of-the-art GAN trained with more than 3 million images to new domains to broaden the scope of applications of model extraction attacks. Finally, we propose effective defense techniques to safeguard GANs, considering a trade-off between the utility and security of GAN models.
翻訳日:2021-04-11 00:10:01 公開日:2021-01-06
# 米国の新型コロナウイルス感染者の深部予測における人口統計値とソーシャルディスタンシングスコアの相互作用

The Interplay of Demographic Variables and Social Distancing Scores in Deep Prediction of U.S. COVID-19 Cases ( http://arxiv.org/abs/2101.02113v1 )

ライセンス: Link先を確認
Francesca Tang, Yang Feng, Hamza Chiheb, Jianqing Fan(参考訳) 新型コロナウイルス(covid-19)の感染拡大の深刻さにより、スペクトルクラスタリングと相関行列の新たな組み合わせを用いて、米国の郡の成長軌跡の性質を特徴付ける。 米国と世界の他の地域は深刻な第2波の感染に見舞われているため、郡に成長会員を割り当て、成長の要因を理解することの重要性がますます顕著になっている。 次に,コミュニティの識別において最も統計的に有意な特徴を選択する。 最後に,3つのソーシャルディスタンシングスコアを用いて,LSTMを用いた郡の将来的な成長を効果的に予測する。 この包括的調査は、成長コミュニティ、人口統計要因、社会的分散パフォーマンスを用いて、非常にマイクロレベルのケースにおける郡の成長の性質を捉え、政府機関が既知の情報を利用して、どの郡が資源や資金を標的にするかを適切に決定するのを助ける。

With the severity of the COVID-19 outbreak, we characterize the nature of the growth trajectories of counties in the United States using a novel combination of spectral clustering and the correlation matrix. As the U.S. and the rest of the world are experiencing a severe second wave of infections, the importance of assigning growth membership to counties and understanding the determinants of the growth are increasingly evident. Subsequently, we select the demographic features that are most statistically significant in distinguishing the communities. Lastly, we effectively predict the future growth of a given county with an LSTM using three social distancing scores. This comprehensive study captures the nature of counties' growth in cases at a very micro-level using growth communities, demographic factors, and social distancing performance to help government agencies utilize known information to make appropriate decisions regarding which potential counties to target resources and funding to.
翻訳日:2021-04-11 00:09:48 公開日:2021-01-06
# 擬似ブール制約のDNNF符号化における下界

A Lower Bound on DNNF Encodings of Pseudo-Boolean Constraints ( http://arxiv.org/abs/2101.01953v1 )

ライセンス: Link先を確認
Alexis de Colnet(参考訳) 疑似boolean(pb)制約をsatにエンコードする場合の2つの重要な考慮事項は、エンコーディングの大きさと伝播強度、すなわち単位伝搬下での振る舞いが良好であることの保証である。 伝播強度が保証されるいくつかのエンコーディングは、制約をDNNF(decomposable negation normal form)、BDD(binary decision diagram)、その他のサブバリアントに事前コンパイルする。 しかし、順序づけられたBDD(OBDD)表現を持つPB制約が存在することが示されており、従って推論されたCNFエンコーディングは指数的サイズである。 DNNFはOBDDよりも簡潔であるため、サイズ爆発を避けるためにDNNF経由のエンコーディングが好ましい。 しかし本稿では,DNNFがすべて指数的サイズを必要とするPB制約の存在を実証する。

Two major considerations when encoding pseudo-Boolean (PB) constraints into SAT are the size of the encoding and its propagation strength, that is, the guarantee that it has a good behaviour under unit propagation. Several encodings with propagation strength guarantees rely upon prior compilation of the constraints into DNNF (decomposable negation normal form), BDD (binary decision diagram), or some other sub-variants. However it has been shown that there exist PB-constraints whose ordered BDD (OBDD) representations, and thus the inferred CNF encodings, all have exponential size. Since DNNFs are more succinct than OBDDs, preferring encodings via DNNF to avoid size explosion seems a legitimate choice. Yet in this paper, we prove the existence of PB-constraints whose DNNFs all require exponential size.
翻訳日:2021-04-11 00:09:12 公開日:2021-01-06
# Ludii ゲームロジックガイド

Ludii Game Logic Guide ( http://arxiv.org/abs/2101.02120v1 )

ライセンス: Link先を確認
Eric Piette, Cameron Browne and Dennis J. N. J. Soemers(参考訳) 本技術報告では,多種多様なゲームに使用可能な汎用ゲームシステムであるLudiiの基本動作について概説する。 LudiiはERCが出資するDigital Ludeme Projectのために開発されたプログラムで、数学と計算のアプローチを使って歴史を通じてゲームがどのようにプレイされ、拡散されたかを研究する。 本報告では,Ludiiにおける汎用ゲーム状態と機器の表現方法と,ルールルデムが舞台裏でどのように実装されているかを説明し,Ludiiの汎用ゲームプレーヤーの背後にあるコアゲームロジックについて考察する。 このガイドは、ゲームデザイナーがLudiiのゲーム記述言語を使って、より完全に理解し、ゲームを記述する際にその機能を完全に活用することを目的としている。

This technical report outlines the fundamental workings of the game logic behind Ludii, a general game system, that can be used to play a wide variety of games. Ludii is a program developed for the ERC-funded Digital Ludeme Project, in which mathematical and computational approaches are used to study how games were played, and spread, throughout history. This report explains how general game states and equipment are represented in Ludii, and how the rule ludemes dictating play are implemented behind the scenes, giving some insight into the core game logic behind the Ludii general game player. This guide is intended to help game designers using the Ludii game description language to understand it more completely and make fuller use of its features when describing their games.
翻訳日:2021-04-11 00:08:44 公開日:2021-01-06
# 局所最小鍵点に基づくスマイルおよびラウ表現の検出

Smile and Laugh Expressions Detection Based on Local Minimum Key Points ( http://arxiv.org/abs/2101.01874v1 )

ライセンス: Link先を確認
Mina Mohammadi Dashti, Majid Harouni(参考訳) 本稿では,キーポイントの次元減少と記述プロセスに基づいて,笑顔と笑いの表情を提示する。 本論文は,2つの主目的を持つ。1つは特徴的特徴の観点から局所的臨界点を抽出することであり,もう1つは学習入力への依存を減らすことである。 これらの目的を達成するために,特徴抽出における3つのシナリオを提案する。 まず、顔の離散部分は、入力画像の様々な領域を考慮したテクスチャ分類のためのグローバル特徴ベクトルの集合を抽出するために使用される局所二分法によって検出される。 そして、第1のシナリオにおいて、口領域のテクスチャ上の隣接画素の相関変化について、ハリス角検出器を用いて局所鍵点の集合を抽出する。 第2シナリオでは、主成分分析アルゴリズムが提供する第1シナリオの抽出点の次元縮小により、計算コストと全体の複雑さが低下し、性能や柔軟性が失われることなく減少する。

In this paper, a smile and laugh facial expression is presented based on dimension reduction and description process of the key points. The paper has two main objectives; the first is to extract the local critical points in terms of their apparent features, and the second is to reduce the system's dependence on training inputs. To achieve these objectives, three different scenarios on extracting the features are proposed. First of all, the discrete parts of a face are detected by local binary pattern method that is used to extract a set of global feature vectors for texture classification considering various regions of an input-image face. Then, in the first scenario and with respect to the correlation changes of adjacent pixels on the texture of a mouth area, a set of local key points are extracted using the Harris corner detector. In the second scenario, the dimension reduction of the extracted points of first scenario provided by principal component analysis algorithm leading to reduction in computational costs and overall complexity without loss of performance and flexibility, etc.
翻訳日:2021-04-11 00:08:30 公開日:2021-01-06
# エッジなし変圧器を用いた線分検出

Line Segment Detection Using Transformers without Edges ( http://arxiv.org/abs/2101.01909v1 )

ライセンス: Link先を確認
Yifan Xu, Weijian Xu, David Cheung and Zhuowen Tu(参考訳) 本稿では,ポストプロセッシングおよびヒューリスティックスガイド付き中間処理(エッジ/接合/領域検出)を含まないトランスフォーマを用いた線分検出法を提案する。 本手法では, エッジ要素検出, 知覚的グルーピング, 総括的推論という3つの問題に対して, エンコードとデコードを統合したトークン化クエリ, セルフアテンション, ジョイントクエリを含む, 検出トランスフォーマ (detr) の3つのハイライトにより対処する。 トランスフォーマは、前列セグメンテーションアルゴリズムのヒューリスティック設計をスキップする自己着脱機構の層を通して、漸進的にラインセグメントを洗練することを学ぶ。 トランスフォーマにマルチスケールエンコーダ/デコーダを装備し、境界ボックスに都合よく表現されない線分などのエンティティに特に適する、直接端点距離損失下で細粒度ラインセグメント検出を行う。 実験では、Wireframe と YorkUrban のベンチマークで最先端の結果を示す。 LETRは、標準オブジェクト境界ボックス表現を超えて汎用エンティティをエンドツーエンドで検出するための有望な方向を指している。

In this paper, we present a holistically end-to-end algorithm for line segment detection with transformers that is post-processing and heuristics-guided intermediate processing (edge/junction/region detection) free. Our method, named LinE segment TRansformers (LETR), tackles the three main problems in this domain, namely edge element detection, perceptual grouping, and holistic inference by three highlights in detection transformers (DETR) including tokenized queries with integrated encoding and decoding, self-attention, and joint queries respectively. The transformers learn to progressively refine line segments through layers of self-attention mechanism skipping the heuristic design in the previous line segmentation algorithms. We equip multi-scale encoder/decoder in the transformers to perform fine-grained line segment detection under a direct end-point distance loss that is particularly suitable for entities such as line segments that are not conveniently represented by bounding boxes. In the experiments, we show state-of-the-art results on Wireframe and YorkUrban benchmarks. LETR points to a promising direction for joint end-to-end detection of general entities beyond the standard object bounding box representation.
翻訳日:2021-04-11 00:08:15 公開日:2021-01-06
# 多面的3次元再構成

Weakly-Supervised Multi-Face 3D Reconstruction ( http://arxiv.org/abs/2101.02000v1 )

ライセンス: Link先を確認
Jialiang Zhang, Lixiang Lin, Jianke Zhu, Steven C.H. Hoi(参考訳) 3d顔再構成は、デジタルエンターテイメント、ソーシャルメディア、感情分析、人物識別など、多くの現実世界のマルチメディアアプリケーションにおいて非常に重要な役割を果たす。 画像からパラメトリック顔モデルを推定するためのデファクトパイプラインは、まずランドマークのある顔領域を検出し、各顔を収穫してディープラーニングベースの回帰器を養う必要がある。 検出された各インスタンスの前方推定を独立に行う従来の手法と比較して,複数インスタンスのモデルパラメータを1つのネットワーク推論で同時に予測できる,多面3D再構成のための効果的なエンドツーエンドフレームワークを提案する。 提案手法は特徴抽出における計算冗長性を著しく低減するだけでなく,単一ネットワークモデルによる展開手順をより容易にする。 さらに、各画像の再構成顔に対して、同じグローバルカメラモデルを用いて、3Dシーンにおける相対的な頭部位置と向きを復元することができる。 我々は,スパース面と高密度面アライメントタスクに対する提案手法を評価するために,広範囲な実験を行った。 実験結果から,提案手法は顔アライメントタスクにおいて,検出や収穫などの事前処理を必要とせず,非常に有望であることが示唆された。 実装は \url{https://github.com/kalyo-zjl/wm3dr} で公開しています。

3D face reconstruction plays a very important role in many real-world multimedia applications, including digital entertainment, social media, affection analysis, and person identification. The de-facto pipeline for estimating the parametric face model from an image requires to firstly detect the facial regions with landmarks, and then crop each face to feed the deep learning-based regressor. Comparing to the conventional methods performing forward inference for each detected instance independently, we suggest an effective end-to-end framework for multi-face 3D reconstruction, which is able to predict the model parameters of multiple instances simultaneously using single network inference. Our proposed approach not only greatly reduces the computational redundancy in feature extraction but also makes the deployment procedure much easier using the single network model. More importantly, we employ the same global camera model for the reconstructed faces in each image, which makes it possible to recover the relative head positions and orientations in the 3D scene. We have conducted extensive experiments to evaluate our proposed approach on the sparse and dense face alignment tasks. The experimental results indicate that our proposed approach is very promising on face alignment tasks without fully-supervision and pre-processing like detection and crop. Our implementation is publicly available at \url{https://github.com/kalyo-zjl/WM3DR}.
翻訳日:2021-04-11 00:07:54 公開日:2021-01-06
# 回転推定のための半有限緩和の厚さについて

On the Tightness of Semidefinite Relaxations for Rotation Estimation ( http://arxiv.org/abs/2101.02099v1 )

ライセンス: Link先を確認
Lucas Brynte, Viktor Larsson, Jos\'e Pedro Iglesias, Carl Olsson, Fredrik Kahl(参考訳) なぜ半定緩和が、回転を含む非凸最適化問題の解決にコンピュータビジョンやロボット工学の多くの応用で成功したのか? 経験的性能の研究において、文献に報告された障害事例はほとんどなく、理論的観点からこれらの問題にアプローチする動機となっていることに留意する。 二次目的関数と回転制約を持つ問題の半定値緩和のパワーを解析するために代数幾何学のツールに基づく一般的な枠組みが導入された。 応用例としては、登録、手目の校正、カメラの切除、回転平均化などがある。 極端な点を特徴付け,単一回転の場合であっても緩和がきつくないような障害ケースが多数存在することを示す。 また,問題クラスでは,適切な回転パラメトリゼーションが厳密な緩和を保証していることを示す。 我々の理論的知見は数値シミュレーションを伴い、さらなる証拠と結果の理解を提供する。

Why is it that semidefinite relaxations have been so successful in numerous applications in computer vision and robotics for solving non-convex optimization problems involving rotations? In studying the empirical performance, we note that there are hardly any failure cases reported in the literature, motivating us to approach these problems from a theoretical perspective. A general framework based on tools from algebraic geometry is introduced for analyzing the power of semidefinite relaxations of problems with quadratic objective functions and rotational constraints. Applications include registration, hand-eye calibration, camera resectioning and rotation averaging. We characterize the extreme points, and show that there are plenty of failure cases for which the relaxation is not tight, even in the case of a single rotation. We also show that for some problem classes, an appropriate rotation parametrization guarantees tight relaxations. Our theoretical findings are accompanied with numerical simulations, providing further evidence and understanding of the results.
翻訳日:2021-04-11 00:07:34 公開日:2021-01-06
# LAEO-Net++:ビデオでお互いを見る人々を再考

LAEO-Net++: revisiting people Looking At Each Other in videos ( http://arxiv.org/abs/2101.02136v1 )

ライセンス: Link先を確認
Manuel J. Marin-Jimenez, Vicky Kalogeiton, Pablo Medina-Suarez, and Andrew Zisserman(参考訳) 人々の「相互視」を捉えることは、それらの間の社会的相互作用を理解し、解釈するために不可欠である。 そこで本稿では,ビデオのシーケンスでお互いを見ている人(LAEO)を検出する問題に対処する。 この目的のために,ビデオ中のLAEOを決定するための新しいディープCNNであるLAEO-Net++を提案する。 LAEO-Net++は以前の研究とは対照的に、時空間トラックをトラック全体の入力と理由としている。 3つの枝からなり、1つは各キャラクターの追跡された頭部、もう1つは相対的な位置である。 さらに,UCO-LAEO と AVA-LAEO の2つの新しい LAEO データセットを導入する。 LAEO-Net++は,2人がLAEOであるかどうか,その発生場所の時間的ウィンドウを正しく判断する能力を示している。 本モデルは,既存のTVHID-LAEOビデオデータセットの最先端化を実現し,従来の手法よりも大幅に優れていた。 最後に、LAEO-Net++をソーシャルネットワークに適用し、LAEOの頻度と期間に基づいて、ペア間の社会的関係を自動的に推測し、ビデオ内の人間のインタラクションをガイドする有用なツールであることを示す。 コードはhttps://github.com/avauco/laeonetplusで入手できる。

Capturing the 'mutual gaze' of people is essential for understanding and interpreting the social interactions between them. To this end, this paper addresses the problem of detecting people Looking At Each Other (LAEO) in video sequences. For this purpose, we propose LAEO-Net++, a new deep CNN for determining LAEO in videos. In contrast to previous works, LAEO-Net++ takes spatio-temporal tracks as input and reasons about the whole track. It consists of three branches, one for each character's tracked head and one for their relative position. Moreover, we introduce two new LAEO datasets: UCO-LAEO and AVA-LAEO. A thorough experimental evaluation demonstrates the ability of LAEO-Net++ to successfully determine if two people are LAEO and the temporal window where it happens. Our model achieves state-of-the-art results on the existing TVHID-LAEO video dataset, significantly outperforming previous approaches. Finally, we apply LAEO-Net++ to a social network, where we automatically infer the social relationship between pairs of people based on the frequency and duration that they LAEO, and show that LAEO can be a useful tool for guided search of human interactions in videos. The code is available at https://github.com/AVAuco/laeonetplus.
翻訳日:2021-04-11 00:07:21 公開日:2021-01-06
# 農業用ロバスト照明不変カメラシステム

A Robust Illumination-Invariant Camera System for Agricultural Applications ( http://arxiv.org/abs/2101.02190v1 )

ライセンス: Link先を確認
Abhisesh Silwal, Tanvir Parhar, Francisco Yandun and George Kantor(参考訳) 対象検出と意味セグメンテーションは、農業分野で最も広く採用されているディープラーニングアルゴリズムの2つである。 このような作業のために屋外で取得した画像品質の変化の主な要因の1つは、物体の外観や全体像の内容を変えることができる照明条件を変更することである。 トランスファーラーニングとデータ拡張は、ディープニューラルネットワークをトレーニングするための大量のデータの必要性をある程度低減するが、多種多様な品種と農業における共有データセットの欠如により、広範囲のフィールド展開が困難になる。 本稿では,全照明条件で一貫した画像を生成する高スループットな能動照明カメラシステムを提案する。 画像品質の一貫性を示す実験を詳述し、オブジェクト検出タスクのために深層ニューラルネットワークを訓練するイメージを比較的少なくする。 さらに、能動照明のない画像が一貫した結果を得られない極端照明条件下でのフィールド実験の結果を示す。 実験の結果、一貫性のあるデータで訓練された物体検出のための深層ネットは、同じレベルの精度を達成するのに、ほぼ4倍のデータを必要としていた。 この提案は、農業におけるコンピュータビジョンのニーズに実用的な解決策を提供する可能性がある。

Object detection and semantic segmentation are two of the most widely adopted deep learning algorithms in agricultural applications. One of the major sources of variability in image quality acquired in the outdoors for such tasks is changing lighting condition that can alter the appearance of the objects or the contents of the entire image. While transfer learning and data augmentation to some extent reduce the need for large amount of data to train deep neural networks, the large variety of cultivars and the lack of shared datasets in agriculture makes wide-scale field deployments difficult. In this paper, we present a high throughput robust active lighting-based camera system that generates consistent images in all lighting conditions. We detail experiments that show the consistency in images quality leading to relatively fewer images to train deep neural networks for the task of object detection. We further present results from field experiment under extreme lighting conditions where images without active lighting significantly lack to provide consistent results. The experimental results show that on average, deep nets for object detection trained on consistent data required nearly four times less data to achieve similar level of accuracy. This proposed work could potentially provide pragmatic solutions to computer vision needs in agriculture.
翻訳日:2021-04-11 00:06:59 公開日:2021-01-06
# 映像中の時空間構造をマイニングした箱からのマスク生成

Generating Masks from Boxes by Mining Spatio-Temporal Consistencies in Videos ( http://arxiv.org/abs/2101.02196v1 )

ライセンス: Link先を確認
Bin Zhao, Goutam Bhat, Martin Danelljan, Luc Van Gool, Radu Timofte(参考訳) ビデオ内のオブジェクトのセグメンテーションは、基本的なコンピュータビジョンタスクである。 現在のディープラーニングベースのパラダイムは、強力だがデータハングリーなソリューションを提供する。 しかし、現在のデータセットは、ビデオにオブジェクトマスクを注釈するコストと人的労力によって制限されている。 これにより、既存のビデオセグメンテーション手法の性能と一般化能力を効果的に制限する。 この問題に対処するため、バウンディングボックスアノテーションのより弱い形式を探求する。 ビデオ中のフレーム単位境界ボックスアノテーションからセグメンテーションマスクを生成する手法を提案する。 そこで本稿では,複数のフレームにまたがる物体の構成と背景の出現を効果的にマイニングする時空間凝集モジュールを提案する。 得られた正確なマスクを用いて、ビデオオブジェクトセグメンテーション(VOS)ネットワークの弱い教師付きトレーニングを行う。 境界ボックスアノテーションのみを使用して,大規模追跡データセット用のセグメンテーションマスクを生成する。 追加データにより、VOSとより困難なトラッキングドメインの両方で最先端の結果につながる、かなり優れた一般化性能が得られる。

Segmenting objects in videos is a fundamental computer vision task. The current deep learning based paradigm offers a powerful, but data-hungry solution. However, current datasets are limited by the cost and human effort of annotating object masks in videos. This effectively limits the performance and generalization capabilities of existing video segmentation methods. To address this issue, we explore weaker form of bounding box annotations. We introduce a method for generating segmentation masks from per-frame bounding box annotations in videos. To this end, we propose a spatio-temporal aggregation module that effectively mines consistencies in the object and background appearance across multiple frames. We use our resulting accurate masks for weakly supervised training of video object segmentation (VOS) networks. We generate segmentation masks for large scale tracking datasets, using only their bounding box annotations. The additional data provides substantially better generalization performance leading to state-of-the-art results in both the VOS and more challenging tracking domain.
翻訳日:2021-04-11 00:06:42 公開日:2021-01-06
# SF-QA:オープンドメイン質問応答のためのシンプルで公正な評価ライブラリ

SF-QA: Simple and Fair Evaluation Library for Open-domain Question Answering ( http://arxiv.org/abs/2101.01910v1 )

ライセンス: Link先を確認
Xiaopeng Lu, Kyusong Lee, Tiancheng Zhao(参考訳) 近年, オープンドメイン質問応答 (QA) が注目されているが, システム全体の構築には大量のリソースが必要であり, 複雑な構成のため, 以前の結果を再現することが困難な場合が多い。 本稿では,オープンドメインQAのためのシンプルで公正な評価フレームワークであるSF-QAを紹介する。 SF-QAフレームワークは、パイプラインのオープンドメインQAシステムをモジュール化する。 提案された評価フレームワークは公開されており、誰でもコードや評価に貢献できる。

Although open-domain question answering (QA) draws great attention in recent years, it requires large amounts of resources for building the full system and is often difficult to reproduce previous results due to complex configurations. In this paper, we introduce SF-QA: simple and fair evaluation framework for open-domain QA. SF-QA framework modularizes the pipeline open-domain QA system, which makes the task itself easily accessible and reproducible to research groups without enough computing resources. The proposed evaluation framework is publicly available and anyone can contribute to the code and evaluations.
翻訳日:2021-04-11 00:06:30 公開日:2021-01-06
# Node2Seq: グラフニューラルネットワークのトレーニング可能な畳み込みを目指す

Node2Seq: Towards Trainable Convolutions in Graph Neural Networks ( http://arxiv.org/abs/2101.01849v1 )

ライセンス: Link先を確認
Hao Yuan, Shuiwang Ji(参考訳) グラフ特徴学習の探索は、多くの実世界のアプリケーションでグラフデータの出現によって本質的に重要になる。 ノード特徴学習にはいくつかのグラフニューラルネットワークアプローチが提案されており、一般にノード特徴を学習するために隣接する情報集約スキームに従う。 性能は高いが、近隣の異なるノードの重み付け学習はいまだに研究されていない。 本研究では,ノード埋め込みを学習するためのグラフネットワーク層Node2Seqを提案する。 対象ノードに対しては,アテンション機構を用いて隣接ノードをソートし,情報集約のために1次元畳み込みニューラルネットワーク(CNN)を用いる。 さらに,注目スコアに基づいて,特徴学習のための非局所的な情報を適応的に組み込むことを提案する。 実験結果は,提案するnode2seq層の有効性を示し,提案する適応型非局所情報学習により,特徴学習の性能が向上することを示す。

Investigating graph feature learning becomes essentially important with the emergence of graph data in many real-world applications. Several graph neural network approaches are proposed for node feature learning and they generally follow a neighboring information aggregation scheme to learn node features. While great performance has been achieved, the weights learning for different neighboring nodes is still less explored. In this work, we propose a novel graph network layer, known as Node2Seq, to learn node embeddings with explicitly trainable weights for different neighboring nodes. For a target node, our method sorts its neighboring nodes via attention mechanism and then employs 1D convolutional neural networks (CNNs) to enable explicit weights for information aggregation. In addition, we propose to incorporate non-local information for feature learning in an adaptive manner based on the attention scores. Experimental results demonstrate the effectiveness of our proposed Node2Seq layer and show that the proposed adaptively non-local information learning can improve the performance of feature learning.
翻訳日:2021-04-11 00:06:20 公開日:2021-01-06
# in-cabinユースケースにおける人工知能手法の検討

Artificial Intelligence Methods in In-Cabin Use Cases: A Survey ( http://arxiv.org/abs/2101.02082v1 )

ライセンス: Link先を確認
Yao Rong, Chao Han, Christian Hellert, Antje Loyal, Enkelejda Kasneci(参考訳) 自動運転への関心が高まるにつれ、自動車の高度自動化の要件を満たす努力が進められている。 この状況下では、キャビン内の機能は、ドライバーと乗客の安全で快適な旅を確保する上で重要な役割を果たす。 同時に、人工知能(AI)の分野での最近の進歩は、車室内における自動的な問題を解決するために、さまざまな新しい応用と支援システムを可能にした。 本稿では,(1)運転安全性と(2)運転快適性に関する応用シナリオに焦点をあて,運転室内のユースケースにAI手法を利用する既存の作業について,徹底的な調査を行った。 調査された研究の結果、ai技術は自動運転の分野でインカビンタスクに取り組む有望な未来を持っていることが示されています。

As interest in autonomous driving increases, efforts are being made to meet requirements for the high-level automation of vehicles. In this context, the functionality inside the vehicle cabin plays a key role in ensuring a safe and pleasant journey for driver and passenger alike. At the same time, recent advances in the field of artificial intelligence (AI) have enabled a whole range of new applications and assistance systems to solve automated problems in the vehicle cabin. This paper presents a thorough survey on existing work that utilizes AI methods for use-cases inside the driving cabin, focusing, in particular, on application scenarios related to (1) driving safety and (2) driving comfort. Results from the surveyed works show that AI technology has a promising future in tackling in-cabin tasks within the autonomous driving aspect.
翻訳日:2021-04-11 00:05:33 公開日:2021-01-06
# セマンティックリワードマニピュレーションによるワンショット政策緩和

One-shot Policy Elicitation via Semantic Reward Manipulation ( http://arxiv.org/abs/2101.01860v1 )

ライセンス: Link先を確認
Aaquib Tabrez, Ryan Leonard, Bradley Hayes(参考訳) 世界の状況に関する期待と知識の同期は、効果的なコラボレーションに欠かせない能力です。 ロボットが人間や他の自律エージェントと効果的に協力するためには、世界の理解と協力者の理解の相違を和らげるために、知的な説明を生成できることが重要である。 本研究では,計画述語の組み合わせから得られた意味的説明を用いて,エージェントの報酬関数を増強し,より最適な行動を示すためのポリシーを駆動する,新しい逐次最適化アルゴリズムであるSingle-shot Policy Explanation for Augmenting Rewards(SPEAR)を提案する。 本研究では,2つの実用的基盤を持つアプリケーションにおいて,アルゴリズムのポリシー操作能力を実験的に検証し,より複雑な状態空間と述語数を持つ領域上でのSPEARの性能解析を行った。 提案手法は,実行時および対処可能な問題サイズにおいて最先端よりも大幅に改善され,エージェントが自身の専門知識を活用して動作可能な情報を伝達し,その性能を向上させることができることを示す。

Synchronizing expectations and knowledge about the state of the world is an essential capability for effective collaboration. For robots to effectively collaborate with humans and other autonomous agents, it is critical that they be able to generate intelligible explanations to reconcile differences between their understanding of the world and that of their collaborators. In this work we present Single-shot Policy Explanation for Augmenting Rewards (SPEAR), a novel sequential optimization algorithm that uses semantic explanations derived from combinations of planning predicates to augment agents' reward functions, driving their policies to exhibit more optimal behavior. We provide an experimental validation of our algorithm's policy manipulation capabilities in two practically grounded applications and conclude with a performance analysis of SPEAR on domains of increasingly complex state space and predicate counts. We demonstrate that our method makes substantial improvements over the state-of-the-art in terms of runtime and addressable problem size, enabling an agent to leverage its own expertise to communicate actionable information to improve another's performance.
翻訳日:2021-04-11 00:05:19 公開日:2021-01-06
# 高速MAVマニピュレータのCNNに基づくビジュアルエゴ運動推定

CNN-based Visual Ego-Motion Estimation for Fast MAV Maneuvers ( http://arxiv.org/abs/2101.01841v1 )

ライセンス: Link先を確認
Yingfu Xu, Guido C. H. E. de Croon(参考訳) マイクロエアビー(MAV)の視覚的エゴモーション推定の分野では、大きな視覚的相違と動きのぼかしが主な原因で、迅速な操縦が困難である。 高いロバスト性を求めるために,畳み込みニューラルネットワーク(cnns)を用いて,平面シーンに対向する高速移動単眼カメラから,後続画像間の相対的なポーズを予測する。 慣性計測ユニット (IMU) の支援を受けて, 主に翻訳運動に着目した。 本研究のネットワークは、類似の小型モデルサイズ(約1.35MB)と高速推論速度(モバイルGPUで約100Hz)を有する。 トレーニングやテスト用の画像は、リアルな動きのぼやけがあります。 第1の画像とカスケードされたネットワークブロックを反復的にマッチさせるネットワークフレームワークから離れ、異なるネットワークアーキテクチャとトレーニング戦略を研究する。 シミュレーションデータセットとMAV飛行データセットが評価に使用される。 提案手法は,高速操作時の既存ネットワークや従来の特徴点法よりも精度がよい。 さらに、自己教師型学習は教師型学習よりも優れる。 この論文のために開発されたコードはhttps://github.com/tudelft/.comで公開される。

In the field of visual ego-motion estimation for Micro Air Vehicles (MAVs), fast maneuvers stay challenging mainly because of the big visual disparity and motion blur. In the pursuit of higher robustness, we study convolutional neural networks (CNNs) that predict the relative pose between subsequent images from a fast-moving monocular camera facing a planar scene. Aided by the Inertial Measurement Unit (IMU), we mainly focus on the translational motion. The networks we study have similar small model sizes (around 1.35MB) and high inference speeds (around 100Hz on a mobile GPU). Images for training and testing have realistic motion blur. Departing from a network framework that iteratively warps the first image to match the second with cascaded network blocks, we study different network architectures and training strategies. Simulated datasets and MAV flight datasets are used for evaluation. The proposed setup shows better accuracy over existing networks and traditional feature-point-based methods during fast maneuvers. Moreover, self-supervised learning outperforms supervised learning. The code developed for this paper will be open-source upon publication at https://github.com/tudelft/.
翻訳日:2021-04-11 00:05:01 公開日:2021-01-06
# ファンビームと円錐ビームct再構成のための新しい重み付け法

A New Weighting Scheme for Fan-beam and Circle Cone-beam CT Reconstructions ( http://arxiv.org/abs/2101.01886v1 )

ライセンス: Link先を確認
Wei Wang, Xiang-Gen Xia, Chuanjiang He, Zemin Ren, Jian Lu, Tianfu Wang and Baiying Lei(参考訳) 本稿では,KatsevichのヘリカルCT公式を2次元ファンビームCT再構成に適用することにより,ファンビームCT再構成のためのアークベースアルゴリズムを提案する。 次に、冗長な投影データを扱うための新たな重み付け関数を提案する。 重み付きアークベースファンビームアルゴリズムを円錐ビーム形状に拡張することにより、円錐ビームCT再構成のための新しいFDK類似アルゴリズムを得る。 実験により,Parker-weightedのファンビームアルゴリズムとFDKアルゴリズムと比較してPSNRとSSIMの精度が向上した。

In this paper, we first present an arc based algorithm for fan-beam computed tomography (CT) reconstruction via applying Katsevich's helical CT formula to 2D fan-beam CT reconstruction. Then, we propose a new weighting function to deal with the redundant projection data. By extending the weighted arc based fan-beam algorithm to circle cone-beam geometry, we also obtain a new FDK-similar algorithm for circle cone-beam CT reconstruction. Experiments show that our methods can obtain higher PSNR and SSIM compared to the Parker-weighted conventional fan-beam algorithm and the FDK algorithm for super-short-scan trajectories.
翻訳日:2021-04-11 00:04:44 公開日:2021-01-06
# ハイパースペクトル画像のためのアンサンブルとランダム協調表現に基づく異常検出

Ensemble and Random Collaborative Representation-Based Anomaly Detector for Hyperspectral Imagery ( http://arxiv.org/abs/2101.01976v1 )

ライセンス: Link先を確認
Rong Wang, Wei Feng, Qianrong Zhang, Feiping Nie, Zhen Wang, and Xuelong Li(参考訳) 近年では、超スペクトル異常検出(had)が活発な話題となり、軍事分野や民間分野で重要な役割を担っている。 古典的HAD法として、協調表現に基づく検出器(CRD)が注目され、詳細な研究が行われている。 CRD法の優れた性能にもかかわらず、その計算コストは広く要求されるリアルタイムアプリケーションには高すぎる。 この問題を軽減するために,新しいアンサンブルとランダムな協調表現ベース検出器(ERCRD)が提案されている。 このアプローチは2つの主要なステップからなる。 まず,元々のcrd法で用いられたスライディングデュアルウインドウ戦略を置き換えるために,ランダムな背景モデルを提案する。 第二に、複数のランダムな背景モデリングにより複数の検出結果を得ることができ、これらの結果はアンサンブル学習により最終的な検出結果にさらに洗練される。 4つの実超スペクトルデータセットの実験では、提案手法の精度と効率が10の最先端HAD法と比較された。

In recent years, hyperspectral anomaly detection (HAD) has become an active topic and plays a significant role in military and civilian fields. As a classic HAD method, the collaboration representation-based detector (CRD) has attracted extensive attention and in-depth research. Despite the good performance of CRD method, its computational cost is too high for the widely demanded real-time applications. To alleviate this problem, a novel ensemble and random collaborative representation-based detector (ERCRD) is proposed for HAD. This approach comprises two main steps. Firstly, we propose a random background modeling to replace the sliding dual window strategy used in the original CRD method. Secondly, we can obtain multiple detection results through multiple random background modeling, and these results are further refined to final detection result through ensemble learning. Experiments on four real hyperspectral datasets exhibit the accuracy and efficiency of this proposed ERCRD method compared with ten state-of-the-art HAD methods.
翻訳日:2021-04-11 00:04:32 公開日:2021-01-06
# 浅層UWnet : 水中画像強調のための圧縮モデル

Shallow-UWnet : Compressed Model for Underwater Image Enhancement ( http://arxiv.org/abs/2101.02073v1 )

ライセンス: Link先を確認
Ankita Naik (1), Apurva Swarnakar (1), Kartik Mittal (1) ((1) University of Massachusetts Amherst)(参考訳) 過去数十年間、水中画像のエンハンスメントは、水中ロボティクスと海洋工学における重要性から、多くの研究努力を惹きつけてきた。 研究は物理ベースのソリューションの実装から、非常に深いcnnとganの使用へと発展した。 しかし、これらの最先端アルゴリズムは計算コストが高く、メモリ集約的である。 これにより、水中探査作業のための携帯機器への展開が妨げられる。 これらのモデルは、合成または限られた実世界のデータセットで訓練され、実世界のシナリオでは実用的でない。 本稿では、性能を保ち、最先端モデルよりも少ないパラメータを持つ、浅いニューラルネットワークアーキテクチャである \textbf{Shallow-UWnet を提案する。 また,合成データセットと実世界のデータセットを組み合わせることで,その性能をベンチマークすることで,モデルの一般化を実証した。

Over the past few decades, underwater image enhancement has attracted increasing amount of research effort due to its significance in underwater robotics and ocean engineering. Research has evolved from implementing physics-based solutions to using very deep CNNs and GANs. However, these state-of-art algorithms are computationally expensive and memory intensive. This hinders their deployment on portable devices for underwater exploration tasks. These models are trained on either synthetic or limited real world datasets making them less practical in real-world scenarios. In this paper we propose a shallow neural network architecture, \textbf{Shallow-UWnet} which maintains performance and has fewer parameters than the state-of-art models. We also demonstrated the generalization of our model by benchmarking its performance on combination of synthetic and real-world datasets.
翻訳日:2021-04-11 00:04:18 公開日:2021-01-06
# VOGUE: StyleGAN補間最適化によるトライオン

VOGUE: Try-On by StyleGAN Interpolation Optimization ( http://arxiv.org/abs/2101.02285v1 )

ライセンス: Link先を確認
Kathleen M Lewis, Srivatsan Varadharajan, Ira Kemelmacher-Shlizerman(参考訳) 対象者の画像と衣服を身に着けている人の画像が与えられた場合、対象者の衣服を自動生成する。 本手法の核となるのはポーズ条件付きStyleGAN2潜時空間補間であり,各画像からの関心領域,すなわち体形,毛髪,肌の色をシームレスに結合し,衣服の折りたたみ,材質,形状は衣服画像から得られる。 潜在空間における層毎の補間係数を自動的に最適化することにより、衣服と対象人物の融合をシームレスに行うことができる。 このアルゴリズムにより, 衣服は所定の形状に応じて変形し, パターンや素材の詳細を保存できる。 実験は、最先端のフォトリアリスティックな結果を高解像度で実証する(512\times 512$)。

Given an image of a target person and an image of another person wearing a garment, we automatically generate the target person in the given garment. At the core of our method is a pose-conditioned StyleGAN2 latent space interpolation, which seamlessly combines the areas of interest from each image, i.e., body shape, hair, and skin color are derived from the target person, while the garment with its folds, material properties, and shape comes from the garment image. By automatically optimizing for interpolation coefficients per layer in the latent space, we can perform a seamless, yet true to source, merging of the garment and target person. Our algorithm allows for garments to deform according to the given body shape, while preserving pattern and material details. Experiments demonstrate state-of-the-art photo-realistic results at high resolution ($512\times 512$).
翻訳日:2021-04-11 00:04:08 公開日:2021-01-06
# 拘束的ブロック非線形ニューラル力学モデル

Constrained Block Nonlinear Neural Dynamical Models ( http://arxiv.org/abs/2101.01864v1 )

ライセンス: Link先を確認
Elliott Skomski, Soumya Vasisht, Colby Wight, Aaron Tuor, Jan Drgona, Draguna Vrabie(参考訳) 既知の事前条件付きニューラルネットワークモジュールは、非線形ダイナミクスを持つシステムを表現するために、効果的にトレーニングされ、組み合わせられる。 本研究では,局所モデル構造と制約を組み込んだ深層制御指向非線形力学モデルのデータ効率学習のための新しい定式化について検討する。 提案手法は,入力,状態,出力のダイナミクスを表現するニューラルネットワークブロックで構成され,ネットワーク重みとシステム変数に制約を課す。 部分的に観測可能な力学系を扱うために、状態オブザーバニューラルネットワークを用いてシステムの潜在力学の状態を推定する。 提案手法は, 連発式タンクリアクター, 2タンク間相互作用システム, 空力体という3つの非線形システムのシステム識別タスクにおいて, 提案手法の性能評価を行った。 数千のシステム状態観測で最適化されたモデルは、単一の初期条件から数千の時間ステップにわたる開ループシミュレーションにおいてシステムダイナミクスを正確に表現する。 実験結果から,従来の非構造的ニューラルネットワークモデルと非構造的ニューラルネットワークモデルを比較した場合,オープンループシミュレーションでは2乗誤差が大域的に減少することが示された。

Neural network modules conditioned by known priors can be effectively trained and combined to represent systems with nonlinear dynamics. This work explores a novel formulation for data-efficient learning of deep control-oriented nonlinear dynamical models by embedding local model structure and constraints. The proposed method consists of neural network blocks that represent input, state, and output dynamics with constraints placed on the network weights and system variables. For handling partially observable dynamical systems, we utilize a state observer neural network to estimate the states of the system's latent dynamics. We evaluate the performance of the proposed architecture and training methods on system identification tasks for three nonlinear systems: a continuous stirred tank reactor, a two tank interacting system, and an aerodynamics body. Models optimized with a few thousand system state observations accurately represent system dynamics in open loop simulation over thousands of time steps from a single set of initial conditions. Experimental results demonstrate an order of magnitude reduction in open-loop simulation mean squared error for our constrained, block-structured neural models when compared to traditional unstructured and unconstrained neural network models.
翻訳日:2021-04-11 00:03:52 公開日:2021-01-06
# 3次元変動データ同化のためのアテンションベース畳み込みオートエンコーダ

Attention-based Convolutional Autoencoders for 3D-Variational Data Assimilation ( http://arxiv.org/abs/2101.02121v1 )

ライセンス: Link先を確認
Julian Mack, Rossella Arcucci, Miguel Molina-Solana and Yi-Ke Guo(参考訳) 本論文では,畳み込みオートエンコーダを用いた3次元変分データ同化の解法を提案する。 提案手法は従来の手法と同一解であるが,計算複雑性が著しく低いことを証明し,データ同化精度に影響を与えることなく計算コストを削減できることを示す。 ロンドン・エレファント・アンド・キャッスルにある遺跡の汚染モデルを用いて, 実世界のデータを用いて新しい手法を検証したところ, 背景共分散行列表現のサイズをo(10^3)削減できることがわかった。

We propose a new 'Bi-Reduced Space' approach to solving 3D Variational Data Assimilation using Convolutional Autoencoders. We prove that our approach has the same solution as previous methods but has significantly lower computational complexity; in other words, we reduce the computational cost without affecting the data assimilation accuracy. We tested the new method with data from a real-world application: a pollution model of a site in Elephant and Castle, London and found that we could reduce the size of the background covariance matrix representation by O(10^3) and, at the same time, increase our data assimilation accuracy with respect to existing reduced space methods.
翻訳日:2021-04-11 00:03:34 公開日:2021-01-06
# RANK: エンタープライズネットワークにおける永続的攻撃を検出するAI支援のエンドツーエンドアーキテクチャ

RANK: AI-assisted End-to-End Architecture for Detecting Persistent Attacks in Enterprise Networks ( http://arxiv.org/abs/2101.02573v1 )

ライセンス: Link先を確認
Hazem M. Soliman, Geoff Salmon, Du\v{s}an Sovilj, Mohan Rao(参考訳) Advanced Persistent Threats (APT) は高度な多段階攻撃であり、現代の政府や企業ネットワークをターゲットにした高度な敵によって計画され実行されている。 侵入検知システム(IDS)とユーザ・エンティティ・ビヘイビア・アナリティクス(UEBA)は、APTの検出においてセキュリティアナリストを支援するために一般的に使用される。 APTの長期的性質とUEBAとIDSの微妙な焦点が組み合わさって、アナリストはますます非現実的なアラート数で圧倒される。 このデータの豊富さと、問題の重要さと、関係する熟練した人材の高コストさに加えて、APT検出の問題は人工知能(AI)による自動化のための完璧な候補となる。 本稿では、私たちの知る限り、APT検出のためのエンドツーエンドAI支援アーキテクチャRANKの最初の研究と実装を提供する。 システムの目的は、アナリストを置き換えるのではなく、データソースからアナリストレビューのための最終的なインシデントまで、完全なパイプラインを自動化することだ。 1)警告テンプレートとマージ、2)警告グラフの構築、3)警告グラフをインシデントに分割する、4)インシデントスコアと順序付けである。 我々は2000年のDARPA侵入検知データセットと中規模企業からのリードワールドプライベートデータセットに対してアーキテクチャを評価した。 分析対象のデータの3桁の削減,イシデントの革新的な抽出,抽出したインシデントのセキュリティ面でのスコア付けなど,広範な結果が得られた。

Advanced Persistent Threats (APTs) are sophisticated multi-step attacks, planned and executed by skilled adversaries targeting modern government and enterprise networks. Intrusion Detection Systems (IDSs) and User and Entity Behavior Analytics (UEBA) are commonly employed to aid a security analyst in the detection of APTs. The prolonged nature of APTs, combined with the granular focus of UEBA and IDS, results in overwhelming the analyst with an increasingly impractical number of alerts. Consequent to this abundance of data, and together with the crucial importance of the problem as well as the high cost of the skilled personnel involved, the problem of APT detection becomes a perfect candidate for automation through Artificial Intelligence (AI). In this paper, we provide, up to our knowledge, the first study and implementation of an end-to-end AI-assisted architecture for detecting APTs -- RANK. The goal of the system is not to replace the analyst, rather, it is to automate the complete pipeline from data sources to a final set of incidents for analyst review. The architecture is composed of four consecutive steps: 1) alert templating and merging, 2) alert graph construction, 3) alert graph partitioning into incidents, and 4) incident scoring and ordering. We evaluate our architecture against the 2000 DARPA Intrusion Detection dataset, as well as a read-world private dataset from a medium-scale enterprise. Extensive results are provided showing a three order of magnitude reduction in the amount of data to be reviewed by the analyst, innovative extraction of incidents and security-wise scoring of extracted incidents.
翻訳日:2021-04-11 00:03:22 公開日:2021-01-06
# AI駆動6G mmWaveネットワークにおける高速で信頼性の高い初期アクセスのためのディープラーニング

Deep Learning for Fast and Reliable Initial Access in AI-Driven 6G mmWave Networks ( http://arxiv.org/abs/2101.01847v1 )

ライセンス: Link先を確認
Tarun S. Cousik, Vijay K. Shah, Tugba Erpek, Yalin E. Sagduyu, Jeffrey H. Reed(参考訳) DeepIAはディープニューラルネットワーク(DNN)フレームワークで、5Gおよび6Gミリミリ(mmWave)ネットワークを超えたAI駆動の高速で信頼性の高い初期アクセスを可能にする。 deepiaは、利用可能なビームのサブセットのみを利用することで、従来のサーチベースia法に比べてビームスイープ時間を短縮する。 DeepIAマップは、受信機に最も向いているビームへのビームのサブセットから得られる信号強度(RSS)を受信する。 視線(LoS)と非視線(NLoS)の両方の条件では、DeepIAはIA時間を短縮し、従来のIAのビーム予測精度を上回っている。 以上の結果から,deepiaのビーム予測精度はiaに用いるビーム数に比例し,ビームの特定の選択に依存することがわかった。 LoS条件では、ビームの選択は連続的に行われ、精度を最大70%向上させる。 NLoSの場合、最大で35%精度が向上する。 複数のrssスナップショットを平均することで、必要なビーム数をさらに削減し、losとnlosの両方の条件で95%以上の精度を達成することが分かっています。 最後に,組み込みハードウェア実装によるdeepiaのビーム予測時間を評価し,従来のビームスイーピングよりも改善することを示す。

We present DeepIA, a deep neural network (DNN) framework for enabling fast and reliable initial access for AI-driven beyond 5G and 6G millimeter (mmWave) networks. DeepIA reduces the beam sweep time compared to a conventional exhaustive search-based IA process by utilizing only a subset of the available beams. DeepIA maps received signal strengths (RSSs) obtained from a subset of beams to the beam that is best oriented to the receiver. In both line of sight (LoS) and non-line of sight (NLoS) conditions, DeepIA reduces the IA time and outperforms the conventional IA's beam prediction accuracy. We show that the beam prediction accuracy of DeepIA saturates with the number of beams used for IA and depends on the particular selection of the beams. In LoS conditions, the selection of the beams is consequential and improves the accuracy by up to 70%. In NLoS situations, it improves accuracy by up to 35%. We find that, averaging multiple RSS snapshots further reduces the number of beams needed and achieves more than 95% accuracy in both LoS and NLoS conditions. Finally, we evaluate the beam prediction time of DeepIA through embedded hardware implementation and show the improvement over the conventional beam sweeping.
翻訳日:2021-04-11 00:02:38 公開日:2021-01-06
# バイオセンサーと機械学習による細胞の検出・階層化・分類の高度化

Biosensors and Machine Learning for Enhanced Detection, Stratification, and Classification of Cells: A Review ( http://arxiv.org/abs/2101.01866v1 )

ライセンス: Link先を確認
Hassan Raji, Muhammad Tayyab, Jianye Sui, Seyed Reza Mahmoodi, Mehdi Javanmard(参考訳) 生物学的細胞は定義上、すべての生物が構成される生命の基本分子を含む基本的な単位である。 細胞が互いにどのように機能し、分化するかを理解することは、疾患の診断や治療において最重要となる。 細胞の検出と階層化に焦点を当てたセンサーが人気を博し、テクノロジーの進歩により、各日毎のpos(point-of-care)ソリューションに近づいた様々なコンポーネントの小型化を可能にした。 さらに、機械学習は、これらの様々なバイオセンシングモダリティの分析能力、特に、物理駆動ではなくデータ駆動アプローチを用いて、細胞を様々なカテゴリに分類する難しいタスクの強化を可能にしている。 本稿では,細胞を検知・分類するセンサに対して機械学習が明示的に適用されてきたことを説明する。 また,異なるセンシングモードとアルゴリズムが分類器の精度と必要なデータセットサイズにどのように影響するかを比較した。

Biological cells, by definition, are the basic units which contain the fundamental molecules of life of which all living things are composed. Understanding how they function and differentiating cells from one another therefore is of paramount importance for disease diagnostics as well as therapeutics. Sensors focusing on the detection and stratification of cells have gained popularity as technological advancements have allowed for the miniaturization of various components inching us closer to Point-of-Care (POC) solutions with each passing day. Furthermore, Machine Learning has allowed for enhancement in analytical capabilities of these various biosensing modalities, especially the challenging task of classification of cells into various categories using a data-driven approach rather than physics-driven. In this review, we provide an account of how Machine Learning has been applied explicitly to sensors that detect and classify cells. We also provide a comparison of how different sensing modalities and algorithms affect the classifier accuracy and the dataset size required.
翻訳日:2021-04-11 00:02:18 公開日:2021-01-06
# 燃焼系の不安定検出のための3次元畳み込み選択型オートエンコーダ

3D Convolutional Selective Autoencoder For Instability Detection in Combustion Systems ( http://arxiv.org/abs/2101.01877v1 )

ライセンス: Link先を確認
Tryambak Gangopadhyay, Vikram Ramanan, Adedotun Akintayo, Paige K Boor, Soumalya Sarkar, Satyanarayanan R Chakravarthy, Soumik Sarkar(参考訳) 物理系における臨界(位相)遷移の解析解は単純な非線形系には豊富であるが、実寿命力学系ではそのような解析は難解である。 そのような物理システムの重要な例は燃焼における熱音響不安定性であり、宇宙産業やエネルギー産業を駆動するより安全でエネルギー効率の良いガスタービンエンジンを構築するためには、不安定発生の予測や早期検出が難しい技術的課題である。 エンジンの燃焼室で発生する不安定性は数学的に複雑すぎてモデル化できない。 データ駆動方式でこの問題に対処するため,スワール安定化燃焼器(ガスタービンエンジン燃焼器の共振器)から撮影したハイスピードビデオを用いて自励発振の進化を検出する3D畳み込み選択型オートエンコーダ(3D-CSAE)と呼ばれる新しいディープラーニングアーキテクチャを提案する。 3d-csaeは、燃焼不安定に関連する複雑な視覚的および動的特徴を階層的に学習するフィルターで構成されている。 限られた操作条件から得られたビデオのフレーム上で3D-CSAEをトレーニングする。 ビデオ中の動的情報を利用して階層的・大規模不安定構造を特徴付けるのに有効な3D-CSAEハイパーパラメータを選択する。 提案モデルは,不安定な前駆体を検出する際の性能改善を示す。 機械学習による結果は、物理ベースのオフライン測定によって検証される。 高度な能動制御機構は、提案された3D-CSAEのオンライン検出能力を直接利用して、様々な厳しい条件と条件下で作動するエンジンに対する燃焼不安定性の影響を軽減することができる。

While analytical solutions of critical (phase) transitions in physical systems are abundant for simple nonlinear systems, such analysis remains intractable for real-life dynamical systems. A key example of such a physical system is thermoacoustic instability in combustion, where prediction or early detection of an onset of instability is a hard technical challenge, which needs to be addressed to build safer and more energy-efficient gas turbine engines powering aerospace and energy industries. The instabilities arising in combustion chambers of engines are mathematically too complex to model. To address this issue in a data-driven manner instead, we propose a novel deep learning architecture called 3D convolutional selective autoencoder (3D-CSAE) to detect the evolution of self-excited oscillations using spatiotemporal data, i.e., hi-speed videos taken from a swirl-stabilized combustor (laboratory surrogate of gas turbine engine combustor). 3D-CSAE consists of filters to learn, in a hierarchical fashion, the complex visual and dynamic features related to combustion instability. We train the 3D-CSAE on frames of videos obtained from a limited set of operating conditions. We select the 3D-CSAE hyper-parameters that are effective for characterizing hierarchical and multiscale instability structure evolution by utilizing the dynamic information available in the video. The proposed model clearly shows performance improvement in detecting the precursors of instability. The machine learning-driven results are verified with physics-based off-line measures. Advanced active control mechanisms can directly leverage the proposed online detection capability of 3D-CSAE to mitigate the adverse effects of combustion instabilities on the engine operating under various stringent requirements and conditions.
翻訳日:2021-04-11 00:02:03 公開日:2021-01-06
# IPLS : 分散フェデレーション学習のためのフレームワーク

IPLS : A Framework for Decentralized Federated Learning ( http://arxiv.org/abs/2101.01901v1 )

ライセンス: Link先を確認
Christodoulos Pappas, Dimitris Chatzopoulos, Spyros Lalis, Manolis Vavalis(参考訳) リッチで多次元、プライバシに敏感なユーザデータを格納するリソース豊富なモバイルデバイスの普及は、データを共有することなくMLモデルを作成することができる機械学習(ML)パラダイムであるフェデレーションドラーニング(FL)の設計を動機付けている。 しかし、既存のFLフレームワークの大半は集中型エンティティに依存しています。 本稿では,惑星間ファイルシステム(IPFS)を部分的にベースとした,完全に分散化されたフェデレーション学習フレームワークであるIPLSを紹介する。 IPLSを使用して対応するプライベートIPFSネットワークに接続することで、任意のパーティがMLモデルのトレーニングプロセスを開始するか、すでに他のパーティによって開始されているトレーニングプロセスに参加することができる。 IPLSは、参加者数に応じてスケールし、断続接続や動的入場/到着に対して堅牢であり、最小限のリソースを必要とし、トレーニングされたモデルの精度が1000分の1の精度低下を伴う集中FLフレームワークの精度に迅速に収束することを保証する。

The proliferation of resourceful mobile devices that store rich, multidimensional and privacy-sensitive user data motivate the design of federated learning (FL), a machine-learning (ML) paradigm that enables mobile devices to produce an ML model without sharing their data. However, the majority of the existing FL frameworks rely on centralized entities. In this work, we introduce IPLS, a fully decentralized federated learning framework that is partially based on the interplanetary file system (IPFS). By using IPLS and connecting into the corresponding private IPFS network, any party can initiate the training process of an ML model or join an ongoing training process that has already been started by another party. IPLS scales with the number of participants, is robust against intermittent connectivity and dynamic participant departures/arrivals, requires minimal resources, and guarantees that the accuracy of the trained model quickly converges to that of a centralized FL framework with an accuracy drop of less than one per thousand.
翻訳日:2021-04-11 00:01:35 公開日:2021-01-06
# 雑音下における連合学習:収束解析と設計例

Federated Learning over Noisy Channels: Convergence Analysis and Design Examples ( http://arxiv.org/abs/2101.02198v1 )

ライセンス: Link先を確認
Xizixiang Wei and Cong Shen(参考訳) 連邦学習(FL)は、アップリンクとダウンリンクの両方のコミュニケーションに誤りがある場合に有効か? flはどの程度の通信ノイズを処理できるのか,学習性能に与える影響は何か? この作業は、flパイプラインにアップリンクとダウンリンクの両方のノイズチャネルを明示的に組み込むことで、これらの事実上重要な質問に答えることに費やされている。 本報告では, フルクライアントおよび部分クライアントの参加, 直接モデルおよびモデル差分送信, 非独立および同一分散(IID)ローカルデータセットを含む, FLの同時アップリンクおよびダウンリンクノイズ通信チャネル上の新しい収束解析について述べる。 これらの解析は、ノイズチャネル上のflが通信エラーのない理想的な場合と同じ収束挙動を持つのに十分な条件を特徴付ける。 具体的には、FedAvgのO(1/T)収束率を完全通信で維持するためには、直接モデル伝送のためのアップリンクとダウンリンクの信号-雑音比(SNR)を、tが通信ラウンドの指標であるO(t^2)としてスケールするように制御する必要があるが、モデル差動伝送には一定を維持することができる。 確率的勾配降下(sgd)は本質的にノイズの多いプロセスであり、アップリンク/ダウンリンクの通信ノイズは時間的に変化するsgdノイズを支配できなければ許容できる。 実世界のflタスクを用いた広範囲な数値実験により, 電力制御とダイバーシティの組み合わせという2つの広く採用されているコミュニケーション手法を用いて, これらの理論的な知見を実証し, それらの性能の利点を検証した。

Does Federated Learning (FL) work when both uplink and downlink communications have errors? How much communication noise can FL handle and what is its impact to the learning performance? This work is devoted to answering these practically important questions by explicitly incorporating both uplink and downlink noisy channels in the FL pipeline. We present several novel convergence analyses of FL over simultaneous uplink and downlink noisy communication channels, which encompass full and partial clients participation, direct model and model differential transmissions, and non-independent and identically distributed (IID) local datasets. These analyses characterize the sufficient conditions for FL over noisy channels to have the same convergence behavior as the ideal case of no communication error. More specifically, in order to maintain the O(1/T) convergence rate of FedAvg with perfect communications, the uplink and downlink signal-to-noise ratio (SNR) for direct model transmissions should be controlled such that they scale as O(t^2) where t is the index of communication rounds, but can stay constant for model differential transmissions. The key insight of these theoretical results is a "flying under the radar" principle - stochastic gradient descent (SGD) is an inherent noisy process and uplink/downlink communication noises can be tolerated as long as they do not dominate the time-varying SGD noise. We exemplify these theoretical findings with two widely adopted communication techniques - transmit power control and diversity combining - and further validating their performance advantages over the standard methods via extensive numerical experiments using several real-world FL tasks.
翻訳日:2021-04-11 00:01:16 公開日:2021-01-06