このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220105となっている論文です。

PDF登録状況(公開日: 20220105)

TitleAuthorsAbstract論文公表日・翻訳日
# 予測:理論と実践

Forecasting: theory and practice ( http://arxiv.org/abs/2012.03854v4 )

ライセンス: Link先を確認
Fotios Petropoulos, Daniele Apiletti, Vassilios Assimakopoulos, Mohamed Zied Babai, Devon K. Barrow, Souhaib Ben Taieb, Christoph Bergmeir, Ricardo J. Bessa, Jakub Bijak, John E. Boylan, Jethro Browell, Claudio Carnevale, Jennifer L. Castle, Pasquale Cirillo, Michael P. Clements, Clara Cordeiro, Fernando Luiz Cyrino Oliveira, Shari De Baets, Alexander Dokumentov, Joanne Ellison, Piotr Fiszeder, Philip Hans Franses, David T. Frazier, Michael Gilliland, M. Sinan G\"on\"ul, Paul Goodwin, Luigi Grossi, Yael Grushka-Cockayne, Mariangela Guidolin, Massimo Guidolin, Ulrich Gunter, Xiaojia Guo, Renato Guseo, Nigel Harvey, David F. Hendry, Ross Hollyman, Tim Januschowski, Jooyoung Jeon, Victor Richmond R. Jose, Yanfei Kang, Anne B. Koehler, Stephan Kolassa, Nikolaos Kourentzes, Sonia Leva, Feng Li, Konstantia Litsiou, Spyros Makridakis, Gael M. Martin, Andrew B. Martinez, Sheik Meeran, Theodore Modis, Konstantinos Nikolopoulos, Dilek \"Onkal, Alessia Paccagnini, Anastasios Panagiotelis, Ioannis Panapakidis, Jose M. Pav\'ia, Manuela Pedio, Diego J. Pedregal, Pierre Pinson, Patr\'icia Ramos, David E. Rapach, J. James Reade, Bahman Rostami-Tabar, Micha{\l} Rubaszek, Georgios Sermpinis, Han Lin Shang, Evangelos Spiliotis, Aris A. Syntetos, Priyanga Dilini Talagala, Thiyanga S. Talagala, Len Tashman, Dimitrios Thomakos, Thordis Thorarinsdottir, Ezio Todini, Juan Ram\'on Trapero Arenas, Xiaoqian Wang, Robert L. Winkler, Alisa Yusupova, Florian Ziel(参考訳) 予測は常に意思決定と計画の最前線にある。 リスクを最小化し、ユーティリティを最大化しようとする個人や組織にとって、未来を取り巻く不確実性は、エキサイティングかつ困難である。 多くの予測アプリケーションは、現実の課題に取り組むための様々な予測方法を必要としている。 本稿では,その理論と予測の実践を非体系的にレビューする。 我々は、予測を準備、作成、編成、評価するための、幅広い理論、最先端のモデル、方法、原則、およびアプローチの概要を提供する。 次に、このような理論概念が様々な現実の文脈でどのように適用されるかを示す。 このレビューがメソッドやアプリケーションの完全なリストであると主張することはありません。 しかしながら、この百科事典のプレゼンテーションは、過去数十年にわたって行われてきたリッチな仕事への参照を提供し、予測理論と実践の将来に対するいくつかの重要な洞察を提供したいと考えています。 百科事典的な性質から、意図された読書様式は非線形である。 読者がさまざまなトピックをナビゲートできるように、クロスリファレンスを提供しています。 我々は、フリーまたはオープンソースソフトウェア実装と公開データベースの大規模なリストでカバーされる理論的概念とアプリケーションを補完する。

Forecasting has always been at the forefront of decision making and planning. The uncertainty that surrounds the future is both exciting and challenging, with individuals and organisations seeking to minimise risks and maximise utilities. The large number of forecasting applications calls for a diverse set of forecasting methods to tackle real-life challenges. This article provides a non-systematic review of the theory and the practice of forecasting. We provide an overview of a wide range of theoretical, state-of-the-art models, methods, principles, and approaches to prepare, produce, organise, and evaluate forecasts. We then demonstrate how such theoretical concepts are applied in a variety of real-life contexts. We do not claim that this review is an exhaustive list of methods and applications. However, we wish that our encyclopedic presentation will offer a point of reference for the rich work that has been undertaken over the last decades, with some key insights for the future of forecasting theory and practice. Given its encyclopedic nature, the intended mode of reading is non-linear. We offer cross-references to allow the readers to navigate through the various topics. We complement the theoretical concepts and applications covered by large lists of free or open-source software implementations and publicly-available databases.
翻訳日:2023-04-22 02:46:25 公開日:2022-01-05
# エントロピーと可逆性触媒

Entropy and reversible catalysis ( http://arxiv.org/abs/2012.05573v2 )

ライセンス: Link先を確認
Henrik Wilming(参考訳) 非減少エントロピーは、物理的システムの状態が興味あるシステムに作用する可逆的な変換と、遷移において状態が正確に不変でなければならないさらなる「触媒」によって、物理的システムの状態を異なる状態に変換するために必要な条件を提供する。 この主張は、フォン–ノイマンエントロピーが関連するエントロピーである有限次元量子力学の場合と、シャノンエントロピーが関連するエントロピーである有限標本空間上の確率分布によって状態が記述される系の場合の両方で証明される。 この結果は、Boesらによって導入された(近似的な)「触媒エントロピー予想」に対する肯定的な解決を与える。 [PRL 122, 210402 (2019)] これらはフォン・ノイマンエントロピーとシャノンエントロピーの外部ランダム性のない完全な単発特徴を与える。 また、この結果と現象論的熱力学の設定を比較し、量子統計力学におけるギブス状態の定量的単一ショット特性を得る方法を示す。

I show that non-decreasing entropy provides a necessary and sufficient condition to convert the state of a physical system into a different state by a reversible transformation that acts on the system of interest and a further "catalyst" whose state has to remain invariant exactly in the transition. This statement is proven both in the case of finite-dimensional quantum mechanics, where von~Neumann entropy is the relevant entropy, and in the case of systems whose states are described by probability distributions on finite sample spaces, where Shannon entropy is the relevant entropy. The results give an affirmative resolution to the (approximate) "catalytic entropy conjecture" introduced by Boes et al. [PRL 122, 210402 (2019)]. They provide a complete single-shot characterization without external randomness of von Neumann entropy and Shannon entropy. I also compare the results to the setting of phenomenological thermodynamics and show how they can be used to obtain a quantitative single-shot characterization of Gibbs states in quantum statistical mechanics.
翻訳日:2023-04-21 05:54:58 公開日:2022-01-05
# Plug&Play テレコム波長単一光線源を用いた量子鍵分布試験

A Quantum Key Distribution Testbed using a Plug&Play Telecom-wavelength Single-Photon Source ( http://arxiv.org/abs/2105.03473v2 )

ライセンス: Link先を確認
Timm Gao, Lucas Rickert, Felix Urban, Jan Gro{\ss}e, Nicole Srocka, Sven Rodt, Anna Musia{\l}, Kinga \.Zo{\l}nacz, Pawe{\l} Mergo, Kamil Dybka, Wac{\l}aw Urba\'nczyk, Grzegorz S\k{e}k, Sven Burger, Stephan Reitzenstein, and Tobias Heindel(参考訳) 決定論的固体量子光源は将来の通信ネットワークの重要な構成要素と考えられている。 このような源を用いた量子通信の実証実験がいくつか行われているが、そのほとんどは液体ヘリウムインフラや密閉サイクル冷凍技術を含む大規模な装置を必要とした。 本稿では,通信波長で動作する小型ベンチトップ量子ドット単一光子源を用いた最初の量子鍵分布(qkd)について報告する。 このプラグ・アンド・プレイ装置は、Oバンド波長(1321\,$nm)で単一光子パルスを出力し、小型のスターリング冷凍機に組み込まれた直接ファイバ・ピグテールの量子ドットデバイスに基づいている。 スターリングは19インチラックモジュールに収納され、スタンドアローン操作に必要なすべてのアクセサリを含む。 偏極符号化でbb84プロトコルをエミュレートする簡単なqkdテストベッドで実装し、外部ポンプレーザーを用いて、$g^{(2)}(0) = 0.10\pm0.01$ と raw key rate (4.72\pm0.13)\,$khz を実現した。 そこで本研究では,QKDの完全実装において期待される量子ビット誤り率,セキュアな鍵レート,許容可能な損失の両面から,情報源の性能をさらに評価する。 さらに,受信側に適用した2次元時空受入窓の最適設定について検討し,最大23.19\,$dbの許容損失を予測した。 特に,量子ドット単一光子源を用いた概念実証QKD実験との比較を行った。 本研究は,サブポアソニアン量子光源を利用したファイバベースの量子セキュア通信ネットワークの開発において重要な一歩である。

Deterministic solid-state quantum light sources are considered key building blocks for future communication networks. While several proof-of-principle experiments of quantum communication using such sources have been realized, most of them required large setups often involving liquid helium infrastructure or bulky closed-cycle cryotechnology. In this work, we report on the first quantum key distribution (QKD) testbed using a compact benchtop quantum dot single-photon source operating at telecom wavelengths. The plug\&play device emits single-photon pulses at O-band wavelengths ($1321\,$nm) and is based on a directly fiber-pigtailed deterministically-fabricated quantum dot device integrated into a compact Stirling cryocooler. The Stirling is housed in a 19-inch rack module including all accessories required for stand-alone operation. Implemented in a simple QKD testbed emulating the BB84 protocol with polarization coding, we achieve an antibunching of $g^{(2)}(0) = 0.10\pm0.01$ and a raw key rate of up to $(4.72\pm0.13)\,$kHz using an external pump laser. In this setting, we further evaluate the performance of our source in terms of the quantum bit error ratios, secure key rates, and tolerable losses expected in full implementations of QKD also accounting for finite key size effects. Furthermore, we investigate optimal settings for a two-dimensional temporal acceptance window applied on receiver side, resulting in predicted tolerable losses up to $23.19\,$dB. Not least, we compare our results with previous proof-of-concept QKD experiments using quantum dot single-photon sources. Our study represents an important step forward in the development of fiber-based quantum-secured communication networks exploiting sub-Poissonian quantum light sources.
翻訳日:2023-04-01 05:27:59 公開日:2022-01-05
# 協調放射による2光子共鳴のホモダイン検出

Homodyne detection of a two-photon resonance assisted by cooperative emission ( http://arxiv.org/abs/2105.12440v3 )

ライセンス: Link先を確認
Chetan Sriram Madasu, Chang Chi Kwong, David Wilkowski, Kanhaiya Pandey(参考訳) 過渡状態に着目し,光学的深さの大きい$\lambda$-system における自己整合ホモダイン干渉法による原子2光子分光について検討した。 干渉の起源にある2つの光源は、プローブの1光子過渡透過と電磁誘導透過の遅い光である。 プローブレーザを突然オフにすることで(フラッシュ効果)、過渡透過信号を協調性により強化し、2光子周波数デチューニングに対する感度を高める。 プローブレーザを周期的にオン・オフすると、変調周波数が高い場合でも伝送信号の振幅は変化し、大きなままとなる。 この手法は、磁力計やベロコメトリーのようなセンシングや、コヒーレントな人口トラッピングクロックに潜在的に応用できる。

Focusing on the transient regime, we explore atomic two-photon spectroscopy with self-aligned homodyne interferometry in a $\Lambda$-system with large optical depth. The two light sources at the origin of the interference are the single-photon transient transmission of the probe, and the slow light of the electromagnetically induced transparency. By switching off the probe laser abruptly (flash effect), the transient transmission signal is reinforced by cooperativity, showing enhanced sensitivity to the two-photon frequency detuning. If the probe laser is periodically switched on and off, the amplitude of the transmission signal varies and remains large even for high modulation frequency. This technique has potential applications in sensing, such as magnetometry and velocimetry, and in coherent population trapping clocks.
翻訳日:2023-03-29 11:51:35 公開日:2022-01-05
# 雑音量子コンピュータにおける緩和誤差による加速量子モンテカルロ

Accelerated quantum Monte Carlo with mitigated error on noisy quantum computer ( http://arxiv.org/abs/2106.09880v3 )

ライセンス: Link先を確認
Yongdan Yang, Bing-Nan Lu, Ying Li(参考訳) 量子モンテカルロと量子シミュレーションはどちらも量子多体系を理解する上で重要なツールである。 古典的なアルゴリズムとして、量子モンテカルロは符号問題に苦しんでおり、ほとんどのフェルミオン系やリアルタイムダイナミクスへの応用を妨げている。 本稿では,量子シミュレーションをサブルーチンとして用い,符号問題を緩和して量子モンテカルロを加速する新しい非変分アルゴリズムを提案する。 量子サブルーチンは浅い回路で実装することができ、エラー緩和を取り入れることで、回路ノイズが重要な場合でもモンテカルロ分散を数桁小さくすることができる。 そのため,提案した量子アルゴリズムは,短期雑音量子ハードウェアに適用可能である。

Quantum Monte Carlo and quantum simulation are both important tools for understanding quantum many-body systems. As a classical algorithm, quantum Monte Carlo suffers from the sign problem, preventing its application to most fermion systems and real time dynamics. In this paper, we introduce a novel non-variational algorithm using quantum simulation as a subroutine to accelerate quantum Monte Carlo by easing the sign problem. The quantum subroutine can be implemented with shallow circuits and, by incorporating error mitigation, can reduce the Monte Carlo variance by several orders of magnitude even when the circuit noise is significant. As such, the proposed quantum algorithm is applicable to near-term noisy quantum hardware.
翻訳日:2023-03-26 08:32:29 公開日:2022-01-05
# 熱状態の最小誤差識別

Minimum-error discrimination of thermal states ( http://arxiv.org/abs/2107.13451v2 )

ライセンス: Link先を確認
Seyed Arash Ghoreishi and Mario Ziman(参考訳) 熱状態の最小誤差判別に関する諸問題について検討する。 誤差の確率に最適な値を提供するだけでなく、最適な測定値も特徴付ける。 固定ハミルトニアンの場合、一般微分問題に対して最適測定はハミルトニアンのエネルギー基底における測定であることを示す。 臨界温度を同定し、与えられた温度が非常に高温または極低温の熱状態と最もよく区別できるかどうかを決定する。 さらに,熱状態が温度のしきい値以下であるか否かの判定問題についても検討した。 また、この場合、最小誤差測定はエネルギーベースでの測定である。 これはもはや、識別される熱状態が異なるハミルトニアンを持つようになると、そうではない。 温度が固定されているが、ハミルトニアンが異なる特定の状況を分析する。 検討した場合, 最適測定は一定温度と相互作用の強さとは無関係であることを示す。

We study several variations of the question of minimum-error discrimination of thermal states. Besides of providing the optimal values for the probability of error, we also characterize the optimal measurements. For the case of a fixed Hamiltonian, we show that for a general discrimination problem the optimal measurement is the measurement in the energy basis of the Hamiltonian. We identify a critical temperature, determining whether the given temperature is best distinguishable from thermal state of very high or very low temperatures. Further, we investigate the decision problem of whether the thermal state is above or below some threshold value of the temperature. Also, in this case, the minimum-error measurement is the measurement in the energy basis. This is no longer the case once the thermal states to be discriminated have different Hamiltonians. We analyze a specific situation when the temperature is fixed but the Hamiltonians are different. For the considered case, we show the optimal measurement is independent of the fixed temperature and also of the strength of the interaction.
翻訳日:2023-03-20 17:02:13 公開日:2022-01-05
# 量子力学のための量子アルゴリズム:スピン-ボソンモデルの性能研究

Quantum algorithms for quantum dynamics: A performance study on the spin-boson model ( http://arxiv.org/abs/2108.04258v2 )

ライセンス: Link先を確認
Alexander Miessen, Pauline J. Ollitrault, Ivano Tavernelli(参考訳) 量子力学シミュレーションのための量子アルゴリズムは、伝統的に時間進化作用素のトロッター近似の実装に基づいている。 このアプローチは一般的にディープ回路に依存しており、利用可能なノイズと短期量子ハードウェアのかなりの制限によって妨げられている。 一方で、変分量子アルゴリズムは必須の代替手段となり、現在のハードウェア上での小規模シミュレーションを可能にしている。 しかし、量子力学のための変分量子アルゴリズムの最近の開発にもかかわらず、その効率と拡張性に関する詳細な評価はまだ発表されていない。 このギャップを埋めるために、McLachlanの原理に基づく変分量子アルゴリズムを適用し、現実的なハードウェアノイズの異なるレベルと異なる物理状態のスピンボソンモデルの力学をシミュレートし、システムサイズの関数としてのアルゴリズムの精度とスケーリング挙動について議論した。 一般の物理的動機づけのある波動関数 ansatz と組み合わせて用いられる変分アプローチの優れた性能を観察し,従来の一階トロッター展開と比較した。 最後に,この結果をもとに,古典的に難解なシステムのシミュレーションのためのスケーリング予測を行う。 量子ゲートコストが明らかに削減されているにもかかわらず、現在の実装における変分法は時間依存問題の解に量子的優位性をもたらすことはありそうにない。

Quantum algorithms for quantum dynamics simulations are traditionally based on implementing a Trotter-approximation of the time-evolution operator. This approach typically relies on deep circuits and is therefore hampered by the substantial limitations of available noisy and near-term quantum hardware. On the other hand, variational quantum algorithms have become an indispensable alternative, enabling small-scale simulations on present-day hardware. However, despite the recent development of variational quantum algorithms for quantum dynamics, a detailed assessment of their efficiency and scalability is yet to be presented. To fill this gap, we applied a variational quantum algorithm based on McLachlan's principle to simulate the dynamics of a spin-boson model subject to varying levels of realistic hardware noise as well as in different physical regimes, and discuss the algorithm's accuracy and scaling behavior as a function of system size. We observe a good performance of the variational approach used in combination with a general, physically motivated wavefunction ansatz, and compare it to the conventional first-order Trotter-evolution. Finally, based on this, we make scaling predictions for the simulation of a classically intractable system. We show that, despite providing a clear reduction of quantum gate cost, the variational method in its current implementation is unlikely to lead to a quantum advantage for the solution of time-dependent problems.
翻訳日:2023-03-18 23:29:52 公開日:2022-01-05
# 移動エミッタを用いた共振器QEDにおける励起可溶性と2周波ラビ振動

Exact solvability and two-frequency Rabi oscillation in cavity-QED setup with moving emitter ( http://arxiv.org/abs/2108.09906v2 )

ライセンス: Link先を確認
Mingzhu Weng and Zhihai Wang(参考訳) 本稿では,高調波ポテンシャルを受ける移動エミッタを用いたキャビティqed構成におけるエネルギースペクトルとコヒーレント動的過程について検討する。 エミッタの振動は、効果的なケラと光力学的相互作用を誘導する。 我々は量子ラビモデルを扱うボリューボフ作用素のアプローチをキャビティ-エミッタ-振動系に一般化し、エネルギースペクトルを正確に取得する。 ボリューボフ作用素のアプローチの助けを借りて、システムのエネルギースペクトルを正確に取得する。 さらに,システムのダイナミクスが2周波rabi振動挙動を示すことを示した。 本稿では,光相互作用によるエミッタキャビティ状態間の量子遷移について説明する。 キャビティモードと移動エミッタの相互作用により、キャビティ-QEDシナリオにおけるよりエキゾチックな効果と潜在的な応用を探索する多目的プラットフォームが提供されることを期待している。

In this paper, we investigate the energy spectrum and coherent dynamical process in a cavity-QED setup with a moving emitter, which is subject to a harmonic potential. We find that the vibration of the emitter will induce the effective Kerr and optomechanical interactions. We generalize the Bogliubov operators approach which dealt with quantum Rabi model, to our cavity-emitter-vibration system and obtain the energy spectrum exactly. With the assistance of Bogliubov operators approach, we obtain the energy spectrum of the system exactly. Furthermore, we show that the dynamics of the system exhibit a two-frequency Rabi oscillation behavior. We explain such behavior by optomechanical interaction induced quantum transition between emitter-cavity dressed states. We hope that the interaction between cavity mode and moving emitter will provide a versatile platform to explore more exotic effects and potential applications in cavity-QED scenario.
翻訳日:2023-03-17 12:25:10 公開日:2022-01-05
# 環上の強結合フェルミオン対:合成ボソンアプローチ

Strongly bound fermion pairs on a ring: a composite-boson approach ( http://arxiv.org/abs/2108.13806v2 )

ライセンス: Link先を確認
E. Cuestas and C. Cormick(参考訳) 2つのフェルミオンからなる粒子は、多くの場合、素粒子として扱われるが、この処理が有効な条件は単純ではない。 いわゆるコボソン形式主義(coboson formalism)は、励起子物理学や超低温原子ダイマーなどに関連する複合性効果に対処する強力な道具である。 この理論の重要な要素は、N対の基底状態に対するアンザッツであり、排他原理と組み合わせた単対基底状態から構築される。 本研究では, ansatz の有効性を期待する条件を満たす一次元システムにおいて,このアンサッツが故障する可能性を示す。 それでも、コボソン理論が正しい基底状態を取り戻す方法を説明する。 したがって,本研究は形式主義の限界と強みを強調し,複合ボソンのより良い処理につながる。

Particles made of two fermions can in many cases be treated as elementary bosons, but the conditions for this treatment to be valid are nontrivial. The so-called "coboson formalism" is a powerful tool to tackle compositeness effects relevant for instance for exciton physics and ultracold atomic dimers. A key element of this theory is an ansatz for the ground state of N pairs, built from the single-pair ground state combined with the exclusion principle. We show that this ansatz can fail in one-dimensional systems which fulfill the conditions expected to make the ansatz valid. Nevertheless, we also explain how coboson theory can recover the correct ground state. Thus, our work highlights limitations and strengths of the formalism and leads to a better treatment of composite bosons.
翻訳日:2023-03-16 22:58:05 公開日:2022-01-05
# 時空の量子重ね合わせはアインシュタインの等価原理に従う

Quantum superposition of spacetimes obeys Einstein's Equivalence Principle ( http://arxiv.org/abs/2109.01405v2 )

ライセンス: Link先を確認
Flaminia Giacomini, \v{C}aslav Brukner(参考訳) 我々は、量子理論の基本原理と一般相対性理論の間には基本的な矛盾があるという見解に挑戦し、特に、巨大な天体の重ね合わせが等価原理違反につながるという事実に挑戦する。 この違反は、そのような重ね合わせが必然的に自発的に崩壊しなければならないことを暗示している(di\'osi-penroseモデルのように)。 我々は、アインシュタインの同値原理が保持する局所的古典的参照フレームを見つけることの不可能さにおけるそのような主張の起源を特定する。 対照的に、同値原理の定式化は、時空の重ね合わせにおいて量子系に関連付けられた参照フレームを保持するように一般化することができると論じる。 この新たな定式化の核は、そのような量子参照フレーム(QRF)に量子微分同相を導入することである。 この手順は、量子論における線形重ね合わせの原理と一般共分散の原理と一般相対性理論の同値原理とを調和させる。 したがって、大質量体を空間的重ね合わせで準備する場合、重力誘起自然状態低下を起こす必要はない。

We challenge the view that there is a basic conflict between the fundamental principles of Quantum Theory and General Relativity, and in particular the fact that a superposition of massive bodies would lead to a violation of the Equivalence Principle. It has been argued that this violation implies that such a superposition must inevitably spontaneously collapse (like in the Di\'osi-Penrose model). We identify the origin of such an assertion in the impossibility of finding a local, classical reference frame in which Einstein's Equivalence Principle would hold. In contrast, we argue that the formulation of the Equivalence Principle can be generalised so that it holds for reference frames that are associated to quantum systems in a superposition of spacetimes. The core of this new formulation is the introduction of a quantum diffeomorphism to such Quantum Reference Frames (QRFs). This procedure reconciles the principle of linear superposition in Quantum Theory with the principle of general covariance and the Equivalence Principle of General Relativity. Hence, it is not necessary to invoke a gravity-induced spontaneous state reduction when a massive body is prepared in a spatial superposition.
翻訳日:2023-03-16 06:38:11 公開日:2022-01-05
# ナイジェリアのテロリズムに関する調査と洞察

An Investigation And Insight Into Terrorism In Nigeria ( http://arxiv.org/abs/2109.11023v2 )

ライセンス: Link先を確認
Aamo Iorliam, Raymond U. Dugeri, Beatrice O. Akumba, Samera Otor, and Yahaya I. Shehu(参考訳) テロリズムは、人類が直面する最も命にかかわる脅威の1つである。 テロ組織の活動は平和を脅かし、進歩を妨害し、いかなる国家の発展も阻止する。 過去数十年間のナイジェリアでのテロ活動は経済成長に悪影響を及ぼし、ナイジェリアにおける外国投資の可能性を大幅に減らした。 本稿では,1970年から2019年にかけてのナイジェリアのテロ活動に対して,統計的および推論的洞察を適用した。 グローバルテロデータベース(GTD)を用いて、テロ攻撃の発生、標的の地域、そしてそのような攻撃の成功率と失敗率に関する洞察が得られる。 本稿では,データベースマイニングによる強力なルール生成を支援するために,GTDから隠れパターンを抽出するために,Aprioriアルゴリズムを用いる。 このテロ活動の理解は、ナイジェリアのテロリズムを抑制するための適切な判断を下す上で、テロリストより一歩先立つために必要な情報を提供する。

Terrorism is one of the most life-challenging threats facing humanity worldwide. The activities of terrorist organizations threaten peace, disrupts progress, and halt the development of any nation. Terrorist activities in Nigeria in the last decades have negatively affected economic growth and have drastically reduced the possibilities of foreign investments in Nigeria. In this paper, statistical and inferential insights are applied to the terrorist activities in Nigeria from 1970 to 2019. Using the Global Terrorism Database (GTD), insights are made on the occurrences of terrorist attacks, the localities of the target, and the successful and unsuccessful rates of such attacks. The Apriori algorithm is also used in this paper to draw hidden patterns from the GTD to aid in generating strong rules through database mining, resulting in relevant insights. This understanding of terrorist activities will provide security agencies with the needed information to be one step ahead of terrorists in making the right decisions targeted at curbing terrorism in Nigeria.
翻訳日:2023-03-14 01:00:42 公開日:2022-01-05
# スパース円相アレイからの電磁渦トポロジー

Electromagnetic Vortex Topologies from Sparse Circular Phased Arrays ( http://arxiv.org/abs/2109.12988v2 )

ライセンス: Link先を確認
Hao Wang, Kaitlyn Szekerczes, and Andrei Afanasev(参考訳) 構造渦波は光学、プラズモニクス、電波技術、音響に多くの応用がある。 本稿では,平面位相配列の離散要素からの波のコヒーレント重ね合わせに基づく渦状態生成法に関する理論的研究について述べる。 ジャコビ・アンガー展開を用いて、出現する渦トポロジーを分析し、与えられた先行的なトポロジー電荷を持つ渦を生成するのに必要な最小要素の制約を導出する。

Structured vortex waves have numerous applications in optics, plasmonics, radio-wave technologies and acoustics. We present a theoretical study of a method for generating vortex states based on coherent superposition of waves from discrete elements of planar phased arrays, given limitations on an element number. Using Jacobi-Anger expansion, we analyze emerging vortex topologies and derive a constraint for the least number of elements needed to generate a vortex with a given leading-order topological charge.
翻訳日:2023-03-13 11:50:47 公開日:2022-01-05
# テンソルトレインを用いた連結励起子とフォノンの鎖に対する時間非依存シュリンガー方程式の解法

Solving the time-independent Schr\"odinger equation for chains of coupled excitons and phonons using tensor trains ( http://arxiv.org/abs/2109.15104v2 )

ライセンス: Link先を確認
Patrick Gel{\ss}, Rupert Klein, Sebastian Matera and Burkhard Schmidt(参考訳) 周期境界条件を伴わない準一次元励起子鎖系に対する時間に依存しないschr\"{o}dinger方程式の解法としてテンソル-トレイン形式を適用する方法を示す。 結合した励起子とフォノンは、Frenkel-Holstein型ハミルトニアンによってモデル化される。 低ランクテンソル-トレイン表現の構築に効率的な分解を用いることで、メモリ消費と計算コストを大幅に削減し、次元の呪いを緩和する。 また,高次量子状態を計算するために,wielandt deflation 法を直接固有問題解の交互線形スキームに組み込む手法を導入する。 励起子とフォノンを結合したシステムに加えて、半解析結果が存在する未結合問題も検討する。 そこで, 等質系の場合, 状態ベクトルのテンソル-トレイン階数は鎖長にわずかに依存し, ストレージ消費を線形に増加させることがわかった。 しかし,本研究で採用する交互線形スキームは,長いチェーンと与えられたランクの収束を達成するためにより多くのイテレーションを必要とするため,メモリ消費よりもチェーン長が若干速くなる。 最後に、結合励起子とフォノンの量子処理に対するテンソル-トレインアプローチにより、相互自己トラップ現象に直接対処できることを実証する。 ダヴィドフ理論の主な結果、すなわちウェーブパケット幅と対応する安定化エネルギーがエクシトン-フォノン結合強度に依存していることを確認することができるが、そのパラメータの一定の範囲に限られる。 今後の研究では、Frenkel-Holstein型ハミルトニアンの制限を超えた計算が可能となる。

We demonstrate how to apply the tensor-train format to solve the time-independent Schr\"{o}dinger equation for quasi one-dimensional excitonic chain systems with and without periodic boundary conditions. The coupled excitons and phonons are modeled by Frenkel-Holstein type Hamiltonians with on-site and nearest-neighbor interactions only. We reduce the memory consumption as well as the computational costs significantly by employing efficient decompositions to construct low rank tensor-train representations, thus mitigating the curse of dimensionality. In order to compute also higher quantum states, we introduce an approach which directly incorporates the Wielandt deflation technique into the alternating linear scheme for the solution of eigenproblems. Besides systems with coupled excitons and phonons, we also investigate uncoupled problems for which (semi-)analytical results exist. There, we find that in case of homogeneous systems the tensor-train ranks of state vectors only marginally depend on the chain length which results in a linear growth of the storage consumption. However, the CPU time increases slightly faster with the chain length than the storage consumption because the alternating linear scheme adopted in our work requires more iterations to achieve convergence for longer chains and a given rank. Finally, we demonstrate that the tensor-train approach to the quantum treatment of coupled excitons and phonons makes it possible to directly tackle the phenomenon of mutual self-trapping. We are able to confirm the main results of the Davydov theory, i.e., the dependence of the wavepacket width and the corresponding stabilization energy on the exciton-phonon coupling strength, though only for a certain range of that parameter. In future work, our approach will allow calculations also beyond the restrictions of the Frenkel-Holstein type Hamiltonians.
翻訳日:2023-03-12 23:11:32 公開日:2022-01-05
# 量子通信インフラアーキテクチャ:理論的背景、ネットワーク構造、技術。 欧州公共インフラの観点からの最近の研究動向

Quantum communications infrastructure architecture: theoretical background, network structure and technologies. A review of recent studies from a European public infrastructure perspective ( http://arxiv.org/abs/2110.06762v2 )

ライセンス: Link先を確認
Adam M. Lewis, Petra F. Scudo(参考訳) eu量子通信基盤(eu qci)の計画を踏まえ,マルチユーザ量子通信ネットワーク構築のための技術の開発の進展について検討した。 量子鍵分散ネットワークは信頼ノード、量子リピータエンタングルメントスワッピングベース、パッシブビームスプリッタに基づくポイント・ツー・マルチポイント、アクティブオプティカル・スワッター、wdm、高次元マルチパート・エンタングルメント、柔軟な再構成可能なマルチパートネットワークに分類される。 衛星と地上の双方の実装が可能であり、EU QCIのための鉱石も計画されている。 現在の技術は、ユースケースをうまく扱うために必要ないくつかの点で不足している。 距離の関数としてのビットレートは、現在、利用可能なデバイスの特性によって制限されており、理論的境界以下である。 非理想的デバイス動作は、サイドチャネル攻撃の抜け穴を開くことができる。 制限範囲はネットワーク幾何を制約する。 これらの問題を克服するために新しい技術が開発されている。 より洗練されたスキームは、絡み合いの生成と分布の継続的な進歩に依存する。 特に有望なのは、光子検出に関連するセキュリティ上の弱点を取り除く測定装置独立プロトコルと、同様の技術を用いて範囲を拡大するツインフィールドプロトコルである。 2人以上のユーザ間の鍵の合意は、ペアワイズ量子鍵交換の後に古典的に達成できるが、直接的量子多成分合意は利点をもたらすかもしれない。 同じことが秘密共有にも当てはまる。 信頼されたノードをなくすための実用的な量子リピータは、近年の光メモリの進歩により実現に近づいている。

Progress in the development of techniques for the construction of multiuser quantum communications networks is reviewed in light of the plans for an EU quantum communications infrastructure (EU QCI). Quantum key distribution networks may be classified as trusted node; quantum repeater-entanglement-swapping based; point-to-multipoint based on passive beam splitters, active optical switchers or WDM; high dimensional-multipartite entanglement and flexible reconfigurable multipartite networks. Both satellite and terrestrial implementations are possible and ore both planned for EU QCI; their relative merits are discussed. Current technology falls short in several respects of what is required to address use cases well. Bit rates as a function of distance are currently limited by the characteristics of available devices and are an order of magnitude or more below the theoretical bounds. Non-ideal device behaviour can open loopholes for side-channel attacks. Limited range constrains network geometry. New techniques are being developed to overcome these problems. The more sophisticated schemes depend on ongoing advances in the generation and distribution of entanglement. Particularly promising are the measurement device independent protocol, which eliminates photon-detector related security weaknesses, and the twin-field protocol, which uses similar techniques to extend range, in principle even beyond previously accepted theoretical bounds. Agreement of keys between more than two users can be accomplished classically after pairwise quantum key exchange but direct quantum multipartite agreement using may offer advantages. The same applies to secret sharing. Practical quantum repeaters, to eliminate the need for trusted nodes, are closer to being realised due to recent progress in optical memories.
翻訳日:2023-03-11 14:44:06 公開日:2022-01-05
# サイバーセキュリティ教育のためのスケーラブルな学習環境

Scalable Learning Environments for Teaching Cybersecurity Hands-on ( http://arxiv.org/abs/2110.10004v2 )

ライセンス: Link先を確認
Jan Vykopal, Pavel \v{C}eleda, Pavel Seda, Valdemar \v{S}v\'abensk\'y, and Daniel Tovar\v{n}\'ak(参考訳) 本論文は,対話型学習環境を用いたサイバーセキュリティハンズオン授業のスケーラブルな授業のための技術革新について述べる。 ハンズオン体験は学習者の実践的スキルを大幅に向上させる。 しかし、ハンズオンクラスの準備と提供は通常はスケールしない。 学生の小さなグループでも、授業環境や実践的な課題の準備にかなりの努力が必要である。 さらなる問題は、大きなクラスを教えること、フィードバックを提供すること、学習の利益を分析することである。 我々は,サイバーセキュリティの授業を大規模に展開する学習環境の設計と利用における研究の取り組みと実践経験を紹介する。 この環境は、実世界のシステムをエミュレートする本格的なオペレーティングシステムとデバイスを備えた仮想ネットワークをサポートする。 (...) 提示環境であるKYPO Cyber Range PlatformとCyber Sandbox Creatorを用いて, 様々な学習者(K-12, 大学生, プロの学習者)を対象に, オンライン, リモートで授業を行った。 学習者は、理論的な概念やツールの実行を可能にする環境の現実的な性質を重んじる。 インストラクターは、ハンズオン活動の準備と展開を行う際の時間効率を評価する。 エンジニアリングとコンピューティングの教育者は、当社がオープンソースライセンスでリリースしたソフトウェアを自由に使用できます。 私たちはまた、他の教育者が私たちの教えのイノベーションを採用し、コミュニティ内で再利用可能なコンポーネントを共有できるように、詳細なドキュメンテーションと模範的なハンズオントレーニングも提供します。

This Innovative Practice full paper describes a technical innovation for scalable teaching of cybersecurity hands-on classes using interactive learning environments. Hands-on experience significantly improves the practical skills of learners. However, the preparation and delivery of hands-on classes usually do not scale. Teaching even small groups of students requires a substantial effort to prepare the class environment and practical assignments. Further issues are associated with teaching large classes, providing feedback, and analyzing learning gains. We present our research effort and practical experience in designing and using learning environments that scale up hands-on cybersecurity classes. The environments support virtual networks with full-fledged operating systems and devices that emulate real-world systems. (...) Using the presented environments KYPO Cyber Range Platform and Cyber Sandbox Creator, we delivered the classes on-site or remotely for various target groups of learners (K-12, university students, and professional learners). The learners value the realistic nature of the environments that enable exercising theoretical concepts and tools. The instructors value time-efficiency when preparing and deploying the hands-on activities. Engineering and computing educators can freely use our software, which we have released under an open-source license. We also provide detailed documentation and exemplary hands-on training to help other educators adopt our teaching innovations and enable sharing of reusable components within the community.
翻訳日:2023-03-11 02:00:22 公開日:2022-01-05
# 絡み合いのない隠された非局所性--地域差別の観点から

Genuine hidden nonlocality without entanglement: from the perspective of local discrimination ( http://arxiv.org/abs/2111.02891v3 )

ライセンス: Link先を確認
Mao-Sheng Li and Zhu-Jun Zheng(参考訳) 絡み合いのない量子非局所性は量子論において素晴らしい現象である。 この種の量子非局所性は、量子状態の局所的識別のタスクに基づいている。 最近、Bandyopadhyay と Halder (Phys. Rev. A 104, L050201 (2021)) がこの問題を研究した: 局所的に区別できる直交状態の集合はあるが、局所的な測定を保存する直交性の下では、それぞれの結果は局所的に区別できない集合となる。 そのような性質を持つ集合は非局所性を隠す。 さらに、そのような現象が局所的不確定性と呼ばれるサブシステムを捨てることによって起こらない場合、真の非局所性と呼ぶ。 そこで彼らは、真の隠れた非局所性を持つ絡み合った状態のいくつかの集合を提示した。 しかし、それらは絡み合わずに真の隠れた非局所性を持つ集合の存在を疑った。 本稿では, 絡み合うことなく, 非局所性が真に活性化できる一連の集合を構築することで, この疑問を解消する。 局所的な次元が合成数であるシステムにとって重要な難題である局所不整合問題に対処する手法を導出する。 Bandyopadhyay と Halder が指摘されているように、真に隠された非ローカリティのセットは、データ隠蔽にいくつかの応用をもたらすだろう。

Quantum nonlocality without entanglement is a fantastic phenomenon in quantum theory. This kind of quantum nonlocality is based on the task of local discrimination of quantum states. Recently, Bandyopadhyay and Halder [Phys. Rev. A 104, L050201 (2021)] studied the problem: is there any set of orthogonal states which can be locally distinguishable, but under some orthogonality preserving local measurement, each outcome will lead to a locally indistinguishable set. We say that the set with such property has hidden nonlocality. Moreover, if such phenomenon can not arise from discarding subsystems which is termed as local irredundancy, we call it genuine hidden nonlocality. There, they presented several sets of entangled states with genuine hidden nonlocality. However, they doubted the existence of a set without entanglement but with genuine hidden nonlocality. In this paper, we eliminate this doubt by constructing a series of sets without entanglement but whose nonlocality can be genuinely activated. We derive a method to tackle with the local irredundancy problem which is a key tricky for the systems whose local dimensions are composite numbers. As Bandyopadhyay and Halder have been pointed out, sets with genuine hidden nonloclity would lead to some applications on the data hiding.
翻訳日:2023-03-09 04:31:45 公開日:2022-01-05
# ウィキペディアの読者ナビゲーション: 合成データが十分であれば

Wikipedia Reader Navigation: When Synthetic Data Is Enough ( http://arxiv.org/abs/2201.00812v2 )

ライセンス: Link先を確認
Akhil Arora, Martin Gerlach, Tiziano Piccardi, Alberto Garc\'ia-Dur\'an, Robert West(参考訳) 毎日何百万人もの人々がwikipediaを読みます。 ハイパーリンクを使って利用可能なトピックの広大なスペースをナビゲートする際、読者は記事ネットワーク上で軌跡を説明する。 これらのナビゲーションパターンを理解することは、読者のニーズに応え、構造的バイアスと知識ギャップに対処するために重要である。 しかし、ウィキペディア上のナビゲーションの体系的研究は、潜在的に機密性の高いデータを保存したり共有したりしないことによって、読者のプライバシーを保護するというコミットメントのために、公開データの欠如によって妨げられている。 この論文では、ウィキペディアの読者のナビゲーションは、公開リソース、特にウィキペディアのクリックストリームデータを使って、どの程度うまく近似できるだろうか? リンクストリームデータから生成された合成シーケンスと実際のナビゲーションシークエンスの違いを体系的に定量化し、8つのwikipedia言語バージョンで6つの分析を行った。 全体として、実数列と合成列の違いは統計的に有意であるが、効果の大きさは小さく、しばしば10%以下である。 これはwikipediaのクリックストリームデータをパブリックリソースとしての有用性を示す定量的な証拠である:clickstreamデータはwikipediaのリーダーナビゲーションを密接に捉えることができ、リーダーデータに依存するほとんどの実用的な下流アプリケーションに対して十分な近似を提供する。 より広範に、この研究は、クリックストリームのようなデータが、ユーザーのプライバシーを保護しながら、オンラインプラットフォーム上でのユーザーナビゲーションを一般的に研究できる例を提供する。

Every day millions of people read Wikipedia. When navigating the vast space of available topics using hyperlinks, readers describe trajectories on the article network. Understanding these navigation patterns is crucial to better serve readers' needs and address structural biases and knowledge gaps. However, systematic studies of navigation on Wikipedia are hindered by a lack of publicly available data due to the commitment to protect readers' privacy by not storing or sharing potentially sensitive data. In this paper, we ask: How well can Wikipedia readers' navigation be approximated by using publicly available resources, most notably the Wikipedia clickstream data? We systematically quantify the differences between real navigation sequences and synthetic sequences generated from the clickstream data, in 6 analyses across 8 Wikipedia language versions. Overall, we find that the differences between real and synthetic sequences are statistically significant, but with small effect sizes, often well below 10%. This constitutes quantitative evidence for the utility of the Wikipedia clickstream data as a public resource: clickstream data can closely capture reader navigation on Wikipedia and provides a sufficient approximation for most practical downstream applications relying on reader data. More broadly, this study provides an example for how clickstream-like data can generally enable research on user navigation on online platforms while protecting users' privacy.
翻訳日:2023-03-02 09:37:10 公開日:2022-01-05
# 好適配向の頂点結合を持つ磁性リング鎖

Magnetic ring chains with vertex coupling of a preferred orientation ( http://arxiv.org/abs/2201.01502v1 )

ライセンス: Link先を確認
Marzieh Baradaran, Pavel Exner, Jiri Lipovsky(参考訳) 我々は、頂点結合が時間反転に関して明らかに非不変であり、グラフ平面に垂直な均質磁場が存在すると仮定して、連結リンクを介してタイトまたは緩く結合されたリングの配列からなる周期量子グラフのスペクトル特性について論じる。 頂点パリティは高エネルギーでのスペクトル挙動を決定づけ、バンド・ベルコライコ普遍性はエッジが不測であるたびに保持される。 磁場は、エネルギーがタイトチェインの場合のスペクトルに属する確率に影響し、いくつかのスペクトルバンドを無限に退化した固有値に変換することができる。

We discuss spectral properties of an periodic quantum graph consisting of an array of rings coupled either tightly or loosely through connecting links, assuming that the vertex coupling is manifestly non-invariant with respect to the time reversal and a homogeneous magnetic field perpendicular to the graph plane is present. It is shown that the vertex parity determines the spectral behavior at high energies and the Band-Berkolaiko universality holds whenever the edges are incommensurate. The magnetic field influences the probability that an energy belongs to the spectrum in the tight-chain case, and also it can turn some spectral bands into infinitely degenerate eigenvalues.
翻訳日:2023-03-02 05:51:27 公開日:2022-01-05
# 雑音-ロバスト二元メmristive crossbarの勾配に基づくビット符号化最適化

Gradient-based Bit Encoding Optimization for Noise-Robust Binary Memristive Crossbar ( http://arxiv.org/abs/2201.01479v1 )

ライセンス: Link先を確認
Youngeun Kim, Hyunsoo Kim, Seijoon Kim, Sang Joon Kim, Priyadarshini Panda(参考訳) binary memristive crossbarsは、エネルギー効率のよいディープラーニングハードウェアアクセラレータとして大きな注目を集めている。 にもかかわらず、彼らはクロスバーの類似性のために様々なノイズに悩まされている。 このような制限を克服するため、従来のほとんどの作業はクロスバーから得られたノイズデータを用いて重量パラメータを訓練する。 しかし、各クロスバーがデバイス/回路レベルのばらつきが大きい大量製造環境ではノイズデータ収集が難しいため、これらの手法は有効ではない。 さらに,これらの手法は精度を幾分向上させるが,まだ改善の余地があることを論じる。 本稿では,ノイズデータに対するネットワークの重み付けを訓練するのではなく,入力バイナリビット符号化を演算することで,クロスバーノイズの緩和に関する新たな視点をより一般化した方法で検討する。 まず,同じ情報量を表す場合,二進ビット符号化パルスの数が増加するにつれて雑音が減少することを示す。 さらに,各層がノイズ感度のレベルが異なることの詳細な分析に基づいて,各層で異なる数のパルスを最適化するグラディエントベースビット符号化最適化(GBO)を提案する。 提案手法は,計算コストの低い高雑音ロバスト性を実現する。 評価実験の結果,GBOの分類精度は,重騒音のケースでは5~40%向上した。

Binary memristive crossbars have gained huge attention as an energy-efficient deep learning hardware accelerator. Nonetheless, they suffer from various noises due to the analog nature of the crossbars. To overcome such limitations, most previous works train weight parameters with noise data obtained from a crossbar. These methods are, however, ineffective because it is difficult to collect noise data in large-volume manufacturing environment where each crossbar has a large device/circuit level variation. Moreover, we argue that there is still room for improvement even though these methods somewhat improve accuracy. This paper explores a new perspective on mitigating crossbar noise in a more generalized way by manipulating input binary bit encoding rather than training the weight of networks with respect to noise data. We first mathematically show that the noise decreases as the number of binary bit encoding pulses increases when representing the same amount of information. In addition, we propose Gradient-based Bit Encoding Optimization (GBO) which optimizes a different number of pulses at each layer, based on our in-depth analysis that each layer has a different level of noise sensitivity. The proposed heterogeneous layer-wise bit encoding scheme achieves high noise robustness with low computational cost. Our experimental results on public benchmark datasets show that GBO improves the classification accuracy by ~5-40% in severe noise scenarios.
翻訳日:2023-03-02 05:51:15 公開日:2022-01-05
# 生成と進化の複雑さと美学

Complexity and Aesthetics in Generative and Evolutionary Art ( http://arxiv.org/abs/2201.01470v1 )

ライセンス: Link先を確認
Jon McCormack and Camilo Cruz Gambardella(参考訳) 本稿では,生成的および進化的芸術とデザインに適用する複雑性の概念について考察する。 複雑性には、物理システムにおける複雑性(エントロピー)、情報複雑性のアルゴリズム的尺度、"複合システム"の分野など、多くの異なる規律固有の定義がある。 3つの異なる進化的アートデータセットに様々な複雑さ尺度を適用し、(2つのデータセットの場合)アーティストによる複雑さと個々の美的判断の相関や、生成的3D形式の物理的に測定された複雑さを考察する。 以上の結果から,各集合と測度の相関度が異なっており,全体的な「有益」測度は存在しないことが示された。 しかし、特定の尺度は個々のデータセットで良好に機能し、慎重な選択がそのような尺度を使用する価値を高めることを示唆している。 次に, 複雑度と美観の認知に関する大規模調査を行い, オーディエンスに対する複雑度尺度の価値を評価する。 我々は、生成的および進化的芸術における直接測定の価値を議論し、ヒトの審美的判断が判定対象の可測性を超えた多くの外因的要因によって通知されることを示唆する神経画像および心理学からの最近の知見を補強することで結論付けた。

In this paper we examine the concept of complexity as it applies to generative and evolutionary art and design. Complexity has many different, discipline specific definitions, such as complexity in physical systems (entropy), algorithmic measures of information complexity and the field of "complex systems". We apply a series of different complexity measures to three different evolutionary art datasets and look at the correlations between complexity and individual aesthetic judgement by the artist (in the case of two datasets) or the physically measured complexity of generative 3D forms. Our results show that the degree of correlation is different for each set and measure, indicating that there is no overall "better" measure. However, specific measures do perform well on individual datasets, indicating that careful choice can increase the value of using such measures. We then assess the value of complexity measures for the audience by undertaking a large-scale survey on the perception of complexity and aesthetics. We conclude by discussing the value of direct measures in generative and evolutionary art, reinforcing recent findings from neuroimaging and psychology which suggest human aesthetic judgement is informed by many extrinsic factors beyond the measurable properties of the object being judged.
翻訳日:2023-03-02 05:50:37 公開日:2022-01-05
# 低損失準シングルモードppln導波路の作製とモジュール型広帯域ハイレベルスクイーサーへの応用

Fabrication of low-loss quasi-single-mode PPLN waveguide and its application to a modularized broadband high-level squeezer ( http://arxiv.org/abs/2201.01457v1 )

ライセンス: Link先を確認
Takahiro Kashiwazaki (1), Taichi Yamashima (2), Naoto Takanashi (2), Asuka Inoue (1), Takeshi Umeki (1), and Akira Furusawa (2 and 3) ((1) NTT Device Technology Labs, (2) The University of Tokyo, (3) RIKEN Center for Quantum Computing)(参考訳) 時間領域多重連続可変光クラスター状態上での大規模フォールトトレラント量子コンピューティングには、連続波(CW)ブロードバンド高レベル光二次スリッシャが不可欠である。 cwthzバンド幅絞り光は導波路光パラメトリック増幅器(opa)で得ることができるが、構造摂動とポンプ誘起現象による光学的損失によりスクイーズレベルが低下するため、耐故障量子計算の応用ではスクイーズレベルが不十分である。 そこで, 機械研磨法を用いて, 低損失準シングルモード周期補間linbo3 (ppln) 導波路を作製し, 導波路長45mmの光伝搬損失の7%を示した。 この導波路を用いて, 全挿入損失が21%の低損失光ファイバ型opaモジュールを組み立てた。 litao3基板上に直接結合したコアのおかげで、数百ミリワットのポンプの状態でも、導波路はポンプによる光損失を示さない。 さらに、準シングルモード構造は、高次空間モードの励起を禁止し、より広いスクイーズレベルを得ることができる。 モジュライゼーションの光学結合損失を含む場合においても、フルファイバクロージング光学系において、直流成分から6.0-THzのサイドバンドまで6.3-dBの励起光を観察する。 モジュール化・検出の不完全性による損失を除外することにより、ppln導波路の出力におけるスクイーズレベルを10db以上と推定する。 我々の導波路圧縮器は高速大規模耐故障量子コンピューティングのための有望な量子光源である。

A continuous-wave (CW) broadband high-level optical quadrature squeezer is essential for high-speed large-scale fault-tolerant quantum computing on a time-domain-multiplexed continuous-variable optical cluster state. CW THz-bandwidth squeezed light can be obtained with a waveguide optical parametric amplifier (OPA); however, the squeezing level have been insufficient for applications of fault-tolerant quantum computation because of degradation of the squeezing level due to their optical losses caused by the structural perturbation and pump-induced phenomena. Here, by using mechanical polishing processes, we fabricated a low-loss quasi-single-mode periodically-poled LiNbO3 (PPLN) waveguide, which shows 7% optical propagation loss with a waveguide length of 45 mm. Using the waveguide, we assembled a low-loss fiber-pigtailed OPA module with a total insertion loss of 21%. Thanks to its directly bonded core on a LiTaO3 substrate, the waveguide does not show pump-induced optical loss even under a condition of hundreds of milliwatts pumping. Furthermore, the quasi-single-mode structure prohibits excitation of higher-order spatial modes, and enables us to obtain larger squeezing level. Even with including optical coupling loss of the modularization, we observe 6.3-dB squeezed light from the DC component up to a 6.0-THz sideband in a fully fiber-closed optical system. By excluding the losses due to imperfections of the modularization and detection, the squeezing level at the output of the PPLN waveguide is estimated to be over 10 dB. Our waveguide squeezer is a promising quantum light source for high-speed large-scale fault-tolerant quantum computing.
翻訳日:2023-03-02 05:50:13 公開日:2022-01-05
# 量子カオスと回路パラメータ最適化

Quantum Chaos and Circuit Parameter Optimization ( http://arxiv.org/abs/2201.01452v1 )

ライセンス: Link先を確認
Joonho Kim, Yaron Oz and Dario Rosa(参考訳) ランダムパラメータにおける変動回路状態の量子カオス診断について検討し,その回路表現性と制御パラメータの最適化について検討する。 還元密度行列のモジュラハミルトニアンの演算子拡散係数と固有値スペクトルを測定することにより、高深さ回路状態におけるランダム行列モデルの普遍構造を同定する。 GOE と GUE の分布に対応する異なる層単位を構築し,VQA の性能を定量化する。 我々の研究は、OTOCとBGS型の量子カオス診断の潜在的な緊張も強調している。

We explore quantum chaos diagnostics of variational circuit states at random parameters and study their correlation with the circuit expressibility and the optimization of control parameters. By measuring the operator spreading coefficient and the eigenvalue spectrum of the modular Hamiltonian of the reduced density matrix, we identify the universal structure of random matrix models in high-depth circuit states. We construct different layer unitaries corresponding to the GOE and GUE distributions and quantify their VQA performance. Our study also highlights a potential tension between the OTOC and BGS-type diagnostics of quantum chaos.
翻訳日:2023-03-02 05:49:39 公開日:2022-01-05
# LONViZ: 複雑なネットワークの観点から構成可能なソフトウェアシステムのブラックボックスをアンボックスする

LONViZ: Unboxing the black-box of Configurable Software Systems from a Complex Networks Perspective ( http://arxiv.org/abs/2201.01429v1 )

ライセンス: Link先を確認
Ke Li, Peili Mao, Tao Chen(参考訳) 現代のソフトウェアシステムの多くは、機能的特性と非機能的特性の両方をさまざまな利害関係者に合わせるように、高度に設定できます。 ブラックボックスの性質上、パフォーマンスに関して構成オプションの組み合わせの相互作用、特に基盤となるソフトウェアシステムの制御可能性を進める上で非常に重要であることなど、その動作を解析し理解することは不可能ではないとしても困難である。 本稿では,ブラックボックス構成可能なソフトウェアシステムの探索的解析を容易にするツールとしてlonvizを提案する。 システムの構成空間を体系的にサンプリングすることから始まります。 すると、LONViZは複数のサンプリング結果を合成して構造的に安定なLONを構築する。 最後に、定性的および定量的観点から安定なLON上で探索解析を行うことができる。 実験では、42の異なる実行環境下でベンチマークプラットフォームを開発するために、広く使われている4つの実環境構成可能なソフトウェアシステムを選択した。 実験結果から,LONViZは定性的かつ定量的な分析を可能にし,様々な興味深い隠れパターンやソフトウェアシステムの特性を明らかにする。

Most, if not all, modern software systems are highly configurable to tailor both their functional and non-functional properties to a variety of stakeholders. Due to the black-box nature, it is difficult, if not impossible, to analyze and understand its behavior, such as the interaction between combinations of configuration options with regard to the performance, in particular, which is of great importance to advance the controllability of the underlying software system. This paper proposes a tool, dubbed LONViZ, which is the first of its kind, to facilitate the exploratory analysis of black-box configurable software systems. It starts from a systematic sampling over the configuration space of the underlying system. Then LONViZ seeks to construct a structurally stable LON by synthesizing multiple repeats of sampling results. Finally, exploratory analysis can be conducted on the stable LON from both qualitative and quantitative perspectives. In experiments, we choose four widely used real-world configurable software systems to develop benchmark platforms under 42 different running environments. From our empirical study, we find that LONViZ enables both qualitative and quantitative analysis and disclose various interesting hidden patterns and properties of different software systems.
翻訳日:2023-03-02 05:49:29 公開日:2022-01-05
# 貯留層コンピュータにおけるメモリ最適化

Optimizing Memory in Reservoir Computers ( http://arxiv.org/abs/2201.01605v1 )

ライセンス: Link先を確認
Thomas L. Carroll(参考訳) 貯水池コンピュータは高次元力学系を用いて計算を行う方法である。 貯水池コンピュータを構築する一つの方法は、非線形ノードの集合をネットワークに接続することである。 ネットワークはノード間のフィードバックを生成するため、貯水池コンピュータはメモリを持つ。 もしリザーバコンピュータが、一貫した方法で入力信号に応答する(計算に必要な条件)のであれば、メモリはフェードしなければならず、すなわち初期状態の影響は時間とともに消失する。 このメモリの持続時間は、貯水池コンピュータが特定の問題をどの程度解決できるかを決定する上で重要である。 本稿では,リザーバコンピュータのフェーディングメモリの長さを変化させる方法について述べる。 メモリのチューニングは、いくつかの問題において最適な結果を達成するために重要である。

A reservoir computer is a way of using a high dimensional dynamical system for computation. One way to construct a reservoir computer is by connecting a set of nonlinear nodes into a network. Because the network creates feedback between nodes, the reservoir computer has memory. If the reservoir computer is to respond to an input signal in a consistent way (a necessary condition for computation), the memory must be fading; that is, the influence of the initial conditions fades over time. How long this memory lasts is important for determining how well the reservoir computer can solve a particular problem. In this paper I describe ways to vary the length of the fading memory in reservoir computers. Tuning the memory can be important to achieve optimal results in some problems; too much or too little memory degrades the accuracy of the computation.
翻訳日:2023-03-02 05:43:29 公開日:2022-01-05
# アダプティブ・ラーニングによるサイバーセキュリティトレーニング強化

Reinforcing Cybersecurity Hands-on Training With Adaptive Learning ( http://arxiv.org/abs/2201.01574v1 )

ライセンス: Link先を確認
Pavel Seda, Jan Vykopal, Valdemar \v{S}v\'abensk\'y, Pavel \v{C}eleda(参考訳) 本稿では,学習経験が学習能力と学習動機に与える影響について述べる。 各生徒は異なるが、標準的な指導方法は個人に適応しない。 適応学習はこの実践を逆転させ、生徒の体験を改善しようとする。 適応学習はプログラミングにおいて確立されているが、サイバーセキュリティ教育ではほとんど使われない。 本稿では,セキュリティトレーニングにおける適応学習に関する最初の研究の1つである。 まず,12の研修セッションにおける95名の学生のパフォーマンスを分析し,現在の実習実践の限界を理解する。 半数未満の生徒が解を示さずにトレーニングを完了し、2つのセッションで全生徒がすべてのフェーズを完了した。 そして,過去のトレーニングセッションの1つにおいて,様々な難易度の経路を提供する学生がどのように進行するかをシミュレートした。 本研究では,このシミュレーションに基づいて,学生の習熟度を考慮した適応訓練のための新しい指導モデルを提案する。 習熟度は、予習アンケートおよび各種予習指標を用いて評価する。 最後に,24名の学生を対象に,提案する指導者モデルと適応型訓練形式を用いて新しい学習を行った。 その結果,適応学習は学生を本来の静的トレーニングとして圧倒しないことがわかった。 アダプティブトレーニングにより、学生は元のトレーニングよりも難易度が低いいくつかの代替トレーニングフェーズに入ることができる。 提案されたフォーマットは、特定のトレーニングに限定されない。 したがって、ネットワークやオペレーティングシステムなど、あらゆるセキュリティトピックや関連する分野の実践にも適用することができる。 本研究は,適応学習は,セキュリティ教育における学生体験を改善するための有望なアプローチであることを示す。 また,教育実践の意義についても強調する。

This paper presents how learning experience influences students' capability to learn and their motivation for learning. Although each student is different, standard instruction methods do not adapt to individuals. Adaptive learning reverses this practice and attempts to improve the student experience. While adaptive learning is well-established in programming, it is rarely used in cybersecurity education. This paper is one of the first works investigating adaptive learning in security training. First, we analyze the performance of 95 students in 12 training sessions to understand the limitations of the current training practice. Less than half of the students completed the training without displaying a solution, and only in two sessions, all students completed all phases. Then, we simulate how students would proceed in one of the past training sessions if it would offer more paths of various difficulty. Based on this simulation, we propose a novel tutor model for adaptive training, which considers students' proficiency before and during an ongoing training session. The proficiency is assessed using a pre-training questionnaire and various in-training metrics. Finally, we conduct a study with 24 students and new training using the proposed tutor model and adaptive training format. The results show that the adaptive training does not overwhelm students as the original static training. Adaptive training enables students to enter several alternative training phases with lower difficulty than the original training. The proposed format is not restricted to a particular training. Therefore, it can be applied to practicing any security topic or even in related fields, such as networking or operating systems. Our study indicates that adaptive learning is a promising approach for improving the student experience in security education. We also highlight implications for educational practice.
翻訳日:2023-03-02 05:42:50 公開日:2022-01-05
# 散逸安定化窒素空洞中心に基づく選択的核スピン相互作用

Selective nuclear-spin interaction based on a dissipatively stabilized nitrogen-vacancy center ( http://arxiv.org/abs/2201.01567v1 )

ライセンス: Link先を確認
Jiawen Jiang and Q. Chen(参考訳) 現在の原子核量子ゲートを実現する典型的な方法は、室温でのnvスピンの短いデコヒーレンスと緩和時間のために低温で実装される動的デカップリング技術を用いて、電子核量子ゲートのシーケンスを必要とする。 この制限は、2つの核スピン(Chen, Schwarz, Plenio, 119, 010801 (2017))間の相互作用のメディエーターとしてNVスピンの周期的リセットを使用することで克服できる。 しかし、この方法は強い結合強度条件の下で機能し、ヘテロ核量子ゲート演算には適用できない。 本稿では,高周波(rf)フィールドを用いて異なる核スピン種を制御する手法を開発した。 NV中心の周期的なリセットはNVスピンの脱コヒーレンスと緩和から核スピンを保護する。 rf制御は、ヘテロ核スピン間の高選択的かつ高忠実な量子ゲートを持つ確率を与え、環境条件下で核スピンセンサを用いて核スピンを検出する。

Current typical methods to realize nuclear-nuclear quantum gates require a sequence of electronnuclear quantum gates by using dynamical decoupling techniques, which are implemented at low temperature because of short decoherence and relaxation time of the NV spin at room temperature. This limitation could be overcome by using periodical resets of an NV spin as a mediator of interaction between two nuclear spins [Chen, Schwarz, and Plenio, 119, 010801 (2017)]. However, this method works under stringent coupling strengths condition, which makes it not applicable to heteronuclear quantum gate operations. Here we develop this scheme by using radio-frequency (RF) fields to control different nuclear spin species. Periodical resets of the NV center protect the nuclear spins from decoherence and relaxation of the NV spin. RF control provides probability to have highly selective and high fidelity quantum gates between heteronuclear spins as well as detecting nuclear spins by using a nuclear spin sensor under ambient conditions.
翻訳日:2023-03-02 05:42:03 公開日:2022-01-05
# 1+1)$d量子セルオートマトンにおける非同期性と非平衡相転移

Asynchronism and nonequilibrium phase transitions in $(1+1)$D quantum cellular automata ( http://arxiv.org/abs/2201.01557v1 )

ライセンス: Link先を確認
Edward Gillman, Federico Carollo and Igor Lesanovsky(参考訳) 確率論的セルオートマトンは古典的非平衡過程の探索のための単純な枠組みを提供する。 近年、量子ゲートのシーケンシャル応用による架空の離散時間次元に沿った1次元量子状態の伝播に依存する量子セルオートマトンが提案されている。 その結果得られる(1+1)$-dimensional space-time structureは、フィードフォワード量子ニューラルネットワークの特別なケースを自動生成する。 ここでは、非可換ゲートを通じて導入された非同期性が、量子セルオートマトンの集合的非平衡挙動にどのように影響するかを示す。 これを単純なモデルで説明し、同期バージョンは接触過程を実装し、有向パーコレーション普遍性クラスにおいて非平衡相転移を特徴とする。 非可換な量子ゲートは「非同期遷移(asynchronism transition)」、すなわちある一定の非同期性を超えたときの位相遷移挙動の突然の定性的変化をもたらす。 この結果から, 量子効果が非平衡力学の急激な変化を引き起こす可能性が示唆され, ニューラルネットワークにおける量子相関の役割の理解に寄与する可能性が示唆された。

Probabilistic cellular automata provide a simple framework for the exploration of classical nonequilibrium processes. Recently, quantum cellular automata have been proposed that rely on the propagation of a one-dimensional quantum state along a fictitious discrete time dimension via the sequential application of quantum gates. The resulting $(1+1)$-dimensional space-time structure makes these automata special cases of feed-forward quantum neural networks. Here we show how asynchronism -- introduced via non-commuting gates -- impacts on the collective nonequilibrium behavior of quantum cellular automata. We illustrate this through a simple model, whose synchronous version implements a contact process and features a nonequilibrium phase transition in the directed percolation universality class. Non-commuting quantum gates lead to an "asynchronism transition", i.e. a sudden qualitative change in the phase transition behavior once a certain degree of asynchronicity is surpassed. Our results show how quantum effects may lead to abrupt changes of non-equilibrium dynamics, which may be relevant for understanding the role of quantum correlations in neural networks.
翻訳日:2023-03-02 05:41:33 公開日:2022-01-05
# 量子アニールにおけるコア周辺分割のQUBO定式化試験

Testing a QUBO Formulation of Core-periphery Partitioning on a Quantum Annealer ( http://arxiv.org/abs/2201.01543v1 )

ライセンス: Link先を確認
Catherine F. Higham, Desmond J. Higham, Francesco Tudisco(参考訳) 我々は,無向ネットワークのコア・ペリーピー分割を演算するタスクの成功を定量化する新しいカーネルを提案する。 関連する最適分割を見つけることは、2次非拘束二元最適化(QUBO)問題という形で表現され、そこでは最先端の量子アニールが適用される。 それゆえ私たちは新しい目的関数を利用して a) 量子アニールの性能を判断し、 (b) この手法を既存のヒューリスティックコア周辺分割法と比較する。 市販のD-Waveマシン上で量子アニールを行う。 QUBO問題は、基礎となるネットワークが疎い場合でも、完全な行列を必要とする。 そこで本研究では,量子アニーラーの利用可能な問題次元を増大させる,元のQUBOのスパース化バージョンを開発した。 結果は合成データと実データの両方で提供され、qubo/quantum annealingアプローチは、この新たな関心の量を最適化する点でメリットがあると結論づける。

We propose a new kernel that quantifies success for the task of computing a core-periphery partition for an undirected network. Finding the associated optimal partitioning may be expressed in the form of a quadratic unconstrained binary optimization (QUBO) problem, to which a state-of-the-art quantum annealer may be applied. We therefore make use of the new objective function to (a) judge the performance of a quantum annealer, and (b) compare this approach with existing heuristic core-periphery partitioning methods. The quantum annealing is performed on the commercially available D-Wave machine. The QUBO problem involves a full matrix even when the underlying network is sparse. Hence, we develop and test a sparsified version of the original QUBO which increases the available problem dimension for the quantum annealer. Results are provided on both synthetic and real data sets, and we conclude that the QUBO/quantum annealing approach offers benefits in terms of optimizing this new quantity of interest.
翻訳日:2023-03-02 05:41:01 公開日:2022-01-05
# 量子計測のための量子情報技術

Quantum Information Techniques for Quantum Metrology ( http://arxiv.org/abs/2201.01523v1 )

ライセンス: Link先を確認
Nathan Shettell(参考訳) 量子メートル法(Quantum metrology)は、現在実験的なブレークスルーと理論的な発展の急増を目撃している量子情報の興味深い分野である。 量子力学の主な目標は、未知のパラメータをできるだけ正確に推定することである。 量子資源をプローブとして利用することで、最良の古典戦略では不可能であろう測定精度を達成することができる。 例えば、位相推定のタスクに関して、最大精度(ハイゼンベルク極限)は古典的戦略における2次精度の利得である。 もちろん、量子計測は、現在進歩中の唯一の量子技術ではない。 この論文のテーマは、他の量子技術(グラフ状態、誤り訂正、暗号)で量子力学をどのように拡張できるかを探求することである。

Quantum metrology is an auspicious discipline of quantum information which is currently witnessing a surge of experimental breakthroughs and theoretical developments. The main goal of quantum metrology is to estimate unknown parameters as accurately as possible. By using quantum resources as probes, it is possible to attain a measurement precision that would be otherwise impossible using the best classical strategies. For example, with respect to the task of phase estimation, the maximum precision (the Heisenberg limit) is a quadratic gain in precision with respect to the best classical strategies. Of course, quantum metrology is not the sole quantum technology currently undergoing advances. The theme of this thesis is exploring how quantum metrology can be enhanced with other quantum techniques when appropriate, namely: graph states, error correction and cryptography.
翻訳日:2023-03-02 05:40:45 公開日:2022-01-05
# 水素のカルト演算子分解法

Cartesian operator factorization method for Hydrogen ( http://arxiv.org/abs/2201.01761v1 )

ライセンス: Link先を確認
Xinliang Lyu, Christina Daniel, and James K. Freericks(参考訳) シュレーディンガーの水素分解法は,従来の角度座標と半径座標の分離からカルテシア式分解へと一般化した。 このアプローチに特有ののは、ハミルトニアンが各デカルト方向の座標とモーメントに依存する結合作用素の項で分解の和として表されるという事実である。 我々は, 固有状態とエネルギー, 座標空間と運動量空間の波動関数を決定するとともに, 従来の収束型超幾何方程式法の開発にもこの手法を適用できることを示す。 ここで開発された手法は、結合したシュレーディンガー分解の和として表現できる他のハミルトニアンに応用できる可能性がある。

We generalize Schroedinger's factorization method for Hydrogen from the conventional separation into angular and radial coordinates to a Cartesian-based factorization. Unique to this approach, is the fact that the Hamiltonian is represented as a sum over factorizations in terms of coupled operators that depend on the coordinates and momenta in each Cartesian direction. We determine the eigenstates and energies, the wavefunctions in both coordinate and momentum space, and we also illustrate how this technique can be employed to develop the conventional confluent hypergeometric equation approach. The methodology developed here could potentially be employed for other Hamiltonians that can be represented as the sum over coupled Schroedinger factorizations.
翻訳日:2023-03-02 05:33:53 公開日:2022-01-05
# 量子コンピュータ上の1次元光格子の二量体原子スピンモデルのハミルトニアンをシミュレーションする

Simulating the Hamiltonian of Dimer Atomic Spin Model of One Dimensional Optical Lattice on Quantum Computers ( http://arxiv.org/abs/2201.01753v1 )

ライセンス: Link先を確認
Sudev Pradhan, Amlandeep Nayak, Sritam Kumar Satpathy, Tanmaya Shree Behera, Ankita Misra, Debashis Swain, Bikash K. Behera(参考訳) いくつかの物理概念と結びついた一次元イジングモデルは、いくつかの原理、現象、数値的方法を理解する上で重要な役割を果たす。 磁場の存在下での結合された一次元散逸スピン系のハミルトニアンは、イジングモデルから得られる。 上記のハミルトニアンを、精密ゲート計測による量子回路の設計によりシミュレートし、分散格子系において量子同期をチェックするために、制御されたエネルギー分離を持つ異なるn$状態を介してibmqエクスペリエンスプラットフォームで実行する。 この結果は, 様々な絡み合った状態, 異なるエネルギー分離 (\omega$) と格子内のスピンスピン結合 (\lambda$) の関係, および使用したモデルのいくつかの反復に対する忠実度計算との関係を示す。 また, vqeアルゴリズムを用いて, ising-hamiltonian の基底状態および最初の励起エネルギー状態を推定し, ansatz の層数を変化させる最小エネルギー値について検討した。

The one-dimensional Ising model with its connections to several physical concepts plays a vital role in comprehension of several principles, phenomena and numerical methods. The Hamiltonian of a coupled one-dimensional dissipative spin system in the presence of magnetic field can be obtained from the Ising model. We simulate the above Hamiltonian by designing a quantum circuit with precise gate measurement and execute with the IBMQ experience platform through different $N$ states with controlled energy separation where we can check quantum synchronization in a dissipative lattice system. Our result shows the relation between various entangled states, the relation between the different energy separation ($\omega$) with the spin-spin coupling ($\lambda$) in the lattice, along with fidelity calculations for several iterations of the model used. We also estimate the ground and first excited energy states of Ising-Hamiltonian using VQE algorithm and investigate the lowest energy values varying the number of layers of ansatz.
翻訳日:2023-03-02 05:33:41 公開日:2022-01-05
# 極端スピンスクイーズの生成

Generating Extreme Spin Squeezing ( http://arxiv.org/abs/2201.01744v1 )

ライセンス: Link先を確認
Sebastian C. Carrasco, Michael H. Goerz, Zeyang Li, Simone Colombo, Vladan Vuleti\'c, and Vladimir S. Malinovsky(参考訳) 本稿ではラムゼー干渉計の最適圧縮状態を生成するための新しいスキームを提案する。 このスキームは1軸のツイストパルスと回転の交互列で構成され、どちらも実験的に実装が簡単である。 結果として得られる状態は、ハイゼンベルク限界に比例するメトロロジーゲインを示す。 また,一軸ねじれを実装したパルスの振幅に制約を課す場合や,光子散乱による現実的な損失を考慮した場合においても,ハイゼンベルクスケーリングが維持されることを示す。

We propose a novel scheme for the generation of optimal squeezed states for Ramsey interferometry. The scheme consists of an alternating series of one-axis twisting pulses and rotations, both of which are straightforward to implement experimentally. The resulting states show a metrological gain proportional to the Heisenberg limit. We demonstrate that the Heisenberg scaling is maintained even when placing constraints on the amplitude of the pulses implementing the one-axis twisting and when taking into account realistic losses due to photon scattering.
翻訳日:2023-03-02 05:33:24 公開日:2022-01-05
# 量子熱力学デバイス:理論的提案から実験現実へ

Quantum thermodynamic devices: from theoretical proposals to experimental reality ( http://arxiv.org/abs/2201.01740v1 )

ライセンス: Link先を確認
Nathan M. Myers, Obinna Abah, Sebastian Deffner(参考訳) 熱力学は産業革命によって開発された新しい技術を理解する必要性から生まれた。 しかし、何世紀にもわたって、エンジン、冷蔵庫、熱加速器、ヒーターなどの記述が抽象化され、現実のデバイスに普遍的なステートメントを直接適用することは、まさに真正面にある。 近年の量子熱力学の急速な発展は同様の軌道をとり、例えば「量子エンジン」は理論研究において広く研究されている概念となった。 しかし、新しく発表された自然法則が有用であるならば、理論量子熱力学の抽象文を物理的プラットフォームや実験的に現実的なシナリオの媒体に翻訳できる辞書を書く必要がある。 この取り組みを支援するために,提案および実現された量子熱力学デバイスの概要を提供し,様々な物理的状況の共通点と相違点を明らかにする。

Thermodynamics originated in the need to understand novel technologies developed by the Industrial Revolution. However, over the centuries the description of engines, refrigerators, thermal accelerators, and heaters has become so abstract that a direct application of the universal statements to real-life devices is everything but straight forward. The recent, rapid development of quantum thermodynamics has taken a similar trajectory, and, e.g., "quantum engines" have become a widely studied concept in theoretical research. However, if the newly unveiled laws of nature are to be useful, we need to write the dictionary that allows us to translate abstract statements of theoretical quantum thermodynamics to physical platforms and working mediums of experimentally realistic scenarios. To assist in this endeavor, this review is dedicated to providing an overview over the proposed and realized quantum thermodynamic devices, and to highlight the commonalities and differences of the various physical situations.
翻訳日:2023-03-02 05:33:14 公開日:2022-01-05
# 量子チャネルのパラメータ推定の限界

Limits on Parameter Estimation of Quantum Channels ( http://arxiv.org/abs/2201.01738v1 )

ライセンス: Link先を確認
Vishal Katariya(参考訳) この論文の目的は、量子チャネルのパラメータ推定を研究する理論的枠組みを開発することである。 チャネルにエンコードされた未知パラメータを逐次設定で推定するタスクについて検討する。 シーケンシャル戦略は、チャンネルを複数回使用する最も一般的な方法である。 我々の目標は、推定誤差に基づいて下限(cracker-rao境界と呼ばれる)を確立することである。 私たちが開発する境界は普遍的に適用でき、すなわち全ての許容可能な量子力学に適用できる。 チャネル推定戦略のパワーを高めるために触媒を用いることを検討する。 これを償却という。 パラメータ推定のためのチャネルのパワーはそのフィッシャー情報によって決定される。 そこで本研究では, 触媒量子状態がチャンネルのフィッシャー情報をどのように強化できるかを, 償却されたフィッシャー情報を定義することにより検討する。 我々は, 特定のフィッシャー情報量に対して, 触媒状態は並列化よりも逐次推定プロトコルの性能を向上しないことを示した。 技術的な用語は、償却の崩壊である。 これを使って、1つのパラメータまたは複数のパラメータを同時に推定する際に境界を確立する。 我々の境界は普遍的に適用され、最適化問題にも当てはまる。 単一パラメータの場合、対称対数微分(SLD)フィッシャー情報と右対数微分(RLD)フィッシャー情報の両方を用いて、一般的な量子チャネルのバウンダリを確立する。 複数のパラメータを同時に推定するタスクは、クラー=ラオ境界が行列の不等式の形を取るため、単一のパラメータケースよりも複雑である。 RLD Fisher 情報を用いたマルチパラメータチャネル推定のためのスカラークラマーラオ境界を確立する。 単パラメータ推定と多パラメータ推定の両方に対して、RDDベース境界を用いたいわゆるハイゼンベルクスケーリングのノーゴー条件を提供する。

The aim of this thesis is to develop a theoretical framework to study parameter estimation of quantum channels. We study the task of estimating unknown parameters encoded in a channel in the sequential setting. A sequential strategy is the most general way to use a channel multiple times. Our goal is to establish lower bounds (called Cramer-Rao bounds) on the estimation error. The bounds we develop are universally applicable; i.e., they apply to all permissible quantum dynamics. We consider the use of catalysts to enhance the power of a channel estimation strategy. This is termed amortization. The power of a channel for a parameter estimation is determined by its Fisher information. Thus, we study how much a catalyst quantum state can enhance the Fisher information of a channel by defining the amortized Fisher information. We establish our bounds by proving that for certain Fisher information quantities, catalyst states do not improve the performance of a sequential estimation protocol compared to a parallel one. The technical term for this is an amortization collapse. We use this to establish bounds when estimating one parameter, or multiple parameters simultaneously. Our bounds apply universally and we also cast them as optimization problems. For the single parameter case, we establish bounds for general quantum channels using both the symmetric logarithmic derivative (SLD) Fisher information and the right logarithmic derivative (RLD) Fisher information. The task of estimating multiple parameters simultaneously is more involved than the single parameter case, because the Cramer-Rao bounds take the form of matrix inequalities. We establish a scalar Cramer-Rao bound for multiparameter channel estimation using the RLD Fisher information. For both single and multiparameter estimation, we provide a no-go condition for the so-called Heisenberg scaling using our RLD-based bound.
翻訳日:2023-03-02 05:32:58 公開日:2022-01-05
# 2つの量子アルゴリズムによる音楽制作

Making Music Using Two Quantum Algorithms ( http://arxiv.org/abs/2201.01681v1 )

ライセンス: Link先を確認
Euan J. Allen and Jacob F. F. Bulmer and Simon D. Small(参考訳) この文書は量子コンピューティングアルゴリズムを用いて音楽を作る方法を探る。 本文は未編集のプレパブリケーションの章で、『Quantum Computer Music, Miranda, E. R. (Editor) 』に収録される。 この章は、2021年に、ブリストル大学の量子コンピューティングと技術研究グループであるquantum engineering technology labsと、音楽アーティスト、プロデューサー、オーディオエンジニアのsimon smallとのコラボレーションの背景と詳細を提供している。 共同研究の目的は、大学の研究で使われているデータや概念を「音化」して音を作ったり、音楽を作ったりすることであった。

This document explores how to make music using quantum computing algorithms. The text is an unedited pre-publication chapter which will appear in the book "Quantum Computer Music", Miranda, E. R. (Editor). This chapters provides the background and specific details of a collaboration formed in 2021 between the Quantum Engineering Technology Labs - a quantum computing and technology research group at the University of Bristol - and music artist, producer and audio engineer Simon Small. The goal of the collaboration was to explore how the data and concepts used in the research at the university could be `sonified' to create sounds or even make music.
翻訳日:2023-03-02 05:32:33 公開日:2022-01-05
# 基礎から真実へ - 実践から原則までai倫理を実践する

From the Ground Truth Up: Doing AI Ethics from Practice to Principles ( http://arxiv.org/abs/2201.01659v1 )

ライセンス: Link先を確認
James Brusseau(参考訳) 最近のAI倫理は、抽象原則を実践に下方へ適用することに焦点を当てている。 この論文は反対方向に動く。 倫理的洞察は、具体的な人間の問題に取り組んでいるAI設計者の生きた経験から生まれ、これらの疑問を取り巻く理論的議論に影響を与えるために上向きに循環する。 1)AIは、説明可能性や正確なパフォーマンスを通じて信頼できるものを求めるべきだろうか? 2) aiは信頼に値するものなのか、それとも信頼性が望ましい目的なのか? 3)ai倫理は、ユーザの保護を確立すること、あるいはイノベーションを触媒するべきなのか? 特定の答えは、現在AI倫理が理論原則に対してバランスが取れていないという大きなデモンストレーションよりも重要ではなく、根拠のあるプラクティスやジレンマへの露出の増加による恩恵を受けるだろう。

Recent AI ethics has focused on applying abstract principles downward to practice. This paper moves in the other direction. Ethical insights are generated from the lived experiences of AI-designers working on tangible human problems, and then cycled upward to influence theoretical debates surrounding these questions: 1) Should AI as trustworthy be sought through explainability, or accurate performance? 2) Should AI be considered trustworthy at all, or is reliability a preferable aim? 3) Should AI ethics be oriented toward establishing protections for users, or toward catalyzing innovation? Specific answers are less significant than the larger demonstration that AI ethics is currently unbalanced toward theoretical principles, and will benefit from increased exposure to grounded practices and dilemmas.
翻訳日:2023-03-02 05:32:08 公開日:2022-01-05
# 都市規模の救急搬送における病院戦略のモデル化

Modelling Hospital Strategies in City-Scale Ambulance Dispatching ( http://arxiv.org/abs/2201.01846v1 )

ライセンス: Link先を確認
Xinyu Fu and Valeria Krzhizhanovskaya and Alexey Yakovlev and Sergey Kovalchuk(参考訳) 救急搬送プロセスの最適化は早期治療を必要とする患者にとって重要である。 しかし,目的地病院選択のための動的救急車再配置の問題はほとんど調査されていない。 本稿では,大都市のマルチエージェント医療環境における救急搬送プロセスのモデル化とシミュレーション手法を提案する。 提案手法は,統合ゲーム理論(GT)アプローチを用いて,病院戦略(非協力型ゲーム内での病院をプレイヤーとみなす)を特定し,患者提供の離散イベントシミュレーション(DES)を行い,救急搬送(対象病院の選択)を評価する医療サービスの提供を行う。 このアプローチは、患者のデリバリーに対する意思決定の集団的性質を仮定し、病院の多様な行動がシステムパフォーマンスに与える影響を評価し、このパフォーマンスをさらに最適化する。 このアプローチは、単純化された1Dモデルから始まり、結合された2Dモデルと実世界のアプリケーションで進行する一連のケースを通して研究される。 本研究は,対象病院のacs患者に対して救急搬送を行う際の問題点について検討した。 サンクトペテルブルク(ロシア)の実際のケーススタディは、医療システムのグローバルな特徴(死亡率)の適合性をよりよく示しており、提案されたアプローチはエージェントの多様な振る舞いを発見するために適用されている。

The optimisation in the ambulance dispatching process is significant for patients who need early treatments. However, the problem of dynamic ambulance redeployment for destination hospital selection has rarely been investigated. The paper proposes an approach to model and simulate the ambulance dispatching process in multi-agents healthcare environments of large cities. The proposed approach is based on using the coupled game-theoretic (GT) approach to identify hospital strategies (considering hospitals as players within a non-cooperative game) and performing discrete-event simulation (DES) of patient delivery and provision of healthcare services to evaluate ambulance dispatching (selection of target hospital). Assuming the collective nature of decisions on patient delivery, the approach assesses the influence of the diverse behaviours of hospitals on system performance with possible further optimisation of this performance. The approach is studied through a series of cases starting with a simplified 1D model and proceeding with a coupled 2D model and real-world application. The study considers the problem of dispatching ambulances to patients with the ACS directed to the PCI in the target hospital. A real-world case study of data from Saint Petersburg (Russia) is analysed showing the better conformity of the global characteristics (mortality rate) of the healthcare system with the proposed approach being applied to discovering the agents' diverse behaviour.
翻訳日:2023-03-02 05:25:44 公開日:2022-01-05
# 運動アルゴリズムの量子方程式からの1粒子グリーン関数

One-particle Green's functions from the quantum equation of motion algorithm ( http://arxiv.org/abs/2201.01826v1 )

ライセンス: Link先を確認
Jacopo Rizzo, Francesco Libbi, Francesco Tacchino, Pauline J. Ollitrault, Nicola Marzari, Ivano Tavernelli(参考訳) 多体グリーン関数は相互作用する電子の性質と励起を全てエンコードする。 これらは古典的コンピュータ上で正確に評価することは難しいが、近年の取り組みは、このタスクに量子的優位性をもたらす量子アルゴリズムの発見に向けられ、近い将来利用可能となるアーキテクチャを活用する。 本研究では,1粒子グリーン関数をリーマン表現を用いて計算するための新しい量子アルゴリズムを提案する。 この方法は、系の荷電励起へのアクセスを与える運動アルゴリズムの量子方程式の一般化に基づいている。 本稿では,IBM量子プロセッサ上での2サイトFermi-Hubbardモデルのグリーン関数の計算による提案の有効性を示す。

Many-body Green's functions encode all the properties and excitations of interacting electrons. While these are challenging to be evaluated accurately on a classical computer, recent efforts have been directed towards finding quantum algorithms that may provide a quantum advantage for this task, exploiting architectures that will become available in the near future. In this work we introduce a novel near-term quantum algorithm for computing one-particle Green's functions via their Lehmann representation. The method is based on a generalization of the quantum equation of motion algorithm that gives access to the charged excitations of the system. We demonstrate the validity of the present proposal by computing the Green's function of a two-site Fermi-Hubbard model on a IBM quantum processor.
翻訳日:2023-03-02 05:25:25 公開日:2022-01-05
# 行列積状態のテスト

Testing matrix product states ( http://arxiv.org/abs/2201.01824v1 )

ライセンス: Link先を確認
Mehdi Soleimanifar, John Wright(参考訳) 量子システムにおける絡み合いの量をテストするためのスキームの開発は、量子コンピューティングと情報理論において重要な役割を担っている。 ここでは、未知の状態 $|\psi\rangle$ が特性試験モデルにおける行列積状態(MPS)であるかどうかをテストする。 MPS(英: MPS)は、量子多体系の研究で生じる物理関連量子状態のクラスである。 量子状態 $|\psi_{1,...,n}\rangle$ が$n$ qudits からなるとき、還元密度行列 $\psi_{1,...,k}$ が各$k \in \{1,...,n\}$ に対してランク $r$ を持つとき、結合次元 $r$ の MPS となる。 r=1$のとき、これは積状態の集合に対応する。 r$の大きな値の場合、これはより表現力に富んだ量子状態のクラスとなり、限られた量の絡み合いを持つことができる。 プロパティテストモデルでは、$|\psi\rangle$ の同じコピーが $m$ 与えられ、$|\psi\rangle$ が結合次元 $r$ の mps であるかどうか、$|\psi\rangle$ がそのような全ての状態から遠く離れているかどうかを判定する。 製品状態の場合には、製品テスト(harrow and montanaro (focs 2010) によって以前に分析された単純な2コピーテスト)と、その証明における重要な要素である $\mathsf{qma(2)}=\mathsf{qma}(k)$ for $k \geq 2$ の研究を行う。 我々は,harrow と montanaro (focs 2010) と montanaro と de wolf (2016) の未解決問題に対する回答として,幅広いパラメータの最適境界を達成する製品テストの新しい,よりシンプルな解析を行う。 r\geq 2$の場合、$|\psi\rangle$ が結合次元 mps であるかどうかをテストするための効率的なアルゴリズムを与える。 $m = o(n r^2)$ コピーは qudits の次元とは無関係であり、このタスクには $\omega(n^{1/2})$ コピーが必要である。 この下限は、一定数のコピーが十分であるような積状態の場合とは対照的に、qudits $n$ の数への依存が必要であることを示している。

Devising schemes for testing the amount of entanglement in quantum systems has played a crucial role in quantum computing and information theory. Here, we study the problem of testing whether an unknown state $|\psi\rangle$ is a matrix product state (MPS) in the property testing model. MPS are a class of physically-relevant quantum states which arise in the study of quantum many-body systems. A quantum state $|\psi_{1,...,n}\rangle$ comprised of $n$ qudits is said to be an MPS of bond dimension $r$ if the reduced density matrix $\psi_{1,...,k}$ has rank $r$ for each $k \in \{1,...,n\}$. When $r=1$, this corresponds to the set of product states. For larger values of $r$, this yields a more expressive class of quantum states, which are allowed to possess limited amounts of entanglement. In the property testing model, one is given $m$ identical copies of $|\psi\rangle$, and the goal is to determine whether $|\psi\rangle$ is an MPS of bond dimension $r$ or whether $|\psi\rangle$ is far from all such states. For the case of product states, we study the product test, a simple two-copy test previously analyzed by Harrow and Montanaro (FOCS 2010), and a key ingredient in their proof that $\mathsf{QMA(2)}=\mathsf{QMA}(k)$ for $k \geq 2$. We give a new and simpler analysis of the product test which achieves an optimal bound for a wide range of parameters, answering open problems of Harrow and Montanaro (FOCS 2010) and Montanaro and de Wolf (2016). For the case of $r\geq 2$, we give an efficient algorithm for testing whether $|\psi\rangle$ is an MPS of bond dimension $r$ using $m = O(n r^2)$ copies, independent of the dimensions of the qudits, and we show that $\Omega(n^{1/2})$ copies are necessary for this task. This lower bound shows that a dependence on the number of qudits $n$ is necessary, in sharp contrast to the case of product states where a constant number of copies suffices.
翻訳日:2023-03-02 05:25:14 公開日:2022-01-05
# ダイヤモンドを用いた電子レンジフリーセンシング

Electrical readout microwave-free sensing with diamond ( http://arxiv.org/abs/2201.01801v1 )

ライセンス: Link先を確認
Huijie Zheng, Jaroslav Hruby, Emilie Bourgeois, Josef Soucek, Petr Siyushev, Fedor Jelezko, Arne Wickenbrock, Milos Nesladek, and Dmitry Budker(参考訳) スピンベース量子技術では窒素空孔(NV-)中心が広く研究されているが、スピン状態の読み出しは従来光学的に行われており、小型化やスケーラビリティが制限される可能性がある。 本稿では, ナノスケール電子環境の電子スピン共鳴スペクトルの測定法として, マイクロ波を含まないセンシングにおいて, 基底状態相互相関特性の光電的読み出しについて報告する。 概念実証として,ターゲット電子系との共鳴にnv中心を体系的に調整することにより,ダイヤモンド中のp1電子スピン浴のスペクトルを抽出した。 このような検出は、光学的不活性欠陥の検出と局所スピン環境のダイナミクスを可能にする。 また, 地上レベルアンチクロス(gslac)の光電検出に基づく磁力計を実証し, 感度だけでなく検出効率も良好であることを示した。 このアプローチはスピン密度を決定し、局所環境を特徴づけるための潜在的な解決策を提供する。

While nitrogen-vacancy (NV-) centers have been extensively investigated in the context of spin-based quantum technologies, the spin-state readout is conventionally performed optically, which may limit miniaturization and scalability. Here, we report photoelectric readout of ground-state cross-relaxation features, which serves as a method for measuring electron spin resonance spectra of nanoscale electronic environments and also for microwave-free sensing. As a proof of concept, by systematically tuning NV centers into resonance with the target electronic system, we extracted the spectra for the P1 electronic spin bath in diamond. Such detection may enable probing optically inactive defects and the dynamics of local spin environment. We also demonstrate a magnetometer based on photoelectric detection of the ground-state level anticrossings (GSLAC), which exhibits a favorable detection efficiency as well as magnetic sensitivity. This approach may offer potential solutions for determining spin densities and characterizing local environment.
翻訳日:2023-03-02 05:23:56 公開日:2022-01-05
# 部分的アクセシビリティによる非線形ハイブリッド光学系の探索

Probing of nonlinear hybrid optomechanical systems via partial accessibility ( http://arxiv.org/abs/2201.01784v1 )

ライセンス: Link先を確認
V. Montenegro, M. G. Genoni, A. Bayat, M. G. A. Paris(参考訳) ハイブリッド光学システムは量子技術の実りあるアーキテクチャとして登場しつつある。 したがって、関連する原子-光と光-力学結合を決定することは、そのようなシステムにおいて必須の課題である。 これらの結合の指紋は、非平衡力学の間、システムの大域的な状態に残される。 しかし、実際にはシステム全体で測定を行うことは不可能であり、それゆえ、サブシステム(原子、光、または力学)の1つへの部分的なアクセスに頼る必要がある。 本稿では,結合を探索する最適なサブシステムを決定するための包括的解析を行う。 量子ビット-光結合の範囲によって、光-力学結合が知られているか無関係であれば、最適なサブシステムは光または量子ビットのいずれかである。 他のシナリオ、例えばカップリングの同時推定では、光は通常最適なサブシステムである。 これは光が他の2つのサブシステム間の仲介者であるため説明できる。 最後に, 広く用いられているホモダイン検出は, 光度自由度からカップリングに関する情報のかなりの部分を抽出することができることを示した。

Hybrid optomechanical systems are emerging as a fruitful architecture for quantum technologies. Hence, determining the relevant atom-light and light-mechanics couplings is an essential task in such systems. The fingerprint of these couplings is left in the global state of the system during non-equilibrium dynamics. However, in practice, performing measurements on the entire system is not feasible, and thus, one has to rely on partial access to one of the subsystems, namely the atom, the light, or the mechanics. Here, we perform a comprehensive analysis to determine the optimal subsystem for probing the couplings. We find that if the light-mechanics coupling is known or irrelevant, depending on the range of the qubit-light coupling, then the optimal subsystem can be either light or the qubit. In other scenarios, e.g., simultaneous estimation of the couplings, the light is usually the optimal subsystem. This can be explained as light is the mediator between the other two subsystems. Finally, we show that the widely used homodyne detection can extract a fair fraction of the information about the couplings from the light degrees of freedom.
翻訳日:2023-03-02 05:23:39 公開日:2022-01-05
# プライバシー保護と通信効率のための連合型ディープラーニングフレームワーク

A Federated Deep Learning Framework for Privacy Preservation and Communication Efficiency ( http://arxiv.org/abs/2001.09782v3 )

ライセンス: Link先を確認
Tien-Dung Cao, Tram Truong-Huu, Hien Tran, and Khanh Tran(参考訳) ディープラーニングは多くのアプリケーションで大きな成功を収めています。 しかし、その実際の展開は、モデルトレーニングのために中央に集約しなければならないデータのプライバシと、通常地理的に分散された大量のデータの送信による高い通信オーバーヘッドの2つの問題によってハードルを払っている。 どちらの問題にも対処することは困難であり、既存の作業は効率的なソリューションを提供しられなかった。 本稿では,プライバシ保護と通信効率のためのフェデレート深層学習フレームワークであるFedPCを開発する。 このフレームワークは、モデルが複数のプライベートデータセット上で学習できると同時に、中間データであってもトレーニングデータの情報を明らかにしない。 フレームワークはまた、モデルを更新するために交換されるデータ量を最小限にする。 fedpcとそのプライバシ保護プロパティのトレーニングにおいて,学習モデルの収束を正式に証明する。 我々は,FedPCの性能を評価するために,上行性能(集中訓練時)と通信オーバーヘッドを近似的に評価する広範囲な実験を行った。 その結果、FedPCはデータが10の計算ノードに分散された場合、中央訓練されたモデルの8.5\%の範囲内でモデルのパフォーマンス近似を維持していることがわかった。 FedPCは既存の作業と比べて通信オーバーヘッドを最大42.20 %まで削減している。

Deep learning has achieved great success in many applications. However, its deployment in practice has been hurdled by two issues: the privacy of data that has to be aggregated centrally for model training and high communication overhead due to transmission of a large amount of data usually geographically distributed. Addressing both issues is challenging and most existing works could not provide an efficient solution. In this paper, we develop FedPC, a Federated Deep Learning Framework for Privacy Preservation and Communication Efficiency. The framework allows a model to be learned on multiple private datasets while not revealing any information of training data, even with intermediate data. The framework also minimizes the amount of data exchanged to update the model. We formally prove the convergence of the learning model when training with FedPC and its privacy-preserving property. We perform extensive experiments to evaluate the performance of FedPC in terms of the approximation to the upper-bound performance (when training centrally) and communication overhead. The results show that FedPC maintains the performance approximation of the models within $8.5\%$ of the centrally-trained models when data is distributed to 10 computing nodes. FedPC also reduces the communication overhead by up to $42.20\%$ compared to existing works.
翻訳日:2023-01-07 19:01:44 公開日:2022-01-05
# マルコフ決定過程における制約下での学習

Learning in Markov Decision Processes under Constraints ( http://arxiv.org/abs/2002.12435v5 )

ライセンス: Link先を確認
Rahul Singh, Abhishek Gupta and Ness B. Shroff(参考訳) エージェントが制御されたマルコフプロセスによってモデル化された環境と繰り返し相互作用するマルコフ決定過程における強化学習(rl)を考える。 それぞれのステップ$t$で報酬を受け取り、また$M$のコストでコストベクターを発生させる。 モデルに基づくRLアルゴリズムは, 累積報酬をT$タイムステップで最大化するとともに, M$コスト支出の平均値がエージェント指定閾値$c^{ub}_i,i=1,2,\ldots,M$で有界であることを保証する。 平均的なコスト制約を満たす強化学習アルゴリズムの性能を測定するために、その報酬の後悔と、その報酬の後悔からなる、m+1$次元の後悔ベクトルとを定義する。 報酬の後悔は累積報酬の最適化度を測定し、コストの後悔のベクトルの第1の要素は、その第1の累積コストコストコストと、期待されるコストの支出である$tc^{ub}_i$との違いである。 ucrl-cmdp の後悔ベクトルの期待値が $\tilde{o}\left(t^{2\slash 3}\right)$ で上限値であることを証明する。 私たちはさらに、報酬の後悔と残りのコストの増加を犠牲にして、m$コストの所望のサブセットの後悔を減らす方法を示します。 我々の知る限りでは、我々の仕事は平均的なコスト制約の下で非エポゾディックなRLを考える唯一の仕事であり、そのコストの後悔に対するエージェントの要求に応じて–\emph{tune the regret vector} を導出するアルゴリズムである。

We consider reinforcement learning (RL) in Markov Decision Processes in which an agent repeatedly interacts with an environment that is modeled by a controlled Markov process. At each time step $t$, it earns a reward, and also incurs a cost-vector consisting of $M$ costs. We design model-based RL algorithms that maximize the cumulative reward earned over a time horizon of $T$ time-steps, while simultaneously ensuring that the average values of the $M$ cost expenditures are bounded by agent-specified thresholds $c^{ub}_i,i=1,2,\ldots,M$. In order to measure the performance of a reinforcement learning algorithm that satisfies the average cost constraints, we define an $M+1$ dimensional regret vector that is composed of its reward regret, and $M$ cost regrets. The reward regret measures the sub-optimality in the cumulative reward, while the $i$-th component of the cost regret vector is the difference between its $i$-th cumulative cost expense and the expected cost expenditures $Tc^{ub}_i$. We prove that the expected value of the regret vector of UCRL-CMDP, is upper-bounded as $\tilde{O}\left(T^{2\slash 3}\right)$, where $T$ is the time horizon. We further show how to reduce the regret of a desired subset of the $M$ costs, at the expense of increasing the regrets of rewards and the remaining costs. To the best of our knowledge, ours is the only work that considers non-episodic RL under average cost constraints, and derive algorithms that can~\emph{tune the regret vector} according to the agent's requirements on its cost regrets.
翻訳日:2022-12-28 08:13:54 公開日:2022-01-05
# 自己相関非線形時系列データセットにおける同時・ラタグ因果関係の発見

Discovering contemporaneous and lagged causal relations in autocorrelated nonlinear time series datasets ( http://arxiv.org/abs/2003.03685v2 )

ライセンス: Link先を確認
Jakob Runge(参考訳) 本稿では, 線形, 非線形, 遅れ, 同時因果発見のための条件独立性(ci)に基づく新しい手法を提案する。 PCアルゴリズムのような既存のCIベースの手法や、他のフレームワークからの一般的な手法は、時系列においてユビキタスな課題である強い自己相関のための低いリコールと部分的に膨らんだ偽陽性に悩まされている。 新規手法であるPCMCI$^+$はPCMCI[Runge et al., 2019b]を拡張し、同時リンクの発見を含む。 PCMCI$^+$は、条件セットの選択を最適化することでCIテストの信頼性を向上する。 このメソッドは順序独立であり、oracleの場合一貫性がある。 広い範囲の数値実験により、pcmci$^+$は隣接検出力が高く、特に他の方法よりも同時期の方向記憶力が高く、偽陽性の制御が優れていることが示されている。 最適化条件セットはまた、PCアルゴリズムよりもはるかに短いランタイムをもたらす。 PCMCI$^+$は、時間遅延を解消するには時間解像度が大きすぎることが多く、強い自己相関が存在する多くの実世界のアプリケーションシナリオでかなり有効である。

The paper introduces a novel conditional independence (CI) based method for linear and nonlinear, lagged and contemporaneous causal discovery from observational time series in the causally sufficient case. Existing CI-based methods such as the PC algorithm and also common methods from other frameworks suffer from low recall and partially inflated false positives for strong autocorrelation which is an ubiquitous challenge in time series. The novel method, PCMCI$^+$, extends PCMCI [Runge et al., 2019b] to include discovery of contemporaneous links. PCMCI$^+$ improves the reliability of CI tests by optimizing the choice of conditioning sets and even benefits from autocorrelation. The method is order-independent and consistent in the oracle case. A broad range of numerical experiments demonstrates that PCMCI$^+$ has higher adjacency detection power and especially more contemporaneous orientation recall compared to other methods while better controlling false positives. Optimized conditioning sets also lead to much shorter runtimes than the PC algorithm. PCMCI$^+$ can be of considerable use in many real world application scenarios where often time resolutions are too coarse to resolve time delays and strong autocorrelation is present.
翻訳日:2022-12-25 19:41:50 公開日:2022-01-05
# 画像超解像の反復的ネットワーク

Iterative Network for Image Super-Resolution ( http://arxiv.org/abs/2005.09964v3 )

ライセンス: Link先を確認
Yuqing Liu, Shiqi Wang, Jian Zhang, Shanshe Wang, Siwei Ma and Wen Gao(参考訳) 単一画像超解像(SISR)は、従来の不条件逆問題として、近年の畳み込みニューラルネットワーク(CNN)の発展により、大幅に復活した。 これらのCNNベースの手法は、通常、高解像度の画像を、洗練されたネットワーク構造と損失関数を持つ対応する高解像度バージョンにマッピングし、印象的な性能を示す。 本稿では,従来の sisr アルゴリズムに対する新たな洞察を与え,反復最適化に依拠したアプローチを提案する。 反復最適化の上に,新しい反復型超解像ネットワーク (ISRN) を提案する。 まず,画像sr問題の観測モデルを解析し,各イテレーションをより汎用的かつ効率的な方法で模倣・融合することにより,実現可能な解を導出する。 バッチ正規化の欠点を考慮し、ネットワーク内の特徴を規制する特徴正規化法(F-Norm, FN)を提案する。 さらに、FNを用いた新しいブロックを開発し、FNBと呼ばれるネットワーク表現を改善する。 fnbを長いスキップ接続でグループ化し、よりよい情報配信とトレーニングフェーズの安定化を図る。 バイキュビック (BI) を劣化させたベンチマーク実験の結果,ISRNはより多くの構造情報を復元できるだけでなく,PSNR/SSIMの競合性も向上し,他の研究に比べてパラメータがはるかに少ない結果が得られた。 BIの他に,ボケダウンスケール (BD) とダウンスケールノイズ (DN) による実世界の劣化をシミュレートする。 ISRNとその拡張ISRN+は、BDおよびDN劣化モデルで他のものよりも優れた性能を達成する。

Single image super-resolution (SISR), as a traditional ill-conditioned inverse problem, has been greatly revitalized by the recent development of convolutional neural networks (CNN). These CNN-based methods generally map a low-resolution image to its corresponding high-resolution version with sophisticated network structures and loss functions, showing impressive performances. This paper provides a new insight on conventional SISR algorithm, and proposes a substantially different approach relying on the iterative optimization. A novel iterative super-resolution network (ISRN) is proposed on top of the iterative optimization. We first analyze the observation model of image SR problem, inspiring a feasible solution by mimicking and fusing each iteration in a more general and efficient manner. Considering the drawbacks of batch normalization, we propose a feature normalization (F-Norm, FN) method to regulate the features in network. Furthermore, a novel block with FN is developed to improve the network representation, termed as FNB. Residual-in-residual structure is proposed to form a very deep network, which groups FNBs with a long skip connection for better information delivery and stabling the training phase. Extensive experimental results on testing benchmarks with bicubic (BI) degradation show our ISRN can not only recover more structural information, but also achieve competitive or better PSNR/SSIM results with much fewer parameters compared to other works. Besides BI, we simulate the real-world degradation with blur-downscale (BD) and downscale-noise (DN). ISRN and its extension ISRN+ both achieve better performance than others with BD and DN degradation models.
翻訳日:2022-12-01 06:08:00 公開日:2022-01-05
# 直線追跡のためのGANを用いた最適輸送

Optimal Transport using GANs for Lineage Tracing ( http://arxiv.org/abs/2007.12098v3 )

ライセンス: Link先を確認
Neha Prasad, Karren Yang, Caroline Uhler(参考訳) 本稿では,教師付き学習フレームワークと,gans(generative adversarial networks)に基づく最適なトランスポートを組み合わせた,新しい計算系統追跡手法であるsuper-otを提案する。 以前の系統追跡のアプローチとは異なり、super-otはペアデータを統合する柔軟性がある。 我々は,一細胞rna-seqデータに基づくsuper-otをwaddington-otと比較した。 我々はsuper-otが分化過程における細胞群の結果を予測する際にwaddington-otよりも高い利益を得ることを示した。

In this paper, we present Super-OT, a novel approach to computational lineage tracing that combines a supervised learning framework with optimal transport based on Generative Adversarial Networks (GANs). Unlike previous approaches to lineage tracing, Super-OT has the flexibility to integrate paired data. We benchmark Super-OT based on single-cell RNA-seq data against Waddington-OT, a popular approach for lineage tracing that also employs optimal transport. We show that Super-OT achieves gains over Waddington-OT in predicting the class outcome of cells during differentiation, since it allows the integration of additional information during training.
翻訳日:2022-11-07 11:53:44 公開日:2022-01-05
# 輸送物流における配送時間予測のためのブースティングアルゴリズム

Boosting Algorithms for Delivery Time Prediction in Transportation Logistics ( http://arxiv.org/abs/2009.11598v2 )

ライセンス: Link先を確認
Jihed Khiari and Cristina Olaverri-Monreal(参考訳) 旅行時間は交通にとって重要な手段である。 正確な旅行時間予測は、運用および高度情報システムにも不可欠である。 リアルタイムgpsデータを利用するソリューションや車両の経路を追跡するための最適化方法など、短期的な走行時間予測にはさまざまなソリューションが存在する。 しかし、信頼できる長期予測は依然として困難である。 本稿では,郵便サービスの配送時間予測における旅行時間の適用性と有用性を示す。 本研究では,ランダムフォレスト,袋詰め,ブースティングなど,線形回帰モデルや木ベースのアンサンブルなど,広範囲な実験を行い,多くのユーザビリティシナリオを考慮し,納期を予測する手法について検討した。 その結果,旅行時間の予測は郵便サービスの遅延を軽減できることがわかった。 本研究では,光勾配向上やカボオストなどのブースティングアルゴリズムは,線形回帰モデルやバッジ回帰器,ランダムフォレストなど,他のベースラインよりも精度が高く,実行効率も高いことを示す。

Travel time is a crucial measure in transportation. Accurate travel time prediction is also fundamental for operation and advanced information systems. A variety of solutions exist for short-term travel time predictions such as solutions that utilize real-time GPS data and optimization methods to track the path of a vehicle. However, reliable long-term predictions remain challenging. We show in this paper the applicability and usefulness of travel time i.e. delivery time prediction for postal services. We investigate several methods such as linear regression models and tree based ensembles such as random forest, bagging, and boosting, that allow to predict delivery time by conducting extensive experiments and considering many usability scenarios. Results reveal that travel time prediction can help mitigate high delays in postal services. We show that some boosting algorithms, such as light gradient boosting and catboost, have a higher performance in terms of accuracy and runtime efficiency than other baselines such as linear regression models, bagging regressor and random forest.
翻訳日:2022-10-15 04:15:14 公開日:2022-01-05
# マルチモーダル・マルチタスク学習に基づく文書表現学習のための事前学習フレームワーク

Towards a Multi-modal, Multi-task Learning based Pre-training Framework for Document Representation Learning ( http://arxiv.org/abs/2009.14457v2 )

ライセンス: Link先を確認
Subhojeet Pramanik, Shashank Mujumdar, Hima Patel(参考訳) 文学における最近のアプローチでは、文書(テキスト、レイアウト、画像)のマルチモーダル情報を利用して、特定の下流の文書タスクを提供する。 ただし、それらには制限がある。 (i)文書のテキスト、レイアウト、画像寸法をまたいだクロスモーダル表現を学習できないこと。 (ii)複数ページの文書を処理できないこと。 自然言語処理(NLP)ドメインでは、さまざまな下流のNLPタスクに適用可能な、大きなラベルのないデータセットから汎用的なテキスト表現を学ぶための事前学習技術が示されている。 本稿では,自己指導型および教師型事前学習型タスクを組み合わせたマルチタスク学習型フレームワークを提案し,様々な下流文書タスクに適用可能な汎用文書表現を学習する。 具体的には,新しい事前学習タスクとして文書トピックモデリングと文書シャッフル予測を導入し,文書のテキストやレイアウト表現とともにリッチな画像表現を学習する。 ロングフォーマーネットワークアーキテクチャをバックボーンとして,マルチページ文書からのマルチモーダル情報をエンドツーエンドでエンコードする。 本稿では,文書分類,文書情報抽出,文書検索など,さまざまな実世界の文書タスクに対する事前学習フレームワークの適用性を示す。 我々は,異なる標準文書データセット上でのフレームワークの評価を行い,フレームワークの様々な改善と最先端のベースラインのパフォーマンスを比較するための徹底的な実験を行った。

Recent approaches in literature have exploited the multi-modal information in documents (text, layout, image) to serve specific downstream document tasks. However, they are limited by their - (i) inability to learn cross-modal representations across text, layout and image dimensions for documents and (ii) inability to process multi-page documents. Pre-training techniques have been shown in Natural Language Processing (NLP) domain to learn generic textual representations from large unlabelled datasets, applicable to various downstream NLP tasks. In this paper, we propose a multi-task learning-based framework that utilizes a combination of self-supervised and supervised pre-training tasks to learn a generic document representation applicable to various downstream document tasks. Specifically, we introduce Document Topic Modelling and Document Shuffle Prediction as novel pre-training tasks to learn rich image representations along with the text and layout representations for documents. We utilize the Longformer network architecture as the backbone to encode the multi-modal information from multi-page documents in an end-to-end fashion. We showcase the applicability of our pre-training framework on a variety of different real-world document tasks such as document classification, document information extraction, and document retrieval. We evaluate our framework on different standard document datasets and conduct exhaustive experiments to compare performance against various ablations of our framework and state-of-the-art baselines.
翻訳日:2022-10-12 22:15:51 公開日:2022-01-05
# 画像圧縮のためのグローバル参照を用いた高精度エントロピーモデル学習

Learning Accurate Entropy Model with Global Reference for Image Compression ( http://arxiv.org/abs/2010.08321v3 )

ライセンス: Link先を確認
Yichen Qian, Zhiyu Tan, Xiuyu Sun, Ming Lin, Dongyang Li, Zhenhong Sun, Hao Li, Rong Jin(参考訳) 最近のディープイメージ圧縮ニューラルネットワークでは、エントロピーモデルは、ディープイメージエンコーディングの事前分布の推定に重要な役割を果たしている。 既存の手法では、エントロピー推定関数においてハイパープリオールと局所文脈を組み合わせる。 これは、グローバルなビジョンがないため、パフォーマンスが大幅に制限される。 本研究では,画像圧縮のための新しいグローバル参照モデルを提案し,局所的およびグローバルな文脈情報の両方を効果的に活用し,圧縮率を向上する。 提案手法は, 復号された潜時をスキャンし, 最も関連する潜時を見つけ, 現在の潜時分布推定を支援する。 この研究の副産物は、パフォーマンスをさらに向上する平均シフトGDNモジュールの革新である。 実験結果から,提案手法は産業における最先端手法の速度歪み特性よりも優れていた。

In recent deep image compression neural networks, the entropy model plays a critical role in estimating the prior distribution of deep image encodings. Existing methods combine hyperprior with local context in the entropy estimation function. This greatly limits their performance due to the absence of a global vision. In this work, we propose a novel Global Reference Model for image compression to effectively leverage both the local and the global context information, leading to an enhanced compression rate. The proposed method scans decoded latents and then finds the most relevant latent to assist the distribution estimating of the current latent. A by-product of this work is the innovation of a mean-shifting GDN module that further improves the performance. Experimental results demonstrate that the proposed model outperforms the rate-distortion performance of most of the state-of-the-art methods in the industry.
翻訳日:2022-10-06 21:50:19 公開日:2022-01-05
# 教師なし特徴選択アルゴリズムのアルゴリズム安定性と一般化

Algorithmic Stability and Generalization of an Unsupervised Feature Selection Algorithm ( http://arxiv.org/abs/2010.09416v2 )

ライセンス: Link先を確認
Xinxing Wu and Qiang Cheng(参考訳) 特徴選択は、重要な次元削減手法として、入力特徴の重要なサブセットを特定してデータ次元を減らし、学習と推論プロセスに対する解釈可能な洞察を促進する。 アルゴリズム安定性は、入力サンプルの摂動に対する感度に関するアルゴリズムの重要な特徴である。 本稿では,この安定性を証明可能な保証で達成する,非教師なし特徴選択アルゴリズムを提案する。 アルゴリズムのアーキテクチャは特徴スコアと特徴セレクタから構成される。 スコアラは、すべての特徴をグローバルにスコアするニューラルネットワーク(NN)をトレーニングし、セレクタは依存サブNNを採用して、特徴を選択するための表現能力をローカルに評価する。 さらに,アルゴリズムの安定性解析を行い,一般化誤差バウンドによる性能保証を行うことを示した。 実世界のデータセットに対する大規模な実験結果から,提案アルゴリズムの強力なベースライン法への一般化性能が向上した。 また,理論解析により明らかになった特性とアルゴリズム選択特徴の安定性を実証的に確認した。

Feature selection, as a vital dimension reduction technique, reduces data dimension by identifying an essential subset of input features, which can facilitate interpretable insights into learning and inference processes. Algorithmic stability is a key characteristic of an algorithm regarding its sensitivity to perturbations of input samples. In this paper, we propose an innovative unsupervised feature selection algorithm attaining this stability with provable guarantees. The architecture of our algorithm consists of a feature scorer and a feature selector. The scorer trains a neural network (NN) to globally score all the features, and the selector adopts a dependent sub-NN to locally evaluate the representation abilities for selecting features. Further, we present algorithmic stability analysis and show that our algorithm has a performance guarantee via a generalization error bound. Extensive experimental results on real-world datasets demonstrate superior generalization performance of our proposed algorithm to strong baseline methods. Also, the properties revealed by our theoretical analysis and the stability of our algorithm-selected features are empirically confirmed.
翻訳日:2022-10-05 20:54:52 公開日:2022-01-05
# フィルタ内重み共有によるチャネル間隔の微分検索

Differentiable Channel Sparsity Search via Weight Sharing within Filters ( http://arxiv.org/abs/2010.14714v2 )

ライセンス: Link先を確認
Yu Zhao, Chung-Kuei Lee(参考訳) 本稿では,畳み込みニューラルネットワークのための識別可能なチャネル空間探索(DCSS)を提案する。 畳み込み層ごとにプルーネ比を手動で設定する従来のチャネルプルーニングアルゴリズムとは異なり、DCSSは空間の最適な組み合わせを自動的に検索する。 微分可能なアーキテクチャ探索(DARTS)にインスパイアされ、連続的な緩和から教訓を導き、勾配情報を利用して計算コストとメトリクスのバランスをとる。 DARTSのスキームを直接適用すると形状ミスマッチや過剰なメモリ消費が発生するため、フィルタ内での重み共有と呼ばれる新しい手法を導入する。 この手法は、不要な追加資源との形状ミスマッチの問題をエレガントに排除する。 画像分類だけでなく,意味セグメンテーションや画像スーパーレゾリューションなど,きめ細かなタスクも総合的に実施し,dcsの有効性を検証する。 従来のネットワークプルーニング手法と比較して、dcssは画像分類の最先端の結果を得る。 セマンティクスセグメンテーションと画像の超解像実験の結果,スリムモデルよりもタスク固有探索の性能が向上し,dcsの広い適用性と高い効率性が示された。

In this paper, we propose the differentiable channel sparsity search (DCSS) for convolutional neural networks. Unlike traditional channel pruning algorithms which require users to manually set prune ratios for each convolutional layer, DCSS automatically searches the optimal combination of sparsities. Inspired by the differentiable architecture search (DARTS), we draw lessons from the continuous relaxation and leverage the gradient information to balance the computational cost and metrics. Since directly applying the scheme of DARTS causes shape mismatching and excessive memory consumption, we introduce a novel technique called weight sharing within filters. This technique elegantly eliminates the problem of shape mismatching with negligible additional resources. We conduct comprehensive experiments on not only image classification but also find-grained tasks including semantic segmentation and image super resolution to verify the effectiveness of DCSS. Compared with previous network pruning approaches, DCSS achieves state-of-the-art results for image classification. Experimental results of semantic segmentation and image super resolution indicate that task-specific search achieves better performance than transferring slim models, demonstrating the wide applicability and high efficiency of DCSS.
翻訳日:2022-10-02 05:30:42 公開日:2022-01-05
# 類似度に基づく教師なし深層学習による相関雑音の抑制

Suppression of Correlated Noise with Similarity-based Unsupervised Deep Learning ( http://arxiv.org/abs/2011.03384v6 )

ライセンス: Link先を確認
Chuang Niu, Mengzhou Li, Fenglei Fan, Weiwen Wu, Xiaodong Guo, Qing Lyu, and Ge Wang(参考訳) 画像処理は多くの分野において下流タスクの前提条件である。 低線量および光子計数ctは、最小放射線量での診断性能を最適化することができる。 改良されたディープ・デノナイジング・メソッドは人気があるが、実際には利用できないペアのクリーンなサンプルやノイズの多いサンプルが必要である。 独立雑音の仮定によって制限された現在の教師なし遮音法は、CT画像のように相関ノイズを処理できない。 本稿では,非局所的,非線形的に機能し,独立性だけでなく相関性も抑制するノイズ2シムと呼ばれる,一意の類似性に基づく非教師付きディープデノイング手法を提案する。 理論的には、ノイズ2simは温和な条件下で教師付き学習法と漸近的に等価である。 実験的に、Nosie2Simはノイズの多い低用量CTと光子計数CT画像から本質的な特徴を、実用的なデータセット上の教師あり学習方法と同じくらい効果的に、定量的、統計的に回収する。 noise2simは一般に教師なしの分類アプローチであり、多様なアプリケーションにおいて大きな可能性を秘めている。

Image denoising is a prerequisite for downstream tasks in many fields. Low-dose and photon-counting computed tomography (CT) denoising can optimize diagnostic performance at minimized radiation dose. Supervised deep denoising methods are popular but require paired clean or noisy samples that are often unavailable in practice. Limited by the independent noise assumption, current unsupervised denoising methods cannot process correlated noises as in CT images. Here we propose the first-of-its-kind similarity-based unsupervised deep denoising approach, referred to as Noise2Sim, that works in a nonlocal and nonlinear fashion to suppress not only independent but also correlated noises. Theoretically, Noise2Sim is asymptotically equivalent to supervised learning methods under mild conditions. Experimentally, Nosie2Sim recovers intrinsic features from noisy low-dose CT and photon-counting CT images as effectively as or even better than supervised learning methods on practical datasets visually, quantitatively and statistically. Noise2Sim is a general unsupervised denoising approach and has great potential in diverse applications.
翻訳日:2022-09-29 04:40:21 公開日:2022-01-05
# (参考訳) Auto-ABSA:アスペクトベース感性分析におけるアスペクトの自動検出

Auto-ABSA: Automatic Detection of Aspects in Aspect-Based Sentiment Analysis ( http://arxiv.org/abs/2202.00484v1 )

ライセンス: CC BY 4.0
Teng Wang(参考訳) トランスが提案された後、多くの事前学習言語モデルが作成され、感情分析(SA)タスクが改善された。 本稿では,感情予測を支援するために,文に含まれる側面に関する補助文を用いた手法を提案する。 ひとつはアスペクト検出で、マルチアスペクト検出モデルを使用して文が持つすべてのアスペクトを予測する。 予測された側面と原文を感情分析モデル(sa)の入力として組み合わせる。 2つ目は、ドメイン外アスペクトベースの感情分析(ABSA)、ある種類のデータセットで感情分類モデルをトレーニングし、別の種類のデータセットでそれを検証することだ。 最後に、感情分類モデルの入力としてアスペクトを使用しない2つのベースラインを作成しました。 2つのベースラインのパフォーマンスを我々のメソッドと比較すると、この方法が本当に理にかなっていることが分かりました。

After transformer is proposed, lots of pre-trained language models have been come up with and sentiment analysis (SA) task has been improved. In this paper, we proposed a method that uses an auxiliary sentence about aspects that the sentence contains to help sentiment prediction. The first is aspect detection, which uses a multi-aspects detection model to predict all aspects that the sentence has. Combining the predicted aspects and the original sentence as Sentiment Analysis (SA) model's input. The second is to do out-of-domain aspect-based sentiment analysis(ABSA), train sentiment classification model with one kind of dataset and validate it with another kind of dataset. Finally, we created two baselines, they use no aspect and all aspects as sentiment classification model's input, respectively. Compare two baselines performance to our method, found that our method really makes sense.
翻訳日:2022-02-06 13:11:10 公開日:2022-01-05
# (参考訳) RabindraNet - Rabindranath Tagoreのスタイルによる文学作品の作成

RabindraNet, Creating Literary Works in the Style of Rabindranath Tagore ( http://arxiv.org/abs/2202.00481v1 )

ライセンス: CC BY 4.0
Asadullah Al Galib(参考訳) ベンガル文学は数百年の歴史があり、ラビンドラナト・タゴールやカジ・ナズル・イスラムのような輝かしい人物がいる。 しかし、NLPの最新の進歩を含む分析研究は、言語作者の収集した膨大な量の著作物を利用して表面をほとんど傷つけていない。 ベンガルの作家の著作を扱った分析研究や、既存の文学スタイルにおけるテキスト生成の先駆者となるために、ラビンドラネット(rabindranet)を紹介し、ラビンドラナト・タゴール(rabindranath tagore)の著作に基づいて訓練されたスタック化されたlstm層を持つ文字レベルのrnnモデルを紹介し、多ジャンルの文学作品を生み出している。 私たちはまた、信頼できるオンラインソースからRabindranath Tagoreのデジタル化された作品をコンパイルして、広範なデータセットを作成しました。

Bengali literature has a rich history of hundreds of years with luminary figures such as Rabindranath Tagore and Kazi Nazrul Islam. However, analytical works involving the most recent advancements in NLP have barely scratched the surface utilizing the enormous volume of the collected works from the writers of the language. In order to bring attention to the analytical study involving the works of Bengali writers and spearhead the text generation endeavours in the style of existing literature, we are introducing RabindraNet, a character level RNN model with stacked-LSTM layers trained on the works of Rabindranath Tagore to produce literary works in his style for multiple genres. We created an extensive dataset as well by compiling the digitized works of Rabindranath Tagore from authentic online sources and published as open source dataset on data science platform Kaggle.
翻訳日:2022-02-06 13:03:11 公開日:2022-01-05
# (参考訳) 多層繰り返しスパイクニューラルネットワークの可視性伝播へのSTDPの適用

Including STDP to eligibility propagation in multi-layer recurrent spiking neural networks ( http://arxiv.org/abs/2201.07602v1 )

ライセンス: CC BY 4.0
Werner van der Veen(参考訳) ニューロモルフィックシステムにおけるニューラルネットワーク(SNN)のスパイクは、ディープラーニングベースの手法よりもエネルギー効率が高いが、そのようなSNNを訓練するための明確な競合学習アルゴリズムはない。 E-propは、低消費電力のニューロモルフィックハードウェアで競合する再帰性SNNを訓練する、効率的で生物学的に妥当な方法を提供する。 本稿では,音声分類タスクにおける以前のe-propの性能を再現し,STDP様の動作を含む影響を分析する。 alifニューロンモデルへのstdpを含むと分類性能は向上するが、izhikevich e-propニューロンではそうではない。 最後に、単層繰り返しSNNで実装されたe-propは、連続的にマルチ層変異よりも優れていることがわかった。

Spiking neural networks (SNNs) in neuromorphic systems are more energy efficient compared to deep learning-based methods, but there is no clear competitive learning algorithm for training such SNNs. Eligibility propagation (e-prop) offers an efficient and biologically plausible way to train competitive recurrent SNNs in low-power neuromorphic hardware. In this report, previous performance of e-prop on a speech classification task is reproduced, and the effects of including STDP-like behavior are analyzed. Including STDP to the ALIF neuron model improves the classification performance, but this is not the case for the Izhikevich e-prop neuron. Finally, it was found that e-prop implemented in a single-layer recurrent SNN consistently outperforms a multi-layer variant.
翻訳日:2022-01-23 21:57:16 公開日:2022-01-05
# (参考訳) オンライン広告のための通信効率の良いテラバイトスケールモデルトレーニングフレームワーク

Communication-Efficient TeraByte-Scale Model Training Framework for Online Advertising ( http://arxiv.org/abs/2201.05500v1 )

ライセンス: CC BY 4.0
Weijie Zhao, Xuewu Jiao, Mingqing Hu, Xiaoyun Li, Xiangyu Zhang, Ping Li(参考訳) CTR(Click-Through Rate)予測は、オンライン広告業界において重要な要素である。 パーソナライズされたCTR予測を生成するために、業界レベルのCTR予測モデルは、通常、高次元(例えば100から1000億のフィーチャ)のスパースベクトル(クエリキーワード、ユーザポートレートなどからエンコードされる)を入力として取り込む。 結果として、モデルは高次元入力を埋め込むためにテラバイトスケールパラメータを必要とする。 cpuメインメモリとssdをセカンダリストレージとして活用することにより、メモリに制限のあるgpuによる大規模ネットワークのトレーニングを可能にするために階層型分散gpuパラメータサーバが提案されている。 我々は、大規模広告モデルのための既存のgpuトレーニングフレームワークにおける2つの主要な課題を特定し、これらの課題に取り組むための最適化の集まりを提案する。 (a)GPU、CPU、SSDは、トレーニング中に互いに急速に通信します。 GPUとCPUの接続は、ハードウェアトポロジのため一様ではない。 データ通信経路はハードウェアトポロジに従って最適化されるべきである。 b) 異なる計算ノードのGPUは、しばしばパラメータを同期するために通信します。 分散システムがスケーラブルになるためには、通信を最適化する必要がある。 本稿では,ハードウェアトポロジをアルゴリズム設計に結合するハードウェア対応トレーニングワークフローを提案する。 計算ノード間の広範な通信を減らすため,人気のあるadamオプティマイザに対して,k$-stepモデルマージアルゴリズムを導入し,非凸最適化においてその収束率を提供する。 我々の知る限り、これは産業レベルのCTRモデルトレーニングにおける$k$-step適応最適化法の最初の応用である。 実世界のデータにおける数値結果から、最適化されたシステム設計は、精度を損なうことなく、大規模モデルのトレーニング時間を著しく短縮することを確認した。

Click-Through Rate (CTR) prediction is a crucial component in the online advertising industry. In order to produce a personalized CTR prediction, an industry-level CTR prediction model commonly takes a high-dimensional (e.g., 100 or 1000 billions of features) sparse vector (that is encoded from query keywords, user portraits, etc.) as input. As a result, the model requires Terabyte scale parameters to embed the high-dimensional input. Hierarchical distributed GPU parameter server has been proposed to enable GPU with limited memory to train the massive network by leveraging CPU main memory and SSDs as secondary storage. We identify two major challenges in the existing GPU training framework for massive-scale ad models and propose a collection of optimizations to tackle these challenges: (a) the GPU, CPU, SSD rapidly communicate with each other during the training. The connections between GPUs and CPUs are non-uniform due to the hardware topology. The data communication route should be optimized according to the hardware topology; (b) GPUs in different computing nodes frequently communicates to synchronize parameters. We are required to optimize the communications so that the distributed system can become scalable. In this paper, we propose a hardware-aware training workflow that couples the hardware topology into the algorithm design. To reduce the extensive communication between computing nodes, we introduce a $k$-step model merging algorithm for the popular Adam optimizer and provide its convergence rate in non-convex optimization. To the best of our knowledge, this is the first application of $k$-step adaptive optimization method in industrial-level CTR model training. The numerical results on real-world data confirm that the optimized system design considerably reduces the training time of the massive model, with essentially no loss in accuracy.
翻訳日:2022-01-23 21:56:12 公開日:2022-01-05
# (参考訳) ハードウェアベースのサイバーセキュリティ対策のための機械学習アルゴリズムの包括的効率解析

Comprehensive Efficiency Analysis of Machine Learning Algorithms for Developing Hardware-Based Cybersecurity Countermeasures ( http://arxiv.org/abs/2201.07654v1 )

ライセンス: CC BY 4.0
Darren Cobian(参考訳) 現代のコンピュータシステムにより、サイバー攻撃者たちは、テクノロジーの初期の時代よりも高度なマルウェアを作り出すようになった。 署名ベースの手法に基づくアンチウイルスソフトウェア(AVS)のような古い検出技術は、コンピュータシステムに必要な要求に追随することができなかった。 現代のマルウェアの複雑さは、悪意のあるソフトウェアの検出率を高めるために機械学習分野とハードウェアを使用する現代の検出技術の開発につながった。 これらの新しい技術は、ハードウェアパフォーマンスカウンタ(hpcs)を使用して、一種のデジタルシグネチャを形成する。 モデルがトレーニングデータを入力した後、彼らはこれらのHPCを参照してゼロデイマルウェアサンプルを分類することができる。 HPC値に匹敵しないマルウェアがこれらの新しい手法に接触すると問題が発生する。 ゼロデイサンプルを実行する機械学習およびディープラーニングモデルの分析を行い、ハードウェア実装を開始するのに使用されるハードウェア記述言語(hdl)へのc++アルゴリズムの変換の結果を評価する。 その結果,ゼロデイマルウェアデータを最高検出率である決定木として実行した場合のモデルからの精度の欠如は,91.2% の精度に留まり,決定木という形で f1-score は91.5% であった。 次に、受信者演算曲線(ROC)とエリアアンダー・ザ・カーブ(AUC)を通し、最大のAUCが0.819であったため、アルゴリズムが大きなロバスト性を示しなかったことも決定できる。 さらに,アンサンブル学習アルゴリズムのオーバーヘッドは,86.3%の精度と86%のf1-scoreのみであった。 最後に,1ルールアルゴリズムを多くのルールに適合させて,マルウェア分類を日常的に理解できるようにし,比較的高い精度を維持しながら規則を閲覧できるようにした。

Modern computing systems have led cyber adversaries to create more sophisticated malware than was previously available in the early days of technology. Dated detection techniques such as Anti-Virus Software (AVS) based on signature-based methods could no longer keep up with the demand that computer systems required of them. The complexity of modern malware has led to the development of contemporary detection techniques that use the machine learning field and hardware to boost the detection rates of malicious software. These new techniques use Hardware Performance Counters (HPCs) that form a digital signature of sorts. After the models are fed training data, they can reference these HPCs to classify zero-day malware samples. A problem emerges when malware with no comparable HPC values comes into contact with these new techniques. We provide an analysis of several machine learning and deep learning models that run zero-day samples and evaluate the results from the conversion of C++ algorithms to a hardware description language (HDL) used to begin a hardware implementation. Our results present a lack of accuracy from the models when running zero-day malware data as our highest detector, decision tree, was only able to reach 91.2% accuracy and had an F1-Score of 91.5% in the form of a decision tree. Next, through the Receiver Operating Curve (ROC) and area-under-the-curve (AUC), we can also determine that the algorithms did not present significant robustness as the largest AUC was only 0.819. In addition, we viewed relatively high overhead for our ensemble learning algorithm while also only having an 86.3% accuracy and 86% F1-Score. Finally, as an additional task, we adapted the one rule algorithm to fit many rules to make malware classification understandable to everyday users by allowing them to view the regulations while maintaining relatively high accuracy.
翻訳日:2022-01-23 21:19:29 公開日:2022-01-05
# (参考訳) スマートチェアを用いた健康着座姿勢予測

Posture Prediction for Healthy Sitting using a Smart Chair ( http://arxiv.org/abs/2201.02615v1 )

ライセンス: CC BY 4.0
Tariku Adane Gelaw, Misgina Tsighe Hagos(参考訳) 筋骨格障害や腰痛、特に高齢者、障害者、オフィスワーカーの腰痛のリスクファクターとして、低座りの習慣が特定されている。 現在のコンピュータ化された世界では、余暇や仕事活動に関わったとしても、人々はほとんどの時間をコンピューターの机に座って過ごす傾向にある。 これは脊髄の痛みと関連する問題を引き起こす。 したがって、座る習慣を人々に思い出させ、身体的な運動などのバランスを崩すためのレコメンデーションを提供する手段が重要である。 座位姿勢に対する姿勢認識には十分な注意が払われていない。 文献では、ウェアラブルセンサー、圧力または力センサー、ビデオと画像が姿勢認識に使用された。 本研究の目的は,シートレストに32×32の圧力センサを配置した椅子から収集したデータを解析することにより,人の座位姿勢を分類するための機械学習モデルを構築することである。 モデルはRandom Forest (RF), Gaussian Na\"ive Bayes, Logistic Regression, Support Vector Machine, Deep Neural Network (DNN)の5つのアルゴリズムを使用して構築された。 全てのモデルはKFoldクロスバリデーション技術を用いて評価される。 本稿では, 2つのデータセットを分離して, 制御可能かつ現実的な実験を行い, 6つの座位姿勢を分類し, 結果について考察する。 平均分類精度は, 制御されたデータセットと現実的なデータセットで98%, 97%であった。

Poor sitting habits have been identified as a risk factor to musculoskeletal disorders and lower back pain especially on the elderly, disabled people, and office workers. In the current computerized world, even while involved in leisure or work activity, people tend to spend most of their days sitting at computer desks. This can result in spinal pain and related problems. Therefore, a means to remind people about their sitting habits and provide recommendations to counterbalance, such as physical exercise, is important. Posture recognition for seated postures have not received enough attention as most works focus on standing postures. Wearable sensors, pressure or force sensors, videos and images were used for posture recognition in the literature. The aim of this study is to build Machine Learning models for classifying sitting posture of a person by analyzing data collected from a chair platted with two 32 by 32 pressure sensors at its seat and backrest. Models were built using five algorithms: Random Forest (RF), Gaussian Na\"ive Bayes, Logistic Regression, Support Vector Machine and Deep Neural Network (DNN). All the models are evaluated using KFold cross-validation technique. This paper presents experiments conducted using the two separate datasets, controlled and realistic, and discusses results achieved at classifying six sitting postures. Average classification accuracies of 98% and 97% were achieved on the controlled and realistic datasets, respectively.
翻訳日:2022-01-16 16:40:48 公開日:2022-01-05
# BITES:生存データに対するバランス付き個別治療効果

BITES: Balanced Individual Treatment Effect for Survival data ( http://arxiv.org/abs/2201.03448v1 )

ライセンス: Link先を確認
Stefan Schrod, Andreas Sch\"afer, Stefan Solbrig, Robert Lohmayer, Wolfram Gronwald, Peter J. Oefner, Tim Bei{\ss}barth, Rainer Spang, Helena U. Zacharias, Michael Altenbuchinger(参考訳) 患者予後に対する介入の効果を推定することは、パーソナライズされた医療の重要な側面の一つである。 それらの推測は、訓練データが治療結果のみを含み、代替治療(いわゆる偽善的結果)には含まれないという事実によってしばしば疑問視される。 このシナリオでは、連続変数とバイナリ変数の両方に対して、介入がランダムに適用されないデータなど、観測データに基づいていくつかの方法が提案されている。 しかし、観測期間内にイベントが発生しない場合の右室イベント時間を含む、時間と時間のデータで患者結果が記録されることが多い。 その重要性は大きいが、処理最適化に時間からイベントまでのデータが使われることは滅多にない。 我々は,治療に特有の半パラメトリックなcox損失と,治療バランスの深いディープニューラルネットワークを組み合わせたbites (balanced individual treatment effect for survival data) というアプローチを提案する。 シミュレーション研究では、このアプローチが芸術の状態を上回っていることを示します。 さらに, 乳癌患者のコホートに対して, 6つの日常的パラメータに基づいてホルモン治療を最適化できることを示す。 我々はこの発見を独立したコホートで検証した。 BITESは使いやすいpython実装として提供されている。

Estimating the effects of interventions on patient outcome is one of the key aspects of personalized medicine. Their inference is often challenged by the fact that the training data comprises only the outcome for the administered treatment, and not for alternative treatments (the so-called counterfactual outcomes). Several methods were suggested for this scenario based on observational data, i.e.~data where the intervention was not applied randomly, for both continuous and binary outcome variables. However, patient outcome is often recorded in terms of time-to-event data, comprising right-censored event times if an event does not occur within the observation period. Albeit their enormous importance, time-to-event data is rarely used for treatment optimization. We suggest an approach named BITES (Balanced Individual Treatment Effect for Survival data), which combines a treatment-specific semi-parametric Cox loss with a treatment-balanced deep neural network; i.e.~we regularize differences between treated and non-treated patients using Integral Probability Metrics (IPM). We show in simulation studies that this approach outperforms the state of the art. Further, we demonstrate in an application to a cohort of breast cancer patients that hormone treatment can be optimized based on six routine parameters. We successfully validated this finding in an independent cohort. BITES is provided as an easy-to-use python implementation.
翻訳日:2022-01-16 16:04:15 公開日:2022-01-05
# (参考訳) 電子インテリジェンスシステム

The E-Intelligence System ( http://arxiv.org/abs/2201.02590v1 )

ライセンス: CC BY 4.0
Vibhor Gautam, Vikalp Shishodia(参考訳) エレクトロニック・インテリジェンス(Electronic Intelligence, ELINT)は、電子センサーによって得られるインテリジェンスである。 個人通信以外では、ELINTインテリジェンスは通常取得される。 目標は通常、レーダー配置のような目標の能力を決定することである。 アクティブまたはパッシブセンサーを使用してデータを収集できる。 提供信号を分析して、認識信号種別収集データと対比する。 情報は、信号タイプが検出されたときに格納され、一致が見つからなかった場合は、新しいものと分類することができる。 ELINTはデータを収集し分類する。 軍事的な状況(ビジネスなど、その使用法を採用した人たち)では、知性は、組織が競争に対して戦略的優位性を与える決定を下すのを手助けします。 インテル」という言葉はしばしば短縮される。 signal intelligence (sigint) の2つの主要なサブフィールドは elint and communications intelligence (comint) である。 アメリカ国防総省は用語を指定し、諜報機関は世界中でレビューされたデータのカテゴリを使用する。

Electronic Intelligence (ELINT), often known as E-Intelligence, is intelligence obtained through electronic sensors. Other than personal communications, ELINT intelligence is usually obtained. The goal is usually to determine a target's capabilities, such as radar placement. Active or passive sensors can be employed to collect data. A provided signal is analyzed and contrasted to collected data for recognized signal types. The information may be stored if the signal type is detected; it can be classed as new if no match is found. ELINT collects and categorizes data. In a military setting (and others that have adopted the usage, such as a business), intelligence helps an organization make decisions that can provide them a strategic advantage over the competition. The term "intel" is frequently shortened. The two main subfields of signals intelligence (SIGINT) are ELINT and Communications Intelligence (COMINT). The US Department of Defense specifies the terminologies, and intelligence communities use the categories of data reviewed worldwide.
翻訳日:2022-01-10 23:15:43 公開日:2022-01-05
# (参考訳) ポリフォニックコントラスト学習による音楽信号の自己監督型ビート追跡

Self-Supervised Beat Tracking in Musical Signals with Polyphonic Contrastive Learning ( http://arxiv.org/abs/2201.01771v1 )

ライセンス: CC BY 4.0
Dorian Desblancs(参考訳) 音楽のビートに注釈をつけるのは、非常に長い退屈なプロセスです。 そこで本研究では,ビート追跡とダウンビート推定のための自己教師付き学習プリテキストタスクを提案する。 このタスクでは、オーディオソース分離モデルであるspleeterを使用して、歌のドラムを他の信号から分離する。 最初の信号セットは、対照的な学習事前学習のために、正および拡張負として使用される。 一方、ドラムレス信号はアンカーとして使用される。 このプリテキストタスクを用いて、完全畳み込みおよび繰り返しモデルを事前学習すると、オンセット関数が学習される。 場合によっては、この機能は歌の周期要素にマッピングされることが判明した。 その結果、ビートトラッキングトレーニングセットが極端に小さい場合(10例未満)、事前学習モデルはランダムに初期化モデルより優れていた。 そうではない場合、事前トレーニングは学習のスピードアップにつながり、モデルがトレーニングセットに過度に適合するようになった。 より一般に、本書は音楽の自己監督学習の領域における新しい視点を定義する。 これは、オーディオソース分離をセルフスーパービジョンの基本コンポーネントとして使う最初の作品の1つである。

Annotating musical beats is a very long in tedious process. In order to combat this problem, we present a new self-supervised learning pretext task for beat tracking and downbeat estimation. This task makes use of Spleeter, an audio source separation model, to separate a song's drums from the rest of its signal. The first set of signals are used as positives, and by extension negatives, for contrastive learning pre-training. The drum-less signals, on the other hand, are used as anchors. When pre-training a fully-convolutional and recurrent model using this pretext task, an onset function is learned. In some cases, this function was found to be mapped to periodic elements in a song. We found that pre-trained models outperformed randomly initialized models when a beat tracking training set was extremely small (less than 10 examples). When that was not the case, pre-training led to a learning speed-up that caused the model to overfit to the training set. More generally, this work defines new perspectives in the realm of musical self-supervised learning. It is notably one of the first works to use audio source separation as a fundamental component of self-supervision.
翻訳日:2022-01-07 23:32:55 公開日:2022-01-05
# (参考訳) KUDO Interpreter Assist: リモート解釈のためのリアルタイム自動サポート

KUDO Interpreter Assist: Automated Real-time Support for Remote Interpretation ( http://arxiv.org/abs/2201.01800v1 )

ライセンス: CC BY 4.0
Claudio Fantinuoli, Giulia Marchesini, David Landan, Lukas Horak(参考訳) 高品質な人間の解釈には言語的および事実的な準備と、リアルタイムで情報を取得する能力が必要である。 この状況は、時間とイベントが短いリモート同時解釈(RSI)の文脈で特に重要になり、プロの通訳に新たな課題をもたらし、高品質なサービスの提供を約束する。 これらの課題を軽減するために,我々は,RSIシナリオの統合に特化したコンピュータ支援型解釈ツールであるInterpreter Assistを提案する。 Interpreter Assistには、自動用語作成ツールとリアルタイム提案システムという2つの主要な機能セットがある。 本稿では,ツールの全体的な設計,一般的なRSIワークフローへの統合,および用語集作成の質と妥当性の両面でのベンチマークテストの結果,およびリアルタイム提案機能の精度とリコールについて述べる。

High-quality human interpretation requires linguistic and factual preparation as well as the ability to retrieve information in real-time. This situation becomes particularly relevant in the context of remote simultaneous interpreting (RSI) where time-to-event may be short, posing new challenges to professional interpreters and their commitment to delivering high-quality services. In order to mitigate these challenges, we present Interpreter Assist, a computer-assisted interpreting tool specifically designed for the integration in RSI scenarios. Interpreter Assist comprises two main feature sets: an automatic glossary creation tool and a real-time suggestion system. In this paper, we describe the overall design of our tool, its integration into the typical RSI workflow, and the results achieved on benchmark tests both in terms of quality and relevance of glossary creation as well as in precision and recall of the real-time suggestion feature.
翻訳日:2022-01-07 23:31:45 公開日:2022-01-05
# (参考訳) 教師なし領域適応のための深部部分空間アライメントの再検討

Revisiting Deep Subspace Alignment for Unsupervised Domain Adaptation ( http://arxiv.org/abs/2201.01806v1 )

ライセンス: CC BY-SA 4.0
Kowshik Thopalli, Jayaraman J Thiagarajan, Rushil Anirudh, and Pavan K Turaga(参考訳) Unsupervised domain adapt (UDA) は、ラベル付きソースドメインからラベル付きターゲットドメインへの知識の転送と適応を目的としている。 伝統的に、部分空間ベースのメソッドはこの問題に対する重要な解のクラスを形成する。 数学的エレガンスとトラクタビリティにもかかわらず、これらの手法は複雑な実世界のデータセットでドメイン不変の特徴を生成できないことがしばしば見出される。 深層ネットワークを用いた表現学習の最近の進歩に触発されて,UDAにおける部分空間アライメントの利用を再考し,一貫した一般化につながる新しい適応アルゴリズムを提案する。 本手法は,既存の逆行訓練に基づくDA手法とは対照的に,特徴学習と分散アライメントのステップを分離し,ドメイン不変性やモデル忠実性の目的を効果的にバランスさせるために一次最適化戦略を利用する。 ターゲットデータと計算要求を大幅に削減する一方で、我々のサブスペースベースのDAは競争力が高く、時にはいくつかの標準UDAベンチマークにおける最先端のアプローチよりも優れています。 さらに、部分空間アライメントは、挑戦的な部分DA設定においても強い一般化を示す固有的によく規則化されたモデルをもたらす。 最後に、UDAフレームワークの設計は、スクラッチからモデルを再トレーニングすることなく、テスト時に新しいターゲットドメインへのプログレッシブ適応を本質的にサポートしています。 要約すると、強力な特徴学習者と効果的な最適化戦略を駆使して、サブスペースベースのDAを視覚認識の高効率なアプローチとして確立する。

Unsupervised domain adaptation (UDA) aims to transfer and adapt knowledge from a labeled source domain to an unlabeled target domain. Traditionally, subspace-based methods form an important class of solutions to this problem. Despite their mathematical elegance and tractability, these methods are often found to be ineffective at producing domain-invariant features with complex, real-world datasets. Motivated by the recent advances in representation learning with deep networks, this paper revisits the use of subspace alignment for UDA and proposes a novel adaptation algorithm that consistently leads to improved generalization. In contrast to existing adversarial training-based DA methods, our approach isolates feature learning and distribution alignment steps, and utilizes a primary-auxiliary optimization strategy to effectively balance the objectives of domain invariance and model fidelity. While providing a significant reduction in target data and computational requirements, our subspace-based DA performs competitively and sometimes even outperforms state-of-the-art approaches on several standard UDA benchmarks. Furthermore, subspace alignment leads to intrinsically well-regularized models that demonstrate strong generalization even in the challenging partial DA setting. Finally, the design of our UDA framework inherently supports progressive adaptation to new target domains at test-time, without requiring retraining of the model from scratch. In summary, powered by powerful feature learners and an effective optimization strategy, we establish subspace-based DA as a highly effective approach for visual recognition.
翻訳日:2022-01-07 23:22:09 公開日:2022-01-05
# (参考訳) hidden agenda: 多様な学習均衡を持つ社会的推論ゲーム

Hidden Agenda: a Social Deduction Game with Diverse Learned Equilibria ( http://arxiv.org/abs/2201.01816v1 )

ライセンス: CC BY 4.0
Kavya Kopparapu, Edgar A. Du\'e\~nez-Guzm\'an, Jayd Matyas, Alexander Sasha Vezhnevets, John P. Agapiou, Kevin R. McKee, Richard Everett, Janusz Marecki, Joel Z. Leibo, Thore Graepel(参考訳) マルチエージェント協調の研究における重要な課題は、個々のエージェントが効果的に協力するだけでなく、誰と協力するかを決める必要があることである。 これは、他のエージェントが隠され、おそらく不整合のモチベーションと目標を持つ状況において特に重要である。 社会的推論ゲームは、個人が他人に関する潜在的に信頼できない情報を合成し、真の動機を解明する方法を学ぶための手段を提供する。 本研究では,未知のチームアライメントのシナリオにおいて,学習エージェントを研究するための2D環境を提供する2チームソーシャル推論ゲームであるHidden Agendaを紹介する。 環境は両方のチームにとって豊富な戦略の集合を認めます。 Hidden Agendaで訓練された強化学習エージェントは、自然言語でのコミュニケーションを必要とせずに、協力や投票など、さまざまな行動を学ぶことができる。

A key challenge in the study of multiagent cooperation is the need for individual agents not only to cooperate effectively, but to decide with whom to cooperate. This is particularly critical in situations when other agents have hidden, possibly misaligned motivations and goals. Social deduction games offer an avenue to study how individuals might learn to synthesize potentially unreliable information about others, and elucidate their true motivations. In this work, we present Hidden Agenda, a two-team social deduction game that provides a 2D environment for studying learning agents in scenarios of unknown team alignment. The environment admits a rich set of strategies for both teams. Reinforcement learning agents trained in Hidden Agenda show that agents can learn a variety of behaviors, including partnering and voting without need for communication in natural language.
翻訳日:2022-01-07 23:03:01 公開日:2022-01-05
# (参考訳) グラフベース機械学習を用いて高密度乱数グラフに植木したDenseサブグラフを検索する

Planted Dense Subgraphs in Dense Random Graphs Can Be Recovered using Graph-based Machine Learning ( http://arxiv.org/abs/2201.01825v1 )

ライセンス: CC BY-SA 4.0
Itay Levinas and Yoram Louzoun(参考訳) ランダムな高密度な$G(n, p)$グラフにおいて、植込みされた高密度部分グラフに属する頂点を見つけるための複数の方法が提案され、植込みされた斜めに重点を置いている。 そのような方法は、植込まれた部分グラフを多項式時間で識別できるが、全ていくつかの部分グラフ構造に限定される。 本稿では,グラフニューラルネットワークに基づくアルゴリズムであるPYGONについて述べる。 これは、高度な学習ツールを使って高密度サブグラフを復元する最初のアルゴリズムである。 PYGONは、背景グラフのサイズである$\Theta\left(\sqrt{n}\right)$を復元できることを示す。 また,同じアルゴリズムが,有向グラフと無向グラフの両方において,複数の植込み部分グラフに対して$\theta\left(\sqrt{n}\right)$を回収できることも示す。 我々は、多項式時間PAC学習アルゴリズムが$O\left(\sqrt{n}\right)$より小さい植込み高密度部分グラフを検出できないという予想を、原理上は対数サイズの高密度部分グラフを見つけることができたとしても提案する。

Multiple methods of finding the vertices belonging to a planted dense subgraph in a random dense $G(n, p)$ graph have been proposed, with an emphasis on planted cliques. Such methods can identify the planted subgraph in polynomial time, but are all limited to several subgraph structures. Here, we present PYGON, a graph neural network-based algorithm, which is insensitive to the structure of the planted subgraph. This is the first algorithm that uses advanced learning tools for recovering dense subgraphs. We show that PYGON can recover cliques of sizes $\Theta\left(\sqrt{n}\right)$, where $n$ is the size of the background graph, comparable with the state of the art. We also show that the same algorithm can recover multiple other planted subgraphs of size $\Theta\left(\sqrt{n}\right)$, in both directed and undirected graphs. We suggest a conjecture that no polynomial time PAC-learning algorithm can detect planted dense subgraphs with size smaller than $O\left(\sqrt{n}\right)$, even if in principle one could find dense subgraphs of logarithmic size.
翻訳日:2022-01-07 22:50:08 公開日:2022-01-05
# (参考訳) FLAIR画像における注意型CNNを用いた多発性硬化病変の分離

Multiple Sclerosis Lesions Segmentation using Attention-Based CNNs in FLAIR Images ( http://arxiv.org/abs/2201.01832v1 )

ライセンス: CC0 1.0
Mehdi SadeghiBakhi, Hamidreza Pourreza, Hamidreza Mahyar(参考訳) 目的: 多発性硬化症(ms)は自己免疫疾患であり、中枢神経系の病変につながる脱髄性疾患である。 この疾患はMRI(Magnetic Resonance Imaging)を用いて追跡診断できる。 これまでのマルチモダリティ自動バイオメディカルアプローチは、コスト、時間、使用性の観点から患者にとって有益でない病変を分割するために用いられてきた。 本論文の著者らは,MS病変を正確に分類するために,1つのモダリティ(FLAIR画像)のみを用いる手法を提案する。 方法: パッチベースの畳み込みニューラルネットワーク(CNN)は、3D-ResNetと空間チャネルアテンションモジュールにインスパイアされて設計され、MS病変を分断する。 提案手法は,(1)原画像にコントラスト制限適応ヒストグラム等化(clahe)を施し,抽出されたエッジに連結して4d画像を作成する,(2)4d画像から大きさ80×80×80*2のパッチをランダムに選択する,(3)切除されたパッチを注意に基づくcnnに通過させる,の3段階からなる。 最後に,提案手法を同一データセットの先行研究と比較した。 結果: 本研究は, isibチャレンジデータのテストセットを用いて, モデルを評価する。 実験の結果,提案法が従来の方法を大幅に超えていることが明らかとなったが,提案法では病変の分節に1モード性(flair)のみを用いる。 結論: 著者らは、入力として少なくとも2つのモダリティに基づく病変を分割する自動アプローチを導入した。 提案するアーキテクチャは,コンボリューション,デコンボリューション,sca-voxresモジュールをアテンションモジュールとして構成する。 その結果,提案手法は他の手法と比較して優れていた。

Objective: Multiple Sclerosis (MS) is an autoimmune, and demyelinating disease that leads to lesions in the central nervous system. This disease can be tracked and diagnosed using Magnetic Resonance Imaging (MRI). Up to now a multitude of multimodality automatic biomedical approaches is used to segment lesions which are not beneficial for patients in terms of cost, time, and usability. The authors of the present paper propose a method employing just one modality (FLAIR image) to segment MS lesions accurately. Methods: A patch-based Convolutional Neural Network (CNN) is designed, inspired by 3D-ResNet and spatial-channel attention module, to segment MS lesions. The proposed method consists of three stages: (1) the contrast-limited adaptive histogram equalization (CLAHE) is applied to the original images and concatenated to the extracted edges in order to create 4D images; (2) the patches of size 80 * 80 * 80 * 2 are randomly selected from the 4D images; and (3) the extracted patches are passed into an attention-based CNN which is used to segment the lesions. Finally, the proposed method was compared to previous studies of the same dataset. Results: The current study evaluates the model, with a test set of ISIB challenge data. Experimental results illustrate that the proposed approach significantly surpasses existing methods in terms of Dice similarity and Absolute Volume Difference while the proposed method use just one modality (FLAIR) to segment the lesions. Conclusions: The authors have introduced an automated approach to segment the lesions which is based on, at most, two modalities as an input. The proposed architecture is composed of convolution, deconvolution, and an SCA-VoxRes module as an attention module. The results show, the proposed method outperforms well compare to other methods.
翻訳日:2022-01-07 22:26:50 公開日:2022-01-05
# (参考訳) フレームシフト予測

Frame Shift Prediction ( http://arxiv.org/abs/2201.01837v1 )

ライセンス: CC BY 4.0
Zheng-Xin Yong, Patrick D. Watson, Tiago Timponi Torrent, Oliver Czulo, Collin F. Baker(参考訳) フレームシフト(英: frame shift)は、翻訳における言語横断現象であり、異なるフレームを誘発する言語資料の対に対応する。 フレームシフトを予測する機能により、アノテーションプロジェクションによる多言語FrameNetの自動生成が可能になる。 本稿では,フレームシフト予測タスクを提案し,グラフアテンションネットワークと補助訓練を組み合わせることで,相互言語的フレーム間対応を学習し,フレームシフトを予測できることを示す。

Frame shift is a cross-linguistic phenomenon in translation which results in corresponding pairs of linguistic material evoking different frames. The ability to predict frame shifts enables automatic creation of multilingual FrameNets through annotation projection. Here, we propose the Frame Shift Prediction task and demonstrate that graph attention networks, combined with auxiliary training, can learn cross-linguistic frame-to-frame correspondence and predict frame shifts.
翻訳日:2022-01-07 22:05:27 公開日:2022-01-05
# (参考訳) 胸部X線画像を用いた腰椎骨密度推定:解剖学的注意多量ROIモデリング

Lumbar Bone Mineral Density Estimation from Chest X-ray Images: Anatomy-aware Attentive Multi-ROI Modeling ( http://arxiv.org/abs/2201.01838v1 )

ライセンス: CC BY 4.0
Fakai Wang, Kang Zheng, Le Lu, Jing Xiao, Min Wu, Chang-Fu Kuo and Shun Miao(参考訳) 骨粗しょう症(英: osteoporosis)は、骨密度(英語版)(BMD)検査へのアクセスが制限されているため、しばしば診断され治療されていない慢性骨疾患である。 本稿では,Chest X-ray(CXR)からBMDを予測する手法を提案する。 本手法はまず,CXRから局所的および大域的骨構造の関心領域(ROI)を自動的に検出する。 次に, 変圧器エンコーダを用いたマルチROIディープモデルを開発し, 胸部X線画像の局所的情報と大域的情報の両方を利用して正確なBMD推定を行う。 本法はCXR患者13719例を対象に,金標準DXAによるBMDスコアを測定した。 予測モデルでは,BMDは基底真理と強い相関関係を持つ(Pearson correlation coefficient 0.889 on lumbar 1)。 オステオポローシススクリーニングに応用すると、高い分類性能(腰椎1のauc 0.963)が得られる。 CXRスキャンを用いてBMDを予測する最初の試みとして,提案アルゴリズムは早期骨粗しょう症スクリーニングや公衆衛生の促進に強い可能性を秘めている。

Osteoporosis is a common chronic metabolic bone disease that is often under-diagnosed and under-treated due to the limited access to bone mineral density (BMD) examinations, e.g. via Dual-energy X-ray Absorptiometry (DXA). In this paper, we propose a method to predict BMD from Chest X-ray (CXR), one of the most commonly accessible and low-cost medical imaging examinations. Our method first automatically detects Regions of Interest (ROIs) of local and global bone structures from the CXR. Then a multi-ROI deep model with transformer encoder is developed to exploit both local and global information in the chest X-ray image for accurate BMD estimation. Our method is evaluated on 13719 CXR patient cases with their ground truth BMD scores measured by gold-standard DXA. The model predicted BMD has a strong correlation with the ground truth (Pearson correlation coefficient 0.889 on lumbar 1). When applied for osteoporosis screening, it achieves a high classification performance (AUC 0.963 on lumbar 1). As the first effort in the field using CXR scans to predict the BMD, the proposed algorithm holds strong potential in early osteoporosis screening and public health promotion.
翻訳日:2022-01-07 21:51:11 公開日:2022-01-05
# (参考訳) クロス言語的低リソース形態素セグメンテーションにおけるデータ駆動モデル一般化可能性

Data-driven Model Generalizability in Crosslinguistic Low-resource Morphological Segmentation ( http://arxiv.org/abs/2201.01845v1 )

ライセンス: CC BY 4.0
Zoey Liu, Emily Prud'hommeaux(参考訳) モデル評価の一般的な設計は、通常、モノリンガルの設定に焦点を合わせ、それぞれのモデルのパフォーマンスに応じて、目の前のタスクに可能なすべてのデータを表すと仮定された単一のデータセットで異なるモデルを比較する。 これは大規模なデータセットにとって合理的かもしれないが、データ収集のアーティファクトが異常値であるデータセットを生成できる低リソースのシナリオでは、この仮定を維持するのは難しい。 これらの問題に対処するため,クロス言語的低リソースシナリオにおけるモデル一般化可能性について検討する。 実験ケースとして形態素セグメンテーションを用い、6つの言語ファミリーの11言語からデータを抽出し、パラメータ化の異なる3種類のモデルを比較した。 各実験環境では,1次データセット上の全てのモデルを評価し,同じサイズでランダムにサンプリングされた新しいデータセットを導入する場合と,異なるサイズのテストセットにトレーニングされたモデルを適用する場合のパフォーマンスの整合性を検討する。 その結果、モデル一般化の程度はデータセットの特性に依存することが示され、必ずしもデータセットのサイズに大きく依存するとは限らない。 研究した特徴のうち, 形態素の重なりと, 単語毎のモルヒム数の平均数は, トレーニングセットとテストセットの2つが最も顕著な要因である。 本研究は, モデル評価についてより責任ある主張を行うために, 異なる大きさのデータセットを構築するために, ランダムサンプリングを採用することを示唆している。

Common designs of model evaluation typically focus on monolingual settings, where different models are compared according to their performance on a single data set that is assumed to be representative of all possible data for the task at hand. While this may be reasonable for a large data set, this assumption is difficult to maintain in low-resource scenarios, where artifacts of the data collection can yield data sets that are outliers, potentially making conclusions about model performance coincidental. To address these concerns, we investigate model generalizability in crosslinguistic low-resource scenarios. Using morphological segmentation as the test case, we compare three broad classes of models with different parameterizations, taking data from 11 languages across 6 language families. In each experimental setting, we evaluate all models on a first data set, then examine their performance consistency when introducing new randomly sampled data sets with the same size and when applying the trained models to unseen test sets of varying sizes. The results demonstrate that the extent of model generalization depends on the characteristics of the data set, and does not necessarily rely heavily on the data set size. Among the characteristics that we studied, the ratio of morpheme overlap and that of the average number of morphemes per word between the training and test sets are the two most prominent factors. Our findings suggest that future work should adopt random sampling to construct data sets with different sizes in order to make more responsible claims about model evaluation.
翻訳日:2022-01-07 21:26:22 公開日:2022-01-05
# (参考訳) CFU Playground:FPGA上でのTiny Machine Learning(tinyML)アクセラレーションのためのフルスタックオープンソースフレームワーク

CFU Playground: Full-Stack Open-Source Framework for Tiny Machine Learning (tinyML) Acceleration on FPGAs ( http://arxiv.org/abs/2201.01863v1 )

ライセンス: CC BY 4.0
Shvetank Prakash, Tim Callahan, Joseph Bushagour, Colby Banbury, Alan V. Green, Pete Warden, Tim Ansell, Vijay Janapa Reddi(参考訳) 組み込みMLシステムのための機械学習アクセラレータ(ML)の迅速かつ反復的な設計を可能にする,フルスタックのオープンソースフレームワークであるCFU Playgroundを提案する。 我々のツールチェーンは、オープンソースソフトウェア、RTLジェネレータ、FPGAツールを緊密に統合し、合成、場所、ルートを調整します。 このフルスタック開発フレームワークは、組み込みML用にカスタマイズされ、共同最適化された、ベスポークアーキテクチャをエンジニアが探索することを可能にする。 迅速なデプロイの最適化フィードバックループにより、MLハードウェアとソフトウェア開発者は、カスタマイズに対する比較的小さな投資から大きなリターンを得られる。 CFU Playgroundの設計ループを用いて、CPUとアクセラレーションの間の大幅なスピードアップ(55x-75x)と設計空間探索を示す。

We present CFU Playground, a full-stack open-source framework that enables rapid and iterative design of machine learning (ML) accelerators for embedded ML systems. Our toolchain tightly integrates open-source software, RTL generators, and FPGA tools for synthesis, place, and route. This full-stack development framework gives engineers access to explore bespoke architectures that are customized and co-optimized for embedded ML. The rapid, deploy-profile-optimization feedback loop lets ML hardware and software developers achieve significant returns out of a relatively small investment in customization. Using CFU Playground's design loop, we show substantial speedups (55x-75x) and design space exploration between the CPU and accelerator.
翻訳日:2022-01-07 21:03:49 公開日:2022-01-05
# プライバシフレンドリーなピアツーピアエネルギー取引:ゲーム理論的アプローチ

Privacy-Friendly Peer-to-Peer Energy Trading: A Game Theoretical Approach ( http://arxiv.org/abs/2201.01810v1 )

ライセンス: Link先を確認
Kamil Erdayandi, Amrit Paudel, Lucas Cordeiro, Mustafa A. Mustafa(参考訳) 本稿では,ゲーム理論的なアプローチ,特にstackelbergコンペティションに基づいて,集中型,プライバシフレンドリーなエネルギー取引プラットフォーム(pfet)を提案する。 既存の取引方式とは異なり、PFETは競争に基づいて価格と需要が決定される競争市場を提供し、計算は信頼できる第三者に依存しない分散的な方法で行われる。 同型暗号化暗号システムを使用して、買い手や売り手の機密情報を暗号化し、売り手$'$価格と買い手$'$需要を暗号化する。 買い手は、暗号化されたデータを用いて特定の売り手に対する総需要を算出し、敏感な買い手プロファイルデータを売り手から隠蔽する。 したがって、売り手と買い手の双方のプライバシーは保持される。 プライバシ分析と性能評価により,PFETはユーザのプライバシーを効率的に保存することを示す。

In this paper, we propose a decentralized, privacy-friendly energy trading platform (PFET) based on game theoretical approach - specifically Stackelberg competition. Unlike existing trading schemes, PFET provides a competitive market in which prices and demands are determined based on competition, and computations are performed in a decentralized manner which does not rely on trusted third parties. It uses homomorphic encryption cryptosystem to encrypt sensitive information of buyers and sellers such as sellers$'$ prices and buyers$'$ demands. Buyers calculate total demand on particular seller using an encrypted data and sensitive buyer profile data is hidden from sellers. Hence, privacy of both sellers and buyers is preserved. Through privacy analysis and performance evaluation, we show that PFET preserves users$'$ privacy in an efficient manner.
翻訳日:2022-01-07 15:47:24 公開日:2022-01-05
# 協調フィルタリングのための生成型adversarial networkの評価研究

An Evaluation Study of Generative Adversarial Networks for Collaborative Filtering ( http://arxiv.org/abs/2201.01815v1 )

ライセンス: Link先を確認
Fernando Benjam\'in P\'erez Maurera, Maurizio Ferrari Dacrema, Paolo Cremonesi(参考訳) 本研究はCFGANの再現性について考察する。 CFGANとそのモデル群(TagRec、MTPR、CRGAN)は、以前のインタラクションを使用してトップNレコメンデーションに対する好みのパーソナライズされた、偽の、現実的なランキングを生成する。 本研究は、原論文で発表された結果の再現に成功し、CFGANフレームワークと原評価で使用されるモデルとの相違が与える影響について論じる。 ランダムノイズの欠如と条件ベクトルとしての実際のユーザプロファイルの使用は、出力ベクトルが入力ベクトルと同一である縮退解を学習する傾向があるため、基本的には単純なオートエンコーダとして振る舞う。 この研究は、CFGANと単純でよく知られた適切に最適化されたベースラインの選択を比較した実験分析をさらに拡張し、CFGANは高い計算コストにもかかわらず、それらに対して一貫して競合しないことを示した。 これらの分析の再現性を確保するため、実験手法を記述し、すべてのデータセットとソースコードを公開する。

This work explores the reproducibility of CFGAN. CFGAN and its family of models (TagRec, MTPR, and CRGAN) learn to generate personalized and fake-but-realistic rankings of preferences for top-N recommendations by using previous interactions. This work successfully replicates the results published in the original paper and discusses the impact of certain differences between the CFGAN framework and the model used in the original evaluation. The absence of random noise and the use of real user profiles as condition vectors leaves the generator prone to learn a degenerate solution in which the output vector is identical to the input vector, therefore, behaving essentially as a simple autoencoder. The work further expands the experimental analysis comparing CFGAN against a selection of simple and well-known properly optimized baselines, observing that CFGAN is not consistently competitive against them despite its high computational cost. To ensure the reproducibility of these analyses, this work describes the experimental methodology and publishes all datasets and source code.
翻訳日:2022-01-07 15:46:19 公開日:2022-01-05
# 二元分類のためのハイブリッド量子古典型ニューラルネットワークアーキテクチャ

A Hybrid Quantum-Classical Neural Network Architecture for Binary Classification ( http://arxiv.org/abs/2201.01820v1 )

ライセンス: Link先を確認
Davis Arthur and Prasanna Date(参考訳) ディープラーニングは、現在機械学習で使われている最も成功し、広範囲にわたる戦略の1つです。 しかし、ニューラルネットワークのスケールと有用性は、トレーニングに使用される現在のハードウェアによって依然として大幅に制限されている。 これらの懸念は、従来のコンピュータが今後数年でパフォーマンス改善を遅らせる物理的制限に素早くアプローチするにつれ、ますます強まりつつある。 これらの理由から、科学者たちはニューラルネットワークをトレーニングするための量子コンピュータのような代替コンピューティングプラットフォームを探求し始めた。 近年、変分量子回路はノイズの多い中間量子デバイス上での量子深層学習において最も成功したアプローチの1つである。 本稿では,各ニューロンが変動量子回路であるハイブリッド量子古典ニューラルネットワークアーキテクチャを提案する。 本研究では,このハイブリッドニューラルネットワークの性能を,シミュレートされたユニバーサル量子コンピュータとartユニバーサル量子コンピュータを用いて,一連のバイナリ分類データセット上で実験的に解析する。 シミュレーションハードウェアでは、ハイブリッドニューラルネットワークは、個々の変動量子回路よりも約10%高い分類精度とコストの20%の最小化を実現している。 量子ハードウェアでは、量子ビットとゲート数が十分に小さい場合にのみ、各モデルがうまく機能することを観測する。

Deep learning is one of the most successful and far-reaching strategies used in machine learning today. However, the scale and utility of neural networks is still greatly limited by the current hardware used to train them. These concerns have become increasingly pressing as conventional computers quickly approach physical limitations that will slow performance improvements in years to come. For these reasons, scientists have begun to explore alternative computing platforms, like quantum computers, for training neural networks. In recent years, variational quantum circuits have emerged as one of the most successful approaches to quantum deep learning on noisy intermediate scale quantum devices. We propose a hybrid quantum-classical neural network architecture where each neuron is a variational quantum circuit. We empirically analyze the performance of this hybrid neural network on a series of binary classification data sets using a simulated universal quantum computer and a state of the art universal quantum computer. On simulated hardware, we observe that the hybrid neural network achieves roughly 10% higher classification accuracy and 20% better minimization of cost than an individual variational quantum circuit. On quantum hardware, we observe that each model only performs well when the qubit and gate count is sufficiently small.
翻訳日:2022-01-07 15:46:00 公開日:2022-01-05
# マスキングマルチモーダルクラスタ予測による視聴覚表現の学習

Learning Audio-Visual Speech Representation by Masked Multimodal Cluster Prediction ( http://arxiv.org/abs/2201.02184v1 )

ライセンス: Link先を確認
Bowen Shi and Wei-Ning Hsu and Kushal Lakhotia and Abdelrahman Mohamed(参考訳) 音声の映像記録は、音声と視覚の相関情報を含み、話者の唇運動と生成された音からの音声表現学習のための強い信号を提供する。 本稿では,マルチストリーム映像入力を隠蔽し,自動検出および繰り返し修正されたマルチモーダル隠れユニットを予測する,音声視覚音声の自己教師型表現学習フレームワークであるAudio-Visual Hidden Unit BERT (AV-HuBERT)を紹介する。 AV-HuBERTは、唇読解と自動音声認識の両方に有効な強力な音声・視覚音声表現を学習する。 LRS3 (433時間)では、AV-HuBERTは30時間のラベル付きデータで32.5%のWERを達成し、1000倍の転写されたビデオデータ(31K時間)でトレーニングされた以前の最先端のアプローチ(33.6%)を上回った。 lrs3から463時間のラベル付きデータをすべて使用し、自己学習と組み合わせると、さらに26.9%に短縮される。 音声のみの音声認識で同じベンチマークでの音声視覚表現を使用することで、最先端の性能(1.3%対2.3%)に対して40%の相対的なWER削減が達成される。 私たちのコードとモデルはhttps://github.com/facebookresearch/av_hubertで利用可能です。

Video recordings of speech contain correlated audio and visual information, providing a strong signal for speech representation learning from the speaker's lip movements and the produced sound. We introduce Audio-Visual Hidden Unit BERT (AV-HuBERT), a self-supervised representation learning framework for audio-visual speech, which masks multi-stream video input and predicts automatically discovered and iteratively refined multimodal hidden units. AV-HuBERT learns powerful audio-visual speech representation benefiting both lip-reading and automatic speech recognition. On the largest public lip-reading benchmark LRS3 (433 hours), AV-HuBERT achieves 32.5% WER with only 30 hours of labeled data, outperforming the former state-of-the-art approach (33.6%) trained with a thousand times more transcribed video data (31K hours). The lip-reading WER is further reduced to 26.9% when using all 433 hours of labeled data from LRS3 and combined with self-training. Using our audio-visual representation on the same benchmark for audio-only speech recognition leads to a 40% relative WER reduction over the state-of-the-art performance (1.3% vs 2.3%). Our code and models are available at https://github.com/facebookresearch/av_hubert
翻訳日:2022-01-07 15:43:37 公開日:2022-01-05
# 機械学習による時空の分類

Machine-Learning the Classification of Spacetimes ( http://arxiv.org/abs/2201.01644v1 )

ライセンス: Link先を確認
Yang-Hui He, Juan Manuel P\'erez Ipi\~na(参考訳) 一般相対性理論における長い間確立されてきた分類問題について,機械学習や現代データサイエンスによる実りある手法を採用することにより,新しい視点を採る。 特に、ペトロフの時空分類をモデル化し、フィードフォワードニューラルネットワークが高い成功率を達成可能であることを示す。 また,次元化によるデータ可視化手法は,様々な時空の構造の基盤となるパターンを分析するのにどのように役立つかを示す。

On the long-established classification problems in general relativity we take a novel perspective by adopting fruitful techniques from machine learning and modern data-science. In particular, we model Petrov's classification of spacetimes, and show that a feed-forward neural network can achieve high degree of success. We also show how data visualization techniques with dimensionality reduction can help analyze the underlying patterns in the structure of the different types of spacetimes.
翻訳日:2022-01-07 15:43:13 公開日:2022-01-05
# インバージョンのためのニューラルアーキテクチャ探索

Neural Architecture Search for Inversion ( http://arxiv.org/abs/2201.01772v1 )

ライセンス: Link先を確認
Cheng Zhan, Licheng Zhang, Xin Zhao, Chang-Chun Lee, Shujiao Huang(参考訳) 長年にわたり、ディープラーニングを使って反転問題に取り組んできた。このフレームワークは、記録ウェーブフィールドとvelocity(yang et al., 2016)の関係を構築するために適用されてきた。 ここでは、画像構造を特徴付けるのにピクセル2ピクセル比較が最適ではないため、より適切な損失関数を導出する2つの視点から作業を拡張するとともに、高次特徴をキャプチャしてモデル性能を高めるためにコスト関数を構築する方法について詳しく述べる。 もう1つの次元は、さらに大きな画像のサブセットであるより適切なニューラルネットワーク(automatic machine learning、automl)の探索である。 U-net、ResNet (He et al., 2016)、DenseNet (Huang et al., 2017) といった有名なネットワークがあり、特定の問題に対して驚くべき結果をもたらすが、特定の空間内で徹底的に検索することなく、倒立問題に最適であると主張するのは難しい。 ここでは、inversionのアーキテクチャ検索結果を示します。

Over the year, people have been using deep learning to tackle inversion problems, and we see the framework has been applied to build relationship between recording wavefield and velocity (Yang et al., 2016). Here we will extend the work from 2 perspectives, one is deriving a more appropriate loss function, as we now, pixel-2-pixel comparison might not be the best choice to characterize image structure, and we will elaborate on how to construct cost function to capture high level feature to enhance the model performance. Another dimension is searching for the more appropriate neural architecture, which is a subset of an even bigger picture, the automatic machine learning, or AutoML. There are several famous networks, U-net, ResNet (He et al., 2016) and DenseNet (Huang et al., 2017), and they achieve phenomenal results for certain problems, yet it's hard to argue they are the best for inversion problems without thoroughly searching within certain space. Here we will be showing our architecture search results for inversion.
翻訳日:2022-01-07 15:16:42 公開日:2022-01-05
# リードラググラフの深層融合:暗号通貨への応用

Deep Fusion of Lead-lag Graphs:Application to Cryptocurrencies ( http://arxiv.org/abs/2201.02040v1 )

ライセンス: Link先を確認
Hugo Schnoering and Hugo Inzirillo(参考訳) 時系列の研究は、特に多変量分析の分野で多くの研究者を動機付けてきた。 ランダム変数間のコムーブメントと依存性の研究は、資産間の既存の接続を記述するためのメトリクスの開発につながる。 最もよく使われるのは相関と因果関係である。 文学の発達にもかかわらず、いくつかのつながりはいまだに発見されていない。 本研究の目的は,同期性と非同期性を組み合わせた表現学習アルゴリズムを提案することである。

The study of time series has motivated many researchers, particularly on the area of multivariate-analysis. The study of co-movements and dependency between random variables leads us to develop metrics to describe existing connection between assets. The most commonly used are correlation and causality. Despite the growing literature, some connections remained still undetected. The objective of this paper is to propose a new representation learning algorithm capable to integrate synchronous and asynchronous relationships.
翻訳日:2022-01-07 15:15:16 公開日:2022-01-05
# パネルデータに対するグループ構造推定 --一般アプローチ-

Group structure estimation for panel data -- a general approach ( http://arxiv.org/abs/2201.01793v1 )

ライセンス: Link先を確認
Lu Yu, Jiaying Gu, Stanislav Volgushev(参考訳) 個人に対する繰り返し観察が可能なパネルデータセットを考えてみましょう。 観察された特徴の類似した効果を共有できる個体群が存在すると仮定するのは理にかなっているが、そのグループ化は概して事前に不明である。 一般的なパネルデータモデルに対する観測不能なグループ化を推定するための新しい手法を提案する。 本手法は,個々のパラメータ推定の不確かさを明示的に説明し,多数の個人に対して計算可能であり,かつ,各個人に対して繰り返し測定を行う。 開発したアイデアは、個々のレベルデータが利用できない場合でも適用でき、パラメータ推定と不確実性の定量化が研究者に与えられる。

Consider a panel data setting where repeated observations on individuals are available. Often it is reasonable to assume that there exist groups of individuals that share similar effects of observed characteristics, but the grouping is typically unknown in advance. We propose a novel approach to estimate such unobserved groupings for general panel data models. Our method explicitly accounts for the uncertainty in individual parameter estimates and remains computationally feasible with a large number of individuals and/or repeated measurements on each individual. The developed ideas can be applied even when individual-level data are not available and only parameter estimates together with some quantification of uncertainty are given to the researcher.
翻訳日:2022-01-07 15:13:10 公開日:2022-01-05
# ゼロショット学習のための意味的曖昧さの学習

Learning Semantic Ambiguities for Zero-Shot Learning ( http://arxiv.org/abs/2201.01823v1 )

ライセンス: Link先を確認
Celina Hanouti and Herv\'e Le Borgne(参考訳) Zero-shot Learning (ZSL)は、トレーニング時に視覚的なサンプルが利用できないクラスを認識することを目的としている。 この問題に対処するために、各クラスのセマンティック記述に頼ることができる。 典型的なZSLモデルは、テスト時に見えないクラスで同じことをするために、見たクラスのビジュアルサンプルと対応するセマンティック記述の間のマッピングを学習する。 最先端技術アプローチは、クラスのプロトタイプから視覚的特徴を合成する生成モデルに依存しており、分類器を教師付きで学習することができる。 しかしながら、これらのアプローチは通常、視覚的なインスタンスが与えられたクラスのプロトタイプにマッチできる唯一のクラスであるようなクラスに偏っている。 本稿では,任意の条件生成型ZSL法に適用可能な正規化手法を提案する。 それは、訓練時に使用できない可能性のある意味的記述のために、識別的特徴を合成することを学ぶ。 このアプローチは、インダクティブとトランスダクティブのいずれにおいても、文献で一般的に使用される4つのデータセット上でzslとgzslで評価され、その結果は、アートアプローチのほぼあるいはその上で行われる。

Zero-shot learning (ZSL) aims at recognizing classes for which no visual sample is available at training time. To address this issue, one can rely on a semantic description of each class. A typical ZSL model learns a mapping between the visual samples of seen classes and the corresponding semantic descriptions, in order to do the same on unseen classes at test time. State of the art approaches rely on generative models that synthesize visual features from the prototype of a class, such that a classifier can then be learned in a supervised manner. However, these approaches are usually biased towards seen classes whose visual instances are the only one that can be matched to a given class prototype. We propose a regularization method that can be applied to any conditional generative-based ZSL method, by leveraging only the semantic class prototypes. It learns to synthesize discriminative features for possible semantic description that are not available at training time, that is the unseen ones. The approach is evaluated for ZSL and GZSL on four datasets commonly used in the literature, either in inductive and transductive settings, with results on-par or above state of the art approaches.
翻訳日:2022-01-07 15:12:06 公開日:2022-01-05
# Eye Know You Too: 眼球運動によるエンドツーエンドの生体認証のためのDenseNetアーキテクチャ

Eye Know You Too: A DenseNet Architecture for End-to-end Biometric Authentication via Eye Movements ( http://arxiv.org/abs/2201.02110v1 )

ライセンス: Link先を確認
Dillon Lohr, Oleg V Komogortsev(参考訳) plain convolutional neural networks (cnns) は、眼球運動による生体認証を含む、過去数年間に様々な領域で最先端のパフォーマンスを達成するために用いられてきた。 残余ネットワーク(ResNets)や密結合畳み込みネットワーク(DenseNets)など、比較的最近の一般的なCNNの改善が数多く行われている。 これらのネットワークは主に画像処理領域をターゲットにしているが、時系列データを扱うように容易に修正できる。 我々は、眼球運動によるエンドツーエンドの生体認証にDenseNetアーキテクチャを使用している。 私たちのモデルは、現在の最先端を含む最も関連する先行作品と比較します。 本モデルでは,学習条件やデータセットのすべてについて,最先端のパフォーマンスを実現する。

Plain convolutional neural networks (CNNs) have been used to achieve state-of-the-art performance in various domains in the past years, including biometric authentication via eye movements. There have been many relatively recent improvements to plain CNNs, including residual networks (ResNets) and densely connected convolutional networks (DenseNets). Although these networks primarily target image processing domains, they can be easily modified to work with time series data. We employ a DenseNet architecture for end-to-end biometric authentication via eye movements. We compare our model against the most relevant prior works including the current state-of-the-art. We find that our model achieves state-of-the-art performance for all considered training conditions and data sets.
翻訳日:2022-01-07 15:11:12 公開日:2022-01-05
# 高精度物体検出のためのマルチグリッド冗長境界ボックスアノテーション

Multi-Grid Redundant Bounding Box Annotation for Accurate Object Detection ( http://arxiv.org/abs/2201.01857v1 )

ライセンス: Link先を確認
Solomon Negussie Tesema, El-Bay Bourennane(参考訳) 現代のリードオブジェクト検出器は、ディープCNNベースのバックボーン分類器ネットワークから再利用可能な2段階または1段階のネットワークである。 YOLOv3は、入力画像を取り込んで同じ大きさのグリッドマトリックスに分割する、非常によく知られた最先端のワンショット検出器である。 オブジェクトの中心を持つグリッドセルは、特定のオブジェクトを検出する責任がある。 本稿では,オブジェクト毎に複数のグリッドを割り当て,厳密な境界ボックス予測を行う数学的手法を提案する。 また,オブジェクト検出のための効果的なオフラインコピーペーストデータ拡張を提案する。 提案手法は, 現状の物体検出器よりも大幅に優れており, さらなる性能向上が期待できる。

Modern leading object detectors are either two-stage or one-stage networks repurposed from a deep CNN-based backbone classifier network. YOLOv3 is one such very-well known state-of-the-art one-shot detector that takes in an input image and divides it into an equal-sized grid matrix. The grid cell having the center of an object is the one responsible for detecting the particular object. This paper presents a new mathematical approach that assigns multiple grids per object for accurately tight-fit bounding box prediction. We also propose an effective offline copy-paste data augmentation for object detection. Our proposed method significantly outperforms some current state-of-the-art object detectors with a prospect for further better performance.
翻訳日:2022-01-07 14:53:11 公開日:2022-01-05
# 既往の点雲の現実的対称性に基づく完備化に向けて

Towards realistic symmetry-based completion of previously unseen point clouds ( http://arxiv.org/abs/2201.01858v1 )

ライセンス: Link先を確認
Taras Rumezhak, Oles Dobosevych, Rostyslav Hryniv, Vladyslav Selotkin, Volodymyr Karpiv, Mykola Maksymenko(参考訳) 3dスキャンは複雑な多段階のプロセスであり、通常、咬合、反射、影、スキャナの動き、物体表面の特定の特性、不完全な再構成アルゴリズムなどによる損傷部分を含む物体の点雲を生成する。 ポイントクラウドの補完は、オブジェクトの欠落部分を埋め、高品質な3D表現を得るように設計されている。 既存の補完アプローチは、事前に定義されたオブジェクトクラスと非常に特定のタイプの欠陥を持つ学術データセットでうまく機能するが、それらのパフォーマンスは現実世界の設定において著しく低下し、これまで見つからなかったオブジェクトクラスではさらに低下する。 本稿では,人工環境においてユビキタスな対称オブジェクトに対して,うまく機能する新しいフレームワークを提案する。 学習ベースのアプローチとは異なり、提案されたフレームワークはトレーニングデータを必要としないため、kinect、飛行時間、構造化光スキャナなどを使用して、顧客の3dスキャンプロセスで発生する重要でない損傷を完了することができる。 詳細な実験により,提案するフレームワークが実世界の顧客スキャンのポイントクラウド完了において最先端の効率を達成することを示す。 既存の学術データセットを適切に拡張し、様々なオブジェクトの実際の3Dスキャンを行うことで、フレームワークのパフォーマンスをベンチマークする。

3D scanning is a complex multistage process that generates a point cloud of an object typically containing damaged parts due to occlusions, reflections, shadows, scanner motion, specific properties of the object surface, imperfect reconstruction algorithms, etc. Point cloud completion is specifically designed to fill in the missing parts of the object and obtain its high-quality 3D representation. The existing completion approaches perform well on the academic datasets with a predefined set of object classes and very specific types of defects; however, their performance drops significantly in the real-world settings and degrades even further on previously unseen object classes. We propose a novel framework that performs well on symmetric objects, which are ubiquitous in man-made environments. Unlike learning-based approaches, the proposed framework does not require training data and is capable of completing non-critical damages occurring in customer 3D scanning process using e.g. Kinect, time-of-flight, or structured light scanners. With thorough experiments, we demonstrate that the proposed framework achieves state-of-the-art efficiency in point cloud completion of real-world customer scans. We benchmark the framework performance on two types of datasets: properly augmented existing academic dataset and the actual 3D scans of various objects.
翻訳日:2022-01-07 14:53:01 公開日:2022-01-05
# NumHTML:マルチタスク財務予測のための数値指向階層型トランスフォーマモデル

NumHTML: Numeric-Oriented Hierarchical Transformer Model for Multi-task Financial Forecasting ( http://arxiv.org/abs/2201.01770v1 )

ライセンス: Link先を確認
Linyi Yang, Jiazheng Li, Ruihai Dong, Yue Zhang, Barry Smyth(参考訳) 金融予測は機械学習研究の重要かつ活発な分野であり、その課題と、予測の正確性や予測の微妙な改善が伴う潜在的な報酬がある。 伝統的に、金融予測は構造化された財務諸表に由来する定量的指標と指標に大きく依存してきた。 テキストや音声を含む決算会議通話データは、非構造化データの重要な情報源であり、深層採得と関連するアプローチを用いて様々な予測タスクに使用されている。 しかし、現在のディープラーニングベースの方法は数値データを扱う方法で制限されており、数値は基礎となる数値構造を生かさずに平文トークンとして扱われる。 本稿では,株価収益予測のための数値指向階層的トランスフォーマーモデルと,複数のモーダルアライン決算電話データを用いた金融リスクについて,数値の異なるカテゴリ(収益,時間的,割合など)とその大きさを生かして述べる。 実世界の公開データセットを用いて,いくつかの最先端ベースラインに対するNumHTMLの総合評価結果を示す。 以上の結果から,NumHTMLはさまざまな評価指標において,現在の最先端を著しく上回り,実践的な取引状況において大きな経済的利益をもたらす可能性が示唆された。

Financial forecasting has been an important and active area of machine learning research because of the challenges it presents and the potential rewards that even minor improvements in prediction accuracy or forecasting may entail. Traditionally, financial forecasting has heavily relied on quantitative indicators and metrics derived from structured financial statements. Earnings conference call data, including text and audio, is an important source of unstructured data that has been used for various prediction tasks using deep earning and related approaches. However, current deep learning-based methods are limited in the way that they deal with numeric data; numbers are typically treated as plain-text tokens without taking advantage of their underlying numeric structure. This paper describes a numeric-oriented hierarchical transformer model to predict stock returns, and financial risk using multi-modal aligned earnings calls data by taking advantage of the different categories of numbers (monetary, temporal, percentages etc.) and their magnitude. We present the results of a comprehensive evaluation of NumHTML against several state-of-the-art baselines using a real-world publicly available dataset. The results indicate that NumHTML significantly outperforms the current state-of-the-art across a variety of evaluation metrics and that it has the potential to offer significant financial gains in a practical trading context.
翻訳日:2022-01-07 14:41:26 公開日:2022-01-05
# 量子カプセルネットワーク

Quantum Capsule Networks ( http://arxiv.org/abs/2201.01778v1 )

ライセンス: Link先を確認
Zidu Liu, Pei-Xin Shen, Weikang Li, L.-M. Duan, Dong-Ling Deng(参考訳) 接続主義と象徴主義のパラダイムを取り入れたカプセルネットワークは、人工知能に新たな洞察をもたらした。 カプセルはカプセルネットワークの構成要素として、物体の異なる特徴をエンコードするベクターによって表されるニューロンのグループである。 情報はルーティングアルゴリズムによってカプセル層を通して階層的に抽出される。 本稿では,量子カプセルネットワーク(qcapsnet)と量子動的ルーティングアルゴリズムについて紹介する。 我々のモデルは動的ルーティングプロセスにおいて指数的なスピードアップを享受し、表現力の増強を示す。 qcapsnetの性能をベンチマークするために,手書き桁と対称性保護位相位相の分類に関する広範な数値シミュレーションを行い,qcapsnetが最先端の精度を達成し,従来の量子分類器を明らかに上回っていることを示す。 さらに出力カプセル状態を解き、そのサブスペースが入力データの人間の理解可能な特徴に対応し、そのようなネットワークの潜在的な説明可能性を示す。 我々の研究は、量子機械学習における量子カプセルネットワークの興味深い展望を明らかにし、説明可能な量子人工知能への貴重なガイドを提供するかもしれない。

Capsule networks, which incorporate the paradigms of connectionism and symbolism, have brought fresh insights into artificial intelligence. The capsule, as the building block of capsule networks, is a group of neurons represented by a vector to encode different features of an entity. The information is extracted hierarchically through capsule layers via routing algorithms. Here, we introduce a quantum capsule network (dubbed QCapsNet) together with a quantum dynamic routing algorithm. Our model enjoys an exponential speedup in the dynamic routing process and exhibits an enhanced representation power. To benchmark the performance of the QCapsNet, we carry out extensive numerical simulations on the classification of handwritten digits and symmetry-protected topological phases, and show that the QCapsNet can achieve the state-of-the-art accuracy and outperforms conventional quantum classifiers evidently. We further unpack the output capsule state and find that a particular subspace may correspond to a human-understandable feature of the input data, which indicates the potential explainability of such networks. Our work reveals an intriguing prospect of quantum capsule networks in quantum machine learning, which may provide a valuable guide towards explainable quantum artificial intelligence.
翻訳日:2022-01-07 14:37:41 公開日:2022-01-05
# POCO:表面再構成のためのポイントコンボリューション

POCO: Point Convolution for Surface Reconstruction ( http://arxiv.org/abs/2201.01831v1 )

ライセンス: Link先を確認
Alexandre Boulch, Renaud Marlet(参考訳) 入射ニューラルネットワークは点雲からの表面再構成に成功している。 しかし、それらの多くは、オブジェクトやシーン全体のisosurface関数を単一の潜在ベクトルにエンコードするため、スケーラビリティの問題に直面している。 この制限を克服するために、粗い正規3Dグリッドや3Dパッチ上の潜伏ベクトルを推論し、それらを補間して占有クエリに応答する。 そうすることで、オブジェクトの表面でサンプリングされた入力ポイントとの直接接続を緩め、最も重要な場所、すなわち表面近傍の場所よりも、空間内で情報を均一にアタッチする。 さらに、固定パッチサイズに依存するには、離散化チューニングが必要になる可能性がある。 これらの問題に対処するために,各入力点における点雲畳み込みと潜在ベクトルの計算を提案する。 次に,推定重みを用いた学習ベースの補間を行う。 オブジェクトとシーンの両方のデータセットにおける実験により、我々のアプローチは、ほとんどの古典的メトリクスの他のメソッドを大きく上回り、より詳細な詳細を生成し、より薄いボリュームを再構築する。 コードはhttps://github.com/valeoai/pocoで入手できる。

Implicit neural networks have been successfully used for surface reconstruction from point clouds. However, many of them face scalability issues as they encode the isosurface function of a whole object or scene into a single latent vector. To overcome this limitation, a few approaches infer latent vectors on a coarse regular 3D grid or on 3D patches, and interpolate them to answer occupancy queries. In doing so, they loose the direct connection with the input points sampled on the surface of objects, and they attach information uniformly in space rather than where it matters the most, i.e., near the surface. Besides, relying on fixed patch sizes may require discretization tuning. To address these issues, we propose to use point cloud convolutions and compute latent vectors at each input point. We then perform a learning-based interpolation on nearest neighbors using inferred weights. Experiments on both object and scene datasets show that our approach significantly outperforms other methods on most classical metrics, producing finer details and better reconstructing thinner volumes. The code is available at https://github.com/valeoai/POCO.
翻訳日:2022-01-07 14:37:22 公開日:2022-01-05
# DeepMLS: 幾何学的制御点変形

DeepMLS: Geometry-Aware Control Point Deformation ( http://arxiv.org/abs/2201.01873v1 )

ライセンス: Link先を確認
Meitar Shechter, Rana Hanocka, Gal Metzer, Raja Giryes, Daniel Cohen-Or(参考訳) 本稿では,空間に基づく変形手法であるdeepmlsについて,一組の変位制御点を導出して紹介する。 ニューラルネットワークのパワーを利用して,変形パラメータに基礎となる形状形状を注入する。 本技術の目的は,現実的で直感的な形状変形を可能にすることである。 本手法は,与えられた制御点変位の重み付き和を最小にするため,移動最小二乗法(mls)に基づいて構成する。 伝統的に、空間の各点(すなわち重み付け関数)に対する各制御点の影響は、逆距離ヒューリスティックスを用いて定義される。 本研究では,ニューラルネットワークを1つの入力形状から制御点に訓練することで,重み付け関数を学習し,ニューラルネットワークの固有な滑らかさを生かして学習する。 形状認識制御点変形は表面表現や品質に依存せず、非マニフォールドや断線した表面スープを含む点雲やメッシュに適用することができる。 本手法は直感的に滑らかな変形をしやすくし, 製造物に適していることを示す。 我々は,既存の表面および空間に基づく変形技術と比較して,定量的かつ定性的にアプローチの利点を示す。

We introduce DeepMLS, a space-based deformation technique, guided by a set of displaced control points. We leverage the power of neural networks to inject the underlying shape geometry into the deformation parameters. The goal of our technique is to enable a realistic and intuitive shape deformation. Our method is built upon moving least-squares (MLS), since it minimizes a weighted sum of the given control point displacements. Traditionally, the influence of each control point on every point in space (i.e., the weighting function) is defined using inverse distance heuristics. In this work, we opt to learn the weighting function, by training a neural network on the control points from a single input shape, and exploit the innate smoothness of neural networks. Our geometry-aware control point deformation is agnostic to the surface representation and quality; it can be applied to point clouds or meshes, including non-manifold and disconnected surface soups. We show that our technique facilitates intuitive piecewise smooth deformations, which are well suited for manufactured objects. We show the advantages of our approach compared to existing surface and space-based deformation techniques, both quantitatively and qualitatively.
翻訳日:2022-01-07 14:37:04 公開日:2022-01-05
# 自律走行のためのリアルタイム意味セグメンテーションモデルの実世界対向ロバスト性について

On the Real-World Adversarial Robustness of Real-Time Semantic Segmentation Models for Autonomous Driving ( http://arxiv.org/abs/2201.01850v1 )

ライセンス: Link先を確認
Giulio Rossolini, Federico Nesti, Gianluca D'Amico, Saasha Nair, Alessandro Biondi and Giorgio Buttazzo(参考訳) 現実世界の敵対的な例(一般的にパッチの形で)の存在は、自動運転における視覚認識のような安全クリティカルなコンピュータビジョンタスクにおけるディープラーニングモデルの使用に深刻な脅威をもたらす。 本稿では,デジタル,シミュレート,物理など,異なるタイプの敵パッチを攻撃した場合のセグメンテーションモデルのロバスト性について広範囲に評価する。 画素の誤分類を誘発する攻撃者の能力を改善するために,新たな損失関数を提案する。 また,シーンにパッチを配置するトランスフォーメーションメソッドに対する期待を改善するために,新たな攻撃戦略を提案する。 最後に, 直感的セグメンテーションモデルに対処するために, 直感的パッチ検出のための最先端手法をまず拡張し, 実世界のシナリオで評価した。 実験の結果、デジタルと現実世界の両方のアタックで逆効果が見えても、その影響はパッチ周辺の領域に空間的に限定されることが判明した。 これにより、リアルタイムセマンティックセグメンテーションモデルの空間的堅牢性に関するさらなる疑問が開かれる。

The existence of real-world adversarial examples (commonly in the form of patches) poses a serious threat for the use of deep learning models in safety-critical computer vision tasks such as visual perception in autonomous driving. This paper presents an extensive evaluation of the robustness of semantic segmentation models when attacked with different types of adversarial patches, including digital, simulated, and physical ones. A novel loss function is proposed to improve the capabilities of attackers in inducing a misclassification of pixels. Also, a novel attack strategy is presented to improve the Expectation Over Transformation method for placing a patch in the scene. Finally, a state-of-the-art method for detecting adversarial patch is first extended to cope with semantic segmentation models, then improved to obtain real-time performance, and eventually evaluated in real-world scenarios. Experimental results reveal that, even though the adversarial effect is visible with both digital and real-world attacks, its impact is often spatially confined to areas of the image around the patch. This opens to further questions about the spatial robustness of real-time semantic segmentation models.
翻訳日:2022-01-07 14:08:00 公開日:2022-01-05
# 価値学習のための一般化ブートストラップターゲット : 価値予測と特徴予測を効率的に組み合わせて

A Generalized Bootstrap Target for Value-Learning, Efficiently Combining Value and Feature Predictions ( http://arxiv.org/abs/2201.01836v1 )

ライセンス: Link先を確認
Anthony GX-Chen, Veronica Chelu, Blake A. Richards, Joelle Pineau(参考訳) 値関数の推定は強化学習アルゴリズムのコアコンポーネントである。 時間差(TD)学習アルゴリズムはブートストラップ(ブートストラップ)を用いる。 あるいは、後継特徴(sf)-ポリシー依存モデル--を別々に予測し、それらを即時報酬と線形に組み合わせて構築した学習目標に向けて値関数を更新することができる。 我々は、値関数の推定に使用されるターゲットのブートストラップに焦点をあて、新しいバックアップターゲットである$\eta$-returnmixを提案し、これは、(TDメソッドで使用される)値予測の知識と(successor)機能予測の知識を暗黙的に組み合わせ、パラメータ$$\eta$で、それぞれにどれだけ依存するかをキャプチャする。 予測的知識を$\eta\gamma$-discountedsfモデルで組み込むことで、サンプル化された経験をより効率的に利用することができることを示す。 本稿では, この手法が, 拡張性と汎用性を示す表や非線形関数近似に対して, より高速なポリシー評価と制御性能の向上につながることを実証的に示す。

Estimating value functions is a core component of reinforcement learning algorithms. Temporal difference (TD) learning algorithms use bootstrapping, i.e. they update the value function toward a learning target using value estimates at subsequent time-steps. Alternatively, the value function can be updated toward a learning target constructed by separately predicting successor features (SF)--a policy-dependent model--and linearly combining them with instantaneous rewards. We focus on bootstrapping targets used when estimating value functions, and propose a new backup target, the $\eta$-return mixture, which implicitly combines value-predictive knowledge (used by TD methods) with (successor) feature-predictive knowledge--with a parameter $\eta$ capturing how much to rely on each. We illustrate that incorporating predictive knowledge through an $\eta\gamma$-discounted SF model makes more efficient use of sampled experience, compared to either extreme, i.e. bootstrapping entirely on the value function estimate, or bootstrapping on the product of separately estimated successor features and instantaneous reward models. We empirically show this approach leads to faster policy evaluation and better control performance, for tabular and nonlinear function approximations, indicating scalability and generality.
翻訳日:2022-01-07 14:07:43 公開日:2022-01-05
# 分布シフトを伴う解釈可能な連続学習のための基礎の混合

Mixture of basis for interpretable continual learning with distribution shifts ( http://arxiv.org/abs/2201.01853v1 )

ライセンス: Link先を確認
Mengda Xu, Sumitra Ganesh, Pranay Pasula(参考訳) データ分散が変化する環境での継続的学習は、いくつかの実世界のアプリケーションでは難しい問題である。 本稿では、データ分散(タスク)が突然シフトし、これらのシフトのタイミングが不明な設定について考察する。 さらに,学習アルゴリズムがタスクセグメントデータと無セグメントデータの両方にアクセスしてオフライントレーニングを行う半教師なしのタスク非依存設定を考える。 本稿では,この問題に対処するための新しい手法としてmixed of basismodels (mob)を提案する。 中心となる考え方は、ベースモデルの小さなセットを学び、現在のタスクを予測するためにモデルの動的なタスク依存の混合を構築することである。 また,既存のベースモデルに対する分布外な観測を検知し,必要に応じて新しいモデルをインスタンス化する手法を提案する。 複数のドメインでこのアプローチをテストした結果、ほとんどのケースで既存のメソッドよりも優れた予測エラーが得られ、他の複数のモデルアプローチよりも少ないモデルを用いています。 さらに,モブが学習した潜在タスク表現を分析し,類似したタスクが潜在空間でクラスタ化され,タスクが異なっても潜在タスク表現がタスク境界でシフトすることを示す。

Continual learning in environments with shifting data distributions is a challenging problem with several real-world applications. In this paper we consider settings in which the data distribution(task) shifts abruptly and the timing of these shifts are not known. Furthermore, we consider a semi-supervised task-agnostic setting in which the learning algorithm has access to both task-segmented and unsegmented data for offline training. We propose a novel approach called mixture of Basismodels (MoB) for addressing this problem setting. The core idea is to learn a small set of basis models and to construct a dynamic, task-dependent mixture of the models to predict for the current task. We also propose a new methodology to detect observations that are out-of-distribution with respect to the existing basis models and to instantiate new models as needed. We test our approach in multiple domains and show that it attains better prediction error than existing methods in most cases while using fewer models than other multiple model approaches. Moreover, we analyze the latent task representations learned by MoB and show that similar tasks tend to cluster in the latent space and that the latent representation shifts at the task boundaries when tasks are dissimilar.
翻訳日:2022-01-07 14:07:20 公開日:2022-01-05
# エンティティ抽象化は生成トランスフォーマーの推論に役立つか?

Does entity abstraction help generative Transformers reason? ( http://arxiv.org/abs/2201.01787v1 )

ライセンス: Link先を確認
Nicolas Gontier, Siva Reddy, Christopher Pal(参考訳) 事前訓練された言語モデル(LM)は、しばしば論理的に論理的に、あるいは構成的に一般化するのに苦労する。 最近の研究は、外部エンティティ知識を取り入れることで、LMの推論と一般化能力を向上させることを示唆している。 しかし、特に最近の研究では、事前学習されたLMが既にその知識のいくつかをそれらのパラメータにエンコードしていることを示唆している。 本研究では,(1)テキストベース関係推論を用いた合成言語理解(CLUTRR),(2)帰納的推論(ProofWriter),(3)マルチホップ質問応答(HotpotQA),(4)対話型質問応答(CoQA)の4つのNLPタスクに対して,エンティティ型抽象化を事前学習したトランスフォーマに組み込むことの有用性を検討した。 このような抽象化を追加する3つの方法を提案し、実証的に検討する。 (i)追加入力埋め込み (ii)エンコードするための別個の配列として、及び (iii)モデルの補助予測タスクとして。 全体としては、抽象的な実体知識を持つモデルは、それなしでは機能しないことを示す。 しかし,本実験では,その効果は使用する技術と作業に強く依存することを示した。 最高の抽象化対応モデルは、CLUTRR と ProofWriter でそれぞれ 62.3% と 89.8% のベースラインモデルと比較して 88.8% と 91.8% の精度を達成した。 さらに、抽象認識モデルでは補間と補間の両方において合成一般化が改善された。 しかし,HotpotQAとCoQAでは,F1スコアは平均0.5%向上した。 以上の結果から,形式的論理構造を欠くnlpタスクにとって,明示的抽象化の利点は,多くの推論ホップを必要とする形式的論理推論設定において重要であることが示唆された。

Pre-trained language models (LMs) often struggle to reason logically or generalize in a compositional fashion. Recent work suggests that incorporating external entity knowledge can improve LMs' abilities to reason and generalize. However, the effect of explicitly providing entity abstraction remains unclear, especially with recent studies suggesting that pre-trained LMs already encode some of that knowledge in their parameters. We study the utility of incorporating entity type abstractions into pre-trained Transformers and test these methods on four NLP tasks requiring different forms of logical reasoning: (1) compositional language understanding with text-based relational reasoning (CLUTRR), (2) abductive reasoning (ProofWriter), (3) multi-hop question answering (HotpotQA), and (4) conversational question answering (CoQA). We propose and empirically explore three ways to add such abstraction: (i) as additional input embeddings, (ii) as a separate sequence to encode, and (iii) as an auxiliary prediction task for the model. Overall, our analysis demonstrates that models with abstract entity knowledge performs better than without it. However, our experiments also show that the benefits strongly depend on the technique used and the task at hand. The best abstraction aware models achieved an overall accuracy of 88.8% and 91.8% compared to the baseline model achieving 62.3% and 89.8% on CLUTRR and ProofWriter respectively. In addition, abstraction-aware models showed improved compositional generalization in both interpolation and extrapolation settings. However, for HotpotQA and CoQA, we find that F1 scores improve by only 0.5% on average. Our results suggest that the benefit of explicit abstraction is significant in formally defined logical reasoning settings requiring many reasoning hops, but point to the notion that it is less beneficial for NLP tasks having less formal logical structure.
翻訳日:2022-01-07 13:51:31 公開日:2022-01-05
# CausalSim: ネットワークプロトコルのための因果データ駆動シミュレータを目指して

CausalSim: Toward a Causal Data-Driven Simulator for Network Protocols ( http://arxiv.org/abs/2201.01811v1 )

ライセンス: Link先を確認
Abdullah Alomar, Pouya Hamadanian, Arash Nasr-Esfahany, Anish Agarwal, Mohammad Alizadeh, Devavrat Shah(参考訳) ネットワークプロトコルの実際の性能を評価することは難しい。 ランダム化制御試験(RCT)は、多くの研究者にとって高価でアクセスできないが、専門家が設計したシミュレータは実際のネットワークで複雑な振る舞いを捉えることができない。 この課題に対処するネットワークプロトコルのためのデータ駆動シミュレータCausalSimを提案する。 観測データからネットワーク行動を学ぶのは、データ収集に使用されるプロトコルがもたらすバイアスのため複雑である。 CausalSimは、一連のプロトコルの下で初期RTTからのトレースを使用して因果ネットワークモデルを学び、データに存在するバイアスを効果的に除去する。 このモデルを用いて、CausalSimは任意のプロトコルを同じトレース上でシミュレートすることができる。 CausalSimの鍵となるのは、RCTから得られるトレーニングデータによって存在する分散不変性を活用する、対向ニューラルネットワークトレーニングの新たな使用である。 実データと合成データの両方に対するCausalSimの広範な評価と、Pufferビデオストリーミングシステムからの9ヶ月以上の実際のデータを含む2つのユースケースにより、正確な偽造予測を提供し、専門家が設計した標準教師付き学習ベースラインと比較して平均44%と53%の予測誤差を低減した。

Evaluating the real-world performance of network protocols is challenging. Randomized control trials (RCT) are expensive and inaccessible to most researchers, while expert-designed simulators fail to capture complex behaviors in real networks. We present CausalSim, a data-driven simulator for network protocols that addresses this challenge. Learning network behavior from observational data is complicated due to the bias introduced by the protocols used during data collection. CausalSim uses traces from an initial RCT under a set of protocols to learn a causal network model, effectively removing the biases present in the data. Using this model, CausalSim can then simulate any protocol over the same traces (i.e., for counterfactual predictions). Key to CausalSim is the novel use of adversarial neural network training that exploits distributional invariances that are present due to the training data coming from an RCT. Our extensive evaluation of CausalSim on both real and synthetic datasets and two use cases, including more than nine months of real data from the Puffer video streaming system, shows that it provides accurate counterfactual predictions, reducing prediction error by 44% and 53% on average compared to expert-designed and standard supervised learning baselines.
翻訳日:2022-01-07 13:50:56 公開日:2022-01-05
# ニューラルネットワークを用いたグラフィカルオープンエンド応答の自動スコアリング

Automated Scoring of Graphical Open-Ended Responses Using Artificial Neural Networks ( http://arxiv.org/abs/2201.01783v1 )

ライセンス: Link先を確認
Matthias von Davier, Lillian Tyack, Lale Khorramdel(参考訳) フリードローイングや画像の回答による自動スコアリングは,学生の成果の大規模評価にはまだ活用されていない。 本研究では,コンピュータベースの国際数学・科学アセスメントから,これらのグラフィカル応答を分類する人工ニューラルネットワークを提案する。 畳み込み法とフィードフォワード法の分類精度を比較した。 その結果、畳み込みニューラルネットワーク(CNN)は、損失と精度の両方でフィードフォワードニューラルネットワークを上回っていることがわかった。 CNNモデルは、画像応答の97.71%までを適切な評価カテゴリーに分類した。 これらの知見は、最も正確なCNNモデルが、ヒトのラッカーによって誤って測定された画像応答を正しく分類しているという観察によってさらに強化された。 追加のイノベーションとして,アイテム応答理論に基づく期待応答関数の適用に基づいて,トレーニングサンプルに対する評価応答を選択する手法について概説する。 本稿では,CNNによる画像応答の自動評価は,大規模評価のための第2のレーダの作業負荷とコストに取って代わる可能性があり,複雑な構成対応項目の妥当性と可視性を向上させることができる,と論じる。

Automated scoring of free drawings or images as responses has yet to be utilized in large-scale assessments of student achievement. In this study, we propose artificial neural networks to classify these types of graphical responses from a computer based international mathematics and science assessment. We are comparing classification accuracy of convolutional and feedforward approaches. Our results show that convolutional neural networks (CNNs) outperform feedforward neural networks in both loss and accuracy. The CNN models classified up to 97.71% of the image responses into the appropriate scoring category, which is comparable to, if not more accurate, than typical human raters. These findings were further strengthened by the observation that the most accurate CNN models correctly classified some image responses that had been incorrectly scored by the human raters. As an additional innovation, we outline a method to select human rated responses for the training sample based on an application of the expected response function derived from item response theory. This paper argues that CNN-based automated scoring of image responses is a highly accurate procedure that could potentially replace the workload and cost of second human raters for large scale assessments, while improving the validity and comparability of scoring complex constructed-response items.
翻訳日:2022-01-07 13:50:33 公開日:2022-01-05
# 芸術の形式的分析:スタイルから言語モデルへの視覚概念のプロキシ学習

Formal Analysis of Art: Proxy Learning of Visual Concepts from Style Through Language Models ( http://arxiv.org/abs/2201.01819v1 )

ライセンス: Link先を確認
Diana Kim, Ahmed Elgammal, Marian Mazzone(参考訳) 本稿では,美術の視覚要素と原理のセットを用いて美術絵画を定量化できる機械学習システムを提案する。 この形式的分析は、芸術を理解するのに基本的なものであるが、そのようなシステムの開発は困難である。 絵画は視覚の複雑さが高いが、直接ラベルで十分なトレーニングデータを集めるのも困難である。 これらの実用上の限界を解決するために,絵画における視覚的概念を学習する,プロキシラーニングと呼ばれる新しいメカニズムを導入する。 このフレームワークはビジュアルアノテーションを必要としないが、スタイルラベルとビジュアル概念とスタイル間の一般的な関係のみを使用する。 本稿では,新しいプロキシモデルを提案し,既存の4つの手法をプロキシ学習の文脈で再構成する。 定量的および質的な比較を通じて,これらの手法を評価し,言語モデル,GloVe や BERT で一般的な関係を推定する芸術的視覚概念の定量化における有効性を比較する。 言語モデリングは、ラベル付けを必要としない実用的なスケーラブルなソリューションであるが、必然的に不完全である。 新しいプロキシモデルが不完全性に対して堅牢であるのに対して、他のモデルはその影響を敏感に受けています。

We present a machine learning system that can quantify fine art paintings with a set of visual elements and principles of art. This formal analysis is fundamental for understanding art, but developing such a system is challenging. Paintings have high visual complexities, but it is also difficult to collect enough training data with direct labels. To resolve these practical limitations, we introduce a novel mechanism, called proxy learning, which learns visual concepts in paintings though their general relation to styles. This framework does not require any visual annotation, but only uses style labels and a general relationship between visual concepts and style. In this paper, we propose a novel proxy model and reformulate four pre-existing methods in the context of proxy learning. Through quantitative and qualitative comparison, we evaluate these methods and compare their effectiveness in quantifying the artistic visual concepts, where the general relationship is estimated by language models; GloVe or BERT. The language modeling is a practical and scalable solution requiring no labeling, but it is inevitably imperfect. We demonstrate how the new proxy model is robust to the imperfection, while the other models are sensitively affected by it.
翻訳日:2022-01-07 13:50:14 公開日:2022-01-05
# GLAN: グラフベースの線形アサインメントネットワーク

GLAN: A Graph-based Linear Assignment Network ( http://arxiv.org/abs/2201.02057v1 )

ライセンス: Link先を確認
He Liu, Tao Wang, Congyan Lang, Songhe Feng, Yi Jin and Yidong Li(参考訳) 近年、線形代入問題(LAP)に対する微分可能解法は、学習フレームワークにコンポーネントとして組み込まれているため、多くの研究が注目されている。 しかしながら、学習戦略の有無に関わらず、従来のアルゴリズムは、通常、問題サイズの増大に伴う最適性の低下に悩まされる。 本稿では,ディープグラフネットワークに基づく学習可能な線形代入問題の解法を提案する。 具体的には,まずコスト行列を二部グラフに変換し,構築したグラフから信頼できるエッジを選択する問題に代入タスクを変換する。 その後、ノードとエッジの機能を集約して更新するディープグラフネットワークが開発された。 最後に、ネットワークは、割り当て関係を示す各エッジのラベルを予測する。 合成データセットを用いた実験結果から,本手法は最先端のベースラインを上回り,問題サイズの増大とともに一貫した精度を実現していることがわかった。 さらに,提案手法を最先端のベースラインソルバと比較して,一般的なマルチオブジェクトトラッキング(MOT)フレームワークに組み込んで,エンド・ツー・エンドでトラッカーをトレーニングする。 MOTベンチマークの実験結果から,提案したLAPソルバはトラッカーを最大マージンで改善することが示された。

Differentiable solvers for the linear assignment problem (LAP) have attracted much research attention in recent years, which are usually embedded into learning frameworks as components. However, previous algorithms, with or without learning strategies, usually suffer from the degradation of the optimality with the increment of the problem size. In this paper, we propose a learnable linear assignment solver based on deep graph networks. Specifically, we first transform the cost matrix to a bipartite graph and convert the assignment task to the problem of selecting reliable edges from the constructed graph. Subsequently, a deep graph network is developed to aggregate and update the features of nodes and edges. Finally, the network predicts a label for each edge that indicates the assignment relationship. The experimental results on a synthetic dataset reveal that our method outperforms state-of-the-art baselines and achieves consistently high accuracy with the increment of the problem size. Furthermore, we also embed the proposed solver, in comparison with state-of-the-art baseline solvers, into a popular multi-object tracking (MOT) framework to train the tracker in an end-to-end manner. The experimental results on MOT benchmarks illustrate that the proposed LAP solver improves the tracker by the largest margin.
翻訳日:2022-01-07 13:49:56 公開日:2022-01-05
# (参考訳) ゼロショット学習問題への自己教師ありアプローチ

Self-Supervised Approach to Addressing Zero-Shot Learning Problem ( http://arxiv.org/abs/2201.01391v1 )

ライセンス: CC BY 4.0
Ademola Okerinde and Sam Hoggatt and Divya Vani Lakkireddy and Nolan Brubaker and William Hsu and Lior Shamir and Brian Spiseman(参考訳) 近年,コンピュータビジョンや自然言語処理の応用において,自己教師あり学習が大きな成功を収めている。 このパフォーマンス向上には,プリテキストタスクのタイプが重要である。 一般的な前提課題は、画像のペア間の類似性と相似性の尺度である。 このシナリオでは、負のペアを構成する2つの画像は、人間と視覚的に異なる。 しかし、昆虫学では種はほとんど区別がつかないため区別が難しい。 本研究では,類似する種の組み合わせを分離し,類似した組込みをまとめる学習により,対照的な損失を生かしたシアムニューラルネットの性能について検討した。 実験の結果,ゼロショットインスタンスではf1-scoreが61%,トレーニングセットと交点を共有するクラスのサンプルでは11%改善した。

In recent years, self-supervised learning has had significant success in applications involving computer vision and natural language processing. The type of pretext task is important to this boost in performance. One common pretext task is the measure of similarity and dissimilarity between pairs of images. In this scenario, the two images that make up the negative pair are visibly different to humans. However, in entomology, species are nearly indistinguishable and thus hard to differentiate. In this study, we explored the performance of a Siamese neural network using contrastive loss by learning to push apart embeddings of bumblebee species pair that are dissimilar, and pull together similar embeddings. Our experimental results show a 61% F1-score on zero-shot instances, a performance showing 11% improvement on samples of classes that share intersections with the training set.
翻訳日:2022-01-06 18:42:42 公開日:2022-01-05
# (参考訳) データの不正化による欺きの摂動除去--システムロバスト性向上のための前処理法

Corrupting Data to Remove Deceptive Perturbation: Using Preprocessing Method to Improve System Robustness ( http://arxiv.org/abs/2201.01399v1 )

ライセンス: CC BY 4.0
Hieu Le, Hans Walker, Dung Tran, Peter Chin(参考訳) ディープニューラルネットワークは分類タスクにおいて優れた性能を発揮してきたが、最近の研究では、十分に訓練されたネットワークは微妙なノイズを加えることで騙されることが示された。 本稿では,自然学習型分類器上にリカバリ処理を適用することにより,ニューラルネットワークの堅牢性を改善する新しい手法を提案する。 このアプローチでは、画像は意図的に重要なオペレータによって破壊され、分類器を通過する前に復元される。 SARGAN - GAN(Generative Adversarial Networks)の拡張機能で、レーダー信号を識別することができる。 本稿では,SARGANが逆効果を取り除き,劣化画像の復元も可能であることを示す。 本研究では,本手法が自然学習ネットワークの性能を向上させることを示す。

Although deep neural networks have achieved great performance on classification tasks, recent studies showed that well trained networks can be fooled by adding subtle noises. This paper introduces a new approach to improve neural network robustness by applying the recovery process on top of the naturally trained classifier. In this approach, images will be intentionally corrupted by some significant operator and then be recovered before passing through the classifiers. SARGAN -- an extension on Generative Adversarial Networks (GAN) is capable of denoising radar signals. This paper will show that SARGAN can also recover corrupted images by removing the adversarial effects. Our results show that this approach does improve the performance of naturally trained networks.
翻訳日:2022-01-06 18:36:47 公開日:2022-01-05
# (参考訳) スケールにおける非構造媒体からの逆薬物反応のマイニング

Mining Adverse Drug Reactions from Unstructured Mediums at Scale ( http://arxiv.org/abs/2201.01405v1 )

ライセンス: CC BY 4.0
Hasham Ul Haq Veysel Kocaman David Talby(参考訳) 逆薬物反応/事象(ADR/ADE)は、患者の健康と医療費に大きな影響を及ぼす。 できるだけ早くadrを検出し、規制当局、製薬会社、医療提供者と共有することは、致死を防ぎ、多くの命を救える。 たいていのADRは、正式なチャンネルを通しては報告されていないが、患者によるソーシャルメディア投稿、カスタマーサポート電話の書き起こし、医療提供者と製薬販売担当者の会議のCRMノートなど、様々な非構造化の会話に記録されていることが多い。この記事では、そのような非構造化の会話の中でADRを検出する自然言語処理(NLP)ソリューションを提案し、3つの方法で改善する。 まず、新しい名前付きエンティティ認識(ner)モデルは、ade、cadec、smm4hベンチマークデータセット(それぞれ91.75%、78.76%、83.41%のf1スコア)でadrおよび薬物エンティティ抽出のための新しい最先端精度を得る。 第2に、BioBERTに基づいて2つの新しいリレーショナル抽出(RE)モデルを導入し、もう1つは、Fully Connected Neural Network(FCNN)よりも工芸的な特徴を活用して、既存の最先端モデルと同等に実行し、補助的なクリニック注釈REデータセットでトレーニングした場合に、それらを上回るパフォーマンスを示す。 第3に、会話にADRが含まれているかどうかを決定するための新しいテキスト分類モデルがCADECデータセット(86.69% F1スコア)で新しい最先端の精度を得る。 完全なソリューションは、Apache Spark上に構築されたプロダクショングレードライブラリに統一されたNLPパイプラインとして実装されている。

Adverse drug reactions / events (ADR/ADE) have a major impact on patient health and health care costs. Detecting ADR's as early as possible and sharing them with regulators, pharma companies, and healthcare providers can prevent morbidity and save many lives. While most ADR's are not reported via formal channels, they are often documented in a variety of unstructured conversations such as social media posts by patients, customer support call transcripts, or CRM notes of meetings between healthcare providers and pharma sales reps. In this paper, we propose a natural language processing (NLP) solution that detects ADR's in such unstructured free-text conversations, which improves on previous work in three ways. First, a new Named Entity Recognition (NER) model obtains new state-of-the-art accuracy for ADR and Drug entity extraction on the ADE, CADEC, and SMM4H benchmark datasets (91.75%, 78.76%, and 83.41% F1 scores respectively). Second, two new Relation Extraction (RE) models are introduced - one based on BioBERT while the other utilizing crafted features over a Fully Connected Neural Network (FCNN) - are shown to perform on par with existing state-of-the-art models, and outperform them when trained with a supplementary clinician-annotated RE dataset. Third, a new text classification model, for deciding if a conversation includes an ADR, obtains new state-of-the-art accuracy on the CADEC dataset (86.69% F1 score). The complete solution is implemented as a unified NLP pipeline in a production-grade library built on top of Apache Spark, making it natively scalable and able to process millions of batch or streaming records on commodity clusters.
翻訳日:2022-01-06 18:28:00 公開日:2022-01-05
# (参考訳) 画像を用いた屋内位置推定のためのFusing Convolutional Neural Networkと幾何学的制約

Fusing Convolutional Neural Network and Geometric Constraint for Image-based Indoor Localization ( http://arxiv.org/abs/2201.01408v1 )

ライセンス: CC BY 4.0
Jingwei Song, Mitesh Patel, and Maani Ghaffari(参考訳) 本稿では,畳み込みニューラルネットワーク(cnn)と逐次画像の幾何制約を用いて,カメラ/ロボットを明示的にローカライズする新しい画像ベースローカライズフレームワークを提案する。 カメラは、観察された1つまたは少数の画像と6自由度ポーズラベルのトレーニング画像を使用してローカライズされる。 画像ディスクリプタネットワークをトレーニングするためにシームズネットワーク構造を採用し、トレーニングセット内の視覚的に類似した候補画像を検索して、テストイメージを幾何学的にローカライズする。 一方、確率的動きモデルは、一定速度の仮定に基づいてポーズを予測する。 2つの推定されたポーズは、その不確実性を用いて最終的に融合され、正確なポーズ予測が得られる。 この方法は幾何学的不確実性を利用し、拡散照明が支配する屋内シナリオに適用できる。 シミュレーションと実データを用いた実験により,提案手法の有効性を示す。 さらに,CNNをベースとしたフレームワークと幾何学的制約を組み合わせることで,特にトレーニングデータサイズが小さい場合には,CNNのみの手法と比較して精度が向上することを示した。

This paper proposes a new image-based localization framework that explicitly localizes the camera/robot by fusing Convolutional Neural Network (CNN) and sequential images' geometric constraints. The camera is localized using a single or few observed images and training images with 6-degree-of-freedom pose labels. A Siamese network structure is adopted to train an image descriptor network, and the visually similar candidate image in the training set is retrieved to localize the testing image geometrically. Meanwhile, a probabilistic motion model predicts the pose based on a constant velocity assumption. The two estimated poses are finally fused using their uncertainties to yield an accurate pose prediction. This method leverages the geometric uncertainty and is applicable in indoor scenarios predominated by diffuse illumination. Experiments on simulation and real data sets demonstrate the efficiency of our proposed method. The results further show that combining the CNN-based framework with geometric constraint achieves better accuracy when compared with CNN-only methods, especially when the training data size is small.
翻訳日:2022-01-06 18:16:36 公開日:2022-01-05
# (参考訳) フェデレーションラーニングにおける品質課題の理解に向けて--ロバストネスのレンズからの一考察

Towards Understanding Quality Challenges of the Federated Learning: A First Look from the Lens of Robustness ( http://arxiv.org/abs/2201.01409v1 )

ライセンス: CC BY 4.0
Amin Eslami Abyane, Derui Zhu, Roberto Medeiros de Souza, Lei Ma, Hadi Hemmati(参考訳) フェデレーテッド・ラーニング(FL)は、実践的に広く採用されている分散学習パラダイムであり、すべての参加者のデータセット全体をトレーニングに活用しながら、ユーザのデータのプライバシを保護することを目的としている。 FLでは、複数のモデルをユーザで独立してトレーニングし、集中的に集約することで、グローバルモデルを反復的なプロセスで更新する。 このアプローチは設計によるプライバシ保護に優れているが、FLは依然として攻撃やビザンチン障害などの品質問題に悩まされる傾向にある。 FLのロバストアグリゲーション技術におけるこのような品質問題に対処するための最近の試みがある。 しかし,SOTA(State-of-the-art FL)技術の有効性はいまだ不明であり,総合的な研究がない。 そこで本研究では,SOTA FL技術の攻撃・障害発生における現状と課題をよりよく理解するために,複数の攻撃角度からSOTA FLの品質,(突然変異演算子による)模擬故障,および凝集(防御)手法を大規模に検討した。 特に, 2つの汎用画像データセットと, 実世界連合医療画像データセットについて検討を行った。 また,ユーザに対する攻撃・攻撃の分布と,データセットごとの独立・同一分散(IID)要因がロバスト性に与える影響を系統的に検討した。 496構成の大規模解析を行った結果,各ユーザ毎のミュータが最終モデルに無視できる影響があることが判明した。 さらに、最も堅牢なflアグリゲータの選択は、アタックとデータセットに依存する。 最後に、アグリゲータの単純なアンサンブルモデルを用いて、すべてのアグリゲータと構成上の単一のアグリゲータとほぼ同等、あるいはそれ以上に機能するジェネリックソリューションを実現できることを示す。

Federated learning (FL) is a widely adopted distributed learning paradigm in practice, which intends to preserve users' data privacy while leveraging the entire dataset of all participants for training. In FL, multiple models are trained independently on the users and aggregated centrally to update a global model in an iterative process. Although this approach is excellent at preserving privacy by design, FL still tends to suffer from quality issues such as attacks or byzantine faults. Some recent attempts have been made to address such quality challenges on the robust aggregation techniques for FL. However, the effectiveness of state-of-the-art (SOTA) robust FL techniques is still unclear and lacks a comprehensive study. Therefore, to better understand the current quality status and challenges of these SOTA FL techniques in the presence of attacks and faults, in this paper, we perform a large-scale empirical study to investigate the SOTA FL's quality from multiple angles of attacks, simulated faults (via mutation operators), and aggregation (defense) methods. In particular, we perform our study on two generic image datasets and one real-world federated medical image dataset. We also systematically investigate the effect of the distribution of attacks/faults over users and the independent and identically distributed (IID) factors, per dataset, on the robustness results. After a large-scale analysis with 496 configurations, we find that most mutators on each individual user have a negligible effect on the final model. Moreover, choosing the most robust FL aggregator depends on the attacks and datasets. Finally, we illustrate that it is possible to achieve a generic solution that works almost as well or even better than any single aggregator on all attacks and configurations with a simple ensemble model of aggregators.
翻訳日:2022-01-06 17:58:47 公開日:2022-01-05
# (参考訳) 視覚自己愛のためのテンソル変換の合成

Synthesizing Tensor Transformations for Visual Self-attention ( http://arxiv.org/abs/2201.01410v1 )

ライセンス: CC BY 4.0
Xian Wei, Xihao Wang, Hai Lan, JiaMing Lei, Yanhui Huang, Hui Yu, Jian Yang(参考訳) 自己注意は、画像分類や画像キャプションなどの視覚タスクにおけるパフォーマンスを高めながら、長距離関係の獲得に優れた能力を示している。 しかし、自己注意モジュールは、問合せキー値の特徴間のドット積乗法と次元アライメントに強く依存しており、(1)ドット積乗法は徹底的かつ冗長な計算をもたらす。 2)多次元テンソルとしてしばしば現れる視覚特徴マップのため、次元アライメントに対応するためにテンソル特徴のスケールを再構成することは、テンソル特徴マップの内部構造を破壊する可能性がある。 これらの問題に対処するため,画像テンソル特徴を直接処理するための自己アテンション型プラグインモジュールであるSynthesizing Tensor Transformations (STT)を提案する。 問合せキー値間のドット積乗算を計算せずに、基本STTはテンソル変換からなり、視覚情報から合成注意重みを学習する。 STTシリーズの有効性を画像分類と画像キャプションで検証した。 実験により,提案したSTTは,視覚上のタスクに基づく自己注意よりも頑健性を維持しつつ,競争性能を向上することが示された。

Self-attention shows outstanding competence in capturing long-range relationships while enhancing performance on vision tasks, such as image classification and image captioning. However, the self-attention module highly relies on the dot product multiplication and dimension alignment among query-key-value features, which cause two problems: (1) The dot product multiplication results in exhaustive and redundant computation. (2) Due to the visual feature map often appearing as a multi-dimensional tensor, reshaping the scale of the tensor feature to adapt to the dimension alignment might destroy the internal structure of the tensor feature map. To address these problems, this paper proposes a self-attention plug-in module with its variants, namely, Synthesizing Tensor Transformations (STT), for directly processing image tensor features. Without computing the dot-product multiplication among query-key-value, the basic STT is composed of the tensor transformation to learn the synthetic attention weight from visual information. The effectiveness of STT series is validated on the image classification and image caption. Experiments show that the proposed STT achieves competitive performance while keeping robustness compared to self-attention based above vision tasks.
翻訳日:2022-01-06 17:57:34 公開日:2022-01-05
# (参考訳) ニューラルネットワークにおける問題依存的注意と努力 : 画像分解への応用

Problem-dependent attention and effort in neural networks with an application to image resolution ( http://arxiv.org/abs/2201.01415v1 )

ライセンス: CC BY 4.0
Chris Rohlfs(参考訳) 本稿では,人間と動物が,その困難度に応じて問題に投じる注意と努力のレベルを変える生物学的現象に触発された,ニューラルネットワークに基づく新しい推定手法を提案する。 提案手法は、代替モデルの内部信頼度を自分自身の投射に活用する。 もし最もコストのかかるモデルがその分類に自信を持っているなら、それは使用される分類であり、そうでなければ、次の最低の実装コストのモデルが実行される、などである。 この連続的な複雑なモデルの使用は、モデルの内部適合度スコアとともに、正しい可能性を評価することで、分類精度の高い標準を維持しながら、リソースの使用を大幅に削減することができる。 このアプローチは、GoogleのStreet View House Numbersデータセットの数値認識問題に適用され、Digital Imageの高解像度および低解像度バージョンでトレーニングされたMultilayer Perceptron(MLP)ニューラルネットワークを使用する。 アルゴリズムはまず低解像度画像を調べ、初期低解像度パスからの分類が高い信頼性を持っていない場合にのみ高解像度画像に移行する。 ここで検討したMLPに対して、このシーケンシャルアプローチは、分類精度を犠牲にすることなく、50\%以上のリソース使用量の削減を可能にする。

This paper introduces a new neural network-based estimation approach that is inspired by the biological phenomenon whereby humans and animals vary the levels of attention and effort that they dedicate to a problem depending upon its difficulty. The proposed approach leverages alternate models' internal levels of confidence in their own projections. If the least costly model is confident in its classification, then that is the classification used; if not, the model with the next lowest cost of implementation is run, and so on. This use of successively more complex models -- together with the models' internal propensity scores to evaluate their likelihood of being correct -- makes it possible to substantially reduce resource use while maintaining high standards for classification accuracy. The approach is applied to the digit recognition problem from Google's Street View House Numbers dataset, using Multilayer Perceptron (MLP) neural networks trained on high- and low-resolution versions of the digit images. The algorithm examines the low-resolution images first, only moving to higher resolution images if the classification from the initial low-resolution pass does not have a high degree of confidence. For the MLPs considered here, this sequential approach enables a reduction in resource usage of more than 50\% without any sacrifice in classification accuracy.
翻訳日:2022-01-06 17:44:33 公開日:2022-01-05
# (参考訳) 災害対応ドローンの物体検出・多目的追跡・再同定の改善

Improving Object Detection, Multi-object Tracking, and Re-Identification for Disaster Response Drones ( http://arxiv.org/abs/2201.01494v1 )

ライセンス: CC BY 4.0
Chongkeun Paik, Hyunwoo J. Kim(参考訳) 我々は,災害対応ドローンの複数のカメラとコンピュータビジョンを用いて,複数の物体を検出し,識別することを目指している。 主な課題は、検出エラーの回避、ID切り替えとフラグメンテーションの解決、マルチスケール機能への適応、グローバルカメラモーションによる複数のビューである。 これらの問題を解決するために2つの簡単なアプローチが提案されている。 1つは、トラックレットアソシエーションを追加した高速マルチカメラシステムで、もう1つは、制限を解決するために高性能検出器とトラッカーを組み込んでいる。 (...) 最初のアプローチ(85.71%)の精度は、検証データセットのベースラインであるFairMOT(85.44%)と比べてわずかに改善されている。 L2-ノルム誤差に基づいて計算された最終的な結果では、ベースラインは48.1であり、提案されたモデルの組み合わせは34.9であり、誤差を27.4%削減する。 第2のアプローチでは、ハードウェアと時間制限のため、DeepSORTは全フレームの4分の1しか処理しないが、DeepSORT (42.9%) のモデルはリコールの点でFairMOT (71.4%) を上回っている。 両モデルはそれぞれ、2020年と2021年に韓国科学省とICTが主催した「AIグランドチャレンジ」で第2位と第3位にランクインした。 ソースコードはこれらのURLで公開されている(github.com/mlvlab/drone_ai_challenge, github.com/mlvlab/Drone_Task1, github.com/mlvlab/Rony2_task3, github.com/mlvlab/Drone_task4)。

We aim to detect and identify multiple objects using multiple cameras and computer vision for disaster response drones. The major challenges are taming detection errors, resolving ID switching and fragmentation, adapting to multi-scale features and multiple views with global camera motion. Two simple approaches are proposed to solve these issues. One is a fast multi-camera system that added a tracklet association, and the other is incorporating a high-performance detector and tracker to resolve restrictions. (...) The accuracy of our first approach (85.71%) is slightly improved compared to our baseline, FairMOT (85.44%) in the validation dataset. In the final results calculated based on L2-norm error, the baseline was 48.1, while the proposed model combination was 34.9, which is a great reduction of error by a margin of 27.4%. In the second approach, although DeepSORT only processes a quarter of all frames due to hardware and time limitations, our model with DeepSORT (42.9%) outperforms FairMOT (71.4%) in terms of recall. Both of our models ranked second and third place in the `AI Grand Challenge' organized by the Korean Ministry of Science and ICT in 2020 and 2021, respectively. The source codes are publicly available at these URLs (github.com/mlvlab/drone_ai_challenge, github.com/mlvlab/Drone_Task1, github.com/mlvlab/Rony2_task3, github.com/mlvlab/Drone_task4).
翻訳日:2022-01-06 17:34:22 公開日:2022-01-05
# (参考訳) 多視点ステレオにおける深度推定の再考:統一表現と焦点損失

Rethinking Depth Estimation for Multi-View Stereo: A Unified Representation and Focal Loss ( http://arxiv.org/abs/2201.01501v1 )

ライセンス: CC BY 4.0
Rui Peng, Rongjie Wang, Zhenyu Wang, Yawen Lai, Ronggang Wang(参考訳) 既存学習型多視点ステレオ手法の回帰・分類問題として深さ推定を解く。 これらの2つの表現は、最近は優れた性能を示しているが、間接学習コストボリュームによって回帰法が過剰に適合する傾向があり、分類法がその離散的な予測のために正確な深さを直接推測することはできないなど、依然として明らかな欠点がある。 本稿では、回帰と分類の利点を統一するために、統一と呼ばれる新しい表現を提案する。 分類法のようなコスト容積を直接制約することができるが、回帰法のようなサブピクセル深度予測も実現できる。 統一化の可能性を明らかにするため, 標本不均衡の課題に対処するために, より均一で合理的な新しい損失関数Unified Focal Lossを設計した。 これら2つの非バーデントモジュールを組み合わせることで、UniMVSNetと呼ばれる粗大なフレームワークを提供する。 DTU と Tanks and Temples のベンチマークで最初にランク付けした結果は、我々のモデルが最高の性能を発揮するだけでなく、最高の一般化能力を持っていることを確認する。

Depth estimation is solved as a regression or classification problem in existing learning-based multi-view stereo methods. Although these two representations have recently demonstrated their excellent performance, they still have apparent shortcomings, e.g., regression methods tend to overfit due to the indirect learning cost volume, and classification methods cannot directly infer the exact depth due to its discrete prediction. In this paper, we propose a novel representation, termed Unification, to unify the advantages of regression and classification. It can directly constrain the cost volume like classification methods, but also realize the sub-pixel depth prediction like regression methods. To excavate the potential of unification, we design a new loss function named Unified Focal Loss, which is more uniform and reasonable to combat the challenge of sample imbalance. Combining these two unburdened modules, we present a coarse-to-fine framework, that we call UniMVSNet. The results of ranking first on both DTU and Tanks and Temples benchmarks verify that our model not only performs the best but also has the best generalization ability.
翻訳日:2022-01-06 17:33:08 公開日:2022-01-05
# (参考訳) 学習静的インデックス作成における標準Vs一様二項探索とその変数--Sorted Data Benchmarking Software Platform上での検索を事例として

Standard Vs Uniform Binary Search and Their Variants in Learned Static Indexing: The Case of the Searching on Sorted Data Benchmarking Software Platform ( http://arxiv.org/abs/2201.01554v1 )

ライセンス: CC BY 4.0
Domenico Amato, Giosu\`e Lo Bosco, Raffaele Giancarlo(参考訳) The Searching on Sorted Data(略して{\bf SOSD)は、機械学習技術と古典的なアルゴリズムを組み合わせることで、ソートされたテーブルで検索する方法を新しく、非常に効果的な提案である学習インデックスをベンチマークするための高度に設計されたソフトウェアプラットフォームである。 このようなプラットフォームと関連するベンチマーク実験では、自然で直感的な選択に従って、最終探索段階は標準 (textbook) バイナリサーチによって実行される。 しかし、機械学習の予測を使用しない最近の研究は、主ループで \vir{branching} を避けるために合理化されている統一バイナリ検索が、L1 や L2 キャッシュに適合するなど、検索対象のテーブルが比較的小さい場合、その標準よりも性能が優れていることを示している。 k-ary Searchの結果は、大きなテーブルでも参照できる。 Learned Indexesに類似した振る舞いが期待できる。 最先端技術(State of the Art)に忠実な一連の実験により、学習指標(Learnered Indexes)に対して、標準ルーチン(バイナリまたはk-ary Search)の使用は、すべての内部メモリレベルにおいて、Uniformよりも優れていることを示す。 この事実は、これまでの自然選択を定量的に正当化する。 また,一様二項探索とk-ary Searchは,学習インデックスにおける空間の保存に有効であり,時間的性能も良好であることを示す。 本研究は,この新規かつ急速に成長する領域の方法論的意義と,アプリケーションドメイン,例えばデータベースや検索エンジンにおける学習指標の利用に関心のある実践者への情報提供について考察した。

The Searching on Sorted Data ({\bf SOSD}, in short) is a highly engineered software platform for benchmarking Learned Indexes, those latter being a novel and quite effective proposal of how to search in a sorted table by combining Machine Learning techniques with classic Algorithms. In such a platform and in the related benchmarking experiments, following a natural and intuitive choice, the final search stage is performed via the Standard (textbook) Binary Search procedure. However, recent studies, that do not use Machine Learning predictions, indicate that Uniform Binary Search, streamlined to avoid \vir{branching} in the main loop, is superior in performance to its Standard counterpart when the table to be searched into is relatively small, e.g., fitting in L1 or L2 cache. Analogous results hold for k-ary Search, even on large tables. One would expect an analogous behaviour within Learned Indexes. Via a set of extensive experiments, coherent with the State of the Art, we show that for Learned Indexes, and as far as the {\bf SOSD} software is concerned, the use of the Standard routine (either Binary or k-ary Search) is superior to the Uniform one, across all the internal memory levels. This fact provides a quantitative justification of the natural choice made so far. Our experiments also indicate that Uniform Binary and k-ary Search can be advantageous to use in order to save space in Learned Indexes, while granting a good performance in time. Our findings are of methodological relevance for this novel and fast-growing area and informative to practitioners interested in using Learned Indexes in application domains, e.g., Data Bases and Search Engines.
翻訳日:2022-01-06 17:19:43 公開日:2022-01-05
# (参考訳) ガンマ線照射によるシステムオンチップの異常検出のための機械学習

Using Machine Learning for Anomaly Detection on a System-on-Chip under Gamma Radiation ( http://arxiv.org/abs/2201.01588v1 )

ライセンス: CC BY 4.0
Eduardo Weber Wachter, Server Kasap, Sefki Kolozali, Xiaojun Zhai, Shoaib Ehsan, Klaus McDonald-Maier(参考訳) 新しいナノスケール技術の出現により、放射線環境における信頼性の高い電子システムの設計に重大な課題が生じた。 TID(Total Ionizing Dose)効果のようないくつかの放射線は、ナノスケールの電子機器に永続的な損傷を与えることが多く、TIDに取り組むための最先端技術は高価な放射線硬化装置を使用する。 本稿では、消費者電子レベルにおける機械学習アルゴリズムを用いて、TID効果に対処し、動作停止前に置き換えるよう監視する、新しい、異なるアプローチに焦点を当てる。 この条件は、基板がtid効果によって完全に故障した場合に予測する研究課題を有する。 我々は,ガンマ線照射下でFPGA基板の内部測定を行い,ガンマ線照射環境におけるセンサ計測の異常を検出するために3種類の機械学習アルゴリズムを用いた。 その結果,ガンマ線被曝レベルと基板測定値との間に有意な相関が認められた。 さらに, この異常検出結果から, 放射基底関数カーネル付きワンクラスサポートベクトルマシンの平均リコールスコアは0.95であることがわかった。 また、ボードが動作しなくなる前にすべての異常を検出することもできる。

The emergence of new nanoscale technologies has imposed significant challenges to designing reliable electronic systems in radiation environments. A few types of radiation like Total Ionizing Dose (TID) effects often cause permanent damages on such nanoscale electronic devices, and current state-of-the-art technologies to tackle TID make use of expensive radiation-hardened devices. This paper focuses on a novel and different approach: using machine learning algorithms on consumer electronic level Field Programmable Gate Arrays (FPGAs) to tackle TID effects and monitor them to replace before they stop working. This condition has a research challenge to anticipate when the board results in a total failure due to TID effects. We observed internal measurements of the FPGA boards under gamma radiation and used three different anomaly detection machine learning (ML) algorithms to detect anomalies in the sensor measurements in a gamma-radiated environment. The statistical results show a highly significant relationship between the gamma radiation exposure levels and the board measurements. Moreover, our anomaly detection results have shown that a One-Class Support Vector Machine with Radial Basis Function Kernel has an average Recall score of 0.95. Also, all anomalies can be detected before the boards stop working.
翻訳日:2022-01-06 17:09:01 公開日:2022-01-05
# (参考訳) 説明可能なAI技術を用いた銀河外超コンパクトドワーフと球状クラスターの検出

Detection of extragalactic Ultra-Compact Dwarfs and Globular Clusters using Explainable AI techniques ( http://arxiv.org/abs/2201.01604v1 )

ライセンス: CC BY 4.0
Mohammad Mohammadi, Jarvin Mutatiina, Teymoor Saifollahi, Kerstin Bune(参考訳) 銀河を取り巻く超コンパクト小星(UCD)や球状星団(GC)のような小さな恒星系は、これらの銀河を形成する融合現象のトレーサーとして知られている。 したがって、そのような系を特定することで銀河の集団形成、形成、進化を研究することができる。 しかし、画像データを用いたutds/gcsを検出する分光情報の欠如は極めて不確かである。 ここでは,これらの天体を前景の星や背景銀河から切り離すための機械学習モデルを,U,g,r,i,J,Ksという6つのフィルタでFornax銀河団のマルチ波長イメージングデータを用いて訓練することを目的とする。 オブジェクトのクラスは非常に不均衡であり、多くの自動分類技術に問題がある。 したがって、トレーニングデータの不均衡を処理するために、Synthetic Minority Over-Samplingを採用している。 次に,局所一般化行列学習ベクトル量子化(LGMLVQ)とランダムフォレスト(RF)の2つの分類器を比較した。 どちらの方法も精度と93パーセント以上のリコールでucds/gcsを識別でき、分類における各特徴次元%(色と角の大きさ)の重要性を反映した関連性を提供する。 どちらの方法も、この分類問題の重要なマーカーとして角の大きさを検出する。 u-i と i-Ks の色指数が最も重要な色であることは天文学的に予測されているが、我々は g-r などの色がより有益であることを示す。 優れた性能に加えて、lgmlvq法は、各クラス、クラス毎の代表サンプル、およびこのコントリビューションで示されているようにデータの非線形可視化を可能にすることで、さらなる解釈を可能にしている。 我々は、ucds/gcsを識別するために機械学習技術を使うことは、有望な結果につながると結論づける。

Compact stellar systems such as Ultra-compact dwarfs (UCDs) and Globular Clusters (GCs) around galaxies are known to be the tracers of the merger events that have been forming these galaxies. Therefore, identifying such systems allows to study galaxies mass assembly, formation and evolution. However, in the lack of spectroscopic information detecting UCDs/GCs using imaging data is very uncertain. Here, we aim to train a machine learning model to separate these objects from the foreground stars and background galaxies using the multi-wavelength imaging data of the Fornax galaxy cluster in 6 filters, namely u, g, r, i, J and Ks. The classes of objects are highly imbalanced which is problematic for many automatic classification techniques. Hence, we employ Synthetic Minority Over-sampling to handle the imbalance of the training data. Then, we compare two classifiers, namely Localized Generalized Matrix Learning Vector Quantization (LGMLVQ) and Random Forest (RF). Both methods are able to identify UCDs/GCs with a precision and a recall of >93 percent and provide relevances that reflect the importance of each feature dimension %(colors and angular sizes) for the classification. Both methods detect angular sizes as important markers for this classification problem. While it is astronomical expectation that color indices of u-i and i-Ks are the most important colors, our analysis shows that colors such as g-r are more informative, potentially because of higher signal-to-noise ratio. Besides the excellent performance the LGMLVQ method allows further interpretability by providing the feature importance for each individual class, class-wise representative samples and the possibility for non-linear visualization of the data as demonstrated in this contribution. We conclude that employing machine learning techniques to identify UCDs/GCs can lead to promising results.
翻訳日:2022-01-06 16:43:34 公開日:2022-01-05
# (参考訳) ブリッジと非定常マルチアームバンド

Bridging Adversarial and Nonstationary Multi-armed Bandit ( http://arxiv.org/abs/2201.01628v1 )

ライセンス: CC BY 4.0
Ningyuan Chen, Shuoguang Yang(参考訳) マルチアームのバンディットフレームワークでは、時変報酬分布を扱うために一般的に使われる2つの定式化がある: 逆バンディットと非定常バンディットである。 本論文では, オーラクル, アルゴリズム, 後悔分析の相違について述べるが, この2つを特殊ケースとしてスムーズにブリッジする統一的な定式化について述べる。 この定式化は、タイムウインドウ内で最高の固定アームを取るオラクルを使用します。 ウィンドウサイズによっては、非定常バンディットの逆バンディットと動的オラクルにおいて後からオラクルになる。 我々は、一致する下限で最適な後悔を得るアルゴリズムを提供する。

In the multi-armed bandit framework, there are two formulations that are commonly employed to handle time-varying reward distributions: adversarial bandit and nonstationary bandit. Although their oracles, algorithms, and regret analysis differ significantly, we provide a unified formulation in this paper that smoothly bridges the two as special cases. The formulation uses an oracle that takes the best-fixed arm within time windows. Depending on the window size, it turns into the oracle in hindsight in the adversarial bandit and dynamic oracle in the nonstationary bandit. We provide algorithms that attain the optimal regret with the matching lower bound.
翻訳日:2022-01-06 16:21:44 公開日:2022-01-05
# (参考訳) データストリーム進化のための適応型オンラインインクリメンタル学習

Adaptive Online Incremental Learning for Evolving Data Streams ( http://arxiv.org/abs/2201.01633v1 )

ライセンス: CC BY 4.0
Si-si Zhang, Jian-wei Liu, Xin Zuo(参考訳) 近年、オンラインインクリメンタル学習への関心が高まっている。 しかし、この分野には3つの大きな課題がある。 最初の大きな困難はコンセプトドリフトであり、つまり、ストリーミングデータの確率分布はデータが到着するにつれて変化する。 第2の難題は、新しい知識を学ぶ際に私たちが学んだことを忘れてしまう壊滅的な難しさです。 私たちがよく無視する最後のものは、潜在表現の学習です。 優れた潜在表現だけがモデルの予測精度を向上させることができる。 我々の研究はこの観察に基づいており、これらの困難を克服しようと試みている。 そこで本研究では,進化するデータストリーム(aoil)のための適応型オンラインインクリメンタル学習を提案する。 一方、メモリモジュールを用いたオートエンコーダでは、メモリモジュールによるオートエンコーダの再構成損失により、メモリモジュールによるオートエンコーダの遅延特性が得られ、概念ドリフトの存在を検知し、更新機構を起動し、モデルパラメータを時間内に調整することができた。 さらに,隠れたレイヤの活性化から派生した特徴を,共通の特徴とプライベートな特徴をそれぞれ抽出するために使用される2つの部分に分割する。 このアプローチによって、モデルが新しいインスタンスのプライベート機能を学ぶことはできますが、私たちが過去に学んだこと(共有機能)を忘れないでください。 同時に、融合特徴ベクトルを得るために、自己認識機構を用いて抽出した特徴を効果的に融合させ、潜在表現学習をさらに改善する。

Recent years have witnessed growing interests in online incremental learning. However, there are three major challenges in this area. The first major difficulty is concept drift, that is, the probability distribution in the streaming data would change as the data arrives. The second major difficulty is catastrophic forgetting, that is, forgetting what we have learned before when learning new knowledge. The last one we often ignore is the learning of the latent representation. Only good latent representation can improve the prediction accuracy of the model. Our research builds on this observation and attempts to overcome these difficulties. To this end, we propose an Adaptive Online Incremental Learning for evolving data streams (AOIL). We use auto-encoder with the memory module, on the one hand, we obtained the latent features of the input, on the other hand, according to the reconstruction loss of the auto-encoder with memory module, we could successfully detect the existence of concept drift and trigger the update mechanism, adjust the model parameters in time. In addition, we divide features, which are derived from the activation of the hidden layers, into two parts, which are used to extract the common and private features respectively. By means of this approach, the model could learn the private features of the new coming instances, but do not forget what we have learned in the past (shared features), which reduces the occurrence of catastrophic forgetting. At the same time, to get the fusion feature vector we use the self-attention mechanism to effectively fuse the extracted features, which further improved the latent representation learning.
翻訳日:2022-01-06 16:00:44 公開日:2022-01-05
# (参考訳) 生物医学文献からの知識グラフ作成のための関係抽出

Relationship extraction for knowledge graph creation from biomedical literature ( http://arxiv.org/abs/2201.01647v1 )

ライセンス: CC BY-SA 4.0
Nikola Milosevic, Wolfgang Thielemann(参考訳) 生物医学の研究は指数関数的なペースで成長しており、科学者、研究者、実践者はドメイン内の出版文献の量に対処できない。 文献で提示される知識は、主張や仮説を容易に見つけ、アクセスし、検証できる方法で体系化する必要がある。 知識グラフは、文献から意味的知識を表現するためのフレームワークを提供することができる。 しかし, 知識グラフを構築するためには, バイオメディカルエンティティ間の関係の形で知識を抽出し, 実体と関係型の両方を正規化する必要がある。 本稿では、バイオメディカル文献からのスケーラブルな関係抽出手法として、ルールベースと機械学習ベース(ナイーブベイズ、ランダムフォレスト、現代の深層学習の例としてT5ベースのモデル)を、知識グラフに統合するために提示し、比較する。 T5モデルは、大きなC4データセットとバランスの取れていないデータで事前トレーニングされているため、小さなデータセットの両方をうまく扱えることを示す。 最高のパフォーマンスモデルはバランスの取れたデータに基づいて微調整されたT5モデルで、F1スコアは0.88である。

Biomedical research is growing in such an exponential pace that scientists, researchers and practitioners are no more able to cope with the amount of published literature in the domain. The knowledge presented in the literature needs to be systematized in such a ways that claims and hypothesis can be easily found, accessed and validated. Knowledge graphs can provide such framework for semantic knowledge representation from literature. However, in order to build knowledge graph, it is necessary to extract knowledge in form of relationships between biomedical entities and normalize both entities and relationship types. In this paper, we present and compare few rule-based and machine learning-based (Naive Bayes, Random Forests as examples of traditional machine learning methods and T5-based model as an example of modern deep learning) methods for scalable relationship extraction from biomedical literature for the integration into the knowledge graphs. We examine how resilient are these various methods to unbalanced and fairly small datasets, showing that T5 model handles well both small datasets, due to its pre-training on large C4 dataset as well as unbalanced data. The best performing model was T5 model fine-tuned on balanced data, with reported F1-score of 0.88.
翻訳日:2022-01-06 15:59:14 公開日:2022-01-05
# (参考訳) 確率的ブロック最大化最小化の収束と複雑性

Convergence and Complexity of Stochastic Block Majorization-Minimization ( http://arxiv.org/abs/2201.01652v1 )

ライセンス: CC BY 4.0
Hanbaek Lyu(参考訳) Stochastic Majorization-minimization (SMM) は、固定データ分布からデータポイントをサンプリングし、目的関数の再帰的に定義されたMajorization surrogateを最小化する古典的なMajorization-minimizationのオンライン拡張である。 本稿では,サロゲートが多重凸のみをブロックし,単一ブロックが縮小半径内で一度に最適化される確率的ブロック偏化最小化を提案する。 SMMにおけるサロゲートの標準凸性要件を緩和し、オンラインCANDECOMP/PARAFAC(CP)辞書学習を含む幅広い適用性を提供し、特に問題次元が大きい場合の計算効率を向上する。 提案手法は,データサンプルに対する標準i.i.d.仮定を緩和し,潜在的に依存するデータストリームを導出する。 提案アルゴリズムは,実験損失関数に対して$O((\log n)^{1+\eps}/n^{1/2})$,期待損失関数に対して$O((\log n)^{1+\eps}/n^{1/4})$で制約の下で,非凸対象の定常点の集合にほぼ確実に収束することを示す。 追加の仮定の下では、後者の収束率は$o((\log n)^{1+\eps}/n^{1/2})$に改善できる。 本研究では,オンライン行列およびテンソル分解アルゴリズムに対して,一般マルコフデータ設定下で最初の収束率境界を与える。

Stochastic majorization-minimization (SMM) is an online extension of the classical principle of majorization-minimization, which consists of sampling i.i.d. data points from a fixed data distribution and minimizing a recursively defined majorizing surrogate of an objective function. In this paper, we introduce stochastic block majorization-minimization, where the surrogates can now be only block multi-convex and a single block is optimized at a time within a diminishing radius. Relaxing the standard strong convexity requirements for surrogates in SMM, our framework gives wider applicability including online CANDECOMP/PARAFAC (CP) dictionary learning and yields greater computational efficiency especially when the problem dimension is large. We provide an extensive convergence analysis on the proposed algorithm, which we derive under possibly dependent data streams, relaxing the standard i.i.d. assumption on data samples. We show that the proposed algorithm converges almost surely to the set of stationary points of a nonconvex objective under constraints at a rate $O((\log n)^{1+\eps}/n^{1/2})$ for the empirical loss function and $O((\log n)^{1+\eps}/n^{1/4})$ for the expected loss function, where $n$ denotes the number of data samples processed. Under some additional assumption, the latter convergence rate can be improved to $O((\log n)^{1+\eps}/n^{1/2})$. Our results provide first convergence rate bounds for various online matrix and tensor decomposition algorithms under a general Markovian data setting.
翻訳日:2022-01-06 15:43:40 公開日:2022-01-05
# (参考訳) 線形二次ガウス系学習における後悔下限

Regret Lower Bounds for Learning Linear Quadratic Gaussian Systems ( http://arxiv.org/abs/2201.01680v1 )

ライセンス: CC BY 4.0
Ingvar Ziemann, Henrik Sandberg(参考訳) 本稿では,LQG系を適応的に制御するための局所的ミニマックス後悔低境界について述べる。 我々は、スムーズなパラメトリズドインスタンスを検討し、問題構造を考慮するのに十分なインスタンス固有かつ柔軟な対数的後悔がいつ不可能かを理解する。 この理解は2つの重要な概念に依存している: 局所的不定形性; 最適ポリシーが最適ポリシーの識別に十分な励起を提供しておらず、縮退したフィッシャー情報行列を与えるとき; および、ポリシーに依存した情報行列の小さな固有値が、そのポリシーの後悔の点において有界であるときの情報-相対有界性(information-regret-boundedness)である。 ベイズ推定への還元とヴァン・ツリーの不等式の適用と合わせて、これら2つの条件は時間地平線において等級$\sqrt{T}$の後悔境界を証明するのに十分である。 この方法は、厳密な次元依存を示す下界を導き、制御理論問題定数で自然にスケールする。 例えば、限界安定性に近いシステムの動作は、基本的に制御の習得が難しいことを証明できます。 さらに、これらの条件を満たすシステムの大規模なクラス、中でも$A$-および$B$-matricesが不明な状態フィードバックシステムを示す。 最も重要なことは、本質的に過飽和な部分可観測系の非自明なクラスがこれらの条件を満たすこと、従って、$\sqrt{T}$下界が部分可観測系にも有効であることを示すことである。 最後に、我々の下界が古典的な制御理論の直観を捉えていることを示す2つの単純な例に目を向ける。

This paper presents local minimax regret lower bounds for adaptively controlling linear-quadratic-Gaussian (LQG) systems. We consider smoothly parametrized instances and provide an understanding of when logarithmic regret is impossible which is both instance specific and flexible enough to take problem structure into account. This understanding relies on two key notions: That of local-uninformativeness; when the optimal policy does not provide sufficient excitation for identification of the optimal policy, and yields a degenerate Fisher information matrix; and that of information-regret-boundedness, when the small eigenvalues of a policy-dependent information matrix are boundable in terms of the regret of that policy. Combined with a reduction to Bayesian estimation and application of Van Trees' inequality, these two conditions are sufficient for proving regret bounds on order of magnitude $\sqrt{T}$ in the time horizon, $T$. This method yields lower bounds that exhibit tight dimensional dependencies and scale naturally with control-theoretic problem constants. For instance, we are able to prove that systems operating near marginal stability are fundamentally hard to learn to control. We further show that large classes of systems satisfy these conditions, among them any state-feedback system with both $A$- and $B$-matrices unknown. Most importantly, we also establish that a nontrivial class of partially observable systems, essentially those that are over-actuated, satisfy these conditions, thus providing a $\sqrt{T}$ lower bound also valid for partially observable systems. Finally, we turn to two simple examples which demonstrate that our lower bound captures classical control-theoretic intuition: our lower bounds diverge for systems operating near marginal stability or with large filter gain -- these can be arbitrarily hard to (learn to) control.
翻訳日:2022-01-06 15:42:25 公開日:2022-01-05
# (参考訳) 機械学習学習作業負荷に対する動的GPUエネルギー最適化

Dynamic GPU Energy Optimization for Machine Learning Training Workloads ( http://arxiv.org/abs/2201.01684v1 )

ライセンス: CC BY 4.0
Farui Wang, Weizhe Zhang, Shichao Lai, Meng Hao, Zheng Wang(参考訳) GPUは機械学習ワークロードのトレーニングを加速するために広く使用されている。 現代の機械学習モデルがますます大きくなるにつれて、トレーニングに長い時間を要するようになり、GPUエネルギー消費が増加する。 本稿では、機械学習トレーニングワークロードのためのオンラインGPUエネルギー最適化フレームワークGPOEOを提案する。 GPOEOは、オンライン計測、多目的予測モデリング、探索最適化のための新しい手法を用いて、最適エネルギー構成を動的に決定する。 ターゲットのワークロードの挙動を特徴付けるために、GPOEOはGPUパフォーマンスカウンタを使用している。 性能カウンタのプロファイリングオーバーヘッドを低減するため、解析モデルを用いてトレーニングイテレーションの変更を検出し、イテレーションシフトを検出した場合にのみパフォーマンスカウンタデータを収集する。 GPOEOは勾配向上に基づく多目的モデルと局所探索アルゴリズムを用いて実行時間とエネルギー消費のトレードオフを求める。 NVIDIA RTX3080Ti GPU上で動作する2つのAIベンチマークスイートから、71の機械学習ワークロードに適用することにより、GPOEOを評価する。 NVIDIAのデフォルトのスケジューリング戦略と比較すると、GPOEOは平均エネルギーを16.2%削減し、平均実行時間は5.1%増加した。

GPUs are widely used to accelerate the training of machine learning workloads. As modern machine learning models become increasingly larger, they require a longer time to train, leading to higher GPU energy consumption. This paper presents GPOEO, an online GPU energy optimization framework for machine learning training workloads. GPOEO dynamically determines the optimal energy configuration by employing novel techniques for online measurement, multi-objective prediction modeling, and search optimization. To characterize the target workload behavior, GPOEO utilizes GPU performance counters. To reduce the performance counter profiling overhead, it uses an analytical model to detect the training iteration change and only collects performance counter data when an iteration shift is detected. GPOEO employs multi-objective models based on gradient boosting and a local search algorithm to find a trade-off between execution time and energy consumption. We evaluate the GPOEO by applying it to 71 machine learning workloads from two AI benchmark suites running on an NVIDIA RTX3080Ti GPU. Compared with the NVIDIA default scheduling strategy, GPOEO delivers a mean energy saving of 16.2% with a modest average execution time increase of 5.1%.
翻訳日:2022-01-06 15:41:00 公開日:2022-01-05
# (参考訳) コメント・サブ記事の効果的なデジタル化戦略--テクスチュアル・ヒストリーの構築に向けて

Strategies of Effective Digitization of Commentaries and Sub-commentaries: Towards the Construction of Textual History ( http://arxiv.org/abs/2201.01693v1 )

ライセンス: CC BY 4.0
Diptesh Kanojia, Malhar Kulkarni, Sayali Ghodekar, Eivind Kahrs, Pushpak Bhattacharyya(参考訳) 本稿では,「テキスト歴史ツール」と呼ばれるデジタルツールについて述べる。 文献学者がテキスト上で注釈やサブ記事のデジタル化に役立てるかもしれない特徴に特化して、その多彩な特徴について述べる。 このツールは、様々な時間段階を通してテキストの歴史的進化を捉え、様々な種類の関連テキストから得られた相互関連データをキャプチャする。 我々は、K\=a\'sik\=avrtti(KV)のテキストをサンプルテキストとして使用し、文献学者の助けを借りて、利用可能な注釈をデジタル化する。 我々は、Ny\=asa (Ny)、Padama\~njar\=i (Pm)、およびTantraprad\=ipa (Tp)、Makaranda (Mk)として知られるKVテキストのサブコメンタをデジタル化する。 各論点と副論点を機能単位に分割し,機能単位分割の背後にある方法論と動機を説明する。 我々の機能単位は、ツールに入力されたデータを用いた距離法に基づいて、テキストのより正確な系統木を生成するのに役立ちます。

This paper describes additional aspects of a digital tool called the 'Textual History Tool'. We describe its various salient features with special reference to those of its features that may help the philologist digitize commentaries and sub-commentaries on a text. This tool captures the historical evolution of a text through various temporal stages, and interrelated data culled from various types of related texts. We use the text of the K\=a\'sik\=avrtti (KV) as a sample text, and with the help of philologists, we digitize the commentaries available to us. We digitize the Ny\=asa (Ny), the Padama\~njar\=i (Pm) and sub commentaries on the KV text known as the Tantraprad\=ipa (Tp), and the Makaranda (Mk). We divide each commentary and sub-commentary into functional units and describe the methodology and motivation behind the functional unit division. Our functional unit division helps generate more accurate phylogenetic trees for the text, based on distance methods using the data entered in the tool.
翻訳日:2022-01-06 15:13:42 公開日:2022-01-05
# (参考訳) ベン・フォードの法則の発散と機械学習による指紋画像の分離性の検討

An Investigation Of Ben-ford's Law Divergence And Machine Learning Techniques For Separability Of Fingerprint Images ( http://arxiv.org/abs/2201.01699v1 )

ライセンス: CC BY 4.0
Aamo Iorliam, Orgem Emmanuel, and Yahaya I. Shehu(参考訳) 指紋データベースを攻撃者から守ることは、偽の受け入れ率や偽の拒絶率から保護するために非常に重要である。 指紋画像の識別における重要な特徴は、これらの異なる種類の指紋画像の特徴を利用することである。 本論文の目的は,指紋画像の分類を行うことである。

Protecting a fingerprint database against attackers is very vital in order to protect against false acceptance rate or false rejection rate. A key property in distinguishing fingerprint images is by exploiting the characteristics of these different types of fingerprint images. The aim of this paper is to perform the classification of fingerprint images.
翻訳日:2022-01-06 15:07:29 公開日:2022-01-05
# (参考訳) カラカヨガタの捕獲戦略 : アパダナを中心に

Some Strategies to Capture Karaka-Yogyata with Special Reference to apadana ( http://arxiv.org/abs/2201.01700v1 )

ライセンス: CC BY 4.0
Swaraja Salaskar, Diptesh Kanojia, Malhar Kulkarni(参考訳) 今日のデジタルワールド言語技術は重要になっている。 いくつかのソフトウェアが開発され、計算言語学の分野で利用可能である。 このようなツールは、古典語テキストを容易にアクセスできるようにする上で重要な役割を果たす。 インド哲学のいくつかの学派は、文章を正しく分析するための言語認知の様々な技術に寄与している。 これらの理論は、word sense disambiguation (wsd) のための計算ツールを構築するのに使うことができる。 WSDがなければ、適切な言語認知を持つことはできない。 これらの理論は「ヨージャト=a」の概念を言語認知の欠かせない原因とみなした。 そこで本研究では,これらの理論に基づいて,Yogyat\=a 個の単語をキャプチャするツールの開発について考察する。 テキストにおける曖昧さの問題を記述し、Yogyat\=a の助けを借りて計算的に解決する方法を提案する。 ここでは、Ny\=ayaとVy\=akaranaの2校のみが検討されている。 本論文は,本分野におけるツール作成の意義を示すものである。 また,このツールには,「オントロジータグセット」の作成や,レキシコンのマークアップ戦略も含んでいる。 本論文ではアブレーションの初回説明についても述べる。 このような戦略といくつかのケーススタディは、私たちの論文の中核を形成します。

In today's digital world language technology has gained importance. Several softwares, have been developed and are available in the field of computational linguistics. Such tools play a crucial role in making classical language texts easily accessible. Some Indian philosophical schools have contributed towards various techniques of verbal cognition to analyze sentences correctly. These theories can be used to build computational tools for word sense disambiguation (WSD). In the absence of WSD, one cannot have proper verbal cognition. These theories considered the concept of 'Yogyat\=a' (congruity or compatibility) as the indispensable cause of verbal cognition. In this work, we come up with some insights on the basis of these theories to create a tool that will capture Yogyat\=a of words. We describe the problem of ambiguity in a text and present a method to resolve it computationally with the help of Yogyat\=a. Here, only two major schools i.e. Ny\=aya and Vy\=akarana are considered. Our paper attempts to show the implication of the creation of our tool in this area. Also, our tool involves the creation of an 'ontological tag-set' as well as strategies to mark up the lexicon. The introductory description of ablation is also covered in this paper. Such strategies and some case studies shall form the core of our paper.
翻訳日:2022-01-06 15:02:28 公開日:2022-01-05
# (参考訳) 交叉確率:確率間隔の賭け

The intersection probability: betting with probability intervals ( http://arxiv.org/abs/2201.01729v1 )

ライセンス: CC BY-SA 4.0
Fabio Cuzzolin(参考訳) 確率間隔は不確実性の下で推論するための魅力的なツールである。 しかし、信念関数とは異なり、それらは実用理論の枠組みにおける決定に使用される自然な確率変換を欠いている。 本稿では,不確実性に対する幾何学的アプローチの枠組みにおいて,元来は信念関数に導かれる交叉確率を最も自然な変換として用いることを提案する。 その理論と定義を想起し、確率区間の体系の他の候補表現と比較し、確率シンプレックスにおける一対の単純さの焦点としてその決定的合理性について議論し、信念関数の伝達可能信念モデルに類似した確率区間の意思決定枠組みを概説する。

Probability intervals are an attractive tool for reasoning under uncertainty. Unlike belief functions, though, they lack a natural probability transformation to be used for decision making in a utility theory framework. In this paper we propose the use of the intersection probability, a transform derived originally for belief functions in the framework of the geometric approach to uncertainty, as the most natural such transformation. We recall its rationale and definition, compare it with other candidate representives of systems of probability intervals, discuss its credal rationale as focus of a pair of simplices in the probability simplex, and outline a possible decision making framework for probability intervals, analogous to the Transferable Belief Model for belief functions.
翻訳日:2022-01-06 14:57:17 公開日:2022-01-05
# 画素単位残留収縮ネットワークを用いたロバスト光子効率イメージング

Robust photon-efficient imaging using a pixel-wise residual shrinkage network ( http://arxiv.org/abs/2201.01453v1 )

ライセンス: Link先を確認
Gongxin Yao, Yiwei Chen, Yong Liu, Xiaomin Hu and Yu Pan(参考訳) 単一光子光検出・測位(lidar)は困難なシナリオで3dイメージングに広く応用されている。 しかし、限られた信号光子数と収集データ中の高ノイズは、深度画像を正確に予測する上で大きな課題となっている。 本稿では,各画素の最適なしきい値を適応的に生成し,ソフトしきい値により中間特性を解消する高ノイズデータからの光子効率イメージングのための画素単位残差縮小ネットワークを提案する。 さらに、最適化対象を画素単位の分類として再定義することで、既存の研究と比較した場合、確実かつ正確な深度推定が可能である。 シミュレーションと実世界の両方のデータセットで実施された総合的な実験により、提案モデルは最先端技術より優れ、1:100の極端ケースを含む異なる信号対雑音比で堅牢な撮像性能を維持することが示された。

Single-photon light detection and ranging (LiDAR) has been widely applied to 3D imaging in challenging scenarios. However, limited signal photon counts and high noises in the collected data have posed great challenges for predicting the depth image precisely. In this paper, we propose a pixel-wise residual shrinkage network for photon-efficient imaging from high-noise data, which adaptively generates the optimal thresholds for each pixel and denoises the intermediate features by soft thresholding. Besides, redefining the optimization target as pixel-wise classification provides a sharp advantage in producing confident and accurate depth estimation when compared with existing research. Comprehensive experiments conducted on both simulated and real-world datasets demonstrate that the proposed model outperforms the state-of-the-arts and maintains robust imaging performance under different signal-to-noise ratios including the extreme case of 1:100.
翻訳日:2022-01-06 14:56:25 公開日:2022-01-05
# 逆拡張カルマンフィルタ

Inverse Extended Kalman Filter ( http://arxiv.org/abs/2201.01539v1 )

ライセンス: Link先を確認
Himali Singh, Arpan Chattopadhyay and Kumar Vijay Mishra(参考訳) 近年の対逆系の進歩は、ベイズの観点からの逆フィルタリングに大きな研究関心を集めている。 例えば、敵のカルマンフィルタを推定することへの関心は、敵の将来のステップを予測する目的で追跡された推定を追跡することとなり、最近の逆カルマンフィルタ (i-kf) の定式化に繋がった。 この逆フィルタの文脈では、逆拡張カルマンフィルタ(I-EKF)を提案し、非線形プロセスダイナミクスと未知のフォワードフィルタへの入力の重要な課題に対処する。 我々は、前方および逆状態空間モデルにおける非線形性を考慮し、未知の入力を伴わないI-EKFを導出する。 この過程では、I-KF-with-unknown-inputも得られる。 次に, 有界非線形性と未知行列法の両方を用いて, 理論的安定性を保証する。 さらにこれらの定式化を一般化し、高次、ガウススム、およびディザードI-EKFの場合に結果を与える。 再帰的クラム・ラーオ下界をベンチマークとして, 様々な逆フィルタの数値実験を行った。

Recent advances in counter-adversarial systems have garnered significant research interest in inverse filtering from a Bayesian perspective. For example, interest in estimating the adversary's Kalman filter tracked estimate with the purpose of predicting the adversary's future steps has led to recent formulations of inverse Kalman filter (I-KF). In this context of inverse filtering, we address the key challenges of nonlinear process dynamics and unknown input to the forward filter by proposing inverse extended Kalman filter (I-EKF). We derive I-EKF with and without an unknown input by considering nonlinearity in both forward and inverse state-space models. In the process, I-KF-with-unknown-input is also obtained. We then provide theoretical stability guarantees using both bounded nonlinearity and unknown matrix approaches. We further generalize these formulations and results to the case of higher-order, Gaussian-sum, and dithered I-EKFs. Numerical experiments validate our methods for various proposed inverse filters using the recursive Cram\'er-Rao lower bound as a benchmark.
翻訳日:2022-01-06 14:56:09 公開日:2022-01-05
# RL支援インセンティブスキームによるオフセット不等競争

Offsetting Unequal Competition through RL-assisted Incentive Schemes ( http://arxiv.org/abs/2201.01450v1 )

ライセンス: Link先を確認
Paramita Koley, Aurghya Maiti, Sourangshu Bhattacharya, and Niloy Ganguly(参考訳) 本稿では,不平等な専門知識を持つ組織間の競争のダイナミクスについて検討する。 マルチエージェント強化学習は、このような不平等を相殺するために設計された様々なインセンティブスキームの影響をシミュレートし、理解するために使われてきた。 このゲームでは、不平等だがスキルレベルが変化している2つのチーム(弱く強い)が互いに競い合う。 そこで,本研究では,マルチエージェント強化学習アルゴリズム \our\ を提案する。これは,各エージェントにポリシーのアンサンブルを付与するとともに,サンプル空間を選択的に分割することで,チームメート間のインテリジェントなロール分割を誘発する教師付きコントローラである。 C-MADDPGを基盤となるフレームワークとして、両チームの最終的な報酬が同じになるように、弱いチームのためのインセンティブスキームを提案する。 インセンティブにもかかわらず、弱いチームの最終的な報酬は、強いチームから外れていることに気付きます。 検査では、弱いチームの全体的なインセンティブスキームが、そのチーム内の弱いエージェントに学習と改善のインセンティブを与えないことに気付きました。 これを相殺するため、我々は、より弱いプレイヤーに学習のインセンティブを与え、その結果、初期段階を超えて弱いチームがより強いチームと同等のパフォーマンスを発揮することを観察する。 論文の最終目標は、2つのチームの報酬を継続的にバランスをとる動的インセンティブスキームを策定することであった。 これは環境から最小限の情報を取得するrlエージェントを富んだインセンティブスキームを考案することで実現される。

This paper investigates the dynamics of competition among organizations with unequal expertise. Multi-agent reinforcement learning has been used to simulate and understand the impact of various incentive schemes designed to offset such inequality. We design Touch-Mark, a game based on well-known multi-agent-particle-environment, where two teams (weak, strong) with unequal but changing skill levels compete against each other. For training such a game, we propose a novel controller assisted multi-agent reinforcement learning algorithm \our\, which empowers each agent with an ensemble of policies along with a supervised controller that by selectively partitioning the sample space, triggers intelligent role division among the teammates. Using C-MADDPG as an underlying framework, we propose an incentive scheme for the weak team such that the final rewards of both teams become the same. We find that in spite of the incentive, the final reward of the weak team falls short of the strong team. On inspecting, we realize that an overall incentive scheme for the weak team does not incentivize the weaker agents within that team to learn and improve. To offset this, we now specially incentivize the weaker player to learn and as a result, observe that the weak team beyond an initial phase performs at par with the stronger team. The final goal of the paper has been to formulate a dynamic incentive scheme that continuously balances the reward of the two teams. This is achieved by devising an incentive scheme enriched with an RL agent which takes minimum information from the environment.
翻訳日:2022-01-06 14:55:39 公開日:2022-01-05
# 準閉位相前方線形予測解析とディープニューラルネットワークを用いたフォルマント追跡

Formant Tracking Using Quasi-Closed Phase Forward-Backward Linear Prediction Analysis and Deep Neural Networks ( http://arxiv.org/abs/2201.01525v1 )

ライセンス: Link先を確認
Dhananjaya Gowda, Bajibabu Bollepalli, Sudarsana Reddy Kadiri, Paavo Alku(参考訳) 本研究では,動的プログラミング(DP)とディープニューラルネット(DNN)に基づくトラッカーを用いてホルマント追跡を行う。 dp法を用いて6つのフォルマント推定法を最初に比較した。 6つの手法は線形予測(LP)アルゴリズム、重み付きLPアルゴリズム、最近開発された準閉相フォワード(QCP-FB)法である。 QCP-FBは比較で最高の性能を示した。 そこで,QCP-FBに基づく深層学習と信号処理の利点を組み合わせた新しいフォルマント追跡手法を提案する。 本手法では,同一フレームからQCP-FBによって計算された全極スペクトルのピークを用いて,音声フレームからDNNベースのトラッカーによって予測されるフォルマントを改良する。 その結果,提案したDNNトラッカーは,基準ホルマントトラッカーと比較して,最低3ホルマント検出率と推定誤差の両方が良好であった。 例えば、人気のあるwaveurferと比較すると、提案されているトラッカーは、最低3つのフォルマントに対する推定誤差が29%、48%、35%減少している。

Formant tracking is investigated in this study by using trackers based on dynamic programming (DP) and deep neural nets (DNNs). Using the DP approach, six formant estimation methods were first compared. The six methods include linear prediction (LP) algorithms, weighted LP algorithms and the recently developed quasi-closed phase forward-backward (QCP-FB) method. QCP-FB gave the best performance in the comparison. Therefore, a novel formant tracking approach, which combines benefits of deep learning and signal processing based on QCP-FB, was proposed. In this approach, the formants predicted by a DNN-based tracker from a speech frame are refined using the peaks of the all-pole spectrum computed by QCP-FB from the same frame. Results show that the proposed DNN-based tracker performed better both in detection rate and estimation error for the lowest three formants compared to reference formant trackers. Compared to the popular Wavesurfer, for example, the proposed tracker gave a reduction of 29%, 48% and 35% in the estimation error for the lowest three formants, respectively.
翻訳日:2022-01-06 14:55:12 公開日:2022-01-05
# 大規模集合データセットを用いた深層学習によるCoughからのCOVID-19分類

Using Deep Learning with Large Aggregated Datasets for COVID-19 Classification from Cough ( http://arxiv.org/abs/2201.01669v1 )

ライセンス: Link先を確認
Esin Darici, Nicholas Rasmussen, Jennifer Ranjani J., Jaclyn Xiao, Gunvant Chaudhari, Akanksha Rajput, Praveen Govindan, Minami Yamaura, Laura Gomezjurado, Amil Khanzada, Mert Pilanci(参考訳) コビッドウイルスのパンデミックは、世界中で500万人以上の人々が暮らしていると主張し、人類を苦しめている。 ワクチンは世界中で配布されているが、従来の医療にアクセスできない地域向けに安価なスクリーニング技術が必要であることは明らかである。 人工知能は、粗音を主スクリーニングモードとして利用するソリューションを提供することができる。 本稿では,現在学術文献で提示されている最大の評価データセットにおいて,比較的高いパーフォーマンスを達成した複数のモデルを提案する。 さらに、トレーニングデータサイズによってパフォーマンスが向上し、非伝統的な手段でCovid-19パンデミックと戦うために、世界中のデータ収集の必要性が示される。

The Covid-19 pandemic has been a scourge upon humanity, claiming the lives of more than 5 million people worldwide. Although vaccines are being distributed worldwide, there is an apparent need for affordable screening techniques to serve parts of the world that do not have access to traditional medicine. Artificial Intelligence can provide a solution utilizing cough sounds as the primary screening mode. This paper presents multiple models that have achieved relatively respectable perfor mance on the largest evaluation dataset currently presented in academic literature. Moreover, we also show that performance increases with training data size, showing the need for the world wide collection of data to help combat the Covid-19 pandemic with non-traditional means.
翻訳日:2022-01-06 14:54:55 公開日:2022-01-05
# (参考訳) Atomized Search長: ユーザモデルを超えて

Atomized Search Length: Beyond User Models ( http://arxiv.org/abs/2201.01745v1 )

ライセンス: CC BY 4.0
John Alex, Keith Hall, Donald Metzler(参考訳) ユーザエクスペリエンスの最適化をモデルとした現在のIRメトリクスは、IR空間のごく一部を計測しすぎている、と我々は主張する。 IRシステムが弱い場合、これらのメトリクスは、改善が必要なより深いドキュメントをアンサンプまたは完全にフィルタリングする。 irシステムが比較的強力な場合、これらのメトリクスはより深い関連文書のサンプルとなり、より強力なirシステムを支える可能性がある。 我々は過去28年間に70以上のtrecトラックを再分析し、上位の文書の約半分と下位の文書のほぼすべてを示した。 2020年のDeep Learningのトラックでは、ニューラルネットワークが最上位のドキュメントでほぼ最適であったのに対し、尾のドキュメントではBM25よりもわずかに向上していた。 我々の分析は,任意の深さですべての関連文書を正確に均一に測定できる,単純なシステム指向の基準である「原子探索長」に基づいている。

We argue that current IR metrics, modeled on optimizing user experience, measure too narrow a portion of the IR space. If IR systems are weak, these metrics undersample or completely filter out the deeper documents that need improvement. If IR systems are relatively strong, these metrics undersample deeper relevant documents that could underpin even stronger IR systems, ones that could present content from tens or hundreds of relevant documents in a user-digestible hierarchy or text summary. We reanalyze over 70 TREC tracks from the past 28 years, showing that roughly half undersample top ranked documents and nearly all undersample tail documents. We show that in the 2020 Deep Learning tracks, neural systems were actually near-optimal at top-ranked documents, compared to only modest gains over BM25 on tail documents. Our analysis is based on a simple new systems-oriented metric, 'atomized search length', which is capable of accurately and evenly measuring all relevant documents at any depth.
翻訳日:2022-01-06 14:53:07 公開日:2022-01-05
# 可変次元変換に基づく3次元事前トレーニングによる3次元医用画像解析の促進

Advancing 3D Medical Image Analysis with Variable Dimension Transform based Supervised 3D Pre-training ( http://arxiv.org/abs/2201.01426v1 )

ライセンス: Link先を確認
Shu Zhang, Zihao Li, Hong-Yu Zhou, Jiechao Ma, Yizhou Yu(参考訳) データ取得とアノテーションの両面での困難さは、3次元医用イメージングアプリケーションのためのトレーニングデータセットのサンプルサイズを著しく制限する。 その結果、十分な事前学習パラメータがない場合、スクラッチから高性能な3D畳み込みニューラルネットワークを構築することは難しい課題である。 従来の3D事前学習の取り組みは、予測的あるいはコントラスト的な学習をラベルのないデータに用い、不変な3D表現を構築する自己教師型アプローチにしばしば依存していた。 しかし、大規模な監視情報の入手が不可能なため、これらの学習フレームワークから意味的不変性と識別的表現を得ることは依然として問題である。 本稿では,大規模な2次元自然画像データセットからのセマンティックインテリジェンスを活用するために,革新的でシンプルな3Dネットワーク事前学習フレームワークを再考する。 再設計された3Dネットワークアーキテクチャにより、データ不足の問題に対処し、強力な3D表現を開発するために、修正された自然画像が使用される。 4つのベンチマークデータセットの総合的な実験により、提案した事前学習モデルが収束を効果的に加速し、分類、セグメンテーション、検出などの様々な3D医療画像タスクの精度を向上させることが示されている。 さらに、スクラッチからのトレーニングと比較して、最大60%のアノテーションの労力を節約できます。 nih deeplesionデータセット上でも同様に最先端検出性能を達成し、以前の自己教師付き、完全に教師付き事前トレーニングアプローチよりも優れており、スクラッチからトレーニングを行う方法も備えている。 3D医療モデルのさらなる開発を容易にするため,我々のコードと事前学習モデルウェイトはhttps://github.com/urmagicsmine/CSPRで公開されている。

The difficulties in both data acquisition and annotation substantially restrict the sample sizes of training datasets for 3D medical imaging applications. As a result, constructing high-performance 3D convolutional neural networks from scratch remains a difficult task in the absence of a sufficient pre-training parameter. Previous efforts on 3D pre-training have frequently relied on self-supervised approaches, which use either predictive or contrastive learning on unlabeled data to build invariant 3D representations. However, because of the unavailability of large-scale supervision information, obtaining semantically invariant and discriminative representations from these learning frameworks remains problematic. In this paper, we revisit an innovative yet simple fully-supervised 3D network pre-training framework to take advantage of semantic supervisions from large-scale 2D natural image datasets. With a redesigned 3D network architecture, reformulated natural images are used to address the problem of data scarcity and develop powerful 3D representations. Comprehensive experiments on four benchmark datasets demonstrate that the proposed pre-trained models can effectively accelerate convergence while also improving accuracy for a variety of 3D medical imaging tasks such as classification, segmentation and detection. In addition, as compared to training from scratch, it can save up to 60% of annotation efforts. On the NIH DeepLesion dataset, it likewise achieves state-of-the-art detection performance, outperforming earlier self-supervised and fully-supervised pre-training approaches, as well as methods that do training from scratch. To facilitate further development of 3D medical models, our code and pre-trained model weights are publicly available at https://github.com/urmagicsmine/CSPR.
翻訳日:2022-01-06 14:38:51 公開日:2022-01-05
# RGBDセマンティックセグメンテーションのためのアテンションベースデュアルスーパービジョンデコーダ

Attention-based Dual Supervised Decoder for RGBD Semantic Segmentation ( http://arxiv.org/abs/2201.01427v1 )

ライセンス: Link先を確認
Yang Zhang, Yang Yang, Chenyun Xiong, Guodong Sun, Yanwen Guo(参考訳) エンコーダ-デコーダモデルはrgbdセマンティクスセグメンテーションで広く使われており、そのほとんどは2ストリームネットワークで設計されている。 一般に、rgbdから色と幾何学的情報を共同推論することは意味セグメンテーションに有用である。 しかし、既存のほとんどのアプローチは、エンコーダとデコーダの両方で総合的にマルチモーダル情報を利用できない。 本稿では,rgbd意味セグメンテーションのための注意に基づく2重教師付きデコーダを提案する。 エンコーダでは,マルチレベル対の補完情報を深く抽出・融合するための,単純かつ効果的な注意に基づくマルチモーダル融合モジュールを設計した。 より堅牢な深層表現とリッチなマルチモーダル情報を得るために、異なるタスクの相関と補完的手がかりを効果的に活用するデュアルブランチデコーダを導入する。 NYUDv2とSUN-RGBDデータセットの大規模な実験により,本手法が最先端の手法に対して優れた性能を発揮することが示された。

Encoder-decoder models have been widely used in RGBD semantic segmentation, and most of them are designed via a two-stream network. In general, jointly reasoning the color and geometric information from RGBD is beneficial for semantic segmentation. However, most existing approaches fail to comprehensively utilize multimodal information in both the encoder and decoder. In this paper, we propose a novel attention-based dual supervised decoder for RGBD semantic segmentation. In the encoder, we design a simple yet effective attention-based multimodal fusion module to extract and fuse deeply multi-level paired complementary information. To learn more robust deep representations and rich multi-modal information, we introduce a dual-branch decoder to effectively leverage the correlations and complementary cues of different tasks. Extensive experiments on NYUDv2 and SUN-RGBD datasets demonstrate that our method achieves superior performance against the state-of-the-art methods.
翻訳日:2022-01-06 14:38:25 公開日:2022-01-05
# Cross-SRN: クロスコンボリューションによる構造保存型スーパーリゾリューションネットワーク

Cross-SRN: Structure-Preserving Super-Resolution Network with Cross Convolution ( http://arxiv.org/abs/2201.01458v1 )

ライセンス: Link先を確認
Yuqing Liu, Qi Jia, Xin Fan, Shanshe Wang, Siwei Ma, Wen Gao(参考訳) 低解像度 (LR) 画像から高解像度 (SR) 画像への復元は, 正確かつ明確である。 既存のディープラーニングは、SR結果の視覚的知覚において重要な役割を果たす画像の構造情報をほとんど無視している。 本稿では,マルチスケールな特徴融合方式で構造情報の探索と保存を行う階層的特徴利用ネットワークを設計する。 まず,従来のエッジ検出器を用いたクロス畳み込みを提案し,エッジ特徴の局所化と表現を行う。 次に,クロス畳み込みブロック (CCB) を特徴正規化とチャネルアテンションを用いて設計し,特徴の固有相関を考察する。 最後に,MFFG(Multi-scale feature fusion group)を利用して,クロス畳み込みブロックを埋め込み,階層的に異なるスケールの構造的特徴の関係を発達させ,クロス-SRNと呼ばれる軽量な構造保存ネットワークを呼び起こす。 実験の結果, クロスsrnは, 構造的詳細が明確で, 最先端の手法に対して, 競争力や優れた修復性能を発揮できることが示されている。 さらに,構造テクスチャの豊富な画像を選択するための基準を設定する。 提案したCross-SRNは、選択したベンチマークで最先端の手法よりも優れており、ネットワークがエッジを保存する上で大きな優位性を持っていることを示す。

It is challenging to restore low-resolution (LR) images to super-resolution (SR) images with correct and clear details. Existing deep learning works almost neglect the inherent structural information of images, which acts as an important role for visual perception of SR results. In this paper, we design a hierarchical feature exploitation network to probe and preserve structural information in a multi-scale feature fusion manner. First, we propose a cross convolution upon traditional edge detectors to localize and represent edge features. Then, cross convolution blocks (CCBs) are designed with feature normalization and channel attention to consider the inherent correlations of features. Finally, we leverage multi-scale feature fusion group (MFFG) to embed the cross convolution blocks and develop the relations of structural features in different scales hierarchically, invoking a lightweight structure-preserving network named as Cross-SRN. Experimental results demonstrate the Cross-SRN achieves competitive or superior restoration performances against the state-of-the-art methods with accurate and clear structural details. Moreover, we set a criterion to select images with rich structural textures. The proposed Cross-SRN outperforms the state-of-the-art methods on the selected benchmark, which demonstrates that our network has a significant advantage in preserving edges.
翻訳日:2022-01-06 14:38:07 公開日:2022-01-05
# FAVER:可変フレームレートビデオのブラインド品質予測

FAVER: Blind Quality Prediction of Variable Frame Rate Videos ( http://arxiv.org/abs/2201.01492v1 )

ライセンス: Link先を確認
Qi Zheng, Zhengzhong Tu, Pavan C. Madhusudana, Xiaoyang Zeng, Alan C. Bovik, Yibo Fan(参考訳) ビデオ品質アセスメント(VQA)は、最も大規模な多くのアプリケーションに影響を与える重要かつ困難な問題である。 近年のモバイルデバイスやクラウドコンピューティング技術の進歩により、インターネット上の高解像度、高フレームレート(HFR)ビデオをほぼ瞬時にキャプチャ、処理、共有することが可能になった。 ストリーミングビデオの品質をモニタし、コントロールできることで、より楽しいコンテンツの配信が可能になり、パーセプティブに最適化されたレートコントロールが可能になる。 したがって、大規模なデプロイが可能なVQAモデルを開発する必要がある。 近年、可変フレームレートとHFRビデオ品質のフル参照(FR)解析にいくつかの効果が適用されているが、フレームレートの変動をターゲットとしたノン参照(NR)VQAアルゴリズムの開発はほとんど研究されていない。 本稿では、フレームレート・アウェア・ビデオ評価器w/o参照(FAVER)をダブした、HFRビデオの評価のための第1種ブラインドVQAモデルを提案する。 FAVERは、時空のウェーブレット分解ビデオ信号を含む空間自然界統計の拡張モデルを用いて、効率的なフレームレートの感度の高い品質予測を行う。 いくつかのHFRビデオ品質データセットに対する広範な実験により、FAVERは他の盲点VQAアルゴリズムよりも高い計算コストで性能を発揮することが示された。 再現可能な研究と公開評価を容易にするため、FAVERの実装はオンラインで無料で利用可能になっている。

Video quality assessment (VQA) remains an important and challenging problem that affects many applications at the widest scales. Recent advances in mobile devices and cloud computing techniques have made it possible to capture, process, and share high resolution, high frame rate (HFR) videos across the Internet nearly instantaneously. Being able to monitor and control the quality of these streamed videos can enable the delivery of more enjoyable content and perceptually optimized rate control. Accordingly, there is a pressing need to develop VQA models that can be deployed at enormous scales. While some recent effects have been applied to full-reference (FR) analysis of variable frame rate and HFR video quality, the development of no-reference (NR) VQA algorithms targeting frame rate variations has been little studied. Here, we propose a first-of-a-kind blind VQA model for evaluating HFR videos, which we dub the Framerate-Aware Video Evaluator w/o Reference (FAVER). FAVER uses extended models of spatial natural scene statistics that encompass space-time wavelet-decomposed video signals, to conduct efficient frame rate sensitive quality prediction. Our extensive experiments on several HFR video quality datasets show that FAVER outperforms other blind VQA algorithms at a reasonable computational cost. To facilitate reproducible research and public evaluation, an implementation of FAVER is being made freely available online: \url{https://github.com/uniqzheng/HFR-BVQA}.
翻訳日:2022-01-06 14:37:47 公開日:2022-01-05
# 特徴保存点クラウドフィルタリングにおける一様点分布に向けて

Towards Uniform Point Distribution in Feature-preserving Point Cloud Filtering ( http://arxiv.org/abs/2201.01503v1 )

ライセンス: Link先を確認
Shuaijun Chen, Jinxi Wang, Wei Pan, Shang Gao, Meili Wang, Xuequan Lu(参考訳) 3dデータの一般的な表現として、point cloudにはノイズが含まれており、使用前にフィルタリングする必要がある。 既存の点雲フィルタリング手法は、シャープな特徴を保存できないか、フィルタされた出力に不均一な点分布をもたらす。 この問題に対処するため,本稿では,点分布と特徴保存の両方を考慮したポイントクラウドフィルタリング手法を提案する。 鍵となる考え方は、エネルギー最小化においてデータ項に反発項を組み込むことである。 反発項は点分布に責任を持ち、データ項は幾何学的特徴を保ちながらノイズ表面を近似する。 この方法は、細かな特徴と鋭い特徴を持つモデルを扱うことができる。 実験により,より均一な点分布(平均で5.8\times10^{-5}$ Chamfer Distance)を数秒で得られることがわかった。

As a popular representation of 3D data, point cloud may contain noise and need to be filtered before use. Existing point cloud filtering methods either cannot preserve sharp features or result in uneven point distribution in the filtered output. To address this problem, this paper introduces a point cloud filtering method that considers both point distribution and feature preservation during filtering. The key idea is to incorporate a repulsion term with a data term in energy minimization. The repulsion term is responsible for the point distribution, while the data term is to approximate the noisy surfaces while preserving the geometric features. This method is capable of handling models with fine-scale features and sharp features. Extensive experiments show that our method yields better results with a more uniform point distribution ($5.8\times10^{-5}$ Chamfer Distance on average) in seconds.
翻訳日:2022-01-06 14:37:21 公開日:2022-01-05
# 生成的adversarial networkを用いた文化から文化への画像翻訳

Culture-to-Culture Image Translation with Generative Adversarial Networks ( http://arxiv.org/abs/2201.01565v1 )

ライセンス: Link先を確認
Giulia Zaino, Carmine Tommaso Recchiuto, and Antonio Sgorbissa(参考訳) 本論では, イメージ「文化化」の概念,すなわち, 「文化的特徴のブラシストローク」を変容させる過程として定義し, その機能を維持しつつ, 特定の文化に属するものとして認識される物体を創出する。 まず,GAN(Generative Adversarial Networks)に基づいて,オブジェクトのイメージをソースから対象の文化的領域に翻訳するパイプラインを提案する。 そこで,我々は,異なる文化に属する対象や環境に対するイタリア人の嗜好に関する4つの仮説を,オンラインアンケートを通じて収集した。 予想通り、結果は個人の嗜好と好みに依存する:しかし、ロボットや他の知的システムとのインタラクション中に、文化領域が文化的背景に適合するように修正されたイメージを示すのが好まれるかもしれないという我々の推測と一致している。

This article introduces the concept of image "culturization", i.e., defined as the process of altering the "brushstroke of cultural features" that make objects perceived as belonging to a given culture while preserving their functionalities. First, we propose a pipeline for translating objects' images from a source to a target cultural domain based on Generative Adversarial Networks (GAN). Then, we gather data through an online questionnaire to test four hypotheses concerning the preferences of Italian participants towards objects and environments belonging to different cultures. As expected, results depend on individual tastes and preference: however, they are in line with our conjecture that some people, during the interaction with a robot or another intelligent system, might prefer to be shown images whose cultural domain has been modified to match their cultural background.
翻訳日:2022-01-06 14:37:08 公開日:2022-01-05
# エンドツーエンド画像圧縮のための真の速度歪み最適化の学習

Learning True Rate-Distortion-Optimization for End-To-End Image Compression ( http://arxiv.org/abs/2201.01586v1 )

ライセンス: Link先を確認
Fabian Brand, Kristian Fischer, Alexander Kopte, Andr\'e Kaup(参考訳) 速度歪みの最適化は従来の画像圧縮とビデオ圧縮の重要な部分であるが、この概念をエンドツーエンドのイメージ圧縮に転送するアプローチは多くはない。 ほとんどのフレームワークには、トレーニング後に修正される静的圧縮と減算モデルが含まれているため、効率的なレート分散最適化は不可能である。 本稿では,HEVCにおける適応ブロック分割に匹敵するRDOアプローチを実現するRDONetを提案する。 本稿では,RDO結果の低複雑さ推定をトレーニングに導入することにより,トレーニングの強化を図る。 さらに,高速かつ高速なRDO推論モードを提案する。 新たなトレーニング手法により、従来のRDONetモデルと比較して、MS-SSIMの平均保存率19.6%を達成し、従来のディープイメージコーダに比べて27.3%の削減率を実現した。

Even though rate-distortion optimization is a crucial part of traditional image and video compression, not many approaches exist which transfer this concept to end-to-end-trained image compression. Most frameworks contain static compression and decompression models which are fixed after training, so efficient rate-distortion optimization is not possible. In a previous work, we proposed RDONet, which enables an RDO approach comparable to adaptive block partitioning in HEVC. In this paper, we enhance the training by introducing low-complexity estimations of the RDO result into the training. Additionally, we propose fast and very fast RDO inference modes. With our novel training method, we achieve average rate savings of 19.6% in MS-SSIM over the previous RDONet model, which equals rate savings of 27.3% over a comparable conventional deep image coder.
翻訳日:2022-01-06 14:36:53 公開日:2022-01-05
# 深層学習に基づく頭頸部臓器分節のクラス不均衡問題への対処

Tackling the Class Imbalance Problem of Deep Learning Based Head and Neck Organ Segmentation ( http://arxiv.org/abs/2201.01636v1 )

ライセンス: Link先を確認
Elias Tappeiner, Martin Welk and Rainer Schubert(参考訳) リスクのある臓器の分節化(OAR)は、画像誘導放射線治療によるがん治療の前提条件である。 したがって、セグメンテーションタスクの自動化は、高い臨床関連性を持つ。 深層学習(DL)に基づく医用画像分割は、現在最も成功したアプローチであるが、背景階級の過剰発現と解剖学的に与えられた臓器の大きさ差に悩まされており、頭頸部(HAN)領域では最も重篤である。 ハンエリア固有のクラス不均衡問題に取り組むため,我々はまず,導入したクラス不均衡測定に基づくnnu-netという汎用セグメンテーションフレームワークのパッチサイズを最適化し,次に,高度不均衡設定を補償するためにクラス適応ダイスロスを導入する。 パッチサイズと損失関数の両方がクラス不均衡に直接影響するパラメータであり、それらの最適化はダイススコアを3\%増加させ、95%ハウスドルフ距離をベースラインと比較すると22%減少させ、最終的に単一の単純なニューラルネットワークを用いて7つの漢器官をセグメンテーションするために0.8\pm0.15$と3.17\pm1.7$mmに達する。 パッチサイズ最適化とクラス適応Dice損失はどちらも、現在のDLベースのセグメンテーションアプローチで単純に統合可能であり、クラス不均衡セグメンテーションタスクのパフォーマンスを向上させることができる。

The segmentation of organs at risk (OAR) is a required precondition for the cancer treatment with image guided radiation therapy. The automation of the segmentation task is therefore of high clinical relevance. Deep Learning (DL) based medical image segmentation is currently the most successful approach, but suffers from the over-presence of the background class and the anatomically given organ size difference, which is most severe in the head and neck (HAN) area. To tackle the HAN area specific class imbalance problem we first optimize the patch-size of the currently best performing general purpose segmentation framework, the nnU-Net, based on the introduced class imbalance measurement, and second, introduce the class adaptive Dice loss to further compensate for the highly imbalanced setting. Both the patch-size and the loss function are parameters with direct influence on the class imbalance and their optimization leads to a 3\% increase of the Dice score and 22% reduction of the 95% Hausdorff distance compared to the baseline, finally reaching $0.8\pm0.15$ and $3.17\pm1.7$ mm for the segmentation of seven HAN organs using a single and simple neural network. The patch-size optimization and the class adaptive Dice loss are both simply integrable in current DL based segmentation approaches and allow to increase the performance for class imbalanced segmentation tasks.
翻訳日:2022-01-06 14:36:37 公開日:2022-01-05
# グラフニューラルネットワークを用いたマルチロボット協調知覚

Multi-Robot Collaborative Perception with Graph Neural Networks ( http://arxiv.org/abs/2201.01760v1 )

ライセンス: Link先を確認
Yang Zhou, Jiuhong Xiao, Yue Zhou, and Giuseppe Loianno(参考訳) 空飛ぶロボットの群れのようなマルチロボットシステムは、エージェント間の協調を可能にすることで、複数のタスクに対して柔軟性、レジリエンス、堅牢性を提供するのに自然に適している。 自律型ロボット意思決定プロセスと状況認識を強化するために、マルチロボットシステムは、文脈に合った情報を正確に取得したり、センサノイズや故障に対する反発力を得るために、エージェント間の環境情報を収集、共有、融合するための認識能力を調整する必要がある。 本稿では,マルチロボット認識タスク,単一ロボットの推論知覚精度,センサ故障や障害に対するレジリエンスの向上を主目的とした汎用グラフニューラルネットワーク(GNN)を提案する。 提案手法は,単眼深度推定やセマンティックセグメンテーションなどの多視点視覚認識問題に対処できることを示す。 複数の空中ロボットの視点から収集したフォトリアリスティックと実データを用いたいくつかの実験は、重騒音やカメラのオクルージョンや故障などの画像を含む推論条件に挑戦する手法の有効性を示している。

Multi-robot systems such as swarms of aerial robots are naturally suited to offer additional flexibility, resilience, and robustness in several tasks compared to a single robot by enabling cooperation among the agents. To enhance the autonomous robot decision-making process and situational awareness, multi-robot systems have to coordinate their perception capabilities to collect, share, and fuse environment information among the agents in an efficient and meaningful way such to accurately obtain context-appropriate information or gain resilience to sensor noise or failures. In this paper, we propose a general-purpose Graph Neural Network (GNN) with the main goal to increase, in multi-robot perception tasks, single robots' inference perception accuracy as well as resilience to sensor failures and disturbances. We show that the proposed framework can address multi-view visual perception problems such as monocular depth estimation and semantic segmentation. Several experiments both using photo-realistic and real data gathered from multiple aerial robots' viewpoints show the effectiveness of the proposed approach in challenging inference conditions including images corrupted by heavy noise and camera occlusions or failures.
翻訳日:2022-01-06 14:35:48 公開日:2022-01-05
# 非接触容量センシングに基づくモーションジェスチャ認識を用いたリアルタイムインタフェース制御

Real-time Interface Control with Motion Gesture Recognition based on Non-contact Capacitive Sensing ( http://arxiv.org/abs/2201.01755v1 )

ライセンス: Link先を確認
Hunmin Lee, Jaya Krishna Mandivarapu, Nahom Ogbazghi, Yingshu Li(参考訳) 容量センシング(capacitive sensing)は、既存のセンシングシステムよりも高速な認識速度で、コスト効率が高く低消費電力な技術である。 これらの利点から, タッチセンシング, 局所化, 存在検出, ヒューマン・コンピュータ・インタラクションなどの接触センシングインタフェースの分野で, 容量センシングが広く研究され, 商業化されている。 しかし、非接触近接センシング方式は周辺物体や周辺機器の乱れの影響を受けやすいため、接触センシングよりも相当な感度のデータ処理が必要となり、さらなる利用が制限される。 本稿では、原信号処理による非接触手の動き認識に基づくリアルタイムインタフェース制御フレームワークを提案し、適応しきい値を用いて、静電容量センサ近傍のハンドジェスチャー動作によって引き起こされる電界乱を検知し、有意な信号フレームを98.8%の検出率と98.4%のフレーム補正率でカバーする。 抽出した信号フレームを用いて学習したGRUモデルを用いて,手の動きのジェスチャータイプを98.79%の精度で分類する。 フレームワークは分類結果を送信し、入力に応じて前景プロセスのインターフェースを操作します。 本研究は,人間と機械とのフレキシブルな相互作用を自然ユーザインタフェースと類似し得る直感的インタフェース技術の実現可能性を示し,非接触近接センシング技術による電界乱測定に基づく商業化の可能性を高めることを提案する。

Capacitive sensing is a prominent technology that is cost-effective and low power consuming with fast recognition speed compared to existing sensing systems. On account of these advantages, Capacitive sensing has been widely studied and commercialized in the domains of touch sensing, localization, existence detection, and contact sensing interface application such as human-computer interaction. However, as a non-contact proximity sensing scheme is easily affected by the disturbance of peripheral objects or surroundings, it requires considerable sensitive data processing than contact sensing, limiting the use of its further utilization. In this paper, we propose a real-time interface control framework based on non-contact hand motion gesture recognition through processing the raw signals, detecting the electric field disturbance triggered by the hand gesture movements near the capacitive sensor using adaptive threshold, and extracting the significant signal frame, covering the authentic signal intervals with 98.8% detection rate and 98.4% frame correction rate. Through the GRU model trained with the extracted signal frame, we classify the 10 hand motion gesture types with 98.79% accuracy. The framework transmits the classification result and maneuvers the interface of the foreground process depending on the input. This study suggests the feasibility of intuitive interface technology, which accommodates the flexible interaction between human to machine similar to Natural User Interface, and uplifts the possibility of commercialization based on measuring the electric field disturbance through non-contact proximity sensing which is state-of-the-art sensing technology.
翻訳日:2022-01-06 14:35:32 公開日:2022-01-05
# 経験的ネットワークにおける確率的ブロックモデルの適合性に関する体系的評価

Systematic assessment of the quality of fit of the stochastic block model for empirical networks ( http://arxiv.org/abs/2201.01658v1 )

ライセンス: Link先を確認
Felipe Vaca-Ram\'irez, Tiago P. Peixoto(参考訳) 広い範囲のドメインと大きさのオーダーにまたがる275の経験的ネットワークに対して,確率的ブロックモデル(sbm)の適合性に関する体系的分析を行う。 ネットワーク記述子の集合によれば, 推定されたモデルが生成するネットワークと経験的ネットワークを比較することで, 適合性の質を評価する基準として後方予測モデルチェックを用いる。 我々は,SBMが考慮されているネットワークの大部分に対して正確な記述を提供することができるが,すべてのモデリング要件を飽和させるには至っていないことを観察する。 特に、大きな直径と遅い混合ランダムウォークを持つネットワークは、SBMによってひどく説明される傾向がある。 しかし、しばしば想定されることとは対照的に、三角形の豊富なネットワークは多くの場合、sbmによってよく説明できる。 我々は、単純なネットワーク記述子を用いて、sbmが十分に正確な表現を提供できるかどうかを評価できることを実証し、このタイプのモデルの表現性を体系的に改善できるモデル拡張の可能性を示す。

We perform a systematic analysis of the quality of fit of the stochastic block model (SBM) for 275 empirical networks spanning a wide range of domains and orders of size magnitude. We employ posterior predictive model checking as a criterion to assess the quality of fit, which involves comparing networks generated by the inferred model with the empirical network, according to a set of network descriptors. We observe that the SBM is capable of providing an accurate description for the majority of networks considered, but falls short of saturating all modeling requirements. In particular, networks possessing a large diameter and slow-mixing random walks tend to be badly described by the SBM. However, contrary to what is often assumed, networks with a high abundance of triangles can be well described by the SBM in many cases. We demonstrate that simple network descriptors can be used to evaluate whether or not the SBM can provide a sufficiently accurate representation, potentially pointing to possible model extensions that can systematically improve the expressiveness of this class of models.
翻訳日:2022-01-06 14:35:05 公開日:2022-01-05
# balsa: エキスパートデモなしでクエリオプティマイザを学ぶ

Balsa: Learning a Query Optimizer Without Expert Demonstrations ( http://arxiv.org/abs/2201.01441v1 )

ライセンス: Link先を確認
Zongheng Yang, Wei-Lin Chiang, Sifei Luan, Gautam Mittal, Michael Luo, Ion Stoica(参考訳) クエリオプティマイザは、すべてのデータベースシステムにおけるパフォーマンスクリティカルなコンポーネントである。 その複雑さのため、オプティマイザは専門家が書くのに数ヶ月、洗練するのに何年もかかります。 本研究では,エキスパートオプティマイザから学ぶことなく,クエリを最適化する学習が可能かつ効率的であることを初めて実証する。 深層強化学習によって構築されたクエリオプティマイザであるbalsaを提案する。 Balsa氏はまず、シンプルな環境に依存しないシミュレータから基本的な知識を学び、続いて実行時に安全な学習を行う。 Join Order Benchmarkでは、Balsaはオープンソースと商用の2つの専門家クエリオプティマイザのパフォーマンスを2時間の学習で比較し、さらに数時間後にワークロードランタイムで最大2.8$\times$をパフォーマンスで上回る。 このようにbalsaは、エキスパートが設計したオプティマイザが存在しない未来の計算環境において、自動的に学習して最適化する可能性を開く。

Query optimizers are a performance-critical component in every database system. Due to their complexity, optimizers take experts months to write and years to refine. In this work, we demonstrate for the first time that learning to optimize queries without learning from an expert optimizer is both possible and efficient. We present Balsa, a query optimizer built by deep reinforcement learning. Balsa first learns basic knowledge from a simple, environment-agnostic simulator, followed by safe learning in real execution. On the Join Order Benchmark, Balsa matches the performance of two expert query optimizers, both open-source and commercial, with two hours of learning, and outperforms them by up to 2.8$\times$ in workload runtime after a few more hours. Balsa thus opens the possibility of automatically learning to optimize in future compute environments where expert-designed optimizers do not exist.
翻訳日:2022-01-06 14:34:50 公開日:2022-01-05
# マルチエージェントゲームのための条件付き模倣学習

Conditional Imitation Learning for Multi-Agent Games ( http://arxiv.org/abs/2201.01448v1 )

ライセンス: Link先を確認
Andy Shih and Stefano Ermon and Dorsa Sadigh(参考訳) マルチエージェント学習の進歩により、ますます複雑なエージェントのトレーニングが可能になる一方で、既存の技術の多くは、新しいパートナーの戦略に適応するように設計されていない最終的なポリシーを生み出している。 しかし、私たちのAIエージェントは、周囲の戦略に基づいて戦略を調整することを望んでいます。 本研究では、条件付きマルチエージェント模倣学習の課題について検討し、トレーニング時に共同軌道デモにアクセスでき、テスト時に新しいパートナーと対話し、適応する必要がある。 この設定は、新しいパートナーの戦略を推測し、その戦略にポリシーを適用する必要があるため、環境報酬やダイナミクスの知識がなければ、難しい。 本稿では,条件付きマルチエージェント模倣学習の問題を定式化し,スケーラビリティとデータ不足の難しさに対処するための新しい手法を提案する。 私たちの重要な洞察は、マルチエージェントゲームにおけるパートナー間のバリエーションは、しばしば高度に構造化され、低ランクサブスペースを介して表現できるということです。 テンソル分解からツールを活用することで,egoおよびパートナーエージェント戦略よりも低ランクのサブスペースを学習し,サブスペースを補間することにより,新たなパートナー戦略を推論し,適応する。 我々は,包帯,粒子およびハナビ環境を含む協調作業の混合実験を行った。 さらに,オーバークッキングゲームにおけるユーザスタディにおいて,実際の人間パートナーに対する条件付きポリシーをテストする。 我々のモデルは、ベースラインよりも新しいパートナに適応し、個別/連続的なアクションからAI/ヒューマンパートナーによる静的/オンライン評価まで、さまざまな設定を堅牢に処理します。

While advances in multi-agent learning have enabled the training of increasingly complex agents, most existing techniques produce a final policy that is not designed to adapt to a new partner's strategy. However, we would like our AI agents to adjust their strategy based on the strategies of those around them. In this work, we study the problem of conditional multi-agent imitation learning, where we have access to joint trajectory demonstrations at training time, and we must interact with and adapt to new partners at test time. This setting is challenging because we must infer a new partner's strategy and adapt our policy to that strategy, all without knowledge of the environment reward or dynamics. We formalize this problem of conditional multi-agent imitation learning, and propose a novel approach to address the difficulties of scalability and data scarcity. Our key insight is that variations across partners in multi-agent games are often highly structured, and can be represented via a low-rank subspace. Leveraging tools from tensor decomposition, our model learns a low-rank subspace over ego and partner agent strategies, then infers and adapts to a new partner strategy by interpolating in the subspace. We experiments with a mix of collaborative tasks, including bandits, particle, and Hanabi environments. Additionally, we test our conditional policies against real human partners in a user study on the Overcooked game. Our model adapts better to new partners compared to baselines, and robustly handles diverse settings ranging from discrete/continuous actions and static/online evaluation with AI/human partners.
翻訳日:2022-01-06 14:34:34 公開日:2022-01-05
# 境界フリートサイズでCVRPを解くための教師付き置換不変ネットワーク

Supervised Permutation Invariant Networks for Solving the CVRP with Bounded Fleet Size ( http://arxiv.org/abs/2201.01529v1 )

ライセンス: Link先を確認
Daniela Thyssens, Jonas Falkner and Lars Schmidt-Thieme(参考訳) 車両経路問題のような組合せ最適化問題を解くための学習は、古典的な操作研究の解法やヒューリスティックスよりも優れた計算上の利点を提供する。 最近開発された深層強化学習アプローチは、最初に与えられたソリューションを反復的に改善するか、個別のツアーを順次構築するかのどちらかである。 しかし、既存の学習ベースのアプローチのほとんどは、一定数の車両で動作できないため、顧客の複雑な割り当て問題を、利用可能な車両の数が与えられたアプリオリにバイパスする。 一方で、多くのロジスティックサービスプロバイダは、特定の境界付けられたフリートサイズのソリューションに依存しており、車両数を短期的に変更することができないため、実際のアプリケーションには適していない。 対照的に,アプリオリ固定数の車両を尊重しながら,スクラッチから完全なツアー計画を構築する強力な教師付きディープラーニングフレームワークを提案する。 効率的な後処理方式と組み合わせることで,より高速かつ容易に訓練できるだけでなく,車両コストの実用的側面を組み込んだ競争的な結果が得られる。 厳密な制御実験では,本手法を複数の最先端手法と比較し,安定した性能を示すとともに,車種を少なくし,関連する実験プロトコルにおける既存の矛盾点に光を当てる。

Learning to solve combinatorial optimization problems, such as the vehicle routing problem, offers great computational advantages over classical operations research solvers and heuristics. The recently developed deep reinforcement learning approaches either improve an initially given solution iteratively or sequentially construct a set of individual tours. However, most of the existing learning-based approaches are not able to work for a fixed number of vehicles and thus bypass the complex assignment problem of the customers onto an apriori given number of available vehicles. On the other hand, this makes them less suitable for real applications, as many logistic service providers rely on solutions provided for a specific bounded fleet size and cannot accommodate short term changes to the number of vehicles. In contrast we propose a powerful supervised deep learning framework that constructs a complete tour plan from scratch while respecting an apriori fixed number of available vehicles. In combination with an efficient post-processing scheme, our supervised approach is not only much faster and easier to train but also achieves competitive results that incorporate the practical aspect of vehicle costs. In thorough controlled experiments we compare our method to multiple state-of-the-art approaches where we demonstrate stable performance, while utilizing less vehicles and shed some light on existent inconsistencies in the experimentation protocols of the related work.
翻訳日:2022-01-06 14:34:08 公開日:2022-01-05
# ROOM: リアルタイム制約下での敵機械学習攻撃

ROOM: Adversarial Machine Learning Attacks Under Real-Time Constraints ( http://arxiv.org/abs/2201.01621v1 )

ライセンス: Link先を確認
Amira Guesmi, Khaled N. Khasawneh, Nael Abu-Ghazaleh, Ihsen Alouani(参考訳) ディープラーニングの進歩は、幅広い有望なアプリケーションを可能にした。 しかし、これらのシステムは、AML(Adversarial Machine Learning)攻撃に弱い。 いくつかの最先端の敵攻撃は、これらの攻撃を重大な脅威にしている分類器を確実に騙すことができることを示した。 敵攻撃生成アルゴリズムは、主に成功例の作成に焦点を合わせ、ノイズの大きさと分布を制御し、検出をより困難にする。 これらの攻撃の根底にある前提は、敵のノイズがオフラインで発生し、実行時間が二次的考慮となることである。 しかし、近年、攻撃者が日和見的に敵の例をオンザフライで生成するジャスト・イン・タイムの敵攻撃が可能になっている。 本稿では,このようなリアルタイム対向攻撃を支援するために,リアルタイム制約下で対向雑音を生成する方法を提案する。 この問題を理解することで、これらの攻撃がリアルタイムシステムにもたらす脅威の理解が向上し、将来の防衛のためのセキュリティ評価ベンチマークを提供する。 そこで我々はまず,逆生成アルゴリズムのランタイム解析を行う。 ユニバーサルアタックは、オンラインオーバーヘッドのない一般的なアタックをオフラインで生成し、任意の入力に適用することができるが、その一般性のためにその成功率は制限されている。 対照的に、特定の入力を扱うオンラインアルゴリズムは計算コストが高く、時間制約下での操作には不適当である。 そこで我々は,オフラインコンポーネントがオンラインアルゴリズムのウォームアップに役立ち,時間制約下で高い攻撃を発生させることができる新しいリアルタイムオンライン・オフライン攻撃構築モデルであるROOMを提案する。

Advances in deep learning have enabled a wide range of promising applications. However, these systems are vulnerable to Adversarial Machine Learning (AML) attacks; adversarially crafted perturbations to their inputs could cause them to misclassify. Several state-of-the-art adversarial attacks have demonstrated that they can reliably fool classifiers making these attacks a significant threat. Adversarial attack generation algorithms focus primarily on creating successful examples while controlling the noise magnitude and distribution to make detection more difficult. The underlying assumption of these attacks is that the adversarial noise is generated offline, making their execution time a secondary consideration. However, recently, just-in-time adversarial attacks where an attacker opportunistically generates adversarial examples on the fly have been shown to be possible. This paper introduces a new problem: how do we generate adversarial noise under real-time constraints to support such real-time adversarial attacks? Understanding this problem improves our understanding of the threat these attacks pose to real-time systems and provides security evaluation benchmarks for future defenses. Therefore, we first conduct a run-time analysis of adversarial generation algorithms. Universal attacks produce a general attack offline, with no online overhead, and can be applied to any input; however, their success rate is limited because of their generality. In contrast, online algorithms, which work on a specific input, are computationally expensive, making them inappropriate for operation under time constraints. Thus, we propose ROOM, a novel Real-time Online-Offline attack construction Model where an offline component serves to warm up the online algorithm, making it possible to generate highly successful attacks under time constraints.
翻訳日:2022-01-06 14:33:46 公開日:2022-01-05
# PET画像再構成に先立って深部係数を持つカーネル手法Neural KEM

Neural KEM: A Kernel Method with Deep Coefficient Prior for PET Image Reconstruction ( http://arxiv.org/abs/2201.01443v1 )

ライセンス: Link先を確認
Siqi Li, Kuang Gong, Ramsey D. Badawi, Edward J. Kim, Jinyi Qi, and Guobao Wang(参考訳) PET(low-count positron emission tomography)データの再構成は困難である。 カーネル手法は、反復PET画像再構成の前方モデルに画像先行情報を組み込むことによって、この問題に対処する。 カーネル化された期待最大化(KEM)アルゴリズムが開発され,実装が容易であることが実証された。 カーネル法をさらに改善するための一般的なアプローチは、明示的な正規化を追加することであるが、複雑な最適化問題に繋がる。 本稿では,畳み込みニューラルネットワークを用いたpetフォワードモデルにおいて,カーネル係数画像を表すディープ係数プリアーを用いて,カーネル法の暗黙的正則化を提案する。 ニューラルネットワークに基づく最大値再構成問題を解くために、最適化転送の原理を適用し、ニューラルKEMアルゴリズムを導出する。 アルゴリズムの各イテレーションは、投影データからのイメージ更新のためのKEMステップと、ニューラルネットワークを用いてカーネル係数画像を更新するイメージ領域のディープラーニングステップの2つの別々のステップで構成される。 この最適化アルゴリズムはデータ可能性の単調な増大を保証する。 コンピュータシミュレーションと実際の患者データの結果から、ニューラルKEMは既存のKEMおよびディープイメージ先行法より優れていることが示されている。

Image reconstruction of low-count positron emission tomography (PET) data is challenging. Kernel methods address the challenge by incorporating image prior information in the forward model of iterative PET image reconstruction. The kernelized expectation-maximization (KEM) algorithm has been developed and demonstrated to be effective and easy to implement. A common approach for a further improvement of the kernel method would be adding an explicit regularization, which however leads to a complex optimization problem. In this paper, we propose an implicit regularization for the kernel method by using a deep coefficient prior, which represents the kernel coefficient image in the PET forward model using a convolutional neural-network. To solve the maximum-likelihood neural network-based reconstruction problem, we apply the principle of optimization transfer to derive a neural KEM algorithm. Each iteration of the algorithm consists of two separate steps: a KEM step for image update from the projection data and a deep-learning step in the image domain for updating the kernel coefficient image using the neural network. This optimization algorithm is guaranteed to monotonically increase the data likelihood. The results from computer simulations and real patient data have demonstrated that the neural KEM can outperform existing KEM and deep image prior methods.
翻訳日:2022-01-06 14:33:19 公開日:2022-01-05
# (参考訳) 単語埋め込みを用いた半自動ワードネットリンク

Semi-automatic WordNet Linking using Word Embeddings ( http://arxiv.org/abs/2201.01747v1 )

ライセンス: CC BY 4.0
Kevin Patel, Diptesh Kanojia, Pushpak Bhattacharyya(参考訳) ワードネットは豊富なレキシコ・セマンティクス資源である。 linked wordnets は wordnet の拡張であり、異なる言語の wordnet で同様の概念をリンクする。 このようなリソースは多くの自然言語処理(NLP)アプリケーションで非常に有用であり、主に知識に基づくアプローチに基づいている。 このようなアプローチでは、これらのリソースはゴールドスタンダード/オラクルとみなされる。 したがって、これらの資源が正しい情報を持っていることが重要である。 したがって、人間の専門家によって創造される。 しかし、こうした資源を手動で管理するのは面倒で費用がかかる。 したがって、専門家を助ける技術が望ましい。 本稿では,ワードネットをリンクする手法を提案する。 ソース言語のシンセットが与えられると、このアプローチは、人間の専門家が正しいシンセットを選択できるターゲット言語における潜在的なシンセットのランクリストを返す。 本手法は,全シンセットの60%と名詞シンセットの70%で上位10位にランクインした勝者シンセットを検索できる。

Wordnets are rich lexico-semantic resources. Linked wordnets are extensions of wordnets, which link similar concepts in wordnets of different languages. Such resources are extremely useful in many Natural Language Processing (NLP) applications, primarily those based on knowledge-based approaches. In such approaches, these resources are considered as gold standard/oracle. Thus, it is crucial that these resources hold correct information. Thereby, they are created by human experts. However, manual maintenance of such resources is a tedious and costly affair. Thus techniques that can aid the experts are desirable. In this paper, we propose an approach to link wordnets. Given a synset of the source language, the approach returns a ranked list of potential candidate synsets in the target language from which the human expert can choose the correct one(s). Our technique is able to retrieve a winner synset in the top 10 ranked list for 60% of all synsets and 70% of noun synsets.
翻訳日:2022-01-06 14:31:58 公開日:2022-01-05
# 胃腸異形成症診断のための深層学習に基づくスライス全スライド画像解析

Deep Learning-Based Sparse Whole-Slide Image Analysis for the Diagnosis of Gastric Intestinal Metaplasia ( http://arxiv.org/abs/2201.01449v1 )

ライセンス: Link先を確認
Jon Braatz, Pranav Rajpurkar, Stephanie Zhang, Andrew Y. Ng, Jeanne Shen(参考訳) 近年,診断病理学における多種多様なタスクの自動化にディープラーニングが応用されている。 しかし、小型領域(ROI)の高速かつ信頼性の高いローカライゼーションは重要な課題であり、識別的形態的特徴がギガピクセル規模の全スライディング画像(WSI)のごく一部を占めることが多い。 本稿では,WSIレベル分類のための高出力ROIの迅速同定のための疎WSI分析手法を提案する。 本研究では, 診断性能と推定時間とのトレードオフを定量化するために, 初期分類文献に触発された評価フレームワークを開発した。 本手法は, 内視鏡的生検標本から, ヘマトキシリンおよびエオシン含有スライド上での胃腸転移 (GIM) の診断法である。 gimは胃癌発生の経路に沿ったよく知られた前駆病変である。 提案手法は, 受信動作特性曲線(AUC)0.98, 平均精度(AP)0.95のWSIレベルの分類領域を有する全正のWSIにおいて, GIM検出に成功していることがわかった。 さらに,本手法は標準CPU上で1分以内で測定値が得られることを示す。 以上より,wsiの小型形態学的特徴の早期発見と診断を支援するために,臨床設定に容易に展開可能なニューラルネットワークの開発を目標とする。

In recent years, deep learning has successfully been applied to automate a wide variety of tasks in diagnostic histopathology. However, fast and reliable localization of small-scale regions-of-interest (ROI) has remained a key challenge, as discriminative morphologic features often occupy only a small fraction of a gigapixel-scale whole-slide image (WSI). In this paper, we propose a sparse WSI analysis method for the rapid identification of high-power ROI for WSI-level classification. We develop an evaluation framework inspired by the early classification literature, in order to quantify the tradeoff between diagnostic performance and inference time for sparse analytic approaches. We test our method on a common but time-consuming task in pathology - that of diagnosing gastric intestinal metaplasia (GIM) on hematoxylin and eosin (H&E)-stained slides from endoscopic biopsy specimens. GIM is a well-known precursor lesion along the pathway to development of gastric cancer. We performed a thorough evaluation of the performance and inference time of our approach on a test set of GIM-positive and GIM-negative WSI, finding that our method successfully detects GIM in all positive WSI, with a WSI-level classification area under the receiver operating characteristic curve (AUC) of 0.98 and an average precision (AP) of 0.95. Furthermore, we show that our method can attain these metrics in under one minute on a standard CPU. Our results are applicable toward the goal of developing neural networks that can easily be deployed in clinical settings to support pathologists in quickly localizing and diagnosing small-scale morphologic features in WSI.
翻訳日:2022-01-06 14:25:26 公開日:2022-01-05
# 頑健な自己監督型音声認識

Robust Self-Supervised Audio-Visual Speech Recognition ( http://arxiv.org/abs/2201.01763v1 )

ライセンス: Link先を確認
Bowen Shi and Wei-Ning Hsu and Abdelrahman Mohamed(参考訳) 音声に基づく自動音声認識(ASR)は、ノイズの多い環境で著しく劣化し、どの話者を転写するか決定できないため、特に音声の干渉に弱い。 音声-視覚音声認識(AVSR)システムは、ノイズに不変な視覚情報とオーディオストリームを補完することにより堅牢性を向上し、モデルが所望の話者に焦点を合わせるのに役立つ。 しかし、以前のAVSRの研究は教師付き学習装置のみに重点を置いていたため、ラベル付きデータの量によって進行が妨げられた。 本研究では,最先端の音声視覚表現学習モデルであるAudio-Visual HuBERT (AV-HuBERT) に基づく自己教師型AVSRフレームワークを提案する。 利用可能な最大のAVSRベンチマークデータセットであるRS3では、バブルノイズの存在下でラベル付きデータ(433hr vs. 30hr)の10%未満(28.0% vs. 14.1%)を使用し、平均75%(25.8% vs. 5.8%)以上のオーディオベースモデルのWERを削減した。

Audio-based automatic speech recognition (ASR) degrades significantly in noisy environments and is particularly vulnerable to interfering speech, as the model cannot determine which speaker to transcribe. Audio-visual speech recognition (AVSR) systems improve robustness by complementing the audio stream with the visual information that is invariant to noise and helps the model focus on the desired speaker. However, previous AVSR work focused solely on the supervised learning setup; hence the progress was hindered by the amount of labeled data available. In this work, we present a self-supervised AVSR framework built upon Audio-Visual HuBERT (AV-HuBERT), a state-of-the-art audio-visual speech representation learning model. On the largest available AVSR benchmark dataset LRS3, our approach outperforms prior state-of-the-art by ~50% (28.0% vs. 14.1%) using less than 10% of labeled data (433hr vs. 30hr) in the presence of babble noise, while reducing the WER of an audio-based model by over 75% (25.8% vs. 5.8%) on average.
翻訳日:2022-01-06 14:24:57 公開日:2022-01-05
# グラフ表現学習を用いた意味駆動生成型逆ネットワークによる二相性顔写真スケッチ合成

Biphasic Face Photo-Sketch Synthesis via Semantic-Driven Generative Adversarial Network with Graph Representation Learning ( http://arxiv.org/abs/2201.01592v1 )

ライセンス: Link先を確認
Xingqun Qi, Muyi Sun, Qi Li, Caifeng Shan(参考訳) 近年,GAN (Generative Adversarial Network) の開発により, 顔の2相合成において顕著な進歩を遂げている。 両顔写真スケッチ合成は、デジタルエンターテイメントや法執行機関といった幅広い分野に適用できる。 しかし、写実的な写真や異なるスケッチを作成することは、実際のシーンにおけるスケッチの質の低さと複雑な写真のバリエーションのために大きな困難に直面している。 そこで本研究では,上記の問題に対処するために,グラフ表現学習と協調して,新たな意味駆動生成型逆ネットワークを提案する。 具体的には,ジェネレータにクラスワイドなセマンティックレイアウトを注入し,合成顔写真やスケッチのためのスタイルベースの空間監視を行う。 さらに, 生成した結果の忠実性を向上させるために, 意味レイアウトを用いて, 合成画像のクラス内意味特徴とクラス間構造特徴を示す2種類の表現グラフを構築する。 さらに,提案した表現グラフに基づく2種類の制約を設計し,生成した顔写真やスケッチの詳細な保存を容易にする。 さらに, 合成画像の知覚的品質をさらに高めるため, 反復サイクルトレーニングによる生成結果の洗練を目的とした, 新たな二相学習戦略を提案する。 cufsとcufsfデータセットについて広範な実験を行い,最先端性能を実現するための提案手法の著明な性能を示す。

In recent years, significant progress has been achieved in biphasic face photo-sketch synthesis with the development of Generative Adversarial Network (GAN). Biphasic face photo-sketch synthesis could be applied in wide-ranging fields such as digital entertainment and law enforcement. However, generating realistic photos and distinct sketches suffers from great challenges due to the low quality of sketches and complex photo variations in the real scenes. To this end, we propose a novel Semantic-Driven Generative Adversarial Network to address the above issues, cooperating with the Graph Representation Learning. Specifically, we inject class-wise semantic layouts into the generator to provide style-based spatial supervision for synthesized face photos and sketches. In addition, to improve the fidelity of the generated results, we leverage the semantic layouts to construct two types of Representational Graphs which indicate the intra-class semantic features and inter-class structural features of the synthesized images. Furthermore, we design two types of constraints based on the proposed Representational Graphs which facilitate the preservation of the details in generated face photos and sketches. Moreover, to further enhance the perceptual quality of synthesized images, we propose a novel biphasic training strategy which is dedicated to refine the generated results through Iterative Cycle Training. Extensive experiments are conducted on CUFS and CUFSF datasets to demonstrate the prominent ability of our proposed method which achieves the state-of-the-art performance.
翻訳日:2022-01-06 14:21:32 公開日:2022-01-05
# 深い確率的グラフマッチング

Deep Probabilistic Graph Matching ( http://arxiv.org/abs/2201.01603v1 )

ライセンス: Link先を確認
He Liu, Tao Wang, Yidong Li, Congyan Lang, Songhe Feng, and Haibin Ling(参考訳) 従来の学習ベースのグラフマッチングアルゴリズムは、マッチング制約の1つ以上を解き、緩和された代入解法を採用して、準最適対応を求めることで、 \textit{quadratic assignment problem} (QAP) を解く。 このような緩和は、実際のグラフマッチング問題を弱め、結果としてマッチング性能を損なう可能性がある。 本稿では,マッチング制約を補うことなく,元のQAPに適合する深層学習ベースのグラフマッチングフレームワークを提案する。 特に,親和性の予測ネットワークを設計し,相似親和性の学習とノード割り当ての推定を行い,その相似親和性の確率論的視点に着想を得た相似解法を開発する。 より良いマッチング結果を得るために、確率的ソルバは、推定された割り当てを反復的に洗練し、離散的および一対一のマッチング制約を課す。 提案手法は,3つのベンチマーク (pascal voc, willow object, spair-71k) で評価され,すべてのベンチマークで従来より優れている。

Most previous learning-based graph matching algorithms solve the \textit{quadratic assignment problem} (QAP) by dropping one or more of the matching constraints and adopting a relaxed assignment solver to obtain sub-optimal correspondences. Such relaxation may actually weaken the original graph matching problem, and in turn hurt the matching performance. In this paper we propose a deep learning-based graph matching framework that works for the original QAP without compromising on the matching constraints. In particular, we design an affinity-assignment prediction network to jointly learn the pairwise affinity and estimate the node assignments, and we then develop a differentiable solver inspired by the probabilistic perspective of the pairwise affinities. Aiming to obtain better matching results, the probabilistic solver refines the estimated assignments in an iterative manner to impose both discrete and one-to-one matching constraints. The proposed method is evaluated on three popularly tested benchmarks (Pascal VOC, Willow Object and SPair-71k), and it outperforms all previous state-of-the-arts on all benchmarks.
翻訳日:2022-01-06 14:21:10 公開日:2022-01-05
# lawin transformer: 大きなウィンドウアテンションによるマルチスケール表現によるセマンティクスセグメンテーショントランスフォーマの改善

Lawin Transformer: Improving Semantic Segmentation Transformer with Multi-Scale Representations via Large Window Attention ( http://arxiv.org/abs/2201.01615v1 )

ライセンス: Link先を確認
Haotian Yan and Chuang Zhang and Ming Wu(参考訳) マルチスケール表現はセマンティックセグメンテーションに不可欠である。 コミュニティは、マルチスケールな文脈情報を利用するセマンティックセグメンテーション畳み込みニューラルネットワーク(cnn)の隆盛を目撃している。 視覚変換器 (ViT) は画像分類において強力であり, セマンティックセグメンテーション (セマンティックセグメンテーション) も近年提案されている。 本稿では,ウィンドウアテンション機構によるセマンティックセグメンテーション ViT へのマルチスケール表現の導入に成功し,性能と効率をさらに向上する。 この目的のために、ローカルウィンドウがより広い範囲のコンテキストウインドウを、ほんの少しの計算オーバーヘッドでクエリできるような、大きなウィンドウアテンションを導入する。 コンテクスト領域とクエリ領域の比率を調整することにより、大きなウィンドウアテンションが複数のスケールでコンテキスト情報をキャプチャすることを可能にする。 さらに、空間ピラミッドプーリングの枠組みは、大きな窓の注意と協調するために採用され、意味的セグメンテーションのための大きな窓の注意空間ピラミッドプーリング(LawinASPP)と呼ばれる新しいデコーダが提示される。 得られたViTであるLawin Transformerは、エンコーダとして効率的な階層型視覚変換器(HVT)、デコーダとしてLawinASPPから構成される。 実験の結果, ローリン変圧器は従来の方法よりも効率が良くなることがわかった。 Lawin Transformerはさらに、Cityscapes(84.4\% mIoU)、ADE20K(56.2\% mIoU)、COCO-Stuffデータセットに、最先端のパフォーマンスを新たに設定する。 コードはhttps://github.com/yan-hao-tian/lawinでリリースされる。

Multi-scale representations are crucial for semantic segmentation. The community has witnessed the flourish of semantic segmentation convolutional neural networks (CNN) exploiting multi-scale contextual information. Motivated by that the vision transformer (ViT) is powerful in image classification, some semantic segmentation ViTs are recently proposed, most of them attaining impressive results but at a cost of computational economy. In this paper, we succeed in introducing multi-scale representations into semantic segmentation ViT via window attention mechanism and further improves the performance and efficiency. To this end, we introduce large window attention which allows the local window to query a larger area of context window at only a little computation overhead. By regulating the ratio of the context area to the query area, we enable the large window attention to capture the contextual information at multiple scales. Moreover, the framework of spatial pyramid pooling is adopted to collaborate with the large window attention, which presents a novel decoder named large window attention spatial pyramid pooling (LawinASPP) for semantic segmentation ViT. Our resulting ViT, Lawin Transformer, is composed of an efficient hierachical vision transformer (HVT) as encoder and a LawinASPP as decoder. The empirical results demonstrate that Lawin Transformer offers an improved efficiency compared to the existing method. Lawin Transformer further sets new state-of-the-art performance on Cityscapes (84.4\% mIoU), ADE20K (56.2\% mIoU) and COCO-Stuff datasets. The code will be released at https://github.com/yan-hao-tian/lawin.
翻訳日:2022-01-06 14:20:49 公開日:2022-01-05
# TableParser:スプレッドシートからの弱スーパービジョンを備えたテーブルパース

TableParser: Automatic Table Parsing with Weak Supervision from Spreadsheets ( http://arxiv.org/abs/2201.01654v1 )

ライセンス: Link先を確認
Susie Xi Rao, Johannes Rausch, Peter Egger, Ce Zhang(参考訳) テーブルは、データを保存するための既存の構造です。 表データを物理的に保存するアプローチは、現在さまざまなものがある。 PDF、画像、スプレッドシート、CSVなどが主要な例である。 テーブル構造を解析し、これらの構造に縛られたコンテンツを抽出できることは多くのアプリケーションにおいて非常に重要である。 本稿では,tableparserを開発した。tableparserは,ネイティブpdfとスキャン画像の両方のテーブルを高精度に解析できるシステムである。 このようなツールの開発において,ドメイン適応の有効性を示す大規模な実験を行った。 さらに、表解析を可能にするためのスプレッドシートベースの弱監督機構とパイプラインを構成するTableAnnotatorとExcelAnnotatorを作成する。 我々はこれらの資源を研究コミュニティと共有し、この興味深い方向へのさらなる研究を促進する。

Tables have been an ever-existing structure to store data. There exist now different approaches to store tabular data physically. PDFs, images, spreadsheets, and CSVs are leading examples. Being able to parse table structures and extract content bounded by these structures is of high importance in many applications. In this paper, we devise TableParser, a system capable of parsing tables in both native PDFs and scanned images with high precision. We have conducted extensive experiments to show the efficacy of domain adaptation in developing such a tool. Moreover, we create TableAnnotator and ExcelAnnotator, which constitute a spreadsheet-based weak supervision mechanism and a pipeline to enable table parsing. We share these resources with the research community to facilitate further research in this interesting direction.
翻訳日:2022-01-06 14:20:16 公開日:2022-01-05
# 組込みGPUプラットフォームにおける熱画像の評価と車両支援への応用

Evaluation of Thermal Imaging on Embedded GPU Platforms for Application in Vehicular Assistance Systems ( http://arxiv.org/abs/2201.01661v1 )

ライセンス: Link先を確認
Muhammad Ali Farooq, Waseem Shariff, Peter Corcoran(参考訳) 本研究は、車載センサスイートテストのためのGPUおよびシングルボードEDGE-GPUコンピューティングプラットフォーム上にトレーニングされたネットワークをデプロイすることにより、スマートで安全な車両システムに対する熱物体検出のリアルタイム性能を評価することに焦点を当てた。 35,000以上の異なるフレームからなる新しい大規模熱データセットを、厳しい気象や環境シナリオで取得、処理、オープンソース化する。 このデータセットは、安価で効果的に冷却されていないLWIR熱カメラから記録され、スタンドアローンと電気自動車に搭載され、機械的振動を最小限に抑える。 最新のYOLO-V5ネットワークは、4つの異なる公開データセットと、SGDオプティマイザを用いてDNNの最適な一般化のための新たに取得したローカルデータセットを用いて訓練されている。 トレーニングされたネットワークの有効性は、精度、リコール曲線、平均精度、フレーム毎秒を含む様々な定量的指標を用いて、広範囲なテストデータで検証される。 YOLOのより小さなネットワーク版は、TensorRT推論アクセラレータを使って、毎秒フレームを明示的に増やすように最適化されている。 最適化されたネットワークエンジンは、低消費電力エッジデバイスでテストすると、毎秒3.5倍のフレームを増大させ、Nvidia Jetson Nanoで11fps、Nvidia Xavier NX開発ボードで60fpsを達成する。

This study is focused on evaluating the real-time performance of thermal object detection for smart and safe vehicular systems by deploying the trained networks on GPU & single-board EDGE-GPU computing platforms for onboard automotive sensor suite testing. A novel large-scale thermal dataset comprising of > 35,000 distinct frames is acquired, processed, and open-sourced in challenging weather and environmental scenarios. The dataset is a recorded from lost-cost yet effective uncooled LWIR thermal camera, mounted stand-alone and on an electric vehicle to minimize mechanical vibrations. State-of-the-art YOLO-V5 networks variants are trained using four different public datasets as well newly acquired local dataset for optimal generalization of DNN by employing SGD optimizer. The effectiveness of trained networks is validated on extensive test data using various quantitative metrics which include precision, recall curve, mean average precision, and frames per second. The smaller network variant of YOLO is further optimized using TensorRT inference accelerator to explicitly boost the frames per second rate. Optimized network engine increases the frames per second rate by 3.5 times when testing on low power edge devices thus achieving 11 fps on Nvidia Jetson Nano and 60 fps on Nvidia Xavier NX development boards.
翻訳日:2022-01-06 14:20:04 公開日:2022-01-05
# 制御可能な3次元人体合成のための表面配向ニューラルラジアンス場

Surface-Aligned Neural Radiance Fields for Controllable 3D Human Synthesis ( http://arxiv.org/abs/2201.01683v1 )

ライセンス: Link先を確認
Tianhan Xu, Yasuhiro Fujita, Eiichi Matsumoto(参考訳) 本稿では,多視点RGBビデオから制御可能な暗黙的3次元モデルを再構築する手法を提案する。 本手法は,人体メッシュの表面から,メッシュ表面点と署名された距離のニューラルシーン表現を定義する。 我々は3次元空間の点がメッシュ上の最も近い表面点にマッピングされ、表面整列型ニューラルネットワークシーン表現を学習する際に生じる不明瞭な問題を特定する。 この問題に対処するために,修正頂点正規度を用いたバリ中心補間を用いたメッシュ表面に点を投影することを提案する。 ZJU-MoCapおよびHuman3.6Mデータセットを用いた実験により,本手法は既存手法よりも新規な視点と新規な目的の合成において高い品質を実現することが示された。 また,本手法は体型や衣服の制御を容易に支援できることを実証する。

We propose a new method for reconstructing controllable implicit 3D human models from sparse multi-view RGB videos. Our method defines the neural scene representation on the mesh surface points and signed distances from the surface of a human body mesh. We identify an indistinguishability issue that arises when a point in 3D space is mapped to its nearest surface point on a mesh for learning surface-aligned neural scene representation. To address this issue, we propose projecting a point onto a mesh surface using a barycentric interpolation with modified vertex normals. Experiments with the ZJU-MoCap and Human3.6M datasets show that our approach achieves a higher quality in a novel-view and novel-pose synthesis than existing methods. We also demonstrate that our method easily supports the control of body shape and clothes.
翻訳日:2022-01-06 14:19:40 公開日:2022-01-05
# 類似性を考慮した時系列分類に向けて

Towards Similarity-Aware Time-Series Classification ( http://arxiv.org/abs/2201.01413v1 )

ライセンス: Link先を確認
Daochen Zha, Kwei-Herng Lai, Kaixiong Zhou, Xia Hu(参考訳) 時系列データマイニングの基本課題である時系列分類(TSC)について検討する。 先行研究は,(1)近接する隣人に基づいて時系列を分類する類似性に基づく手法,(2)データ駆動方式で分類表現を直接学習する深層学習モデル,の2つの方向からTSCにアプローチしてきた。 これら2つの研究ラインで異なる作業メカニズムによって動機付けられ、時系列の類似性を共同でモデル化し、表現を学習することを目的としている。 類似情報を効率的に活用する方法が不明確であるため、これは難しい課題です。 この課題を解決するために,グラフニューラルネットワーク(GNN)を用いて類似情報をモデル化する概念的にシンプルで一般的なフレームワークであるSimTSCを提案する。 具体的には、ノードが時系列に対応し、リンクがペアワイズ類似性に対応するグラフにおいて、TSCをノード分類問題として定式化する。 さらに,グラフ構築戦略と負サンプリングによるバッチ学習アルゴリズムを設計し,学習効率を向上させる。 我々はSimTSCをResNetをバックボーンとし、Dynamic Time Warping(DTW)を類似度尺度としてインスタンス化する。 ucrデータセットと複数の多変量データセットに関する広範な実験は、教師付きと半教師付きの両方の設定でディープラーニングモデルに類似性情報を組み込む効果を示している。 私たちのコードはhttps://github.com/daochenzha/SimTSCで利用可能です。

We study time-series classification (TSC), a fundamental task of time-series data mining. Prior work has approached TSC from two major directions: (1) similarity-based methods that classify time-series based on the nearest neighbors, and (2) deep learning models that directly learn the representations for classification in a data-driven manner. Motivated by the different working mechanisms within these two research lines, we aim to connect them in such a way as to jointly model time-series similarities and learn the representations. This is a challenging task because it is unclear how we should efficiently leverage similarity information. To tackle the challenge, we propose Similarity-Aware Time-Series Classification (SimTSC), a conceptually simple and general framework that models similarity information with graph neural networks (GNNs). Specifically, we formulate TSC as a node classification problem in graphs, where the nodes correspond to time-series, and the links correspond to pair-wise similarities. We further design a graph construction strategy and a batch training algorithm with negative sampling to improve training efficiency. We instantiate SimTSC with ResNet as the backbone and Dynamic Time Warping (DTW) as the similarity measure. Extensive experiments on the full UCR datasets and several multivariate datasets demonstrate the effectiveness of incorporating similarity information into deep learning models in both supervised and semi-supervised settings. Our code is available at https://github.com/daochenzha/SimTSC
翻訳日:2022-01-06 14:19:25 公開日:2022-01-05
# ヘテロジニアスクライアント上での効率的なフェデレーション学習のための期限制御によるサンプル選択

Sample Selection with Deadline Control for Efficient Federated Learning on Heterogeneous Clients ( http://arxiv.org/abs/2201.01601v1 )

ライセンス: Link先を確認
Jaemin Shin, Yuanchun Li, Yunxin Liu, Sung-Ju Lee(参考訳) Federated Learning (FL)は、個々のデータを公開せずに、分散クライアント上で機械学習モデルをトレーニングする。 通常、慎重に整理されたデータに基づく集中型トレーニングとは異なり、FLはデバイス上のデータを扱う。 その結果、全てのデータを均等に扱う従来のFLトレーニングプロトコルは、ローカルな計算資源の無駄を招き、グローバルな学習プロセスを遅くする。 この目的のために,クライアントのトレーニングサンプルを積極的に選択する体系的FLフレームワークであるFedBalancerを提案する。 当社のサンプル選択戦略は,クライアントのプライバシと計算能力を尊重しながら,より"情報的"なデータを優先する。 さらに,グローバルトレーニングを高速化するために,各ラウンド毎の最適期限を様々なクライアントトレインデータで予測する適応期限制御方式を導入する。 既存のFLアルゴリズムと期限設定法を比較すると,FedBalancerは1.22~4.62倍の精度向上を実現し,モデルの精度は1.0~3.3%向上した。 また,3つの異なるflアルゴリズムと協調して動作した場合の収束速度と精度が向上することを示すことにより,他のflアプローチにも容易に適用できることを示す。

Federated Learning (FL) trains a machine learning model on distributed clients without exposing individual data. Unlike centralized training that is usually based on carefully-organized data, FL deals with on-device data that are often unfiltered and imbalanced. As a result, conventional FL training protocol that treats all data equally leads to a waste of local computational resources and slows down the global learning process. To this end, we propose FedBalancer, a systematic FL framework that actively selects clients' training samples. Our sample selection strategy prioritizes more "informative" data while respecting privacy and computational capabilities of clients. To better utilize the sample selection to speed up global training, we further introduce an adaptive deadline control scheme that predicts the optimal deadline for each round with varying client train data. Compared with existing FL algorithms with deadline configuration methods, our evaluation on five datasets from three different domains shows that FedBalancer improves the time-to-accuracy performance by 1.22~4.62x while improving the model accuracy by 1.0~3.3%. We also show that FedBalancer is readily applicable to other FL approaches by demonstrating that FedBalancer improves the convergence speed and accuracy when operating jointly with three different FL algorithms.
翻訳日:2022-01-06 14:17:57 公開日:2022-01-05
# (参考訳) 表情認識におけるモデル圧縮が公平性に及ぼす影響

The Effect of Model Compression on Fairness in Facial Expression Recognition ( http://arxiv.org/abs/2201.01709v1 )

ライセンス: CC BY 4.0
Samuil Stoychev and Hatice Gunes(参考訳) ディープニューラルネットワークは大きな成功を収め、さまざまなタスクで人間のようなパフォーマンスを達成しています。 しかし、それらもまた計算コストが高く、深層学習モデルに関連する資源消費を減らすモデル圧縮技術の開発を動機付けている。 しかしながら、近年の研究はモデル圧縮がアルゴリズムの公平性に悪影響を及ぼす可能性を示唆しており、機械学習モデルの既存のバイアスを増幅している。 このプロジェクトでは、これらの研究を表情認識の文脈に拡張することを目指している。 そこで我々は,表情認識を行うニューラルネットワーク分類器を設置し,その上に複数のモデル圧縮手法を実装した。 次に,拡張cohn-kanadeデータセット(ck+db)とreal-world affective facesデータベース(raf-db)という2つの顔表情データセットで実験を行い,圧縮技術がモデルサイズ,精度,公平性に与える影響について検討した。 私たちの実験結果は 一 CK+DB及びRAF-DBの総合的精度に最小限の影響を及ぼすことなく、圧縮及び量子化によりモデルサイズが大幅に減少する。 (ii)モデル精度の面では、RAF-DBで訓練・試験された分類器はCK+ DBに比べて圧縮性が高い。 (iii)raf-dbでは、異なる圧縮戦略は、性別、人種、年齢の繊細な属性における予測性能の差を増加させていないように思われる。 結果を分析し,その結果の潜在的原因について考察する。

Deep neural networks have proved hugely successful, achieving human-like performance on a variety of tasks. However, they are also computationally expensive, which has motivated the development of model compression techniques which reduce the resource consumption associated with deep learning models. Nevertheless, recent studies have suggested that model compression can have an adverse effect on algorithmic fairness, amplifying existing biases in machine learning models. With this project we aim to extend those studies to the context of facial expression recognition. To do that, we set up a neural network classifier to perform facial expression recognition and implement several model compression techniques on top of it. We then run experiments on two facial expression datasets, namely the Extended Cohn-Kanade Dataset (CK+DB) and the Real-World Affective Faces Database (RAF-DB), to examine the individual and combined effect that compression techniques have on the model size, accuracy and fairness. Our experimental results show that: (i) Compression and quantisation achieve significant reduction in model size with minimal impact on overall accuracy for both CK+DB and RAF-DB; (ii) in terms of model accuracy, the classifier trained and tested on RAF-DB seems more robust to compression compared to the CK+ DB; (iii) for RAF-DB, the different compression strategies do not seem to increase the gap in predictive performance across the sensitive attributes of gender, race and age which is in contrast with the results on the CK+DB, where compression seems to amplify existing biases for gender. We analyse the results and discuss the potential reasons for our findings.
翻訳日:2022-01-06 14:14:53 公開日:2022-01-05
# 不確実性推定による高効率深層強化学習

Sample Efficient Deep Reinforcement Learning via Uncertainty Estimation ( http://arxiv.org/abs/2201.01666v1 )

ライセンス: Link先を確認
Vincent Mai, Kaustubh Mani and Liam Paull(参考訳) モデルフリー深部強化学習(RL)アルゴリズムでは、ノイズ値推定を用いて政策評価と最適化を監督し、サンプル効率を損なう。 このノイズは不均質であるため、最適化過程における不確実性に基づく重み付けによりその効果を緩和することができる。 従来の方法はサンプルアンサンブルに依存しており、不確実性の全ての側面を捉えていない。 そこで本研究では, rl において発生する雑音下での不確かさの原因を体系的に解析し, 確率的アンサンブルとバッチ逆分散重み付けを組み合わせたベイズ的枠組みである逆分散 rl を導入する。 本稿では,2つの相補的不確実性推定手法がQ値と環境確率の両方を考慮し,ノイズ管理の負の影響を緩和する手法を提案する。 その結果,離散的および連続的な制御タスクにおいて,サンプル効率が大幅に向上した。

In model-free deep reinforcement learning (RL) algorithms, using noisy value estimates to supervise policy evaluation and optimization is detrimental to the sample efficiency. As this noise is heteroscedastic, its effects can be mitigated using uncertainty-based weights in the optimization process. Previous methods rely on sampled ensembles, which do not capture all aspects of uncertainty. We provide a systematic analysis of the sources of uncertainty in the noisy supervision that occurs in RL, and introduce inverse-variance RL, a Bayesian framework which combines probabilistic ensembles and Batch Inverse Variance weighting. We propose a method whereby two complementary uncertainty estimation methods account for both the Q-value and the environment stochasticity to better mitigate the negative impacts of noisy supervision. Our results show significant improvement in terms of sample efficiency on discrete and continuous control tasks.
翻訳日:2022-01-06 13:54:07 公開日:2022-01-05
# $\ell_2$正規化ネットワーク埋め込みの漸近

Asymptotics of $\ell_2$ Regularized Network Embeddings ( http://arxiv.org/abs/2201.01689v1 )

ライセンス: Link先を確認
Andrew Davison(参考訳) 大きなネットワーク上のノード分類やリンク予測のようなタスクを解決する一般的なアプローチは、通常の機械学習手法が適用可能なネットワークのノードのユークリッド埋め込みを学習することから始まる。 DeepWalkやnode2vecのような教師なしのランダムウォークメソッドでは、損失に埋め込みベクトルに$\ell_2$ペナルティを追加することで、ダウンストリームタスクのパフォーマンスが向上する。 本稿では,この正規化の効果について検討し,グラフ上の交換可能性仮定の下で漸近的に核ノルム型陰極化グラフを学習することを証明する。 特に、ペナルティの正確な形は、埋め込みを学ぶために確率勾配降下で使用されるサブサンプリング方法の選択に依存する。 また,ノード共変分を$\ell_2$正規化ノード2vecの埋め込みに分解すると,ノード共変分とネットワーク構造を非線形に組み込む手法の性能が同等であることを示す。

A common approach to solving tasks, such as node classification or link prediction, on a large network begins by learning a Euclidean embedding of the nodes of the network, from which regular machine learning methods can be applied. For unsupervised random walk methods such as DeepWalk and node2vec, adding a $\ell_2$ penalty on the embedding vectors to the loss leads to improved downstream task performance. In this paper we study the effects of this regularization and prove that, under exchangeability assumptions on the graph, it asymptotically leads to learning a nuclear-norm-type penalized graphon. In particular, the exact form of the penalty depends on the choice of subsampling method used within stochastic gradient descent to learn the embeddings. We also illustrate empirically that concatenating node covariates to $\ell_2$ regularized node2vec embeddings leads to comparable, if not superior, performance to methods which incorporate node covariates and the network structure in a non-linear manner.
翻訳日:2022-01-06 13:53:53 公開日:2022-01-05
# 非対称数値システム(ANS)によるエントロピー符号化の理解 : 統計学者の視点から

Understanding Entropy Coding With Asymmetric Numeral Systems (ANS): a Statistician's Perspective ( http://arxiv.org/abs/2201.01741v1 )

ライセンス: Link先を確認
Robert Bamler(参考訳) エントロピー符号化はバックボーンデータ圧縮である。 新しい機械学習ベースの圧縮手法は、しばしばAsymmetric Numeral Systems (ANS) [Duda et al., 2015]と呼ばれる新しいエントロピーコーダを使用し、最適なビットレートに非常に近づき、[Townsend et al., 2019]ビットバックコーディングのような高度な圧縮テクニックを単純化する。 しかし、機械学習のバックグラウンドを持つ研究者たちは、ANSがどのように機能するかを理解するのに苦労することが多い。 本論文は,潜在変数モデルといわゆるbits-backの新たな視点から,AISをより親しみやすくするための教育資源として意図されている。 読者は、Pythonプログラミング言語におけるANSの完全な実装にステップバイステップでガイドし、さらに高度なユースケースに対して一般化する。 また,研究用および生産用の両方に設計された様々なエントロピーコーダのオープンソースライブラリを提示し,実証的に評価した。 関連する教育ビデオや問題セットはオンラインで公開されている。

Entropy coding is the backbone data compression. Novel machine-learning based compression methods often use a new entropy coder called Asymmetric Numeral Systems (ANS) [Duda et al., 2015], which provides very close to optimal bitrates and simplifies [Townsend et al., 2019] advanced compression techniques such as bits-back coding. However, researchers with a background in machine learning often struggle to understand how ANS works, which prevents them from exploiting its full versatility. This paper is meant as an educational resource to make ANS more approachable by presenting it from a new perspective of latent variable models and the so-called bits-back trick. We guide the reader step by step to a complete implementation of ANS in the Python programming language, which we then generalize for more advanced use cases. We also present and empirically evaluate an open-source library of various entropy coders designed for both research and production use. Related teaching videos and problem sets are available online.
翻訳日:2022-01-06 13:53:14 公開日:2022-01-05
# (参考訳) TryOnGANの探索

Probing TryOnGAN ( http://arxiv.org/abs/2201.01703v1 )

ライセンス: CC BY 4.0
Saurabh Kumar, Nishant Sinha(参考訳) TryOnGANは最近の仮想試行アプローチで、非常にリアルなイメージを生成し、これまでのアプローチよりも優れています。 本稿では,trionganの実装を再現し,伝達学習の影響,ポーズ付き条件付き画像生成の変種,潜在空間補間の性質など,様々な角度から検証する。 これらの面のいくつかは、以前に文献で研究されたことがない。 移行は最初はトレーニングに役立つが、モデルのトレーニングが長くなり、結合による条件付けが向上するにつれて、利益は失われる。 潜在空間はポーズとスタイルの特徴を自己区別し、ポーズ間のスタイル転送を可能にする。 私たちのコードとモデルはオープンソースで利用可能です。

TryOnGAN is a recent virtual try-on approach, which generates highly realistic images and outperforms most previous approaches. In this article, we reproduce the TryOnGAN implementation and probe it along diverse angles: impact of transfer learning, variants of conditioning image generation with poses and properties of latent space interpolation. Some of these facets have never been explored in literature earlier. We find that transfer helps training initially but gains are lost as models train longer and pose conditioning via concatenation performs better. The latent space self-disentangles the pose and the style features and enables style transfer across poses. Our code and models are available in open source.
翻訳日:2022-01-06 13:50:05 公開日:2022-01-05
# 手話生産に必要なものすべて

All You Need In Sign Language Production ( http://arxiv.org/abs/2201.01609v1 )

ライセンス: Link先を確認
Razieh Rastgoo, Kourosh Kiani, Sergio Escalera, Vassilis Athitsos, Mohammad Sabokrou(参考訳) 手話は、聴覚障害と聴覚障害のコミュニティで使われるコミュニケーション言語の主要な形態である。 難聴者と難聴者コミュニティとのコミュニケーションが容易かつ相互に行えるようにし、音声言語を手話に翻訳できるロバストなシステムを構築することが基本である。 この目的のために、手話認識と生産は、このような双方向システムを作るのに必要な2つの部分である。 言語認識と生産はいくつかの重要な課題に対処する必要がある。 本稿では,手話生成(SLP)とその関連分野の最近の進歩を,ディープラーニングを用いて概観する。 手話にもっと現実的な視点を持たせるために,聴覚障害者文化,聴覚障害者センター,手話の心理的視点,話し言葉と手話の主な違いについて紹介する。 さらに,本稿では,双方向手話翻訳システムの基本コンポーネントを紹介し,この分野の主な課題について述べる。 また、SLPのバックボーンアーキテクチャや手法を簡潔に紹介し、SLPの分類について提案する。 最後に、SLPと性能評価のための一般的なフレームワーク、およびSLPの最近の発展、利点、限界に関する議論について、今後の研究の行程についてコメントする。

Sign Language is the dominant form of communication language used in the deaf and hearing-impaired community. To make an easy and mutual communication between the hearing-impaired and the hearing communities, building a robust system capable of translating the spoken language into sign language and vice versa is fundamental. To this end, sign language recognition and production are two necessary parts for making such a two-way system. Sign language recognition and production need to cope with some critical challenges. In this survey, we review recent advances in Sign Language Production (SLP) and related areas using deep learning. To have more realistic perspectives to sign language, we present an introduction to the Deaf culture, Deaf centers, psychological perspective of sign language, the main differences between spoken language and sign language. Furthermore, we present the fundamental components of a bi-directional sign language translation system, discussing the main challenges in this area. Also, the backbone architectures and methods in SLP are briefly introduced and the proposed taxonomy on SLP is presented. Finally, a general framework for SLP and performance evaluation, and also a discussion on the recent developments, advantages, and limitations in SLP, commenting on possible lines for future research are presented.
翻訳日:2022-01-06 13:45:33 公開日:2022-01-05
# オートエンコーダを用いた遅延ベクトル拡張による異常検出

Latent Vector Expansion using Autoencoder for Anomaly Detection ( http://arxiv.org/abs/2201.01416v1 )

ライセンス: Link先を確認
UJu Gim, YeongHyeon Park(参考訳) ディープラーニング手法は、画像、言語、音声などの様々な非構造化データを入力データとして分類することができる。 実世界では,異常の分類が重要になるにつれて,実世界で収集されたデータを用いた深層学習の分類方法が数多く存在する。 実世界では,異常の分類が重要になるにつれて,実世界で収集されたデータを用いて深層学習を用いて分類する方法は様々である。 各種手法のうち,本手法は,事前学習したモデルから遷移モデルに基づいて主特徴を抽出・学習する方法であり,正規データのみを用いてオートエンコーダ構造を学習し,しきい値を通じて異常に分類する方法である。 しかし、データセットが不均衡であれば、最先端のモデルでさえ性能が良くない。 これは、バランスのとれないデータの正常な特徴と異常な特徴を、強い区別を持つ特徴として増やすことで対処できる。 低次元から高次元の潜在ベクトルを訓練するためにオートエンコーダの特徴を用いる。 不均衡なデータの特徴を強く区別する特徴として,正常なデータと異常なデータを訓練する。 不均衡なデータの分類性能を向上させる潜在ベクトル展開オートエンコーダモデルを提案する。 提案手法は,不均衡なデータセットを用いた基本オートエンコーダと比較して性能改善を示す。

Deep learning methods can classify various unstructured data such as images, language, and voice as input data. As the task of classifying anomalies becomes more important in the real world, various methods exist for classifying using deep learning with data collected in the real world. As the task of classifying anomalies becomes more important in the real world, there are various methods for classifying using deep learning with data collected in the real world. Among the various methods, the representative approach is a method of extracting and learning the main features based on a transition model from pre-trained models, and a method of learning an autoencoderbased structure only with normal data and classifying it as abnormal through a threshold value. However, if the dataset is imbalanced, even the state-of-the-arts models do not achieve good performance. This can be addressed by augmenting normal and abnormal features in imbalanced data as features with strong distinction. We use the features of the autoencoder to train latent vectors from low to high dimensionality. We train normal and abnormal data as a feature that has a strong distinction among the features of imbalanced data. We propose a latent vector expansion autoencoder model that improves classification performance at imbalanced data. The proposed method shows performance improvement compared to the basic autoencoder using imbalanced anomaly dataset.
翻訳日:2022-01-06 13:45:15 公開日:2022-01-05
# 識別型・比較可能な1クラス分類器による模範学習

Exemplar-free Class Incremental Learning via Discriminative and Comparable One-class Classifiers ( http://arxiv.org/abs/2201.01488v1 )

ライセンス: Link先を確認
Wenju Sun, Qingyong Li, Jing Zhang, Danyu Wang, Wen Wang, Yangli-ao Geng(参考訳) exemplar-freeクラスインクリメンタル学習は、古いサンプルを保持せずに新しいクラス知識をインクリメンタルに学習する分類モデルを必要とする。 近年,各カテゴリごとに個別に1クラス分類器(occ)を訓練する並列型1クラス分類器(poc)に基づくフレームワークが注目されている。 しかしPOCは、異なるOOCに対する独立したトレーニング戦略のために、差別性とコンパラビリティに悩まされている。 この課題に対処するため,DisCOIL (Distriminative and Comparable One-class Classificationifiers for Incremental Learning) という新しいフレームワークを提案する。 DisCOILはPOCの基本原理に従っているが、訓練されたVAEがクラスに属する入力サンプルの確率を識別できるだけでなく、新しいタスクの学習を支援するためにクラスの擬似サンプルを生成するため、他の確立した1クラス分類器(ディープSVDDなど)の代わりに変分自動エンコーダ(VAE)を採用する。 この利点により、discoilは旧型のvaeとは対照的に新級vaeを訓練し、新級vaeは新級サンプルをより良く再構築するが、旧級疑似サンプルでは悪化し、互換性が向上した。 さらに、DisCOILは、識別性を確保するためにヒンジ復元損失を導入する。 提案手法はMNIST, CIFAR10, Tiny-ImageNetで広く評価されている。 実験の結果,DisCOILは最先端の性能を達成できた。

The exemplar-free class incremental learning requires classification models to learn new class knowledge incrementally without retaining any old samples. Recently, the framework based on parallel one-class classifiers (POC), which trains a one-class classifier (OCC) independently for each category, has attracted extensive attention, since it can naturally avoid catastrophic forgetting. POC, however, suffers from weak discriminability and comparability due to its independent training strategy for different OOCs. To meet this challenge, we propose a new framework, named Discriminative and Comparable One-class classifiers for Incremental Learning (DisCOIL). DisCOIL follows the basic principle of POC, but it adopts variational auto-encoders (VAE) instead of other well-established one-class classifiers (e.g. deep SVDD), because a trained VAE can not only identify the probability of an input sample belonging to a class but also generate pseudo samples of the class to assist in learning new tasks. With this advantage, DisCOIL trains a new-class VAE in contrast with the old-class VAEs, which forces the new-class VAE to reconstruct better for new-class samples but worse for the old-class pseudo samples, thus enhancing the comparability. Furthermore, DisCOIL introduces a hinge reconstruction loss to ensure the discriminability. We evaluate our method extensively on MNIST, CIFAR10, and Tiny-ImageNet. The experimental results show that DisCOIL achieves state-of-the-art performance.
翻訳日:2022-01-06 13:44:55 公開日:2022-01-05
# (参考訳) 複数文書読解の理解

Multi Document Reading Comprehension ( http://arxiv.org/abs/2201.01706v1 )

ライセンス: CC BY 4.0
Avi Chawla(参考訳) Reading Comprehension (RC) とは、ある節または一組の節から質問に答えるタスクである。 複数の節がある場合、その質問に対する最良の答えを見つけることが課題である。 自然言語処理(nlp)の分野での最近の試みと実験により、機械は、文章の処理だけでなく、文章から質問に答える意味を理解することができるだけでなく、スタンフォードの質問応答データセット(squad)のような多くのデータセットで人間のパフォーマンスを上回ることができることが証明された。 本稿では,過去数十年にわたる自然言語処理における読解とその進化について考察する。 また,複数文書読解システムのためのビルディングブロックとして,単一文書読解システムがどのように機能するかについても検討する。 論文の後半では、最近提案されているマルチドキュメント読解モデルについて検討します。re3qaは、読み手、検索者、そして、与えられた一節から最善の回答を得るための再ランク付けベースのネットワークで構成されています。

Reading Comprehension (RC) is a task of answering a question from a given passage or a set of passages. In the case of multiple passages, the task is to find the best possible answer to the question. Recent trials and experiments in the field of Natural Language Processing (NLP) have proved that machines can be provided with the ability to not only process the text in the passage and understand its meaning to answer the question from the passage, but also can surpass the Human Performance on many datasets such as Standford's Question Answering Dataset (SQuAD). This paper presents a study on Reading Comprehension and its evolution in Natural Language Processing over the past few decades. We shall also study how the task of Single Document Reading Comprehension acts as a building block for our Multi-Document Reading Comprehension System. In the latter half of the paper, we'll be studying about a recently proposed model for Multi-Document Reading Comprehension - RE3QA that is comprised of a Reader, Retriever, and a Re-ranker based network to fetch the best possible answer from a given set of passages.
翻訳日:2022-01-06 13:42:17 公開日:2022-01-05
# ゼロショット・セミスーパービジョン学習のための自然不均衡な擬似ラベルからのデバイアスドラーニング

Debiased Learning from Naturally Imbalanced Pseudo-Labels for Zero-Shot and Semi-Supervised Learning ( http://arxiv.org/abs/2201.01490v1 )

ライセンス: Link先を確認
Xudong Wang, Zhirong Wu, Long Lian, Stella X. Yu(参考訳) 本研究は,先行研究によって見過ごされる自然現象である疑似ラベルのバイアス問題を研究する。 ソースデータで訓練された分類器がラベルなしのターゲットデータに転送されると、擬似ラベルが生成される。 半教師付き学習モデルフィクスマッチがラベルなしデータセットのラベルを予測した場合、ラベルなしデータのバランスが保たれている場合でも、重長い尾付き擬似ラベルを観測する。 介入なしに、トレーニングモデルは擬似ラベルからバイアスを継承し、最終的には準最適となる。 モデルバイアスを排除するため,適応型デバイアスモジュールと適応型限界損失からなる,単純で効果的なデバイアスマッチング法を提案する。 オンライン更新キューを利用することで、デバイアスの強度とマージンのサイズを自動的に調整することができる。 imagenet-1kでベンチマークしたdebiasmatchは、半教師付き学習(0.2%の注釈付きデータ)とゼロショット学習タスクにおいて、以前の最先端を26%以上、8.7%を大きく上回っている。

This work studies the bias issue of pseudo-labeling, a natural phenomenon that widely occurs but often overlooked by prior research. Pseudo-labels are generated when a classifier trained on source data is transferred to unlabeled target data. We observe heavy long-tailed pseudo-labels when a semi-supervised learning model FixMatch predicts labels on the unlabeled set even though the unlabeled data is curated to be balanced. Without intervention, the training model inherits the bias from the pseudo-labels and end up being sub-optimal. To eliminate the model bias, we propose a simple yet effective method DebiasMatch, comprising of an adaptive debiasing module and an adaptive marginal loss. The strength of debiasing and the size of margins can be automatically adjusted by making use of an online updated queue. Benchmarked on ImageNet-1K, DebiasMatch significantly outperforms previous state-of-the-arts by more than 26% and 8.7% on semi-supervised learning (0.2% annotated data) and zero-shot learning tasks respectively.
翻訳日:2022-01-06 13:28:02 公開日:2022-01-05
# 人工知能の課題 --機械学習とコンピュータビジョンから感情知へ-

Challenges of Artificial Intelligence -- From Machine Learning and Computer Vision to Emotional Intelligence ( http://arxiv.org/abs/2201.01466v1 )

ライセンス: Link先を確認
Matti Pietik\"ainen, Olli Silven(参考訳) 人工知能(AI)は日々の会話や生活の一部になっている。 それは世界を変える新しい電気だと考えられている。 AIは産業とアカデミーの両方に多大な投資をしている。 しかし、現在のAIに関する議論には、多くの誇大宣伝がある。 いわゆるディープラーニングに基づくAIは多くの問題で目覚ましい結果を得たが、その限界はすでに見えている。 aiは1940年代から研究が続けられており、業界は過剰な期待とそれに伴う失望によって、多くの上昇と低下を経験している。 この本の目的は、AI、その歴史、その可能性、限界の現実的なイメージを提供することである。 AIは人間の支配者ではなく支援者だと考えている。 AIとは何か、どのように進化してきたのかを説明することから始めます。 基礎研究の後、人工知能の現在の主流における大量のデータの重要性を説明します。 AI、メソッド、機械学習の最も一般的な表現がカバーされている。 また、主なアプリケーション領域も導入されている。 コンピュータビジョンはAIの開発の中心となっている。 この本はコンピュータビジョンの一般的な紹介を提供し、我々の研究の結果と応用への露出を含んでいる。 感情は人間の知性の中心であるが、AIではほとんど使われていない。 我々は、感情知性の基礎と、そのトピックに関する独自の研究を紹介する。 我々は、人間の理解を超越する超知能について論じ、その成果が現在の知識に基づいて不可能に思える理由と、AIをどのように改善できるかを説明する。 最後に、現在のaiの現状と将来何をすべきかを要約する。 付録では、特に私たちの大学におけるコンテンツの観点から、ai教育の発展を考察する。

Artificial intelligence (AI) has become a part of everyday conversation and our lives. It is considered as the new electricity that is revolutionizing the world. AI is heavily invested in both industry and academy. However, there is also a lot of hype in the current AI debate. AI based on so-called deep learning has achieved impressive results in many problems, but its limits are already visible. AI has been under research since the 1940s, and the industry has seen many ups and downs due to over-expectations and related disappointments that have followed. The purpose of this book is to give a realistic picture of AI, its history, its potential and limitations. We believe that AI is a helper, not a ruler of humans. We begin by describing what AI is and how it has evolved over the decades. After fundamentals, we explain the importance of massive data for the current mainstream of artificial intelligence. The most common representations for AI, methods, and machine learning are covered. In addition, the main application areas are introduced. Computer vision has been central to the development of AI. The book provides a general introduction to computer vision, and includes an exposure to the results and applications of our own research. Emotions are central to human intelligence, but little use has been made in AI. We present the basics of emotional intelligence and our own research on the topic. We discuss super-intelligence that transcends human understanding, explaining why such achievement seems impossible on the basis of present knowledge,and how AI could be improved. Finally, a summary is made of the current state of AI and what to do in the future. In the appendix, we look at the development of AI education, especially from the perspective of contents at our own university.
翻訳日:2022-01-06 13:27:43 公開日:2022-01-05
# TensorFlowオブジェクト検出APIを用いた手話認識システム

Sign Language Recognition System using TensorFlow Object Detection API ( http://arxiv.org/abs/2201.01486v1 )

ライセンス: Link先を確認
Sharvani Srivastava, Amisha Gangwar, Richa Mishra, Sudhakar Singh(参考訳) コミュニケーションとは、情報、アイデア、感情を共有し、交換する行為である。 2人のコミュニケーションを確立するためには、共通の言語に関する知識と理解が必要である。 しかし、聴覚障害者や愚かな人々の場合、コミュニケーションの手段は異なります。 聴覚障害者は聞き取れず、愚か者は話すことができない。 彼らは手話を使って普通の人と意思疎通するが、普通の人は手話の重要性を真剣に受け止めない。 誰もが普通の人と聴覚障害と愚かな人とのコミュニケーションを難しくする手話の知識と理解を持っているわけではない。 この障壁を克服するために、機械学習に基づいたモデルを構築することができる。 モデルは手話の異なるジェスチャーを認識し、それらを英語に翻訳するように訓練することができる。 これは、多くの人々が聴覚障害者と会話したり会話したりするのに役立ちます。 既存のインド歌言語認識システムは、シングルハンドとダブルハンドのジェスチャーを持つ機械学習アルゴリズムを用いて設計されているが、リアルタイムではない。 本稿では、Webカメラを用いてインド手話データセットを作成し、次に転送学習を用いて、TensorFlowモデルを訓練してリアルタイム手話認識システムを構築する方法を提案する。 システムは、限られたサイズのデータセットでも良好な精度を達成する。

Communication is defined as the act of sharing or exchanging information, ideas or feelings. To establish communication between two people, both of them are required to have knowledge and understanding of a common language. But in the case of deaf and dumb people, the means of communication are different. Deaf is the inability to hear and dumb is the inability to speak. They communicate using sign language among themselves and with normal people but normal people do not take seriously the importance of sign language. Not everyone possesses the knowledge and understanding of sign language which makes communication difficult between a normal person and a deaf and dumb person. To overcome this barrier, one can build a model based on machine learning. A model can be trained to recognize different gestures of sign language and translate them into English. This will help a lot of people in communicating and conversing with deaf and dumb people. The existing Indian Sing Language Recognition systems are designed using machine learning algorithms with single and double-handed gestures but they are not real-time. In this paper, we propose a method to create an Indian Sign Language dataset using a webcam and then using transfer learning, train a TensorFlow model to create a real-time Sign Language Recognition system. The system achieves a good level of accuracy even with a limited size dataset.
翻訳日:2022-01-06 13:27:23 公開日:2022-01-05
# 自然言語理解におけるドメイン分類のためのハイパーパラメータフリー連続学習

Hyperparameter-free Continuous Learning for Domain Classification in Natural Language Understanding ( http://arxiv.org/abs/2201.01420v1 )

ライセンス: Link先を確認
Ting Hua, Yilin Shen, Changsheng Zhao, Yen-Chang Hsu, Hongxia Jin(参考訳) ドメイン分類は自然言語理解(NLU)の基本課題であり、しばしば新しい領域への高速な調節を必要とする。 この制約により、たとえ新しいモデルにアクセスできるとしても、以前のすべてのドメインを再トレーニングすることは不可能である。 既存の継続的学習アプローチの多くは、特に古いデータと新しいデータの分布が著しく異なる場合、低い精度とパフォーマンスのゆらぎに苦しむ。 実際、重要な現実の問題は、古いデータがないことではなく、古いデータセットでモデルを再トレーニングする非効率である。 ハイパーパラメータを余分に導入することなく、古いデータを利用して高い精度と安定したパフォーマンスを維持する可能性はあるか? 本稿では,様々な環境下で安定してハイパフォーマンスを実現するテキストデータのためのハイパーパラメータフリー連続学習モデルを提案する。 具体的には,フィッシャー情報を用いて原モデルのキー情報を「記録」できる例題を選定する。 また,リトレイン過程におけるハイパーパラメータフリー学習を可能にするために,動的重み統合と呼ばれる新しい手法を提案する。 広範な実験により、ベースラインは変動するパフォーマンスに苦しむため、実際には役に立たないことが示された。 一方,提案したCCFIモデルでは,平均精度が最大20%向上し,CCFIの各コンポーネントが全体の性能に効果的に寄与する。

Domain classification is the fundamental task in natural language understanding (NLU), which often requires fast accommodation to new emerging domains. This constraint makes it impossible to retrain all previous domains, even if they are accessible to the new model. Most existing continual learning approaches suffer from low accuracy and performance fluctuation, especially when the distributions of old and new data are significantly different. In fact, the key real-world problem is not the absence of old data, but the inefficiency to retrain the model with the whole old dataset. Is it potential to utilize some old data to yield high accuracy and maintain stable performance, while at the same time, without introducing extra hyperparameters? In this paper, we proposed a hyperparameter-free continual learning model for text data that can stably produce high performance under various environments. Specifically, we utilize Fisher information to select exemplars that can "record" key information of the original model. Also, a novel scheme called dynamical weight consolidation is proposed to enable hyperparameter-free learning during the retrain process. Extensive experiments demonstrate that baselines suffer from fluctuated performance and therefore useless in practice. On the contrary, our proposed model CCFI significantly and consistently outperforms the best state-of-the-art method by up to 20% in average accuracy, and each component of CCFI contributes effectively to overall performance.
翻訳日:2022-01-06 13:27:08 公開日:2022-01-05
# 自動情報抽出によるエネルギー動向のモニタリング

Monitoring Energy Trends through Automatic Information Extraction ( http://arxiv.org/abs/2201.01559v1 )

ライセンス: Link先を確認
Dilek K\"u\c{c}\"uk(参考訳) エネルギー研究は重要な公共的重要性を持つが、自動テキスト処理やエネルギー領域のデータ管理といったコンピュータ科学技術の使用はいまだに稀である。 エネルギー領域におけるこれらの技術の利用は、'`bioinformatics'の学際領域における関連する進歩と同様に、'`エネルギー情報学'の学際的なトピックに重要な貢献をする。 本稿では,Web上で利用可能な多種多様なメディアから抽出される自動的,連続的,ガイド的情報を用いて,最新のエネルギー動向をモニタリングするEneMonIE(Energy Monitoring through Information extract)というWebベースのセマンティックシステムのアーキテクチャを提案する。 このシステムによって処理されるメディアには、オンラインのニュース記事、ソーシャルメディアのテキスト、オンラインのニュースビデオ、オープンアクセスの学術論文や技術レポート、エネルギー機関が公開する様々な数値エネルギーデータが含まれる。 このシステムはエネルギーに関するオントロジーを利用して貢献し、その最終形は構成要素を構成する。 (i)テキスト分類、 (ii)エンティティ認識 (iii)時間表現抽出、 (iv)イベント抽出 (v)ソーシャルネットワークの構築 (vi)感情分析。 (vii)情報融合及び要約 (viii)メディアの相互リンク、及び (ix) Web ベースの情報検索と可視化。 EneMonIEは、エネルギー生成、送信、流通システムオペレーター、エネルギー研究センター、関連投資家や起業家、研究者、学生、その他エネルギーイベントや技術のペースに関心のある個人など、意思決定者にとって、多種多様なデータソース、自動テキスト処理機能、そしてパブリック利用のためのプレゼンテーション施設を提供する。

Energy research is of crucial public importance but the use of computer science technologies like automatic text processing and data management for the energy domain is still rare. Employing these technologies in the energy domain will be a significant contribution to the interdisciplinary topic of ``energy informatics", just like the related progress within the interdisciplinary area of ``bioinformatics". In this paper, we present the architecture of a Web-based semantic system called EneMonIE (Energy Monitoring through Information Extraction) for monitoring up-to-date energy trends through the use of automatic, continuous, and guided information extraction from diverse types of media available on the Web. The types of media handled by the system will include online news articles, social media texts, online news videos, and open-access scholarly papers and technical reports as well as various numeric energy data made publicly available by energy organizations. The system will utilize and contribute to the energy-related ontologies and its ultimate form will comprise components for (i) text categorization, (ii) named entity recognition, (iii) temporal expression extraction, (iv) event extraction, (v) social network construction, (vi) sentiment analysis, (vii) information fusion and summarization, (viii) media interlinking, and (ix) Web-based information retrieval and visualization. Wits its diverse data sources, automatic text processing capabilities, and presentation facilities open for public use; EneMonIE will be an important source of distilled and concise information for decision-makers including energy generation, transmission, and distribution system operators, energy research centres, related investors and entrepreneurs as well as for academicians, students, other individuals interested in the pace of energy events and technologies.
翻訳日:2022-01-06 13:26:48 公開日:2022-01-05
# smdt:選択的記憶提示ニューラルドキュメント翻訳

SMDT: Selective Memory-Augmented Neural Document Translation ( http://arxiv.org/abs/2201.01631v1 )

ライセンス: Link先を確認
Xu Zhang, Jian Yang, Haoyang Huang, Shuming Ma, Dongdong Zhang, Jinlong Li, Furu Wei(参考訳) 既存の文書レベルのニューラルネットワーク翻訳(NMT)モデルでは、ターゲット生成のためのガイダンスを提供するために、コンテキスト設定が十分に検討されている。 しかし,より多様な文脈情報の提供にはほとんど注意が払われていない。 本稿では,文脈の大きな仮説空間を含む文書を扱うために,選択的メモリ拡張ニューラル文書翻訳モデルを提案する。 具体的には、トレーニングコーパスから類似したバイリンガル文ペアを検索し、グローバルコンテキストを拡大し、2ストリームアテンションモデルを拡張し、ローカルコンテキストと多様なグローバルコンテキストをキャプチャする選択的なメカニズムで拡張する。 この統一的なアプローチにより、我々のモデルは3つの公開文書レベルの機械翻訳データセットでエレガントに訓練され、従来の文書レベルのNMTモデルよりも大幅に向上する。

Existing document-level neural machine translation (NMT) models have sufficiently explored different context settings to provide guidance for target generation. However, little attention is paid to inaugurate more diverse context for abundant context information. In this paper, we propose a Selective Memory-augmented Neural Document Translation model to deal with documents containing large hypothesis space of the context. Specifically, we retrieve similar bilingual sentence pairs from the training corpus to augment global context and then extend the two-stream attention model with selective mechanism to capture local context and diverse global contexts. This unified approach allows our model to be trained elegantly on three publicly document-level machine translation datasets and significantly outperforms previous document-level NMT models.
翻訳日:2022-01-06 13:26:21 公開日:2022-01-05
# 凝縮物質系における一般化力場機械学習モデルの記述子

Descriptors for Machine Learning Model of Generalized Force Field in Condensed Matter Systems ( http://arxiv.org/abs/2201.00798v2 )

ライセンス: Link先を確認
Puhan Zhang, Sheng Zhang, Gia-Wei Chern(参考訳) 本稿では, 凝縮物系の多スケール力学モデリングのための機械学習(ml)手法の汎用フレームワーク, 特に強相関電子モデルについて概説する。 これらの系における複雑な空間的時間的挙動は、準粒子と局所格子歪み、スピン、秩序パラメータのような創発的な動的古典的自由度との相互作用から生じることが多い。 提案手法の中心となるのがMLエネルギーモデルであり、時間を要する電子構造計算をうまくエミュレートすることで、中間領域の古典場に基づいて局所エネルギーを正確に予測することができる。 電子ハミルトニアンの対称性を適切に含むために、MLエネルギーモデルの重要な構成要素は、近傍の配置を学習モデルに入力される不変な特徴変数に変換する記述子である。 古典体の記述子の一般的な理論が定式化され、2種類のモデルが古典体の内部対称性の有無によって区別される。 古典体の記述子に対するいくつかの具体的なアプローチが提示される。 双スペクトル係数に基づく不変量を計算するための体系的かつ厳密なアプローチを提供する群論的手法に着目した。 本稿では,参照既約表現の概念に基づくbispectrum法の効率的な実装を提案する。 最後に、様々な記述子の実装をよく知られた電子格子モデルで示す。

We outline the general framework of machine learning (ML) methods for multi-scale dynamical modeling of condensed matter systems, and in particular of strongly correlated electron models. Complex spatial temporal behaviors in these systems often arise from the interplay between quasi-particles and the emergent dynamical classical degrees of freedom, such as local lattice distortions, spins, and order-parameters. Central to the proposed framework is the ML energy model that, by successfully emulating the time-consuming electronic structure calculation, can accurately predict a local energy based on the classical field in the intermediate neighborhood. In order to properly include the symmetry of the electron Hamiltonian, a crucial component of the ML energy model is the descriptor that transforms the neighborhood configuration into invariant feature variables, which are input to the learning model. A general theory of the descriptor for the classical fields is formulated, and two types of models are distinguished depending on the presence or absence of an internal symmetry for the classical field. Several specific approaches to the descriptor of the classical fields are presented. Our focus is on the group-theoretical method that offers a systematic and rigorous approach to compute invariants based on the bispectrum coefficients. We propose an efficient implementation of the bispectrum method based on the concept of reference irreducible representations. Finally, the implementations of the various descriptors are demonstrated on well-known electronic lattice models.
翻訳日:2022-01-06 11:49:29 公開日:2022-01-05
# (参考訳) 進化遺伝的アルゴリズムにおけるガウス変異の自己適応への応用

Applications of Gaussian Mutation for Self Adaptation in Evolutionary Genetic Algorithms ( http://arxiv.org/abs/2201.00285v2 )

ライセンス: CC BY-SA 4.0
Okezue Bell(参考訳) 近年,より強力な計算手法の必要性から,最適化問題の一般化が進んでいる。 人工知能などの技術が最近出現するにつれて、古典的なアルゴリズムの能力を高める新しいメタヒューリスティックが求められている。 近年、研究者はチャールズ・ダーウィンの自然選択と進化の理論を、機械学習を用いた現在のアプローチを強化する手段として研究している。 1960年、ジョン・ホランドとその学生によって最初の遺伝的アルゴリズムが開発された。 ガウス突然変異を用いて進化可能な発展系における遺伝的アルゴリズムの数学的直観と最適化問題の解法におけるその意味について検討する。

In recent years, optimization problems have become increasingly more prevalent due to the need for more powerful computational methods. With the more recent advent of technology such as artificial intelligence, new metaheuristics are needed that enhance the capabilities of classical algorithms. More recently, researchers have been looking at Charles Darwin's theory of natural selection and evolution as a means of enhancing current approaches using machine learning. In 1960, the first genetic algorithm was developed by John H. Holland and his student. We explore the mathematical intuition of the genetic algorithm in developing systems capable of evolving using Gaussian mutation, as well as its implications in solving optimization problems.
翻訳日:2022-01-06 10:38:14 公開日:2022-01-05
# (参考訳) 筋電図に基づく生体認証のためのオープンアクセスデータセット

Open Access Dataset for Electromyography based Multi-code Biometric Authentication ( http://arxiv.org/abs/2201.01051v2 )

ライセンス: CC BY 4.0
Ashirbad Pradhan, Jiayuan He, Ning Jiang(参考訳) 近年、表面筋電図 (emg) は、スプーフィングや活力といった現在の生体計測のいくつかの重要な制限に対処するための新しい生体計測特性として提案されている。 EMG信号は個人(バイオメトリックス)と本質的に異なる特徴を持ち、マルチ長のコードやパスワード(例えば、異なるジェスチャーを実行することで)を実現するようにカスタマイズできる。 しかし、現在のEMGベースの生体計測研究には2つの限界がある。 1)他のより確立された生体特性と比較して小さな被験者プール 2) シングルセッションまたはシングルデイデータセットに限定される。 本研究は,手指と手首のジェスチャーをしながら,3日間にわたり3つの異なる被験者から前腕筋電図と手首筋電図を収集した。 複数日間の生体認証の結果、前腕のEERは0.017、手首のEERは0.025となり、整合性のある生体認証特性に匹敵する性能を示した。 提示された大規模マルチデイデータセットと知見は、emgベースのバイオメトリックスや他のジェスチャー認識に基づくアプリケーションに関するさらなる研究を促進することができる。

Recently, surface electromyogram (EMG) has been proposed as a novel biometric trait for addressing some key limitations of current biometrics, such as spoofing and liveness. The EMG signals possess a unique characteristic: they are inherently different for individuals (biometrics), and they can be customized to realize multi-length codes or passwords (for example, by performing different gestures). However, current EMG-based biometric research has two critical limitations: 1) a small subject pool, compared to other more established biometric traits, and 2) limited to single-session or single-day data sets. In this study, forearm and wrist EMG data were collected from 43 participants over three different days with long separation while they performed static hand and wrist gestures. The multi-day biometric authentication resulted in a median EER of 0.017 for the forearm setup and 0.025 for the wrist setup, comparable to well-established biometric traits suggesting consistent performance over multiple days. The presented large-sample multi-day data set and findings could facilitate further research on EMG-based biometrics and other gesture recognition-based applications.
翻訳日:2022-01-06 10:37:27 公開日:2022-01-05
# (参考訳) MoCoPnet:赤外小ターゲット超解法における局所運動とコントラスト先行の探索

MoCoPnet: Exploring Local Motion and Contrast Priors for Infrared Small Target Super-Resolution ( http://arxiv.org/abs/2201.01014v2 )

ライセンス: CC BY 4.0
Xinyi Ying, Yingqian Wang, Longguang Wang, Weidong Sheng, Li Liu, Zaipin Lin, Shilin Zhou(参考訳) 赤外線小型ターゲットスーパーレゾリューション(sr)は、低レゾリューションのターゲットから高コントラストのターゲットで信頼性と詳細な高解像度画像を回収することを目的としている。 赤外線小ターゲットには色や微細な構造情報がないため、シーケンス画像間の補足情報を利用してターゲットを強化することが重要である。 本稿では,赤外小ターゲットのドメイン知識を深層ネットワークに統合し,赤外小ターゲットの固有の特徴不足を軽減するために,ローカルモーションとコントラスト事前駆動深層ネットワーク(MoCoPnet)と呼ばれる最初の赤外小ターゲットSR手法を提案する。 具体的には、時空間次元に先立つ局所運動に動機づけられ、暗黙的なフレームアライメントを行い、局所時空間情報を取り込んで局所的特徴(特に小さな対象)を高める局所時空間アライメントモジュールを提案する。 空間次元に先行する局所的コントラストに動機づけられ,中心的差分畳み込みを特徴抽出バックボーンに組み込む中心的差分残差群を提案する。 広範な実験により,本手法が正確な空間依存性を回復し,目標コントラストを改善することを実証した。 比較の結果,MoCoPnetは,SR性能と目標拡張の両面から,最先端ビデオSRと単一画像SR法より優れていた。 SRの結果から,赤外線小目標検出におけるSRの影響についてさらに検討し,MoCoPnetが検出性能を向上させることを示す実験結果を得た。 コードはhttps://github.com/xinyiying/mocopnetで入手できる。

Infrared small target super-resolution (SR) aims to recover reliable and detailed high-resolution image with highcontrast targets from its low-resolution counterparts. Since the infrared small target lacks color and fine structure information, it is significant to exploit the supplementary information among sequence images to enhance the target. In this paper, we propose the first infrared small target SR method named local motion and contrast prior driven deep network (MoCoPnet) to integrate the domain knowledge of infrared small target into deep network, which can mitigate the intrinsic feature scarcity of infrared small targets. Specifically, motivated by the local motion prior in the spatio-temporal dimension, we propose a local spatiotemporal attention module to perform implicit frame alignment and incorporate the local spatio-temporal information to enhance the local features (especially for small targets). Motivated by the local contrast prior in the spatial dimension, we propose a central difference residual group to incorporate the central difference convolution into the feature extraction backbone, which can achieve center-oriented gradient-aware feature extraction to further improve the target contrast. Extensive experiments have demonstrated that our method can recover accurate spatial dependency and improve the target contrast. Comparative results show that MoCoPnet can outperform the state-of-the-art video SR and single image SR methods in terms of both SR performance and target enhancement. Based on the SR results, we further investigate the influence of SR on infrared small target detection and the experimental results demonstrate that MoCoPnet promotes the detection performance. The code is available at https://github.com/XinyiYing/MoCoPnet.
翻訳日:2022-01-06 10:18:12 公開日:2022-01-05
# (参考訳) 遠隔ネットワーク監視によるツイートの半教師付き姿勢検出

Semi-supervised Stance Detection of Tweets Via Distant Network Supervision ( http://arxiv.org/abs/2201.00614v2 )

ライセンス: CC BY 4.0
Subhabrata Dutta, Samiya Caur, Soumen Chakrabarti, Tanmoy Chakraborty(参考訳) ソーシャルメディアテキスト中のスタンスの検出とラベル付けは、ヘイトスピーチの検出、ポーリング予測、エンゲージメント予測、および協調プロパガンダ検出によって強く動機付けられている。 ソーシャルメディアのテキストが急速に変化する状況と、ユーザーがオペインする問題を考えると、今日の最高のニューラルネットワーク検出には大量のトレーニングデータが必要です。 ソーシャルネットワーク上のホモフィリーな特性は、粗いユーザーレベルのスタンスを示す強いシグナルを与える。 しかし、ツイートレベルのスタンス検出のための半教師付きアプローチは、ホモフィリーを適切に活用できない。 そこで我々は,新しい半教師付き姿勢検出器SANDSを提案する。 SANDSはラベル付きツイートから始まる。 ツイートの複数の深い機能ビューを構築する。 また、ソーシャルネットワークから離れた監視信号を使用して、コンポーネント学習者に代理的損失信号を提供する。 8万7000人を超えるユーザーが投稿した2つの人口統計(米国とインド)から23万6000以上の政治的に色付けされたツイート、フォロワーフォローグラフ、言語学者が注釈付けした8000以上のツイートからなる、新しいツイートデータセットを2つ用意する。 SANDSは、米国(インド)ベースのデータセットで0.55(0.49)のマクロF1スコアを達成し、17のベースライン(SANDSの変種を含む)を大幅に上回っている。 SANDSにおける多数のアブレーション実験は、テキスト信号とネットワークプロパゲート信号の力学を乱す。

Detecting and labeling stance in social media text is strongly motivated by hate speech detection, poll prediction, engagement forecasting, and concerted propaganda detection. Today's best neural stance detectors need large volumes of training data, which is difficult to curate given the fast-changing landscape of social media text and issues on which users opine. Homophily properties over the social network provide strong signal of coarse-grained user-level stance. But semi-supervised approaches for tweet-level stance detection fail to properly leverage homophily. In light of this, We present SANDS, a new semi-supervised stance detector. SANDS starts from very few labeled tweets. It builds multiple deep feature views of tweets. It also uses a distant supervision signal from the social network to provide a surrogate loss signal to the component learners. We prepare two new tweet datasets comprising over 236,000 politically tinted tweets from two demographics (US and India) posted by over 87,000 users, their follower-followee graph, and over 8,000 tweets annotated by linguists. SANDS achieves a macro-F1 score of 0.55 (0.49) on US (India)-based datasets, outperforming 17 baselines (including variants of SANDS) substantially, particularly for minority stance labels and noisy text. Numerous ablation experiments on SANDS disentangle the dynamics of textual and network-propagated stance signals.
翻訳日:2022-01-06 10:16:41 公開日:2022-01-05
# Cement: 長期ラベルによる不完全なマルチビュー弱ラベル学習

CEMENT: Incomplete Multi-View Weak-Label Learning with Long-Tailed Labels ( http://arxiv.org/abs/2201.01079v2 )

ライセンス: Link先を確認
Zhiwei Li, Lu Sun(参考訳) 様々な現代的なアプリケーションがマルチビューのマルチラベル学習を示しており、各サンプルにはマルチビュー機能があり、複数のラベルは共通のビューで関連付けられている。 近年、この問題に対処し、多くの成功を収める方法が提案されているが、それでも2つの大きな問題に悩まされている。 1) 不完全な多視点弱ラベルデータを扱う能力が欠如しており,各サンプルに特徴及びラベルのサブセットのみが提供される。 2) 現実問題に通常発生するノイズの多いビューやテールラベルの存在を無視する。 本稿では,その限界を克服するために,Cementという新しい手法を提案する。 1) セメントは不完全なビューと弱いラベルをそれぞれ異なる低次元部分空間に埋め込み、ヒルベルト・シュミット独立基準 (hsic) によってそれらを関連付ける。 例えば、CEMEMTは、ノイズの多いビューをキャプチャするための埋め込みの重みを適応的に学習し、テールラベルをモデル化するための余分なコンポーネントを探索し、低ランクをマルチラベル設定で利用できるようにする。 提案する最適化問題を解くための交互アルゴリズムを開発した。 7つの実世界のデータセットにおける実験結果は,提案手法の有効性を示している。

A variety of modern applications exhibit multi-view multi-label learning, where each sample has multi-view features, and multiple labels are correlated via common views. In recent years, several methods have been proposed to cope with it and achieved much success, but still suffer from two key problems: 1) lack the ability to deal with the incomplete multi-view weak-label data, in which only a subset of features and labels are provided for each sample; 2) ignore the presence of noisy views and tail labels usually occurring in real-world problems. In this paper, we propose a novel method, named CEMENT, to overcome the limitations. For 1), CEMENT jointly embeds incomplete views and weak labels into distinct low-dimensional subspaces, and then correlates them via Hilbert-Schmidt Independence Criterion (HSIC). For 2), CEMEMT adaptively learns the weights of embeddings to capture noisy views, and explores an additional sparse component to model tail labels, making the low-rankness available in the multi-label setting. We develop an alternating algorithm to solve the proposed optimization problem. Experimental results on seven real-world datasets demonstrate the effectiveness of the proposed method.
翻訳日:2022-01-06 10:14:49 公開日:2022-01-05