このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200331となっている論文です。

PDF登録状況(公開日: 20200331)

TitleAuthorsAbstract論文公表日・翻訳日
# セマンティック誘導シーン生成のための局所クラス別及びグローバル画像レベル生成型ネットワーク

Local Class-Specific and Global Image-Level Generative Adversarial Networks for Semantic-Guided Scene Generation ( http://arxiv.org/abs/1912.12215v3 )

ライセンス: Link先を確認
Hao Tang, Dan Xu, Yan Yan, Philip H. S. Torr, Nicu Sebe(参考訳) 本稿では,セマンティック誘導シーン生成の課題に対処する。 シーン生成におけるオープンな課題の1つは、世界規模の画像レベルの生成手法で広く観察されている、小さなオブジェクトの生成の困難さと詳細な局所テクスチャである。 そこで本研究では,局所的な文脈でシーン生成を学習し,セマンティックマップを用いたローカルクラス固有生成ネットワークを指導として設計し,異なるクラスの生成に集中するサブジェネレータを別々に構築・学習し,シーンの詳細を提供する。 局所生成のためのクラス固有の特徴表現をより識別するために、新しい分類モジュールも提案されている。 グローバル画像レベルと局所クラス固有生成の両方の利点を生かして,注目融合モジュールと二重識別器構造を組み込んだジョイントジェネレーションネットワークを設計する。 2つのシーン画像生成タスクに関する広範囲な実験により,提案モデルの優れた生成性能を示す。 最先端の結果は、タスクと挑戦的な公開ベンチマークの両方に大きなマージンで確立されている。 ソースコードとトレーニングされたモデルはhttps://github.com/Ha0Tang/LGGANで公開されている。

In this paper, we address the task of semantic-guided scene generation. One open challenge in scene generation is the difficulty of the generation of small objects and detailed local texture, which has been widely observed in global image-level generation methods. To tackle this issue, in this work we consider learning the scene generation in a local context, and correspondingly design a local class-specific generative network with semantic maps as a guidance, which separately constructs and learns sub-generators concentrating on the generation of different classes, and is able to provide more scene details. To learn more discriminative class-specific feature representations for the local generation, a novel classification module is also proposed. To combine the advantage of both the global image-level and the local class-specific generation, a joint generation network is designed with an attention fusion module and a dual-discriminator structure embedded. Extensive experiments on two scene image generation tasks show superior generation performance of the proposed model. The state-of-the-art results are established by large margins on both tasks and on challenging public benchmarks. The source code and trained models are available at https://github.com/Ha0Tang/LGGAN.
翻訳日:2023-06-09 23:26:53 公開日:2020-03-31
# 反事実論理ゲート

Counterfactual Logic Gates ( http://arxiv.org/abs/2001.09430v3 )

ライセンス: Link先を確認
Zheng-Hong Li, Xiao-Fei Ji, Saeed Asiri, Luojia Wang, and M. Al-Amri(参考訳) 本稿では,NAND,NOR,XORといった基本論理ゲートの実装について述べる。 2つの入力(bobとcharlie)と、提案された反事実論理ゲートの出力(alice)は同じステーション内ではなく、3つの異なる場所に分かれている。 ゲートの絡み合いを事前に調整する必要はなく、さらに重要なことは、情報処理中にアリス、ボブ、チャーリーの間を移動する実際の物理的粒子が存在しないことである。 BobとCharlieは、Aliceに接続する送信チャネルのブロッキングとアンブロッキングを独立して制御する必要がある。 このようにして、アリスの終点における実光子の状態を完全に決定できるので、反実論理ゲートを実装することができる。 特定の対物論理ゲートの機能は、アリスの光学装置の適切な設計によってのみ決定される。 さらに,提案した逆ファクト論理ゲートを用いて,伝送路を遮断・遮断する重畳状態にある3つの遠隔量子オブジェクトを用いて,グリーンベルガー・ホーネ・ザイリンガー状態とW状態とを反実的に生成する方法を示す。

We present how basic logic gates including NAND, NOR and XOR gates can be implemented counterfactually. The two inputs (Bob and Charlie) and the output (Alice) of the proposed counterfactual logic gate are not within the same station but rather separated in three different locations. We show that there is no need to pre-arrange entanglement for the gate, and more importantly, there is no real physical particles traveling among Alice, Bob and Charlie during the information processing. Bob and Charlie only need to independently control the blocking and unblocking of the transmission channels that connect them to Alice. In this way, they can completely determine the state of a real photon at Alice's end, thereby leading to implement a counterfactual logic gate. The functionality of a particular counterfactual logic gate is determined only by an appropriate design of Alice's optical device. Furthermore, by utilizing the proposed counterfactual logic gates, we demonstrate how to counterfactually prepare the Greenberger-Horne-Zeilinger state and W state with three remote quantum objects, which are in superposition states of blocking and unblocking the transmission channel.
翻訳日:2023-06-05 23:28:09 公開日:2020-03-31
# 閉じ込められたイオンによるロバストな動的交換冷却

Robust dynamical exchange cooling with trapped ions ( http://arxiv.org/abs/2002.04627v2 )

ライセンス: Link先を確認
Tobias S\"agesser, Roland Matt, Robin Oswald, Jonathan P. Home(参考訳) 予備冷却イオンとの過渡的相互作用により捕捉された原子イオンのロバストかつ高速冷却の可能性について理論的に検討する。 過渡結合はイオンの平衡位置の動的制御によって達成される。 短時間の冷却を実現するために,不変工学を応用し,断熱への近道を利用する。 ストレイ場やトラップ周波数オフセットなどの不完全性を考慮した設計を行う。 実験室で現在運用されているトラップに適した設定では、ロバストな性能を6.3ドルの運動サイクルに落とし、0.44\\mathrm{MHz}$トラップ周波数のイオンに対して14.2\ \mathrm{\mu s}$となる。 これは弱い結合状態におけるレーザー冷却によって達成できるよりもかなり高速であり、量子コンピューティングの文脈において魅力的なスキームとなっている。

We investigate theoretically the possibility for robust and fast cooling of a trapped atomic ion by transient interaction with a pre-cooled ion. The transient coupling is achieved through dynamical control of the ions' equilibrium positions. To achieve short cooling times we make use of shortcuts to adiabaticity by applying invariant-based engineering. We design these to take account of imperfections such as stray fields, and trap frequency offsets. For settings appropriate to a currently operational trap in our laboratory, we find that robust performance could be achieved down to $6.3$ motional cycles, comprising $14.2\ \mathrm{\mu s}$ for ions with a $0.44\ \mathrm{MHz}$ trap frequency. This is considerably faster than can be achieved using laser cooling in the weak coupling regime, which makes this an attractive scheme in the context of quantum computing.
翻訳日:2023-06-03 23:20:39 公開日:2020-03-31
# 非ブロックバンド間の超高速・無調波ラビ振動

Ultrafast and Anharmonic Rabi Oscillations between Non-Bloch-Bands ( http://arxiv.org/abs/2003.10763v3 )

ライセンス: Link先を確認
Ching Hua Lee, Stefano Longhi(参考訳) 弱交流共振体によって誘起されるブロッホバンド間のラビフラップは、バンド間遷移を伴うコヒーレント効果である。 ここでは,非エルミタンの非エルミタンスキン効果を示す非エルミタン2バンド格子における量子およびラビ振動の放出・吸収の基本的な過程を考察し,前例のないラビフロップのシナリオを明らかにする。 しかし、遷移の効果的な双極子モーメント(通常はバルク性と考えられる)は境界条件に強く依存しており、開放境界が存在する場合にのみラビ周波数が増大する。 磁場強度が増加するにつれて、ラビの振動は急速に非調和となり、遷移は、世俗的な増幅チャネルによって系が不安定な状態(複素準エネルギースペクトル)に入るまでエネルギーモメンタム平面において垂直となる。 複雑なエネルギーの存在下でも安定なままであり、ラビ振動は非エルミート的、非局所的、フロッケ的影響の競合が物理的に測定可能な量の顕著な増大をもたらす様子を鮮明に示す。

Rabi flopping between Bloch bands induced by a weak ac resonant field is a coherent effect involving interband transitions. Here we consider the fundamental processes of emission/absorption of quanta and Rabi oscillations in non-Hermitian two-band lattices exhibiting unbalanced non-Hermitian skin effect, and unveil an unprecedented scenario of Rabi flopping. The effective dipole moment of the transition - usually considered a bulk property - is however strongly dependent on boundary conditions, being greatly enhanced with increased Rabi frequency only when open boundaries are present. As the field strength is increased, Rabi oscillations rapidly become anharmonic, and transitions cease to be vertical in the energy-momentum plane until the system enters into an unstable regime (complex quasi-energy spectrum) due to secular amplification channels. Remaining stable even in the presence of complex energies, Rabi oscillations provide a vivid illustration of how the competition between non-Hermitian, non-local and Floquet influences can result in significant enhancements of physically measurable quantities.
翻訳日:2023-05-28 01:05:25 公開日:2020-03-31
# 一般化Groverコインを用いた周期上の生きた量子ウォークの周期性

Periodicity of lively quantum walks on cycles with generalized Grover coin ( http://arxiv.org/abs/2003.12955v2 )

ライセンス: Link先を確認
Rohit Sarma Sarkar, Amrita Mandal, Bibhas Adhikari(参考訳) 本稿では、グロバー行列の一般化である置換行列の線形和としてコイン演算子を考えることにより、周期上の3つの状態の活発な量子ウォークの研究を拡張する。 まず、置換行列の線形和である次数 3\times 3$ の直交行列の完全な特徴づけを提供する。 その結果、複素、実および有理直交行列のいくつかの群を決定する。 次数 3\times 3$ の直交行列が置換行列の線型和であることと、それが置換行列であることは同値である。 最後に、コイン演算子が置換行列の直交(実)線型和の群に属するとき、サイクル上の活発な量子ウォークの周期を決定する。

In this paper we extend the study of three state lively quantum walks on cycles by considering the coin operator as a linear sum of permutation matrices, which is a generalization of the Grover matrix. First we provide a complete characterization of orthogonal matrices of order $3\times 3$ which are linear sum of permutation matrices. Consequently, we determine several groups of complex, real and rational orthogonal matrices. We establish that an orthogonal matrix of order $3\times 3$ is a linear sum of permutation matrices if and only if it is permutative. Finally we determine period of lively quantum walk on cycles when the coin operator belongs to the group of orthogonal (real) linear sum of permutation matrices.
翻訳日:2023-05-27 14:23:47 公開日:2020-03-31
# 双変量原理に基づく状態特異的マルチリファレンス結合クラスタ法

A state-specific multireference coupled-cluster method based on the bivariational principle ( http://arxiv.org/abs/2003.13358v2 )

ライセンス: Link先を確認
Tilmann Bodenstein and Simen Kvaal(参考訳) Arponenの分岐原理に基づく状態特異的な多重参照結合クラスタ法,Bivar-MRCC法を提案する。 この方法は単参照理論に基づいており、したがって比較的単純な定式化と控えめな計算複雑性を持つ。 確立された方法との主な違いは、波動関数(ket)とその複素共役(bra)の独立なパラメータ化が作られる双変量定式化である。 重要なことに、これは作業方程式の多項式スケーリングを保ちながら、明らかな乗法的分離性(拡張バイバルMRECCバージョンで可能であり、それ以外はそうでない)を可能にする。 双変量原理の特徴は、形式的ブラおよびケト参照を双変量パラメータとして含むことができ、形式的参照に対するバイアスをほとんど取り除くことである。 パイロット実装について述べ、いくつかの標準問題に対する広範なベンチマーク計算を行う。 bivar-mrcc法の結果は、確立された状態固有の多元参照法に匹敵する。 bivar-mrcc法の相対的許容性を考えると、非専門家にとって実用的なツールとなるかもしれない。

A state-specific multireference coupled-cluster method based on Arponen's bivariational principle is presented, the bivar-MRCC method. The method is based on singlereference theory, and therefore has a relatively straightforward formulation and modest computational complexity. The main difference from established methods is the bivariational formulation, in which independent parameterizations of the wavefunction (ket) and its complex conjugate (bra) are made. Importantly, this allows manifest multiplicative separability (exact in the extended bivar-MRECC version of the method, and approximate otherwise), while preserving polynomial scaling of the working equations. A feature of the bivariational principle is that the formal bra and ket references can be included as bivariational parameters, which eliminates much of the bias towards the formal reference. A pilot implementation is described, and extensive benchmark calculations on several standard problems are performed. The results from the bivar-MRCC method are comparable to established state-specific multireference methods. Considering the relative affordability of the bivar-MRCC method, it may become a practical tool for non-experts.
翻訳日:2023-05-27 12:23:12 公開日:2020-03-31
# ミリグラムスケール光機械システムによる量子センシング

Quantum sensing with milligram scale optomechanical systems ( http://arxiv.org/abs/2003.13906v1 )

ライセンス: Link先を確認
Yuta Michimura and Kentaro Komori(参考訳) 古典力学と量子力学の境界を求めることは、現代物理学の中心的なテーマの一つである。 近年、ミリグラムスケールの振動子に作用する力を正確に測定する実験が、量子力学、デコヒーレンス機構、重力物理学をテストする有望なツールとして注目を集めている。 本稿では,ミリグラムスケール光機械システムを用いた実験の現状について述べる。 我々は、量子状態に到達する可能性について、振り子、ねじれ振り子、光レビテーションミラーと比較した。 高いQ$の振り子を設計するための考察、ねじり振り子を振り子よりも優れた力感度を持つ状態、鏡の光浮上設計における制約について述べる。

Probing the boundary between classical and quantum mechanics has been one of the central themes in modern physics. Recently, experiments to precisely measure the force acting on milligram scale oscillators with optical cavities are attracting interest as promising tools to test quantum mechanics, decoherence mechanisms, and gravitational physics. In this paper, we review the present status of experiments using milligram scale optomechanical systems. We compare the feasibility of reaching the quantum regime with a pendulum, torsion pendulum, and optically levitated mirror. Considerations for designing a high $Q$ pendulum, condition for torsion pendulums to have better force sensitivity than pendulums, and constraints in designing optical levitation of a mirror are presented.
翻訳日:2023-05-27 08:05:36 公開日:2020-03-31
# 時空のない水平温度

Horizon temperature without space-time ( http://arxiv.org/abs/2003.14083v1 )

ライセンス: Link先を確認
Michele Arzano(参考訳) 事象の地平線を持つ時空において観測者が経験する特徴的な熱効果が、実線上に存在するアフィン対称性を持つ単純な量子系ですでに現れることを示す。 与えられた導出は本質的に自然界の群論であり、実数直線のアフィン変換群の異なる表現を比較すると、熱状態は自然に現れる。 翻訳生成器の異なる概念を選択する自由は、我々が記述した「直線上の」ウンルー効果の鍵である。

It is shown how the characteristic thermal effects that observers experience in space-times possessing an event horizon can manifest already in a simple quantum system with affine symmetry living on the real line. The derivation presented is essentially group theoretic in nature: a thermal state emerges naturally when comparing different representations of the group of affine transformations of the real line. The freedom in the choice of different notions of translation generators is the key to the Unruh effect "on a line" we describe.
翻訳日:2023-05-27 08:02:00 公開日:2020-03-31
# 数光子検出器のコントラスト分解能

Contrast resolution of few-photon detectors ( http://arxiv.org/abs/2003.14077v1 )

ライセンス: Link先を確認
Mattias J\"onsson and Gunnar Bj\"ork(参考訳) 低光強度の単色画素画像取得システムにおいて、異なる強度を区別する能力について分析する。 実際、後者は各画素が取得した画像フレーム毎に可算数の光子を検出することを意味する。 主に、クリック検出型および光子数分解型検出器(PNR)の画素に基づくシステムを比較するが、われわれのモデルは両者をシームレスに補間することができる。 また、正しい強度(または「灰度」)を割り当てる際の誤差の確率についても論じ、最終的に、検出された光子数の確率的性質による閾値レベルに基づく必要がある推定レベルがどのように割り当てられるべきかについて論じる。 総じて, pnr検出器を用いたシステムは, 非理想的条件下であっても, クリック検出システムよりも優れていることがわかった。

We analyse the capability of distinguishing between different intensities in a monochromatic, pixellated image acquisition system at low light intensities. In practice, the latter means that each pixel detects a countable number of photons per acquired image frame. Primarily we compare systems based on pixels of the click-detection type and photon-number resolving (PNR) type of detectors, but our model can seamlessly interpolate between the two. We also discuss the probability of errors in assigning the correct intensity (or "gray level"), and finally we discuss how the estimated levels, that need to be based on threshold levels due to the stochastic nature of the detected photon number, should be assigned. Overall, we find that PNR detector-based system offer advantages over click-detector-based systems even under rather non-ideal conditions.
翻訳日:2023-05-27 08:01:43 公開日:2020-03-31
# 凸最適化による量子状態と過程の真の実験的再構成

True experimental reconstruction of quantum states and processes via convex optimization ( http://arxiv.org/abs/2003.14011v1 )

ライセンス: Link先を確認
Akshay Gaikwad and Arvind and Kavita Dorai(参考訳) 我々は、制約付き凸最適化(CCO)法を用いて、2量子NMR量子情報プロセッサ上で任意の量子状態と未知の量子過程を実験的に特徴づける。 量子状態および量子プロセストモグラフィーの標準プロトコルは線形反転に基づいており、これはしばしば非物理的密度行列と従って無効なプロセス行列をもたらす。 一方, cco法では, 物理的に有効な密度行列とプロセス行列が生成され, 標準法と比較して精度が著しく向上した。 制約最適化問題は半定義プログラミング(sdp)プロトコルの助けを借りて解決される。 我々はCCO法を用いてクラウス演算子を推定し,デコヒーレンスによる誤りの有無でゲートを特徴付ける。 次にマルコフ系の力学を仮定し、CCO法と連動してリンドブラッドマスター方程式を用いてNMR量子ビットに存在するノイズ過程を完全に特徴づける。

We use a constrained convex optimization (CCO) method to experimentally characterize arbitrary quantum states and unknown quantum processes on a two-qubit NMR quantum information processor. Standard protocols for quantum state and quantum process tomography are based on linear inversion, which often result in an unphysical density matrix and hence an invalid process matrix. The CCO method on the other hand, produces physically valid density matrices and process matrices, with significantly improved fidelity as compared to the standard methods. The constrainedoptimization problem is solved with the help of a semi-definite programming (SDP) protocol. We use the CCO method to estimate the Kraus operators and characterize gates in the presence of errors due to decoherence. We then assume Markovian system dynamics and use a Lindblad master equation in conjunction with the CCO method to completely characterize the noise processes present in the NMR qubits.
翻訳日:2023-05-27 08:01:03 公開日:2020-03-31
# rwa系における有限温度非マルコフ進化の積分表現

Integral representation of finite temperature non-Markovian evolution of some RWA systems ( http://arxiv.org/abs/2003.13993v1 )

ライセンス: Link先を確認
A. E. Teretenkov(参考訳) 回転波近似におけるスピンボーソンの1粒子および0粒子制限である有限温度でのフリードリヒス模型を導入し、このモデルに対する励起状態の個数を求める。 また、回転波近似におけるボゾン熱浴と相互作用する発振器について検討し、この発振器の平均励起数のダイナミクスを求める。 両解は対応する相関関数を持つ零温度解の積分で表される。

We introduce the Friedrichs model at finite temperature which is one- and zero-particle restriction of spin-boson in the rotating wave approximation and obtain the population of the excited state for this model. We also consider the oscillator interacting with bosonic thermal bath in the rotating wave approximation and obtain dynamics of mean excitation number for this oscillator. Both solutions are expressed in terms of integrals of zero-temperature solutions with correspondent correlation functions.
翻訳日:2023-05-27 08:00:49 公開日:2020-03-31
# 量子プログラムのためのオープンソースの産業強度最適化コンパイラ

An Open-Source, Industrial-Strength Optimizing Compiler for Quantum Programs ( http://arxiv.org/abs/2003.13961v1 )

ライセンス: Link先を確認
Robert S. Smith, Eric C. Peterson, Mark G. Skilbeck, Erik J. Davis(参考訳) Quilcは、QuilまたはQASMで書かれたゲートベースの量子プログラムのための、オープンソースの最適化コンパイラである。 コンパイラは、NISQ時代の量子コンピュータに注意を払って設計され、具体的には、各量子ゲートがプログラムの実行を成功させるために非無視でしばしば発見不可能なコストがあることを認識している。 Quilcの第一の目的は、アーキテクチャの詳細を作者にとって負担の少ないものにすることで、量子ソフトウェアをシンプルにすることである。 quilcを使用することで、通常は妥協することなく、プログラムを高速に書けるようになります。 本稿では,Quilcの設計の背景にある多くの原則を説明し,様々な例でコンパイラを実演する。

Quilc is an open-source, optimizing compiler for gate-based quantum programs written in Quil or QASM, two popular quantum programming languages. The compiler was designed with attention toward NISQ-era quantum computers, specifically recognizing that each quantum gate has a non-negligible and often irrecoverable cost toward a program's successful execution. Quilc's primary goal is to make authoring quantum software a simpler exercise by making architectural details less burdensome to the author. Using Quilc allows one to write programs faster while usually not compromising---and indeed sometimes improving---their execution fidelity on a given hardware architecture. In this paper, we describe many of the principles behind Quilc's design, and demonstrate the compiler with various examples.
翻訳日:2023-05-27 08:00:23 公開日:2020-03-31
# 量子状態のシュミット数は常にデバイス独立に証明されない

The Schmidt number of a quantum state cannot always be device-independently certified ( http://arxiv.org/abs/2003.14189v1 )

ライセンス: Link先を確認
Flavien Hirsch and Marcus Huber(参考訳) 量子基盤と量子情報理論の大きな課題の1つは、絡み合いとベルの不等式違反の関係を特徴づけることである。 特定のシナリオでは、制限されたベルシナリオにおける量子状態の局所的な隠れ変数モデルから、ベルの不等式が最大エンタングルメントと一致しない最大違反まで、これら2つの挙動が異なることが知られている。 本稿では、シュミット数によって測定されたエンタングルメント内容が、あらゆるコピーの可能なシーケンシャルな測定に対してデバイス独立に証明できない量子状態が存在するという単純な証明を提示する。 より大きい疑問は: \textit{can では、絡み合いの存在は、常にデバイス独立に認定されているか? デバイスに依存しないエンタングルメントの定量化は、標準的なベルシナリオを越えても、常に可能であるとは限らない。

One of the great challenges of quantum foundations and quantum information theory is the characterisation of the relationship between entanglement and the violation of Bell inequalities. It is well known that in specific scenarios these two can behave differently, from local hidden-variable models for entangled quantum states in restricted Bell scenarios, to maximal violations of Bell inequalities not concurring with maximal entanglement. In this paper we put forward a simple proof that there exist quantum states, whose entanglement content, as measured by the Schmidt number, cannot be device-independently certified for all possible sequential measurements on any number of copies. While the bigger question: \textit{can the presence of entanglement always be device-independently certified?} remains open, we provide proof that quantifying entanglement device-independently is not always possible, even beyond the standard Bell scenario.
翻訳日:2023-05-27 07:53:40 公開日:2020-03-31
# 複数のキャビティに分布する複数の量子ビット群の量子絡み合い状態の生成

Generation of quantum entangled states of multiple groups of qubits distributed in multiple cavities ( http://arxiv.org/abs/2003.14170v1 )

ライセンス: Link先を確認
Tong Liu, Qi-Ping Su, Yu Zhang, Yu-Liang Fang, and Chui-Ping Yang(参考訳) キャビティがグリーンベルガー・ホルン・ザイリンガー(GHZ)の絡み合った状態にあることを条件として、N個のキャビティに分散されたN群量子ビットのGHZ状態が3段階の演算によって生成可能であることを示す。 N-群量子ビットのGHZ状態は、N-群量子ビットを用いて生成される。 ここで "qutrit" は、2つの最低レベルが量子ビットを表す3レベル量子システムを指し、3番目のレベルがghz状態の生成に必要な中間状態として振る舞う。 この提案は空洞ベースの量子ネットワークのアーキテクチャと空洞を結合する方法に依存しない。 演算時間は、キュービット数とは独立である。 GHZ状態は、クォートや空洞の状態の測定が不要であるため、決定的に調製される。 さらに、クエット全体の第3のエネルギー準位は実質的に励起され、より高いエネルギー準位からの脱コヒーレンスを大幅に抑制する。 この提案は非常に一般的であり、原理的には様々な物理量子ビット(原子、量子ドット、nv中心、様々な超伝導量子ビットなど)を用いて複数の量子ビットのghz状態を生成するのに応用することができる。 具体例として、配列に配置された4つの1次元伝送線路共振器に分散された4群トランスモン量子ビット(各群は3つの量子ビットからなる)のGHZ状態を作成する実験可能性について述べる。

Provided that cavities are initially in a Greenberger-Horne-Zeilinger (GHZ) entangled state, we show that GHZ states of N-group qubits distributed in N cavities can be created via a 3-step operation. The GHZ states of the N-group qubits are generated by using N-group qutrits placed in the N cavities. Here, "qutrit" refers to a three-level quantum system with the two lowest levels representing a qubit while the third level acting as an intermediate state necessary for the GHZ state creation. This proposal does not depend on the architecture of the cavity-based quantum network and the way for coupling the cavities. The operation time is independent of the number of qubits. The GHZ states are prepared deterministically because no measurement on the states of qutrits or cavities is needed. In addition, the third energy level of the qutrits during the entire operation is virtually excited and thus decoherence from higher energy levels is greatly suppressed. This proposal is quite general and can in principle be applied to create GHZ states of many qubits using different types of physical qutrits (e.g., atoms, quantum dots, NV centers, various superconducting qutrits, etc.) distributed in multiple cavities. As a specific example, we further discuss the experimental feasibility of preparing a GHZ state of four-group transmon qubits (each group consisting of three qubits) distributed in four one-dimensional transmission line resonators arranged in an array.
翻訳日:2023-05-27 07:53:18 公開日:2020-03-31
# qed回路におけるフォトニックキャット状態量子ビットの絡み合い状態

Transferring entangled states of photonic cat-state qubits in circuit QED ( http://arxiv.org/abs/2003.14168v1 )

ライセンス: Link先を確認
Tong Liu, Zhen-Fei Zheng, Yu Zhang, Yu-Liang Fang, and Chui-Ping Yang(参考訳) 2つのマイクロ波空洞から他の2つのマイクロ波空洞への2つのフォトニック・キャット状態量子ビットの量子絡み合い状態の転送法を提案する。 この提案は超伝導フラックスキュートリットに結合した4つのマイクロ波キャビティを用いて実現された。 周波数の異なる4つのキャビティを使用するため、キャビティ間クロストークは著しく減少する。 1つのカプラクトリットのみを使用するので、回路資源を最小化する。 エンタングルメント転送は単一ステップ操作のみで完了するため、この提案は非常に単純である。 カプラクォートリットの3番目のエネルギー準位は、状態移動の間は占有されないため、より高いエネルギー準位からの脱コヒーレンスを著しく抑制する。 数値シミュレーションにより、電流回路qed技術により、2つの伝送線路共振器から他の2つの伝送線路共振器への2量子状態の高忠実化が実現可能であることを示す。 この提案は普遍的で、自然または人工の3レベル原子に結合した4つのマイクロ波または光学キャビティなど、幅広い物理系において同じ課題を達成するために適用することができる。

We propose a method for transferring quantum entangled states of two photonic cat-state qubits (cqubits) from two microwave cavities to the other two microwave cavities. This proposal is realized by using four microwave cavities coupled to a superconducting flux qutrit. Because of using four cavities with different frequencies, the inter-cavity crosstalk is significantly reduced. Since only one coupler qutrit is used, the circuit resources is minimized. The entanglement transfer is completed with a single-step operation only, thus this proposal is quite simple. The third energy level of the coupler qutrit is not populated during the state transfer, therefore decoherence from the higher energy level is greatly suppressed. Our numerical simulations show that high-fidelity transfer of two-cqubit entangled states from two transmission line resonators to the other two transmission line resonators is feasible with current circuit QED technology. This proposal is universal and can be applied to accomplish the same task in a wide range of physical systems, such as four microwave or optical cavities, which are coupled to a natural or artificial three-level atom.
翻訳日:2023-05-27 07:52:51 公開日:2020-03-31
# 導波路量子電磁力学における巨大人工原子の準位構造

Engineering the Level Structure of a Giant Artificial Atom in Waveguide Quantum Electrodynamics ( http://arxiv.org/abs/2003.14167v1 )

ライセンス: Link先を確認
A. M. Vadiraj, Andreas Ask, T. G. McConkey, I. Nsanzineza, C. W. Sandbo Chang, Anton Frisk Kockum, and C. M. Wilson(参考訳) 量子レベルでの工学的な光-物質相互作用は、何十年もの間量子光学の追求の中心であった。 伝統的に、これは発光体(典型的には天然原子とイオン)を光学とマイクロ波のキャビティ内の電磁場を量子化することによって行われる。 これらの系では、エミッタは理想化された双極子として近似され、物理サイズは光の波長よりも桁違いに小さい。 近年、超伝導回路から作られた人工原子は、単純な双極子として近似できない「ジャイアント」原子の研究を含む、光-物質カップリングの新しいフロンティアを可能にしている。 そこで本研究では,トランスモン量子ビットから生成した人工原子を,オープン伝送線に沿って複数点のマイクロ波を伝播させる新しい実装について検討する。 この結合の性質により、クビット放射場はそれ自身に干渉し、衝撃的な巨大原子効果をもたらす。 例えば、量子ビットエネルギー準位の強い周波数依存性の結合を伝送線路の電磁モードに観測する。 量子ビットのエネルギーレベルをその場で調整する能力と組み合わせることで、複数の量子ビット遷移の相対的カップリング率を1桁以上変更できることが示される。 そうすることで、メタ安定な励起状態を作り、電磁誘導透過性を明確に示す効果的なラムダシステムとして、巨大なトランスモンを動作させます。

Engineering light-matter interactions at the quantum level has been central to the pursuit of quantum optics for decades. Traditionally, this has been done by coupling emitters, typically natural atoms and ions, to quantized electromagnetic fields in optical and microwave cavities. In these systems, the emitter is approximated as an idealized dipole, as its physical size is orders of magnitude smaller than the wavelength of light. Recently, artificial atoms made from superconducting circuits have enabled new frontiers in light-matter coupling, including the study of "giant" atoms which cannot be approximated as simple dipoles. Here, we explore a new implementation of a giant artificial atom, formed from a transmon qubit coupled to propagating microwaves at multiple points along an open transmission line. The nature of this coupling allows the qubit radiation field to interfere with itself leading to some striking giant-atom effects. For instance, we observe strong frequency-dependent couplings of the qubit energy levels to the electromagnetic modes of the transmission line. Combined with the ability to in situ tune the qubit energy levels, we show that we can modify the relative coupling rates of multiple qubit transitions by more than an order of magnitude. By doing so, we engineer a metastable excited state, allowing us to operate the giant transmon as an effective lambda system where we clearly demonstrate electromagnetically induced transparency.
翻訳日:2023-05-27 07:52:33 公開日:2020-03-31
# 量子機械学習のための無料ランチなし

No Free Lunch for Quantum Machine Learning ( http://arxiv.org/abs/2003.14103v1 )

ライセンス: Link先を確認
Kyle Poland, Kerstin Beer, Tobias J. Osborne(参考訳) 量子データの量子機械学習の究極の限界は、祝福されたNo Free Lunch(NFL)定理の一般化を得ることによって研究される。 入力状態と出力状態のペアでトレーニングされた量子学習アルゴリズムの、トレーニングペアとユニタリの平均値に対して、量子リスク(トレーニングされた仮説がランダムな入力で提示された場合、正しくない確率)は低い値となる。 この境界は、最近導入されたqnnアーキテクチャを使って示される。

The ultimate limits for the quantum machine learning of quantum data are investigated by obtaining a generalisation of the celebrated No Free Lunch (NFL) theorem. We find a lower bound on the quantum risk (the probability that a trained hypothesis is incorrect when presented with a random input) of a quantum learning algorithm trained via pairs of input and output states when averaged over training pairs and unitaries. The bound is illustrated using a recently introduced QNN architecture.
翻訳日:2023-05-27 07:51:22 公開日:2020-03-31
# 第一原理から見た低速電子と近接場光の強い相互作用

Strong interaction of slow electrons with near-field light visited from first principles ( http://arxiv.org/abs/2003.14101v1 )

ライセンス: Link先を確認
Nahid Talebi(参考訳) 電子顕微鏡における電子ビームのような光と物質波の強い相互作用は、最近、絡み合いを理解する新しいツールとして登場した。 ここでは,電子-光相互作用を第一原理から体系的に研究する。 古典的反動と量子力学的光子吸収・放出過程を同時に行うことで、遅い電子波束とプラズモニックナノ粒子と相互作用する系において、強化結合が達成できることが示されている。 ナノ粒子の寸法よりも長手幅の長い低速電子では、低速電子とプラズモニック振動の位相マッチングは結合の強さを制御するための追加の自由度として表される。 我々の研究は、断熱近似を超えた電子-光相互作用の体系的および現実的な理解に向けての道を開き、光と物質波を含む電子-光子系とボソンサンプリング装置の実現の基礎を築いた。

Strong interaction between light and matter waves, such as electron beams in electron microscopes, has recently emerged as a new tool for understanding entanglement. Here, we systematically investigate electron-light interactions from first principles. We show that enhanced coupling can be achieved for systems involving slow electron wavepackets interacting with plasmonic nanoparticles, due to simultaneous classical recoil and quantum mechanical photon absorption and emission processes. For slow electrons with longitudinal broadenings longer than the dimensions of nanoparticles, phase-matching between slow electrons and plasmonic oscillations is manifested as an additional degree of freedom to control the strength of coupling. Our findings pave the way towards a systematic and realistic understanding of electron-light interactions beyond adiabatic approximations, and lay the ground for realization of entangled electron-photon systems and Boson-sampling devices involving light and matter waves.
翻訳日:2023-05-27 07:51:15 公開日:2020-03-31
# ボーアにおける未承認交換-アインシュタイン討論会

An Underappreciated Exchange in the Bohr--Einstein Debate ( http://arxiv.org/abs/2003.14385v1 )

ライセンス: Link先を確認
Blake C. Stacey(参考訳) ボーア=アインシュタイン論争は物理学史上最も顕著な知的交流の一つである。 量子基礎に関する2013年の調査で明らかなパターンの1つは、ボーアが正しいと信じていた物理学者がアインシュタインが間違っていたと言わざるを得なかったことである。 この交流は1920年にボーアとアインシュタインが初めて会い、続く10年間のソルヴェイ会議で続き、1935年にEPRパラドックスと劇的なクレッセンドに達し、その後も続いた。 この長い物語の全てのエピソードが等しく調査されているわけではない。 特に、ボーアが提出した遅い声明は、アインシュタインの同等のピシー回答よりもずっと厳しい審査を受けている。

The Bohr--Einstein debate is one of the more remarkable protracted intellectual exchanges in the history of physics. Its influence has been lasting: One of the few clear patterns in a 2013 survey about quantum foundations was that the physicists who believed Bohr to be correct were apt to say that Einstein had been wrong. The exchanges began when Bohr and Einstein first met in 1920, continued at the Solvay conferences of the following decade, reached a dramatic crescendo with the EPR paradox in 1935, and continued thereafter. Not every episode in this long story has been investigated equally. In particular, one late statement attributed to Bohr has received much more intense examination than Einstein's equally pithy reply.
翻訳日:2023-05-27 07:43:18 公開日:2020-03-31
# 非Hermitian Haldane Honeycomb Latticesのトポロジー保護

Topological Protection in non-Hermitian Haldane Honeycomb Lattices ( http://arxiv.org/abs/2003.14375v1 )

ライセンス: Link先を確認
Pablo Res\'endiz-V\'azquez, Konrad Tschernig, Armando Perez-Leija, Kurt Busch, Roberto de J. Le\'on-Montiel(参考訳) 非エルミート系のトポロジカル現象は、近年、フォトニクスや凝縮物質群集への大きな関心の対象となっている。 特に、非エルミート格子における位相的に保護されたエッジ状態の観測の可能性は、この種の状態が持続する系の集中的な探索を引き起こした。 ここでは、平衡利得と損失を示す2次元ハルダン格子における位相的エッジ状態の出現に関する最初の研究を示す。 チャーン絶縁体モデルに関する最近の研究により、いわゆる $\mathcal{P}\mathcal{T}$-symmetric 相、すなわち利得損失平衡系のハミルトニアンのスペクトルが完全に実でない場合に、エッジ状態が観測できることが示されている。 さらに重要なことに、そのような位相的に保護されたエッジ状態は、ジグザグ、あごひげ、アームチェアといった格子境界に関係なく現れる。

Topological phenomena in non-Hermitian systems have recently become a subject of great interest in the photonics and condensed-matter communities. In particular, the possibility of observing topologically-protected edge states in non-Hermitian lattices has sparked an intensive search for systems where this kind of states are sustained. Here, we present the first study on the emergence of topological edge states in two-dimensional Haldane lattices exhibiting balanced gain and loss. In line with recent studies on other Chern insulator models, we show that edge states can be observed in the so-called broken $\mathcal{P}\mathcal{T}$-symmetric phase, that is, when the spectrum of the gain-loss-balanced system's Hamiltonian is not entirely real. More importantly, we find that such topologically protected edge states emerge irrespective of the lattice boundaries, namely zigzag, bearded or armchair.
翻訳日:2023-05-27 07:43:06 公開日:2020-03-31
# infostop: マルチユーザモビリティデータにおけるスケーラブルなストップロケーション検出

Infostop: Scalable stop-location detection in multi-user mobility data ( http://arxiv.org/abs/2003.14370v1 )

ライセンス: Link先を確認
Ulf Aslak, Laura Alessandretti(参考訳) データ駆動型モビリティ研究は近年盛んであり、疫病の予測や交通計画など現実世界の課題への解決策を提供している。 これらの進歩は、デジタルトレースの大規模データセットの分析を可能にする計算ツールによって促進された。 空間軌道を前処理する際の課題の1つは、停止位置検出と呼ばれる、個人が静止している目的地のシーケンスに生の時系列を還元する、いわゆる停止位置検出である。 この問題の最も広く採用されている解はhariharan and toyama (2004) によって提案され、非定常測定をフィルタリングし、静止点に凝集クラスタリングを適用することを含む。 しかし、最先端のソリューションには2つの制限がある。 (i)非常に近い場所(隣接する建物など)に頻繁に訪れる場所は、固有の測定ノイズのため、ユニークな場所にマージされる可能性が高い。 (ii)複数ユーザのトレースを同時に分析することはできないため、宛先の定義はユーザ間で共有されない。 本稿では,フローベースのネットワークコミュニティ検出アルゴリズムinfomapを用いて,最先端ソリューションの限界を克服するインフォストップアルゴリズムについて述べる。 私たちは、非常に重なり合うモビリティを持つ1000ドルの個人に対してInfostopをテストする。 Infostopが検出した位置のサイズはユーザ数の増加に対して飽和し、従来のソリューションよりも時間複雑性が遅くなることを示す。 我々はinfostopが簡単にソーシャルミーティングを推論できることを実証する。 最後に、PythonとC++で記述されたInfostopのオープンソース実装を提供し、シンプルなAPIを持ち、時間順座標列(GPSなど)のラベル付けや、順序のない空間点のセットに使用できる。

Data-driven research in mobility has prospered in recent years, providing solutions to real-world challenges including forecasting epidemics and planning transportation. These advancements were facilitated by computational tools enabling the analysis of large-scale data-sets of digital traces. One of the challenges when pre-processing spatial trajectories is the so-called stop location detection, that entails the reduction of raw time series to sequences of destinations where an individual was stationary. The most widely adopted solution to this problem was proposed by Hariharan and Toyama (2004) and involves filtering out non-stationary measurements, then applying agglomerative clustering on the stationary points. This state-of-the-art solution, however, suffers of two limitations: (i) frequently visited places located very close (such as adjacent buildings) are likely to be merged into a unique location, due to inherent measurement noise, (ii) traces for multiple users can not be analysed simultaneously, thus the definition of destination is not shared across users. In this paper, we describe the Infostop algorithm that overcomes the limitations of the state-of-the-art solution by leveraging the flow-based network community detection algorithm Infomap. We test Infostop for a population of $\sim 1000$ individuals with highly overlapping mobility. We show that the size of locations detected by Infostop saturates for increasing number of users and that time complexity grows slower than for previous solutions. We demonstrate that Infostop can be used to easily infer social meetings. Finally, we provide an open-source implementation of Infostop, written in Python and C++, that has a simple API and can be used both for labeling time-ordered coordinate sequences (GPS or otherwise), and unordered sets of spatial points.
翻訳日:2023-05-27 07:42:47 公開日:2020-03-31
# 自然に閉じ込められた希土類ドープ固体超放射光レーザークロック

A naturally trapped rare-earth doped solid-state superradiant laser clock ( http://arxiv.org/abs/2003.14281v1 )

ライセンス: Link先を確認
Mahmood Sabooni(参考訳) 共振器ミラー振動にほとんど敏感な固体系超放射光レーザを提案する。 したがって、最高の周波数安定ローカル発振器と競合することができる。 希土類イオン(reis)ドープ固体の長いコヒーレンス時間と大きな光学密度を用いて、原子崩壊速度よりも線幅が小さい定常レーザー放射を示すレジームを探索した。 実験パラメータを議論し、平均場理論に基づいてキャビティ内光子数とレーザー線幅を算出する。 絶対レーザーライン幅の測定方法を提案する。

We propose a solid-state based superradiance laser which is almost insensitive to the cavity mirror vibration. Therefore, it can compete with the best frequency-stable local oscillators. The long coherence time and the large optical density of rare-earth-ions (REIs) doped solids are employed to find a regime to demonstrate a steady-state laser emission with linewidth smaller than the atomic decay rate. The experimental parameters are discussed and intracavity photon number and laser linewidth are calculated based on the mean-field theory. A procedure for measuring absolute laser linewidth is proposed.
翻訳日:2023-05-27 07:41:48 公開日:2020-03-31
# 新型コロナウイルス対策における移動性の変化

Mobility Changes in Response to COVID-19 ( http://arxiv.org/abs/2003.14228v1 )

ライセンス: Link先を確認
Michael S. Warren and Samuel W. Skillman(参考訳) 新型コロナウイルス(COVID-19)のパンデミックを受けて、行動の自発的な変化と人的交流に対する行政上の制約が生じた。 これらの作用は、重症急性呼吸器症候群ウイルス(SARS-CoV-2)の感染率を低下させることを目的としている。 我々は、匿名化および/または未同定のモバイルデバイスの位置を用いて移動度を測定し、ある人口の典型的なメンバーが1日で移動する距離を表す統計値である。 結果から,米国とグローバルの両方において,モビリティの大幅な削減が実現されていることが示唆された。 米国では、新型コロナウイルス(COVID-19)の脅威と特定の政府の指示の発端に関連して、大きな移動量削減が検出されている。 米国管理者1(州)と管理者2(州)レベルのモビリティデータは、GitHubリポジトリ https://github.com/descarteslabs/DL-COVID-19/を通じてCreative Commons Attribution (CC BY 4.0)ライセンスで無償公開されている。

In response to the COVID-19 pandemic, both voluntary changes in behavior and administrative restrictions on human interactions have occurred. These actions are intended to reduce the transmission rate of the severe acute respiratory syndrome coronavirus 2 (SARS-CoV-2). We use anonymized and/or de-identified mobile device locations to measure mobility, a statistic representing the distance a typical member of a given population moves in a day. Results indicate that a large reduction in mobility has taken place, both in the US and globally. In the United States, large mobility reductions have been detected associated with the onset of the COVID-19 threat and specific government directives. Mobility data at the US admin1 (state) and admin2 (county) level have been made freely available under a Creative Commons Attribution (CC BY 4.0) license via the GitHub repository https://github.com/descarteslabs/DL-COVID-19/
翻訳日:2023-05-27 07:41:05 公開日:2020-03-31
# 小さな量子コンピュータと巨大な古典的データセット

Small quantum computers and large classical data sets ( http://arxiv.org/abs/2004.00026v1 )

ライセンス: Link先を確認
Aram W. Harrow(参考訳) 本稿では、量子コンピュータがYへの重ね合わせアクセスを持つがXではないような古典的集合 X とモデル Y の空間に関わる問題に対するハイブリッド古典量子アルゴリズムを紹介し、これらのアルゴリズムは、データ還元技術を用いて、各モデルにほぼ同じ損失をもたらすコアセットと呼ばれるXの重み付きサブセットを構築する。 コアセットは古典的コンピュータ単独で、あるいは量子コンピュータの出力を使ってXのどの要素を使うかを決定する対話的プロトコルによって構築することができる。 量子コンピュータを用いてGrover検索やリジェクションサンプリングを行うことで、最大推定、ベイズ推定、サドル点最適化のための量子スピードアップが得られる。 具体的な応用としては、k平均クラスタリング、論理回帰、ゼロサムゲーム、ブースティングなどがある。

We introduce hybrid classical-quantum algorithms for problems involving a large classical data set X and a space of models Y such that a quantum computer has superposition access to Y but not X. These algorithms use data reduction techniques to construct a weighted subset of X called a coreset that yields approximately the same loss for each model. The coreset can be constructed by the classical computer alone, or via an interactive protocol in which the outputs of the quantum computer are used to help decide which elements of X to use. By using the quantum computer to perform Grover search or rejection sampling, this yields quantum speedups for maximum likelihood estimation, Bayesian inference and saddle-point optimization. Concrete applications include k-means clustering, logistical regression, zero-sum games and boosting.
翻訳日:2023-05-27 07:33:40 公開日:2020-03-31
# 量子チャネルの混合ユニタリ階数について

On the mixed-unitary rank of quantum channels ( http://arxiv.org/abs/2003.14405v1 )

ライセンス: Link先を確認
Mark Girard, Debbie Leung, Jeremy Levick, Chi-Kwong Li, Vern Paulsen, Yiu Tung Poon, John Watrous(参考訳) 量子情報理論において、任意の正の整数次元$n$に対する混合ユニタリ量子チャネルは、複素ユニタリ行列が$n\times n$で共役の凸結合として表現できる線型写像である。 このようなチャネルの混合ユニタリ階数は、この形式の表現に必要な異なるユニタリ共役の最小数である。 我々は混合ユニタリチャネルの混合ユニタリランク~$n$とチョイランク〜r$との間のいくつかの新しい関係を同定し、チョイランクはそのチャネルのクラウス表現に必要な最小の非ゼロ項数に等しい。 最も注目すべきは、不等式 $N\leq r^2-r+1$ がすべての混合ユニタリチャネルに対して満たされることを証明し(等式 $N=2$ if $r=2$ である)、最初の既知の混合ユニタリチャネルの例を示す。 具体的には、すべての素数$d$を含む無限に多くの正の整数に対して、choiランク$d+1$とmixed-unitaryランク$d$を持つ混合ユニタリチャネルが存在することを証明します。 また,混合単位Werner-Holevoチャネルの混合単位ランクについても検討した。

In the theory of quantum information, the mixed-unitary quantum channels, for any positive integer dimension $n$, are those linear maps that can be expressed as a convex combination of conjugations by $n\times n$ complex unitary matrices. We consider the mixed-unitary rank of any such channel, which is the minimum number of distinct unitary conjugations required for an expression of this form. We identify several new relationships between the mixed-unitary rank~$N$ and the Choi rank~$r$ of mixed-unitary channels, the Choi rank being equal to the minimum number of nonzero terms required for a Kraus representation of that channel. Most notably, we prove that the inequality $N\leq r^2-r+1$ is satisfied for every mixed-unitary channel (as is the equality $N=2$ when $r=2$), and we exhibit the first known examples of mixed-unitary channels for which $N>r$. Specifically, we prove that there exist mixed-unitary channels having Choi rank $d+1$ and mixed-unitary rank $2d$ for infinitely many positive integers $d$, including every prime power $d$. We also examine the mixed-unitary ranks of the mixed-unitary Werner--Holevo channels.
翻訳日:2023-05-27 07:33:07 公開日:2020-03-31
# 統合構造化光アーキテクチャ

Integrated Structured Light Architectures ( http://arxiv.org/abs/2003.14400v1 )

ライセンス: Link先を確認
Randy Lemons, Wei Liu, Josef C. Frisch, Alan Fry, Joseph Robinson, Steve Smith, Sergio Carbajo(参考訳) 光の構造的万能性は、光の幾何学的状態と位相的状態の両方が、物質の反応や表示の仕方を決定できる、優れた光学現象の集大成となる。 光は、振幅、線形、スピン角、軌道角モーメントのような複数の自由度を持つが、これらの特性の時空間分布を適応的に設計する能力は、光に所望の構造を課す技術によって主に削減される。 本稿では,時空間制御とプログラム性を統合したレーザーアーキテクチャを試作し,そのトポロジを活用するために設計による光発生のユニークな機会を提示する。

The structural versatility of light underpins an outstanding collection of optical phenomena where both geometrical and topological states of light can dictate how matter will respond or display. Light possesses multiple degrees of freedom such as amplitude, and linear, spin angular, and orbital angular momenta, but the ability to adaptively engineer the spatio-temporal distribution of all these characteristics is primarily curtailed by technologies used to impose any desired structure to light. We describe a foundational demonstration that examines a laser architecture offering integrated spatio-temporal field control and programmability, thereby presenting unique opportunities for generating light by design to exploit its topology.
翻訳日:2023-05-27 07:32:41 公開日:2020-03-31
# マックスカットの量子アナログに対する積状態近似を超えて

Beyond product state approximations for a quantum analogue of Max Cut ( http://arxiv.org/abs/2003.14394v1 )

ライセンス: Link先を確認
Anurag Anshu, David Gosset, Karen Morenz(参考訳) グラフの頂点に位置する量子ビット間のハイゼンベルク相互作用を記述する2局所ハミルトニアンの最大固有値を近似することを目的とする計算問題を考える。 これまでの作業は、製品状態によるこの問題の近似性に光を当ててきた。 この問題の任意の例において、積状態によって達成される最大エネルギーはグラフの最大カットによってより低く、標準のゴーマンス・ウィリアムソン半定値プログラミング緩和によって上限される。 gharibian と parekh は、最悪の場合において最大固有値の少なくとも 0.498 倍のエネルギーを持つ積状態を出力するこの問題の効率的な古典近似アルゴリズムを記述し、最高の積状態が最適エネルギー 1/2 を持つような例が存在することを観察する。 数量子状態と浅量子回路のテンソル積の最適化に基づく,この制限を超える性能を持つ近似アルゴリズムについて検討する。 最悪の場合、少なくとも 0.53 の近似比を達成する効率的な古典アルゴリズムを提供する。 また、3 または 4 の正則グラフで定義される任意のインスタンスに対して、最高の積状態(半定値プログラミング緩和よりも大きい)よりも大きいエネルギーの状態を準備する効率的な計算可能な浅量子回路が存在することを示す。

We consider a computational problem where the goal is to approximate the maximum eigenvalue of a two-local Hamiltonian that describes Heisenberg interactions between qubits located at the vertices of a graph. Previous work has shed light on this problem's approximability by product states. For any instance of this problem the maximum energy attained by a product state is lower bounded by the Max Cut of the graph and upper bounded by the standard Goemans-Williamson semidefinite programming relaxation of it. Gharibian and Parekh described an efficient classical approximation algorithm for this problem which outputs a product state with energy at least 0.498 times the maximum eigenvalue in the worst case, and observe that there exist instances where the best product state has energy 1/2 of optimal. We investigate approximation algorithms with performance exceeding this limitation which are based on optimizing over tensor products of few-qubit states and shallow quantum circuits. We provide an efficient classical algorithm which achieves an approximation ratio of at least 0.53 in the worst case. We also show that for any instance defined by a 3- or 4-regular graph, there is an efficiently computable shallow quantum circuit that prepares a state with energy larger than the best product state (larger even than its semidefinite programming relaxation).
翻訳日:2023-05-27 07:32:28 公開日:2020-03-31
# 高コントラストイメージングにおけるデータインプットを用いた信号分離

Using Data Imputation for Signal Separation in High Contrast Imaging ( http://arxiv.org/abs/2001.00563v3 )

ライセンス: Link先を確認
Bin Ren, Laurent Pueyo, Christine Chen, \'Elodie Choquet, John H. Debes, Gaspard Duch\^ene, Fran\c{c}ois M\'enard, Marshall D. Perrin(参考訳) 高コントラストイメージングで恒星系を特徴づけるために、基本的なステップは、非恒星信号(すなわち、恒星光とスペックル)のための最良の点拡散関数(PSF)を構築し、観測から分離することである。 既存のpsf構築法では、星周信号(例えば惑星や星周円盤)は過剰フィッティングや自己減算によって避けられない変更が行われ、これらの信号の復元には前方モデリングが必要となる。 逐次的非負行列分解(DI-sNMF)を用いたデータ計算問題に対する前方モデリング自由解を提案する。 di-snmfは、まずこの信号分離問題を、周辺信号をホストする領域を欠損データとしてフラグ付けし、統計学において「ミスデータ」問題に変換し、その後psf信号をこれらの領域に分類する。 計算領域が比較的小さい場合には、周囲の信号に無視できる変化があることを数学的に証明し、これらの天体の正確な測定を可能にする。 シミュレーションされた点源と星周円盤観測に応用し、それらの適切な回復を示す。 我々は、HR 4796Aを取り巻くデブリ円盤のGemini Planet Imager (GPI) K1バンド観測に適用し、波長が増加するにつれて塵がより前方散乱しているという仮の傾向を見出した。 di-snmfは信号の分離が必要な他の一般的なシナリオにも適用できると期待する。

To characterize circumstellar systems in high contrast imaging, the fundamental step is to construct a best point spread function (PSF) template for the non-circumstellar signals (i.e., star light and speckles) and separate it from the observation. With existing PSF construction methods, the circumstellar signals (e.g., planets, circumstellar disks) are unavoidably altered by over-fitting and/or self-subtraction, making forward modeling a necessity to recover these signals. We present a forward modeling--free solution to these problems with data imputation using sequential non-negative matrix factorization (DI-sNMF). DI-sNMF first converts this signal separation problem to a "missing data" problem in statistics by flagging the regions which host circumstellar signals as missing data, then attributes PSF signals to these regions. We mathematically prove it to have negligible alteration to circumstellar signals when the imputation region is relatively small, which thus enables precise measurement for these circumstellar objects. We apply it to simulated point source and circumstellar disk observations to demonstrate its proper recovery of them. We apply it to Gemini Planet Imager (GPI) K1-band observations of the debris disk surrounding HR 4796A, finding a tentative trend that the dust is more forward scattering as the wavelength increases. We expect DI-sNMF to be applicable to other general scenarios where the separation of signals is needed.
翻訳日:2023-01-16 04:40:15 公開日:2020-03-31
# 視覚的意味解析の弱さ

Weakly Supervised Visual Semantic Parsing ( http://arxiv.org/abs/2001.02359v2 )

ライセンス: Link先を確認
Alireza Zareian, Svebor Karaman, Shih-Fu Chang(参考訳) SGG(Scene Graph Generation)は、画像からエンティティ、述語、それらの意味構造を抽出することを目的としており、視覚的推論や画像検索など多くのアプリケーションで視覚的内容の深い理解を可能にする。 それでも、既存のSGG法は、トレーニングのために何百万もの手動の注釈付きバウンディングボックスを必要とし、述語を検出するために全対のオブジェクト提案を徹底的に処理するため、計算的に非効率である。 本稿では,まずsggの一般化した定式化,すなわち,エンティティ認識と述語認識を異にする視覚意味解析を提案し,サブクアドラル性能を実現することで,これらの2つの制約を解決する。 そこで我々は,グラフノードとエッジを反復的に推論する動的,注目に基づく双方向メッセージパッシングフレームワークであるVisual Semantic Parsing Network(VSPNet)を提案する。 さらに,新しいグラフアライメントアルゴリズムに基づいて,ボックスアノテーションを使わずにトレーニングが可能な,グラフベースの弱い教師付き学習フレームワークを提案する。 広範な実験により, VSPNetは弱教師付きベースラインを著しく上回り, 完全に教師付き性能に近づきつつ, 数倍高速であることを示す。 我々は,我々のメソッドのソースコードを公開している。

Scene Graph Generation (SGG) aims to extract entities, predicates and their semantic structure from images, enabling deep understanding of visual content, with many applications such as visual reasoning and image retrieval. Nevertheless, existing SGG methods require millions of manually annotated bounding boxes for training, and are computationally inefficient, as they exhaustively process all pairs of object proposals to detect predicates. In this paper, we address those two limitations by first proposing a generalized formulation of SGG, namely Visual Semantic Parsing, which disentangles entity and predicate recognition, and enables sub-quadratic performance. Then we propose the Visual Semantic Parsing Network, VSPNet, based on a dynamic, attention-based, bipartite message passing framework that jointly infers graph nodes and edges through an iterative process. Additionally, we propose the first graph-based weakly supervised learning framework, based on a novel graph alignment algorithm, which enables training without bounding box annotations. Through extensive experiments, we show that VSPNet outperforms weakly supervised baselines significantly and approaches fully supervised performance, while being several times faster. We publicly release the source code of our method.
翻訳日:2023-01-13 12:42:29 公開日:2020-03-31
# POPCORN:部分的に観測された予測の制約付き強化学習

POPCORN: Partially Observed Prediction COnstrained ReiNforcement Learning ( http://arxiv.org/abs/2001.04032v2 )

ライセンス: Link先を確認
Joseph Futoma, Michael C. Hughes, Finale Doshi-Velez(参考訳) 多くの医学的意思決定タスクは、部分的に観察されたマルコフ決定プロセス(POMDP)として表すことができる。 しかし、最初にpomdpを学び、それを解決しようとする2段階のアプローチは、データに最も適したモデルが計画に適さない可能性があるため、しばしば失敗する。 我々は新しい最適化目標を紹介します (a)計画に無関係な観察であっても、高性能な政策と高品質な生成モデルの両方を生産し、 (b) 振り返りデータのみが利用可能である場合、医療において典型的なオフポリシー設定のバッチで実施する。 本研究は, 合成例と医学的意思決定問題に対するアプローチを実証する。

Many medical decision-making tasks can be framed as partially observed Markov decision processes (POMDPs). However, prevailing two-stage approaches that first learn a POMDP and then solve it often fail because the model that best fits the data may not be well suited for planning. We introduce a new optimization objective that (a) produces both high-performing policies and high-quality generative models, even when some observations are irrelevant for planning, and (b) does so in batch off-policy settings that are typical in healthcare, when only retrospective data is available. We demonstrate our approach on synthetic examples and a challenging medical decision-making problem.
翻訳日:2023-01-11 22:40:40 公開日:2020-03-31
# マルチビュー3Dポイントクラウド登録の学習

Learning multiview 3D point cloud registration ( http://arxiv.org/abs/2001.05119v2 )

ライセンス: Link先を確認
Zan Gojcic, Caifa Zhou, Jan D. Wegner, Leonidas J. Guibas, Tolga Birdal(参考訳) 本稿では,エンドツーエンドで学習可能なマルチビュー3Dポイントクラウド登録アルゴリズムを提案する。 複数のスキャンの登録は通常、最初のペアワイズアライメントとグローバルに一貫した精細化という2段階のパイプラインに従っている。 前者は、隣接する点雲、対称性、反復的なシーン部品の重複が低いため、しばしば曖昧である。 したがって、後者のグローバルリファインメントは、複数のスキャンにわたる循環的一貫性を確立することを目的としており、曖昧なケースを解決するのに役立つ。 本稿では,この2段階問題の両部分の合同学習のための最初のエンドツーエンドアルゴリズムを提案する。 十分に受け入れられたベンチマークデータセットの実験的評価により、このアプローチは、エンドツーエンドのトレーニング可能で計算コストも低いが、最先端の手法をかなりのマージンで上回っていることが示された。 さらに,本手法の新規成分を検証した詳細な解析とアブレーション研究を行った。 ソースコードと事前訓練されたモデルはhttps://github.com/zgojcic/3D_multiview_regで公開されている。

We present a novel, end-to-end learnable, multiview 3D point cloud registration algorithm. Registration of multiple scans typically follows a two-stage pipeline: the initial pairwise alignment and the globally consistent refinement. The former is often ambiguous due to the low overlap of neighboring point clouds, symmetries and repetitive scene parts. Therefore, the latter global refinement aims at establishing the cyclic consistency across multiple scans and helps in resolving the ambiguous cases. In this paper we propose, to the best of our knowledge, the first end-to-end algorithm for joint learning of both parts of this two-stage problem. Experimental evaluation on well accepted benchmark datasets shows that our approach outperforms the state-of-the-art by a significant margin, while being end-to-end trainable and computationally less costly. Moreover, we present detailed analysis and an ablation study that validate the novel components of our approach. The source code and pretrained models are publicly available under https://github.com/zgojcic/3D_multiview_reg.
翻訳日:2023-01-11 05:55:33 公開日:2020-03-31
# 核の風景の定量化限界

Quantified limits of the nuclear landscape ( http://arxiv.org/abs/2001.05924v2 )

ライセンス: Link先を確認
L\'eo Neufcourt, Yuchen Cao, Samuel A. Giuliani, Witold Nazarewicz, Erik Olsen and Oleg B. Tarasov(参考訳) 核種のチャートは、陽子や中性子の放出に対する核の安定性が失われる粒子のドリップ線によって制限される。 粒子結合同位体の範囲を予測することは、実験情報が利用可能な領域を超えて核質量を極端に外挿することを含むため、核理論にとって大きな課題となる。 それでも、定量化した外挿は、恒星核合成のモデリングを含む様々な応用に不可欠である。 我々は, 微視的核質量モデルとベイズ法を用いて, 中性子分離エネルギーと陽子および中性子分離エネルギーの定量予測を行い, 粒子滴下線まで核風景中に存在するベイズ確率を推定した。 いくつかのエネルギー密度汎関数を持つ核密度汎関数理論を適用する。 不確実性を考慮するために、ベイジアンガウス過程は個々のモデルの分離エネルギー残差に基づいて訓練され、その結果の予測はベイジアンモデル平均化を介して結合される。 この枠組みは、体系的および統計的不確実性を考慮し、それらを外挿的予測に伝達することができる。 我々は、核が粒子結合である確率が1ドルから0ドルに減少するドリップライン領域を特徴付ける。 これらの領域では、1核および2核分離エネルギーの定量予測を行う。 我々のベイズモデル平均化分析によれば、$z\leq 119$の7759核は$\geq 0.5$という確率を持つ。 この研究で得られた外挿は、エキゾチック核に関する新しい実験情報が利用可能になったとき、厳密なテストによって行われる。 この点に関して、本研究で得られた核存在の定量化景観は、新しい実験情報と改良された地球質量モデルが利用可能になったときに微調整される動的予測と見なされるべきである。

The chart of the nuclides is limited by particle drip lines beyond which nuclear stability to proton or neutron emission is lost. Predicting the range of particle-bound isotopes poses an appreciable challenge for nuclear theory as it involves extreme extrapolations of nuclear masses beyond the regions where experimental information is available. Still, quantified extrapolations are crucial for a variety of applications, including the modeling of stellar nucleosynthesis. We use microscopic nuclear mass models and Bayesian methodology to provide quantified predictions of proton and neutron separation energies as well as Bayesian probabilities of existence throughout the nuclear landscape all the way to the particle drip lines. We apply nuclear density functional theory with several energy density functionals. To account for uncertainties, Bayesian Gaussian processes are trained on the separation-energy residuals for each individual model, and the resulting predictions are combined via Bayesian model averaging. This framework allows to account for systematic and statistical uncertainties and propagate them to extrapolative predictions. We characterize the drip-line regions where the probability that the nucleus is particle-bound decreases from $1$ to $0$. In these regions, we provide quantified predictions for one- and two-nucleon separation energies. According to our Bayesian model averaging analysis, 7759 nuclei with $Z\leq 119$ have a probability of existence $\geq 0.5$. The extrapolations obtained in this study will be put through stringent tests when new experimental information on exotic nuclei becomes available. In this respect, the quantified landscape of nuclear existence obtained in this study should be viewed as a dynamical prediction that will be fine-tuned when new experimental information and improved global mass models become available.
翻訳日:2023-01-11 00:57:36 公開日:2020-03-31
# NISQ探索アルゴリズムのための分割位相Oracle

Subdivided Phase Oracle for NISQ Search Algorithms ( http://arxiv.org/abs/2001.06575v3 )

ライセンス: Link先を確認
Takahiko Satoh, Yasuhiro Ohkura, Rodney Van Meter(参考訳) ノイズの多い中間規模量子(NISQ)マシンは迅速にエラーを蓄積するため、NISQ対応アルゴリズムを設計し、その性能を評価するための新しいアプローチが必要である。 成功確率が低いといった理想的な状況下では望ましくない特性を持つアルゴリズムは、既存のハードウェアで理想のそれを上回る可能性がある。 本稿では、ディジタルカウンタと複雑な位相フリップ決定ロジックを置き換えるために、位相フリップをセグメントに分割するGroverのアルゴリズムの適応を提案する。 本研究では, 残差位相シフトを有するマルチコントロールトッフォリ様ゲートを用いて, スパースグラフにおける最大カット問題の最適解を得るために, この手法を適用した。 我々は、このアルゴリズムをIBM Qプロセッサ上で実装し、5ノードMAX-CUT問題を解くことに成功した。 このアプローチは様々な問題に有効であり、量子優位に達するまでの時間を短縮する可能性がある。

Because noisy, intermediate-scale quantum (NISQ) machines accumulate errors quickly, we need new approaches to designing NISQ-aware algorithms and assessing their performance. Algorithms with characteristics that appear less desirable under ideal circumstances, such as lower success probability, may in fact outperform their ideal counterparts on existing hardware. We propose an adaptation of Grover's algorithm, subdividing the phase flip into segments to replace a digital counter and complex phase flip decision logic. We applied this approach to obtaining the best solution of the MAX-CUT problem in sparse graphs, utilizing multi-control, Toffoli-like gates with residual phase shifts. We implemented this algorithm on IBM Q processors and succeeded in solving a 5-node MAX-CUT problem, demonstrating amplitude amplification on four qubits. This approach will be useful for a range of problems, and may shorten the time to reaching quantum advantage.
翻訳日:2023-01-10 05:20:57 公開日:2020-03-31
# ソフトウェアシステムにおけるドメインエキスパートと自己認識の融合: パターン化されたアーキテクチャガイドライン

Synergizing Domain Expertise with Self-Awareness in Software Systems: A Patternized Architecture Guideline ( http://arxiv.org/abs/2001.07076v2 )

ライセンス: Link先を確認
Tao Chen, Rami Bahsoon, and Xin Yao(参考訳) エンジニアリングの自己認識と自己適応を再利用可能な方法で促進するため、アーキテクチャパターンと関連する方法論は、エンジニアリングプロセスの繰り返し問題に対処するための統一的なソリューションを提供する。 しかしながら、既存のパターンやメソッドでは、時間とともに構築されるドメイン知識やエンジニアの専門知識は、自己認識プロセスと明示的に結び付いていません。 知識は関連する問題にとって貴重な資産であり、その欠如は不要なオーバーヘッド、おそらくは誤解を招く結果、そしてドメインの専門知識によってもたらされた膨大な利益を無意識に無駄にする。 本稿では,ドメインの専門知識の相乗化と,ソフトウェアシステムの自己適応性を高めるための自己認識の重要性を強調する。 特に,概念の包括的枠組み,強化されたパターン,方法論(dbases)を提示する。このフレームワークは,技術者が可能なシナジーの難易度と便益分析を行うための原則に基づいたガイドラインを提供する。 3つのチュートリアルケーススタディを通じて、dbaseを異なるドメインに適用し、異なるシナジーを持つ候補の慎重に選択されたセットを定量的な調査に利用し、設計選択のよりインフォームドな決定を提供する方法について実証する。

To promote engineering self-aware and self-adaptive software systems in a reusable manner, architectural patterns and the related methodology provide an unified solution to handle the recurring problems in the engineering process. However, in existing patterns and methods, domain knowledge and engineers' expertise that is built over time are not explicitly linked to the self-aware processes. This linkage is important, as the knowledge is a valuable asset for the related problems and its absence would cause unnecessary overhead, possibly misleading results and unwise waste of the tremendous benefit that could have been brought by the domain expertise. This paper highlights the importance of synergizing domain expertise and the self-awareness to enable better self-adaptation in software systems, relying on well-defined expertise representation, algorithms and techniques. In particular, we present a holistic framework of notions, enriched patterns and methodology, dubbed DBASES, that offers a principled guideline for the engineers to perform difficulty and benefit analysis on possible synergies, in an attempt to keep "engineers-in-the-loop". Through three tutorial case studies, we demonstrate how DBASES can be applied in different domains, within which a carefully selected set of candidates with different synergies can be used for quantitative investigation, providing more informed decisions of the design choices.
翻訳日:2023-01-08 05:42:06 公開日:2020-03-31
# Tukeyはいつ機能するのか?

When does the Tukey median work? ( http://arxiv.org/abs/2001.07805v2 )

ライセンス: Link先を確認
Banghua Zhu, Jiantao Jiao, Jacob Steinhardt(参考訳) タキー中央値推定器の性能をトータル・バラツキ(tv)距離破壊下で解析した。 以前の結果は、フーバーの加法汚職モデルの下では、分解点は高次元半空間対称分布に対して1/3であることを示している。 テレビの汚職の下では、ブレークポイントは同じ分布のセットに対して1/4に低下する。 また,ある射影アルゴリズムが 1/2 の最適分解点を得られることを示す。 タキー中央値推定器と投影アルゴリズムの両方が、次元的に線形なサンプル複雑性を達成する。

We analyze the performance of the Tukey median estimator under total variation (TV) distance corruptions. Previous results show that under Huber's additive corruption model, the breakdown point is 1/3 for high-dimensional halfspace-symmetric distributions. We show that under TV corruptions, the breakdown point reduces to 1/4 for the same set of distributions. We also show that a certain projection algorithm can attain the optimal breakdown point of 1/2. Both the Tukey median estimator and the projection algorithm achieve sample complexity linear in dimension.
翻訳日:2023-01-08 00:02:15 公開日:2020-03-31
# 逆符号化木によるニューラルネットワークの進化

Evolving Neural Networks through a Reverse Encoding Tree ( http://arxiv.org/abs/2002.00539v2 )

ライセンス: Link先を確認
Haoling Zhang, Chao-Han Huck Yang, Hector Zenil, Narsis A. Kiani, Yue Shen, Jesper N. Tegner(参考訳) NeuroEvolutionは、論理回路設計やデジタルゲームなど、特定のタスクで使用する新しいニューラルネットワークを設計するための最も競争力のある進化的学習フレームワークの1つである。 しかし、その計算コストと探索時間の非効率の観点から、補足トポロジー(neat)の神経進化のようなベンチマーク手法の適用は依然として課題である。 本稿では,拡張性のあるニューラルネットワークを効率的に進化させるために,Reverse Encoding Tree (RET) と呼ばれるトポロジ的エッジコーディングを組み込んだ手法を提案する。 RETを用いて、論理ゲート、カートポール、ルナーランダーなどのベンチマーク連続学習環境における問題の解決を目的として、古典的NEATとFS-NEATをベースラインとして、バイナリサーチエンコーディング(Bi-NEAT)によるNEATとゴールデンシークションサーチエンコーディング(GS-NEAT)によるNEATの2つのアプローチが設計された。 さらに,提案したNEATアルゴリズムのレジリエンスを評価するために,ロバストネス試験を実施している。 その結果, 提案手法は, 1) 限られた時間ステップで高い累積報酬を得られること, (2) ターゲット環境の問題を解決するためにエピソードが少ないこと, (3) ノイズの多い摂動下で適応性を維持すること, そして, 全ての試験ケースにおいてベースラインを上回っていること, が特徴である。 また,retは動的環境における将来研究の方向性を明らかにした。 コードはhttps://github.com/HaolingZHANG/ReverseEncodingTreeから入手できる。

NeuroEvolution is one of the most competitive evolutionary learning frameworks for designing novel neural networks for use in specific tasks, such as logic circuit design and digital gaming. However, the application of benchmark methods such as the NeuroEvolution of Augmenting Topologies (NEAT) remains a challenge, in terms of their computational cost and search time inefficiency. This paper advances a method which incorporates a type of topological edge coding, named Reverse Encoding Tree (RET), for evolving scalable neural networks efficiently. Using RET, two types of approaches -- NEAT with Binary search encoding (Bi-NEAT) and NEAT with Golden-Section search encoding (GS-NEAT) -- have been designed to solve problems in benchmark continuous learning environments such as logic gates, Cartpole, and Lunar Lander, and tested against classical NEAT and FS-NEAT as baselines. Additionally, we conduct a robustness test to evaluate the resilience of the proposed NEAT algorithms. The results show that the two proposed strategies deliver improved performance, characterized by (1) a higher accumulated reward within a finite number of time steps; (2) using fewer episodes to solve problems in targeted environments, and (3) maintaining adaptive robustness under noisy perturbations, which outperform the baselines in all tested cases. Our analysis also demonstrates that RET expends potential future research directions in dynamic environments. Code is available from https://github.com/HaolingZHANG/ReverseEncodingTree.
翻訳日:2023-01-04 08:03:08 公開日:2020-03-31
# MAGNN: 異種グラフ埋め込みのためのメタパス集約グラフニューラルネットワーク

MAGNN: Metapath Aggregated Graph Neural Network for Heterogeneous Graph Embedding ( http://arxiv.org/abs/2002.01680v2 )

ライセンス: Link先を確認
Xinyu Fu, Jiani Zhang, Ziqiao Meng, Irwin King(参考訳) 多数の実世界のグラフやネットワークは本質的に異種であり、ノードタイプや関連タイプが多様である。 ヘテロジニアスグラフ埋め込みは、ヘテロジニアスグラフのリッチな構造的および意味的情報を低次元ノード表現に埋め込むことである。 既存のモデルは通常、複合関係をキャプチャし隣人選択を導くために異種グラフで複数のメタパスを定義する。 しかし、これらのモデルはノードの内容の特徴を省略するか、メタパスに沿って中間ノードを破棄するか、1つのメタパスしか考慮しない。 これら3つの制限に対処するため,Metapath Aggregated Graph Neural Network (MAGNN) と呼ばれる新しいモデルを提案する。 具体的には、入力ノード属性をカプセル化するノード内容変換、中間的なセマンティックノードを組み込むMetapath内アグリゲーション、複数のメタパスからのメッセージを統合するMetapath間アグリゲーションの3つの主要なコンポーネントを使用する。 ノード分類、ノードクラスタリング、リンク予測のための3つの実世界の異種グラフデータセットに対する大規模な実験は、MAGNNが最先端のベースラインよりも正確な予測結果を達成していることを示している。

A large number of real-world graphs or networks are inherently heterogeneous, involving a diversity of node types and relation types. Heterogeneous graph embedding is to embed rich structural and semantic information of a heterogeneous graph into low-dimensional node representations. Existing models usually define multiple metapaths in a heterogeneous graph to capture the composite relations and guide neighbor selection. However, these models either omit node content features, discard intermediate nodes along the metapath, or only consider one metapath. To address these three limitations, we propose a new model named Metapath Aggregated Graph Neural Network (MAGNN) to boost the final performance. Specifically, MAGNN employs three major components, i.e., the node content transformation to encapsulate input node attributes, the intra-metapath aggregation to incorporate intermediate semantic nodes, and the inter-metapath aggregation to combine messages from multiple metapaths. Extensive experiments on three real-world heterogeneous graph datasets for node classification, node clustering, and link prediction show that MAGNN achieves more accurate prediction results than state-of-the-art baselines.
翻訳日:2023-01-03 21:57:02 公開日:2020-03-31
# ベイズ市民の説得:ほぼ最適であり、ほぼ説得力がある

Public Bayesian Persuasion: Being Almost Optimal and Almost Persuasive ( http://arxiv.org/abs/2002.05156v2 )

ライセンス: Link先を確認
Matteo Castiglioni, Andrea Celli, Nicola Gatti(参考訳) 説得は、インフォメーションプリンシパルが、ペイオフ関連情報の戦略的提供によってエージェントの行動にどのように影響するかを研究する。 我々は,arieli と babichenko (2019) による,エージェント間外部性のない基本マルチレシーバモデルに注目した。 この問題の先行研究とは異なり、一般設定における公衆の説得問題について研究する。 (i)任意の状態空間 (ii)任意の作用空間 (iii)任意の送信者のユーティリティ機能。 最適公開信号伝達スキームのバイクリテリア近似を計算する計算複雑性を完全に特徴付ける。 特に、独立性のある投票環境では、指数時間仮説を仮定して、二項作用空間を持つ設定においても、この問題を解決するには少なくとも準多項式のステップ数が必要であることを示す。 これにより、線形不等式問題の最大実現可能なサブシステムの緩和版は、少なくとも準多項時間を必要とすることが証明される。 最後に、任意の公的な説得問題に対して準多項式時間双基準近似アルゴリズムを提供することによりギャップを埋め、特定の設定でQPTASを得る。

Persuasion studies how an informed principal may influence the behavior of agents by the strategic provision of payoff-relevant information. We focus on the fundamental multi-receiver model by Arieli and Babichenko (2019), in which there are no inter-agent externalities. Unlike prior works on this problem, we study the public persuasion problem in the general setting with: (i) arbitrary state spaces; (ii) arbitrary action spaces; (iii) arbitrary sender's utility functions. We fully characterize the computational complexity of computing a bi-criteria approximation of an optimal public signaling scheme. In particular, we show, in a voting setting of independent interest, that solving this problem requires at least a quasi-polynomial number of steps even in settings with a binary action space, assuming the Exponential Time Hypothesis. In doing so, we prove that a relaxed version of the Maximum Feasible Subsystem of Linear Inequalities problem requires at least quasi-polynomial time to be solved. Finally, we close the gap by providing a quasi-polynomial time bi-criteria approximation algorithm for arbitrary public persuasion problems that, in specific settings, yields a QPTAS.
翻訳日:2023-01-01 20:32:13 公開日:2020-03-31
# Pythonにおける機械学習: データサイエンス、機械学習、人工知能の主な発展と技術動向

Machine Learning in Python: Main developments and technology trends in data science, machine learning, and artificial intelligence ( http://arxiv.org/abs/2002.04803v2 )

ライセンス: Link先を確認
Sebastian Raschka, Joshua Patterson, Corey Nolet(参考訳) よりスマートなアプリケーションは、データから得られる洞察をよりよく利用し、あらゆる業界や研究分野に影響を与えています。 この革命の核心は、毎日生成される大量のデータを処理することから、有用な行動から学ぶことまで、それを動かすツールと方法にあります。 ディープニューラルネットワークは、古典的なMLとスケーラブルな汎用GPUコンピューティングの進歩とともに、人工知能の重要なコンポーネントとなり、驚くべきブレークスルーと採用障壁の低減を可能にしている。 Pythonは、科学計算、データサイエンス、機械学習において最も好まれる言語であり続けており、低レベルのライブラリとクリーンな高レベルのAPIを使用することで、パフォーマンスと生産性の両方を高める。 この調査は、pythonによる機械学習の分野に関する洞察を提供し、重要なトピックを振り返って、それを可能にしたコアハードウェアとソフトウェアパラダイムを特定する。 我々は、読者を教育し、Python機械学習の分野を前進させることを目的として、広く使われているライブラリと概念を網羅し、総合的な比較のために収集する。

Smarter applications are making better use of the insights gleaned from data, having an impact on every industry and research discipline. At the core of this revolution lies the tools and the methods that are driving it, from processing the massive piles of data generated each day to learning from and taking useful action. Deep neural networks, along with advancements in classical ML and scalable general-purpose GPU computing, have become critical components of artificial intelligence, enabling many of these astounding breakthroughs and lowering the barrier to adoption. Python continues to be the most preferred language for scientific computing, data science, and machine learning, boosting both performance and productivity by enabling the use of low-level libraries and clean high-level APIs. This survey offers insight into the field of machine learning with Python, taking a tour through important topics to identify some of the core hardware and software paradigms that have enabled it. We cover widely-used libraries and concepts, collected together for holistic comparison, with the goal of educating the reader and driving the field of Python machine learning forward.
翻訳日:2023-01-01 19:10:23 公開日:2020-03-31
# 一般ODIN:分布外データから学ぶことなく分布外画像を検出する

Generalized ODIN: Detecting Out-of-distribution Image without Learning from Out-of-distribution Data ( http://arxiv.org/abs/2002.11297v2 )

ライセンス: Link先を確認
Yen-Chang Hsu, Yilin Shen, Hongxia Jin, Zsolt Kira(参考訳) 深層ニューラルネットワークは、トレーニングセットと同じ分布から得られるデータに適用した場合、顕著なパフォーマンスを達成したが、それ以外は大幅に劣化する可能性がある。 したがって、サンプルを拒否したり、ユーザに警告したりするシステムを実現するためには、サンプルが配布外かどうか(ood)を検出することが不可欠である。 最近の研究は、小さな画像データセットからなるoodベンチマークで大きな進歩を遂げている。 しかし、ニューラルネットワークに基づく最近の多くの手法は、分布内データと分布外データの両方でトレーニングやチューニングに依存している。 後者は一般的にa-prioriを定義するのが難しく、その選択は容易に学習をバイアスする。 我々は、OoDデータによるチューニングの必要性から、OoD検出性能を改善しながら、ODINを解放するための2つの戦略を提案する。 具体的には,信頼度スコアリングの分解と,修正された入力前処理法を提案する。 これら2つが検出性能に大きく寄与することを示す。 大規模画像データセットのさらなる分析により,2種類の分散シフト,特に意味的シフトと非意味的シフトは,問題の難易度に有意な差を示し,オーディン的戦略が機能しないか否かの分析を提供する。

Deep neural networks have attained remarkable performance when applied to data that comes from the same distribution as that of the training set, but can significantly degrade otherwise. Therefore, detecting whether an example is out-of-distribution (OoD) is crucial to enable a system that can reject such samples or alert users. Recent works have made significant progress on OoD benchmarks consisting of small image datasets. However, many recent methods based on neural networks rely on training or tuning with both in-distribution and out-of-distribution data. The latter is generally hard to define a-priori, and its selection can easily bias the learning. We base our work on a popular method ODIN, proposing two strategies for freeing it from the needs of tuning with OoD data, while improving its OoD detection performance. We specifically propose to decompose confidence scoring as well as a modified input pre-processing method. We show that both of these significantly help in detection performance. Our further analysis on a larger scale image dataset shows that the two types of distribution shifts, specifically semantic shift and non-semantic shift, present a significant difference in the difficulty of the problem, providing an analysis of when ODIN-like strategies do or do not work.
翻訳日:2022-12-28 14:51:20 公開日:2020-03-31
# 周波数領域での学習

Learning in the Frequency Domain ( http://arxiv.org/abs/2002.12416v4 )

ライセンス: Link先を確認
Kai Xu, Minghai Qin, Fei Sun, Yuhao Wang, Yen-Kuang Chen, Fengbo Ren(参考訳) ディープニューラルネットワークは、コンピュータビジョンタスクで著しく成功した。 既存のニューラルネットワークは主に一定の入力サイズを持つ空間領域で動作する。 実用的なアプリケーションでは、イメージは通常大きく、ニューラルネットワークの所定の入力サイズにダウンサンプリングする必要がある。 ダウンサンプリング処理は計算量と通信帯域幅を減少させるが、冗長かつ健全な情報の両方を排除し、精度を低下させる。 ディジタル信号処理理論に着想を得て,周波数観点からスペクトルバイアスを分析し,精度を損なうことなく除去できる自明な周波数成分を同定する学習ベース周波数選択法を提案する。 提案手法は、周波数領域情報を入力として受け入れつつ、ResNet-50、MobileNetV2、Mask R-CNNなどのよく知られたニューラルネットワークの同一構造を利用する。 実験の結果,静的チャネル選択による周波数領域学習は,従来の空間ダウンサンプリング手法よりも精度が高く,入力データサイズも小さくなることがわかった。 特に入力サイズが同じimagenet分類では,resnet-50とmobilenetv2で1.41%と0.66%のtop-1精度が向上した。 半入力サイズであっても、提案手法はResNet-50上のトップ1の精度を1%向上させる。 さらに,COCOデータセット上でのサンプルセグメンテーションにおいて,Mask R-CNNの平均精度が0.8%向上した。

Deep neural networks have achieved remarkable success in computer vision tasks. Existing neural networks mainly operate in the spatial domain with fixed input sizes. For practical applications, images are usually large and have to be downsampled to the predetermined input size of neural networks. Even though the downsampling operations reduce computation and the required communication bandwidth, it removes both redundant and salient information obliviously, which results in accuracy degradation. Inspired by digital signal processing theories, we analyze the spectral bias from the frequency perspective and propose a learning-based frequency selection method to identify the trivial frequency components which can be removed without accuracy loss. The proposed method of learning in the frequency domain leverages identical structures of the well-known neural networks, such as ResNet-50, MobileNetV2, and Mask R-CNN, while accepting the frequency-domain information as the input. Experiment results show that learning in the frequency domain with static channel selection can achieve higher accuracy than the conventional spatial downsampling approach and meanwhile further reduce the input data size. Specifically for ImageNet classification with the same input size, the proposed method achieves 1.41% and 0.66% top-1 accuracy improvements on ResNet-50 and MobileNetV2, respectively. Even with half input size, the proposed method still improves the top-1 accuracy on ResNet-50 by 1%. In addition, we observe a 0.8% average precision improvement on Mask R-CNN for instance segmentation on the COCO dataset.
翻訳日:2022-12-28 08:58:45 公開日:2020-03-31
# ビデオオブジェクトセグメンテーションのための高速かつロバストなターゲットモデル学習

Learning Fast and Robust Target Models for Video Object Segmentation ( http://arxiv.org/abs/2003.00908v2 )

ライセンス: Link先を確認
Andreas Robinson, Felix J\"aremo Lawin, Martin Danelljan, Fahad Shahbaz Khan, Michael Felsberg(参考訳) ビデオオブジェクトセグメンテーション(VOS)は、ターゲットオブジェクトを定義する初期マスクがテスト時にのみ与えられるため、非常に難しい問題である。 主な難点は、正確なセグメンテーションを維持しつつ、外観変化や類似の背景オブジェクトを効果的に扱うことである。 以前のほとんどのアプローチは、最初のフレームで微調整されたセグメンテーションネットワークにアプローチし、非実用的なフレームレートと過剰フィッティングのリスクを生み出した。 より最近の手法は、生成目標外観モデルを統合するが、限られた堅牢性を達成するか、大量のトレーニングデータを必要とする。 2つのネットワークコンポーネントからなる新しいVOSアーキテクチャを提案する。 ターゲットの外観モデルは、粗いが頑健なターゲットセグメンテーションを予測するために高速な最適化手法を用いて推論段階で学習される軽量モジュールで構成されている。 セグメンテーションモデルはオフラインでのみトレーニングされており、粗いスコアを高品質なセグメンテーションマスクに加工するように設計されている。 本手法は高速かつ容易に訓練可能であり,限られた訓練データの場合においても有効である。 我々は、挑戦的なYouTube-VOSとDAVISデータセットに関する広範な実験を行う。 本ネットワークは,最先端に比べて高いフレームレートで動作しながら,良好な性能を実現している。 コードとトレーニングされたモデルはhttps://github.com/andr345/frtm-vosで入手できる。

Video object segmentation (VOS) is a highly challenging problem since the initial mask, defining the target object, is only given at test-time. The main difficulty is to effectively handle appearance changes and similar background objects, while maintaining accurate segmentation. Most previous approaches fine-tune segmentation networks on the first frame, resulting in impractical frame-rates and risk of overfitting. More recent methods integrate generative target appearance models, but either achieve limited robustness or require large amounts of training data. We propose a novel VOS architecture consisting of two network components. The target appearance model consists of a light-weight module, which is learned during the inference stage using fast optimization techniques to predict a coarse but robust target segmentation. The segmentation model is exclusively trained offline, designed to process the coarse scores into high quality segmentation masks. Our method is fast, easily trainable and remains highly effective in cases of limited training data. We perform extensive experiments on the challenging YouTube-VOS and DAVIS datasets. Our network achieves favorable performance, while operating at higher frame-rates compared to state-of-the-art. Code and trained models are available at https://github.com/andr345/frtm-vos.
翻訳日:2022-12-28 08:57:59 公開日:2020-03-31
# ロボットのコンプライアンスについて。 小脳制御のアプローチ

On robot compliance. A cerebellar control approach ( http://arxiv.org/abs/2003.01033v2 )

ライセンス: Link先を確認
Ignacio Abadia, Francisco Naveros, Jesus A. Garrido, Eduardo Ros, Niceto R. Luque(参考訳) ここで提示される研究は、ロボットアームのリアルタイム制御(rt)のための新しい生物学的アプローチである。 トルク駆動制御を行うフィードバック制御ループのコアにスパイキング小脳ネットワークを統合する。 スパイキング小脳制御装置はトルクコマンドを提供し、正確な腕の動きを調整できる。 これらの出力モーターコマンドを計算するために、スパイキング小脳制御装置は、ロボットの感覚信号、ロボットの目標行動、および指示信号を受け取る。 これらの入力信号は、任意の時点における特定のシステム状態を表す一連の進化するスパイクパターンに変換される。 スパイク刺激依存性可塑性(STDP)がサポートされ、適応制御を構築することができる。 スパイキング小脳制御装置は、STDPが展開されるにつれて、経験からロボットに提供するトルクコマンドを継続的に適応させる。 アダプティブトルクコマンドは、スパイクする小脳コントローラーが人間の筋肉を模倣するロボットのアクチュエータに内蔵された弾性要素に対処するのに役立つ。 本稿では,小脳をベースとしたバイオインスパイアされた制御スキームとロボットとの自然な統合を提案する。 提案手法は,動作の円滑な6自由度(dof)制御,高速弾道運動,非構造化シナリオ適応運動など,小脳運動の対処に使用される一連のタスクにおいて,既定の工場設置位置制御の精度を上回っていることを実証する。

The work presented here is a novel biological approach for the compliant control of a robotic arm in real time (RT). We integrate a spiking cerebellar network at the core of a feedback control loop performing torque-driven control. The spiking cerebellar controller provides torque commands allowing for accurate and coordinated arm movements. To compute these output motor commands, the spiking cerebellar controller receives the robot's sensorial signals, the robot's goal behavior, and an instructive signal. These input signals are translated into a set of evolving spiking patterns representing univocally a specific system state at every point of time. Spike-timing-dependent plasticity (STDP) is then supported, allowing for building adaptive control. The spiking cerebellar controller continuously adapts the torque commands provided to the robot from experience as STDP is deployed. Adaptive torque commands, in turn, help the spiking cerebellar controller to cope with built-in elastic elements within the robot's actuators mimicking human muscles (inherently elastic). We propose a natural integration of a bio inspired control scheme, based on the cerebellum, with a compliant robot. We prove that our compliant approach outperforms the accuracy of the default factory-installed position control in a set of tasks used for addressing cerebellar motor behavior: controlling six degrees of freedom (DoF) in smooth movements, fast ballistic movements, and unstructured scenario compliant movements.
翻訳日:2022-12-27 05:15:44 公開日:2020-03-31
# スパイク小脳モデルを用いたヒューマノイドiCubロボットのVOR適応

VOR Adaptation on a Humanoid iCub Robot Using a Spiking Cerebellar Model ( http://arxiv.org/abs/2003.01409v2 )

ライセンス: Link先を確認
Francisco Naveros, Niceto R. Luque, Eduardo Ros, Angelo Arleo(参考訳) 我々は、前庭眼反射(VOR)タスクを実行する際に、実際のロボット体(iCub)を動作させることができる適応リアルタイム(RT)制御ループに、スパイク小脳モデルを組み込む。 事象および時間駆動型神経力学、神経活動、スパイク刺激依存的可塑性(STDP)機構を含むスパイクニューラルネットワーク計算は、小脳シミュレーション中に発生する神経活動のボレーに起因する非決定論的計算時間をもたらす。 この非決定論的計算時間は、適切に制御された神経計算時間とロボット操作を保証するrtスーパーバイザモジュールの統合を動機付ける。 実際、我々の神経ロボティクス実験装置(VOR)は、脳と身体の間の生物学的運動遅延の恩恵を受け、計算過負荷を緩衝し、神経計算時間とRT操作を調整する柔軟性を提供する。 RTスーパーバイザモジュールは、シミュレーションを停止させたり、特定の神経計算機能(STDP機構、スパイク伝播、ニューラル更新)を無効にすることで、実際のロボット操作によって課されるRT制約に対処することで、脳シミュレーションを動的に減速または高速化するインクリメンタル対策を提供する。 この神経ロボティックな実験装置は、脳機能に対処するために神経科学コミュニティが広く使用している水平および垂直のVOR適応タスクに適用される。 小脳神経基質と分散可塑性の組み合わせが小脳神経活動を形作り、運動適応を仲介する方法を明らかにすることを目的としている。 本稿では,VOR獲得を促進するための2段階学習プロセスの必要性について述べる。

We embed a spiking cerebellar model within an adaptive real-time (RT) control loop that is able to operate a real robotic body (iCub) when performing different vestibulo-ocular reflex (VOR) tasks. The spiking neural network computation, including event- and time-driven neural dynamics, neural activity, and spike-timing dependent plasticity (STDP) mechanisms, leads to a nondeterministic computation time caused by the neural activity volleys encountered during cerebellar simulation. This nondeterministic computation time motivates the integration of an RT supervisor module that is able to ensure a well-orchestrated neural computation time and robot operation. Actually, our neurorobotic experimental setup (VOR) benefits from the biological sensory motor delay between the cerebellum and the body to buffer the computational overloads as well as providing flexibility in adjusting the neural computation time and RT operation. The RT supervisor module provides for incremental countermeasures that dynamically slow down or speed up the cerebellar simulation by either halting the simulation or disabling certain neural computation features (i.e., STDP mechanisms, spike propagation, and neural updates) to cope with the RT constraints imposed by the real robot operation. This neurorobotic experimental setup is applied to different horizontal and vertical VOR adaptive tasks that are widely used by the neuroscientific community to address cerebellar functioning. We aim to elucidate the manner in which the combination of the cerebellar neural substrate and the distributed plasticity shapes the cerebellar neural activity to mediate motor adaptation. This paper underlies the need for a two-stage learning process to facilitate VOR acquisition.
翻訳日:2022-12-26 23:00:26 公開日:2020-03-31
# 反復代表性多様性最大化(iRDM)を用いた回帰学習のためのプール型教師なしアクティブラーニング

Pool-Based Unsupervised Active Learning for Regression Using Iterative Representativeness-Diversity Maximization (iRDM) ( http://arxiv.org/abs/2003.07658v2 )

ライセンス: Link先を確認
Ziang Liu, Xue Jiang, Hanbin Luo, Weili Fang, Jiajing Liu, and Dongrui Wu(参考訳) アクティブラーニング(al)はラベル付けに最も有益なラベルなしサンプルを選択するため、より優れた機械学習モデルを同じ数のラベル付きサンプルからトレーニングすることができる。 回帰(ALR)アプローチのための既存のアクティブラーニングは監視されており、サンプリングプロセスはラベル情報や既存の回帰モデルを使用しなければならない。 本稿では,完全な教師なしalr,すなわちラベル情報を知らずにラベルにサンプルを選択する方法を検討する。 本研究では,選択したサンプルの代表性と多様性を最適にバランスさせるために,新しい教師なしalr手法である反復代表性多様性最大化(irdm)を提案する。 様々な領域の12のデータセットに対する実験により、その効果が示された。 我々のiRDMは線形回帰とカーネル回帰の両方に適用でき、ラベル付きサンプルの数が少ない場合には教師付きALRよりもはるかに優れる。

Active learning (AL) selects the most beneficial unlabeled samples to label, and hence a better machine learning model can be trained from the same number of labeled samples. Most existing active learning for regression (ALR) approaches are supervised, which means the sampling process must use some label information, or an existing regression model. This paper considers completely unsupervised ALR, i.e., how to select the samples to label without knowing any true label information. We propose a novel unsupervised ALR approach, iterative representativeness-diversity maximization (iRDM), to optimally balance the representativeness and the diversity of the selected samples. Experiments on 12 datasets from various domains demonstrated its effectiveness. Our iRDM can be applied to both linear regression and kernel regression, and it even significantly outperforms supervised ALR when the number of labeled samples is small.
翻訳日:2022-12-22 20:36:42 公開日:2020-03-31
# 低リソース固有認識のための距離スーパービジョンと雑音ラベル学習 : HausaとYor\ub\'aについて

Distant Supervision and Noisy Label Learning for Low Resource Named Entity Recognition: A Study on Hausa and Yor\`ub\'a ( http://arxiv.org/abs/2003.08370v2 )

ライセンス: Link先を確認
David Ifeoluwa Adelani, Michael A. Hedderich, Dawei Zhu, Esther van den Berg, Dietrich Klakow(参考訳) ラベル付きトレーニングデータの欠如は、発展途上国で話されている多くの言語に対して、名前付きエンティティ認識などの自然言語処理ツールの開発を制限している。 遠隔監視や弱い監視といった技術は、ラベル付きデータを(セミ)自動で作成するために使用することができる。 さらに、自動アノテーションにおけるエラーの悪影響を緩和するために、ノイズハンドリング手法を統合することができる。 事前学習された単語埋め込みは、ほとんどのニューラルネットワーク名前付きエンティティ分類器の重要なコンポーネントである。 より複雑な文脈の単語埋め込みが出現すると、モデルサイズとパフォーマンスの興味深いトレードオフが発生する。 これらのテクニックは、高リソース設定でうまく機能することが示されているが、低リソースシナリオでどのように機能するかを研究したい。 本研究では,いくつかの発展途上国で広く話されている2つの言語であるHausaとYor\ub\'aのエンティティ認識を行う。 我々は,異なる埋め込み手法の評価を行い,遠隔監視を実例の低リソースシナリオでうまく活用できることを示し,分類器の性能を2倍以上に抑えることができた。

The lack of labeled training data has limited the development of natural language processing tools, such as named entity recognition, for many languages spoken in developing countries. Techniques such as distant and weak supervision can be used to create labeled data in a (semi-) automatic way. Additionally, to alleviate some of the negative effects of the errors in automatic annotation, noise-handling methods can be integrated. Pretrained word embeddings are another key component of most neural named entity classifiers. With the advent of more complex contextual word embeddings, an interesting trade-off between model size and performance arises. While these techniques have been shown to work well in high-resource settings, we want to study how they perform in low-resource scenarios. In this work, we perform named entity recognition for Hausa and Yor\`ub\'a, two languages that are widely spoken in several developing countries. We evaluate different embedding approaches and show that distant supervision can be successfully leveraged in a realistic low-resource scenario where it can more than double a classifier's performance.
翻訳日:2022-12-22 09:31:37 公開日:2020-03-31
# 人工知能を用いた一次トルク型静水駆動系統の運転戦略の最適化

Optimization of Operation Strategy for Primary Torque based hydrostatic Drivetrain using Artificial Intelligence ( http://arxiv.org/abs/2003.10011v2 )

ライセンス: Link先を確認
Yusheng Xiang and Marcus Geimer(参考訳) 静水圧移動機のための新しい一次トルク制御の概念が2018年に導入された。 上記の概念は、油圧ポンプの角度を変え、フィードバックシステムに基づいて所望の圧力を達成することで閉回路内の圧力を制御する。 この概念のおかげで、いくつかの利点が期待できる。 しかしながら、Yサイクルで作業している間、一次トルク制御ホイールローダは、補修能力の欠如により二次制御土砂よりも効率が悪くなる。 あるいは、機械の再生性能を向上させるためにディープラーニングアルゴリズムを使用する。 本稿では,まず,再生過程を活用し,cnn,rnn,dnnを組み合わせた一連のcrdnnを提案し,yサイクルを高精度に検出し,その効果を示す可能性について考察する。 既存のアルゴリズムと比較して、双方向のLSTMを持つCRDNNが最も正確であり、LSTMを持つCRDNNは同等のパフォーマンスを持つが、トレーニングパラメータははるかに少ない。 119トラックのロードサイクルを含むデータセットに基づいて、最良のニューラルネットワークは98.2%のテスト精度を示しています。 したがって, 簡単な再生プロセスであっても, 一次トルクの概念を用いた場合, yサイクルプロセス中の移動機の総括効率を最大9%向上させることができる。

A new primary torque control concept for hydrostatics mobile machines was introduced in 2018. The mentioned concept controls the pressure in a closed circuit by changing the angle of the hydraulic pump to achieve the desired pressure based on a feedback system. Thanks to this concept, a series of advantages are expected. However, while working in a Y cycle, the primary torque-controlled wheel loader has worse performance in efficiency compared to secondary controlled earthmover due to lack of recuperation ability. Alternatively, we use deep learning algorithms to improve machines' regeneration performance. In this paper, we firstly make a potential analysis to show the benefit by utilizing the regeneration process, followed by proposing a series of CRDNNs, which combine CNN, RNN, and DNN, to precisely detect Y cycles. Compared to existing algorithms, the CRDNN with bi-directional LSTMs has the best accuracy, and the CRDNN with LSTMs has a comparable performance but much fewer training parameters. Based on our dataset including 119 truck loading cycles, our best neural network shows a 98.2% test accuracy. Therefore, even with a simple regeneration process, our algorithm can improve the holistic efficiency of mobile machines up to 9% during Y cycle processes if primary torque concept is used.
翻訳日:2022-12-21 06:00:26 公開日:2020-03-31
# 閉ざされた関節を覗く:群衆のポーズ推定のための新しい枠組み

Peeking into occluded joints: A novel framework for crowd pose estimation ( http://arxiv.org/abs/2003.10506v3 )

ライセンス: Link先を確認
Lingteng Qiu, Xuanye Zhang, Yanran Li, Guanbin Li, Xiaojun Wu, Zixiang Xiong, Xiaoguang Han and Shuguang Cui(参考訳) 咬合は自然界に広く存在し、姿勢推定の基本的な課題となっているが、既存のヒートマップに基づくアプローチは咬合の深刻な劣化を招いている。 彼らの本質的な問題は、視覚情報に基づいてジョイントを直接ローカライズすることだが、目に見えないジョイントにはそれが欠けている。 ローカライゼーションとは対照的に,画像のコンテキストとポーズ構造の両方を包括的に理解するImage-Guided Progressive GCNモジュールを提案することにより,推論の観点から見えない関節を推定する。 さらに、既存のベンチマークには、評価のための限定的なオクルージョンが含まれている。 そこで我々はこの問題を徹底的に追求し,9k の注釈付き画像を用いた新しい Occluded Pose (OCPose) データセットとともに,新しい OPEC-Net フレームワークを提案する。 ベンチマークの広範な量的・質的評価は、opec-netが最近の先行研究よりも大きな改善を達成していることを示している。 特に,OCPoseは,隣接インスタンス間の平均IoUに対して,最も複雑な閉塞データセットである。 ソースコードとocposeは公開される予定だ。

Although occlusion widely exists in nature and remains a fundamental challenge for pose estimation, existing heatmap-based approaches suffer serious degradation on occlusions. Their intrinsic problem is that they directly localize the joints based on visual information; however, the invisible joints are lack of that. In contrast to localization, our framework estimates the invisible joints from an inference perspective by proposing an Image-Guided Progressive GCN module which provides a comprehensive understanding of both image context and pose structure. Moreover, existing benchmarks contain limited occlusions for evaluation. Therefore, we thoroughly pursue this problem and propose a novel OPEC-Net framework together with a new Occluded Pose (OCPose) dataset with 9k annotated images. Extensive quantitative and qualitative evaluations on benchmarks demonstrate that OPEC-Net achieves significant improvements over recent leading works. Notably, our OCPose is the most complex occlusion dataset with respect to average IoU between adjacent instances. Source code and OCPose will be publicly available.
翻訳日:2022-12-21 00:35:21 公開日:2020-03-31
# neural game engine: ピクセルから一般化したフォワードモデルの正確な学習

Neural Game Engine: Accurate learning of generalizable forward models from pixels ( http://arxiv.org/abs/2003.10520v2 )

ライセンス: Link先を確認
Chris Bamford, Simon Lucas(参考訳) ゲームの高速かつ容易にコピー可能なフォワードモデルへのアクセスは、モデルベースの強化学習やモンテカルロ木探索のようなアルゴリズムに不可欠であり、モデルフリーアルゴリズムの無制限体験データ源としても有用である。 モデルが利用できない問題に対処するために、前方モデルを学ぶことは興味深く重要な課題である。 本稿では,これまでのNeural GPUの研究に基づいて,ピクセルから直接モデルを学習する方法としてNeural Game Engineを紹介する。 学習したモデルは、異なるサイズのゲームレベルを、正確さを失うことなくトレーニングされたレベルに一般化することができる。 10の決定論的汎用ビデオゲームAIゲームの結果は、競争性能を示し、多くのゲームモデルはピクセル予測と報酬予測の両方で完全に学習されている。 事前トレーニングされたモデルはOpenAI Gymインターフェースを通じて利用可能であり、将来の研究のために以下で公開されている。

Access to a fast and easily copied forward model of a game is essential for model-based reinforcement learning and for algorithms such as Monte Carlo tree search, and is also beneficial as a source of unlimited experience data for model-free algorithms. Learning forward models is an interesting and important challenge in order to address problems where a model is not available. Building upon previous work on the Neural GPU, this paper introduces the Neural Game Engine, as a way to learn models directly from pixels. The learned models are able to generalise to different size game levels to the ones they were trained on without loss of accuracy. Results on 10 deterministic General Video Game AI games demonstrate competitive performance, with many of the games models being learned perfectly both in terms of pixel predictions and reward predictions. The pre-trained models are available through the OpenAI Gym interface and are available publicly for future research here: \url{https://github.com/Bam4d/Neural-Game-Engine}
翻訳日:2022-12-21 00:18:39 公開日:2020-03-31
# atariの深部強化学習におけるデータ効率評価における適切なベースラインの利用の重要性

Importance of using appropriate baselines for evaluation of data-efficiency in deep reinforcement learning for Atari ( http://arxiv.org/abs/2003.10181v2 )

ライセンス: Link先を確認
Kacper Kielak(参考訳) 強化学習(RL)はここ数年で大きな進歩を遂げている。 しかしながら、RLコミュニティのコンセンサスは、現在使われているメソッドは、すべての利点にもかかわらず、特にAtariのようなリッチなビジュアルドメインにおいて、極端なデータ非効率に悩まされているということである。 この問題を回避するために、しばしば最先端DQNアルゴリズムの一般的なバリエーションよりも効率的であると主張する新しいアプローチが導入された。 しかし,本研究では,新たに提案した手法が,実験において不公平なベースラインを単純に用いたことを実証する。 すなわち、実際の効率の改善は、新しい手法を採用することではなく、各データサンプルのトレーニング更新をアルゴリズムで行うことによるものであることを示す。 dqnがネットワーク更新をより頻繁に実行するようにすることで、最近提案された進歩よりも、複雑さと計算コストの少なさで、同様の、あるいはより良い結果を得ることができます。 さらに,本研究の結果から,本論文で提示した修正dqnと類似したエージェントを,深層強化学習のサンプル効率向上を目的とした今後の研究のベースラインとして用いるべきであると考察した。

Reinforcement learning (RL) has seen great advancements in the past few years. Nevertheless, the consensus among the RL community is that currently used methods, despite all their benefits, suffer from extreme data inefficiency, especially in the rich visual domains like Atari. To circumvent this problem, novel approaches were introduced that often claim to be much more efficient than popular variations of the state-of-the-art DQN algorithm. In this paper, however, we demonstrate that the newly proposed techniques simply used unfair baselines in their experiments. Namely, we show that the actual improvement in the efficiency came from allowing the algorithm for more training updates for each data sample, and not from employing the new methods. By allowing DQN to execute network updates more frequently we manage to reach similar or better results than the recently proposed advancement, often at a fraction of complexity and computational costs. Furthermore, based on the outcomes of the study, we argue that the agent similar to the modified DQN that is presented in this paper should be used as a baseline for any future work aimed at improving sample efficiency of deep reinforcement learning.
翻訳日:2022-12-20 23:31:27 公開日:2020-03-31
# ASFD: 自動かつスケーラブルな顔検出器

ASFD: Automatic and Scalable Face Detector ( http://arxiv.org/abs/2003.11228v3 )

ライセンス: Link先を確認
Bin Zhang, Jian Li, Yabiao Wang, Ying Tai, Chengjie Wang, Jilin Li, Feiyue Huang, Yili Xia, Wenjiang Pei, Rongrong Ji(参考訳) 本稿では,ニューラルアーキテクチャ検索技術の組み合わせと新たな損失設計に基づく,ASFD(Automatic and Scalable Face Detector)を提案する。 まず,高効率なマルチスケール機能融合とコンテキスト拡張を可能にする差分アーキテクチャ探索の改良により,Auto-FEMという自動機能拡張モジュールを提案する。 第2に、距離に基づく回帰とマージンに基づく分類(drmc)によるマルチタスクロスを用いて、正確な境界ボックスを予測し、高度に識別可能な深い特徴を学習する。 第3に、複雑なスケーリング手法を採用し、バックボーン、特徴モジュール、ヘッドネットワークを均一にスケーリングし、最先端の顔検出器よりも一貫して効率の良いASFDのファミリーを開発する。 WIDER FACEやFDDBといった一般的なベンチマークで実施された大規模な実験では、当社のASFD-D6が従来の強力なライバルより優れており、軽量のASFD-D0は120FPS以上で動作し、MobilenetはVGA解像度のイメージを提供する。

In this paper, we propose a novel Automatic and Scalable Face Detector (ASFD), which is based on a combination of neural architecture search techniques as well as a new loss design. First, we propose an automatic feature enhance module named Auto-FEM by improved differential architecture search, which allows efficient multi-scale feature fusion and context enhancement. Second, we use Distance-based Regression and Margin-based Classification (DRMC) multi-task loss to predict accurate bounding boxes and learn highly discriminative deep features. Third, we adopt compound scaling methods and uniformly scale the backbone, feature modules, and head networks to develop a family of ASFD, which are consistently more efficient than the state-of-the-art face detectors. Extensive experiments conducted on popular benchmarks, e.g. WIDER FACE and FDDB, demonstrate that our ASFD-D6 outperforms the prior strong competitors, and our lightweight ASFD-D0 runs at more than 120 FPS with Mobilenet for VGA-resolution images.
翻訳日:2022-12-20 03:23:56 公開日:2020-03-31
# DaST: 敵対的攻撃に対するデータフリー代替訓練

DaST: Data-free Substitute Training for Adversarial Attacks ( http://arxiv.org/abs/2003.12703v2 )

ライセンス: Link先を確認
Mingyi Zhou, Jing Wu, Yipeng Liu, Shuaicheng Liu, Ce Zhu(参考訳) 機械学習モデルは、敵の例に弱い。 ブラックボックス設定では、現在の代替攻撃は敵の例を生成するために事前訓練されたモデルを必要とする。 しかし、事前訓練されたモデルは現実世界のタスクでは入手が難しい。 本稿では,データフリーの代替訓練手法(DaST)を提案し,実際のデータを必要としない敵のブラックボックス攻撃の代替モデルを求める。 これを実現するため、DaSTは特別に設計されたGANを用いて代替モデルを訓練する。 特に, 合成試料の不均一分布を扱うために, 生成モデルにおけるマルチブランチアーキテクチャとラベル制御損失を設計した。 代用モデルは、生成モデルによって生成された合成サンプルによって訓練され、その後、攻撃モデルによってラベル付けされる。 実験により,DASTが生成する代替モデルは,攻撃モデルを用いた同一列車で訓練したベースラインモデルと比較して,競争性能が向上することを示した。 さらに,提案手法の現実的タスクにおける実践性を評価するため,Microsoft Azureプラットフォーム上でのオンライン機械学習モデルを攻撃する。 遠隔モデルは,本手法で作成した敵例の98.35%を誤分類する。 私たちの知る限りでは、実際のデータなしで敵の攻撃の代替モデルをトレーニングするのは、当社が初めてです。

Machine learning models are vulnerable to adversarial examples. For the black-box setting, current substitute attacks need pre-trained models to generate adversarial examples. However, pre-trained models are hard to obtain in real-world tasks. In this paper, we propose a data-free substitute training method (DaST) to obtain substitute models for adversarial black-box attacks without the requirement of any real data. To achieve this, DaST utilizes specially designed generative adversarial networks (GANs) to train the substitute models. In particular, we design a multi-branch architecture and label-control loss for the generative model to deal with the uneven distribution of synthetic samples. The substitute model is then trained by the synthetic samples generated by the generative model, which are labeled by the attacked model subsequently. The experiments demonstrate the substitute models produced by DaST can achieve competitive performance compared with the baseline models which are trained by the same train set with attacked models. Additionally, to evaluate the practicability of the proposed method on the real-world task, we attack an online machine learning model on the Microsoft Azure platform. The remote model misclassifies 98.35% of the adversarial examples crafted by our method. To the best of our knowledge, we are the first to train a substitute model for adversarial attacks without any real data.
翻訳日:2022-12-18 23:36:50 公開日:2020-03-31
# 敵対的模倣攻撃

Adversarial Imitation Attack ( http://arxiv.org/abs/2003.12760v2 )

ライセンス: Link先を確認
Mingyi Zhou, Jing Wu, Yipeng Liu, Xiaolin Huang, Shuaicheng Liu, Xiang Zhang, Ce Zhu(参考訳) ディープラーニングモデルは、敵の例に弱いことが知られている。 現実的な敵攻撃は、攻撃されたモデルの知識をできるだけ少なくする必要がある。 現在の代替攻撃では、敵の例を生成するために事前訓練されたモデルが必要であり、攻撃の成功率は敵の例の転送可能性に大きく依存している。 現在のスコアベースおよび決定ベースの攻撃は、攻撃されたモデルに対して多くのクエリを必要とする。 本研究では,新たな敵模倣攻撃を提案する。 まず、generative adversarial networks(gans)のような2人のプレイヤーによる攻撃モデルのレプリカを生成する。 生成モデルの目的は、攻撃されたモデルで異なる出力を返す模倣モデルを導く例を生成することである。 模倣モデルの目的は、攻撃されたモデルと同一のラベルを同じ入力で出力することである。 そして、模倣モデルによって生成された逆例を利用して攻撃されたモデルを騙す。 現在の代替攻撃と比較して、模倣攻撃はより少ないトレーニングデータを使用して攻撃モデルのレプリカを生成し、敵のサンプルの転送可能性を向上させることができる。 実験により、我々の模倣攻撃はブラックボックスの代替攻撃よりもトレーニングデータが少ないことが示されたが、クエリなしの未確認データに対するホワイトボックス攻撃に近い攻撃成功率を達成した。

Deep learning models are known to be vulnerable to adversarial examples. A practical adversarial attack should require as little as possible knowledge of attacked models. Current substitute attacks need pre-trained models to generate adversarial examples and their attack success rates heavily rely on the transferability of adversarial examples. Current score-based and decision-based attacks require lots of queries for the attacked models. In this study, we propose a novel adversarial imitation attack. First, it produces a replica of the attacked model by a two-player game like the generative adversarial networks (GANs). The objective of the generative model is to generate examples that lead the imitation model returning different outputs with the attacked model. The objective of the imitation model is to output the same labels with the attacked model under the same inputs. Then, the adversarial examples generated by the imitation model are utilized to fool the attacked model. Compared with the current substitute attacks, imitation attacks can use less training data to produce a replica of the attacked model and improve the transferability of adversarial examples. Experiments demonstrate that our imitation attack requires less training data than the black-box substitute attacks, but achieves an attack success rate close to the white-box attack on unseen data with no query.
翻訳日:2022-12-18 23:36:31 公開日:2020-03-31
# M4コンペティションにおける時系列の関連と予測

Correlated daily time series and forecasting in the M4 competition ( http://arxiv.org/abs/2003.12796v2 )

ライセンス: Link先を確認
Anti Ingel, Novin Shahroudi, Markus K\"angsepp, Andre T\"attar, Viacheslav Komisarenko, Meelis Kull(参考訳) 我々は,時系列予測のためのM4コンペティションに参加し,本大会の日次予測手法について述べる。 我々は,5つの統計的予測手法のアンサンブルと,相関器と呼ぶ手法を用いた。 コンペ後のM4オーガナイザが公表した根拠的真理値を用いた振り返り分析により, 相関器が定常予測法よりも多くの利得を担っていることが示された。 我々は,データ漏洩を成功の理由の1つとして,異なる時間間隔から選択したテストデータと,元の時系列の品質上の問題を明らかにした。 今後の予測競技は,参加者によるリークを回避するために,時系列の実際の日付を提供するべきだと提案する。

We participated in the M4 competition for time series forecasting and describe here our methods for forecasting daily time series. We used an ensemble of five statistical forecasting methods and a method that we refer to as the correlator. Our retrospective analysis using the ground truth values published by the M4 organisers after the competition demonstrates that the correlator was responsible for most of our gains over the naive constant forecasting method. We identify data leakage as one reason for its success, partly due to test data selected from different time intervals, and partly due to quality issues in the original time series. We suggest that future forecasting competitions should provide actual dates for the time series so that some of those leakages could be avoided by the participants.
翻訳日:2022-12-18 23:28:37 公開日:2020-03-31
# ジェネリックオブジェクトアンチスプーフィングのノイズモデリング, 合成, 分類

Noise Modeling, Synthesis and Classification for Generic Object Anti-Spoofing ( http://arxiv.org/abs/2003.13043v2 )

ライセンス: Link先を確認
Joel Stehouwer, Amin Jourabloo, Yaojie Liu, Xiaoming Liu(参考訳) 印刷された写真や虹彩、指紋、顔などの生体特性の再生ビデオは、本物のユーザーとしてアクセスを許可する認識システムを騙すのによく使われる攻撃である。 オンラインの個人対人ショッピング(ebayやcraigslistなど)の増加に伴い、このような攻撃は、実際のアイテムからではなく、紙やデジタルスクリーンからオンラインの写真イラストをキャプチャするサービスにも脅威を与えている。 したがって、アンチスプーフィングの研究はモダリティ固有のソリューションからジェネリックオブジェクトベースのソリューションへと拡張されるべきである。 本研究では,GOAS(Generic Object Anti-Spoofing)の問題を初めて定義し,対処する。 これらの攻撃を検出するための重要な手がかりの1つは、捕捉センサーとスプーフ媒体によって導入されたノイズパターンである。 センサーとナトリウムの組み合わせの違いは、様々なノイズパターンをもたらす。 本稿では,中・センサの組み合わせからノイズパターンを合成し,識別するためのGANアーキテクチャを提案する。 合成と同定の手順は相互に有益であることを示す。 さらに、学習したGOASモデルがドメイン転送なしで、モダリティ固有のアンチ・スプーフィングに直接貢献できることを示す。 コードとGOSetデータセットはcvlab.cse.msu.edu/project-goas.htmlで入手できる。

Using printed photograph and replaying videos of biometric modalities, such as iris, fingerprint and face, are common attacks to fool the recognition systems for granting access as the genuine user. With the growing online person-to-person shopping (e.g., Ebay and Craigslist), such attacks also threaten those services, where the online photo illustration might not be captured from real items but from paper or digital screen. Thus, the study of anti-spoofing should be extended from modality-specific solutions to generic-object-based ones. In this work, we define and tackle the problem of Generic Object Anti-Spoofing (GOAS) for the first time. One significant cue to detect these attacks is the noise patterns introduced by the capture sensors and spoof mediums. Different sensor/medium combinations can result in diverse noise patterns. We propose a GAN-based architecture to synthesize and identify the noise patterns from seen and unseen medium/sensor combinations. We show that the procedure of synthesis and identification are mutually beneficial. We further demonstrate the learned GOAS models can directly contribute to modality-specific anti-spoofing without domain transfer. The code and GOSet dataset are available at cvlab.cse.msu.edu/project-goas.html.
翻訳日:2022-12-18 13:59:02 公開日:2020-03-31
# 選択不能制約と確率的通信プロトコルを有するマルチエージェントバンディット問題に対する対数的後悔を伴う分散政策

A Decentralized Policy with Logarithmic Regret for a Class of Multi-Agent Multi-Armed Bandit Problems with Option Unavailability Constraints and Stochastic Communication Protocols ( http://arxiv.org/abs/2003.12968v2 )

ライセンス: Link先を確認
Pathmanathan Pankayaraj, D. H. S. Maithripala, and J. M. Berg(参考訳) 本稿では,複数の移動エージェントがバンディットと呼ばれる空間分散確率過程の集合からサンプリングして報奨を受けるマルチアームバンディット(mab)問題について考察する。 目標は、オプションの可用性とエージェント間通信の制約により、すべてのエージェントに対する合計累積報酬を最大化するために、各エージェントに対して分散ポリシーを定式化することである。 問題定式化は、自律移動ロボットチームが不確実な環境で探索と搾取を行うために協力するアプリケーションによって動機付けられている。 バンディットの位置は空間グラフの頂点によって表される。 エージェントのオプションはいつでも、現在の位置でバンドイットをサンプリングするか、空間グラフの端に沿って新しいバンドイットの位置へ移動する。 通信制約は、非定常確率的通信グラフによって記述される。 エージェントはいつでも、隣の通信グラフからのみデータを受け取ることができる。 完全に連結された空間グラフ上の単一のエージェントの場合、任意の最適ポリシーに対する期待された後悔は、時間対数として成長する関数によって必ず下界されることが知られている。 高信頼バウンド(UCB)アルゴリズムと呼ばれる一連のポリシーは、古典的MAB問題に対する対数的後悔を漸近的に達成する。 本稿では,UDBに基づく分散動作とオプション選択ポリシーと,対数的後悔を保証する非定常確率的通信プロトコルを提案する。 我々の知る限り、これは通信制約のある非完全連結空間グラフに対する最初の分散ポリシーである。 空間グラフが完全接続され、通信グラフが定常である場合、分散アルゴリズムは文献から報告された最良の先行結果と一致するか、または上回る。

This paper considers a multi-armed bandit (MAB) problem in which multiple mobile agents receive rewards by sampling from a collection of spatially dispersed stochastic processes, called bandits. The goal is to formulate a decentralized policy for each agent, in order to maximize the total cumulative reward over all agents, subject to option availability and inter-agent communication constraints. The problem formulation is motivated by applications in which a team of autonomous mobile robots cooperates to accomplish an exploration and exploitation task in an uncertain environment. Bandit locations are represented by vertices of the spatial graph. At any time, an agent's option consist of sampling the bandit at its current location, or traveling along an edge of the spatial graph to a new bandit location. Communication constraints are described by a directed, non-stationary, stochastic communication graph. At any time, agents may receive data only from their communication graph in-neighbors. For the case of a single agent on a fully connected spatial graph, it is known that the expected regret for any optimal policy is necessarily bounded below by a function that grows as the logarithm of time. A class of policies called upper confidence bound (UCB) algorithms asymptotically achieve logarithmic regret for the classical MAB problem. In this paper, we propose a UCB-based decentralized motion and option selection policy and a non-stationary stochastic communication protocol that guarantee logarithmic regret. To our knowledge, this is the first such decentralized policy for non-fully connected spatial graphs with communication constraints. When the spatial graph is fully connected and the communication graph is stationary, our decentralized algorithm matches or exceeds the best reported prior results from the literature.
翻訳日:2022-12-18 13:23:56 公開日:2020-03-31
# RGBドットパターン投影と線交叉によるアクティブ立体視3次元再構成

Active stereo vision three-dimensional reconstruction by RGB dot pattern projection and ray intersection ( http://arxiv.org/abs/2003.13322v2 )

ライセンス: Link先を確認
Yongcan Shuang and Zhenzhou Wang(参考訳) アクティブステレオビジョンは、明らかなテクスチャのないオブジェクトの再構築において重要である。 しかし、2つのカメラビューから投影されたパターンを自動的かつ堅牢に抽出し、マッチングすることは依然として非常に困難である。 本稿では,新しいパターン抽出法と,新しい構造化光パターンに基づくステレオビジョンマッチング法を提案する。 物体の深さを計算するために広く使われる2次元の差を使う代わりに、光線交叉を使って直接3d形状を計算する。 実験の結果, 広範に用いられている不等式に基づく能動ステレオビジョン法, 飛行時間法, 構造化光法などの技術手法に比べて, 物体の3次元形状をかなり頑健に再現できることがわかった。 さらに, 実験結果から, 動的形状の3次元運動を頑健に再現できることが示唆された。

Active stereo vision is important in reconstructing objects without obvious textures. However, it is still very challenging to extract and match the projected patterns from two camera views automatically and robustly. In this paper, we propose a new pattern extraction method and a new stereo vision matching method based on our novel structured light pattern. Instead of using the widely used 2D disparity to calculate the depths of the objects, we use the ray intersection to compute the 3D shapes directly. Experimental results showed that the proposed approach could reconstruct the 3D shape of the object significantly more robustly than state of the art methods that include the widely used disparity based active stereo vision method, the time of flight method and the structured light method. In addition, experimental results also showed that the proposed approach could reconstruct the 3D motions of the dynamic shapes robustly.
翻訳日:2022-12-18 08:32:17 公開日:2020-03-31
# 高純度ゲルマニウム検出器のタイミング分解能最適化のための効率的な機械学習手法

Efficient Machine Learning Approach for Optimizing the Timing Resolution of a High Purity Germanium Detector ( http://arxiv.org/abs/2004.00008v1 )

ライセンス: Link先を確認
R. W. Gladen, V. A. Chirayath, A. J. Fairchild, M. T. Manry, A. R. Koymen, and A. H. Weiss(参考訳) 本稿では,60cm3同軸高純度ゲルマニウム検出器(hpge)による511kev消滅ガンマ線の検出により発生する波形の到来時刻を推定するためのパラメータの最適化のための効率的な機械学習手法について述べる。 この方法は、自己組織化マップ(SOM)と呼ばれる人工知能ニューラルネットワーク(ANN)を用いて、その立ち上がりエッジの形状に基づいてHPGe波形をクラスタリングする。 特定のクラスタに属するHPGe波形の最適タイミングパラメータは、HPGe信号とBaF2シンチレーション検出器によって生成された信号との時間差を最小化することによって得られる。 これらの可変タイミングパラメータをhpge信号に適用することで、511 kevフォトピーク(511 +-50 kevと定義)でのガンマ結合のタイミング分解能は ~ 4.3 ns となり、ガンマスペクトル全体のタイミング分解能は 6.5 ns となる。 このタイミング分解能は、アナログ最適化手順の複雑さを伴わずに、アナログ核エレクトロニクスによって得られる最良のものにアプローチする。 さらに, 試料にエネルギ性陽電子を注入した後の二次電子時間スペクトル生成に本手法を適用し, 機械学習手法の普遍性と有効性を示す。

We describe here an efficient machine-learning based approach for the optimization of parameters used for extracting the arrival time of waveforms, in particular those generated by the detection of 511 keV annihilation gamma-rays by a 60 cm3 coaxial high purity germanium detector (HPGe). The method utilizes a type of artificial neural network (ANN) called a self-organizing map (SOM) to cluster the HPGe waveforms based on the shape of their rising edges. The optimal timing parameters for HPGe waveforms belonging to a particular cluster are found by minimizing the time difference between the HPGe signal and a signal produced by a BaF2 scintillation detector. Applying these variable timing parameters to the HPGe signals achieved a gamma-coincidence timing resolution of ~ 4.3 ns at the 511 keV photo peak (defined as 511 +- 50 keV) and a timing resolution of ~ 6.5 ns for the entire gamma spectrum--without rejecting any valid pulses. This timing resolution approaches the best obtained by analog nuclear electronics, without the corresponding complexities of analog optimization procedures. We further demonstrate the universality and efficacy of the machine learning approach by applying the method to the generation of secondary electron time-of-flight spectra following the implantation of energetic positrons on a sample.
翻訳日:2022-12-18 02:05:31 公開日:2020-03-31
# 潜在的なNMDA受容体アンタゴニスト生成のためのディープラーニングの適用と評価

Application and Assessment of Deep Learning for the Generation of Potential NMDA Receptor Antagonists ( http://arxiv.org/abs/2003.14360v1 )

ライセンス: Link先を確認
Katherine J. Schultz, Sean M. Colby, Yasemin Yesiltepe, Jamie R. Nu\~nez, Monee Y. McGrady, Ryan R. Renslow(参考訳) N-メチルD-アスパラギン酸受容体(NMDAR)の非競合的なアンタゴニストは、パーキンソン病やアルツハイマー病などの神経疾患の治療に効果を示すが、一部の薬の合成につながる解離作用を引き起こす。 したがって,NMDARアンタゴニストをシリコで生成する能力は,新薬開発と新規デザイナー薬のプリエンプション,同定に有用である。 近年,創発的な深層学習モデルがド・ノボの薬物設計に応用され,潜在的な薬物様化合物を探索できる化学空間の増大に寄与している。 本研究では,NMDARにおける生成モデルの適用性を評価する。 一 薬物発見コミュニティを支援するため、実験的に検証されたNMDAR phencyclidine(PCP)サイトアンタゴニストの包括的ライブラリの作成及びリリース (ii)このような生成型人工知能モデルを薬物設計に適用することで得られる利点と、そのアプローチの現在の限界の両方の分析。 我々は, 標準薬物発見分析に使用される各種リガンドおよび構造に基づく評価手法を, 深層学習生成化合物に適用し, ソースコードを提供する。 既存の化学データベースでは利用できない12の候補アンタゴニストについて,これらの化合物の合成と実験的検証は依然として必要だが,このようなワークフローが実現可能な例を示す。

Uncompetitive antagonists of the N-methyl D-aspartate receptor (NMDAR) have demonstrated therapeutic benefit in the treatment of neurological diseases such as Parkinson's and Alzheimer's, but some also cause dissociative effects that have led to the synthesis of illicit drugs. The ability to generate NMDAR antagonists in silico is therefore desirable both for new medication development and for preempting and identifying new designer drugs. Recently, generative deep learning models have been applied to de novo drug design as a means to expand the amount of chemical space that can be explored for potential drug-like compounds. In this study, we assess the application of a generative model to the NMDAR to achieve two primary objectives: (i) the creation and release of a comprehensive library of experimentally validated NMDAR phencyclidine (PCP) site antagonists to assist the drug discovery community and (ii) an analysis of both the advantages conferred by applying such generative artificial intelligence models to drug design and the current limitations of the approach. We apply, and provide source code for, a variety of ligand- and structure-based assessment techniques used in standard drug discovery analyses to the deep learning-generated compounds. We present twelve candidate antagonists that are not available in existing chemical databases to provide an example of what this type of workflow can achieve, though synthesis and experimental validation of these compounds is still required.
翻訳日:2022-12-18 02:02:18 公開日:2020-03-31
# 株式市場予測のための深層学習

Deep learning for Stock Market Prediction ( http://arxiv.org/abs/2004.01497v1 )

ライセンス: Link先を確認
Mojtaba Nabipour, Pooyan Nayyeri, Hamed Jabani, Amir Mosavi(参考訳) 株価の予測は株主にとって常に魅力的で挑戦的だった。 本稿では,株式市場グループの将来予測に焦点をあてる。 テヘラン証券取引所から, 多様化ファイナンス, 石油, 非金属鉱物, 塩基性金属を抽出し, 実験的評価を行った。 10年の歴史記録に基づいて、グループごとにデータを収集する。 予測値は1, 2, 5, 10, 15, 20, 30日前に作成される。 機械学習アルゴリズムは、株式市場グループの将来の価値予測に活用されている。 我々は、決定木、バギング、ランダムフォレスト、適応ブースティング(Adaboost)、グラディエントブースティングとeXtreme Gradient Boosting(XGBoost)、人工知能ニューラルネットワーク(ANN)、リカレントニューラルネットワーク(RNN)、長短期記憶(LSTM)を採用した。 予測モデルの各入力として10の技術的指標が選択される。 最後に、3つの指標に基づく各手法について予測結果を示す。 本論文で用いたアルゴリズムのうち,LSTMはモデル適合能力が最も高い精度で結果を示す。 また、ツリーベースのモデルでは、しばしばAdaboost、Gradient Boosting、XGBoostの激しい競争がある。

Prediction of stock groups' values has always been attractive and challenging for shareholders. This paper concentrates on the future prediction of stock market groups. Four groups named diversified financials, petroleum, non-metallic minerals and basic metals from Tehran stock exchange are chosen for experimental evaluations. Data are collected for the groups based on ten years of historical records. The values predictions are created for 1, 2, 5, 10, 15, 20 and 30 days in advance. The machine learning algorithms utilized for prediction of future values of stock market groups. We employed Decision Tree, Bagging, Random Forest, Adaptive Boosting (Adaboost), Gradient Boosting and eXtreme Gradient Boosting (XGBoost), and Artificial neural network (ANN), Recurrent Neural Network (RNN) and Long short-term memory (LSTM). Ten technical indicators are selected as the inputs into each of the prediction models. Finally, the result of predictions is presented for each technique based on three metrics. Among all the algorithms used in this paper, LSTM shows more accurate results with the highest model fitting ability. Also, for tree-based models, there is often an intense competition between Adaboost, Gradient Boosting, and XGBoost.
翻訳日:2022-12-18 02:00:45 公開日:2020-03-31
# LSTMによる金融市場の動向予測とパフォーマンス分析

Financial Market Trend Forecasting and Performance Analysis Using LSTM ( http://arxiv.org/abs/2004.01502v1 )

ライセンス: Link先を確認
Jonghyeon Min(参考訳) 金融市場のトレンド予測手法は、今日、金融市場でホットな話題となっている。 現在も多くの課題が残っており、それに関連する様々な研究が活発に行われている。 特に、ニューラルネットワークベースの金融市場トレンド予測に関する最近の研究が注目されている。 しかし,従来の調査では,時系列データの性能のよいLSTMに基づく金融市場予測手法には対応していない。 また、ニューラルネットワークベースの予測技術と従来の予測技術のパフォーマンスの比較分析が欠如している。 本稿では、LSTMを用いた金融市場トレンド予測手法を提案し、実験を通して既存の金融市場トレンド予測手法を用いて性能を解析する。 この方法は、データ前処理プロセスを通じて設定された入力データを作成し、財務データ分析に使用される基本データ、技術データ、質的データをすべて反映し、LSTMを通じて包括的な金融市場分析を行う。 本稿では,既存の金融市場トレンド予測モデルの性能と,金融市場環境に応じたパフォーマンスを実験的に比較する。 また,提案手法をオープンソースとプラットフォームを用いて実装し,金融データ指標を用いて金融市場の動向を予測する。

The financial market trend forecasting method is emerging as a hot topic in financial markets today. Many challenges still currently remain, and various researches related thereto have been actively conducted. Especially, recent research of neural network-based financial market trend prediction has attracted much attention. However, previous researches do not deal with the financial market forecasting method based on LSTM which has good performance in time series data. There is also a lack of comparative analysis in the performance of neural network-based prediction techniques and traditional prediction techniques. In this paper, we propose a financial market trend forecasting method using LSTM and analyze the performance with existing financial market trend forecasting methods through experiments. This method prepares the input data set through the data preprocessing process so as to reflect all the fundamental data, technical data and qualitative data used in the financial data analysis, and makes comprehensive financial market analysis through LSTM. In this paper, we experiment and compare performances of existing financial market trend forecasting models, and performance according to the financial market environment. In addition, we implement the proposed method using open sources and platform and forecast financial market trends using various financial data indicators.
翻訳日:2022-12-18 02:00:25 公開日:2020-03-31
# 共分散ロバスト動的透かし

Covariance-Robust Dynamic Watermarking ( http://arxiv.org/abs/2003.13908v1 )

ライセンス: Link先を確認
Matt Olfat, Stephen Sloan, Pedro Hespanhol, Matt Porter, Ram Vasudevan, and Anil Aswani(参考訳) サイバー物理システム(CPS)の攻撃検出と緩和戦略は研究の活発な領域であり、研究者は動的透かしのような様々な攻撃検出ツールを開発した。 しかし、そのような手法は、測定ノイズの分布の正確な知識のような保証が難しい仮定をしばしば作っている。 そこで本稿では,共分散ロバスト動的透かし(covariance-robust dynamic watermarking)と呼ぶ新しい動的透かし法を開発した。 具体的には2つの事例を考察する。 第一に、この共分散は固定されるが未知であり、第二に、この共分散はゆっくりと変化する。 テストでは、共変性が存在する集合の知識のみを必要とする。 さらに, この問題をアルゴリズム的公平性と, 初生の公正な仮説検証と結びつけ, 実験がいくつかの公平性概念を満たしていることを示す。 最後に、自動運転車の標準シミュレーションモデルで観測された値を反映する実験例において、テストの有効性を示す。

Attack detection and mitigation strategies for cyberphysical systems (CPS) are an active area of research, and researchers have developed a variety of attack-detection tools such as dynamic watermarking. However, such methods often make assumptions that are difficult to guarantee, such as exact knowledge of the distribution of measurement noise. Here, we develop a new dynamic watermarking method that we call covariance-robust dynamic watermarking, which is able to handle uncertainties in the covariance of measurement noise. Specifically, we consider two cases. In the first this covariance is fixed but unknown, and in the second this covariance is slowly-varying. For our tests, we only require knowledge of a set within which the covariance lies. Furthermore, we connect this problem to that of algorithmic fairness and the nascent field of fair hypothesis testing, and we show that our tests satisfy some notions of fairness. Finally, we exhibit the efficacy of our tests on empirical examples chosen to reflect values observed in a standard simulation model of autonomous vehicles.
翻訳日:2022-12-18 02:00:10 公開日:2020-03-31
# 強化学習によるrayleigh-b\'enard対流制御

Controlling Rayleigh-B\'enard convection via Reinforcement Learning ( http://arxiv.org/abs/2003.14358v1 )

ライセンス: Link先を確認
Gerben Beintema, Alessandro Corbetta, Luca Biferale, Federico Toschi(参考訳) 熱対流は自然界でも多くの工業用途でも広く見られる。 対流熱交換を一定温度勾配下で抑制または強化する効果的な制御戦略の特定は、基礎的かつ技術的に優れた課題である。 本研究では,2次元レイリー・b・エナード系における熱輸送を,低温度ゆらぎをシステムの下部境界に適用することにより著しく低減できる,最先端の強化学習(rl)アルゴリズムに基づく新しい手法を検討する。 数値シミュレーションにより、我々のRL制御は導電系を安定させ、対流の開始をレイリー数$Ra_c \approx 3 \cdot 10^4$にすることができるが、制御されていない場合には$Ra_{c}=1708$であることを示す。 さらに、$Ra > 3 \cdot 10^4$の場合、我々の手法は他の最先端制御アルゴリズムよりも2.5ドル程度の熱フラックスを低減できる。 原稿の最後の部分では、ここで考えるように不安定でカオス的なダイナミクスを制御することに関連する理論的限界を取り上げている。 制御性は可観測性とアクティベーション動作の能力によって阻害され,特性的時間遅延によって定量化できることを示した。 これらの遅延がシステムのリャプノフ時間に匹敵すると、制御は不可能になる。

Thermal convection is ubiquitous in nature as well as in many industrial applications. The identification of effective control strategies to, e.g., suppress or enhance the convective heat exchange under fixed external thermal gradients is an outstanding fundamental and technological issue. In this work, we explore a novel approach, based on a state-of-the-art Reinforcement Learning (RL) algorithm, which is capable of significantly reducing the heat transport in a two-dimensional Rayleigh-B\'enard system by applying small temperature fluctuations to the lower boundary of the system. By using numerical simulations, we show that our RL-based control is able to stabilize the conductive regime and bring the onset of convection up to a Rayleigh number $Ra_c \approx 3 \cdot 10^4$, whereas in the uncontrolled case it holds $Ra_{c}=1708$. Additionally, for $Ra > 3 \cdot 10^4$, our approach outperforms other state-of-the-art control algorithms reducing the heat flux by a factor of about $2.5$. In the last part of the manuscript, we address theoretical limits connected to controlling an unstable and chaotic dynamics as the one considered here. We show that controllability is hindered by observability and/or capabilities of actuating actions, which can be quantified in terms of characteristic time delays. When these delays become comparable with the Lyapunov time of the system, control becomes impossible.
翻訳日:2022-12-18 01:59:51 公開日:2020-03-31
# 深部U-Netを用いた非コントラストCTの放射線学レベル脳卒中分類

Radiologist-level stroke classification on non-contrast CT scans with Deep U-Net ( http://arxiv.org/abs/2003.14287v1 )

ライセンス: Link先を確認
Manvel Avetisian, Vladimir Kokh, Alex Tuzhilin, Dmitry Umerenkov(参考訳) 脳梗塞の診断と治療にはctによる脳梗塞と脳内出血の区分が不可欠である。 本稿では,非コントラストCTを用いたストローク識別問題に対して,U-Net CNNアーキテクチャを改良した。 提案したDLモデルを過去の患者データに適用し,経験者10名を対象に臨床実験を行った。 我々のモデルは、過去のデータから強い成果を上げ、残りの3つと同等でありながら、10人中7人の放射線科医を著しく上回った。

Segmentation of ischemic stroke and intracranial hemorrhage on computed tomography is essential for investigation and treatment of stroke. In this paper, we modified the U-Net CNN architecture for the stroke identification problem using non-contrast CT. We applied the proposed DL model to historical patient data and also conducted clinical experiments involving ten experienced radiologists. Our model achieved strong results on historical data, and significantly outperformed seven radiologist out of ten, while being on par with the remaining three.
翻訳日:2022-12-18 01:53:15 公開日:2020-03-31
# 深層学習を用いたX線画像に基づく肺炎の自動検出・分類法

Automated Methods for Detection and Classification Pneumonia based on X-Ray Images Using Deep Learning ( http://arxiv.org/abs/2003.14363v1 )

ライセンス: Link先を確認
Khalid El Asnaoui, Youness Chawki, Ali Idri(参考訳) 最近、世界中の研究者、専門家、企業は、何百ものX線とCT画像を高速に処理し、SARS、COVID-19などの肺炎の診断を加速し、その封じ込めを補助するディープラーニングと画像処理ベースのシステムを展開している。 医療画像分析は最も有望な研究分野の一つであり、MERS、COVID-19など多くの疾患の診断と意思決定のための施設を提供している。 本稿では, 肺炎画像の微調整バージョン(VGG16, VGG19, DenseNet201, Inception_ResNet_V2, Inception_V3, Resnet50, MobileNet_V2, Xception)の自動バイナリ分類のための最近のDeep Convolutional Neural Network(DCNN)アーキテクチャの比較を行う。 提案手法は, 5856画像(肺炎4273例, 正常1583例)を含む胸部x線ctデータを用いて検討した。 その結果,Resnet50,MobileNet_V2,Inception_Resnet_V2の微調整版は,トレーニングや検証精度の向上率(精度の96%以上)で高い良好な性能を示した。 CNN、Xception、VGG16、VGG19、Inception_V3、DenseNet201とは異なり、性能は低い(84%以上)。

Recently, researchers, specialists, and companies around the world are rolling out deep learning and image processing-based systems that can fastly process hundreds of X-Ray and computed tomography (CT) images to accelerate the diagnosis of pneumonia such as SARS, COVID-19, and aid in its containment. Medical images analysis is one of the most promising research areas, it provides facilities for diagnosis and making decisions of a number of diseases such as MERS, COVID-19. In this paper, we present a comparison of recent Deep Convolutional Neural Network (DCNN) architectures for automatic binary classification of pneumonia images based fined tuned versions of (VGG16, VGG19, DenseNet201, Inception_ResNet_V2, Inception_V3, Resnet50, MobileNet_V2 and Xception). The proposed work has been tested using chest X-Ray & CT dataset which contains 5856 images (4273 pneumonia and 1583 normal). As result we can conclude that fine-tuned version of Resnet50, MobileNet_V2 and Inception_Resnet_V2 show highly satisfactory performance with rate of increase in training and validation accuracy (more than 96% of accuracy). Unlike CNN, Xception, VGG16, VGG19, Inception_V3 and DenseNet201 display low performance (more than 84% accuracy).
翻訳日:2022-12-18 01:53:07 公開日:2020-03-31
# アライメント不変脳表面セグメンテーションのためのグラフ領域適応

Graph Domain Adaptation for Alignment-Invariant Brain Surface Segmentation ( http://arxiv.org/abs/2004.00074v1 )

ライセンス: Link先を確認
Karthik Gopinath, Christian Desrosiers, and Herve Lombaert(参考訳) 脳の様々な皮質形状は、その解析に多くの課題を生み出している。 近年の進歩により、皮質データのグラフ畳み込みを通じて、複数の脳表面を直接学習できるようになっている。 しかし、現在のグラフ学習アルゴリズムは、脳表面データを被験者間でミスアライメントした場合に失敗するため、複数の領域のデータを扱う能力に影響を及ぼす。 ドメイン適応では、ドメイン間のセグメンテーションパフォーマンスを改善するために、敵対的トレーニングが広く使われている。 本稿では,非整合グラフアライメントにまたがる表面データを学習するために,逆訓練を利用する。 この斬新なアプローチは、一連のグラフ畳み込み層を使用して、ソースドメイン内の脳表面を直接横断するパーセレーションを可能にするセグメンタと、セグメンテーションからグラフドメインを予測する判別器とを含む。 より正確には、提案する敵ネットワークは、ソースドメインとターゲットドメインの両方でパーセレーションを一般化することを学ぶ。 我々は、MindBoggleから抽出した複数のターゲットドメインに適用した非敵的トレーニング戦略よりも、8%の平均的なパフォーマンス向上を実証した。

The varying cortical geometry of the brain creates numerous challenges for its analysis. Recent developments have enabled learning surface data directly across multiple brain surfaces via graph convolutions on cortical data. However, current graph learning algorithms do fail when brain surface data are misaligned across subjects, thereby affecting their ability to deal with data from multiple domains. Adversarial training is widely used for domain adaptation to improve the segmentation performance across domains. In this paper, adversarial training is exploited to learn surface data across inconsistent graph alignments. This novel approach comprises a segmentator that uses a set of graph convolution layers to enable parcellation directly across brain surfaces in a source domain, and a discriminator that predicts a graph domain from segmentations. More precisely, the proposed adversarial network learns to generalize a parcellation across both, source and target domains. We demonstrate an 8% mean improvement in performance over a non-adversarial training strategy applied on multiple target domains extracted from MindBoggle, the largest publicly available manually-labeled brain surface dataset.
翻訳日:2022-12-18 01:52:40 公開日:2020-03-31
# chemlambda,ラムダ計算,インタラクションコンビネータを用いた人工化学実験

Artificial chemistry experiments with chemlambda, lambda calculus, interaction combinators ( http://arxiv.org/abs/2003.14332v1 )

ライセンス: Link先を確認
Marius Buliga(参考訳) グラフ書き換えシステム(graph rewrite system)が与えられたとき、グラフgがクワイングラフ(quine graph)であるとは、グラフの左パターンの衝突しないマッチの非負の極大集合(non-void maximal collection of non-conflicting matches of graphs rewrites)を持つときであり、リライトの並列適用後、gと同型なグラフを得る。 これらはchemlambda、lambda calculus、interaction combinatorによる人工化学実験のページへの序文であり、エントリページhttps://chemlambda.github.io/index.htmlから入手できる。 実験は、プログラムのライブラリに基づいて、数百のグラフを含むデータベースと、約150ページのテキストコメントと200以上のアニメーションのデータベースにまとめられ、そのほとんどはプログラムを通じて、ライブで再生することができる。 これらの実験には、python、haskell、awk、javascriptのプログラムのバージョンとともに、他のコントリビューターの公開リポジトリへのリンクがある。

Given a graph rewrite system, a graph G is a quine graph if it has a non-void maximal collection of non-conflicting matches of left patterns of graphs rewrites, such that after the parallel application of the rewrites we obtain a graph isomorphic with G. Such graphs exhibit a metabolism, they can multiply or they can die, when reduced by a random rewriting algorithm. These are introductory notes to the pages of artificial chemistry experiments with chemlambda, lambda calculus or interaction combinators, available from the entry page https://chemlambda.github.io/index.html . The experiments are bundled into pages, all of them based on a library of programs, on a database which contains hundreds of graphs and on a database of about 150 pages of text comments and a collection of more than 200 animations, most of them which can be re-done live, via the programs. There are links to public repositories of other contributors to these experiments, with versions of these programs in python, haskell, awk or javascript.
翻訳日:2022-12-18 01:52:03 公開日:2020-03-31
# 潜在位置ランダムグラフモデルにおける2つの不特定性源について

On Two Distinct Sources of Nonidentifiability in Latent Position Random Graph Models ( http://arxiv.org/abs/2003.14250v1 )

ライセンス: Link先を確認
Joshua Agterberg, Minh Tang, Carey E. Priebe(参考訳) 潜在位置ランダムグラフモデルの文脈では、2つの異なる識別可能性の源が自然に現れるが、どちらもこの設定に固有のものではない。 本稿では,これらの2つの不特定性,すなわち部分空間不特定性とモデルに基づく不特定性を定義し,検討する。 それぞれのタイプの非識別性がどのように機能するかを例示し、特定の環境では、あるタイプの非識別性に対してどのように懸念する必要があるかを示す。 そして,モデルに基づく非識別可能性の限界を,部分空間的非識別性の両方で特徴づける。 さらに、共分散および確率ブロックモデルおよび一般化ランダムドット積グラフの$U$統計に対する追加の制限結果を得る。

Two separate and distinct sources of nonidentifiability arise naturally in the context of latent position random graph models, though neither are unique to this setting. In this paper we define and examine these two nonidentifiabilities, dubbed subspace nonidentifiability and model-based nonidentifiability, in the context of random graph inference. We give examples where each type of nonidentifiability comes into play, and we show how in certain settings one need worry about one or the other type of nonidentifiability. Then, we characterize the limit for model-based nonidentifiability both with and without subspace nonidentifiability. We further obtain additional limiting results for covariances and $U$-statistics of stochastic block models and generalized random dot product graphs.
翻訳日:2022-12-18 01:51:40 公開日:2020-03-31
# GANを監督した組織組織生成モデルの学習

Learning Generative Models of Tissue Organization with Supervised GANs ( http://arxiv.org/abs/2004.00140v1 )

ライセンス: Link先を確認
Ligong Han, Robert F. Murphy, and Deva Ramanan(参考訳) 細胞と組織の空間的構造を理解する上で重要なステップは、その組織を正確に反映する生成モデルを構築する能力である。 本稿では,細胞膜とミトコンドリアの位置が密に注釈付けされた電子顕微鏡(em)像の生成モデルの構築に焦点をあて,生成逆ネットワーク(gans)を用いた現実的な画像を生成する2段階の手法を提案する。 第1段階では,ノイズ"イメージ"を入力としてラベル"イメージ"を合成し,第2段階でem画像合成の監督を行う。 フルモデルは自然にラベルとイメージのペアを生成する。 本研究では,(1)形状特徴と大域統計,(2)セグメンテーション精度,(3)ユーザスタディを用いて,正確な合成EM画像を生成することを示す。 また,中間合成ラベルの再構成損失を強制し,この2段階を1つのエンドツーエンドフレームワークに統合することにより,さらなる改善を示す。

A key step in understanding the spatial organization of cells and tissues is the ability to construct generative models that accurately reflect that organization. In this paper, we focus on building generative models of electron microscope (EM) images in which the positions of cell membranes and mitochondria have been densely annotated, and propose a two-stage procedure that produces realistic images using Generative Adversarial Networks (or GANs) in a supervised way. In the first stage, we synthesize a label "image" given a noise "image" as input, which then provides supervision for EM image synthesis in the second stage. The full model naturally generates label-image pairs. We show that accurate synthetic EM images are produced using assessment via (1) shape features and global statistics, (2) segmentation accuracies, and (3) user studies. We also demonstrate further improvements by enforcing a reconstruction loss on intermediate synthetic labels and thus unifying the two stages into one single end-to-end framework.
翻訳日:2022-12-18 01:44:17 公開日:2020-03-31
# 前景検出とサイクル一貫性を用いた深部意味マッチング

Deep Semantic Matching with Foreground Detection and Cycle-Consistency ( http://arxiv.org/abs/2004.00144v1 )

ライセンス: Link先を確認
Yun-Chun Chen, Po-Hsiang Huang, Li-Yu Yu, Jia-Bin Huang, Ming-Hsuan Yang, Yen-Yu Lin(参考訳) オブジェクトインスタンス間の密接なセマンティックな対応を確立することは、背景の散らかさ、大きなスケールとポーズの違い、およびクラス内の大きなバリエーションによって、依然として困難な問題である。 本稿では,手動キーポイント対応アノテーションのない画像ペアのみを提供するディープネットワークに基づく,弱教師付きセマンティックマッチングについて述べる。 この弱い形態の監督で ネットワークトレーニングを促進するために 1)背景クラッタの効果を抑制するために前景領域を明示的に推定する 2) 周期整合損失を発生させ, 予測変換を複数の画像に展開し, 幾何的に可視かつ一貫的に行う。 PF-PASCALデータセットを用いて提案モデルをトレーニングし、PF-PASCAL, PF-WILLOW, TSSデータセットの性能を評価する。 実験結果から,提案手法は最先端手法に対して好適に機能することが示された。

Establishing dense semantic correspondences between object instances remains a challenging problem due to background clutter, significant scale and pose differences, and large intra-class variations. In this paper, we address weakly supervised semantic matching based on a deep network where only image pairs without manual keypoint correspondence annotations are provided. To facilitate network training with this weaker form of supervision, we 1) explicitly estimate the foreground regions to suppress the effect of background clutter and 2) develop cycle-consistent losses to enforce the predicted transformations across multiple images to be geometrically plausible and consistent. We train the proposed model using the PF-PASCAL dataset and evaluate the performance on the PF-PASCAL, PF-WILLOW, and TSS datasets. Extensive experimental results show that the proposed approach performs favorably against the state-of-the-art methods.
翻訳日:2022-12-18 01:43:59 公開日:2020-03-31
# ニュースレコメンデーションのためのグラフ強化表現学習

Graph Enhanced Representation Learning for News Recommendation ( http://arxiv.org/abs/2003.14292v1 )

ライセンス: Link先を確認
Suyu Ge and Chuhan Wu and Fangzhao Wu and Tao Qi and Yongfeng Huang(参考訳) オンラインニュースの爆発により、パーソナライズされたニュースレコメンデーションは、ユーザーが興味深い情報を見つけるのを助けるオンラインニュースプラットフォームにとってますます重要になっている。 既存のニュースレコメンデーション手法は、ニュースコンテンツからの正確なニュース表現と、ニュースと直接の相互作用(例えばクリック)から、ニュースとニュースの高次の関連性を無視して、パーソナライズを実現する。 本稿では,ユーザとニュースの表現学習を,その関連性をグラフ設定でモデル化することで向上させるニューズレコメンデーション手法を提案する。 本手法では,歴史的ユーザクリック行動から構築した二部グラフのノードとして,ユーザとニュースをみなす。 ニュース表現では、まずトランスフォーマーアーキテクチャを利用してニュースセマンティック表現を構築する。 次に、グラフアテンションネットワークを介して、グラフ内の隣接ニュースからの情報を組み合わせる。 ユーザ表現では、歴史的にクリックされたニュースからユーザを表現するだけでなく、近隣のユーザの表現をグラフに注意深く組み込む。 提案手法の有効性を検証するため,大規模実世界のデータセットの性能改善を行った。

With the explosion of online news, personalized news recommendation becomes increasingly important for online news platforms to help their users find interesting information. Existing news recommendation methods achieve personalization by building accurate news representations from news content and user representations from their direct interactions with news (e.g., click), while ignoring the high-order relatedness between users and news. Here we propose a news recommendation method which can enhance the representation learning of users and news by modeling their relatedness in a graph setting. In our method, users and news are both viewed as nodes in a bipartite graph constructed from historical user click behaviors. For news representations, a transformer architecture is first exploited to build news semantic representations. Then we combine it with the information from neighbor news in the graph via a graph attention network. For user representations, we not only represent users from their historically clicked news, but also attentively incorporate the representations of their neighbor users in the graph. Improved performances on a large-scale real-world dataset validate the effectiveness of our proposed method.
翻訳日:2022-12-18 01:43:45 公開日:2020-03-31
# サンスクリット文法を用いた多言語国における電子ガバナンスとモバイルガバナンスの改善

Improvement of electronic Governance and mobile Governance in Multilingual Countries with Digital Etymology using Sanskrit Grammar ( http://arxiv.org/abs/2004.00104v1 )

ライセンス: Link先を確認
Arijit Das and Diganta Saha(参考訳) デジタル接続(Wifi,3G,4G)の大幅な改善と、インターネットにアクセスするデジタルデバイスが、現在、最遠の角に到達している。 農村の人々は、PDA、ラップトップ、スマートフォンなどから簡単にWebやアプリにアクセスできます。 これは政府にとって、大量の市民にリーチし、彼らのフィードバックを得て、巨大な人材、物質、または反省を配置することなく、政策決定とeガバナンスに関連付ける機会である。 しかし、多言語国家の政府は、農村住民が母国語で対話する傾向にあるため、市民政府(G2C)と市民政府(C2G)の統治を成功させる上で、多くの問題に直面している。 Webやアプリ上で平等な体験を異なる言語グループに提示することは、真の課題です。 本研究では,Indo Aryan 話者が直面している問題を,言語族群やサブグループにも適用可能な問題として整理した。 そして、Etymologyを使って確率的解決策を与えようとした。 語源はROOT形式を用いて単語を関連付けるために用いられる。 紀元前5世紀、パニーニは「astadhyayi」を著し、経典や規則を描いている。 その後、西洋諸国でも比較的新しい言語の文法を導出するためにこの本が続いた。 我々は,パニアン・グラマティカル・ルールを用いて,表面レベルや形態変化した単語から自動的に根抽出するシステムを訓練した。 我々は10000個以上のベンガリバーブを試験し,98%の精度で根形態を抽出した。 我々は現在、プログラムを拡張して、任意の言語の単語を文法化し、それらのルールセットをニューラルネットワークに適用することでそれらを相関付けしています。

With huge improvement of digital connectivity (Wifi,3G,4G) and digital devices access to internet has reached in the remotest corners now a days. Rural people can easily access web or apps from PDAs, laptops, smartphones etc. This is an opportunity of the Government to reach to the citizen in large number, get their feedback, associate them in policy decision with e governance without deploying huge man, material or resourses. But the Government of multilingual countries face a lot of problem in successful implementation of Government to Citizen (G2C) and Citizen to Government (C2G) governance as the rural people tend and prefer to interact in their native languages. Presenting equal experience over web or app to different language group of speakers is a real challenge. In this research we have sorted out the problems faced by Indo Aryan speaking netizens which is in general also applicable to any language family groups or subgroups. Then we have tried to give probable solutions using Etymology. Etymology is used to correlate the words using their ROOT forms. In 5th century BC Panini wrote Astadhyayi where he depicted sutras or rules -- how a word is changed according to person,tense,gender,number etc. Later this book was followed in Western countries also to derive their grammar of comparatively new languages. We have trained our system for automatic root extraction from the surface level or morphed form of words using Panian Gramatical rules. We have tested our system over 10000 bengali Verbs and extracted the root form with 98% accuracy. We are now working to extend the program to successfully lemmatize any words of any language and correlate them by applying those rule sets in Artificial Neural Network.
翻訳日:2022-12-18 01:43:29 公開日:2020-03-31
# CRYSPNet:ニューラルネットワークによる結晶構造予測

CRYSPNet: Crystal Structure Predictions via Neural Network ( http://arxiv.org/abs/2003.14328v1 )

ライセンス: Link先を確認
Haotong Liang, Valentin Stanev, A. Gilad Kusne, Ichiro Takeuchi(参考訳) 構造は結晶性固体の最も基本的かつ重要な性質であり、直接的または間接的にほとんどの材料特性を決定する。 しかし、固体の結晶構造を予測することは、恐ろしい問題であり、完全には解決されていない。 このタスクの標準的な理論ツールは計算コストが高く、時には不正確である。 本稿では,機械学習を用いた結晶構造予測手法を提案する。 本研究では,無機材料のブラベイ格子,空間群,格子パラメータを化学組成のみに基づいて予測できる結晶構造予測ネットワーク (cryspnet) というツールを開発した。 CRYSPNetは一連のニューラルネットワークモデルで構成され、化合物を構成する要素の特性を集約する入力予測器として使用される。 無機結晶構造データベースから10万以上のエントリをトレーニングし、検証した。 このツールは堅牢な予測能力を示し、代替戦略を大きなマージンで上回る。 https://github.com/AuroraLHT/cryspnetで公開されており、独立した予測エンジンや、さらなる計算および/または実験的検証のための候補構造を生成する方法として使用できる。

Structure is the most basic and important property of crystalline solids; it determines directly or indirectly most materials characteristics. However, predicting crystal structure of solids remains a formidable and not fully solved problem. Standard theoretical tools for this task are computationally expensive and at times inaccurate. Here we present an alternative approach utilizing machine learning for crystal structure prediction. We developed a tool called Crystal Structure Prediction Network (CRYSPNet) that can predict the Bravais lattice, space group, and lattice parameters of an inorganic material based only on its chemical composition. CRYSPNet consists of a series of neural network models, using as inputs predictors aggregating the properties of the elements constituting the compound. It was trained and validated on more than 100,000 entries from the Inorganic Crystal Structure Database. The tool demonstrates robust predictive capability and outperforms alternative strategies by a large margin. Made available to the public (at https://github.com/AuroraLHT/cryspnet), it can be used both as an independent prediction engine or as a method to generate candidate structures for further computational and/or experimental validation.
翻訳日:2022-12-18 01:42:32 公開日:2020-03-31
# 視点へ:テキストデータを用いた強化学習による高速転送ビデオ

Straight to the Point: Fast-forwarding Videos via Reinforcement Learning Using Textual Data ( http://arxiv.org/abs/2003.14229v1 )

ライセンス: Link先を確認
Washington Ramos, Michel Silva, Edson Araujo, Leandro Soriano Marcolino, Erickson Nascimento(参考訳) 公開されるビジュアルデータの量の増加とユーザの制限時間の増加により、同じ情報を伝達するより短いバージョンを生成するために、未編集の動画の処理が要求されるようになる。 要約法によって著しく進歩したにもかかわらず、ほとんどは数フレームまたはスキムしか選択できず、視覚的なギャップを生成し、ビデオのコンテキストを壊す。 本稿では,指導ビデオの高速化を目的とした強化学習の定式化に基づく新しい手法を提案する。 本手法では,最終映像のギャップを生じさせることなく,情報伝達に関係のないフレームを適応的に選択できる。 我々のエージェントはテキスト的かつ視覚的に、どのフレームを削除して入力ビデオを縮小するかを選択する。 さらに,視覚誘導型文書注意ネットワーク (vdan) と呼ばれる新しいネットワークを提案する。 本手法は,ビデオセグメントレベルでのf1スコアとカバレッジにおいて,最高の性能が得られることを示す。

The rapid increase in the amount of published visual data and the limited time of users bring the demand for processing untrimmed videos to produce shorter versions that convey the same information. Despite the remarkable progress that has been made by summarization methods, most of them can only select a few frames or skims, which creates visual gaps and breaks the video context. In this paper, we present a novel methodology based on a reinforcement learning formulation to accelerate instructional videos. Our approach can adaptively select frames that are not relevant to convey the information without creating gaps in the final video. Our agent is textually and visually oriented to select which frames to remove to shrink the input video. Additionally, we propose a novel network, called Visually-guided Document Attention Network (VDAN), able to generate a highly discriminative embedding space to represent both textual and visual data. Our experiments show that our method achieves the best performance in terms of F1 Score and coverage at the video segment level.
翻訳日:2022-12-18 01:35:12 公開日:2020-03-31
# SCT:Set Supervised Action Segmentationのための制約時間変換器

SCT: Set Constrained Temporal Transformer for Set Supervised Action Segmentation ( http://arxiv.org/abs/2003.14266v1 )

ライセンス: Link先を確認
Mohsen Fayyaz and Juergen Gall(参考訳) テンポラリアクションセグメンテーションは関心が高まる話題であるが、ビデオ内の各フレームに注釈をつけるのは面倒で費用がかかる。 したがって、弱教師付きアプローチは、弱ラベル付きビデオから時間的アクションセグメンテーションを学ぶことを目的としている。 本研究では、各トレーニングビデオに対して、ビデオ内で発生するアクションのリストのみを付与するが、いつ、いつ、どのくらいの頻度で、どの順序で発生するのかを仮定する。 この課題に対処するために,このようなデータに対してエンドツーエンドでトレーニング可能なアプローチを提案する。 このアプローチは、ビデオをより小さな時間領域に分割し、アクションラベルとその長さを各領域に予測する。 さらに、ネットワークは各フレームのアクションラベルを推定する。 フレームワイズ予測が時間領域と注釈付きアクションラベルに対してどの程度一致しているかを測定することにより、ビデオがクラス一貫性のある領域に分割されることを学ぶ。 提案手法は,最先端の結果が得られる3つのデータセットに対して評価する。

Temporal action segmentation is a topic of increasing interest, however, annotating each frame in a video is cumbersome and costly. Weakly supervised approaches therefore aim at learning temporal action segmentation from videos that are only weakly labeled. In this work, we assume that for each training video only the list of actions is given that occur in the video, but not when, how often, and in which order they occur. In order to address this task, we propose an approach that can be trained end-to-end on such data. The approach divides the video into smaller temporal regions and predicts for each region the action label and its length. In addition, the network estimates the action labels for each frame. By measuring how consistent the frame-wise predictions are with respect to the temporal regions and the annotated action labels, the network learns to divide a video into class-consistent regions. We evaluate our approach on three datasets where the approach achieves state-of-the-art results.
翻訳日:2022-12-18 01:34:37 公開日:2020-03-31
# ランドスケープルート:視覚・言語ナビゲーションにおける一般化の改善

Take the Scenic Route: Improving Generalization in Vision-and-Language Navigation ( http://arxiv.org/abs/2003.14269v1 )

ライセンス: Link先を確認
Felix Yu, Zhiwei Deng, Karthik Narasimhan, Olga Russakovsky(参考訳) Vision-and-Language Navigation (VLN)タスクでは、エゴセントリックな視覚を持つエージェントが自然言語の指示を受けた目的地にナビゲートする。 これらの命令を手動でアノテートする行為は、時間と費用がかかるため、エージェントのパフォーマンスを改善するために、既存の多くのアプローチが自動的に追加のサンプルを生成する。 しかし、これらのアプローチは、新しい環境にパフォーマンスを一般化するのは難しい。 本研究では、Room-to-Room (R2R) VLNベンチマークを調査し、重要なことは、合成するデータの量だけでなく、どのように処理するかを知る。 r2rベンチマークと既存の拡張法の両方で使用されている最短経路サンプリングは、我々がアクションプリエントとしてダビングするエージェントのアクションスペースのバイアスを符号化する。 次に、これらの行動優先が既存の作品の貧弱な一般化に対して一つの説明を与えることを示す。 このような先行を緩和するために,ランダムウォークに基づく経路サンプリング手法を提案する。 この拡張戦略によるトレーニングにより,本エージェントはベースラインと比較して未知の環境に適応し,プロセスのモデル性能を著しく向上させることができる。

In the Vision-and-Language Navigation (VLN) task, an agent with egocentric vision navigates to a destination given natural language instructions. The act of manually annotating these instructions is timely and expensive, such that many existing approaches automatically generate additional samples to improve agent performance. However, these approaches still have difficulty generalizing their performance to new environments. In this work, we investigate the popular Room-to-Room (R2R) VLN benchmark and discover that what is important is not only the amount of data you synthesize, but also how you do it. We find that shortest path sampling, which is used by both the R2R benchmark and existing augmentation methods, encode biases in the action space of the agent which we dub as action priors. We then show that these action priors offer one explanation toward the poor generalization of existing works. To mitigate such priors, we propose a path sampling method based on random walks to augment the data. By training with this augmentation strategy, our agent is able to generalize better to unknown environments compared to the baseline, significantly improving model performance in the process.
翻訳日:2022-12-18 01:34:21 公開日:2020-03-31
# Du$^2$Net:デュアルカメラとデュアルカメラによる深度推定学習

Du$^2$Net: Learning Depth Estimation from Dual-Cameras and Dual-Pixels ( http://arxiv.org/abs/2003.14299v1 )

ライセンス: Link先を確認
Yinda Zhang, Neal Wadhwa, Sergio Orts-Escolano, Christian H\"ane, Sean Fanello, and Rahul Garg(参考訳) 計算ステレオは高い精度に達したが、オクルージョン、繰り返しのテクスチャ、エッジに沿った対応エラーの存在で劣化する。 本稿では,デュアルカメラからのステレオとデュアルピクセルセンサからのステレオを組み合わせた深度推定のためのニューラルネットに基づく新しいアプローチを提案する。 我々のネットワークは、これらの2つの情報ソースを融合させる新しいアーキテクチャを使用し、上記の純粋な双眼ステレオマッチングの制限を克服することができる。 本手法は鋭いエッジを持つ濃密な深度マップを提供するため,合成浅層写真や3d写真などの計算写真アプリケーションにおいて重要である。 さらに,デュアルピクセルベースラインと直交するステレオベースラインを設計することにより,ステレオカメラの開口問題による固有の曖昧さを回避する。 本稿では,最新の手法との比較を行った結果,従来の手法よりも大幅に改善できることを示す。

Computational stereo has reached a high level of accuracy, but degrades in the presence of occlusions, repeated textures, and correspondence errors along edges. We present a novel approach based on neural networks for depth estimation that combines stereo from dual cameras with stereo from a dual-pixel sensor, which is increasingly common on consumer cameras. Our network uses a novel architecture to fuse these two sources of information and can overcome the above-mentioned limitations of pure binocular stereo matching. Our method provides a dense depth map with sharp edges, which is crucial for computational photography applications like synthetic shallow-depth-of-field or 3D Photos. Additionally, we avoid the inherent ambiguity due to the aperture problem in stereo cameras by designing the stereo baseline to be orthogonal to the dual-pixel baseline. We present experiments and comparisons with state-of-the-art approaches to show that our method offers a substantial improvement over previous works.
翻訳日:2022-12-18 01:34:02 公開日:2020-03-31
# 確率的画素適応リファインメントネットワーク

Probabilistic Pixel-Adaptive Refinement Networks ( http://arxiv.org/abs/2003.14407v1 )

ライセンス: Link先を確認
Anne S. Wannenwetsch, Stefan Roth(参考訳) エンコーダ・デコーダネットワークは様々な密集予測タスクで広く利用されている。 しかし、エンコーダにおける空間分解能の強い低下により、位置情報や境界アーチファクトが失われる。 これを解決するために、高解像度の入力画像をガイダンスデータとして活用することで、画像適応型後処理法が有用であることを示す。 このようなアプローチは、ネットワークが自身の予測に自信を持つという、情報の重要な直交源を考えることで拡張する。 我々は,画像誘導データに頼らず,画素ごとの予測の信頼性を尊重する確率的画素適応畳み込み(PPAC)を導入する。 そのため、PPACは、オブジェクト境界を尊重しながら、高信頼の画素を信頼性の低い領域に同時に伝播する。 PPACが境界アーチファクトの明確化につながるような,光フローとセマンティックセグメンテーションのための精細化ネットワークにおいて,その実用性を実証する。 さらに,提案手法により,様々なベンチマークの精度を大幅に向上させることができる。

Encoder-decoder networks have found widespread use in various dense prediction tasks. However, the strong reduction of spatial resolution in the encoder leads to a loss of location information as well as boundary artifacts. To address this, image-adaptive post-processing methods have shown beneficial by leveraging the high-resolution input image(s) as guidance data. We extend such approaches by considering an important orthogonal source of information: the network's confidence in its own predictions. We introduce probabilistic pixel-adaptive convolutions (PPACs), which not only depend on image guidance data for filtering, but also respect the reliability of per-pixel predictions. As such, PPACs allow for image-adaptive smoothing and simultaneously propagating pixels of high confidence into less reliable regions, while respecting object boundaries. We demonstrate their utility in refinement networks for optical flow and semantic segmentation, where PPACs lead to a clear reduction in boundary artifacts. Moreover, our proposed refinement step is able to substantially improve the accuracy on various widely used benchmarks.
翻訳日:2022-12-18 01:33:07 公開日:2020-03-31
# HOPE-Net:手動姿勢推定のためのグラフベースモデル

HOPE-Net: A Graph-based Model for Hand-Object Pose Estimation ( http://arxiv.org/abs/2004.00060v1 )

ライセンス: Link先を確認
Bardia Doosti, Shujon Naha, Majid Mirbagheri, David Crandall(参考訳) ハンドオブジェクトポーズ推定(hope)は、手と保持対象の両方のポーズを共同検出することを目的としている。 本稿では,2次元と3次元の同時ポーズをリアルタイムに推定するHOPE-Netという軽量モデルを提案する。 我々のネットワークは2つの適応グラフ畳み込みニューラルネットワークのカスケードを用いており、1つは手関節と物体角の2D座標を推定し、もう1つは2D座標を3Dに変換する。 実験により,全ネットワークのエンドツーエンドトレーニングにより,2次元および3次元座標推定問題の精度が向上することを示した。 提案した2D-3Dグラフ畳み込みモデルは他の3Dランドマーク検出問題に適用でき、まず2Dキーポイントを予測し、3Dに変換することができる。

Hand-object pose estimation (HOPE) aims to jointly detect the poses of both a hand and of a held object. In this paper, we propose a lightweight model called HOPE-Net which jointly estimates hand and object pose in 2D and 3D in real-time. Our network uses a cascade of two adaptive graph convolutional neural networks, one to estimate 2D coordinates of the hand joints and object corners, followed by another to convert 2D coordinates to 3D. Our experiments show that through end-to-end training of the full network, we achieve better accuracy for both the 2D and 3D coordinate estimation problems. The proposed 2D to 3D graph convolution-based model could be applied to other 3D landmark detection problems, where it is possible to first predict the 2D keypoints and then transform them to 3D.
翻訳日:2022-12-18 01:32:27 公開日:2020-03-31
# クラス類似度制御によるファウショット活動検出の再検討

Revisiting Few-shot Activity Detection with Class Similarity Control ( http://arxiv.org/abs/2004.00137v1 )

ライセンス: Link先を確認
Huijuan Xu, Ximeng Sun, Eric Tzeng, Abir Das, Kate Saenko, Trevor Darrell(参考訳) 実世界の多くの興味深いイベントは、プレアノテートされた機械学習の準備が整ったビデオを希少なものにしている。 したがって、いくつかの例から学習可能な時間的活動検出モデルが望ましい。 本稿では,提案手法を応用し,ビデオの開始時刻と終了時刻を推定する提案回帰に基づく,概念的にシンプルで汎用的で斬新な時間的活動検出フレームワークを提案する。 私たちのモデルはエンドツーエンドのトレーニングが可能で、数ショットのアクティビティと未トリミングなテストビデオのフレームレートの違いを考慮しています。 本稿では,時間的活動検出のための大規模な3つのベンチマーク(ActivityNet1.2,ActivityNet1.3,THUMOS14データセット)を,数ショットで実験する。 また,映像分類のバックボーンの事前学習に用いた活動と異なるオーバーラップの効果について検討し,この領域における今後の作業の補正手法を提案する。 私たちのコードは利用可能になります。

Many interesting events in the real world are rare making preannotated machine learning ready videos a rarity in consequence. Thus, temporal activity detection models that are able to learn from a few examples are desirable. In this paper, we present a conceptually simple and general yet novel framework for few-shot temporal activity detection based on proposal regression which detects the start and end time of the activities in untrimmed videos. Our model is end-to-end trainable, takes into account the frame rate differences between few-shot activities and untrimmed test videos, and can benefit from additional few-shot examples. We experiment on three large scale benchmarks for temporal activity detection (ActivityNet1.2, ActivityNet1.3 and THUMOS14 datasets) in a few-shot setting. We also study the effect on performance of different amount of overlap with activities used to pretrain the video classification backbone and propose corrective measures for future works in this domain. Our code will be made available.
翻訳日:2022-12-18 01:32:11 公開日:2020-03-31
# 半教師構造による3次元スケッチ対応セマンティックシーン補完

3D Sketch-aware Semantic Scene Completion via Semi-supervised Structure Prior ( http://arxiv.org/abs/2003.14052v1 )

ライセンス: Link先を確認
Xiaokang Chen, Kwan-Yee Lin, Chen Qian, Gang Zeng and Hongsheng Li(参考訳) セマンティック・シーン・コンプリート(SSC)タスクの目標は、単一視点で観察することで、ボリューム占有率とシーン内のオブジェクトの意味ラベルの完全な3Dボクセル表現を同時に予測することである。 計算コストは一般的にvoxel分解能の成長とともに爆発的に増加するため、現在の最先端技術では、詳細な予測を犠牲にして、フレームワークを低解像度表現に調整する必要がある。 したがって、voxel解決はパフォーマンスボトルネックにつながる重要な課題の1つとなる。 本稿では,低解像度のボクセル表現で奥行き情報を埋め込む新たな幾何学的手法を提案する。部屋のレイアウトや物体の大きさ,形状など,十分な幾何学的情報をエンコードして,よく構造保存されたディテールでシーンの見えない領域を推測することができる。 そこで我々はまず,幾何学的情報を効果的かつ効率的にエンコードするための3Dスケッチ認識機能埋め込みを提案する。 さらに,この3次元スケッチを手掛けて,半教師構造事前学習戦略による占有率と意味ラベルの推論を導く軽量3次元スケッチ幻覚モジュールを組み込んだ,単純かつ効果的な意味シーン補完フレームワークを考案した。 提案手法は,SSCフレームワークからの深度特徴学習よりも,幾何埋め込みが有効であることを示す。 最終モデルは3つの公開ベンチマークで常に最先端を越え、入力と出力の両方に60 x 36 x 60の3Dボリュームしか必要としない。 コードと補足資料はhttps://charlescxk.github.ioで入手できる。

The goal of the Semantic Scene Completion (SSC) task is to simultaneously predict a completed 3D voxel representation of volumetric occupancy and semantic labels of objects in the scene from a single-view observation. Since the computational cost generally increases explosively along with the growth of voxel resolution, most current state-of-the-arts have to tailor their framework into a low-resolution representation with the sacrifice of detail prediction. Thus, voxel resolution becomes one of the crucial difficulties that lead to the performance bottleneck. In this paper, we propose to devise a new geometry-based strategy to embed depth information with low-resolution voxel representation, which could still be able to encode sufficient geometric information, e.g., room layout, object's sizes and shapes, to infer the invisible areas of the scene with well structure-preserving details. To this end, we first propose a novel 3D sketch-aware feature embedding to explicitly encode geometric information effectively and efficiently. With the 3D sketch in hand, we further devise a simple yet effective semantic scene completion framework that incorporates a light-weight 3D Sketch Hallucination module to guide the inference of occupancy and the semantic labels via a semi-supervised structure prior learning strategy. We demonstrate that our proposed geometric embedding works better than the depth feature learning from habitual SSC frameworks. Our final model surpasses state-of-the-arts consistently on three public benchmarks, which only requires 3D volumes of 60 x 36 x 60 resolution for both input and output. The code and the supplementary material will be available at https://charlesCXK.github.io.
翻訳日:2022-12-18 01:27:01 公開日:2020-03-31
# 映像動作検出のための長期短期関係ネットワーク

Long Short-Term Relation Networks for Video Action Detection ( http://arxiv.org/abs/2003.14065v1 )

ライセンス: Link先を確認
Dong Li and Ting Yao and Zhaofan Qiu and Houqiang Li and Tao Mei(参考訳) ヒューマン・オブジェクトあるいはオブジェクト・オブジェクト関係のモデリングが検出タスクに役立つことはよく認識されている。 とはいえ、人間のアクター、オブジェクト、シーン(人間コンテキスト)間の相互作用を探索し、ビデオアクション検出器を増強する場合には、特に問題となる。 この難しさは、ビデオ内の信頼できる関係は、ビデオの短期的人間-文脈関係だけでなく、ビデオの長期にわたって蒸留された時間的ダイナミクスにも依存すべきという側面から生じる。 これは、ビデオの中の短期的および長期的関係を捉える動機となります。 本稿では,ビデオ行動検出のための拡張機能と関連性を新たに集約し,伝播するLSTRと呼ばれる,Long Short-Term Relation Networksを提案する。 技術的には、地域提案ネットワーク(RPN)は、まずビデオクリップ毎に3Dバウンディングボックス、すなわちチューブレットを生成するように再変換される。 次にLSTRは、空間的注意機構を通じて各クリップ内の短期的人間-コンテキスト相互作用をモデル化し、グラフ畳み込みネットワーク(GCN)を介してビデオクリップ間の長期的時間的ダイナミクスをケースドライズする。 4つのベンチマークデータセットで大規模な実験を行い、最先端の手法と比較して優れた結果を報告する。

It has been well recognized that modeling human-object or object-object relations would be helpful for detection task. Nevertheless, the problem is not trivial especially when exploring the interactions between human actor, object and scene (collectively as human-context) to boost video action detectors. The difficulty originates from the aspect that reliable relations in a video should depend on not only short-term human-context relation in the present clip but also the temporal dynamics distilled over a long-range span of the video. This motivates us to capture both short-term and long-term relations in a video. In this paper, we present a new Long Short-Term Relation Networks, dubbed as LSTR, that novelly aggregates and propagates relation to augment features for video action detection. Technically, Region Proposal Networks (RPN) is remoulded to first produce 3D bounding boxes, i.e., tubelets, in each video clip. LSTR then models short-term human-context interactions within each clip through spatio-temporal attention mechanism and reasons long-term temporal dynamics across video clips via Graph Convolutional Networks (GCN) in a cascaded manner. Extensive experiments are conducted on four benchmark datasets, and superior results are reported when comparing to state-of-the-art methods.
翻訳日:2022-12-18 01:26:32 公開日:2020-03-31
# 画像キャプションのためのX線注意ネットワーク

X-Linear Attention Networks for Image Captioning ( http://arxiv.org/abs/2003.14080v1 )

ライセンス: Link先を確認
Yingwei Pan and Ting Yao and Yehao Li and Tao Mei(参考訳) きめ細かい視覚認識と視覚的質問応答に関する最近の進歩は、マルチモーダル入力間の2$^{nd}$の相互作用を効果的にモデル化する双線形プーリングを特徴としている。 それでも、画像キャプションの注意機構と同時にこのようなインタラクションを構築することを支持する証拠は存在しない。 本稿では,視覚情報を利用したり,マルチモーダル推論を行ったりするために,バイリニアプールを完全に活用した統一型アテンションブロック-X-Linearアテンションブロックを提案する。 技術的には、X-Linearアテンションブロックは、空間的およびチャネル的バイ線形アテンション分布の両方を同時に利用し、入力されたシングルモーダルまたはマルチモーダル特徴間の2$^{nd}$オーダー相互作用をキャプチャする。 高次および無限次特徴相互作用は、複数のx線注意ブロックを積み重ね、そのブロックに指数線形単位(elu)をパラメータフリーで装備することで容易にモデル化される。 さらに,画像キャプションモデルの画像エンコーダと文デコーダに,X-Linear attention block(s)を新たに統合したX-Linear Attention Networks(X-LAN)を提案する。 COCOベンチマーク実験により,COCOカルパチーテストのスプリットにおいて,我々のX-LANが132.0%の最高のCIDEr性能が得られることが示された。 トランスフォーマーにX線アテンションブロックを加えると、CIDErは132.8%まで上昇する。 ソースコードは \url{https://github.com/panda-peter/image-captioning} で入手できる。

Recent progress on fine-grained visual recognition and visual question answering has featured Bilinear Pooling, which effectively models the 2$^{nd}$ order interactions across multi-modal inputs. Nevertheless, there has not been evidence in support of building such interactions concurrently with attention mechanism for image captioning. In this paper, we introduce a unified attention block -- X-Linear attention block, that fully employs bilinear pooling to selectively capitalize on visual information or perform multi-modal reasoning. Technically, X-Linear attention block simultaneously exploits both the spatial and channel-wise bilinear attention distributions to capture the 2$^{nd}$ order interactions between the input single-modal or multi-modal features. Higher and even infinity order feature interactions are readily modeled through stacking multiple X-Linear attention blocks and equipping the block with Exponential Linear Unit (ELU) in a parameter-free fashion, respectively. Furthermore, we present X-Linear Attention Networks (dubbed as X-LAN) that novelly integrates X-Linear attention block(s) into image encoder and sentence decoder of image captioning model to leverage higher order intra- and inter-modal interactions. The experiments on COCO benchmark demonstrate that our X-LAN obtains to-date the best published CIDEr performance of 132.0% on COCO Karpathy test split. When further endowing Transformer with X-Linear attention blocks, CIDEr is boosted up to 132.8%. Source code is available at \url{https://github.com/Panda-Peter/image-captioning}.
翻訳日:2022-12-18 01:26:10 公開日:2020-03-31
# トランスダクティブゼロショット学習のためのクロスドメインセマンティクス・ビジュアル関係の学習

Learning Cross-domain Semantic-Visual Relation for Transductive Zero-Shot Learning ( http://arxiv.org/abs/2003.14105v1 )

ライセンス: Link先を確認
Jianyang Zhang, Fengmao Lv, Guowu Yang, Lei Feng, Yufeng Yu, Lixin Duan(参考訳) Zero-Shot Learning (ZSL)は、ラベル付きデータなしで新しいクラスを認識するための認識モデルを学ぶことを目的としている。 本研究では,トランスダクティブZSLにおけるクロスカテゴリ転送を容易にするために,Transferable Semantic-Visual Relation (TSVR) と呼ばれる新しい手法を提案する。 我々のアプローチは、ドメイン適応とゼロショット学習という2つの課題を結びつける興味深い洞察に基づく。 ドメイン適応は、同じタスク/ラベル空間を共有する2つの異なるドメイン(すなわち、ソースドメインとターゲットドメイン)にまたがる知識の転送を目的としています。 ZSLの場合、ソースとターゲットドメインは異なるタスク/ラベル空間を持つ。 したがって、ZSLは通常、ドメイン適応よりも難しい転送設定と見なされる。 既存のZSLアプローチでは、ソースドメインとターゲットドメインをブリッジするためにカテゴリのセマンティック属性を使用しているが、異なるカテゴリ間の大きなドメインギャップのため、そのパフォーマンスは満足できない。 対照的に、本手法はZSLをドメイン適応タスクに変換し、ZSLを意味的属性と視覚的特徴のペアの類似性/相似性ラベルとして再描画する。 この再帰的ドメイン適応問題に対して,我々は,セマンティクスとビジュアルのペアのドメイン間差異を減らすために,ドメイン固有のバッチ正規化コンポーネントを使うよう提案する。 種々のZSLベンチマークに対する実験結果から,本手法の優位性が明らかとなった。

Zero-Shot Learning (ZSL) aims to learn recognition models for recognizing new classes without labeled data. In this work, we propose a novel approach dubbed Transferrable Semantic-Visual Relation (TSVR) to facilitate the cross-category transfer in transductive ZSL. Our approach draws on an intriguing insight connecting two challenging problems, i.e. domain adaptation and zero-shot learning. Domain adaptation aims to transfer knowledge across two different domains (i.e., source domain and target domain) that share the identical task/label space. For ZSL, the source and target domains have different tasks/label spaces. Hence, ZSL is usually considered as a more difficult transfer setting compared with domain adaptation. Although the existing ZSL approaches use semantic attributes of categories to bridge the source and target domains, their performances are far from satisfactory due to the large domain gap between different categories. In contrast, our method directly transforms ZSL into a domain adaptation task through redrawing ZSL as predicting the similarity/dissimilarity labels for the pairs of semantic attributes and visual features. For this redrawn domain adaptation problem, we propose to use a domain-specific batch normalization component to reduce the domain discrepancy of semantic-visual pairs. Experimental results over diverse ZSL benchmarks clearly demonstrate the superiority of our method.
翻訳日:2022-12-18 01:25:40 公開日:2020-03-31
# スポーツ分野におけるリアルタイムカメラポーズ推定

Real-Time Camera Pose Estimation for Sports Fields ( http://arxiv.org/abs/2003.14109v1 )

ライセンス: Link先を確認
Leonardo Citraro, Pablo M\'arquez-Neila, Stefano Savar\`e, Vivek Jayaram, Charles Dubout, F\'elix Renaut, Andr\'es Hasfura, Horesh Ben Shitrit, Pascal Fua(参考訳) スマートフォン等の移動及び非対応カメラで撮影されたスポーツフィールドの一部を特徴とする画像シーケンスを考えると、カメラの位置及び向きの事前知識を使わずに、シーケンス内の各画像の焦点距離及び外部カメラパラメータをリアルタイムに自動計算することが目的である。 そこで本研究では,画像中の特定のキーポイントの正確な局所化とロバストな識別を,完全な畳み込み深層構造を用いて組み合わせた新しいフレームワークを提案する。 このアルゴリズムは, フィールドラインとプレーヤのイメージ位置の両方を利用して, グランドプレーンの位置が与えられることを想定し, 精度とロバスト性を実現している。 我々は,サッカー,バスケットボール,バレーボールのベンチマークデータセットに対して,その効果を示す。

Given an image sequence featuring a portion of a sports field filmed by a moving and uncalibrated camera, such as the one of the smartphones, our goal is to compute automatically in real time the focal length and extrinsic camera parameters for each image in the sequence without using a priori knowledges of the position and orientation of the camera. To this end, we propose a novel framework that combines accurate localization and robust identification of specific keypoints in the image by using a fully convolutional deep architecture. Our algorithm exploits both the field lines and the players' image locations, assuming their ground plane positions to be given, to achieve accuracy and robustness that is beyond the current state of the art. We will demonstrate its effectiveness on challenging soccer, basketball, and volleyball benchmark datasets.
翻訳日:2022-12-18 01:25:15 公開日:2020-03-31
# look-into-object:オブジェクト認識のための自己教師付き構造モデリング

Look-into-Object: Self-supervised Structure Modeling for Object Recognition ( http://arxiv.org/abs/2003.14142v1 )

ライセンス: Link先を確認
Mohan Zhou, Yalong Bai, Wei Zhang, Tiejun Zhao, Tao Mei(参考訳) ほとんどのオブジェクト認識アプローチは、概観的なオブジェクト構造を見落としながら、識別的なビジュアルパターンの学習に重点を置いている。 重要ではあるが、構造モデリングは通常、重要な手動アノテーションを必要とし、従って労働集約的である。 本稿では,従来の枠組みに自己監督を組み込んだ「対象」(具体的ながら本質的にオブジェクト構造をモデル化する)を提案する。 アノテーションや推論速度を犠牲にすることなく、より堅牢な表現学習を実現するために、認識バックボーンを大幅に拡張できることを示す。 具体的には、まず、同じカテゴリのインスタンス間で共有される視覚パターンに応じてオブジェクトをローカライズするオブジェクト-既存学習モジュールを提案する。 次に,対象の内部構造をモデル化するための空間的コンテキスト学習モジュールを,その範囲内の相対的な位置を予測して設計する。 これら2つのモジュールはトレーニング中にバックボーンネットワークに簡単に接続でき、推論時に分離することができる。 汎用オブジェクト認識(ImageNet)や細粒度オブジェクト認識タスク(CUB, Cars, Aircraft)など,多数のベンチマークにおいて,我々のルック・イン・オブジェクト・アプローチ(LIO)が大きなパフォーマンス向上を実現していることを示す。 また、この学習パラダイムは、オブジェクト検出やセグメンテーション(MS COCO)といった他のタスクに対して非常に一般化可能であることも示している。 プロジェクトページ: https://github.com/jdai-cv/lio。

Most object recognition approaches predominantly focus on learning discriminative visual patterns while overlooking the holistic object structure. Though important, structure modeling usually requires significant manual annotations and therefore is labor-intensive. In this paper, we propose to "look into object" (explicitly yet intrinsically model the object structure) through incorporating self-supervisions into the traditional framework. We show the recognition backbone can be substantially enhanced for more robust representation learning, without any cost of extra annotation and inference speed. Specifically, we first propose an object-extent learning module for localizing the object according to the visual patterns shared among the instances in the same category. We then design a spatial context learning module for modeling the internal structures of the object, through predicting the relative positions within the extent. These two modules can be easily plugged into any backbone networks during training and detached at inference time. Extensive experiments show that our look-into-object approach (LIO) achieves large performance gain on a number of benchmarks, including generic object recognition (ImageNet) and fine-grained object recognition tasks (CUB, Cars, Aircraft). We also show that this learning paradigm is highly generalizable to other tasks such as object detection and segmentation (MS COCO). Project page: https://github.com/JDAI-CV/LIO.
翻訳日:2022-12-18 01:24:35 公開日:2020-03-31
# auto depth,downsampling joint decision, feature aggregationによるリアルタイム意味セグメンテーション

Real-Time Semantic Segmentation via Auto Depth, Downsampling Joint Decision and Feature Aggregation ( http://arxiv.org/abs/2003.14226v1 )

ライセンス: Link先を確認
Peng Sun, Jiaxiang Wu, Songyuan Li, Peiwen Lin, Junzhou Huang, and Xi Li(参考訳) リアルタイムセマンティックセグメンテーションの分野における計算資源の厳密な要求を満たすため、ほとんどのアプローチは軽量セグメンテーションネットワークの手作り設計に焦点を当てている。 近年,ニューラルネットワークサーチ (NAS) は,ネットワークの最適構築ブロックの自動探索に使用されているが,ネットワーク深度,ダウンサンプリング戦略,機能集約方法は,まだ試行錯誤によって事前に設定されている。 本稿では,これらの戦略の設計を自動化するための共同検索フレームワークであるAutoRTNetを提案する。 具体的には,ネットワークの深さとダウンサンプリング戦略を共同で決定するハイパーセルと,マルチスケールの自動集約を実現する集約セルを提案する。 実験の結果、autortnet は cityscapes テストセットで73.9% miou、nvidia titanxp gpu カードで 768x1536 の入力イメージで 110.0 fps を達成した。

To satisfy the stringent requirements on computational resources in the field of real-time semantic segmentation, most approaches focus on the hand-crafted design of light-weight segmentation networks. Recently, Neural Architecture Search (NAS) has been used to search for the optimal building blocks of networks automatically, but the network depth, downsampling strategy, and feature aggregation way are still set in advance by trial and error. In this paper, we propose a joint search framework, called AutoRTNet, to automate the design of these strategies. Specifically, we propose hyper-cells to jointly decide the network depth and downsampling strategy, and an aggregation cell to achieve automatic multi-scale feature aggregation. Experimental results show that AutoRTNet achieves 73.9% mIoU on the Cityscapes test set and 110.0 FPS on an NVIDIA TitanXP GPU card with 768x1536 input images.
翻訳日:2022-12-18 01:23:24 公開日:2020-03-31
# ニューラルネットワークは人間よりも生産的な教師である:Blackboxモデルによるデータ効率の良い知識蒸留のためのアクティブな混合

Neural Networks Are More Productive Teachers Than Human Raters: Active Mixup for Data-Efficient Knowledge Distillation from a Blackbox Model ( http://arxiv.org/abs/2003.13960v1 )

ライセンス: Link先を確認
Dongdong Wang, Yandong Li, Liqiang Wang, Boqing Gong(参考訳) 我々は,ブラックボックス教師モデルから知識を抽出し,学生の深層ニューラルネットワークを視覚認識のために訓練する方法を研究する。 この問題の進展は、高性能な視覚認識モデルを学ぶための大規模データセットへの依存を著しく減少させる。 主な課題は2つある。 ひとつは,教師モデルへのクエリ数を最小限に抑えることで,計算コストや財務コストを削減できる,ということです。 もうひとつは、知識蒸留に使用する画像の数は少なく、そうでなければ、大規模データセットへの依存を減らすという私たちの期待に反しています。 これらの課題に取り組むために,我々はミックスアップとアクティブラーニングを融合したアプローチを提案する。 前者は、元の画像の凸殻から採取された大きな合成画像のプールによって、少数の未ラベル画像を効果的に増強し、後者は、学生ニューラルネットワークのプールハード例から積極的に選択し、教師モデルからラベルをクエリする。 我々は幅広い実験でアプローチを検証する。

We study how to train a student deep neural network for visual recognition by distilling knowledge from a blackbox teacher model in a data-efficient manner. Progress on this problem can significantly reduce the dependence on large-scale datasets for learning high-performing visual recognition models. There are two major challenges. One is that the number of queries into the teacher model should be minimized to save computational and/or financial costs. The other is that the number of images used for the knowledge distillation should be small; otherwise, it violates our expectation of reducing the dependence on large-scale datasets. To tackle these challenges, we propose an approach that blends mixup and active learning. The former effectively augments the few unlabeled images by a big pool of synthetic images sampled from the convex hull of the original images, and the latter actively chooses from the pool hard examples for the student neural network and query their labels from the teacher model. We validate our approach with extensive experiments.
翻訳日:2022-12-18 01:16:24 公開日:2020-03-31
# 視覚とシーンテキストの同時推論のためのマルチモーダルグラフニューラルネットワーク

Multi-Modal Graph Neural Network for Joint Reasoning on Vision and Scene Text ( http://arxiv.org/abs/2003.13962v1 )

ライセンス: Link先を確認
Difei Gao, Ke Li, Ruiping Wang, Shiguang Shan, Xilin Chen(参考訳) 画像中のテキストを読む必要がある質問への答えは、現在のモデルでは難しい。 この課題の重要な難しさの一つは、稀で多義的で曖昧な言葉が、場所、製品、スポーツチームの名前など画像にしばしば現れることである。 この困難を克服するために、事前訓練された単語埋め込みモデルに頼るだけでは十分ではない。 所望のモデルは、画像の複数のモダリティでリッチな情報を活用して、シーンテキストの意味を理解するのに役立つべきである。 本稿では,新しいVQAアプローチであるMulti-Modal Graph Neural Network (MM-GNN)を提案する。 まず、画像を3つのサブグラフからなるグラフとして表現し、それぞれ視覚的、意味的、数値的モダリティを描写する。 そこで,3つのアグリゲータを導入して,あるグラフから別のグラフへのメッセージ転送を誘導し,そのコンテキストを様々なモードで利用し,ノードの特徴を洗練させる。 更新されたノードは、下流の質問応答モジュールよりも優れた機能を備えている。 実験により,本手法はシーンテキストをより良く表現し,シーンテキストの読解を必要とする2つのVQAタスクの実行を容易にすることが示された。

Answering questions that require reading texts in an image is challenging for current models. One key difficulty of this task is that rare, polysemous, and ambiguous words frequently appear in images, e.g., names of places, products, and sports teams. To overcome this difficulty, only resorting to pre-trained word embedding models is far from enough. A desired model should utilize the rich information in multiple modalities of the image to help understand the meaning of scene texts, e.g., the prominent text on a bottle is most likely to be the brand. Following this idea, we propose a novel VQA approach, Multi-Modal Graph Neural Network (MM-GNN). It first represents an image as a graph consisting of three sub-graphs, depicting visual, semantic, and numeric modalities respectively. Then, we introduce three aggregators which guide the message passing from one graph to another to utilize the contexts in various modalities, so as to refine the features of nodes. The updated nodes have better features for the downstream question answering module. Experimental evaluations show that our MM-GNN represents the scene texts better and obviously facilitates the performances on two VQA tasks that require reading scene texts.
翻訳日:2022-12-18 01:16:06 公開日:2020-03-31
# DeepLPF:画像強調のための深部パラメトリックフィルタ

DeepLPF: Deep Local Parametric Filters for Image Enhancement ( http://arxiv.org/abs/2003.13985v1 )

ライセンス: Link先を確認
Sean Moran, Pierre Marza, Steven McDonagh, Sarah Parisot, Gregory Slabaugh(参考訳) デジタルアーティストはしばしば手作業による手作業によるデジタル写真の美的品質を向上させる。 グローバルな調整以外にも、プロのイメージ編集プログラムは、画像の特定の部分で動作するローカルな調整ツールを提供する。 オプションにはパラメトリック(卒業生、ラジアルフィルター)と非拘束のブラシツールがある。 これらの表現力の高いツールは、多様なローカル画像拡張を可能にする。 しかし、彼らの使用は時間がかかり、芸術的能力を必要とする。 最先端の自動化画像強調アプローチは、通常、ピクセルレベルの学習やグローバルな拡張に重点を置いている。 前者はノイズがあり、解釈性に欠けるが、後者は細かな調整を捉えることができない。 本稿では,3種類の空間的局所フィルタ(楕円フィルタ,累進フィルタ,多項式フィルタ)を用いて,画像の自動強調手法を提案する。 深部局所パラメトリックフィルタ(deep local parametric filter, deeplpf)と呼ばれる深部ニューラルネットワークを導入する。 deeplpfはモデル正規化の自然な形式を提供し、視覚的に楽しい結果につながる解釈可能で直感的な調整を可能にする。 我々は、複数のベンチマークを報告し、DeepLPFがMIT-Adobe-5Kデータセットの2つの変種に対して、競合するメソッドに必要なパラメータのごく一部を使用して、最先端のパフォーマンスを生成することを示す。

Digital artists often improve the aesthetic quality of digital photographs through manual retouching. Beyond global adjustments, professional image editing programs provide local adjustment tools operating on specific parts of an image. Options include parametric (graduated, radial filters) and unconstrained brush tools. These highly expressive tools enable a diverse set of local image enhancements. However, their use can be time consuming, and requires artistic capability. State-of-the-art automated image enhancement approaches typically focus on learning pixel-level or global enhancements. The former can be noisy and lack interpretability, while the latter can fail to capture fine-grained adjustments. In this paper, we introduce a novel approach to automatically enhance images using learned spatially local filters of three different types (Elliptical Filter, Graduated Filter, Polynomial Filter). We introduce a deep neural network, dubbed Deep Local Parametric Filters (DeepLPF), which regresses the parameters of these spatially localized filters that are then automatically applied to enhance the image. DeepLPF provides a natural form of model regularization and enables interpretable, intuitive adjustments that lead to visually pleasing results. We report on multiple benchmarks and show that DeepLPF produces state-of-the-art performance on two variants of the MIT-Adobe-5K dataset, often using a fraction of the parameters required for competing methods.
翻訳日:2022-12-18 01:15:46 公開日:2020-03-31
# インタラクションポイントを用いた物体間インタラクション検出の学習

Learning Human-Object Interaction Detection using Interaction Points ( http://arxiv.org/abs/2003.14023v1 )

ライセンス: Link先を確認
Tiancai Wang and Tong Yang and Martin Danelljan and Fahad Shahbaz Khan and Xiangyu Zhang and Jian Sun(参考訳) 人間と物体の相互作用を理解することは、視覚分類における根本的な問題の一つであり、詳細なシーン理解への重要なステップである。 human-object interaction (hoi) 検出は、人間と物体の両方の局所化と、それらの間の複雑な相互作用の同定を試みている。 既存のHOI検出手法の多くは、外見の特徴と粗い空間情報に基づいて、可能なすべてのオブジェクト対間の相互作用を予測するインスタンス中心である。 外観だけでは複雑な人間と物体の相互作用を捉えるには不十分である。 そこで本研究では,人間と物体の相互作用を直接検出する完全畳み込み手法を提案する。 ネットワークはインタラクションポイントを予測し、その相互作用を直接ローカライズし、分類する。 密接な予測された相互作用ベクトルにより、相互作用は人間と物体の検出と関連付けられ、最終的な予測が得られる。 我々の知る限りでは、HOI検出をキーポイント検出およびグループ化問題として提示するアプローチを最初に提案する。 V-COCOとHICO-DETの2つの人気のあるベンチマークで実験が行われる。 このアプローチは、両方のデータセットに新しい最先端を設定します。 コードはhttps://github.com/vaesl/IP-Netで入手できる。

Understanding interactions between humans and objects is one of the fundamental problems in visual classification and an essential step towards detailed scene understanding. Human-object interaction (HOI) detection strives to localize both the human and an object as well as the identification of complex interactions between them. Most existing HOI detection approaches are instance-centric where interactions between all possible human-object pairs are predicted based on appearance features and coarse spatial information. We argue that appearance features alone are insufficient to capture complex human-object interactions. In this paper, we therefore propose a novel fully-convolutional approach that directly detects the interactions between human-object pairs. Our network predicts interaction points, which directly localize and classify the inter-action. Paired with the densely predicted interaction vectors, the interactions are associated with human and object detections to obtain final predictions. To the best of our knowledge, we are the first to propose an approach where HOI detection is posed as a keypoint detection and grouping problem. Experiments are performed on two popular benchmarks: V-COCO and HICO-DET. Our approach sets a new state-of-the-art on both datasets. Code is available at https://github.com/vaesl/IP-Net.
翻訳日:2022-12-18 01:15:03 公開日:2020-03-31
# BANet:Occlusion Handling for Panoptic Segmentation による双方向アグリゲーションネットワーク

BANet: Bidirectional Aggregation Network with Occlusion Handling for Panoptic Segmentation ( http://arxiv.org/abs/2003.14031v1 )

ライセンス: Link先を確認
Yifeng Chen, Guangchen Lin, Songyuan Li, Bourahla Omar, Yiming Wu, Fangfang Wang, Junyi Feng, Mingliang Xu, and Xi Li(参考訳) panoptic segmentationは,前景インスタンスのインスタンスセグメンテーションとバックグラウンド項目のセマンティックセグメンテーションを同時に実施することを目的としている。 典型的なトップダウンパイプラインは2つの主要な問題に集中している。 1)意味セグメンテーションとインスタンスセグメンテーション間の内在的な相互作用を効果的にモデル化する方法 2)汎視的セグメンテーションのオクルージョンを適切に扱う方法。 直感的には、セグメンテーションとインスタンスセグメンテーションの相補性を利用してパフォーマンスを向上させることができる。 また,検出・マスクスコアの使用は閉塞問題の解決には不十分であることがわかった。 これらの観測により,双方向学習パイプラインに基づく深部汎視的セグメンテーション手法を提案する。 さらに,異なるオブジェクトインスタンス間のオクルージョンを扱うために,プラグアンドプレイオクルージョン処理アルゴリズムを導入する。 COCOパン光学ベンチマーク実験の結果,提案手法の有効性を検証した。 コードは近くhttps://github.com/mooonside/banetでリリースされる。

Panoptic segmentation aims to perform instance segmentation for foreground instances and semantic segmentation for background stuff simultaneously. The typical top-down pipeline concentrates on two key issues: 1) how to effectively model the intrinsic interaction between semantic segmentation and instance segmentation, and 2) how to properly handle occlusion for panoptic segmentation. Intuitively, the complementarity between semantic segmentation and instance segmentation can be leveraged to improve the performance. Besides, we notice that using detection/mask scores is insufficient for resolving the occlusion problem. Motivated by these observations, we propose a novel deep panoptic segmentation scheme based on a bidirectional learning pipeline. Moreover, we introduce a plug-and-play occlusion handling algorithm to deal with the occlusion between different object instances. The experimental results on COCO panoptic benchmark validate the effectiveness of our proposed method. Codes will be released soon at https://github.com/Mooonside/BANet.
翻訳日:2022-12-18 01:14:45 公開日:2020-03-31
# 新規測度としての潜在空間における距離

Distance in Latent Space as Novelty Measure ( http://arxiv.org/abs/2003.14043v1 )

ライセンス: Link先を確認
Mark Philip Philipsen and Thomas Baltzer Moeslund(参考訳) ディープラーニングは、データのトレーニングが経験空間を密にカバーする場合にうまく機能する。 複雑な問題に対して、これはデータ収集を禁止的に高価にする。 利用可能なラベリング予算を最大限活用するために,データセット構築時のサンプルをインテリジェントに選択することを提案する。 この選択法は、2つの異なるサンプルがデータセット内の2つ以上の類似したサンプルに値するという仮定に基づいている。 類似性は、DNNによって生成された潜伏空間のサンプル間のユークリッド距離に基づいて測定される。 潜在空間を構成するために自己教師あり手法を用いることで、空間がデータによく適合し、事前のラベル付け作業は避けられることが保証される。 結果はより効率的で多様性があり、バランスの取れたデータセットであり、ラベル付き例が少なく、同等または優れた結果が得られる。

Deep Learning performs well when training data densely covers the experience space. For complex problems this makes data collection prohibitively expensive. We propose to intelligently select samples when constructing data sets in order to best utilize the available labeling budget. The selection methodology is based on the presumption that two dissimilar samples are worth more than two similar samples in a data set. Similarity is measured based on the Euclidean distance between samples in the latent space produced by a DNN. By using a self-supervised method to construct the latent space, it is ensured that the space fits the data well and that any upfront labeling effort can be avoided. The result is more efficient, diverse, and balanced data set, which produce equal or superior results with fewer labeled examples.
翻訳日:2022-12-18 01:14:11 公開日:2020-03-31
# 近隣住民からの予測信頼

Prediction Confidence from Neighbors ( http://arxiv.org/abs/2003.14047v1 )

ライセンス: Link先を確認
Mark Philip Philipsen and Thomas Baltzer Moeslund(参考訳) 機械学習(ML)モデルがOoD(out-of-distribution)サンプルから正しい予測を抽出することができないことは、重要なアプリケーションにおけるMLの適用に大きな障害となる。 ML法の一般化能力が向上するまでは、人間をループに留めておく必要がある。 人的監督の必要性は、人的援助を求めるか、予測を控えるために使用できる予測の信頼性のレベルを決定することができる場合に限られる。 特徴空間距離は予測に自信を与える有意義な尺度であることを示す。 見えないサンプルと近くのトレーニングサンプルの間の距離は、見えないサンプルの予測誤差と相関している。 許容できる誤差の程度に応じて、予測はトレーニングサンプルまでの距離に基づいて信頼されるか拒否される。 %付加的に、サンプルがトレーニングセットに追加に値するかどうかを判断するために、ノベルティしきい値を用いることができる。 これにより、重要なアプリケーションにモデルの早期かつより安全なデプロイが可能になる。

The inability of Machine Learning (ML) models to successfully extrapolate correct predictions from out-of-distribution (OoD) samples is a major hindrance to the application of ML in critical applications. Until the generalization ability of ML methods is improved it is necessary to keep humans in the loop. The need for human supervision can only be reduced if it is possible to determining a level of confidence in predictions, which can be used to either ask for human assistance or to abstain from making predictions. We show that feature space distance is a meaningful measure that can provide confidence in predictions. The distance between unseen samples and nearby training samples proves to be correlated to the prediction error of unseen samples. Depending on the acceptable degree of error, predictions can either be trusted or rejected based on the distance to training samples. %Additionally, a novelty threshold can be used to decide whether a sample is worth adding to the training set. This enables earlier and safer deployment of models in critical applications and is vital for deploying models under ever-changing conditions.
翻訳日:2022-12-18 01:13:59 公開日:2020-03-31
# スイスのドイツ語の辞書:話し方と書き方の変化

A Swiss German Dictionary: Variation in Speech and Writing ( http://arxiv.org/abs/2004.00139v1 )

ライセンス: Link先を確認
Larissa Schmidt (1), Lucy Linder (2), Sandra Djambazovska (3), Alexandros Lazaridis (3), Tanja Samard\v{z}i\'c (1), and Claudiu Musat (3) ((1) University of Zurich: URPP Language and Space, (2) University of Fribourg, (3) Swisscom AG: Data Analytics & AI (DNA))(参考訳) スイスの諸方言における共通語の形式を含む辞書を高ドイツ語に正規化する。 スイスドイツ語は、現在、主に話されている言語であるため、同じ方言の話者の間でさえも、文章の形式に大きな変化がある。 この多様性にまつわる不確実性を軽減するため、スイスドイツ語の高ドイツ語語対とスイスドイツ語の音素転写(SAMPA)を補完する。 したがって、この辞書は、大規模自然翻訳と音声の書き起こしを組み合わせた最初のリソースとなる。 さらに,地域分布を制御し,主要なスイス方言の均等表現を保証する。 音韻とスイスドイツ語の結合は強力である。 本稿では,トランスフォーマーに基づく音素からグラテムモデルへの学習に十分であることを示す。 さらに, グラフから音素への逆写像は, 新たな辞書で学習した変換器でモデル化可能であることを示す。 この未知語の発音生成は、この辞書の重要な受益者であるasr(extensible automated speech recognition)システムの訓練において鍵となる。

We introduce a dictionary containing forms of common words in various Swiss German dialects normalized into High German. As Swiss German is, for now, a predominantly spoken language, there is a significant variation in the written forms, even between speakers of the same dialect. To alleviate the uncertainty associated with this diversity, we complement the pairs of Swiss German - High German words with the Swiss German phonetic transcriptions (SAMPA). This dictionary becomes thus the first resource to combine large-scale spontaneous translation with phonetic transcriptions. Moreover, we control for the regional distribution and insure the equal representation of the major Swiss dialects. The coupling of the phonetic and written Swiss German forms is powerful. We show that they are sufficient to train a Transformer-based phoneme to grapheme model that generates credible novel Swiss German writings. In addition, we show that the inverse mapping - from graphemes to phonemes - can be modeled with a transformer trained with the novel dictionary. This generation of pronunciations for previously unknown words is key in training extensible automated speech recognition (ASR) systems, which are key beneficiaries of this dictionary.
翻訳日:2022-12-18 01:08:27 公開日:2020-03-31
# 遺伝子攻撃:遺伝的アルゴリズムを用いたロックされたアナログICの鍵とパラメータの探索

Attack of the Genes: Finding Keys and Parameters of Locked Analog ICs Using Genetic Algorithm ( http://arxiv.org/abs/2003.13904v1 )

ライセンス: Link先を確認
Rabin Yu Acharya, Sreeja Chowdhury, Fatemeh Ganji, and Domenic Forte(参考訳) ハードウェア知的財産(ip)盗難は、今日のグローバルサプライチェーンにおいて大きな問題である。 これに対処するために、多くの論理ロックと難読化技術が提案されている。 ロックは当初、デジタル集積回路(IC)に重点を置いていたが、近年ではアナログICに拡張する試みがあり、これはリバースエンジニアやコピーがデジタルICよりも容易である。 本稿では,進化戦略に基づくアルゴリズムを用いて,アナログ難読化/ロック手法の安全性について検討する。 本稿では,その難読化鍵と難読化パラメータのいずれかを見つけることで,ロックされたアナログ回路を完全に破壊できる遺伝的アルゴリズム(ga)手法を提案する。 GAアタックと、より単純で満足度の高いモジュロ理論(SMT)に基づく共通アナログベンチマーク回路に対する攻撃の両方を実装した。 GA攻撃は、ロックされたネットリストとアンロックされたチップだけで、すべての回路を数分でアンロックできる。 一方、smt攻撃はより高速に収束するが、実行には回路仕様が必要であり、処理後ステップによってブルート強制される必要のある複数のキーを返す。 我々はまた、GA攻撃がテストされていない最近のアナログロック技術にどのように一般化できるかについても論じる。

Hardware intellectual property (IP) theft is a major issue in today's globalized supply chain. To address it, numerous logic locking and obfuscation techniques have been proposed. While locking initially focused on digital integrated circuits (ICs), there have been recent attempts to extend it to analog ICs, which are easier to reverse engineer and to copy than digital ICs. In this paper, we use algorithms based on evolutionary strategies to investigate the security of analog obfuscation/locking techniques. We present a genetic algorithm (GA) approach which is capable of completely breaking a locked analog circuit by finding either its obfuscation key or its obfuscated parameters. We implement both the GA attack as well as a more naive satisfiability modulo theory (SMT)-based attack on common analog benchmark circuits obfuscated by combinational locking and parameter biasing. We find that GA attack can unlock all the circuits using only the locked netlist and an unlocked chip in minutes. On the other hand, while the SMT attack converges faster, it requires circuit specification to execute and it also returns multiple keys that need to be brute-forced by a post-processing step. We also discuss how the GA attack can generalize to other recent analog locking techniques not tested in the paper
翻訳日:2022-12-18 01:08:10 公開日:2020-03-31
# state-of-art-reviewing: 科学的出版を改善するための急進的な提案

State-of-Art-Reviewing: A Radical Proposal to Improve Scientific Publication ( http://arxiv.org/abs/2003.14415v1 )

ライセンス: Link先を確認
Samuel Albanie, Jaime Thewmore, Robert McCraith, Joao F. Henriques(参考訳) ピアレビューは現代の科学的写本評価のバックボーンを形成する。 しかし、科学界に200年と80年にわたる平等主義的奉仕を経て、このプロトコルは2020年にも適用できるのだろうか? 本稿では,この疑問に否定的(強い拒絶,高い信頼)で答え,ピアレビューの'プラグ・アンド・プレイ'代替として機能するネオテリックレビューパイプラインであるsoar(state-of-the-art review)を提案する。 我々のアプローチの核心は、レビュープロセスを多目的、大規模に分散し、非常に高いレイテンシの最適化であると解釈し、PACおよびCMT最適化ソリューションに対して効率的に解決する。 1) 評価のための高度にスケーラブルで完全自動化された方法論を提案し, コンピュータビジョンと機械学習のカンファレンスから最高の実践からインスピレーションを得た。2) アプローチのいくつかのインスタンスを探索し, 印刷物レビューとプレレビューのプレプリントの両方にsearが利用できることを実証する。

Peer review forms the backbone of modern scientific manuscript evaluation. But after two hundred and eighty-nine years of egalitarian service to the scientific community, does this protocol remain fit for purpose in 2020? In this work, we answer this question in the negative (strong reject, high confidence) and propose instead State-Of-the-Art Review (SOAR), a neoteric reviewing pipeline that serves as a 'plug-and-play' replacement for peer review. At the heart of our approach is an interpretation of the review process as a multi-objective, massively distributed and extremely-high-latency optimisation, which we scalarise and solve efficiently for PAC and CMT-optimal solutions. We make the following contributions: (1) We propose a highly scalable, fully automatic methodology for review, drawing inspiration from best-practices from premier computer vision and machine learning conferences; (2) We explore several instantiations of our approach and demonstrate that SOAR can be used to both review prints and pre-review pre-prints; (3) We wander listlessly in vain search of catharsis from our latest rounds of savage CVPR rejections.
翻訳日:2022-12-18 01:07:50 公開日:2020-03-31
# 高忠実な顔補完のためのOracleの注意

Learning Oracle Attention for High-fidelity Face Completion ( http://arxiv.org/abs/2003.13903v1 )

ライセンス: Link先を確認
Tong Zhou, Changxing Ding, Shaowen Lin, Xinchao Wang and Dacheng Tao(参考訳) 高忠実な顔の完成は、豊かで微妙な顔のテクスチャが絡んでいるため、難しい課題である。 より複雑なのは、例えば、異なる顔成分間の相関、例えば、テクスチャの対称性と両目の構造である。 近年の研究では、顔の要素間の文脈的関係を学習するための注意機構が採用されているが、不正確な注意スコアの破壊的な影響を概ね見落としている。 そこで本稿では,U-Net構造に基づく顔補完のための包括的枠組みを設計する。 具体的には,複数のスケールで顔のテクスチャ間の相関を効率的に学習するデュアルスペースアテンションモジュールを提案する。さらに,アテンションモジュールに対してoracle監督信号を提供し,アテンションスコアが妥当であることを保証する。 さらに, 顔成分の位置を事前の知識として捉え, 顔成分の忠実度を著しく向上させる多識別器をこれらの領域に導入する。 CelebA-HQとFlickr-Faces-HQを含む2つの高解像度の顔データセットに対する大規模な実験は、提案手法が最先端の手法を大きなマージンで上回ることを示した。

High-fidelity face completion is a challenging task due to the rich and subtle facial textures involved. What makes it more complicated is the correlations between different facial components, for example, the symmetry in texture and structure between both eyes. While recent works adopted the attention mechanism to learn the contextual relations among elements of the face, they have largely overlooked the disastrous impacts of inaccurate attention scores; in addition, they fail to pay sufficient attention to key facial components, the completion results of which largely determine the authenticity of a face image. Accordingly, in this paper, we design a comprehensive framework for face completion based on the U-Net structure. Specifically, we propose a dual spatial attention module to efficiently learn the correlations between facial textures at multiple scales; moreover, we provide an oracle supervision signal to the attention module to ensure that the obtained attention scores are reasonable. Furthermore, we take the location of the facial components as prior knowledge and impose a multi-discriminator on these regions, with which the fidelity of facial components is significantly promoted. Extensive experiments on two high-resolution face datasets including CelebA-HQ and Flickr-Faces-HQ demonstrate that the proposed approach outperforms state-of-the-art methods by large margins.
翻訳日:2022-12-18 01:06:59 公開日:2020-03-31
# 知識蒸留によるビデオキャプションのための時空間グラフ

Spatio-Temporal Graph for Video Captioning with Knowledge Distillation ( http://arxiv.org/abs/2003.13942v1 )

ライセンス: Link先を確認
Boxiao Pan, Haoye Cai, De-An Huang, Kuan-Hui Lee, Adrien Gaidon, Ehsan Adeli, Juan Carlos Niebles(参考訳) ビデオキャプションは、視覚シーンの深い理解を必要とする難しいタスクである。 State-of-the-artメソッドは、シーンレベルの情報またはオブジェクトレベルの情報を使用してキャプションを生成するが、明示的にオブジェクト間の相互作用をモデル化しない。 したがって、しばしば視覚的な接地予測に失敗し、散発的な相関に敏感である。 本稿では,空間と時間における物体の相互作用を利用したビデオキャプションのための新しい時空間グラフモデルを提案する。 我々のモデルは解釈可能なリンクを構築し、明確な視覚的グラウンドを提供することができる。 オブジェクトの変動数による不安定な性能を回避するため,グローバルなシーンの特徴を正規化するために,局所的なオブジェクト情報を用いるオブジェクト認識型知識蒸留機構を提案する。 2つのベンチマークで広範囲な実験を行い,本手法の有効性を実証し,解釈可能な予測による競合性能を示す。

Video captioning is a challenging task that requires a deep understanding of visual scenes. State-of-the-art methods generate captions using either scene-level or object-level information but without explicitly modeling object interactions. Thus, they often fail to make visually grounded predictions, and are sensitive to spurious correlations. In this paper, we propose a novel spatio-temporal graph model for video captioning that exploits object interactions in space and time. Our model builds interpretable links and is able to provide explicit visual grounding. To avoid unstable performance caused by the variable number of objects, we further propose an object-aware knowledge distillation mechanism, in which local object information is used to regularize global scene features. We demonstrate the efficacy of our approach through extensive experiments on two benchmarks, showing our approach yields competitive performance with interpretable predictions.
翻訳日:2022-12-18 01:06:07 公開日:2020-03-31
# FGN:Few-Shotインスタンスセグメンテーションのための完全なガイド付きネットワーク

FGN: Fully Guided Network for Few-Shot Instance Segmentation ( http://arxiv.org/abs/2003.13954v1 )

ライセンス: Link先を確認
Zhibo Fan, Jin-Gang Yu, Zhihao Liang, Jiarong Ou, Changxin Gao, Gui-Song Xia, Yuanqing Li(参考訳) FSIS(Few-shot instance segmentation)は、一般的なインスタンスセグメンテーションと数ショットの学習パラダイムを結合することで、豊富なラベル付きデータの不足にインスタンスセグメンテーションに取り組むことができる。 本稿では,FGN(Fully Guided Network)のインスタンスセグメンテーションについて述べる。 fgnは、fsisをいわゆるサポートセットを符号化し、ベースインスタンスセグメンテーションネットワーク(例えばマスクr-cnn)の予測を導くために利用する誘導モデルとして認識する。 この観点から、FGNは、サポートセットからのガイダンス効果をフル活用し、クラス間一般化に適応するために、注意誘導RPN、関係誘導検出器、注意誘導FCNなど、Mask R-CNNの様々なキーコンポーネントに異なるガイダンスメカニズムを導入している。 公開データセットにおける実験により,提案するfgnが最先端の手法に勝ることを示した。

Few-shot instance segmentation (FSIS) conjoins the few-shot learning paradigm with general instance segmentation, which provides a possible way of tackling instance segmentation in the lack of abundant labeled data for training. This paper presents a Fully Guided Network (FGN) for few-shot instance segmentation. FGN perceives FSIS as a guided model where a so-called support set is encoded and utilized to guide the predictions of a base instance segmentation network (i.e., Mask R-CNN), critical to which is the guidance mechanism. In this view, FGN introduces different guidance mechanisms into the various key components in Mask R-CNN, including Attention-Guided RPN, Relation-Guided Detector, and Attention-Guided FCN, in order to make full use of the guidance effect from the support set and adapt better to the inter-class generalization. Experiments on public datasets demonstrate that our proposed FGN can outperform the state-of-the-art methods.
翻訳日:2022-12-18 01:04:59 公開日:2020-03-31
# 属性認識型コンテキストフローによる手続き的読解

Procedural Reading Comprehension with Attribute-Aware Context Flow ( http://arxiv.org/abs/2003.13878v1 )

ライセンス: Link先を確認
Aida Amini, Antoine Bosselut, Bhavana Dalvi Mishra, Yejin Choi, Hannaneh Hajishirzi(参考訳) 手続き的テクストは、しばしば実体(例えば、光、食物)上で起こるプロセス(例えば、光合成と調理)を記述する。 本稿では,エンティティ属性(例えば位置,温度)上の遷移の列としてプロセスを表現する一般的な形式にテキストを変換し,手続き的読み理解のためのアルゴリズムを提案する。 事前学習された言語モデルを利用して,エンティティ属性とその遷移の合同予測により,テキストのエンティティ認識および属性認識表現を得る。 本モデルは,先行状態や現在状態について符号化されている情報を利用した手続き的テキストの文脈的エンコーディングを動的に取得し,テキストのスパンあるいは定義済みのクラスから特定可能な属性の遷移を予測する。 さらに, propara と npn-cooking の2つの手続き的読み解きデータセットにおいて, 解析結果が得られた。

Procedural texts often describe processes (e.g., photosynthesis and cooking) that happen over entities (e.g., light, food). In this paper, we introduce an algorithm for procedural reading comprehension by translating the text into a general formalism that represents processes as a sequence of transitions over entity attributes (e.g., location, temperature). Leveraging pre-trained language models, our model obtains entity-aware and attribute-aware representations of the text by joint prediction of entity attributes and their transitions. Our model dynamically obtains contextual encodings of the procedural text exploiting information that is encoded about previous and current states to predict the transition of a certain attribute which can be identified as a span of text or from a pre-defined set of classes. Moreover, our model achieves state of the art results on two procedural reading comprehension datasets, namely ProPara and npn-cooking
翻訳日:2022-12-18 00:58:38 公開日:2020-03-31
# MULTEXT-East

MULTEXT-East ( http://arxiv.org/abs/2003.14026v1 )

ライセンス: Link先を確認
Toma\v{z} Erjavec(参考訳) MULTEXT-East言語リソースは言語工学研究のための多言語データセットであり、言語記述のモルフォシンタクティックなレベルに焦点を当てている。 MULTEXT-Eastデータセットは、EAGLESベースのモルフォシンタクティック仕様、モルフォシンタクティックレキシコン、注釈付き多言語コーパスを含む。 ジョージ・オーウェル(George Orwell)の小説「1984」のパラレルコーパスには、手書きのモルフォシンタクティックな記述とレムマが含まれている。 リソースはXMLで一様にエンコードされており、Text Encoding Initiative Guidelines, TEI P5を使用し、ブルガリア語、クロアチア語、チェコ語、英語、エストニア語、ハンガリー語、マケドニア語、ペルシア語、ポーランド語、レシアン語、ルーマニア語、ロシア語、セルビア語、スロバキア語、スロベニア語、ウクライナ語など16言語をカバーする。 このデータセットは広く文書化されており、研究目的で自由に利用できる。 このケーススタディはMULTEXT-Eastリソースの開発の歴史を示し、エンコーディングとコンポーネントを示し、関連する作業について議論し、いくつかの結論を与える。

MULTEXT-East language resources, a multilingual dataset for language engineering research, focused on the morphosyntactic level of linguistic description. The MULTEXT-East dataset includes the EAGLES-based morphosyntactic specifications, morphosyntactic lexicons, and an annotated multilingual corpora. The parallel corpus, the novel "1984" by George Orwell, is sentence aligned and contains hand-validated morphosyntactic descriptions and lemmas. The resources are uniformly encoded in XML, using the Text Encoding Initiative Guidelines, TEI P5, and cover 16 languages: Bulgarian, Croatian, Czech, English, Estonian, Hungarian, Macedonian, Persian, Polish, Resian, Romanian, Russian, Serbian, Slovak, Slovene, and Ukrainian. This dataset is extensively documented, and freely available for research purposes. This case study gives a history of the development of the MULTEXT-East resources, presents their encoding and components, discusses related work and gives some conclusions.
翻訳日:2022-12-18 00:58:22 公開日:2020-03-31
# 遷移型アルゴリズムの固有依存性変位バイアス

Inherent Dependency Displacement Bias of Transition-Based Algorithms ( http://arxiv.org/abs/2003.14282v1 )

ライセンス: Link先を確認
Mark Anderson, Carlos G\'omez-Rodr\'iguez(参考訳) 現在、さまざまなトランジションベースのアルゴリズムが依存性解析に使われている。 実証的な研究では、あるアルゴリズムが別の木バンクを上回り、逆が別の木バンクに当てはまるように、異なる木バンク間で性能が変化することが示されている。 あるアルゴリズムが特定の木バンクに適しており、別の木バンクに向いていない理由が明確でないことが多い。 本稿では,アルゴリズムの固有依存性変位分布の概念を導入することで,この点に光を当てた。 このことは、構文関係の距離と方向の両方を定量化する依存変位の観点からアルゴリズムのバイアスを特徴づける。 その結果,木バンクの変位分布に対するアルゴリズムの固有分布の類似性は,その木バンクにおける解析性能,特に普遍依存木バンクにおける主文長に対する有意かつ有意な相関関係と明確に相関することがわかった。 また,より離散的に依存関係の変位を解析した結果,有意な相関は得られないことを示した。

A wide variety of transition-based algorithms are currently used for dependency parsers. Empirical studies have shown that performance varies across different treebanks in such a way that one algorithm outperforms another on one treebank and the reverse is true for a different treebank. There is often no discernible reason for what causes one algorithm to be more suitable for a certain treebank and less so for another. In this paper we shed some light on this by introducing the concept of an algorithm's inherent dependency displacement distribution. This characterises the bias of the algorithm in terms of dependency displacement, which quantify both distance and direction of syntactic relations. We show that the similarity of an algorithm's inherent distribution to a treebank's displacement distribution is clearly correlated to the algorithm's parsing performance on that treebank, specifically with highly significant and substantial correlations for the predominant sentence lengths in Universal Dependency treebanks. We also obtain results which show a more discrete analysis of dependency displacement does not result in any meaningful correlations.
翻訳日:2022-12-18 00:57:35 公開日:2020-03-31
# アンハリック機械翻訳の評価

Evaluating Amharic Machine Translation ( http://arxiv.org/abs/2003.14386v1 )

ライセンス: Link先を確認
Asmelash Teka Hadgu, Adam Beaudoin, Abel Aregawi(参考訳) 機械翻訳(MT)システムは、高リソース言語ペアに対して非常に正確な結果を提供することができる。 しかし、多くの低資源言語では、MTはまだ活発に研究されている。 本稿では,アムハラ語におけるMTシステムの品質を自動評価するデータセットを開発し,共有する。 amharicの英語への翻訳をサポートする商用mtシステムとamharicの現在の状態を評価するためのmtシステムを比較した。 BLEUスコアの結果は、アムハラ語翻訳の結果は有望だが、まだ低いことを示している。 このデータセットが、学界と産業の両方の研究コミュニティにとって、アムハーリックmtシステムを評価するためのベンチマークとして役立つことを願っている。

Machine translation (MT) systems are now able to provide very accurate results for high resource language pairs. However, for many low resource languages, MT is still under active research. In this paper, we develop and share a dataset to automatically evaluate the quality of MT systems for Amharic. We compare two commercially available MT systems that support translation of Amharic to and from English to assess the current state of MT for Amharic. The BLEU score results show that the results for Amharic translation are promising but still low. We hope that this dataset will be useful to the research community both in academia and industry as a benchmark to evaluate Amharic MT systems.
翻訳日:2022-12-18 00:57:17 公開日:2020-03-31
# 低資源ニューラルマシン翻訳:5つのアフリカ語言語のベンチマーク

Low Resource Neural Machine Translation: A Benchmark for Five African Languages ( http://arxiv.org/abs/2003.14402v1 )

ライセンス: Link先を確認
Surafel M. Lakew, Matteo Negri, Marco Turchi(参考訳) ニューラルネットワーク翻訳(NMT)の最近の進歩は、低リソース言語(LRL)翻訳タスクの改善を示している。 本研究では、英語と5つのアフリカのLRLペア(Swahili, Amharic, Tigrigna, Oromo, Somali [SATOS])のNMTをベンチマークする。 我々は SATOS 言語上で利用可能な資源を収集し, LRL の NMT の現状を評価した。 ベースライン単一言語対 NMT モデルと半教師付き学習,移動学習,多言語モデリングを比較し,En-LRL と LRL-En の両方向において有意な性能向上を示した。 平均的なBLEUスコアでは、多言語的アプローチは10の翻訳方向のうち6つで最大5点までの最大利得を示している。 また,各モデルの一般化性能を示すため,多領域テストセットの結果を報告する。 我々は標準化された実験データと将来に向けたテストセットをリリースし、特にSATOS言語におけるNMTの課題に対処する。

Recent advents in Neural Machine Translation (NMT) have shown improvements in low-resource language (LRL) translation tasks. In this work, we benchmark NMT between English and five African LRL pairs (Swahili, Amharic, Tigrigna, Oromo, Somali [SATOS]). We collected the available resources on the SATOS languages to evaluate the current state of NMT for LRLs. Our evaluation, comparing a baseline single language pair NMT model against semi-supervised learning, transfer learning, and multilingual modeling, shows significant performance improvements both in the En-LRL and LRL-En directions. In terms of averaged BLEU score, the multilingual approach shows the largest gains, up to +5 points, in six out of ten translation directions. To demonstrate the generalization capability of each model, we also report results on multi-domain test sets. We release the standardized experimental data and the test sets for future works addressing the challenges of NMT in under-resourced settings, in particular for the SATOS languages.
翻訳日:2022-12-18 00:57:08 公開日:2020-03-31
# 多言語姿勢検出:カタルーニャ独立コーパス

Multilingual Stance Detection: The Catalonia Independence Corpus ( http://arxiv.org/abs/2004.00050v1 )

ライセンス: Link先を確認
Elena Zotova, Rodrigo Agerri, Manuel Nu\~nez, German Rigau(参考訳) スタンス検出は、特定のトピックやクレームに関する所定のテキストの態度を決定することを目的としている。 姿勢検出はここ数年でかなりよく研究されてきたが、ほとんどが英語に焦点が当てられている。 これは主に、他の言語に注釈付きデータが比較的ないためである。 IberEval 2018でリリースされたTW-10 Referendum Datasetは、カタルーニャ語とスペイン語でマルチリンガルなスタンスアノテートデータを提供するための以前の取り組みである。 残念ながら、TW-10 カタルーニャのサブセットは極めて不均衡である。 本稿では,多言語・多言語環境でのスタンス検出研究の促進を目的として,カタルーニャ語・スペイン語用twitterにおけるスタンス検出のための新しい多言語データセットを提案する。 データセットには、1つのトピック、すなわちカタルーニャの独立に対するスタンスが注釈されている。 また,twitterユーザの分類に基づいてデータセットにアノテートする半自動的な手法を提案する。 線形分類器や深層学習法など,多数の教師付き手法を用いて新しいコーパスを実験した。 新しいコーパスとTW-1Oデータセットを比較すると、多言語および多言語による姿勢検出研究のためのバランスの良いコーパスの利点と可能性の両方が示される。 最後に、カタルーニャ語とスペイン語の両方で、TW-10データセットに新しい最先端結果を確立する。

Stance detection aims to determine the attitude of a given text with respect to a specific topic or claim. While stance detection has been fairly well researched in the last years, most the work has been focused on English. This is mainly due to the relative lack of annotated data in other languages. The TW-10 Referendum Dataset released at IberEval 2018 is a previous effort to provide multilingual stance-annotated data in Catalan and Spanish. Unfortunately, the TW-10 Catalan subset is extremely imbalanced. This paper addresses these issues by presenting a new multilingual dataset for stance detection in Twitter for the Catalan and Spanish languages, with the aim of facilitating research on stance detection in multilingual and cross-lingual settings. The dataset is annotated with stance towards one topic, namely, the independence of Catalonia. We also provide a semi-automatic method to annotate the dataset based on a categorization of Twitter users. We experiment on the new corpus with a number of supervised approaches, including linear classifiers and deep learning methods. Comparison of our new corpus with the with the TW-1O dataset shows both the benefits and potential of a well balanced corpus for multilingual and cross-lingual research on stance detection. Finally, we establish new state-of-the-art results on the TW-10 dataset, both for Catalan and Spanish.
翻訳日:2022-12-18 00:56:26 公開日:2020-03-31
# フランス語からバンバラ語への翻訳を機械学習で評価するパイロットスタディ

Assessing Human Translations from French to Bambara for Machine Learning: a Pilot Study ( http://arxiv.org/abs/2004.00068v1 )

ライセンス: Link先を確認
Michael Leventhal, Allahsera Tapo, Sarah Luger, Marcos Zampieri, and Christopher M. Homan(参考訳) 本稿では,アンダーリソース言語を学習する機械翻訳モデルにおいて,人間の翻訳したアラインメントテキストの品質を評価する新しい手法を提案する。 マリの大学生はフランス語のテキストを翻訳し、バンバラ語に翻訳した。 この結果から, テキストの書き起こしや音声翻訳から, 類似した品質が得られることが示唆された。 彼らはまた、人間の翻訳者が仕事の質を向上させるために与えられるべき具体的な指示を提案する。

We present novel methods for assessing the quality of human-translated aligned texts for learning machine translation models of under-resourced languages. Malian university students translated French texts, producing either written or oral translations to Bambara. Our results suggest that similar quality can be obtained from either written or spoken translations for certain kinds of texts. They also suggest specific instructions that human translators should be given in order to improve the quality of their work.
翻訳日:2022-12-18 00:56:06 公開日:2020-03-31
# パニニア文法を用いたベンガル語根動詞の自動抽出

Automatic Extraction of Bengali Root Verbs using Paninian Grammar ( http://arxiv.org/abs/2004.00089v1 )

ライセンス: Link先を確認
Arijit Das, Tapas Halder and Diganta Saha(参考訳) 本研究では,ashtadhyayi で panini [1] が提案した文法規則を用いてベンガル動詞の根形を抽出するための教師付き学習手法に基づくアルゴリズムを提案する。 この方法論はサンスクリットから派生した言語に適用することができる。 提案手法は, 動詞の時制, 人格, 形態的変形に基づき, 根形を求めるために開発された。 第一に、動詞の表面的な形や屈折形は、類似の時制と人格の一定数のグループに分類されている。 このタスクでは、Bengali言語で利用可能な標準パターンが使用されている。 次に、動詞の表面レベル形式から根形を抽出するために一連の規則が適用されている。 このシステムは、govtのtdilプロジェクトで開発されたbengaliテキストコーパスから収集された10000の動詞でテストされている。 インド出身。 出力の精度は98%に達し、言語専門家によって検証されている。 ルート動詞の識別は、意味探索、多文検索クエリ処理、言語の意味の理解、単語感覚の曖昧さ、文の分類などにおける重要なステップである。

In this research work, we have proposed an algorithm based on supervised learning methodology to extract the root forms of the Bengali verbs using the grammatical rules proposed by Panini [1] in Ashtadhyayi. This methodology can be applied for the languages which are derived from Sanskrit. The proposed system has been developed based on tense, person and morphological inflections of the verbs to find their root forms. The work has been executed in two phases: first, the surface level forms or inflected forms of the verbs have been classified into a certain number of groups of similar tense and person. For this task, a standard pattern, available in Bengali language has been used. Next, a set of rules have been applied to extract the root form from the surface level forms of a verb. The system has been tested on 10000 verbs collected from the Bengali text corpus developed in the TDIL project of the Govt. of India. The accuracy of the output has been achieved 98% which is verified by a linguistic expert. Root verb identification is a key step in semantic searching, multi-sentence search query processing, understanding the meaning of a language, disambiguation of word sense, classification of the sentences etc.
翻訳日:2022-12-18 00:55:58 公開日:2020-03-31
# 動的シーンにベンチマークデータセットを付加した生映像の監視

Supervised Raw Video Denoising with a Benchmark Dataset on Dynamic Scenes ( http://arxiv.org/abs/2003.14013v1 )

ライセンス: Link先を確認
Huanjing Yue, Cong Cao, Lei Liao, Ronghe Chu, Jingyu Yang(参考訳) 近年,実雑音を呈示する画像の教師付き学習戦略が登場し,有望な成果を上げている。 対照的に、ダイナミックなシーンにノイズとクリーンなペアが欠如しているため、生ノイズビデオの現実的なノイズ除去はめったに研究されない。 ダイナミックシーンのためのクリーンなビデオフレームは、静止画像のように長時間露光シャッターや平均的なマルチショットではキャプチャできない。 本稿では,玩具などの制御可能な物体の動作を作成し,各静的モーメントを複数回キャプチャしてクリーンなビデオフレームを生成することで,この問題を解決する。 このようにして,iso値1600から25600までのノイズクリーンビデオ55群からなるデータセットを構築した。 私たちの知る限り、これはノイズとクリーンのペアを持つ最初の動的ビデオデータセットです。 そこで本研究では,映像フレームの時間的,空間的,チャネル的相関を探索し,rvidenet(raw video denoising network)を提案する。 生のビデオにはBaierパターンがあるので、RGBGシーケンスという4つのサブシーケンスにまとめます。 さらに,本ネットワークは,生のデノベーション結果だけでなく,画像信号処理(ISP)モジュールを経由したsRGB結果も出力するので,ユーザが好みのISPでsRGB結果を生成することができる。 実験により,本手法は室内および屋外の両方で,最先端のビデオおよび生画像復調アルゴリズムより優れていた。

In recent years, the supervised learning strategy for real noisy image denoising has been emerging and has achieved promising results. In contrast, realistic noise removal for raw noisy videos is rarely studied due to the lack of noisy-clean pairs for dynamic scenes. Clean video frames for dynamic scenes cannot be captured with a long-exposure shutter or averaging multi-shots as was done for static images. In this paper, we solve this problem by creating motions for controllable objects, such as toys, and capturing each static moment for multiple times to generate clean video frames. In this way, we construct a dataset with 55 groups of noisy-clean videos with ISO values ranging from 1600 to 25600. To our knowledge, this is the first dynamic video dataset with noisy-clean pairs. Correspondingly, we propose a raw video denoising network (RViDeNet) by exploring the temporal, spatial, and channel correlations of video frames. Since the raw video has Bayer patterns, we pack it into four sub-sequences, i.e RGBG sequences, which are denoised by the proposed RViDeNet separately and finally fused into a clean video. In addition, our network not only outputs a raw denoising result, but also the sRGB result by going through an image signal processing (ISP) module, which enables users to generate the sRGB result with their favourite ISPs. Experimental results demonstrate that our method outperforms state-of-the-art video and raw image denoising algorithms on both indoor and outdoor videos.
翻訳日:2022-12-18 00:50:55 公開日:2020-03-31
# SK-Net: 空間キーポイントのエンドツーエンド発見によるポイントクラウドのディープラーニング

SK-Net: Deep Learning on Point Cloud via End-to-end Discovery of Spatial Keypoints ( http://arxiv.org/abs/2003.14014v1 )

ライセンス: Link先を確認
Weikun Wu, Yan Zhang, David Wang, Yunqi Lei(参考訳) pointnetが提案されて以来、point cloudでのディープラーニングは、強烈な3d研究の集中点となっている。 しかし,既存の点ベース手法では,局所的な特徴や点雲の空間的パターンを抽出してさらなる形状理解を行うには不十分である。 本稿では,空間的キーポイントの推論を,特定のポイントクラウドタスクのためのポイントクラウドの特徴表現の学習と共同で最適化する,エンドツーエンドフレームワークsk-netを提案する。 SK-Netの重要なプロセスは、空間キーポイント(Skeypoints)の生成である。 skeypointのロケーションアノテーションや提案の知識のない2つの規則的損失とタスク目的関数によって共同で実行される。 具体的には、Skeypointsは位置整合性には敏感ではないが、形状を鋭く認識している。 SK-Netのもう一つの重要なプロセスは、Skeypoints(詳細特徴)の局所構造と正規化されたSkeypoints(パターン特徴)の局所空間パターンの抽出である。 このプロセスは、点雲の局所的詳細情報を含む包括的表現パターンデテール(pd)特徴を生成し、正規化スキーポイントのパートディストリクト再構築を通じてその空間パターンを明らかにする。 その結果,ネットワークはポイントクラウドの異なる領域間の相関を効果的に理解し,ポイントクラウドのコンテキスト情報を統合する。 分類やセグメンテーションのようなポイントクラウドタスクでは、提案手法は最先端のアプローチよりも優れた性能を発揮する。 また,SK-Netの利点を実証するためのアブレーション研究も提案する。

Since the PointNet was proposed, deep learning on point cloud has been the concentration of intense 3D research. However, existing point-based methods usually are not adequate to extract the local features and the spatial pattern of a point cloud for further shape understanding. This paper presents an end-to-end framework, SK-Net, to jointly optimize the inference of spatial keypoint with the learning of feature representation of a point cloud for a specific point cloud task. One key process of SK-Net is the generation of spatial keypoints (Skeypoints). It is jointly conducted by two proposed regulating losses and a task objective function without knowledge of Skeypoint location annotations and proposals. Specifically, our Skeypoints are not sensitive to the location consistency but are acutely aware of shape. Another key process of SK-Net is the extraction of the local structure of Skeypoints (detail feature) and the local spatial pattern of normalized Skeypoints (pattern feature). This process generates a comprehensive representation, pattern-detail (PD) feature, which comprises the local detail information of a point cloud and reveals its spatial pattern through the part district reconstruction on normalized Skeypoints. Consequently, our network is prompted to effectively understand the correlation between different regions of a point cloud and integrate contextual information of the point cloud. In point cloud tasks, such as classification and segmentation, our proposed method performs better than or comparable with the state-of-the-art approaches. We also present an ablation study to demonstrate the advantages of SK-Net.
翻訳日:2022-12-18 00:50:30 公開日:2020-03-31
# COVID-ResNet: 電波からCOVID19をスクリーニングするディープラーニングフレームワーク

COVID-ResNet: A Deep Learning Framework for Screening of COVID19 from Radiographs ( http://arxiv.org/abs/2003.14395v1 )

ライセンス: Link先を確認
Muhammad Farooq, Abdul Hafeez(参考訳) ここ数ヶ月、新型コロナウイルス(COVID-19)のパンデミックが世界中に広がった。 感染しやすいため、COVID19の存在を正確にかつ容易に識別し、他の種類のインフルエンザや肺炎と区別する技術を開発することが重要である。 最近の研究では、covid-19に苦しむ患者の胸部x線が、x線撮影の異常を示していることが示されている。 しかし、これらのアプローチはクローズドソースであり、再生産性や深い洞察を得るために研究コミュニティには利用できない。 この研究の目的は、オープンソースのオープンアクセスデータセットを構築し、covid-19患者と他の肺炎患者を区別するための正確な畳み込みニューラルネットワークフレームワークを提供することである。 本研究は, 段階的リサイズ化, 循環学習率の探索, 識別学習率などの技術を用いて, 高速かつ正確な残差ニューラルネットワークの学習を行う。 これらの手法を用いて、オープンアクセスのCOVID-19データセット上でのアート結果の状態を示した。 本研究では,トレーニング済みのResNet-50アーキテクチャを微調整し,モデル性能を改善し,トレーニング時間を短縮する3段階技術を提案する。 これをCOVIDResNetと呼ぶ。 これは入力画像を128x128x3、224x224x3、229x229x3ピクセルに段階的に再サイズし、各ステージでネットワークを微調整することで達成される。 このアプローチは、自動学習率の選択とともに、41のエポックしか持たないCOVIDxデータセット上で、96.23%(すべてのクラスにおいて)の精度を達成できた。 本研究は, 3種類の感染型を正常者とともに分類する計算効率が高く, 高精度なモデルを示した。 このモデルは、covid-19の早期スクリーニングに役立ち、医療システムの負担を軽減するのに役立つ。

In the last few months, the novel COVID19 pandemic has spread all over the world. Due to its easy transmission, developing techniques to accurately and easily identify the presence of COVID19 and distinguish it from other forms of flu and pneumonia is crucial. Recent research has shown that the chest Xrays of patients suffering from COVID19 depicts certain abnormalities in the radiography. However, those approaches are closed source and not made available to the research community for re-producibility and gaining deeper insight. The goal of this work is to build open source and open access datasets and present an accurate Convolutional Neural Network framework for differentiating COVID19 cases from other pneumonia cases. Our work utilizes state of the art training techniques including progressive resizing, cyclical learning rate finding and discriminative learning rates to training fast and accurate residual neural networks. Using these techniques, we showed the state of the art results on the open-access COVID-19 dataset. This work presents a 3-step technique to fine-tune a pre-trained ResNet-50 architecture to improve model performance and reduce training time. We call it COVIDResNet. This is achieved through progressively re-sizing of input images to 128x128x3, 224x224x3, and 229x229x3 pixels and fine-tuning the network at each stage. This approach along with the automatic learning rate selection enabled us to achieve the state of the art accuracy of 96.23% (on all the classes) on the COVIDx dataset with only 41 epochs. This work presented a computationally efficient and highly accurate model for multi-class classification of three different infection types from along with Normal individuals. This model can help in the early screening of COVID19 cases and help reduce the burden on healthcare systems.
翻訳日:2022-12-18 00:49:19 公開日:2020-03-31
# 光非視線物理に基づく3次元ポーズ推定

Optical Non-Line-of-Sight Physics-based 3D Human Pose Estimation ( http://arxiv.org/abs/2003.14414v1 )

ライセンス: Link先を確認
Mariko Isogawa, Ye Yuan, Matthew O'Toole, Kris Kitani(参考訳) 光学的非視線画像システム(NLOS)により得られた過渡的画像(光子の3次元時空間ヒストグラム)から3次元人間のポーズ推定法について述べる。 本手法は,環境に間接的に反映された光を用いることで,角を曲がりくねって見ることで3次元のポーズを知覚する。 我々は,NLOS画像,ヒトのポーズ推定,深部強化学習などの多種多様な技術を組み合わせて,光子計測の生ストリームをフル3次元のポーズシーケンス推定に変換するエンドツーエンドのデータ処理パイプラインを構築する。 我々は,(1)学習可能な逆点展開関数(PSF)を用いて生の過渡的画像を深部特徴ベクトルに変換すること,(2)過渡的画像特徴に基づいて条件付きで物理シミュレータとの相互作用から学習するニューラルヒューマノイド制御ポリシー,(3)現実世界のNLOSイメージングシステムに転送可能な深度データに基づくデータ合成と拡張戦略を含むデータ表現プロセスの設計に貢献する。 予備実験の結果,本手法は実世界のnlos計測に一般化し,身体的有意な3次元ポーズを推定できることが示唆された。

We describe a method for 3D human pose estimation from transient images (i.e., a 3D spatio-temporal histogram of photons) acquired by an optical non-line-of-sight (NLOS) imaging system. Our method can perceive 3D human pose by `looking around corners' through the use of light indirectly reflected by the environment. We bring together a diverse set of technologies from NLOS imaging, human pose estimation and deep reinforcement learning to construct an end-to-end data processing pipeline that converts a raw stream of photon measurements into a full 3D human pose sequence estimate. Our contributions are the design of data representation process which includes (1) a learnable inverse point spread function (PSF) to convert raw transient images into a deep feature vector; (2) a neural humanoid control policy conditioned on the transient image feature and learned from interactions with a physics simulator; and (3) a data synthesis and augmentation strategy based on depth data that can be transferred to a real-world NLOS imaging system. Our preliminary experiments suggest that our method is able to generalize to real-world NLOS measurement to estimate physically-valid 3D human poses.
翻訳日:2022-12-18 00:48:49 公開日:2020-03-31
# 深層学習・移動学習アルゴリズムを用いたX線・CT画像からのCOVID-19肺炎の診断

Diagnosing COVID-19 Pneumonia from X-Ray and CT Images using Deep Learning and Transfer Learning Algorithms ( http://arxiv.org/abs/2004.00038v1 )

ライセンス: Link先を確認
Halgurd S. Maghdid, Aras T. Asaad, Kayhan Zrar Ghafoor, Ali Safaa Sadiq, and Muhammad Khurram Khan(参考訳) 新型コロナウイルス(covid-19)は、中国・武漢で初めて発生し、前例のない効果で世界中に広がり、現代最大の危機となっている。 新型コロナウイルス(COVID-19)は、よりインテリジェントで、応答性が高く、効率的な検出方法を開発するよう研究者に促した、診断の幅広い要求を証明している。 本研究では、放射線科医や医療専門家が新型コロナウイルスの患者を迅速かつ正確に診断するために使用できるAIツールを提案する。 しかし、X線とCT画像の公開データセットがないため、そのようなAIツールの設計は難しい課題である。 本研究の目的は、複数のソースからX線とCTスキャン画像の包括的データセットを構築し、深層学習と移動学習アルゴリズムを用いた、単純だが効果的な新型コロナウイルス検出技術を提供することである。 本手法では,X線およびCTスキャン画像データセットに対して,単純な畳み込みニューラルネットワーク(CNN)と修正済みのAlexNetモデルを適用する。 実験の結果,cnnを改良することにより,事前学習したネットワークを用いて最大98 %,94.1 %の精度が得られることがわかった。

COVID-19 (also known as 2019 Novel Coronavirus) first emerged in Wuhan, China and spread across the globe with unprecedented effect and has now become the greatest crisis of the modern era. The COVID-19 has proved much more pervasive demands for diagnosis that has driven researchers to develop more intelligent, highly responsive and efficient detection methods. In this work, we focus on proposing AI tools that can be used by radiologists or healthcare professionals to diagnose COVID-19 cases in a quick and accurate manner. However, the lack of a publicly available dataset of X-ray and CT images makes the design of such AI tools a challenging task. To this end, this study aims to build a comprehensive dataset of X-rays and CT scan images from multiple sources as well as provides a simple but an effective COVID-19 detection technique using deep learning and transfer learning algorithms. In this vein, a simple convolution neural network (CNN) and modified pre-trained AlexNet model are applied on the prepared X-rays and CT scan images dataset. The result of the experiments shows that the utilized models can provide accuracy up to 98 % via pre-trained network and 94.1 % accuracy by using the modified CNN.
翻訳日:2022-12-18 00:48:23 公開日:2020-03-31
# EOLO: 埋め込みオブジェクトセグメンテーションは一度だけ見える

EOLO: Embedded Object Segmentation only Look Once ( http://arxiv.org/abs/2004.00123v1 )

ライセンス: Link先を確認
Longfei Zeng and Mohammed Sabah(参考訳) 本稿では,3つの独立したブランチで概念的にシンプルで,完全に畳み込み可能で,モバイルや組み込みデバイスに簡単に組み込むことができるアンカーフリーかつシングルショットのインスタンスセグメンテーション手法を提案する。 本手法は,インスタンスセグメンテーション問題を,各画素のインスタンス中心分類と4次元距離回帰によって,意味的セグメンテーションの予測と重複するオブジェクトの識別として再構成する。 さらに,mAP性能を著しく向上する4次元距離回帰のための高品位重み中心のサンプリングと最適化を行うための効果的な損失関数を提案する。 eoloはiou50でマスクマップを27.7セントで達成し、1080ti gpuで30fpsに達し、挑戦的なcoco2017データセット上でシングルモデルとシングルスケールのトレーニング/テストを行う。 近年の手法では,アップボトム,ダウンアップ,直接予測のパラダイムの両面で,インスタンスセグメンテーションの理解が異なることが初めて示された。 次に、我々のモデルを説明し、関連する実験と結果を示す。 提案するEOLOフレームワークが,リアルタイム産業シナリオにおけるシングルショットインスタンスセグメンテーションタスクの基本的なベースラインとして機能することを期待する。

In this paper, we introduce an anchor-free and single-shot instance segmentation method, which is conceptually simple with 3 independent branches, fully convolutional and can be used by easily embedding it into mobile and embedded devices. Our method, refer as EOLO, reformulates the instance segmentation problem as predicting semantic segmentation and distinguishing overlapping objects problem, through instance center classification and 4D distance regression on each pixel. Moreover, we propose one effective loss function to deal with sampling a high-quality center of gravity examples and optimization for 4D distance regression, which can significantly improve the mAP performance. Without any bells and whistles, EOLO achieves 27.7$\%$ in mask mAP under IoU50 and reaches 30 FPS on 1080Ti GPU, with a single-model and single-scale training/testing on the challenging COCO2017 dataset. For the first time, we show the different comprehension of instance segmentation in recent methods, in terms of both up-bottom, down-up, and direct-predict paradigms. Then we illustrate our model and present related experiments and results. We hope that the proposed EOLO framework can serve as a fundamental baseline for a single-shot instance segmentation task in Real-time Industrial Scenarios.
翻訳日:2022-12-18 00:48:03 公開日:2020-03-31
# 不適切な画像間翻訳のための生涯セルフスーパービジョンに向けて

Towards Lifelong Self-Supervision For Unpaired Image-to-Image Translation ( http://arxiv.org/abs/2004.00161v1 )

ライセンス: Link先を確認
Victor Schmidt, Makesh Narsimhan Sreedhar, Mostafa ElAraby, Irina Rish(参考訳) I2IT(Unpaired Image-to- Image Translation)タスクは、データ不足に悩まされることが多い。 ローテーション予測や生成的色付けといった補助的なタスクを活用することで、SSLは低データ構造において、より優れた、より堅牢な表現を生成することができる。 しかし、i2itタスクに沿ってそのようなタスクをトレーニングすることは、モデルのサイズとタスク数の増加によって計算的に難解である。 一方、逐次学習は、以前に学習したタスクを壊滅的に忘れてしまう可能性がある。 そこで本研究では,I2ITモデル(例えばCycleGAN)を自己監督型補助タスクのセットで事前学習する手段として,LiSS(Lifelong Self-Supervision)を導入する。 過去のエンコーダの指数的な移動平均を保ち、蓄積した知識を蒸留することにより、連続学習で一般的に使用されるリプレイ、パラメータ分離、リトレーニングの手法を使わずに、ネットワークの検証性能を維持することができる。 また,LiSSでトレーニングしたモデルは,カラーバイアスやエンティティの絡み合い(二つの実体が非常に近い場合)に対して,CycleGANベースラインよりも堅牢であることを示す。

Unpaired Image-to-Image Translation (I2IT) tasks often suffer from lack of data, a problem which self-supervised learning (SSL) has recently been very popular and successful at tackling. Leveraging auxiliary tasks such as rotation prediction or generative colorization, SSL can produce better and more robust representations in a low data regime. Training such tasks along an I2IT task is however computationally intractable as model size and the number of task grow. On the other hand, learning sequentially could incur catastrophic forgetting of previously learned tasks. To alleviate this, we introduce Lifelong Self-Supervision (LiSS) as a way to pre-train an I2IT model (e.g., CycleGAN) on a set of self-supervised auxiliary tasks. By keeping an exponential moving average of past encoders and distilling the accumulated knowledge, we are able to maintain the network's validation performance on a number of tasks without any form of replay, parameter isolation or retraining techniques typically used in continual learning. We show that models trained with LiSS perform better on past tasks, while also being more robust than the CycleGAN baseline to color bias and entity entanglement (when two entities are very close).
翻訳日:2022-12-18 00:47:39 公開日:2020-03-31
# 集中型・統合型・分散型非凸最適化における2次保証

Second-Order Guarantees in Centralized, Federated and Decentralized Nonconvex Optimization ( http://arxiv.org/abs/2003.14366v1 )

ライセンス: Link先を確認
Stefan Vlaski and Ali H. Sayed(参考訳) データ収集と処理能力の急速な進歩により、非凸最適化問題を引き起こす複雑なモデルの使用が可能になった。 しかし、与えられた点が局所極小であることを単純に検証してもnp-hard [1] であるという意味で、これらの定式化は一般に解くのが任意に難しい。 それでも、比較的単純なアルゴリズムのいくつかは、多くの興味深い文脈で驚くほど優れた経験的結果をもたらすことが示されている。 おそらく最も顕著な例は、ニューラルネットワークのトレーニングのためのバックプロパゲーションアルゴリズムの成功だろう。 いくつかの最近の研究は、非凸最適化問題の構造を研究し、勾配降下や変分のような単純なアルゴリズムが局所ミニマに向かって収束し、サドル点を避けることで、この現象の厳密な解析的正当化を追求している。 これらの分析における重要な洞察は、勾配摂動が局所降下アルゴリズムが望ましくない静止点から望ましい点を効率的に区別し、後者から逃げるのに重要な役割を果たすことである。 本稿では,集中型,連合型,分散型アーキテクチャにおける確率的一階最適化アルゴリズムの2次保証に関する最近の結果について述べる。

Rapid advances in data collection and processing capabilities have allowed for the use of increasingly complex models that give rise to nonconvex optimization problems. These formulations, however, can be arbitrarily difficult to solve in general, in the sense that even simply verifying that a given point is a local minimum can be NP-hard [1]. Still, some relatively simple algorithms have been shown to lead to surprisingly good empirical results in many contexts of interest. Perhaps the most prominent example is the success of the backpropagation algorithm for training neural networks. Several recent works have pursued rigorous analytical justification for this phenomenon by studying the structure of the nonconvex optimization problems and establishing that simple algorithms, such as gradient descent and its variations, perform well in converging towards local minima and avoiding saddle-points. A key insight in these analyses is that gradient perturbations play a critical role in allowing local descent algorithms to efficiently distinguish desirable from undesirable stationary points and escape from the latter. In this article, we cover recent results on second-order guarantees for stochastic first-order optimization algorithms in centralized, federated, and decentralized architectures.
翻訳日:2022-12-18 00:47:15 公開日:2020-03-31
# 高周波取引における価格変動の深部確率モデル

Deep Probabilistic Modelling of Price Movements for High-Frequency Trading ( http://arxiv.org/abs/2004.01498v1 )

ライセンス: Link先を確認
Ye-Sheen Lim, Denise Gorse(参考訳) 本稿では, 自動取引システムのリスク管理に重要な, 高周波市場価格の確率論的モデリングのための深い再帰アーキテクチャを提案する。 提案アーキテクチャでは,確率論的混合モデルを深部再帰ニューラルネットワークに組み込む。 得られた深層混合モデルは、文献でこれまで無視されていた自動高周波取引戦略の開発において重要ないくつかの実践的課題に同時に対処する。 1)価格変動の確率的予測 2)価格変動の方向と大きさの両方を客観的に予測する。 我々は、高周波bitcoin市場データに基づいてモデルをトレーニングし、文献から得られたベンチマークモデルに対して評価します。 私たちのモデルは、メトリックベーステストとシミュレートトレーディングシナリオの両方において、ベンチマークモデルよりも優れています。

In this paper we propose a deep recurrent architecture for the probabilistic modelling of high-frequency market prices, important for the risk management of automated trading systems. Our proposed architecture incorporates probabilistic mixture models into deep recurrent neural networks. The resulting deep mixture models simultaneously address several practical challenges important in the development of automated high-frequency trading strategies that were previously neglected in the literature: 1) probabilistic forecasting of the price movements; 2) single objective prediction of both the direction and size of the price movements. We train our models on high-frequency Bitcoin market data and evaluate them against benchmark models obtained from the literature. We show that our model outperforms the benchmark models in both a metric-based test and in a simulated trading scenario
翻訳日:2022-12-18 00:40:43 公開日:2020-03-31
# 秩序流を用いた定常Bitcoin価格形成の深部反復モデリング

Deep Recurrent Modelling of Stationary Bitcoin Price Formation Using the Order Flow ( http://arxiv.org/abs/2004.01499v1 )

ライセンス: Link先を確認
Ye-Sheen Lim, Denise Gorse(参考訳) 本稿では,高周波指向性価格変動の定常モデリングにおける順序流に基づく深部再帰モデルを提案する。 注文フローは取引所に到着する注文のマイクロ秒ストリームであり、株価チャートや通貨の価格表に表示される価格の形成を駆動する。 提案モデルの定常性をテストするために、2017年のbitcoinバブル前のデータでモデルをトレーニングし、バブルの前後でモデルをテストする。 我々は、Bitcoinのトレーディングが極めて不安定なバブルトラブルに移行したとしても、再トレーニングなしでは、提案されたモデルは一時的に安定していることを示した。 この結果の意義は、ディープラーニングを用いた価格形成をモデル化する文献において、既存の最先端モデルと比較することで示される。

In this paper we propose a deep recurrent model based on the order flow for the stationary modelling of the high-frequency directional prices movements. The order flow is the microsecond stream of orders arriving at the exchange, driving the formation of prices seen on the price chart of a stock or currency. To test the stationarity of our proposed model we train our model on data before the 2017 Bitcoin bubble period and test our model during and after the bubble. We show that without any retraining, the proposed model is temporally stable even as Bitcoin trading shifts into an extremely volatile "bubble trouble" period. The significance of the result is shown by benchmarking against existing state-of-the-art models in the literature for modelling price formation using deep learning.
翻訳日:2022-12-18 00:40:34 公開日:2020-03-31
# 金融資産価格予測のための機械学習アルゴリズム

Machine Learning Algorithms for Financial Asset Price Forecasting ( http://arxiv.org/abs/2004.01504v1 )

ライセンス: Link先を確認
Philip Ndikum(参考訳) 本稿では、金融資産価格予測に使用できる機械学習(ml)アルゴリズムと手法の性能について検討する。 資産価格とリターンの予測と予測は、量的金融や実践者にとっても最も挑戦的でエキサイティングな問題である。 近年のデータ生成とキャプチャの大幅な増加は、機械学習アルゴリズムを活用する機会を提供する。 この研究は、ハイパフォーマンスコンピューティング(HPC)インフラにおける現代の機械学習アルゴリズムの最先端実装と、米国株式データにおける従来の高人気なCapital Asset Pricing Model(CAPM)とを直接比較し、対比する。 実装された機械学習モデルは、(外因性マクロ経済変数に加えて)ストック宇宙全体の時系列データに基づいてトレーニングされ、OOSテストデータにおいてCAPMを著しく上回る。

This research paper explores the performance of Machine Learning (ML) algorithms and techniques that can be used for financial asset price forecasting. The prediction and forecasting of asset prices and returns remains one of the most challenging and exciting problems for quantitative finance and practitioners alike. The massive increase in data generated and captured in recent years presents an opportunity to leverage Machine Learning algorithms. This study directly compares and contrasts state-of-the-art implementations of modern Machine Learning algorithms on high performance computing (HPC) infrastructures versus the traditional and highly popular Capital Asset Pricing Model (CAPM) on U.S equities data. The implemented Machine Learning models - trained on time series data for an entire stock universe (in addition to exogenous macroeconomic variables) significantly outperform the CAPM on out-of-sample (OOS) test data.
翻訳日:2022-12-18 00:40:21 公開日:2020-03-31
# airbnb検索における多様性管理

Managing Diversity in Airbnb Search ( http://arxiv.org/abs/2004.02621v1 )

ライセンス: Link先を確認
Mustafa Abdool, Malay Haldar, Prashant Ramanathan, Tyler Sax, Lanbo Zhang, Aamir Mansawala, Shulin Yang, Thomas Legrand(参考訳) 検索システムにおける長年の疑問の1つは、結果における多様性の役割である。 製品の観点からは、さまざまな結果を示すことで、ユーザにより多くの選択肢を与え、より良いエクスペリエンスをもたらすはずです。 しかし、この直観は、結果集合の全体観なしに個々の項目の関連性を直接最適化するランキングの一般的な機械学習アプローチとは相反する。 本稿では,Airbnb検索の多様性問題に対処する旅程について述べる。ヒューリスティックなアプローチから始まり,リカレントニューラルネットワーク(RNN)を活用してクエリコンテキスト全体の埋め込みを生成する,新たなディープラーニングソリューションを結論付ける。 学んだ教訓が他人にとって有益であることを証明し、この分野のさらなる研究を動機付けることを願っています。

One of the long-standing questions in search systems is the role of diversity in results. From a product perspective, showing diverse results provides the user with more choice and should lead to an improved experience. However, this intuition is at odds with common machine learning approaches to ranking which directly optimize the relevance of each individual item without a holistic view of the result set. In this paper, we describe our journey in tackling the problem of diversity for Airbnb search, starting from heuristic based approaches and concluding with a novel deep learning solution that produces an embedding of the entire query context by leveraging Recurrent Neural Networks (RNNs). We hope our lessons learned will prove useful to others and motivate further research in this area.
翻訳日:2022-12-18 00:40:10 公開日:2020-03-31
# Y-net:単一画像復調のためのウェーブレット構造類似性損失関数付きマルチスケール特徴集約ネットワーク

Y-net: Multi-scale feature aggregation network with wavelet structure similarity loss function for single image dehazing ( http://arxiv.org/abs/2003.13912v1 )

ライセンス: Link先を確認
Hao-Hsiang Yang, Chao-Han Huck Yang, Yi-Chang James Tsai(参考訳) シングルイメージデハジングは、2次元信号再構成の問題である。 近年,多くのコンピュータビジョン問題において深層畳み込みニューラルネットワーク(CNN)が成功している。 本稿では,その構造から命名されたY-netを提案する。 このネットワークは、マルチスケールの特徴マップを集約することで、鮮明な画像を再構成する。 さらに、トレーニングステップにおけるウェーブレット構造シミュラリティ(W-SSIM)損失関数を提案する。 損失関数では、離散ウェーブレット変換を繰り返し適用し、異なる周波数とスケールで異なる大きさのパッチに分割する。 提案した損失関数は、それぞれの比率で様々なパッチのSSIM損失の蓄積である。 W-SSIM損失関数を用いたY-netは,高品質なクリアイメージを復元し,最先端のアルゴリズムより優れていることを示す。 コードとモデルはhttps://github.com/dectrfov/y-netで入手できる。

Single image dehazing is the ill-posed two-dimensional signal reconstruction problem. Recently, deep convolutional neural networks (CNN) have been successfully used in many computer vision problems. In this paper, we propose a Y-net that is named for its structure. This network reconstructs clear images by aggregating multi-scale features maps. Additionally, we propose a Wavelet Structure SIMilarity (W-SSIM) loss function in the training step. In the proposed loss function, discrete wavelet transforms are applied repeatedly to divide the image into differently sized patches with different frequencies and scales. The proposed loss function is the accumulation of SSIM loss of various patches with respective ratios. Extensive experimental results demonstrate that the proposed Y-net with the W-SSIM loss function restores high-quality clear images and outperforms state-of-the-art algorithms. Code and models are available at https://github.com/dectrfov/Y-net.
翻訳日:2022-12-18 00:38:27 公開日:2020-03-31
# 潜在空間共有オートエンコーダを用いた動的相関モデリングによるクロスシーン予測

Cross Scene Prediction via Modeling Dynamic Correlation using Latent Space Shared Auto-Encoders ( http://arxiv.org/abs/2003.13930v1 )

ライセンス: Link先を確認
Shaochi Hu, Donghao Xu, Huijing Zhao(参考訳) この研究は以下の問題に対処する: 動的変化に相関する2つのシーンの無同期履歴観測のセットを与えられた場合、あるシーンの観察により、ロボットが別のシーンの動的状態をオンラインで予測できるように、クロスシーン予測器を学習することである。 遅延空間共有オートエンコーダを用いた動的相関のモデル化により,この問題の解法を提案する。 両シーンの観測が近似時間であれば共通潜時状態に達するような共有潜時空間でシーンダイナミクス固有の相関を表現できると仮定すると、潜時空間を介して2つのオートエンコーダを接続して学習モデルを構築し、入力シーンのエンコーダと対象シーンのデコーダとを連結して予測モデルを構築する。 シミュレーションデータセットは、キャンパスの隣接する2つのゲートのダイナミックフローを模倣して生成され、そこでは、共通の作業と教育スケジュールによって動的変化が引き起こされる。 同様のシナリオは、1つの道路上の連続した交差点や地下鉄駅のゲートなどでも見られる。 シーン相関と相互観測の様々な条件において,クロスシーン予測の精度を検討した。 提案手法のポテンシャルは,従来のエンドツーエンド法と線形予測との比較により示される。

This work addresses on the following problem: given a set of unsynchronized history observations of two scenes that are correlative on their dynamic changes, the purpose is to learn a cross-scene predictor, so that with the observation of one scene, a robot can onlinely predict the dynamic state of another. A method is proposed to solve the problem via modeling dynamic correlation using latent space shared auto-encoders. Assuming that the inherent correlation of scene dynamics can be represented by shared latent space, where a common latent state is reached if the observations of both scenes are at an approximate time, a learning model is developed by connecting two auto-encoders through the latent space, and a prediction model is built by concatenating the encoder of the input scene with the decoder of the target one. Simulation datasets are generated imitating the dynamic flows at two adjacent gates of a campus, where the dynamic changes are triggered by a common working and teaching schedule. Similar scenarios can also be found at successive intersections on a single road, gates of a subway station, etc. Accuracy of cross-scene prediction is examined at various conditions of scene correlation and pairwise observations. Potentials of the proposed method are demonstrated by comparing with conventional end-to-end methods and linear predictions.
翻訳日:2022-12-18 00:37:56 公開日:2020-03-31
# 交渉戦略の自動化構成

Automated Configuration of Negotiation Strategies ( http://arxiv.org/abs/2004.00094v1 )

ライセンス: Link先を確認
Bram M. Renting (1), Holger H. Hoos (2), Catholijn M. Jonker (1 and 2) ((1) Delft University of Technology, (2) Leiden University)(参考訳) 入札と受理戦略は、線形加法および非線形効用関数を持つシナリオにおける交渉の結果に大きな影響を及ぼす。 長年にわたり、全ての交渉設定に最善の戦略は存在しないが、まだ多くの固定戦略が開発されている。 戦略設計に関する質問は,次のような変化を想定しています。 優れた戦略とは何か? そこで本研究では,特定の交渉設定に対して最適な戦略を見つけるために,アルゴリズムの自動設定を活用する手法を開発した。 自動アルゴリズム構成による自動交渉エージェントの強化により、対戦者や交渉シナリオの豊富なスペースに自動的に設定可能な柔軟な交渉エージェントが得られる。 このアプローチを批判的に評価するために、エージェントは過去の競合相手とのanacライクな二国間自動交渉トーナメントでテストされた。 当社の自動構成エージェントは他のエージェントよりも優れており、次のベストエージェントと比較して交渉報酬は5.1%増加した。 トーナメントで我々のエージェントがなければ、トップランクのエージェントはわずか0.01%のマージンで勝ちます。

Bidding and acceptance strategies have a substantial impact on the outcome of negotiations in scenarios with linear additive and nonlinear utility functions. Over the years, it has become clear that there is no single best strategy for all negotiation settings, yet many fixed strategies are still being developed. We envision a shift in the strategy design question from: What is a good strategy?, towards: What could be a good strategy? For this purpose, we developed a method leveraging automated algorithm configuration to find the best strategies for a specific set of negotiation settings. By empowering automated negotiating agents using automated algorithm configuration, we obtain a flexible negotiation agent that can be configured automatically for a rich space of opponents and negotiation scenarios. To critically assess our approach, the agent was tested in an ANAC-like bilateral automated negotiation tournament setting against past competitors. We show that our automatically configured agent outperforms all other agents, with a 5.1% increase in negotiation payoff compared to the next-best agent. We note that without our agent in the tournament, the top-ranked agent wins by a margin of only 0.01%.
翻訳日:2022-12-18 00:31:21 公開日:2020-03-31
# 視聴覚における専門知識分類のための深い意味的視線埋め込みとスカンパス比較

Deep semantic gaze embedding and scanpath comparison for expertise classification during OPT viewing ( http://arxiv.org/abs/2003.13987v1 )

ライセンス: Link先を確認
Nora Castner, Thomas K\"ubler, Katharina Scheiter, Juilane Richter, Th\'er\'ese Eder, Fabian H\"uttig, Constanze Keutel, Enkelejda Kasneci(参考訳) 専門的行動を示す眼球運動のモデル化はユーザ評価において決定的である。 しかし,タスク意味論が視線行動に影響を及ぼすことは疑いようがない。 本稿では,畳み込みニューラルネットワーク(CNN)を組み込んで,シーン情報を固定レベルで処理する手法を提案する。 それぞれの固定に関連付けられた画像パッチをCNNの入力として使用し,得られた特徴ベクトルは,スキャンパス類似度比較に必要な時間的および空間的視線情報を提供する。 画像意味論を取り入れつつ、93%の精度で専門家と初心者を区別する手法を開発した。 さらに、画像パッチ機能を用いたスキャンパス比較では、様々なタスクからタスクセマンティクスを組み込む可能性がある。

Modeling eye movement indicative of expertise behavior is decisive in user evaluation. However, it is indisputable that task semantics affect gaze behavior. We present a novel approach to gaze scanpath comparison that incorporates convolutional neural networks (CNN) to process scene information at the fixation level. Image patches linked to respective fixations are used as input for a CNN and the resulting feature vectors provide the temporal and spatial gaze information necessary for scanpath similarity comparison.We evaluated our proposed approach on gaze data from expert and novice dentists interpreting dental radiographs using a local alignment similarity score. Our approach was capable of distinguishing experts from novices with 93% accuracy while incorporating the image semantics. Moreover, our scanpath comparison using image patch features has the potential to incorporate task semantics from a variety of tasks
翻訳日:2022-12-18 00:30:37 公開日:2020-03-31
# エンドツーエンド話者検証のためのメトリクス学習損失関数の比較

A Comparison of Metric Learning Loss Functions for End-To-End Speaker Verification ( http://arxiv.org/abs/2003.14021v1 )

ライセンス: Link先を確認
Juan M. Coria, Herv\'e Bredin, Sahar Ghannay, Sophie Rosset(参考訳) メトリック学習アプローチの人気が高まっているにもかかわらず、これらのテクニックを話者検証のために公正に比較しようとする試みはほとんどない。 このギャップを埋めて,VoxCelebデータセット上で,いくつかのメトリック学習損失関数を体系的に比較する。 損失関数の最初のファミリーは、クロスエントロピー損失(通常は教師付き分類に使用される)から派生し、同次コサイン損失、加法的角縁損失、中心損失を含む。 第2の損失関数ファミリーは、トレーニングサンプル間の類似性に焦点を当て、対照的な損失と三重項損失を含む。 加法的な角縁損失関数は、より堅牢な表現を学習しながら、研究における他のすべての損失関数より優れていることを示す。 本稿では,SincNet のトレーニング可能な機能と x-ベクトルアーキテクチャを組み合わせることで,x-ベクトルベースラインと競合しながら,付加的な角マージン損失と組み合わせることで,真エンドツーエンドの話者検証システムに一歩近づいた。 再現可能な研究の精神では、結果を再現するためのオープンソースのpythonコードもリリースし、事前トレーニングされたpytorchモデルをtorch.hubで共有しています。

Despite the growing popularity of metric learning approaches, very little work has attempted to perform a fair comparison of these techniques for speaker verification. We try to fill this gap and compare several metric learning loss functions in a systematic manner on the VoxCeleb dataset. The first family of loss functions is derived from the cross entropy loss (usually used for supervised classification) and includes the congenerous cosine loss, the additive angular margin loss, and the center loss. The second family of loss functions focuses on the similarity between training samples and includes the contrastive loss and the triplet loss. We show that the additive angular margin loss function outperforms all other loss functions in the study, while learning more robust representations. Based on a combination of SincNet trainable features and the x-vector architecture, the network used in this paper brings us a step closer to a really-end-to-end speaker verification system, when combined with the additive angular margin loss, while still being competitive with the x-vector baseline. In the spirit of reproducible research, we also release open source Python code for reproducing our results, and share pretrained PyTorch models on torch.hub that can be used either directly or after fine-tuning.
翻訳日:2022-12-18 00:30:22 公開日:2020-03-31
# ビデオ深層学習モデルにおける行動認識における動きの関連性の解明

Explaining Motion Relevance for Activity Recognition in Video Deep Learning Models ( http://arxiv.org/abs/2003.14285v1 )

ライセンス: Link先を確認
Liam Hiley and Alun Preece and Yulia Hicks and Supriyo Chakraborty and Prudhvi Gurram and Richard Tomsett(参考訳) 画像認識モデルのために最初に開発された説明可能性技術の小さなサブセットは、最近3次元畳み込みニューラルネットワークモデルの動作認識タスクの解釈可能性に応用されている。 モデルそのものと同様に、3Dインプットと互換性のある変更はほとんど、あるいは全く必要としない。 しかし、これらの説明手法は、空間情報と時間情報を共同で扱う。 したがって、このような説明手法を用いることで、ユーザは3Dモデル決定における動作の役割を明確に区別することはできない。 実際、これらのモデルが適切な動き情報を決定に反映しないことが示されている。 静的な空間的特徴から概念的に分離した動きの人間的理解とよりよく一致させるため,2次元的な説明手法を適応させる選択的関連法を提案する。 提案手法は, 広範に使われている2次元説明手法と併用し, 動作に対する説明選択性の向上を示す。 提案手法は,モデル決定における動作が果たす役割についての洞察を与えるだけでなく,モデルの空間的偏見を明らかにし,定量化することで,人間の消費に関する説明を単純化する。

A small subset of explainability techniques developed initially for image recognition models has recently been applied for interpretability of 3D Convolutional Neural Network models in activity recognition tasks. Much like the models themselves, the techniques require little or no modification to be compatible with 3D inputs. However, these explanation techniques regard spatial and temporal information jointly. Therefore, using such explanation techniques, a user cannot explicitly distinguish the role of motion in a 3D model's decision. In fact, it has been shown that these models do not appropriately factor motion information into their decision. We propose a selective relevance method for adapting the 2D explanation techniques to provide motion-specific explanations, better aligning them with the human understanding of motion as conceptually separate from static spatial features. We demonstrate the utility of our method in conjunction with several widely-used 2D explanation methods, and show that it improves explanation selectivity for motion. Our results show that the selective relevance method can not only provide insight on the role played by motion in the model's decision -- in effect, revealing and quantifying the model's spatial bias -- but the method also simplifies the resulting explanations for human consumption.
翻訳日:2022-12-18 00:29:34 公開日:2020-03-31
# 多変量時系列の逆攻撃

Adversarial Attacks on Multivariate Time Series ( http://arxiv.org/abs/2004.00410v1 )

ライセンス: Link先を確認
Samuel Harford, Fazle Karim and Houshang Darabi(参考訳) 多変量時系列の分類モデルは研究コミュニティで重要になっているが、これらのモデルの逆サンプルを生成する研究はあまり行われていない。 このような敵のサンプルはセキュリティ上の問題になる可能性がある。 本稿では, 既存の逆変換ネットワーク(ATN)を蒸留モデルに変換して, 多変量時系列分類モデルを攻撃することを提案する。 提案した分類モデルに対する攻撃は,古典的多変量時系列分類モデルの動作を模倣したシュロゲートとして蒸留モデルを利用する。 提案手法は、1-Nearest Neighbor Dynamic Time Warping (1-NN DTW) と Fully Convolutional Network (FCN) でテストされ、いずれも東アングリア大学(UEA)とカリフォルニア・リバーサイド大学(UCR)のデータセットでトレーニングされている。 どちらのモデルも18のデータセットすべてに対する攻撃を受けやすいことを示した。 我々の知る限りでは、敵の攻撃は不平等な時系列の領域でのみ行われており、多変量時系列では行われていない。 時系列分類モデルに対する攻撃は これまで一度も行われていない さらに, 時系列分類モデルを開発し, 逆データサンプルをトレーニングデータセットに組み込んで, 逆データに対するレジリエンスを改善し, モデルロバスト性を評価指標として考えることを推奨する。

Classification models for the multivariate time series have gained significant importance in the research community, but not much research has been done on generating adversarial samples for these models. Such samples of adversaries could become a security concern. In this paper, we propose transforming the existing adversarial transformation network (ATN) on a distilled model to attack various multivariate time series classification models. The proposed attack on the classification model utilizes a distilled model as a surrogate that mimics the behavior of the attacked classical multivariate time series classification models. The proposed methodology is tested onto 1-Nearest Neighbor Dynamic Time Warping (1-NN DTW) and a Fully Convolutional Network (FCN), all of which are trained on 18 University of East Anglia (UEA) and University of California Riverside (UCR) datasets. We show both models were susceptible to attacks on all 18 datasets. To the best of our knowledge, adversarial attacks have only been conducted in the domain of univariate time series and have not been conducted on multivariate time series. such an attack on time series classification models has never been done before. Additionally, we recommend future researchers that develop time series classification models to incorporating adversarial data samples into their training data sets to improve resilience on adversarial samples and to consider model robustness as an evaluative metric.
翻訳日:2022-12-18 00:29:01 公開日:2020-03-31
# 深層幾何関数マップ : 形状対応のためのロバスト特徴学習

Deep Geometric Functional Maps: Robust Feature Learning for Shape Correspondence ( http://arxiv.org/abs/2003.14286v1 )

ライセンス: Link先を確認
Nicolas Donati and Abhishek Sharma and Maks Ovsjanikov(参考訳) 非剛体3次元形状間の対応性を計算するための新しい学習手法を提案する。 広範なトレーニングデータを必要とする従来の手法と異なり、手作りの入力記述子で操作する手法は多様なデータセットに分散しにくいが、我々の手法は形状の変化に対して正確かつ堅牢である。 本手法の鍵は,生の形状から直接学習する特徴抽出ネットワークと,機能的地図表現に基づく新たな正規化地図抽出層と損失を組み合わせることである。 我々は,既存の教師付きアプローチよりも少ないトレーニングデータから学習できるような,形状マッチングシナリオに対する広範囲な実験を行い,現在の記述子ベースの学習方法よりもはるかに優れていることを実証する。 私たちのソースコードは、https://github.com/lix-shape- analysis/geomfmapsで利用可能です。

We present a novel learning-based approach for computing correspondences between non-rigid 3D shapes. Unlike previous methods that either require extensive training data or operate on handcrafted input descriptors and thus generalize poorly across diverse datasets, our approach is both accurate and robust to changes in shape structure. Key to our method is a feature-extraction network that learns directly from raw shape geometry, combined with a novel regularized map extraction layer and loss, based on the functional map representation. We demonstrate through extensive experiments in challenging shape matching scenarios that our method can learn from less training data than existing supervised approaches and generalizes significantly better than current descriptor-based learning methods. Our source code is available at: https://github.com/LIX-shape-analysis/GeomFmaps.
翻訳日:2022-12-18 00:22:39 公開日:2020-03-31
# 潜在ディリクレ割当における厳密な辺縁推論

Exact marginal inference in Latent Dirichlet Allocation ( http://arxiv.org/abs/2004.00115v1 )

ライセンス: Link先を確認
Hartmut Maennel(参考訳) 潜在的な " becauses" $z\in Z$ が存在し、既知の確率を持つ "events" $w$ が生成されると仮定する。 我々は、w_1,w_2,...,w_n$を観察し、原因の分布について何が言えるか? ベイズ推定は、$z$ の分布の事前を仮定し(dirichlet pre を仮定する)、後続を計算する。 その後部の平均値から、Z$の分布が得られ、Z$が観測にどれだけ貢献したかが推定される。 これはLatent Dirichlet Allocationの設定で、例えばドキュメント内の「生成」単語のトピックに適用することができる。 この設定では、通常、観察される単語の数は大きいが、潜在的な話題の数は少ない。 ここでは、多くの潜在的な「原因」(地球上の場所など)を持つアプリケーションに興味を持っているが、観測はわずかである。 より正確なベイズ推定は、驚くほど単純な式で与えられた上界の$n$に対して$|Z|$で線形時間(および定数空間)で計算できることを示す。 このアルゴリズムをスパース確率 $\beta(w|z)$ の場合に一般化し、観測上の「相互作用グラフ」の木の幅が限られていると仮定するだけでよい。 一方、そのような制限がなければ、問題はNPハードであることが示される。

Assume we have potential "causes" $z\in Z$, which produce "events" $w$ with known probabilities $\beta(w|z)$. We observe $w_1,w_2,...,w_n$, what can we say about the distribution of the causes? A Bayesian estimate will assume a prior on distributions on $Z$ (we assume a Dirichlet prior) and calculate a posterior. An average over that posterior then gives a distribution on $Z$, which estimates how much each cause $z$ contributed to our observations. This is the setting of Latent Dirichlet Allocation, which can be applied e.g. to topics "producing" words in a document. In this setting usually the number of observed words is large, but the number of potential topics is small. We are here interested in applications with many potential "causes" (e.g. locations on the globe), but only a few observations. We show that the exact Bayesian estimate can be computed in linear time (and constant space) in $|Z|$ for a given upper bound on $n$ with a surprisingly simple formula. We generalize this algorithm to the case of sparse probabilities $\beta(w|z)$, in which we only need to assume that the tree width of an "interaction graph" on the observations is limited. On the other hand we also show that without such limitation the problem is NP-hard.
翻訳日:2022-12-18 00:22:25 公開日:2020-03-31
# 行動空間における探索

Exploration in Action Space ( http://arxiv.org/abs/2004.00500v1 )

ライセンス: Link先を確認
Anirudh Vemula, Wen Sun, J. Andrew Bagnell(参考訳) ブラックボックス最適化を用いたパラメータ空間探索手法は, 連続制御強化学習領域における最先端の手法より優れていることが最近示されている。 本稿では,これらの手法がうまく機能する理由と,従来の行動空間探査法よりも悪い状況について検討する。 簡単な理論解析により,強化学習問題を解くのに必要なパラメトリック複雑性が,作用空間の次元と地平線の長さの積よりも大きい場合,行動空間での探索が望ましいことを示した。 これはまた、いくつかのおもちゃの問題に対する単純な探索法を比較することで実証的に示される。

Parameter space exploration methods with black-box optimization have recently been shown to outperform state-of-the-art approaches in continuous control reinforcement learning domains. In this paper, we examine reasons why these methods work better and the situations in which they are worse than traditional action space exploration methods. Through a simple theoretical analysis, we show that when the parametric complexity required to solve the reinforcement learning problem is greater than the product of action space dimensionality and horizon length, exploration in action space is preferred. This is also shown empirically by comparing simple exploration methods on several toy problems.
翻訳日:2022-12-18 00:22:02 公開日:2020-03-31
# 深層学習のためのプロキシアンカー損失

Proxy Anchor Loss for Deep Metric Learning ( http://arxiv.org/abs/2003.13911v1 )

ライセンス: Link先を確認
Sungyeon Kim, Dongwon Kim, Minsu Cho, Suha Kwak(参考訳) 既存のメトリック学習の損失は、ペアベースとプロキシベースという2つのクラスに分類できる。 前者のクラスは、データポイント間のきめ細かい意味関係を活用できるが、トレーニングの複雑さが高いため、一般的に収束が遅くなる。 対照的に、後者のクラスは高速で信頼性の高い収束を可能にするが、リッチなデータ対データ関係は考慮できない。 本稿では、ペアとプロキシの両方の手法の利点を生かし、それらの制約を克服する新しいプロキシベースの損失を提案する。 プロキシの使用により、私たちの損失は収束のスピードを高め、ノイズの多いラベルや外れ値に対して堅牢です。 同時に、データの埋め込みベクターを勾配で相互に相互作用させ、データ対データ関係を利用することができる。 この手法は4つのベンチマークで評価され、標準ネットワークが最先端のパフォーマンスを達成し、最も高速に収束する。

Existing metric learning losses can be categorized into two classes: pair-based and proxy-based losses. The former class can leverage fine-grained semantic relations between data points, but slows convergence in general due to its high training complexity. In contrast, the latter class enables fast and reliable convergence, but cannot consider the rich data-to-data relations. This paper presents a new proxy-based loss that takes advantages of both pair- and proxy-based methods and overcomes their limitations. Thanks to the use of proxies, our loss boosts the speed of convergence and is robust against noisy labels and outliers. At the same time, it allows embedding vectors of data to interact with each other in its gradients to exploit data-to-data relations. Our method is evaluated on four public benchmarks, where a standard network trained with our loss achieves state-of-the-art performance and most quickly converges.
翻訳日:2022-12-18 00:21:47 公開日:2020-03-31
# 自己注意と離散差容積を用いた自己教師付き単眼訓練深度推定

Self-supervised Monocular Trained Depth Estimation using Self-attention and Discrete Disparity Volume ( http://arxiv.org/abs/2003.13951v1 )

ライセンス: Link先を確認
Adrian Johnston and Gustavo Carneiro(参考訳) 単眼深度推定はコンピュータビジョンにおいて最も研究されている応用の1つとなり、最も正確なアプローチは完全な教師付き学習モデルに基づいている。 しかし、これらの完全教師付き手法をモデル化するための正確で大規模な真実データセットの取得は、この分野のさらなる発展の大きな課題である。 単眼ビデオで訓練された自己監督的手法は、トレーニングデータの広範に利用可能なため、上記の課題を軽減する最も有望なアプローチの一つである。 その結果、それらは集中的に研究され、その主なアイデアは異なる種類のモデルアーキテクチャ、損失関数、および非剛性運動に対処するためのオクルージョンマスクから成っている。 本稿では,自己教師付き単眼訓練深度推定を改善するための2つの新しいアイデアを提案する。 1)自尊心,及び 2)離散的格差予測。 通常の局所畳み込み操作と比較して、セルフアテンションは画像の非連続領域における類似した不一致値の推論を可能にするより一般的な文脈情報を調べることができる。 離散的な不均一性予測は、より一般的な連続的な不確実性予測よりも頑健でシャープな深度推定を提供するために、完全に教師された手法によって示されてきた。 これらの2つのアイデアにより、最先端の自己教師型単分子深度推定器 Monodepth2 の拡張により、KITTI 2015 と Make3D の分野で最高の結果をもたらすモデルを設計でき、自己教師型ステレオトレーニングと完全教師型アプローチでギャップを埋めることができることを示す。

Monocular depth estimation has become one of the most studied applications in computer vision, where the most accurate approaches are based on fully supervised learning models. However, the acquisition of accurate and large ground truth data sets to model these fully supervised methods is a major challenge for the further development of the area. Self-supervised methods trained with monocular videos constitute one the most promising approaches to mitigate the challenge mentioned above due to the wide-spread availability of training data. Consequently, they have been intensively studied, where the main ideas explored consist of different types of model architectures, loss functions, and occlusion masks to address non-rigid motion. In this paper, we propose two new ideas to improve self-supervised monocular trained depth estimation: 1) self-attention, and 2) discrete disparity prediction. Compared with the usual localised convolution operation, self-attention can explore a more general contextual information that allows the inference of similar disparity values at non-contiguous regions of the image. Discrete disparity prediction has been shown by fully supervised methods to provide a more robust and sharper depth estimation than the more common continuous disparity prediction, besides enabling the estimation of depth uncertainty. We show that the extension of the state-of-the-art self-supervised monocular trained depth estimator Monodepth2 with these two ideas allows us to design a model that produces the best results in the field in KITTI 2015 and Make3D, closing the gap with respect self-supervised stereo training and fully supervised approaches.
翻訳日:2022-12-18 00:21:22 公開日:2020-03-31
# ビデオからの情景理解のための蒸留セマンティクス

Distilled Semantics for Comprehensive Scene Understanding from Videos ( http://arxiv.org/abs/2003.14030v1 )

ライセンス: Link先を確認
Fabio Tosi, Filippo Aleotti, Pierluigi Zama Ramirez, Matteo Poggi, Samuele Salti, Luigi Di Stefano and Stefano Mattoccia(参考訳) 環境の完全な理解は自律システムにとって最重要である。 近年の研究では、深層ニューラルネットワークが、地上の真理アノテーションからの明確な監督なしに、モノキュラービデオから幾何学(深度)と運動(光の流れ)を学習できることが示されている。 本稿では,一眼レフカメラによる全体像の理解に向けて,セマンティクスとともに深度や動きを学習し,後者の監視を行う。 3つの課題を共同で解決し イ 知識蒸留及び自己監督に基づく新規な訓練プロトコル b)低消費電力GPUと低消費電力組み込みプラットフォームの両方で効率的なシーン理解を可能にする小型ネットワークアーキテクチャ。 我々は,本フレームワークの性能を徹底的に評価し,モノクロ深度推定,光流,動きのセグメンテーションの最先端結果が得られることを示す。

Whole understanding of the surroundings is paramount to autonomous systems. Recent works have shown that deep neural networks can learn geometry (depth) and motion (optical flow) from a monocular video without any explicit supervision from ground truth annotations, particularly hard to source for these two tasks. In this paper, we take an additional step toward holistic scene understanding with monocular cameras by learning depth and motion alongside with semantics, with supervision for the latter provided by a pre-trained network distilling proxy ground truth images. We address the three tasks jointly by a) a novel training protocol based on knowledge distillation and self-supervision and b) a compact network architecture which enables efficient scene understanding on both power hungry GPUs and low-power embedded platforms. We thoroughly assess the performance of our framework and show that it yields state-of-the-art results for monocular depth estimation, optical flow and motion segmentation.
翻訳日:2022-12-18 00:20:53 公開日:2020-03-31
# 視覚タスクの自己監督型事前トレーニングはどの程度有用か?

How Useful is Self-Supervised Pretraining for Visual Tasks? ( http://arxiv.org/abs/2003.14323v1 )

ライセンス: Link先を確認
Alejandro Newell, Jia Deng(参考訳) 近年の進歩は、ビジョンのための自己監督型事前訓練の驚くべき進歩をもたらした。 本研究は,これらのプリトレーニング手法の有用性にどのような役割を果たせるかを検討する。 そこで本研究では,合成データセットと下流タスクの包括的配列にまたがる,様々な自己教師型アルゴリズムを評価する。 我々は,注釈付き画像の無限供給を可能にするとともに,データセットの難易度を完全に制御できる合成データ群を作成する。 実験では,ラベル数の増加に伴って自己スーパービジョンの有用性がどう変化するか,下流タスクの機能やトレーニングデータの特性としての有用性がどのように変化するか,という知見を提供する。 また,線形評価は微調整性能と相関しないことがわかった。 コードとデータは \href{https://www.github.com/princeton-vl/selfstudy}{github.com/princeton-vl/selfstudy} で入手できる。

Recent advances have spurred incredible progress in self-supervised pretraining for vision. We investigate what factors may play a role in the utility of these pretraining methods for practitioners. To do this, we evaluate various self-supervised algorithms across a comprehensive array of synthetic datasets and downstream tasks. We prepare a suite of synthetic data that enables an endless supply of annotated images as well as full control over dataset difficulty. Our experiments offer insights into how the utility of self-supervision changes as the number of available labels grows as well as how the utility changes as a function of the downstream task and the properties of the training data. We also find that linear evaluation does not correlate with finetuning performance. Code and data is available at \href{https://www.github.com/princeton-vl/selfstudy}{github.com/princeton-vl/selfstudy}.
翻訳日:2022-12-18 00:20:38 公開日:2020-03-31
# UniformAugment: 検索不要な確率的データ拡張アプローチ

UniformAugment: A Search-free Probabilistic Data Augmentation Approach ( http://arxiv.org/abs/2003.14348v1 )

ライセンス: Link先を確認
Tom Ching LingChen, Ava Khonsari, Amirreza Lashkari, Mina Rafi Nazari, Jaspreet Singh Sambee, Mario A. Nascimento(参考訳) トレーニングデータセットの増強は、コンピュータビジョンタスクの学習効率を向上させることが示されている。 良い拡張は、元のデータセットの統計的特性を保持しながら可変性を追加する拡張データセットを生成する。 autoaugmentやfast autoaugmentといったいくつかの技術は、与えられたモデルとデータセットに適した拡張ポリシーを見つけるための検索フェーズを導入した。 これにより、計算オーバーヘッドが大幅に増加し、数千時間のGPU時間が発生する。 より最近のRandAugmentは、探索空間を2つのハイパーパラメータで近似することで、探索フェーズを実質的に高速化するが、調整には無視できないコストがかかる。 本稿では,拡張空間がほぼ分布不変であるという仮定の下で,拡張変換の連続空間上の一様サンプリングは,高効率なモデルを訓練するのに十分であることを示す。 この結果に基づいて,検索フェーズを完全に回避する自動データ拡張手法であるuniformaugmentを提案する。 提案手法を支持する理論的基盤の議論に加えて,画像分類のための標準データセットや確立されたモデルを用いて,UniformAugmentの有効性は上記の手法に匹敵するが,検索を必要とせず,高効率であることを示す。

Augmenting training datasets has been shown to improve the learning effectiveness for several computer vision tasks. A good augmentation produces an augmented dataset that adds variability while retaining the statistical properties of the original dataset. Some techniques, such as AutoAugment and Fast AutoAugment, have introduced a search phase to find a set of suitable augmentation policies for a given model and dataset. This comes at the cost of great computational overhead, adding up to several thousand GPU hours. More recently RandAugment was proposed to substantially speedup the search phase by approximating the search space by a couple of hyperparameters, but still incurring non-negligible cost for tuning those. In this paper we show that, under the assumption that the augmentation space is approximately distribution invariant, a uniform sampling over the continuous space of augmentation transformations is sufficient to train highly effective models. Based on that result we propose UniformAugment, an automated data augmentation approach that completely avoids a search phase. In addition to discussing the theoretical underpinning supporting our approach, we also use the standard datasets, as well as established models for image classification, to show that UniformAugment's effectiveness is comparable to the aforementioned methods, while still being highly efficient by virtue of not requiring any search.
翻訳日:2022-12-18 00:20:22 公開日:2020-03-31
# AM-MobileNet1D:話者認識のためのポータブルモデル

AM-MobileNet1D: A Portable Model for Speaker Recognition ( http://arxiv.org/abs/2004.00132v1 )

ライセンス: Link先を確認
Jo\~ao Ant\^onio Chagas Nunes, David Mac\^edo, Cleber Zanchettin(参考訳) 話者認識と話者識別は、自動化、認証、セキュリティといった重要なアプリケーションで課題となるタスクである。 SincNetやAM-SincNetのようなディープラーニングアプローチは、これらのタスクに素晴らしい結果をもたらした。 有望なパフォーマンスにより、これらのモデルは、基本的にエンドユーザ駆動で、主にモバイルとなる現実のアプリケーションへと移行した。 モバイル計算は、ストレージサイズ、非処理、メモリ集約的かつ効率的なエネルギー消費の少ないアプリケーションを必要とする。 対照的にディープラーニングのアプローチは、通常、エネルギーコストが高く、ストレージ、処理能力、メモリを必要とする。 この要求に対処するため,モバイルデバイス上で話者識別を行うためのAdditive Margin MobileNet1D (AM-MobileNet1D) というポータブルモデルを提案する。 提案手法をTIMITとMITのデータセットで評価し,ベースライン法について同等あるいはより良い性能を示した。 さらに、提案されたモデルは、sincnetとam-sincnetアーキテクチャの91.2に対してディスクストレージでわずか11.6メガバイトしか消費せず、8倍のパラメータでモデルが7倍高速になった。

Speaker Recognition and Speaker Identification are challenging tasks with essential applications such as automation, authentication, and security. Deep learning approaches like SincNet and AM-SincNet presented great results on these tasks. The promising performance took these models to real-world applications that becoming fundamentally end-user driven and mostly mobile. The mobile computation requires applications with reduced storage size, non-processing and memory intensive and efficient energy-consuming. The deep learning approaches, in contrast, usually are energy expensive, demanding storage, processing power, and memory. To address this demand, we propose a portable model called Additive Margin MobileNet1D (AM-MobileNet1D) to Speaker Identification on mobile devices. We evaluated the proposed approach on TIMIT and MIT datasets obtaining equivalent or better performances concerning the baseline methods. Additionally, the proposed model takes only 11.6 megabytes on disk storage against 91.2 from SincNet and AM-SincNet architectures, making the model seven times faster, with eight times fewer parameters.
翻訳日:2022-12-18 00:19:59 公開日:2020-03-31
# ローマ・ウルドゥー語の語彙正規化のためのクラスタリングフレームワーク

A Clustering Framework for Lexical Normalization of Roman Urdu ( http://arxiv.org/abs/2004.00088v1 )

ライセンス: Link先を確認
Abdul Rafae Khan, Asim Karim, Hassan Sajjad, Faisal Kamiran, and Jia Xu(参考訳) ローマ・ウルドゥ語(英語: roman urdu)は、南アジアで広く使われているウルドゥ語の非公式な形式である。 標準的な綴りがないため、自動言語処理においていくつかの正規化の課題が生じる。 本稿では,音声アルゴリズムのUrduPhone,文字列マッチングコンポーネント,特徴量に基づく類似関数,クラスタリングアルゴリズムのLex-Varを含む,ロマ・ウルドゥコーパスの語彙正規化のための特徴量クラスタリングフレームワークを提案する。 UrduPhoneはローマのウルドゥー文字列を発音に基づく表現にエンコードする。 文字列マッチングコンポーネントは、ローマ文字を使用してUrduを書くときに発生する文字レベルのバリエーションを処理する。

Roman Urdu is an informal form of the Urdu language written in Roman script, which is widely used in South Asia for online textual content. It lacks standard spelling and hence poses several normalization challenges during automatic language processing. In this article, we present a feature-based clustering framework for the lexical normalization of Roman Urdu corpora, which includes a phonetic algorithm UrduPhone, a string matching component, a feature-based similarity function, and a clustering algorithm Lex-Var. UrduPhone encodes Roman Urdu strings to their pronunciation-based representations. The string matching component handles character-level variations that occur when writing Urdu using Roman script.
翻訳日:2022-12-18 00:13:30 公開日:2020-03-31
# deepsumm --neural transformerアーキテクチャを用いたディープコード要約

DeepSumm -- Deep Code Summaries using Neural Transformer Architecture ( http://arxiv.org/abs/2004.00998v1 )

ライセンス: Link先を確認
Vivek Gupta(参考訳) ソースコードの要約は、実行中のソースコードの振る舞いを簡潔で自然言語で記述するタスクである。 このような要約はソフトウェア開発やメンテナンスには非常に有用だが、手作業で書くのに高価である。 自動的なコードドキュメンテーションは、これを低コストで解決できる。 これは、プログラム理解やソフトウェアのメンテナンスのためのさらなる応用を含む、新たな研究分野である。 従来の手法はテンプレートやヒューリスティックスによって構築された認知モデルに依存しており、開発者コミュニティによる採用度は様々である。 しかし、最近の進歩により、ニューラルネットワークに基づくエンドツーエンドのデータ駆動アプローチが従来の手法を大きく上回っている。 現在のランドスケープの多くは、リソースと時間集約的なトレーニング手順である繰り返しと注意を伴うニューラルネットワークベースのアーキテクチャを採用している。 本稿では,NMTに基づく手法を要約し,特にJavaメソッドやコメントのデータセット上で,よりシンプルで魅力的なTransformerアーキテクチャと比較するために,ニューラルネットワークを用いる。 我々は,訓練手順における再発の必要をなくすための議論を提起する。 我々の知る限りでは、トランスフォーマーベースのモデルがこのタスクに使われていない。 2.1m以上のコメントとコードの教師ありサンプルで、トレーニング時間を50%以上削減し、テストセットのテストで17.99のbleuスコアを達成します。

Source code summarizing is a task of writing short, natural language descriptions of source code behavior during run time. Such summaries are extremely useful for software development and maintenance but are expensive to manually author,hence it is done for small fraction of the code that is produced and is often ignored. Automatic code documentation can possibly solve this at a low cost. This is thus an emerging research field with further applications to program comprehension, and software maintenance. Traditional methods often relied on cognitive models that were built in the form of templates and by heuristics and had varying degree of adoption by the developer community. But with recent advancements, end to end data-driven approaches based on neural techniques have largely overtaken the traditional techniques. Much of the current landscape employs neural translation based architectures with recurrence and attention which is resource and time intensive training procedure. In this paper, we employ neural techniques to solve the task of source code summarizing and specifically compare NMT based techniques to more simplified and appealing Transformer architecture on a dataset of Java methods and comments. We bring forth an argument to dispense the need of recurrence in the training procedure. To the best of our knowledge, transformer based models have not been used for the task before. With supervised samples of more than 2.1m comments and code, we reduce the training time by more than 50% and achieve the BLEU score of 17.99 for the test set of examples.
翻訳日:2022-12-18 00:13:19 公開日:2020-03-31
# 対向モデル学習によるローリング水平進化アルゴリズムの強化:ファイティングゲームAIコンペティションの結果

Enhanced Rolling Horizon Evolution Algorithm with Opponent Model Learning: Results for the Fighting Game AI Competition ( http://arxiv.org/abs/2003.13949v1 )

ライセンス: Link先を確認
Zhentao Tang, Yuanheng Zhu, Dongbin Zhao, Simon M. Lucas(参考訳) ファイティングゲームAIコンペティション(FTGAIC)は、2プレイヤーのビデオゲームAIのための挑戦的なベンチマークを提供する。 この挑戦は、大きなアクションスペース、キャラクターと能力の多様なスタイル、ゲームのリアルタイムな性質から生じる。 本稿では,RHEA(Rolling Horizon Evolution Algorithm)と対向モデル学習を組み合わせた新しいアルゴリズムを提案する。 このアプローチは、どの2プレイヤーのビデオゲームにも容易に適用できる。 従来のRHEAとは対照的に,クロスエントロピーによる教師付き学習と,政策勾配による強化学習,Q学習によって,相手の履歴観測に基づいて最適化されたモデルを提案する。 モデルはライブゲームプレイ中に学習される。 学習した対戦モデルでは、拡張されたRHEAは、対戦相手が何をするかに基づいて、より現実的な計画を立てることができます。 これはより良い結果をもたらす傾向がある。 われわれのアプローチをFTGAIC 2018コンペティションのボットと直接比較したところ、我々の手法は3文字すべてで、それら全てを大幅に上回っていることがわかった。 さらに、ポリシーに基づく対戦型ボットは、2019年のトップ5の中でモンテカルロツリーサーチ(MCTS)を使わない唯一のボットであり、勝者よりもドメイン知識がはるかに少ない。

The Fighting Game AI Competition (FTGAIC) provides a challenging benchmark for 2-player video game AI. The challenge arises from the large action space, diverse styles of characters and abilities, and the real-time nature of the game. In this paper, we propose a novel algorithm that combines Rolling Horizon Evolution Algorithm (RHEA) with opponent model learning. The approach is readily applicable to any 2-player video game. In contrast to conventional RHEA, an opponent model is proposed and is optimized by supervised learning with cross-entropy and reinforcement learning with policy gradient and Q-learning respectively, based on history observations from opponent. The model is learned during the live gameplay. With the learned opponent model, the extended RHEA is able to make more realistic plans based on what the opponent is likely to do. This tends to lead to better results. We compared our approach directly with the bots from the FTGAIC 2018 competition, and found our method to significantly outperform all of them, for all three character. Furthermore, our proposed bot with the policy-gradient-based opponent model is the only one without using Monte-Carlo Tree Search (MCTS) among top five bots in the 2019 competition in which it achieved second place, while using much less domain knowledge than the winner.
翻訳日:2022-12-18 00:12:24 公開日:2020-03-31
# 意識マシンはあるだろうか?

Will we ever have Conscious Machines? ( http://arxiv.org/abs/2003.14132v1 )

ライセンス: Link先を確認
Patrick Krauss, Andreas Maier(参考訳) 人工物や機械が自意識や意識になるかどうかという問題は、何世紀にもわたって哲学的な問題であった。 主な問題は、外部の視点では自己認識が観察できないことと、何かが本当に自己認識であるかどうか、あるいはそれを装ってメカニズムの内部動作に関する正確な知識がなければ答えられない、巧妙なプログラムの区別である。 本稿では,これらの発展に関する現状を概観し,自己認識能力に関する一般的な機械学習アプローチについて検討する。 コア意識を持つ機械に対する多くの重要なアルゴリズムステップがすでに考案されていることに気付きました。 しかし、人間レベルの知性については、さらに多くの技術が発見される必要がある。

The question of whether artificial beings or machines could become self-aware or consciousness has been a philosophical question for centuries. The main problem is that self-awareness cannot be observed from an outside perspective and the distinction of whether something is really self-aware or merely a clever program that pretends to do so cannot be answered without access to accurate knowledge about the mechanism's inner workings. We review the current state-of-the-art regarding these developments and investigate common machine learning approaches with respect to their potential ability to become self-aware. We realise that many important algorithmic steps towards machines with a core consciousness have already been devised. For human-level intelligence, however, many additional techniques have to be discovered.
翻訳日:2022-12-18 00:11:58 公開日:2020-03-31
# MTL-NAS:汎用マルチタスク学習に向けたタスク非依存ニューラルネットワーク探索

MTL-NAS: Task-Agnostic Neural Architecture Search towards General-Purpose Multi-Task Learning ( http://arxiv.org/abs/2003.14058v1 )

ライセンス: Link先を確認
Yuan Gao, Haoping Bai, Zequn Jie, Jiayi Ma, Kui Jia, and Wei Liu(参考訳) 汎用マルチタスク学習(GP-MTL)にニューラルアーキテクチャサーチ(NAS)を導入することを提案する。 既存のNASメソッドは通常、異なるタスクに応じて異なる検索空間を定義する。 異なるタスクの組み合わせ(すなわちタスクセット)に適応するために、gp-mtlネットワークをシングルタスクバックボーン(オプションでタスクをプリエントする)と階層的および階層的なフィーチャの共有/融合スキームに分割します。 これにより、固定された単一タスクネットワークのバックボーンにクロスタスクエッジ(機能融合接続)を挿入する、新規で一般的なタスクに依存しない検索空間を設計できる。 さらに,検索されたアーキテクチャと最終評価アーキテクチャの性能ギャップを解消する,新しいシングルショット勾配に基づく探索アルゴリズムを提案する。 これは探索期間中のアーキテクチャ重みの最小エントロピー正規化によって実現され、これによりアーキテクチャ重みがほぼ離散値に収束し、単一のモデルが得られる。 その結果,検索したモデルをスクラッチから(再)学習することなく直接評価できることがわかった。 我々は,様々なタスクセット上で異なるシングルタスクバックボーンを用いた広範囲な実験を行い,階層的および階層的特徴を生かして得られる有望な性能と,異なる汎用性を示す。 一 タスクセット及び ii)シングルタスクバックボーン。 私たちの論文のコードはhttps://github.com/bhpfelix/mtlnasで閲覧できます。

We propose to incorporate neural architecture search (NAS) into general-purpose multi-task learning (GP-MTL). Existing NAS methods typically define different search spaces according to different tasks. In order to adapt to different task combinations (i.e., task sets), we disentangle the GP-MTL networks into single-task backbones (optionally encode the task priors), and a hierarchical and layerwise features sharing/fusing scheme across them. This enables us to design a novel and general task-agnostic search space, which inserts cross-task edges (i.e., feature fusion connections) into fixed single-task network backbones. Moreover, we also propose a novel single-shot gradient-based search algorithm that closes the performance gap between the searched architectures and the final evaluation architecture. This is realized with a minimum entropy regularization on the architecture weights during the search phase, which makes the architecture weights converge to near-discrete values and therefore achieves a single model. As a result, our searched model can be directly used for evaluation without (re-)training from scratch. We perform extensive experiments using different single-task backbones on various task sets, demonstrating the promising performance obtained by exploiting the hierarchical and layerwise features, as well as the desirable generalizability to different i) task sets and ii) single-task backbones. The code of our paper is available at https://github.com/bhpfelix/MTLNAS.
翻訳日:2022-12-18 00:05:21 公開日:2020-03-31
# タスク認識連続学習のための条件付きチャネルゲーテッドネットワーク

Conditional Channel Gated Networks for Task-Aware Continual Learning ( http://arxiv.org/abs/2004.00070v1 )

ライセンス: Link先を確認
Davide Abati, Jakub Tomczak, Tijmen Blankevoort, Simone Calderara, Rita Cucchiara, Babak Ehteshami Bejnordi(参考訳) 畳み込みニューラルネットワーク(convolutional neural network)は、学習問題の列に最適化された場合、壊滅的な遅れを経験する。 本研究では,条件付き計算でこの問題に対処する新しい枠組みを提案する。 我々は各畳み込み層にタスク固有のゲーティングモジュールを設け、与えられた入力にどのフィルタを適用するかを選択する。 このようにして、2つの魅力的な性質が得られる。 まず、ゲートの実行パターンによって重要なフィルタの識別と保護が可能になり、学習済みのタスクでモデルのパフォーマンスが損なわれないようにします。 第二に、sparsityの目的を用いることで、限られた一連のカーネルの選択を促進することができ、新しいタスクを消化する十分なモデル能力を保持することができる。 しかし、この知識は多くの実践的なシナリオでは利用できないかもしれない。 そこで我々は,各例のタスクラベルを予測するタスク分類器を導入して,oracle タスクが利用できないような設定に対処します。 提案手法を4つの連続学習データセットで検証する。 その結果、我々のモデルはタスク・オラクルの存在と欠如の両方において既存の手法を一貫して上回ります。 特に、Split SVHNとImagenet-50データセットでは、競合する手法で最大23.98%と17.42%の改善が得られた。

Convolutional Neural Networks experience catastrophic forgetting when optimized on a sequence of learning problems: as they meet the objective of the current training examples, their performance on previous tasks drops drastically. In this work, we introduce a novel framework to tackle this problem with conditional computation. We equip each convolutional layer with task-specific gating modules, selecting which filters to apply on the given input. This way, we achieve two appealing properties. Firstly, the execution patterns of the gates allow to identify and protect important filters, ensuring no loss in the performance of the model for previously learned tasks. Secondly, by using a sparsity objective, we can promote the selection of a limited set of kernels, allowing to retain sufficient model capacity to digest new tasks.Existing solutions require, at test time, awareness of the task to which each example belongs to. This knowledge, however, may not be available in many practical scenarios. Therefore, we additionally introduce a task classifier that predicts the task label of each example, to deal with settings in which a task oracle is not available. We validate our proposal on four continual learning datasets. Results show that our model consistently outperforms existing methods both in the presence and the absence of a task oracle. Notably, on Split SVHN and Imagenet-50 datasets, our model yields up to 23.98% and 17.42% improvement in accuracy w.r.t. competing methods.
翻訳日:2022-12-18 00:04:17 公開日:2020-03-31
# 生成逆数ネットワークの潜在レベル設計空間における相互進化と探索

Interactive Evolution and Exploration Within Latent Level-Design Space of Generative Adversarial Networks ( http://arxiv.org/abs/2004.00151v1 )

ライセンス: Link先を確認
Jacob Schrum, Jake Gutierrez, Vanessa Volz, Jialin Liu, Simon Lucas, and Sebastian Risi(参考訳) GAN(Generative Adversarial Networks)は、間接符号化の一種である。 GANはトレーニングデータに潜伏空間を誘導する訓練を受けており、実際の進化的アルゴリズムはその潜伏空間を探索することができる。 このような潜在変数進化(LVE)は、最近ゲームレベルに適用されている。 しかし、客観的スコアがプレイヤーにアピールするレベル特徴を捉えることは困難である。 そこで本稿では,ゲーム用タイルレベルの対話型lveツールを提案する。 このツールは潜在次元を直接探索することもできますし、検出されたレベルをプレイすることも可能です。 このツールはスーパーマリオブラザーズとゼルダ伝説のために訓練された様々なGANモデルに対応しており、他のゲームにも容易に一般化できる。 ユーザー調査の結果、進化と潜在宇宙探査の両方の機能が評価され、直接探査にわずかに好まれるが、これらの機能を組み合わせることで、ユーザーはより優れたレベルを発見できる。 ユーザからのフィードバックは、このシステムが最終的に商用設計ツールに成長する可能性を示している。

Generative Adversarial Networks (GANs) are an emerging form of indirect encoding. The GAN is trained to induce a latent space on training data, and a real-valued evolutionary algorithm can search that latent space. Such Latent Variable Evolution (LVE) has recently been applied to game levels. However, it is hard for objective scores to capture level features that are appealing to players. Therefore, this paper introduces a tool for interactive LVE of tile-based levels for games. The tool also allows for direct exploration of the latent dimensions, and allows users to play discovered levels. The tool works for a variety of GAN models trained for both Super Mario Bros. and The Legend of Zelda, and is easily generalizable to other games. A user study shows that both the evolution and latent space exploration features are appreciated, with a slight preference for direct exploration, but combining these features allows users to discover even better levels. User feedback also indicates how this system could eventually grow into a commercial design tool, with the addition of a few enhancements.
翻訳日:2022-12-18 00:03:21 公開日:2020-03-31
# マクロエージェントとその作用

A macro agent and its actions ( http://arxiv.org/abs/2004.00058v1 )

ライセンス: Link先を確認
Larissa Albantakis, Francesco Massari, Maggie Beheler-Amass and Giulio Tononi(参考訳) 科学において、複雑な力学系における因果的相互作用のマクロレベル記述は、一般的に便利であるとみなされるが、最終的には基礎となる微小成分の完全な因果的説明に還元される。 しかし、そのような還元主義的な視点は、自律性や機関に関するいくつかの問題、すなわち、(1)エージェントは環境から切り離す(causal)境界を必要とし、(2)少なくとも生物学的文脈では、エージェントはマクロシステムと関連づけられ、(3)エージェントは環境に作用することが求められている。 統合情報理論 (IIT) (Oizumi et al., 2014) は、因果的特異性、構成、既約性といった概念を含む一連の因果的原理に基づく因果関係の定量的な説明を提供する。 第一に、IIT形式主義は、複数のシステム要素からなる既約高次機構を含むシステムの因果構造の完全な説明を提供する。 第2に、システムの統合情報量($\phi$)は、システムが自身に作用する因果的制約を測定し、マクロな記述レベルでピークに達することができる(hoel et al., 2016; marshall et al., 2018)。 最後に、iitの因果原理は、エージェントの行動(albantakis et al., 2019)のような事象の実際の原因(何を引き起こすか)を特定し、定量化するためにも用いられる。 ここでは、このフレームワークを、小さなニューラルネットワークを備えたシミュレーションエージェントの例で示し、マクロスケールで最大$\phi$を形成する。

In science, macro level descriptions of the causal interactions within complex, dynamical systems are typically deemed convenient, but ultimately reducible to a complete causal account of the underlying micro constituents. Yet, such a reductionist perspective is hard to square with several issues related to autonomy and agency: (1) agents require (causal) borders that separate them from the environment, (2) at least in a biological context, agents are associated with macroscopic systems, and (3) agents are supposed to act upon their environment. Integrated information theory (IIT) (Oizumi et al., 2014) offers a quantitative account of causation based on a set of causal principles, including notions such as causal specificity, composition, and irreducibility, that challenges the reductionist perspective in multiple ways. First, the IIT formalism provides a complete account of a system's causal structure, including irreducible higher-order mechanisms constituted of multiple system elements. Second, a system's amount of integrated information ($\Phi$) measures the causal constraints a system exerts onto itself and can peak at a macro level of description (Hoel et al., 2016; Marshall et al., 2018). Finally, the causal principles of IIT can also be employed to identify and quantify the actual causes of events ("what caused what"), such as an agent's actions (Albantakis et al., 2019). Here, we demonstrate this framework by example of a simulated agent, equipped with a small neural network, that forms a maximum of $\Phi$ at a macro scale.
翻訳日:2022-12-18 00:03:04 公開日:2020-03-31
# SPARQA:知識ベースに関する複雑な質問に対する骨格に基づく意味解析

SPARQA: Skeleton-based Semantic Parsing for Complex Questions over Knowledge Bases ( http://arxiv.org/abs/2003.13956v1 )

ライセンス: Link先を確認
Yawei Sun, Lingling Zhang, Gong Cheng, Yuzhong Qu(参考訳) 意味解析は、自然言語の質問を知識ベース上の正式なクエリに変換する。 既存のメソッドの多くは、依存関係のような構文解析に依存している。 しかし、そのような表現的形式化の正確さは、長い複雑な問題では満足できない。 本稿では,複雑な質問の高次構造を表現するための新しいスケルトン文法を提案する。 BERTをベースとしたパースアルゴリズムを用いたこの厳密な形式化は、下流の微細なセマンティック解析の精度を向上させるのに役立つ。 さらに,質問の構造を知識ベースの構造と整合させるために,文レベルと単語レベルのセマンティクスを組み合わせた多戦略手法を提案する。 このアプローチは、いくつかのデータセットで有望なパフォーマンスを示す。

Semantic parsing transforms a natural language question into a formal query over a knowledge base. Many existing methods rely on syntactic parsing like dependencies. However, the accuracy of producing such expressive formalisms is not satisfying on long complex questions. In this paper, we propose a novel skeleton grammar to represent the high-level structure of a complex question. This dedicated coarse-grained formalism with a BERT-based parsing algorithm helps to improve the accuracy of the downstream fine-grained semantic parsing. Besides, to align the structure of a question with the structure of a knowledge base, our multi-strategy method combines sentence-level and word-level semantics. Our approach shows promising performance on several datasets.
翻訳日:2022-12-18 00:02:34 公開日:2020-03-31
# 統計的・神経機械翻訳への言語的特徴の統合について

On the Integration of LinguisticFeatures into Statistical and Neural Machine Translation ( http://arxiv.org/abs/2003.14324v1 )

ライセンス: Link先を確認
Eva Vanmassenhove(参考訳) 新しい機械翻訳(MT)技術は急速に発展し、それとともに、次のような大胆な主張がなされている。 (i)「平均的バイリンガル人訳者によって達成された正確性」(Wu et al., 2017b)又は (ii)「翻訳の質は、専門家の翻訳者と比較して人間と同等である」(Hassan et al., 2018)は、日の光を見た(Laubli et al., 2018)。 これらの論文の多くは、人間のパリティの定義を独自に作っているが、これらのセンセーショナルな主張は翻訳に関わるすべての側面の完全な分析によっては支持されないことが多い。 MTに対する統計的アプローチの強みと人間が翻訳する方法の相違が、我々の研究の出発点となっている。 MTのアウトプットと言語理論を調べた結果,残りの課題が判明した。 問題は、単純な数と性別の一致誤差から、アスペクト値や時制の正しい翻訳のようなより複雑な現象まで様々である。 我々の実験は、他の研究(Bentivogli et al., 2016)とともに、多くの点で統計的MTを上回っていることを確認した。 しかし、問題がいくつか残っており、他の問題も発生している。 本稿では,特定の言語的特徴の統計的および神経的MTへの統合に関する一連の問題を取り上げ,その分析と解決を目的とした。 本研究は,言語学とmtの複雑な関係を中心に,3つの研究課題を提起する。 自動翻訳システムがより正確な翻訳を生成するために不足している言語情報を識別し、既存のパイプラインに機能を追加する。 我々は,神経mtの潜在的な欠点として,超一般化や「言語バイアス」を同定し,残りの言語問題と関連付ける。

New machine translations (MT) technologies are emerging rapidly and with them, bold claims of achieving human parity such as: (i) the results produced approach "accuracy achieved by average bilingual human translators" (Wu et al., 2017b) or (ii) the "translation quality is at human parity when compared to professional human translators" (Hassan et al., 2018) have seen the light of day (Laubli et al., 2018). Aside from the fact that many of these papers craft their own definition of human parity, these sensational claims are often not supported by a complete analysis of all aspects involved in translation. Establishing the discrepancies between the strengths of statistical approaches to MT and the way humans translate has been the starting point of our research. By looking at MT output and linguistic theory, we were able to identify some remaining issues. The problems range from simple number and gender agreement errors to more complex phenomena such as the correct translation of aspectual values and tenses. Our experiments confirm, along with other studies (Bentivogli et al., 2016), that neural MT has surpassed statistical MT in many aspects. However, some problems remain and others have emerged. We cover a series of problems related to the integration of specific linguistic features into statistical and neural MT, aiming to analyse and provide a solution to some of them. Our work focuses on addressing three main research questions that revolve around the complex relationship between linguistics and MT in general. We identify linguistic information that is lacking in order for automatic translation systems to produce more accurate translations and integrate additional features into the existing pipelines. We identify overgeneralization or 'algorithmic bias' as a potential drawback of neural MT and link it to many of the remaining linguistic issues.
翻訳日:2022-12-18 00:02:22 公開日:2020-03-31
# サイバーセキュリティの知的名前付きエンティティ認識のための深層学習手法

Deep Learning Approach for Intelligent Named Entity Recognition of Cyber Security ( http://arxiv.org/abs/2004.00502v1 )

ライセンス: Link先を確認
Simran K, Sriram S, Vinayakumar R, Soman KP(参考訳) 近年, ソーシャルメディア資源, ブログ, 記事など, 構造化されていないテキスト形式で生成されたサイバーセキュリティデータの量は著しく増加している。 名前付きエンティティ認識(NER)は、この非構造化データを多くのアプリケーションで使用できる構造化データに変換するための最初のステップである。 サイバーセキュリティデータに対するNERの既存の手法はルールと言語的特徴に基づいている。 本稿では,条件付きランダムフィールド(CRF)を組み込んだディープラーニング(DL)に基づくアプローチを提案する。 いくつかのDLアーキテクチャを評価し、最も最適なアーキテクチャを見つける。 Bidirectional Gated Recurrent Unit(Bi-GRU)、Convolutional Neural Network(CNN)、CRFの組み合わせは、公開されているベンチマークデータセット上の他のDLフレームワークと比較してパフォーマンスが良くなった。 これは、双方向構造が将来の単語と前の単語に関する特徴を連続的に保存しているためかもしれない。

In recent years, the amount of Cyber Security data generated in the form of unstructured texts, for example, social media resources, blogs, articles, and so on has exceptionally increased. Named Entity Recognition (NER) is an initial step towards converting this unstructured data into structured data which can be used by a lot of applications. The existing methods on NER for Cyber Security data are based on rules and linguistic characteristics. A Deep Learning (DL) based approach embedded with Conditional Random Fields (CRFs) is proposed in this paper. Several DL architectures are evaluated to find the most optimal architecture. The combination of Bidirectional Gated Recurrent Unit (Bi-GRU), Convolutional Neural Network (CNN), and CRF performed better compared to various other DL frameworks on a publicly available benchmark dataset. This may be due to the reason that the bidirectional structures preserve the features related to the future and previous words in a sequence.
翻訳日:2022-12-17 23:55:42 公開日:2020-03-31
# バイナリニューラルネットワーク:調査

Binary Neural Networks: A Survey ( http://arxiv.org/abs/2004.03333v1 )

ライセンス: Link先を確認
Haotong Qin, Ruihao Gong, Xianglong Liu, Xiao Bai, Jingkuan Song, Nicu Sebe(参考訳) ストレージと計算を大幅に節約するバイナリニューラルネットワークは、リソース制限されたデバイスにディープモデルをデプロイするための有望なテクニックとして機能する。 しかし、バイナライゼーションは必然的に深刻な情報損失を引き起こし、さらに悪いことに、その不連続性はディープネットワークの最適化に困難をもたらす。 これらの問題に対処するために, 様々なアルゴリズムが提案され, 近年の進歩が達成されている。 本稿では,2項化を直接実施するネイティブソリューションと,量子化誤差の最小化,ネットワーク損失関数の改善,勾配誤差の低減といった手法を用いて,これらのアルゴリズムを網羅的に調査する。 また,ハードウェアフレンドリな設計やトレーニングトリックなど,バイナリニューラルネットワークの他の実用的な側面についても検討する。 次に,画像分類,オブジェクト検出,セマンティックセグメンテーションなど,さまざまなタスクの評価と議論を行う。 最後に、今後の研究で直面するであろう課題が予想される。

The binary neural network, largely saving the storage and computation, serves as a promising technique for deploying deep models on resource-limited devices. However, the binarization inevitably causes severe information loss, and even worse, its discontinuity brings difficulty to the optimization of the deep network. To address these issues, a variety of algorithms have been proposed, and achieved satisfying progress in recent years. In this paper, we present a comprehensive survey of these algorithms, mainly categorized into the native solutions directly conducting binarization, and the optimized ones using techniques like minimizing the quantization error, improving the network loss function, and reducing the gradient error. We also investigate other practical aspects of binary neural networks such as the hardware-friendly design and the training tricks. Then, we give the evaluation and discussions on different tasks, including image classification, object detection and semantic segmentation. Finally, the challenges that may be faced in future research are prospected.
翻訳日:2022-12-17 23:55:00 公開日:2020-03-31
# Twitter Streamにおける強化サイバー脅威指標のためのディープラーニングアプローチ

Deep Learning Approach for Enhanced Cyber Threat Indicators in Twitter Stream ( http://arxiv.org/abs/2004.00503v1 )

ライセンス: Link先を確認
Simran K, Prathiksha Balakrishna, Vinayakumar R, Soman KP(参考訳) 近年は、主にTwitterを通じて共有されるサイバーセキュリティのテキストデータの量が増加している。 このデータの正確な分析は、サイバー脅威に対する状況認識フレームワークの開発に役立つ。 本研究は,ツイートデータ分析のための深層学習に基づくアプローチを提案する。 ツイートを数値表現に変換するには、様々なテキスト表現を用いる。 これらの機能は、最適な特徴抽出と分類のためにディープラーニングアーキテクチャにフィードされる。 様々なハイパーパラメータチューニング手法を用いて、最適なテキスト表現法と、ディープラーニングモデルのための最適なネットワークパラメータとネットワーク構造を同定する。 比較分析には古典的機械学習アルゴリズムを用いた古典的テキスト表現法を用いる。 実験の詳細な分析から,高度なテキスト表現手法を用いたディープラーニングアーキテクチャは,古典的テキスト表現や古典的機械学習アルゴリズムよりも優れた性能を示した。 この主な理由は、高度なテキスト表現手法は、テキストデータの間に存在するシーケンシャルプロパティを学習する能力を持ち、ディープラーニングアーキテクチャは、特徴サイズの縮小とともに、最適な特徴を学習する。

In recent days, the amount of Cyber Security text data shared via social media resources mainly Twitter has increased. An accurate analysis of this data can help to develop cyber threat situational awareness framework for a cyber threat. This work proposes a deep learning based approach for tweet data analysis. To convert the tweets into numerical representations, various text representations are employed. These features are feed into deep learning architecture for optimal feature extraction as well as classification. Various hyperparameter tuning approaches are used for identifying optimal text representation method as well as optimal network parameters and network structures for deep learning models. For comparative analysis, the classical text representation method with classical machine learning algorithm is employed. From the detailed analysis of experiments, we found that the deep learning architecture with advanced text representation methods performed better than the classical text representation and classical machine learning algorithms. The primary reason for this is that the advanced text representation methods have the capability to learn sequential properties which exist among the textual data and deep learning architectures learns the optimal features along with decreasing the feature size.
翻訳日:2022-12-17 23:54:44 公開日:2020-03-31
# リアルタイム入札における探索のない最適入札戦略

Optimal Bidding Strategy without Exploration in Real-time Bidding ( http://arxiv.org/abs/2004.00100v1 )

ライセンス: Link先を確認
Aritra Ghosh, Saayan Mitra, Somdeb Sarkhel, Viswanathan Swaminathan(参考訳) 予算制約によるユーティリティの最大化は、リアルタイム入札(RTB)システムにおける広告主の主要な目標である。 効用を最大化する政策は最適入札戦略(optimize bidding strategy)と呼ばれる。 最適な入札戦略に関する以前の研究は、未知の予算や時間制約に一般化できないモデルベースのバッチ強化学習手法を適用している。 さらに、広告主は、バッチテストデータセットで直接評価できない検閲された市場価格を観察する。 以前の作品では、検閲された状態の難しさを和らげるために落札されたオークションを無視している。 本稿では,RTBシステムにおけるバッチ強化学習手法による誤りと,明確な評価手順の欠如に対処する。 我々は,リアルタイムトラヒックで観測される真の分布の挙動を模倣するために,最大エントロピー原理を用いた新しい実用的な枠組みを提案するために,逐次入札プロセスにおいて2つの条件付き独立構造を利用する。 さらに、このフレームワークは、歴史に見るものだけに限らず、目に見えない予算条件に一般化できるモデルを訓練することができる。 提案手法を実世界のRTBデータセットといくつかのベースラインで比較し,様々な予算設定下での大幅な性能向上を示す。

Maximizing utility with a budget constraint is the primary goal for advertisers in real-time bidding (RTB) systems. The policy maximizing the utility is referred to as the optimal bidding strategy. Earlier works on optimal bidding strategy apply model-based batch reinforcement learning methods which can not generalize to unknown budget and time constraint. Further, the advertiser observes a censored market price which makes direct evaluation infeasible on batch test datasets. Previous works ignore the losing auctions to alleviate the difficulty with censored states; thus significantly modifying the test distribution. We address the challenge of lacking a clear evaluation procedure as well as the error propagated through batch reinforcement learning methods in RTB systems. We exploit two conditional independence structures in the sequential bidding process that allow us to propose a novel practical framework using the maximum entropy principle to imitate the behavior of the true distribution observed in real-time traffic. Moreover, the framework allows us to train a model that can generalize to the unseen budget conditions than limit only to those observed in history. We compare our methods on two real-world RTB datasets with several baselines and demonstrate significantly improved performance under various budget settings.
翻訳日:2022-12-17 23:53:56 公開日:2020-03-31
# 胸部x線画像における胸部共通疾患分類における逆行性攻撃と防御の比較検討

A Thorough Comparison Study on Adversarial Attacks and Defenses for Common Thorax Disease Classification in Chest X-rays ( http://arxiv.org/abs/2003.13969v1 )

ライセンス: Link先を確認
Chendi Rao, Jiezhang Cao, Runhao Zeng, Qi Chen, Huazhu Fu, Yanwu Xu, Mingkui Tan(参考訳) 近年,胸部X線画像の自動診断においてディープニューラルネットワーク(DNN)が大きな進歩を遂げている。 しかし、DNNは敵の例に弱いため、疾患検出にDNNベースの方法を適用すると、患者に誤診を生じかねない。 近年,特にマルチラベル分類問題において,攻撃方法と防御方法が疾患検出に与える影響について,包括的研究がほとんど行われていない。 本稿では,胸部X線に対する様々な敵攻撃と防御方法について概説する。 まず、攻撃方法と防御方法の動機と数学的表現を詳細に紹介する。 第2に,胸部X線における胸部疾患分類に対するいくつかの最先端攻撃および防御方法の影響について検討した。 攻撃法と防御法は過度の反復と大きな摂動で性能が劣ることがわかった。 そこで本研究では,異なる摂動の程度にロバストな新しい防御法を提案する。 本研究は,地域社会の方法論開発に関する新たな知見を提供する。

Recently, deep neural networks (DNNs) have made great progress on automated diagnosis with chest X-rays images. However, DNNs are vulnerable to adversarial examples, which may cause misdiagnoses to patients when applying the DNN based methods in disease detection. Recently, there is few comprehensive studies exploring the influence of attack and defense methods on disease detection, especially for the multi-label classification problem. In this paper, we aim to review various adversarial attack and defense methods on chest X-rays. First, the motivations and the mathematical representations of attack and defense methods are introduced in details. Second, we evaluate the influence of several state-of-the-art attack and defense methods for common thorax disease classification in chest X-rays. We found that the attack and defense methods have poor performance with excessive iterations and large perturbations. To address this, we propose a new defense method that is robust to different degrees of perturbations. This study could provide new insights into methodological development for the community.
翻訳日:2022-12-17 23:53:13 公開日:2020-03-31