このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200419となっている論文です。

PDF登録状況(公開日: 20200419)

TitleAuthorsAbstract論文公表日・翻訳日
# テストSNR推定を用いた無線音源同定のための深部分類器の効率的な訓練

Efficient Training of Deep Classifiers for Wireless Source Identification using Test SNR Estimates ( http://arxiv.org/abs/1912.11896v2 )

ライセンス: Link先を確認
Xingchen Wang, Shengtai Ju, Xiwen Zhang, Sharan Ramjee, Aly El Gamal(参考訳) 本研究では,snr(test signal to noise ratio)推定が可能であれば,受信無線信号を処理する効率的な深層学習アルゴリズムについて検討する。 ソース識別を容易にする2つのタスクに焦点をあてる: 1-変調型を同定し、2-無線技術と2.4GHz ISM帯域のチャネルを同定する。 ベンチマークでは、よく知られた2つのデータセットに対するディープラーニングアルゴリズムのテストに、最近の文献に依存しています。 まず,テストSNR値のみに対応するトレーニングデータを使用することで,低SNR値の精度が向上し,平均テスト精度が低下する一方で,トレーニング時間が劇的に低下することを示した。 さらに, 正のオフセットが小さい誤テストSNR推定値の方が, 負のオフセットと同一の誤差等級を持つものよりも訓練に適していることを示す。 次に、各試験SNRにおけるSNR値の小さなサブセットを使用しながら、全試験SNR値の精度を均一に向上させる、グレディトレーニングSNRブースティングアルゴリズムを提案する。 最後に、SNR値のトレーニングに基づくブートストラップ集約(Bagging)の可能性を示し、トレーニングデータの不足を伴う低テストSNR値の一般化を改善する。

We study efficient deep learning training algorithms that process received wireless signals, if a test Signal to Noise Ratio (SNR) estimate is available. We focus on two tasks that facilitate source identification: 1- Identifying the modulation type, 2- Identifying the wireless technology and channel in the 2.4 GHz ISM band. For benchmarking, we rely on recent literature on testing deep learning algorithms against two well-known datasets. We first demonstrate that using training data corresponding only to the test SNR value leads to dramatic reductions in training time while incurring a small loss in average test accuracy, as it improves the accuracy for low SNR values. Further, we show that an erroneous test SNR estimate with a small positive offset is better for training than another having the same error magnitude with a negative offset. Secondly, we introduce a greedy training SNR Boosting algorithm that leads to uniform improvement in accuracy across all tested SNR values, while using a small subset of training SNR values at each test SNR. Finally, we demonstrate the potential of bootstrap aggregating (Bagging) based on training SNR values to improve generalization at low test SNR values with scarcity of training data.
翻訳日:2023-06-10 08:10:56 公開日:2020-04-19
# 新型コロナウイルス(covid-19)におけるオンライン情報検索

Online Information Search During COVID-19 ( http://arxiv.org/abs/2004.07183v2 )

ライセンス: Link先を確認
Benjamin Lucas, Brendan Elliot, and Todd Landman(参考訳) google trendsなどのソースからの公開情報検索データによって、研究者は、社会が知らないこと、社会が社会的なコミュニケーションやニュースメディアの出来事によって引き起こされた、あるいはそれに対応することを望んでいることの視点を、研究者に与えることができる。 危機のとき、オンラインの公開情報検索は、社会の最も緊急な懸念や要求への窓口を提供する。 拡張によって、こうしたデータは今後のビジネス、政策立案者、研究者への要求の窓口となる。 この研究ノートは、現在のCOVID-19/コロナウイルス危機を視覚的に概観したテーマのいくつかを説明することを目的としている。

Public information search data from sources such as Google Trends affords researchers a perspective on what society does not know, or what society wants to find out prompted by, or in response to, developments in societal communication and news media events. In times of crisis, online public information search thus offers a window into the most urgent concerns of, and demands by society. By extension, such data offers a window into upcoming, and currently pressing demands on businesses, policymakers and researchers. This research note aims to illustrate some of these themes with a visual-based overview of the current COVID-19 / Coronavirus crisis.
翻訳日:2023-05-23 11:14:20 公開日:2020-04-19
# 教室におけるコードレビュー

Code Review in the Classroom ( http://arxiv.org/abs/2004.08774v1 )

ライセンス: Link先を確認
Victor Rivera, Hamna Aslam, Alexandr Naumchev, Daniel de Carvalho, Mansur Khazeev and Manuel Mazzara(参考訳) 本稿では,学習環境における若い開発者間のコードレビュープロセスの親和性を検討するためのケーススタディを提案する。 コードレビューは、それが生み出すポジティブな結果を考えると不可欠です。 しかしながら、それは個人の活動ではなく、ステークホルダ間の実質的な相互作用、フィードバックのデリバリと受け入れ、フィードバックに対するタイムリーなアクション、さらにはさまざまな視点からソリューションに同意する能力が必要です。 教室の設定で若い開発者は、コードレビュープロセスの潜在的に好ましい問題領域を明確に示します。 彼らのフィードバックは、プロセスがプロセスを改善するいくつかのポイントで受け入れられていることを示唆している。 本論文は,教室でコードレビューを行うためのガイドラインとして使用できる。

This paper presents a case study to examine the affinity of the code review process among young developers in an academic setting. Code review is indispensable considering the positive outcomes it generates. However, it is not an individual activity and requires substantial interaction among stakeholders, deliverance, and acceptance of feedback, timely actions upon feedback as well as the ability to agree on a solution in the wake of diverse viewpoints. Young developers in a classroom setting provide a clear picture of the potential favourable and problematic areas of the code review process. Their feedback suggests that the process has been well received with some points to better the process. This paper can be used as guidelines to perform code reviews in the classroom.
翻訳日:2023-05-23 00:52:49 公開日:2020-04-19
# ハイブリット原子-オプトメカニクス系の3dBを超える大きな機械的スクイーズ

Large mechanical squeezing beyond 3dB of hybrid atom-optomechanical systems in highly unresolved sideband regime ( http://arxiv.org/abs/2004.08768v1 )

ライセンス: Link先を確認
Jian-Song Zhang and Ai-Xi Chen(参考訳) 共振器の周波数よりもキャビティの崩壊速度がはるかに大きい高分解能サイドバンド(HURSB)系におけるハイブリッド原子-オプトメカニクス系における3dBを超える強い機械的スクイーズの発生手法を提案する。 このシステムは、2つの2レベル原子アンサンブルと、振幅の異なる2つのレーザーによって駆動されるキャビティを持つ光学系によって形成される。 hursb系では、アトミックアンサンブルがなければ、または1つのアトミックアンサンブルだけを光機械系に入れれば、可動ミラーのスクイーズが3dbを超えることはない。 しかし、2つの原子アンサンブルをオプトロメカニカルシステムに組み込むと、3dBを超える強い機械的スキーズがHURSB系でも達成される。 実験におけるハイブリッド原子-オプトメカニクス系における3dBを超える強い機械的スクイーズの実現に向けての道を開く。

We propose a scheme for the generation of strong mechanical squeezing beyond 3dB in hybrid atom-optomechanical systems in the highly unresolved sideband (HURSB) regime where the decay rate of cavity is much larger than the frequency of the mechanical oscillator. The system is formed by two two-level atomic ensembles and an optomechanical system with cavity driven by two lasers with different amplitudes. In the HURSB regime, the squeezing of the movable mirror can not be larger than 3dB if no atomic ensemble or only one atomic ensemble is put into the optomechanical system. However, if two atomic ensembles are put into the optomechanical system, the strong mechanical squeezing beyond 3dB is achieved even in the HURSB regime. Our scheme paves the way toward the implementation of strong mechanical squeezing beyond 3dB in hybrid atom-optomechanical systems in experiments.
翻訳日:2023-05-23 00:52:39 公開日:2020-04-19
# 量子フォッカー理論における相互作用電子のファインマンプロパゲータ

Feynman Propagator for Interacting Electrons in the Quantum Fokker Theory ( http://arxiv.org/abs/2004.09500v1 )

ライセンス: Link先を確認
Natalia Gorobey, Alexander Lukyanenko, and A. V. Goltsev(参考訳) フォッカー作用の修正が提案されており、電荷系の共変量子論を定式化することができ、各粒子の固有時間(英語版)が進化パラメータとなり、粒子自体が追加の量子数(スピン)を受ける。 この修正は、適切な時間パラメータの無限小シフトによって生じるフォッカー作用にその変化を加えることで構成される。 その結果、適切な時間パラメータは量子レベルで観測可能となる。

A modification of the Fokker action is proposed, which allows one to formulate the covariant quantum theory of the charge system, in which the proper time of each particle serves as the evolution parameter and the particles themselves receive an additional quantum number - spin. The modification consists in adding to the Fokker action its variation generated by the infinitesimal shifts of the proper time parameters. As a result, the proper time parameters become observable at the quantum level.
翻訳日:2023-05-23 00:49:51 公開日:2020-04-19
# フォトニクス量子ビットを用いたパリティ時間対称力学の実験シミュレーション

Experimental simulation of the Parity-Time-symmetric dynamics using photonics qubits ( http://arxiv.org/abs/2004.08985v1 )

ライセンス: Link先を確認
Wei-Chao Gao, Chao Zheng, Lu Liu, Tiejun Wang and Chuan Wang(参考訳) パリティ時間(英語版)(pt)対称性の概念は、ハミルトニアン作用素がパリティと時間作用素との可換関係を満たす場合、すべての実固有エネルギースペクトルを示す量子力学の枠組みに由来する。 近年、PT対称性は光学、電子回路、音響など多くの古典的分野に導入され、ハミルトニアンの力学と系のエネルギーについてさらなる研究が行われた。 PT対称ハミルトニアンの作用下での量子状態の動的進化に着目し、単光子系を用いたPT対称ハミルトニアンの下での2レベル系の一般的な動的進化を実験的に実証した。 連立量子ビットを用いてシステムを拡張し、非エルミートハミルトニアン・ハミルトニアンの下でサブシステムを符号化することで、状態の進化をパリティタイム対称発展部分空間のみを考慮すれば、高い忠実度で観察することができる。 拡張法の効果的な操作により,pt対称ハミルトニアンの量子シミュレーションや量子情報処理におけるエキゾチックな性質をさらに活用するための経路を提供する。

The concept of parity-time (PT) symmetry originates from the framework of quantum mechanics, where if the Hamiltonian operator satisfies the commutation relation with the parity and time operators, it shows all real eigen-energy spectrum. Recently, PT symmetry was introduced into optics, electronic circuits, acoustics, and so many other classical fields to further study the dynamics of the Hamiltonian and the energy of the system. Focusing on the dynamical evolution of the quantum state under the action of PT symmetric Hamiltonian, here we experimentally demonstrated the general dynamical evolution of a two-level system under the PT symmetric Hamiltonian using single-photon system. By enlarging the system using ancillary qubits and encoding the subsystem under the non-Hermitian Hamiltonian with post-selection, the evolution of the state can be observed with a high fidelity when the successfully parity-time symmetrically evolved subspace is solely considered. Owing to the effectively operation of the dilation method, our work provides a route for further exploiting the exotic properties of PT symmetric Hamiltonian for quantum simulation and quantum information processing.
翻訳日:2023-05-23 00:49:14 公開日:2020-04-19
# 計算幾何学問題に対する量子アルゴリズム

Quantum algorithms for computational geometry problems ( http://arxiv.org/abs/2004.08949v1 )

ライセンス: Link先を確認
Andris Ambainis and Nikita Larka(参考訳) 計算幾何学における問題,例えばポイントオン-3-ライン問題について量子アルゴリズムを研究した。 この問題では、一組のラインが与えられ、これらのラインのうち少なくとも3ドル以上のポイントを見つけるように求められます。 POINT-ON-3-LINESや他の多くの計算幾何学問題は3SUM-HARDとして知られている。 つまり、これらを古典的に解くには時間$\Omega(n^{2-o(1)})$が必要であり、よく知られた3SUM問題のより高速なアルゴリズムがなければ(ここでは、$S$ of $n$整数が与えられ、$a + b + c = 0$となるような$a, b, c \in S$が存在するかどうかを判断しなければならない)。 3SUMはGroverの量子探索アルゴリズムを用いて時間$O(n \log n)$で解くことができる。 POINT-ON-3-LINES や他の 3SUM-HARD 問題を$O(n^c)$ time, for $c<2$? 我々は、時間$O(n^{1 + o(1)})$でPOINT-ON-3-LINESを解く量子アルゴリズムを構築することで、この質問に答える。 このアルゴリズムは振幅増幅の再帰的利用と幾何学的アイデアを組み合わせたものである。 同じアイデアが多くの3サムハード幾何問題に対して$o(n^{1 + o(1)})$ timeアルゴリズムを与えることを示した。

We study quantum algorithms for problems in computational geometry, such as POINT-ON-3-LINES problem. In this problem, we are given a set of lines and we are asked to find a point that lies on at least $3$ of these lines. POINT-ON-3-LINES and many other computational geometry problems are known to be 3SUM-HARD. That is, solving them classically requires time $\Omega(n^{2-o(1)})$, unless there is faster algorithm for the well known 3SUM problem (in which we are given a set $S$ of $n$ integers and have to determine if there are $a, b, c \in S$ such that $a + b + c = 0$). Quantumly, 3SUM can be solved in time $O(n \log n)$ using Grover's quantum search algorithm. This leads to a question: can we solve POINT-ON-3-LINES and other 3SUM-HARD problems in $O(n^c)$ time quantumly, for $c<2$? We answer this question affirmatively, by constructing a quantum algorithm that solves POINT-ON-3-LINES in time $O(n^{1 + o(1)})$. The algorithm combines recursive use of amplitude amplification with geometrical ideas. We show that the same ideas give $O(n^{1 + o(1)})$ time algorithm for many 3SUM-HARD geometrical problems.
翻訳日:2023-05-23 00:48:36 公開日:2020-04-19
# 量子力学経路積分系の応答場とサドル点

The Response Field and the Saddle Points of Quantum Mechanical Path Integrals ( http://arxiv.org/abs/2004.08874v1 )

ライセンス: Link先を確認
E. Gozzi, C. Pagani, M. Reuter(参考訳) 量子統計力学において、モヤル方程式はウィグナー函数と任意の混合状態の密度行列を表すより一般的なワイル記号の時間発展を支配している。 モヤル方程式の形式解はマリノフの経路積分によって与えられる。 本稿では, この経路積分を量子力学における概念的, 幾何学的, 動的問題間の自然なリンクと考えることができることを示す。 統一的な視点は、マリノフ積分の積分変数の一つである応答場が純粋な状態に対しても果たす重要な役割を強調することで達成される。 この議論は積分の半古典近似がその厳密な古典的極限とどのように関係するかに焦点を当て、ファインマン型パス積分とは異なり、後者はマリノフの場合においてよく定義される。 このトピックには、"Airy averaging"という概念に基づくマリノフ積分のランダムな力表現、トンネル過程を記述した陽性違反ウィグナー関数に関する関連する議論、量子コヒーレンス維持と干渉現象の実現における応答場の役割が含まれる。 電子の二重スリット実験とボーム・アハロノフ効果を図解例として分析する。 さらに、解析的に連続した「ウィック回転」応答場に対するマリノフ経路積分のインスタントンと、ファインマン型積分の複素インスタントンとの間には驚くべき関係がある。 後者は、振動経路積分や再帰プログラムに適用可能なピカール・レフシェッツ理論への最近の研究において重要な役割を果たす。

In quantum statistical mechanics, Moyal's equation governs the time evolution of Wigner functions and of more general Weyl symbols that represent the density matrix of arbitrary mixed states. A formal solution to Moyal's equation is given by Marinov's path integral. In this paper we demonstrate that this path integral can be regarded as the natural link between several conceptual, geometric, and dynamical issues in quantum mechanics. A unifying perspective is achieved by highlighting the pivotal role which the response field, one of the integration variables in Marinov's integral, plays for pure states even. The discussion focuses on how the integral's semiclassical approximation relates to its strictly classical limit; unlike for Feynman type path integrals, the latter is well defined in the Marinov case. The topics covered include a random force representation of Marinov's integral based upon the concept of "Airy averaging", a related discussion of positivity-violating Wigner functions describing tunneling processes, and the role of the response field in maintaining quantum coherence and enabling interference phenomena. The double slit experiment for electrons and the Bohm-Aharonov effect are analyzed as illustrative examples. Furthermore, a surprising relationship between the instantons of the Marinov path integral over an analytically continued ("Wick rotated") response field, and the complex instantons of Feynman-type integrals is found. The latter play a prominent role in recent work towards a Picard-Lefschetz theory applicable to oscillatory path integrals and the resurgence program.
翻訳日:2023-05-23 00:48:08 公開日:2020-04-19
# rfヌルポイントを光学焦点と正確に整合させる新しいモノリシック放物型ミラーイオントラップの設計

Design of a novel monolithic parabolic-mirror ion-trap to precisely align the RF null point with the optical focus ( http://arxiv.org/abs/2004.08845v1 )

ライセンス: Link先を確認
Zhao Wang, Ben-Ran Wang, Qing-Lin Ma, Jia-Yu Guo, Ming-Shen Li, Yu Wang, Xin-Xin Rao, Zhi-Qi Huang, Le Luo(参考訳) イオントラップ電極と一体化した高集束効率パラボリックミラーを用いた新しいイオントラップ設計を提案する。 この設計は3つの高周波(RF)電極と8つの直流(DC)補償電極を備える。 3つのRF電圧を慎重に調整することにより、パラボラミラー焦点をRF零点と正確に一致させることができる。 これにより、収差とイオンマイクロモーションを同時に最小化することができる。 このモノリシックな設計は、90\%\cdot4\pi$以上の光子収集ソリッドアングルを拡張することでイオンイオンの絡み合い生成速度を大幅に向上させることができる。 トラップ設定のさらなる解析により、rf電圧変動法が加工精度を広範囲に反映することを示す。 この設計は、高速絡み合いネットワークノードにイオンをトラップするための堅牢なスキームとして期待されている。

We propose a novel ion trap design with the high collection efficiency parabolic-mirror integrated with the ion trap electrodes. This design has three radio frequency (RF) electrodes and eight direct current(DC) compensation electrodes. By carefully adjusting three RF voltages, the parabolic mirror focus can be made precisely coincident with the RF null point. Thus, the aberration and the ion micromotion can be minimized at the same time. This monolithic design can significantly improve the ion-ion entanglement generation speed by extending the photon collecting solid angle beyond $90\%\cdot4\pi$. Further analysis of the trapping setup shows that the RF voltage variation method relexes machining accuracy to a broad range. This design is expected to be a robust scheme for trapping ion to speed entanglement network node.
翻訳日:2023-05-23 00:47:42 公開日:2020-04-19
# 交差光ファイバー共振器を有する量子ネットワークノード

A Quantum Network Node with Crossed Optical Fibre Cavities ( http://arxiv.org/abs/2004.08832v1 )

ライセンス: Link先を確認
Manuel Brekenfeld, Dominik Niemietz, Joseph Dale Christesen, Gerhard Rempe(参考訳) 量子ネットワークは、絡み合った問題を解くためのユニークな可能性を提供し、セキュアな通信からスケーラブルな計算まで、革新的なアプリケーションを約束する。 単一チャネルで結合された2つの量子ノードは、2つのパーティ間の基本的な量子通信タスクに適しているが、完全に機能的な大規模量子ネットワークは、多重接続ノードを持つWebのようなアーキテクチャを必要とする。 ネットワークノードとチャネル間の効率的なインターフェースは、光学キャビティで実装できる。 2つの光ファイバーキャビティを1つの原子に結合することで、2つの量子チャネルに接続する量子ネットワークノードを実現する。 パッシブ、ヘラルド、高忠実な量子メモリとして機能し、振幅・位相クリティカルな制御フィールドやエラーを起こしやすいフィードバックループを必要としない。 我々のノードはロバストで、大きなファイバーネットワークに自然に適合し、より多くのキャビティにスケールできるため、量子ビット制御された量子スイッチ、ルータ、リピータを含む量子インターネットに対して明確な視点を提供する。

Quantum networks provide unique possibilities for resolving open questions on entanglement and promise innovative applications ranging from secure communication to scalable computation. While two quantum nodes coupled by a single channel are adequate for basic quantum communication tasks between two parties, fully functional large-scale quantum networks require a web-like architecture with multiply connected nodes. Efficient interfaces between network nodes and channels can be implemented with optical cavities. Using two optical fibre cavities coupled to one atom, we here realise a quantum network node that connects to two quantum channels. It functions as a passive, heralded and high-fidelity quantum memory that requires neither amplitude- and phase-critical control fields nor error-prone feedback loops. Our node is robust, fits naturally into larger fibre-based networks, can be scaled to more cavities, and thus provides clear perspectives for a quantum internet including qubit controlled quantum switches, routers, and repeaters.
翻訳日:2023-05-23 00:47:30 公開日:2020-04-19
# ディープ・量子・レシエーションにおける同期を促進させる『Noise, not squeezing』のコメンデーション」への返信

Reply to "Comment on `Noise, not squeezing, boosts synchronization in the deep quantum regime' " ( http://arxiv.org/abs/2004.08827v1 )

ライセンス: Link先を確認
Wai Keong Mok, Leong Chuan Kwek, Hermanni Heimonen(参考訳) 本回答では,本書の要点を明確にし,コメント arXiv:2002.11514 の批判に回答する。 特に,本研究の結論は,従来の研究であるarxiv:1801.10383と矛盾するものではなく,量子同期のためのパラメータレジームの分類に関する根本的な疑問を提起するものであることを強調する。 さらに、深部量子状態におけるマスター方程式の妥当性に関する懸念に対処し、我々のノイズ強調同期が以前の文献と異なることを示す。 数値的な例を通して、アンサッツの選択は矛盾しているものの誤った結論を導くものではないことも示している。 最後に、ノイズブースト同期の物理を概説し、これは真に深い量子状態に特有の特徴であることを示す。 しかし、単一光子散逸はより正確な用語であり、それを使うようになることに注意する。

In this reply we clarify the main points of our manuscript and respond to the critique in the Comment arXiv:2002.11514. In particular, we emphasize that our conclusion "squeezing loses effectiveness in the deep quantum regime" does not contradict the previous work arXiv:1801.10383, but instead adds to it, and raises fundamental questions on classifying parameter regimes for quantum synchronization. Moreover, we address the concern brought up on the validity of the master equation in the deep quantum regime, and show that our noise-enhanced synchronization differs from previous literature. Through numerical examples, we also demonstrate that the choice of ansatz, while appearing inconsistent, does not lead to erroneous conclusions. Lastly, we expound on the physics of noise-boosted synchronization, and show that it is indeed a genuine feature unique to the deep quantum regime. However, we note that single photon dissipation is a more accurate term, and will move to using that.
翻訳日:2023-05-23 00:47:02 公開日:2020-04-19
# より一般的な顔偽造検出のための顔X線

Face X-ray for More General Face Forgery Detection ( http://arxiv.org/abs/1912.13458v2 )

ライセンス: Link先を確認
Lingzhi Li, Jianmin Bao, Ting Zhang, Hao Yang, Dong Chen, Fang Wen, Baining Guo(参考訳) 本稿では,顔画像の偽造を検出するために,顔X線と呼ばれる新しい画像表現を提案する。 入力顔画像の顔X線は、入力画像が異なるソースからの2つの画像のブレンディングに分解できるか否かを明らかにするグレースケール画像である。 これは、鍛造画像のブレンディング境界と、実画像のブレンディングがないことを示す。 既存の顔操作手法の多くは、変化した顔と既存の背景画像とをブレンドする共通のステップを共有している。 このため、顔X線は、既存の顔操作アルゴリズムで生成された偽造を効果的に検出する方法を提供する。 顔x線は、ブレンディングステップの存在のみを仮定し、特定の顔操作技術に関連するアーティファクトの知識に依存しないという意味で一般的である。 実際、顔X線計算アルゴリズムは、最先端の顔操作手法によって生成された偽画像なしで訓練することができる。 広範囲な実験により、顔x線は顔操作技術によって生じる偽造に対して有効であることが示され、既存の顔偽造検出アルゴリズムやディープフェイク検出アルゴリズムのほとんどが著しい性能低下を経験している。

In this paper we propose a novel image representation called face X-ray for detecting forgery in face images. The face X-ray of an input face image is a greyscale image that reveals whether the input image can be decomposed into the blending of two images from different sources. It does so by showing the blending boundary for a forged image and the absence of blending for a real image. We observe that most existing face manipulation methods share a common step: blending the altered face into an existing background image. For this reason, face X-ray provides an effective way for detecting forgery generated by most existing face manipulation algorithms. Face X-ray is general in the sense that it only assumes the existence of a blending step and does not rely on any knowledge of the artifacts associated with a specific face manipulation technique. Indeed, the algorithm for computing face X-ray can be trained without fake images generated by any of the state-of-the-art face manipulation methods. Extensive experiments show that face X-ray remains effective when applied to forgery generated by unseen face manipulation techniques, while most existing face forgery detection or deepfake detection algorithms experience a significant performance drop.
翻訳日:2023-01-16 21:01:55 公開日:2020-04-19
# 訓練された深層ニューラルネットワークからのダイナミクスの対称性の導出による解釈可能な保存則の推定

Interpretable Conservation Law Estimation by Deriving the Symmetries of Dynamics from Trained Deep Neural Networks ( http://arxiv.org/abs/2001.00111v2 )

ライセンス: Link先を確認
Yoh-ichi Mototake(参考訳) 複雑なシステムを縮小したモデルで理解することは、科学活動における中心的な役割の1つである。 物理学は物理学者の物理的洞察と共に大きく発展してきたが、洞察だけではそのような複雑なシステムの縮小モデルを構築することは困難である。 本稿では,システムの物理データを用いて学習した深層ニューラルネットワーク(dnn)から,複雑なシステムの隠れた保存則を推定する新しい枠組みを提案する。 提案手法の目的は,深層学習による物理データの解析ではなく,訓練されたdnnから解釈可能な物理情報を抽出することである。 ネーターの定理と効率的なサンプリング手法により、提案手法は訓練されたDNNから力学の対称性を抽出することによって保存法則を推論する。 提案手法は時系列データセットの多様体構造とネーターの定理に必要な条件の関係を導出して開発された。 保存法則がよく知られる原始的事例では,提案手法の有効性が検証されている。 また,提案手法を準安定状態における大規模集団運動システムであるより実践的な場合の保存法推定にも適用し,従来の研究結果と一致した結果を得た。

Understanding complex systems with their reduced model is one of the central roles in scientific activities. Although physics has greatly been developed with the physical insights of physicists, it is sometimes challenging to build a reduced model of such complex systems on the basis of insights alone. We propose a novel framework that can infer the hidden conservation laws of a complex system from deep neural networks (DNNs) that have been trained with physical data of the system. The purpose of the proposed framework is not to analyze physical data with deep learning, but to extract interpretable physical information from trained DNNs. With Noether's theorem and by an efficient sampling method, the proposed framework infers conservation laws by extracting symmetries of dynamics from trained DNNs. The proposed framework is developed by deriving the relationship between a manifold structure of time-series dataset and the necessary conditions for Noether's theorem. The feasibility of the proposed framework has been verified in some primitive cases for which the conservation law is well known. We also apply the proposed framework to conservation law estimation for a more practical case that is a large-scale collective motion system in the metastable state, and we obtain a result consistent with that of a previous study.
翻訳日:2023-01-16 20:42:15 公開日:2020-04-19
# ゼルダ伝説のための生成グラフ文法ダンジョンにおける生成逆ネットワークルーム

Generative Adversarial Network Rooms in Generative Graph Grammar Dungeons for The Legend of Zelda ( http://arxiv.org/abs/2001.05065v2 )

ライセンス: Link先を確認
Jake Gutierrez and Jacob Schrum(参考訳) Generative Adversarial Networks (GANs) は、データ内のパターンを学習し、ビデオゲームを含むいくつかのドメインでトレーニングセットと似ているが異なる新しい例を生成する能力を示した。 しかし、GANは出力サイズが一定であるため、ダンジョンクローリングゲームにおいて任意のサイズを作成することは困難である。 GANはまた、レベルを面白く、遊びやすくするセマンティックな要求をエンコードするのに苦労している。 本稿では,個々の部屋を生成するためのGANアプローチと,部屋をダンジョンに結合するグラフ文法アプローチを組み合わせる。 ganは個々の部屋の設計原則をキャプチャするが、グラフ文法は部屋を設計者が決定する障害物のシーケンスでグローバルレイアウトに整理する。 The Legend of Zeldaのルームデータは、GANのトレーニングに使用される。 このアプローチはユーザ調査によって検証され、gan dungeonsがオリジナルのゲームからレベルとしてプレイするのも楽しいこと、グラフ文法だけで生成されたレベルであることが示されている。 しかし、GANダンジョンはより複雑であると考えられる部屋を持ち、平易なグラフ文法のダンジョンは最も複雑で難しいと考えられている。 ganアプローチのみがレイアウトと部屋の両方を広範囲に供給し、トレーニングセットに見られるものの範囲にまたがる部屋を、複数の部屋からデザイン原則をマージする新しい創造物へと拡張する。

Generative Adversarial Networks (GANs) have demonstrated their ability to learn patterns in data and produce new exemplars similar to, but different from, their training set in several domains, including video games. However, GANs have a fixed output size, so creating levels of arbitrary size for a dungeon crawling game is difficult. GANs also have trouble encoding semantic requirements that make levels interesting and playable. This paper combines a GAN approach to generating individual rooms with a graph grammar approach to combining rooms into a dungeon. The GAN captures design principles of individual rooms, but the graph grammar organizes rooms into a global layout with a sequence of obstacles determined by a designer. Room data from The Legend of Zelda is used to train the GAN. This approach is validated by a user study, showing that GAN dungeons are as enjoyable to play as a level from the original game, and levels generated with a graph grammar alone. However, GAN dungeons have rooms considered more complex, and plain graph grammar's dungeons are considered least complex and challenging. Only the GAN approach creates an extensive supply of both layouts and rooms, where rooms span across the spectrum of those seen in the training set to new creations merging design principles from multiple rooms.
翻訳日:2023-01-11 11:49:35 公開日:2020-04-19
# 拡散過程の確率密度関数のニューラルネットワークによる表現

Neural network representation of the probability density function of diffusion processes ( http://arxiv.org/abs/2001.05437v2 )

ライセンス: Link先を確認
Wayne Isaac Tan Uy, Mircea Grigoriu(参考訳) 物理インフォームドニューラルネットワークは、ランダム環境における力学系の状態を特徴付けるために開発された。 ニューラルネットワークは、フォッカー・プランク方程式を満たす系の確率密度関数(pdf)または特性関数(chf)を、ガウスホワイトノイズおよび/またはポアソンホワイトノイズの下で積分微分方程式に近似する。 解析的,数値的に各微分方程式を解くことの利点と欠点を解析的に検討し,その状態を特徴づける。 また、ニューラルネットワークアーキテクチャの設計と単純化のために、動的システムの事前情報をいかに活用できるかを示す。 数値的な例では 1) 偏積分微分方程式や pdf/chf の時間発展を記述する pdes の系においても, ニューラルネットワーク解は対象解を近似することができる。 2)fokker-planck方程式あるいはchf微分方程式をニューラルネットワークを用いて解くと、状態の類似のpdfが得られる。 3) この微分方程式の解は、異なるタイプのランダム強制に対する状態の挙動を研究するのに使うことができる。

Physics-informed neural networks are developed to characterize the state of dynamical systems in a random environment. The neural network approximates the probability density function (pdf) or the characteristic function (chf) of the state of these systems which satisfy the Fokker-Planck equation or an integro-differential equation under Gaussian and/or Poisson white noises. We examine analytically and numerically the advantages and disadvantages of solving each type of differential equation to characterize the state. It is also demonstrated how prior information of the dynamical system can be exploited to design and simplify the neural network architecture. Numerical examples show that: 1) the neural network solution can approximate the target solution even for partial integro-differential equations and system of PDEs describing the time evolution of the pdf/chf, 2) solving either the Fokker-Planck equation or the chf differential equation using neural networks yields similar pdfs of the state, and 3) the solution to these differential equations can be used to study the behavior of the state for different types of random forcings.
翻訳日:2023-01-11 06:59:02 公開日:2020-04-19
# InterSPEECH 2020 Deep Noise Suppression Challenge: Datasets, Subjective Speech Quality and Testing Framework

The INTERSPEECH 2020 Deep Noise Suppression Challenge: Datasets, Subjective Speech Quality and Testing Framework ( http://arxiv.org/abs/2001.08662v2 )

ライセンス: Link先を確認
Chandan K. A. Reddy, Ebrahim Beyrami, Harishchandra Dubey, Vishak Gopal, Roger Cheng, Ross Cutler, Sergiy Matusevych, Robert Aichner, Ashkan Aazami, Sebastian Braun, Puneet Rana, Sriram Srinivasan, Johannes Gehrke(参考訳) InterSPEECH 2020 Deep Noise Suppression Challengeは、強調音声の主観的(知覚的)品質を最大化することを目的とした、リアルタイム単一チャネル音声強調における協調研究を促進することを目的としている。 ノイズ抑圧法を評価するための典型的なアプローチは、元のデータセットを分割して得られるテストセットの客観的メトリクスを使用することである。 多くの出版物は、訓練セットと同じ分布から引き出された合成テストセットについて合理的な性能を報告している。 しかし、しばしばモデルの性能は実際の録音で著しく低下する。 また、従来の客観的指標のほとんどは主観テストとよく相関せず、実験室の主観テストは大規模なテストセットに対してスケーラブルではない。 そこで本研究では,合成音と実音の両方からなる実世界シナリオに対して,騒音抑圧モデルのトレーニングを行うための,大規模なクリーンな音声とノイズコーパスをオープンソースとして公開する。 ITU-T P.808をベースとしたオンライン主観的テストフレームワークもオープンソースで公開しています。 このチャレンジの勝者は、p.808フレームワークを用いた代表テストセットにおける主観評価に基づいて選ばれる。

The INTERSPEECH 2020 Deep Noise Suppression Challenge is intended to promote collaborative research in real-time single-channel Speech Enhancement aimed to maximize the subjective (perceptual) quality of the enhanced speech. A typical approach to evaluate the noise suppression methods is to use objective metrics on the test set obtained by splitting the original dataset. Many publications report reasonable performance on the synthetic test set drawn from the same distribution as that of the training set. However, often the model performance degrades significantly on real recordings. Also, most of the conventional objective metrics do not correlate well with subjective tests and lab subjective tests are not scalable for a large test set. In this challenge, we open-source a large clean speech and noise corpus for training the noise suppression models and a representative test set to real-world scenarios consisting of both synthetic and real recordings. We also open source an online subjective test framework based on ITU-T P.808 for researchers to quickly test their developments. The winners of this challenge will be selected based on subjective evaluation on a representative test set using P.808 framework.
翻訳日:2023-01-07 13:30:09 公開日:2020-04-19
# オブジェクト・ポース・リカバリに関するレビュー:3Dバウンディング・ボックス・ディテクタからフル6D・ポース・エミュレータへ

A Review on Object Pose Recovery: from 3D Bounding Box Detectors to Full 6D Pose Estimators ( http://arxiv.org/abs/2001.10609v2 )

ライセンス: Link先を確認
Caner Sahin, Guillermo Garcia-Hernando, Juil Sock, Tae-Kyun Kim(参考訳) オブジェクトポーズの回復は、自動運転、ロボティクス、拡張現実に関連する技術分野の急速な発展において重要な問題となり、コンピュータビジョンの分野で注目を集めている。 既存のレビュー関連研究では、RGB画像に注目するオブジェクトの2D境界ボックスを生成する方法を通じて、2Dの視覚レベルでこの問題に対処している。 2次元探索空間は、RGB(Mono/Stereo)画像とともに3次元空間で利用可能な幾何学情報を使用するか、LIDARセンサやRGB-Dカメラからの深度データを利用するかで拡大される。 3dバウンディングボックス検出器(カテゴリーレベルのアモーダル3dバウンディングボックス)は重力アライメント画像上で評価され、完全な6dオブジェクトポーズ推定器はアライメント制約が取り除かれた画像のインスタンスレベルでテストされる。 近年,6次元オブジェクトのポーズ推定がカテゴリレベルで行われている。 本稿では,3次元境界ボックス検出器から全6次元ポーズ推定器まで,対象ポーズ復元法に関する最初の包括的かつ最新のレビューを行う。 それらの手法は、問題を分類、回帰、分類と回帰、テンプレートマッチング、ポイントペア特徴マッチングタスクとして数学的にモデル化する。 これに基づいて、数学的モデルに基づく手法の分類が確立される。 手法の評価に用いるデータセットを課題として検討し、評価指標について検討する。 文献における実験の結果を定量的に分析し、どの手法がどのタイプの課題に最も適しているかを示す。 分析は、我々の実装である2つの方法と比較してさらに拡張され、公的な結果から得られる結果はさらに固まる。 オブジェクトポーズ回復に関して、フィールドの現在位置を要約し、可能な研究方向を特定する。

Object pose recovery has gained increasing attention in the computer vision field as it has become an important problem in rapidly evolving technological areas related to autonomous driving, robotics, and augmented reality. Existing review-related studies have addressed the problem at visual level in 2D, going through the methods which produce 2D bounding boxes of objects of interest in RGB images. The 2D search space is enlarged either using the geometry information available in the 3D space along with RGB (Mono/Stereo) images, or utilizing depth data from LIDAR sensors and/or RGB-D cameras. 3D bounding box detectors, producing category-level amodal 3D bounding boxes, are evaluated on gravity aligned images, while full 6D object pose estimators are mostly tested at instance-level on the images where the alignment constraint is removed. Recently, 6D object pose estimation is tackled at the level of categories. In this paper, we present the first comprehensive and most recent review of the methods on object pose recovery, from 3D bounding box detectors to full 6D pose estimators. The methods mathematically model the problem as a classification, regression, classification & regression, template matching, and point-pair feature matching task. Based on this, a mathematical-model-based categorization of the methods is established. Datasets used for evaluating the methods are investigated with respect to the challenges, and evaluation metrics are studied. Quantitative results of experiments in the literature are analyzed to show which category of methods best performs across what types of challenges. The analyses are further extended comparing two methods, which are our own implementations, so that the outcomes from the public results are further solidified. Current position of the field is summarized regarding object pose recovery, and possible research directions are identified.
翻訳日:2023-01-06 02:41:48 公開日:2020-04-19
# 測度の集中度に基づく局所内在次元推定器

Local intrinsic dimensionality estimators based on concentration of measure ( http://arxiv.org/abs/2001.11739v3 )

ライセンス: Link先を確認
Jonathan Bac, Andrei Zinovyev(参考訳) 固有次元性(ID)は多次元データポイント雲の最も基本的な特徴の1つである。 IDを知ることは、適切な機械学習アプローチを選択し、その振る舞いを理解し、それを検証することが重要である。 IDは、データポイント全体の分布をグローバルに計算したり、データ空間の異なる領域でローカルに計算することができる。 本稿では,測度集中の現れの一つである多次元データポイント雲の線形分離性に基づくidの局所的推定器を提案する。 我々はこれらの推定器の特性を実証的に研究し、測定濃度の様々な効果を生かした他のID推定器と比較した。 推定器間の観測された相違は、その振る舞いを実際的な応用で予測するために用いられる。

Intrinsic dimensionality (ID) is one of the most fundamental characteristics of multi-dimensional data point clouds. Knowing ID is crucial to choose the appropriate machine learning approach as well as to understand its behavior and validate it. ID can be computed globally for the whole data point distribution, or computed locally in different regions of the data space. In this paper, we introduce new local estimators of ID based on linear separability of multi-dimensional data point clouds, which is one of the manifestations of concentration of measure. We empirically study the properties of these estimators and compare them with other recently introduced ID estimators exploiting various effects of measure concentration. Observed differences between estimators can be used to anticipate their behaviour in practical applications.
翻訳日:2023-01-05 05:53:12 公開日:2020-04-19
# 確率的ニューラルネットワークを用いた多発性硬化症を有するデジタル双生児の生成

Generating Digital Twins with Multiple Sclerosis Using Probabilistic Neural Networks ( http://arxiv.org/abs/2002.02779v2 )

ライセンス: Link先を確認
Jonathan R. Walsh, Aaron M. Smith, Yannick Pouliot, David Li-Bland, Anton Loukianov, and Charles K. Fisher(参考訳) 多発性硬化症(multiple sclerosis, ms)は、複雑な臨床評価が特徴の神経変性疾患である。 我々は、条件制限ボルツマンマシン(CRBM)と呼ばれる教師なし機械学習モデルを用いて、MS臨床試験において、被験者と疾患の進行を特徴付けるために一般的に使用される共変量との関係を学習する。 crbmは、実際の被験者と同じベースラインデータを持つシミュレーション対象であるデジタル双子を生成することができる。 デジタル双生児は疾患の進行に関する主題レベルの統計分析を可能にする。 CRBMは,MSの3つの主要サブタイプにまたがる臨床治験のプレースボアームに登録された2395名の被験者のデータを用いて訓練を行い,モデルにより生成されたデジタル双生児が,実際の被験者と統計的に区別できないことを示す。

Multiple Sclerosis (MS) is a neurodegenerative disorder characterized by a complex set of clinical assessments. We use an unsupervised machine learning model called a Conditional Restricted Boltzmann Machine (CRBM) to learn the relationships between covariates commonly used to characterize subjects and their disease progression in MS clinical trials. A CRBM is capable of generating digital twins, which are simulated subjects having the same baseline data as actual subjects. Digital twins allow for subject-level statistical analyses of disease progression. The CRBM is trained using data from 2395 subjects enrolled in the placebo arms of clinical trials across the three primary subtypes of MS. We discuss how CRBMs are trained and show that digital twins generated by the model are statistically indistinguishable from their actual subject counterparts along a number of measures.
翻訳日:2023-01-04 02:49:47 公開日:2020-04-19
# Attentive Item2Vec: Neural Attentive User Representation

Attentive Item2Vec: Neural Attentive User Representations ( http://arxiv.org/abs/2002.06205v3 )

ライセンス: Link先を確認
Oren Barkan, Avi Caciularu, Ori Katz and Noam Koenigstein(参考訳) 推薦システムの因子化手法は、ユーザを単一の潜在ベクトルとして表現する傾向がある。 しかし、ユーザの行動や関心は、ユーザに提示されるレコメンデーションのコンテキストによって変化する可能性がある。 例えば、映画のレコメンデーションの場合、通常、初期のユーザーデータが最近のデータよりも情報が少ないことは事実である。 しかし、一部の初期の映画は、人気続編映画の存在下で、突然より関連性が増す可能性がある。 これは、潜在的な新しいレコメンデーションの存在下でユーザーの興味を動的に変化させる可能性のある、さまざまな例の1つにすぎない。 本報告では, 項目2vec (AI2V) の新規注意バージョンである項目2vec (I2V) を提示する。 AI2Vは、潜在的に推奨されるアイテム(ターゲット)に関して、ユーザの履歴行動(コンテキスト)の異なる特性を学習し、捉えるために、コンテキストターゲットアテンションメカニズムを採用している。 注意コンテキストターゲット機構は、最終的な神経注意ユーザ表現を可能にする。 我々は、いくつかのデータセットにおけるai2vの有効性を実証し、他のベースラインよりも優れていることを示した。

Factorization methods for recommender systems tend to represent users as a single latent vector. However, user behavior and interests may change in the context of the recommendations that are presented to the user. For example, in the case of movie recommendations, it is usually true that earlier user data is less informative than more recent data. However, it is possible that a certain early movie may become suddenly more relevant in the presence of a popular sequel movie. This is just a single example of a variety of possible dynamically altering user interests in the presence of a potential new recommendation. In this work, we present Attentive Item2vec (AI2V) - a novel attentive version of Item2vec (I2V). AI2V employs a context-target attention mechanism in order to learn and capture different characteristics of user historical behavior (context) with respect to a potential recommended item (target). The attentive context-target mechanism enables a final neural attentive user representation. We demonstrate the effectiveness of AI2V on several datasets, where it is shown to outperform other baselines.
翻訳日:2022-12-31 23:01:41 公開日:2020-04-19
# 電車、学習、拡張、繰り返し

Train, Learn, Expand, Repeat ( http://arxiv.org/abs/2003.08469v2 )

ライセンス: Link先を確認
Abhijeet Parida, Aadhithya Sankar, Rami Eisawy, Tom Finck, Benedikt Wiestler, Franz Pfister, Julia Moosbauer(参考訳) 教師付き機械学習モデルのトレーニングに成功するためには、高品質なラベル付きデータが必要だ。 医療領域には大量のラベルのないデータが存在しているが、ラベル付けが大きな課題となっている。 さらに悪いことに、voxel-wise delineation of data(例えば、セグメンテーションタスク)は退屈で、レート間分散が高いため、利用可能なトレーニングデータを劇的に制限する。 画素レベルのアノテーションを持つ数少ないトレーニングサンプルに対して,セマンティックセグメンテーションのタスクを実行するための再帰的トレーニング戦略を提案する。 我々は、再帰的なトレーニング戦略を用いて、より安価な画像レベルのアノテーションを持つこの小さなトレーニングセットを拡張した。 本手法は頭蓋内出血(ICH)のCT(Computed tomography)スキャンにおける脳内出血のセグメンテーションに応用する。

High-quality labeled data is essential to successfully train supervised machine learning models. Although a large amount of unlabeled data is present in the medical domain, labeling poses a major challenge: medical professionals who can expertly label the data are a scarce and expensive resource. Making matters worse, voxel-wise delineation of data (e.g. for segmentation tasks) is tedious and suffers from high inter-rater variance, thus dramatically limiting available training data. We propose a recursive training strategy to perform the task of semantic segmentation given only very few training samples with pixel-level annotations. We expand on this small training set having cheaper image-level annotations using a recursive training strategy. We apply this technique on the segmentation of intracranial hemorrhage (ICH) in CT (computed tomography) scans of the brain, where typically few annotated data is available.
翻訳日:2022-12-22 09:22:37 公開日:2020-04-19
# メモリを用いたディープニューラルネットワークによるシステム学習

Learning reduced systems via deep neural networks with memory ( http://arxiv.org/abs/2003.09451v2 )

ライセンス: Link先を確認
Xiaohan Fu, Lo-Bin Chang, Dongbin Xiu(参考訳) 状態変数のサブセット上のデータのみが利用可能である場合,未知力学系の制御方程式を構築するための一般的な数値的手法を提案する。 これらの観測変数の未知の方程式は、状態変数の完全な集合の還元系である。 還元系は、よく知られたモリ・ズワンツィヒ(MZ)フォーミュリズムに基づくメモリ積分を持つ。 我々は,MZの定式化におけるメモリ積分の離散近似を定式化することから,減算系を復元する数値戦略を開始した。 得られた未知の近似MZ方程式は、過去の履歴データが有限個存在するという意味で有限次元である。 次に、ネットワーク内のメモリを生成するために、履歴項を直接組み込むディープニューラルネットワーク構造を示す。 この手法は、メモリ長が有限であるあらゆる実用システムに適している。 次に,本手法の有効性を示すために,数値例の組を用いる。

We present a general numerical approach for constructing governing equations for unknown dynamical systems when only data on a subset of the state variables are available. The unknown equations for these observed variables are thus a reduced system of the complete set of state variables. Reduced systems possess memory integrals, based on the well known Mori-Zwanzig (MZ) formulism. Our numerical strategy to recover the reduced system starts by formulating a discrete approximation of the memory integral in the MZ formulation. The resulting unknown approximate MZ equations are of finite dimensional, in the sense that a finite number of past history data are involved. We then present a deep neural network structure that directly incorporates the history terms to produce memory in the network. The approach is suitable for any practical systems with finite memory length. We then use a set of numerical examples to demonstrate the effectiveness of our method.
翻訳日:2022-12-21 22:09:03 公開日:2020-04-19
# ASLFeat: 正確な形状と位置の局所的特徴を学習する

ASLFeat: Learning Local Features of Accurate Shape and Localization ( http://arxiv.org/abs/2003.10071v2 )

ライセンス: Link先を確認
Zixin Luo, Lei Zhou, Xuyang Bai, Hongkai Chen, Jiahui Zhang, Yao Yao, Shiwei Li, Tian Fang, Long Quan(参考訳) 本研究は,局所特徴検出器とディスクリプタの合同学習における2つの制限の緩和に焦点を当てている。 まず, 特徴点の局所的な形状(スケール, 方向など)を推定する能力は, 密集した特徴抽出では無視されることが多いが, 形状認識はより強固な幾何学的不変性を得るためには不可欠である。 第2に,検出されたキーポイントの局所化精度は,3次元再構成などの課題においてボトルネックとなっているカメラ形状を確実に復元するには不十分である。 本稿では,上述の問題を軽減するために,軽量かつ効果的な3つの修正を加えたaslfeatを提案する。 まず,変形可能な畳み込みネットワークを用いて,局所変換を高密度に推定し適用する。 第2に,空間分解能と低レベル細部を復元する特徴階層を利用して,正確なキーポイント位置推定を行う。 最後に、ピーク度測定を用いて特徴応答を関連付け、より指標的な検出スコアを導出する。 それぞれの修正の効果を徹底的に研究し、様々な実践シナリオにわたって評価を行う。 提案手法の優位性を示す最新の結果が報告されている。

This work focuses on mitigating two limitations in the joint learning of local feature detectors and descriptors. First, the ability to estimate the local shape (scale, orientation, etc.) of feature points is often neglected during dense feature extraction, while the shape-awareness is crucial to acquire stronger geometric invariance. Second, the localization accuracy of detected keypoints is not sufficient to reliably recover camera geometry, which has become the bottleneck in tasks such as 3D reconstruction. In this paper, we present ASLFeat, with three light-weight yet effective modifications to mitigate above issues. First, we resort to deformable convolutional networks to densely estimate and apply local transformation. Second, we take advantage of the inherent feature hierarchy to restore spatial resolution and low-level details for accurate keypoint localization. Finally, we use a peakiness measurement to relate feature responses and derive more indicative detection scores. The effect of each modification is thoroughly studied, and the evaluation is extensively conducted across a variety of practical scenarios. State-of-the-art results are reported that demonstrate the superiority of our methods.
翻訳日:2022-12-21 00:17:54 公開日:2020-04-19
# 初期条件における微分方程式の解法

Learning To Solve Differential Equations Across Initial Conditions ( http://arxiv.org/abs/2003.12159v2 )

ライセンス: Link先を確認
Shehryar Malik, Usman Anwar, Ali Ahmed and Alireza Aghasi(参考訳) 近年,偏微分方程式の解法としてニューラルネットワークの利用が注目されている。 多くのニューラルネットワークに基づく偏微分方程式解法が定式化され、古典的解法よりも性能が同等であり、場合によってはさらに優れている。 しかし、これらのニューラルソルバは、一般に、初期条件や偏微分方程式の領域が変化するたびに再訓練される必要がある。 本研究では,任意の初期条件に対する固定偏微分方程式の解を条件付き確率分布の学習として近似する問題を仮定する。 バーガー方程式における手法の有用性を実証する。

Recently, there has been a lot of interest in using neural networks for solving partial differential equations. A number of neural network-based partial differential equation solvers have been formulated which provide performances equivalent, and in some cases even superior, to classical solvers. However, these neural solvers, in general, need to be retrained each time the initial conditions or the domain of the partial differential equation changes. In this work, we posit the problem of approximating the solution of a fixed partial differential equation for any arbitrary initial conditions as learning a conditional probability distribution. We demonstrate the utility of our method on Burger's Equation.
翻訳日:2022-12-19 21:15:00 公開日:2020-04-19
# 単語埋め込みから位相的特徴を抽出する新しい方法

A Novel Method of Extracting Topological Features from Word Embeddings ( http://arxiv.org/abs/2003.13074v2 )

ライセンス: Link先を確認
Shafie Gholizadeh, Armin Seyeditabari and Wlodek Zadrozny(参考訳) 近年,高次元雑音データを扱うために,多種多様な問題に対してトポロジカルデータ解析が用いられている。 テキスト表現は高次元でノイズが多いことが多いが、自然言語処理におけるトポロジカルデータ分析の適用についての研究は少ない。 本稿では,テキスト分類に使用できるテキストの単語埋め込み表現から位相的特徴を抽出する新しいアルゴリズムを提案する。 単語埋め込みに取り組んでいるトポロジカルデータ解析は、埋め込み高次元空間を解釈し、異なる埋め込み次元間の関係を発見することができる。 実験には、トポロジデータ解析の最も一般的なツールである永続的ホモロジーを使用します。 長文文書上でのトポロジ的アルゴリズムから,定義したトポロジ的特徴が従来のテキストマイニング的特徴より優れていることを示す。

In recent years, topological data analysis has been utilized for a wide range of problems to deal with high dimensional noisy data. While text representations are often high dimensional and noisy, there are only a few work on the application of topological data analysis in natural language processing. In this paper, we introduce a novel algorithm to extract topological features from word embedding representation of text that can be used for text classification. Working on word embeddings, topological data analysis can interpret the embedding high-dimensional space and discover the relations among different embedding dimensions. We will use persistent homology, the most commonly tool from topological data analysis, for our experiment. Examining our topological algorithm on long textual documents, we will show our defined topological features may outperform conventional text mining features.
翻訳日:2022-12-18 13:05:34 公開日:2020-04-19
# TypeNet: キーストロークバイオメトリックスのスケールアップ

TypeNet: Scaling up Keystroke Biometrics ( http://arxiv.org/abs/2004.03627v2 )

ライセンス: Link先を確認
Alejandro Acien, John V. Monaco, Aythami Morales, Ruben Vera-Rodriguez, and Julian Fierrez(参考訳) フリーテキスト入力100Kユーザ認証のためのキーストローク力学の適合性について検討する。 そこで本研究では,siamese recurrent neural network (rnn) がユーザ1人あたりのデータ量が不足している場合にユーザを認証できることを,フリーテキストキーストローク認証の一般的なシナリオとして分析した。 ネットワークをテストするための1Kユーザと、以前の作業に匹敵する人口規模で、TypeNetは5つの登録シーケンスと1ユーザー当たり1回のテストシーケンスで、同じエラー率4.8%を得る。 ユーザ毎に同じ量のデータを使用することで、テストユーザ数を10kまでスケールアップすることで、1kと比較したパフォーマンスは5%未満に低下し、大規模なユーザ数でtypenetがうまくスケールする可能性を示している。 実験はアルト大学キーストロークデータベースを用いて行った。 われわれの知る限り、これは168万のユーザーから1億3600万以上のキーストロークを入手した、最大のフリーテキストキーストロークデータベースだ。

We study the suitability of keystroke dynamics to authenticate 100K users typing free-text. For this, we first analyze to what extent our method based on a Siamese Recurrent Neural Network (RNN) is able to authenticate users when the amount of data per user is scarce, a common scenario in free-text keystroke authentication. With 1K users for testing the network, a population size comparable to previous works, TypeNet obtains an equal error rate of 4.8% using only 5 enrollment sequences and 1 test sequence per user with 50 keystrokes per sequence. Using the same amount of data per user, as the number of test users is scaled up to 100K, the performance in comparison to 1K decays relatively by less than 5%, demonstrating the potential of TypeNet to scale well at large scale number of users. Our experiments are conducted with the Aalto University keystroke database. To the best of our knowledge, this is the largest free-text keystroke database captured with more than 136M keystrokes from 168K users.
翻訳日:2022-12-16 00:41:56 公開日:2020-04-19
# 深層学習に基づくユーザ指定設計領域を表現するトポロジ最適化

Deep learning-based topological optimization for representing a user-specified design area ( http://arxiv.org/abs/2004.05461v2 )

ライセンス: Link先を確認
Keigo Nakamura and Yoshiro Suzuki(参考訳) 現在、トポロジー最適化は、与えられた条件に対して最適化された構造を作成するために複数のイテレーションを必要とする。 トポロジー最適化の条件のうち、設計領域は構造設計において最も重要なものの一つである。 本研究では,設計領域と他の境界条件を反復せずに最適化した構造を生成するための新しいディープラーニングモデルを提案する。 そこで我々はオープンソースのトポロジ最適化MATLABコードを用いて,様々な設計条件下で最適化された構造を生成する。 最適化された構造の解像度は32×32ピクセルであり、設計条件は設計領域、体積分数、外部力の分布、負荷値である。 我々のディープラーニングモデルは、主に畳み込みニューラルネットワーク(CNN)ベースのエンコーダとデコーダで構成され、MATLABコードで生成されたデータセットでトレーニングされている。 エンコーダでは,バッチ正規化(BN)を用いてCNNモデルの安定性を向上させる。 デコーダでは、設計領域情報を強化するためにSPADE (spatially Adaptive Denormalization) を用いる。 提案モデルの性能をBNとSPADEを使用しないCNNモデルと比較すると,平均絶対誤差(MAE),平均コンプライアンス誤差(MAE),体積誤差(ボリューム誤差)の値はMAT-LAB符号で生成された最適化トポロジ構造よりも小さく,提案モデルは設計領域をより正確に表現することができた。 提案手法は,オープンソーストポロジ最適化MATLABコードと比較して,設計領域を少ない計算時間で反映した準最適構造を生成する。

Presently, topology optimization requires multiple iterations to create an optimized structure for given conditions. Among the conditions for topology optimization,the design area is one of the most important for structural design. In this study, we propose a new deep learning model to generate an optimized structure for a given design domain and other boundary conditions without iteration. For this purpose, we used open-source topology optimization MATLAB code to generate a pair of optimized structures under various design conditions. The resolution of the optimized structure is 32 * 32 pixels, and the design conditions are design area, volume fraction, distribution of external forces, and load value. Our deep learning model is primarily composed of a convolutional neural network (CNN)-based encoder and decoder, trained with datasets generated with MATLAB code. In the encoder, we use batch normalization (BN) to increase the stability of the CNN model. In the decoder, we use SPADE (spatially adaptive denormalization) to reinforce the design area information. Comparing the performance of our proposed model with a CNN model that does not use BN and SPADE, values for mean absolute error (MAE), mean compliance error, and volume error with the optimized topology structure generated in MAT-LAB code were smaller, and the proposed model was able to represent the design area more precisely. The proposed method generates near-optimal structures reflecting the design area in less computational time, compared with the open-source topology optimization MATLAB code.
翻訳日:2022-12-14 13:07:48 公開日:2020-04-19
# マルチチャネル畳み込み-LSTMネットワークに基づくアンダーリソースベンガル言語の分類ベンチマーク

Classification Benchmarks for Under-resourced Bengali Language based on Multichannel Convolutional-LSTM Network ( http://arxiv.org/abs/2004.07807v2 )

ライセンス: Link先を確認
Md. Rezaul Karim and Bharathi Raja Chakravarthi and John P. McCrae and Michael Cochez(参考訳) ソーシャルメディアやマイクロブログサイトの指数関数的な成長は、表現の自由や個人の声を力づけるプラットフォームを提供するだけでなく、オンラインハラスメントやサイバーいじめ、ヘイトスピーチといった反社会的行動の表現を可能にする。 社会的・反社会的行動分析、文書的特徴分析、感情分析にこれらのデータを活用するための多くの研究が提案されている。 しかし、ベンガル語、タミル語、アサメセ語、テルグ語など、NLPタスクの計算資源が不足しているような、未資源の言語が存在する。 本稿では,非ソース言語であるbengaliの分類ベンチマークについて述べる。 ヘイトスピーチ検出,文書分類,感情分析の3つのデータセットを作成した。 これまでで最大のベンガル語埋め込みモデルを構築したのは、BengFastTextという2億5000万の記事に基づいていました。 文書分類,感情分析,ヘイトスピーチ検出の3つの実験を行った。 単語の埋め込みをMConv-LSTM(Multi channel Convolutional-LSTM)ネットワークに組み込んで、さまざまなタイプのヘイトスピーチ、文書分類、感情分析を予測する。 実験により、ベングファストテキストは各文脈から単語の意味を正しく捉えることができる。 文書分類、感情分析、ヘイトスピーチ検出において、Word2Vec、GloVeなどのベースライン埋め込みモデルに対する評価は最大92.30%、82.25%、90.45%のF1スコアとなる。

Exponential growths of social media and micro-blogging sites not only provide platforms for empowering freedom of expressions and individual voices but also enables people to express anti-social behaviour like online harassment, cyberbullying, and hate speech. Numerous works have been proposed to utilize these data for social and anti-social behaviours analysis, document characterization, and sentiment analysis by predicting the contexts mostly for highly resourced languages such as English. However, there are languages that are under-resources, e.g., South Asian languages like Bengali, Tamil, Assamese, Telugu that lack of computational resources for the NLP tasks. In this paper, we provide several classification benchmarks for Bengali, an under-resourced language. We prepared three datasets of expressing hate, commonly used topics, and opinions for hate speech detection, document classification, and sentiment analysis, respectively. We built the largest Bengali word embedding models to date based on 250 million articles, which we call BengFastText. We perform three different experiments, covering document classification, sentiment analysis, and hate speech detection. We incorporate word embeddings into a Multichannel Convolutional-LSTM (MConv-LSTM) network for predicting different types of hate speech, document classification, and sentiment analysis. Experiments demonstrate that BengFastText can capture the semantics of words from respective contexts correctly. Evaluations against several baseline embedding models, e.g., Word2Vec and GloVe yield up to 92.30%, 82.25%, and 90.45% F1-scores in case of document classification, sentiment analysis, and hate speech detection, respectively during 5-fold cross-validation tests.
翻訳日:2022-12-14 10:00:13 公開日:2020-04-19
# 重み付きグラフにおける確率的重複コミュニティ検出

Provable Overlapping Community Detection in Weighted Graphs ( http://arxiv.org/abs/2004.07150v2 )

ライセンス: Link先を確認
Jimit Majmudar, Stephen Vavasis(参考訳) コミュニティ検出(community detection)は、観察されたペアワイズなエンティティインタラクションに基づいて類似のエンティティをグループ化する、広く研究されている教師なし学習問題である。 この問題は、ソーシャルネットワーク分析や計算生物学といった様々な分野に応用されている。 コミュニティが重複しないという前提の下で,この問題を研究する文献が多数存在する。 コミュニティが重複することを許された場合、多くの場合、純粋なノードの仮定が行われ、すなわち、各コミュニティは、そのコミュニティに属するノードを持っている。 しかし、この仮定は実際には必ずしも満たされるとは限らない。 本稿では,重み付きグラフの重複コミュニティを,純粋ノードを明示的に仮定することなく検出する手法を提案する。 さらに,既存のアルゴリズムとは対照的に,提案手法は凸最適化に基づいており,多くの有用な理論的特性がすでに知られている。 人工および実世界のデータセット上でのアルゴリズムの成功例を示す。

Community detection is a widely-studied unsupervised learning problem in which the task is to group similar entities together based on observed pairwise entity interactions. This problem has applications in diverse domains such as social network analysis and computational biology. There is a significant amount of literature studying this problem under the assumption that the communities do not overlap. When the communities are allowed to overlap, often a pure nodes assumption is made, i.e. each community has a node that belongs exclusively to that community. This assumption, however, may not always be satisfied in practice. In this paper, we provide a provable method to detect overlapping communities in weighted graphs without explicitly making the pure nodes assumption. Moreover, contrary to most existing algorithms, our approach is based on convex optimization, for which many useful theoretical properties are already known. We demonstrate the success of our algorithm on artificial and real-world datasets.
翻訳日:2022-12-13 03:03:15 公開日:2020-04-19
# RGB画像からのスペクトル再構成のための軽量残差注意網

Light Weight Residual Dense Attention Net for Spectral Reconstruction from RGB Images ( http://arxiv.org/abs/2004.06930v2 )

ライセンス: Link先を確認
D.Sabari Nathan, K.Uma, D Synthiya Vinothini, B. Sathya Bama, S. M. Md Mansoor Roomi(参考訳) ハイパースペクトルイメージング(hyperspectral imaging)は、特定のシーンのスペクトル情報と空間情報の取得である。 特殊なハイパースペクトルカメラからそのような情報をキャプチャすることはコストがかかる。 RGB画像からそのような情報を再構成すると、分類タスクとオブジェクト認識タスクの両方においてより良い解が得られる。 本研究は,Residual dense modelに基づくパラメータ数233,059の新たな軽量ネットワークを提案する。 このネットワークは空間情報の取得にCoordination Convolutional Blockを使用する。 このブロックからの重みは、2つの独立した特徴抽出機構によって共有され、一方は高密度特徴抽出によって、もう一方は多スケール階層特徴抽出によって共有される。 最後に、両方の特徴抽出機構の特徴をグローバルに融合して31のスペクトルバンドを生成する。 このネットワークは NTIRE 2020 チャレンジデータセットでトレーニングされており、計算複雑性の少ない 0.0457 MRAE メトリック値を達成した。

Hyperspectral Imaging is the acquisition of spectral and spatial information of a particular scene. Capturing such information from a specialized hyperspectral camera remains costly. Reconstructing such information from the RGB image achieves a better solution in both classification and object recognition tasks. This work proposes a novel light weight network with very less number of parameters about 233,059 parameters based on Residual dense model with attention mechanism to obtain this solution. This network uses Coordination Convolutional Block to get the spatial information. The weights from this block are shared by two independent feature extraction mechanisms, one by dense feature extraction and the other by the multiscale hierarchical feature extraction. Finally, the features from both the feature extraction mechanisms are globally fused to produce the 31 spectral bands. The network is trained with NTIRE 2020 challenge dataset and thus achieved 0.0457 MRAE metric value with less computational complexity.
翻訳日:2022-12-13 02:46:31 公開日:2020-04-19
# ウェアラブルデバイスにおける脳波分類における多レベル二値LSTM

Multi-level Binarized LSTM in EEG Classification for Wearable Devices ( http://arxiv.org/abs/2004.11206v1 )

ライセンス: Link先を確認
Najmeh Nazari, Seyed Ahmad Mirsalari, Sima Sinaei, Mostafa E. Salehi, Masoud Daneshtalab(参考訳) 長期短期記憶(lstm)は様々なシーケンシャルアプリケーションで広く使われている。 複雑なLSTMは、大量の計算とメモリ要求のため、ウェアラブルやリソース制限のあるデバイスにはほとんどデプロイできない。 バイナリLSTMはこの問題に対処するために導入されたが、ウェアラブルデバイスにデプロイするために必要なEEG分類など、いくつかのアプリケーションにおいて、かなりの精度の損失をもたらす。 本稿では,完全精度のLSTMにかなり近い精度で精度を確保しつつ,計算処理を大幅に削減した効率的なマルチレベルバイナライズLSTMを提案する。 5段階の重みと入力を配置することで、65nm技術におけるmac動作の面積と遅延を、それぞれ0.01%未満の精度損失で約31*と27*削減する。 多くの計算集約的なディープラーニングアプローチとは対照的に、提案アルゴリズムは軽量であり、LSTMベースの正確なEEG分類による性能効率をリアルタイムウェアラブルデバイスにもたらす。

Long Short-Term Memory (LSTM) is widely used in various sequential applications. Complex LSTMs could be hardly deployed on wearable and resourced-limited devices due to the huge amount of computations and memory requirements. Binary LSTMs are introduced to cope with this problem, however, they lead to significant accuracy loss in some application such as EEG classification which is essential to be deployed in wearable devices. In this paper, we propose an efficient multi-level binarized LSTM which has significantly reduced computations whereas ensuring an accuracy pretty close to full precision LSTM. By deploying 5-level binarized weights and inputs, our method reduces area and delay of MAC operation about 31* and 27* in 65nm technology, respectively with less than 0.01% accuracy loss. In contrast to many compute-intensive deep-learning approaches, the proposed algorithm is lightweight, and therefore, brings performance efficiency with accurate LSTM-based EEG classification to real-time wearable devices.
翻訳日:2022-12-12 00:44:35 公開日:2020-04-19
# フェデレーション機械学習におけるデータ中毒攻撃

Data Poisoning Attacks on Federated Machine Learning ( http://arxiv.org/abs/2004.10020v1 )

ライセンス: Link先を確認
Gan Sun, Yang Cong (Senior Member, IEEE), Jiahua Dong, Qiang Wang, and Ji Liu(参考訳) フェデレーション機械学習は、リソース制約のあるノードデバイス(携帯電話やIoTデバイスなど)が、トレーニングデータをローカルに保ちながら共有モデルを学習できるようにするもので、効果的な通信プロトコルを設計することで、プライバシ、セキュリティ、経済的メリットを提供する。 しかし、異なるノード間の通信プロトコルは、攻撃者がデータ中毒攻撃を開始するために悪用される可能性がある。 本稿では,フェデレートされた機械学習の脆弱性を探究する。 具体的には、統計的課題に対処する汎用マルチタスク学習フレームワークを採用することにより、フェデレートされたマルチタスク学習フレームワークを攻撃することに焦点を当てる。 ターゲットノードとソース攻撃ノードの任意の選択に適応するバイレベルプログラムとして,フェデレートされたマルチタスク学習に対する最適中毒攻撃の計算問題を定式化する。 そこで本研究では,有毒データに対する暗黙的勾配を導出する効率を向上し,さらにフェデレートされた機械学習における最適攻撃戦略を最適化する,新しいシステム対応最適化手法AT2FLを提案する。 我々の研究は、フェデレートラーニングのためのデータ中毒攻撃の問題を考察した初期の研究である。 最後に、実世界のデータセットにおける実験結果は、攻撃者がターゲットノードを直接毒殺するか、通信プロトコルを利用して間接的に関連ノードを毒殺する場合、フェデレーションされたマルチタスク学習モデルが毒殺攻撃に非常に敏感であることを示している。

Federated machine learning which enables resource constrained node devices (e.g., mobile phones and IoT devices) to learn a shared model while keeping the training data local, can provide privacy, security and economic benefits by designing an effective communication protocol. However, the communication protocol amongst different nodes could be exploited by attackers to launch data poisoning attacks, which has been demonstrated as a big threat to most machine learning models. In this paper, we attempt to explore the vulnerability of federated machine learning. More specifically, we focus on attacking a federated multi-task learning framework, which is a federated learning framework via adopting a general multi-task learning framework to handle statistical challenges. We formulate the problem of computing optimal poisoning attacks on federated multi-task learning as a bilevel program that is adaptive to arbitrary choice of target nodes and source attacking nodes. Then we propose a novel systems-aware optimization method, ATTack on Federated Learning (AT2FL), which is efficiency to derive the implicit gradients for poisoned data, and further compute optimal attack strategies in the federated machine learning. Our work is an earlier study that considers issues of data poisoning attack for federated learning. To the end, experimental results on real-world datasets show that federated multi-task learning model is very sensitive to poisoning attacks, when the attackers either directly poison the target nodes or indirectly poison the related nodes by exploiting the communication protocol.
翻訳日:2022-12-12 00:41:08 公開日:2020-04-19
# 深層学習を用いたrf指紋認証に基づくデバイス認証コード

Device Authentication Codes based on RF Fingerprinting using Deep Learning ( http://arxiv.org/abs/2004.08742v1 )

ライセンス: Link先を確認
Joshua Bassey, Xiangfang Li, Lijun Qian(参考訳) 本稿では,その無線周波数(RF)シグネチャを利用して,無線インターフェースでIoTデバイスを認証する新しい手法であるデバイス認証コード(DAC)を提案する。 提案するDACは,RFフィンガープリント,情報理論,特徴学習,深層学習の識別力に基づく。 具体的には、RFトレースから特徴を自動的に抽出するためにオートエンコーダを使用し、再構成エラーをDACとして使用し、このDACはデバイスと特定の関心のメッセージに固有のものである。 次に、自己エンコーダが生成した再構成エラーの分布と受信メッセージとの一致をコルモゴロフ・スミルノフ検定(K-S)を用いて、興味のある装置が認証ユーザに属するか否かを判定する。 6個のZigBeeと5つのユニバーサルソフトウェア定義無線周辺機器から得られた2つのRFトレースに対して,この概念を検証した。 トレースは、デバイスのさまざまな位置とモビリティ、およびモデルの堅牢性を保証するためのチャネル干渉とノイズによって、SignaltoNoise比の範囲にまたがる。 実験の結果,DACは興味のある無線デバイスに特有の特徴を抽出し,RFデバイスを特定することでデバイス偽造を防止することができることがわかった。 さらに,本手法では,モデルトレーニング中に侵入者のRFトレースを必要とせず,トレーニング中に見えないデバイスを識別できるので,実用的である。

In this paper, we propose Device Authentication Code (DAC), a novel method for authenticating IoT devices with wireless interface by exploiting their radio frequency (RF) signatures. The proposed DAC is based on RF fingerprinting, information theoretic method, feature learning, and discriminatory power of deep learning. Specifically, an autoencoder is used to automatically extract features from the RF traces, and the reconstruction error is used as the DAC and this DAC is unique to the device and the particular message of interest. Then Kolmogorov-Smirnov (K-S) test is used to match the distribution of the reconstruction error generated by the autoencoder and the received message, and the result will determine whether the device of interest belongs to an authorized user. We validate this concept on two experimentally collected RF traces from six ZigBee and five universal software defined radio peripheral (USRP) devices, respectively. The traces span a range of Signalto- Noise Ratio by varying locations and mobility of the devices and channel interference and noise to ensure robustness of the model. Experimental results demonstrate that DAC is able to prevent device impersonation by extracting salient features that are unique to any wireless device of interest and can be used to identify RF devices. Furthermore, the proposed method does not need the RF traces of the intruder during model training yet be able to identify devices not seen during training, which makes it practical.
翻訳日:2022-12-12 00:40:42 公開日:2020-04-19
# 不均一CPU+GPU確率勾配勾配アルゴリズム

Heterogeneous CPU+GPU Stochastic Gradient Descent Algorithms ( http://arxiv.org/abs/2004.08771v1 )

ライセンス: Link先を確認
Yujing Ma and Florin Rusu(参考訳) 広く採用されているプラクティスは、線形代数演算における優れたパフォーマンスのために、GPUやTPUといった特別なハードウェアアクセラレータでディープラーニングモデルをトレーニングすることである。 しかし、この戦略では、アクセラレーションされたサーバでデフォルトで利用可能なCPUとメモリリソース(前処理、データ転送、スケジューリングにのみ使用される)を効果的に活用していない。 本稿では,ヘテロジニアスCPU+GPUアーキテクチャの深層学習のためのトレーニングアルゴリズムについて検討する。 Our two-fold objective -maximize convergence rate and resource utilization simultaneously -- makes the problem challenging. In order to allow for a principled exploration of the design space, we first introduce a generic deep learning framework that exploits the difference in computational power and memory hierarchy between CPU and GPU through asynchronous message passing. Based on insights gained through experimentation with the framework, we design two heterogeneous asynchronous stochastic gradient descent (SGD) algorithms. The first algorithm -- CPU+GPU Hogbatch -- combines small batches on CPU with large batches on GPU in order to maximize the utilization of both resources. However, this generates an unbalanced model update distribution which hinders the statistical convergence. The second algorithm -- Adaptive Hogbatch -- assigns batches with continuously evolving size based on the relative speed of CPU and GPU. This balances the model updates ratio at the expense of a customizable decrease in utilization. We show that the implementation of these algorithms in the proposed CPU+GPU framework achieves both faster convergence and higher resource utilization than TensorFlow on several real datasets and on two computing architectures -- an on-premises server and a cloud instance.

The widely-adopted practice is to train deep learning models with specialized hardware accelerators, e.g., GPUs or TPUs, due to their superior performance on linear algebra operations. However, this strategy does not employ effectively the extensive CPU and memory resources -- which are used only for preprocessing, data transfer, and scheduling -- available by default on the accelerated servers. In this paper, we study training algorithms for deep learning on heterogeneous CPU+GPU architectures. Our two-fold objective -- maximize convergence rate and resource utilization simultaneously -- makes the problem challenging. In order to allow for a principled exploration of the design space, we first introduce a generic deep learning framework that exploits the difference in computational power and memory hierarchy between CPU and GPU through asynchronous message passing. Based on insights gained through experimentation with the framework, we design two heterogeneous asynchronous stochastic gradient descent (SGD) algorithms. The first algorithm -- CPU+GPU Hogbatch -- combines small batches on CPU with large batches on GPU in order to maximize the utilization of both resources. However, this generates an unbalanced model update distribution which hinders the statistical convergence. The second algorithm -- Adaptive Hogbatch -- assigns batches with continuously evolving size based on the relative speed of CPU and GPU. This balances the model updates ratio at the expense of a customizable decrease in utilization. We show that the implementation of these algorithms in the proposed CPU+GPU framework achieves both faster convergence and higher resource utilization than TensorFlow on several real datasets and on two computing architectures -- an on-premises server and a cloud instance.
翻訳日:2022-12-12 00:40:16 公開日:2020-04-19
# 深層学習による低流動光音響イメージングのコントラスト改善

Deep Learning Improves Contrast in Low-Fluence Photoacoustic Imaging ( http://arxiv.org/abs/2004.08782v1 )

ライセンス: Link先を確認
Ali Hariri, Kamran Alipour, Yash Mantri, Jurgen P. Schulze, and Jesse V. Jokerst(参考訳) 低蛍光光源は、頑丈でポータブルで安価で安全であるため、光音響イメージングの臨床的移行を促進することができる。 しかし、これらの源は低蛍光性のため画質が低下する。 本稿では,マルチレベルウェーブレット畳み込みニューラルネットワークを用いて,低周波光源画像を対応する高周波励起マップにマッピングする方法を提案する。 定量的および定性的な結果は、背景雑音を除去し、標的の構造を保存する重要な可能性を示している。 また,PSNR,SSIM,CNRの2.20,2.25,4.3倍の経時的改善が観察された。 また,本手法を用いて生体内におけるコントラストの増強(最大1.76倍)を観察した。 本手法は,光音響イメージングにおけるそのような情報源の価値を向上できることを示唆する。

Low fluence illumination sources can facilitate clinical transition of photoacoustic imaging because they are rugged, portable, affordable, and safe. However, these sources also decrease image quality due to their low fluence. Here, we propose a denoising method using a multi-level wavelet-convolutional neural network to map low fluence illumination source images to its corresponding high fluence excitation map. Quantitative and qualitative results show a significant potential to remove the background noise and preserve the structures of target. Substantial improvements up to 2.20, 2.25, and 4.3-fold for PSNR, SSIM, and CNR metrics were observed, respectively. We also observed enhanced contrast (up to 1.76-fold) in an in vivo application using our proposed methods. We suggest that this tool can improve the value of such sources in photoacoustic imaging.
翻訳日:2022-12-12 00:39:56 公開日:2020-04-19
# eを再び賢くする

Make E Smart Again ( http://arxiv.org/abs/2004.08858v1 )

ライセンス: Link先を確認
Zarathustra Amadeus Goertzel(参考訳) 本研究は,ENIGMAシステムのための新しいユースケースを実証するものである。 勾配ブースト決定木をxgboostで実装したenigmaシステムは、e定理証明者の推論をリアルタイムに導く能力が高いことを証明した。 ここでは、Eを素骨に分割し、KBO項の順序付けを最小限の順序付けとして同一性関係に置き換え、リテラル選択を無効にし、進化した戦略を、節重とFIFO(first in first out)節評価関数の単純な組み合わせで置き換える。 我々は、ENIGMAが、これらの標準的な自動定理証明機能なしでも、Eをガイドするだけでなく、スマートで進化した戦略を学習できることを実験的に実証した。 この目的のために、XGBoostのメタパラメータを1ダースループで実験する。

In this work in progress, we demonstrate a new use-case for the ENIGMA system. The ENIGMA system using the XGBoost implementation of gradient boosted decision trees has demonstrated high capability to learn to guide the E theorem prover's inferences in real-time. Here, we strip E to the bare bones: we replace the KBO term ordering with an identity relation as the minimal possible ordering, disable literal selection, and replace evolved strategies with a simple combination of the clause weight and FIFO (first in first out) clause evaluation functions. We experimentally demonstrate that ENIGMA can learn to guide E as well as the smart, evolved strategies even without these standard automated theorem prover functionalities. To this end, we experiment with XGBoost's meta-parameters over a dozen loops.
翻訳日:2022-12-12 00:32:30 公開日:2020-04-19
# ロボット手術における自律的タスク計画と状況認識

Autonomous task planning and situation awareness in robotic surgery ( http://arxiv.org/abs/2004.08911v1 )

ライセンス: Link先を確認
Michele Ginesi and Daniele Meli and Andrea Roberti and Nicola Sansonetto and Paolo Fiorini(参考訳) 低侵襲手術におけるロボットの使用により,標準的な外科手術の質が向上した。 これまでのところ、簡単な外科的動作の自動化は研究者によって研究されているが、環境に対する推論と複数のアクションの選択を必要とする構造化されたタスクの実行は、まだ人間の外科医によって管理されている。 本稿では,手術作業の自動化を実現するための枠組みを提案する。 このフレームワークは、解集合プログラミングに基づくタスクレベルの推論モジュール、動的運動プリミティブに基づく低レベルモーションプランニングモジュール、状況認識モジュールで構成されている。 論理ベースの推論モジュールは、説明可能な計画を生成し、ヒューマンスーパーバイザと対面する状況認識モジュールによって識別され、説明される障害状態から回復し、安全性を高める。 ダイナミックムーブメントプリミティブ(dynamic movement primitives)は、外科医の器用さを再現し、障害や環境の変化に適応することができる。 このフレームワークは、標準的な外科訓練peg-and-ringタスクの異なるバージョンで検証される。

The use of robots in minimally invasive surgery has improved the quality of standard surgical procedures. So far, only the automation of simple surgical actions has been investigated by researchers, while the execution of structured tasks requiring reasoning on the environment and the choice among multiple actions is still managed by human surgeons. In this paper, we propose a framework to implement surgical task automation. The framework consists of a task-level reasoning module based on answer set programming, a low-level motion planning module based on dynamic movement primitives, and a situation awareness module. The logic-based reasoning module generates explainable plans and is able to recover from failure conditions, which are identified and explained by the situation awareness module interfacing to a human supervisor, for enhanced safety. Dynamic Movement Primitives allow to replicate the dexterity of surgeons and to adapt to obstacles and changes in the environment. The framework is validated on different versions of the standard surgical training peg-and-ring task.
翻訳日:2022-12-12 00:31:54 公開日:2020-04-19
# 埋め込み暗チャンネルを用いた画像から画像への変換による腹腔鏡下手術画像の検討

Desmoking laparoscopy surgery images using an image-to-image translation guided by an embedded dark channel ( http://arxiv.org/abs/2004.08947v1 )

ライセンス: Link先を確認
Sebasti\'an Salazar-Colores, Hugo Alberto-Moreno, C\'esar Javier Ortiz-Echeverri, Gerardo Flores(参考訳) 腹腔鏡下手術では、$co_2$注入による煙と解離器具によって画像の視認性が著しく低下し、臓器や組織の視認性が低下する。 この視認性の欠如は、手術の時間と外科医によるミスの確率を増加させ、患者の健康に悪影響を及ぼす。 本稿では,煙効果を除去するための新しい計算手法を提案する。 提案手法は,暗黒チャネルを組込みガイドマスクとして用いる画像から画像への条件付き生成対向ネットワークに基づいている。 PNR(Peak Signal-to-Noise Ratio)とSSIM(Structuor similarity)の指標を用いて,実験結果の評価と,他の脱煙・脱湿手法との比較を行った。 これらの指標から,提案手法は最先端の手法と比較して性能が向上したことがわかった。 さらに,本手法で要求される処理時間は92フレーム/秒であり,組込みデバイスをリアルタイムにトラフする医療システムに適用することができる。

In laparoscopic surgery, the visibility in the image can be severely degraded by the smoke caused by the $CO_2$ injection, and dissection tools, thus reducing the visibility of organs and tissues. This lack of visibility increases the surgery time and even the probability of mistakes conducted by the surgeon, then producing negative consequences on the patient's health. In this paper, a novel computational approach to remove the smoke effects is introduced. The proposed method is based on an image-to-image conditional generative adversarial network in which a dark channel is used as an embedded guide mask. Obtained experimental results are evaluated and compared quantitatively with other desmoking and dehazing state-of-art methods using the metrics of the Peak Signal-to-Noise Ratio (PSNR) and Structural Similarity (SSIM) index. Based on these metrics, it is found that the proposed method has improved performance compared to the state-of-the-art. Moreover, the processing time required by our method is 92 frames per second, and thus, it can be applied in a real-time medical system trough an embedded device.
翻訳日:2022-12-12 00:31:23 公開日:2020-04-19
# t1強調乳房mr画像の自動組織および病変分割のためのスペクトルgui

Spectral GUI for Automated Tissue and Lesion Segmentation of T1 Weighted Breast MR Images ( http://arxiv.org/abs/2004.08960v1 )

ライセンス: Link先を確認
Prajval Koul(参考訳) グラフィカルユーザインタフェース(GUI)を用いたT1強調乳房MR画像における線維腺組織と病変の分画を容易にするための多プラットフォーム乳房MR画像解析ツールであるSpectral GUIを提案する。 スペクトルGUIRは胸部MR画像分割にスペクトルロフト法[1]を用いる。 インタラクティブであるだけでなく、堅牢かつ迅速である。 機械学習アルゴリズムを欠いているため、オーバーヘッドを最小限に抑えながら非常に高速な実行速度を示す。 結果の正確性は、パフォーマンス指標と専門知識を用いて同時に測定されている。 ツールの妥当性と適用性について,従来の機械学習の原則と対照的に論じ,画像解析の分野における有能なツールとして,その無意味な基盤を確立した。

We present Spectral GUI, a multiplatform breast MR image analysis tool designed to facilitate the segmentation of fibro glandular tissues and lesions in T1 weighted breast MR images via a graphical user interface (GUI). Spectral GUIR uses spectrum loft method [1] for breast MR image segmentation. Not only is it interactive, but robust and expeditious at the same time. Being devoid of any machine learning algorithm, it shows exceptionally high execution speed with minimal overheads. The accuracy of the results has been simultaneously measured using performance metrics and expert entailment. The validity and applicability of the tool are discussed in the paper along with a crisp contrast with traditional machine learning principles, establishing the unequivocal foundation of it as a competent tool in the field of image analysis.
翻訳日:2022-12-12 00:31:02 公開日:2020-04-19
# ADRキャプチャ手法選択のための空間デブリオントロジー

Space Debris Ontology for ADR Capture Methods Selection ( http://arxiv.org/abs/2004.08866v1 )

ライセンス: Link先を確認
Marko Jankovic (1), Mehmed Y\"uksel (1), Mohammad Mohammadzadeh Babr (1), Francesca Letizia (2), Vitali Braun (2) ((1) Robotics Innovation Center (RIC)--DFKI GmbH and University of Bremen, (2) IMS Space Consultancy for the European Space Operation Center (ESOC)--ESA)(参考訳) 研究は、既存の軌道内質量のアクティブデブリ除去(ADR)が必要であると結論付けている。 しかし、最適解の探索にはユニークな答えがなく、利用可能なデータは一貫性に欠けることが多い。 この状況を改善するために、世界規模のウェブ、医療、薬局を形作る近代的な知識表現技術が採用されるべきである。 宇宙デブリの領域における以前の取り組みは、ADRを無視した宇宙の状況認識にのみ焦点をあてていた。 このギャップを埋めるために、ADRキャプチャー法の選択のために、ペイロードとロケット本体を無傷で分解したオブジェクトのドメインオントロジーを示す。 オントロジーは対象オブジェクトの物理的、動的、統計的パラメータの最小セット上で定義される。 このオントロジーの実用性と妥当性を30の代表的なオブジェクトのデータベースに適用し、公開ソースの構造化データと非構造化データを組み合わせることで実証する。 その結果,対象物に対して最も適したADRキャプチャー手法を推定できるオントロジーが証明された。 さらに、異なるソースからの入力データを透過的に扱う能力を確認し、ユーザの入力を最小限にする。 開発オントロジーは、宇宙デブリの領域におけるデータ管理と知識発見を改善するための、より包括的な知識表現フレームワークへの最初のステップを提供する。 さらに、将来のadrミッションの初期計画をよりシンプルかつ体系的にするためのツールも提供する。

Studies have concluded that active debris removal (ADR) of the existing in-orbit mass is necessary. However, the quest for an optimal solution does not have a unique answer and the available data often lacks coherence. To improve this situation, modern knowledge representation techniques, that have been shaping the World Wide Web, medicine and pharmacy, should be employed. Prior efforts in the domain of space debris have only focused onto space situational awareness, neglecting ADR. To bridge this gap we present a domain-ontology of intact derelict objects, i.e. payloads and rocket bodies, for ADR capture methods selection. The ontology is defined on a minimal set of physical, dynamical and statistical parameters of a target object. The practicality and validity of the ontology are demonstrated by applying it onto a database of 30 representative objects, built by combining structured and unstructured data from publicly available sources. The analysis of results proves the ontology capable of inferring the most suited ADR capture methods for considered objects. Furthermore, it confirms its ability to handle the input data from different sources transparently, minimizing user input. The developed ontology provides an initial step towards a more comprehensive knowledge representation framework meant to improve data management and knowledge discovery in the domain of space debris. Furthermore, it provides a tool that should make the initial planning of future ADR missions simpler yet more systematic.
翻訳日:2022-12-12 00:30:50 公開日:2020-04-19
# プランナー中心メトリクスを用いた知覚モデル評価の学習

Learning to Evaluate Perception Models Using Planner-Centric Metrics ( http://arxiv.org/abs/2004.08745v1 )

ライセンス: Link先を確認
Jonah Philion, Amlan Kar, Sanja Fidler(参考訳) 精度と精度のばらつきは、コンピュータビジョンコミュニティが知覚アルゴリズムの進歩を測定するゴールドスタンダードである。 これらの指標が多用される理由の1つは、それらは主にタスクに依存しないためである。 これらの指標の欠点は、最悪の場合、タスクやシーンを条件にすることなく、すべての誤った検出を等しくペナルティ化することです。 本稿では,自動運転のタスクに特化して3次元物体検出の原理的基準を提案する。 私たちのメトリクスの背後にある中核的な考え方は、オブジェクト検出のタスクを分離し、生成された検出が運転の下流タスクに与える影響を測定することです。 手動で設計することなく、私たちのメトリクスは、他のメトリクスが設計によって課す多くの間違いを罰します。 さらに,検出からエゴ車までの距離や,他の検出指標では検出できない直感的な検出速度といった,追加的な要因に基づいて検出を下方修正する。 人格評価では、標準メトリクスと測定基準が一致しないシーンを生成し、その79%が人間が私たちの測定基準に従っていると判断します。 評価サーバを含むプロジェクトページはhttps://nv-tlabs.github.io/detection-relevanceで見ることができる。

Variants of accuracy and precision are the gold-standard by which the computer vision community measures progress of perception algorithms. One reason for the ubiquity of these metrics is that they are largely task-agnostic; we in general seek to detect zero false negatives or positives. The downside of these metrics is that, at worst, they penalize all incorrect detections equally without conditioning on the task or scene, and at best, heuristics need to be chosen to ensure that different mistakes count differently. In this paper, we propose a principled metric for 3D object detection specifically for the task of self-driving. The core idea behind our metric is to isolate the task of object detection and measure the impact the produced detections would induce on the downstream task of driving. Without hand-designing it to, we find that our metric penalizes many of the mistakes that other metrics penalize by design. In addition, our metric downweighs detections based on additional factors such as distance from a detection to the ego car and the speed of the detection in intuitive ways that other detection metrics do not. For human evaluation, we generate scenes in which standard metrics and our metric disagree and find that humans side with our metric 79% of the time. Our project page including an evaluation server can be found at https://nv-tlabs.github.io/detection-relevance.
翻訳日:2022-12-12 00:24:39 公開日:2020-04-19
# 長距離無線電力伝送システムのための軽量マスクR-CNN

Lightweight Mask R-CNN for Long-Range Wireless Power Transfer Systems ( http://arxiv.org/abs/2004.08761v1 )

ライセンス: Link先を確認
Hao Li, Aozhou Wu, Wen Fang, Qingqing Zhang, Mingqing Liu, Qingwen Liu, Wei Chen(参考訳) 共振ビーム充電(Resonant Beam Charging, RBC)は、無線充電技術である。 安全性、モビリティ、同時充電機能により、RBCは複数のモバイルデバイスを同時に安全に充電できる。 充電が必要なデバイスを検出するために,マスクr-cnnに基づくデクションモデルが先行研究で提案されている。 しかし,RBCシステムの制約を考慮すると,Mask R-CNNを軽量なハードウェア組み込みデバイスに適用するのは容易ではない。 そこで,従来のマスクr-cnnに基づくより軽量で高速なモデルを提供する機械学習検出手法を提案する。 提案手法により,モバイルデバイス上でのオブジェクト検出の移植が容易になり,ハードウェア計算の負担が軽減される。 背骨とMask R-CNNの頭部の構造を調整することで、平均検出時間を1イメージあたり1.02\mbox{s}$から0.6132\mbox{s}$に減らし、モデルサイズを245\mbox{MB}$から47.1\mbox{MB}$に短縮する。 改良されたモデルはRBCシステムにおけるアプリケーションにずっと適しています。

Resonant Beam Charging (RBC) is a wireless charging technology which supports multi-watt power transfer over meter-level distance. The features of safety, mobility and simultaneous charging capability enable RBC to charge multiple mobile devices safely at the same time. To detect the devices that need to be charged, a Mask R-CNN based dection model is proposed in previous work. However, considering the constraints of the RBC system, it's not easy to apply Mask R-CNN in lightweight hardware-embedded devices because of its heavy model and huge computation. Thus, we propose a machine learning detection approach which provides a lighter and faster model based on traditional Mask R-CNN. The proposed approach makes the object detection much easier to be transplanted on mobile devices and reduce the burden of hardware computation. By adjusting the structure of the backbone and the head part of Mask R-CNN, we reduce the average detection time from $1.02\mbox{s}$ per image to $0.6132\mbox{s}$, and reduce the model size from $245\mbox{MB}$ to $47.1\mbox{MB}$. The improved model is much more suitable for the application in the RBC system.
翻訳日:2022-12-12 00:24:07 公開日:2020-04-19
# TriGAN:マルチソースドメイン適応のための画像から画像への変換

TriGAN: Image-to-Image Translation for Multi-Source Domain Adaptation ( http://arxiv.org/abs/2004.08769v1 )

ライセンス: Link先を確認
Subhankar Roy, Aliaksandr Siarohin, Enver Sangineto, Nicu Sebe, Elisa Ricci(参考訳) ほとんどのドメイン適応法は、単一のソースデータセットから対象ドメインに知識を転送する問題を考える。 しかし、現実的なアプリケーションでは、通常は複数のソースにアクセスできます。 本稿では,生成型adversarial networkに基づくマルチソースドメイン適応 (msda) に対する最初のアプローチを提案する。 本手法は, 画像の外観が, ドメイン, スタイル(低レベル特徴量による特徴量) , 内容の3つの要因に依存するという観察に着想を得たものである。 そこで我々は,画像の特徴をコンテンツへの依存のみを保持する空間に投影し,対象領域とスタイルを用いて,この不変表現を画素空間に再投影することを提案する。 このようにして、最終ターゲット分類器のトレーニングに使用される新しいラベル付き画像を生成することができる。 提案手法はMSDAベンチマークを用いて検証し,最先端手法より優れていることを示す。

Most domain adaptation methods consider the problem of transferring knowledge to the target domain from a single source dataset. However, in practical applications, we typically have access to multiple sources. In this paper we propose the first approach for Multi-Source Domain Adaptation (MSDA) based on Generative Adversarial Networks. Our method is inspired by the observation that the appearance of a given image depends on three factors: the domain, the style (characterized in terms of low-level features variations) and the content. For this reason we propose to project the image features onto a space where only the dependence from the content is kept, and then re-project this invariant representation onto the pixel space using the target domain and style. In this way, new labeled images can be generated which are used to train a final target classifier. We test our approach using common MSDA benchmarks, showing that it outperforms state-of-the-art methods.
翻訳日:2022-12-12 00:23:42 公開日:2020-04-19
# MER-GCN:グラフ畳み込みネットワークを用いた関係モデルに基づくマイクロ表現認識

MER-GCN: Micro Expression Recognition Based on Relation Modeling with Graph Convolutional Network ( http://arxiv.org/abs/2004.08915v1 )

ライセンス: Link先を確認
Ling Lo, Hong-Xia Xie, Hong-Han Shuai, Wen-Huang Cheng(参考訳) マイクロ・エクスプレッション(ME: Micro-Expression)は、顔の自然な不随意運動であり、真の感覚を明らかにすることができる。 近年,この分野に深層学習技術を取り入れた研究が増えている。 行動単位 (aus) は顔面筋運動を反映する基本的な作用であり、au検出は多くの研究で表情の分類に採用されている。 しかし、時間を要するアノテーションプロセスは、AUの組み合わせを特定の感情クラスに関連付けるのが難しくなる。 グラフ畳み込みネットワーク(GCN, Graph Convolutional Networks)を構築するノード間の関係から着想を得て, 3D ConvNets を用いて AU 特徴を抽出し,GCN 層を適用して AU ノード間の依存性の発見を行う,エンドツーエンドの AU グラフ分類ネットワーク MER-GCN を提案する。 我々の知る限り、この研究はAUsベースのGCNを用いたMER(Micro-Expression Recognition)のための最初のエンドツーエンドアーキテクチャである。 実験の結果,提案手法はCNNベースのMERネットワークよりも優れていた。

Micro-Expression (ME) is the spontaneous, involuntary movement of a face that can reveal the true feeling. Recently, increasing researches have paid attention to this field combing deep learning techniques. Action units (AUs) are the fundamental actions reflecting the facial muscle movements and AU detection has been adopted by many researches to classify facial expressions. However, the time-consuming annotation process makes it difficult to correlate the combinations of AUs to specific emotion classes. Inspired by the nodes relationship building Graph Convolutional Networks (GCN), we propose an end-to-end AU-oriented graph classification network, namely MER-GCN, which uses 3D ConvNets to extract AU features and applies GCN layers to discover the dependency laying between AU nodes for ME categorization. To our best knowledge, this work is the first end-to-end architecture for Micro-Expression Recognition (MER) using AUs based GCN. The experimental results show that our approach outperforms CNN-based MER networks.
翻訳日:2022-12-12 00:22:13 公開日:2020-04-19
# 物体ごとの可逆データ拡張による顔認識における顔面バイアスの探索

Exploring Racial Bias within Face Recognition via per-subject Adversarially-Enabled Data Augmentation ( http://arxiv.org/abs/2004.08945v1 )

ライセンス: Link先を確認
Seyma Yucer, Samet Ak\c{c}ay, Noura Al-Moubayed, Toby P. Breckon(参考訳) 顔認識の応用は私たちの日常生活でますます普及しつつあるが、この分野における主要なアプローチは、社会内の人種的プロファイルの有害さに対するパフォーマンスバイアスに悩まされている。 本研究では,敏感な人種的特徴の伝達に画像から画像への変換を応用し,サブジェクト単位のデータセットバランスを実現することを目的とした,新たな敵対的データ拡張手法を提案する。 本研究の目的は,様々な領域にまたがる顔画像の変換による合成データセットの自動構築と,それに伴う識別関連特徴の保存である。 我々は,共通の畳み込みニューラルネットワークバックボーン上でのsoftmax,cosface,arcfaceの3つの重要な顔認識型について実験を行った。 本研究では,提案手法が(人種的)少数集団に対する認識性能に与える影響を,前段階の差を減らし,非バランスなトレーニングデータセットにおける正の効果を示す。

Whilst face recognition applications are becoming increasingly prevalent within our daily lives, leading approaches in the field still suffer from performance bias to the detriment of some racial profiles within society. In this study, we propose a novel adversarial derived data augmentation methodology that aims to enable dataset balance at a per-subject level via the use of image-to-image transformation for the transfer of sensitive racial characteristic facial features. Our aim is to automatically construct a synthesised dataset by transforming facial images across varying racial domains, while still preserving identity-related features, such that racially dependant features subsequently become irrelevant within the determination of subject identity. We construct our experiments on three significant face recognition variants: Softmax, CosFace and ArcFace loss over a common convolutional neural network backbone. In a side-by-side comparison, we show the positive impact our proposed technique can have on the recognition performance for (racial) minority groups within an originally imbalanced training dataset by reducing the pre-race variance in performance.
翻訳日:2022-12-12 00:21:54 公開日:2020-04-19
# BanFakeNews:バングラのフェイクニュースを検出するデータセット

BanFakeNews: A Dataset for Detecting Fake News in Bangla ( http://arxiv.org/abs/2004.08789v1 )

ライセンス: Link先を確認
Md Zobaer Hossain, Md Ashraful Rahman, Md Saiful Islam, Sudipta Kar(参考訳) 政治や金融など様々な分野における偽ニュースの急速な伝播による被害を観察し、言語分析による偽ニュースの自動識別が研究コミュニティの注目を集めている。 しかし、このような手法は、低リソース言語が焦点を絞らない英語で開発されている。 しかし、偽ニュースや操作的なニュースによって引き起こされるリスクは言語によって制限されない。 本研究では,Banglaのような低リソース言語のための偽ニュース自動検出システムを構築するために,50K以上のニュースの注釈付きデータセットを提案する。 さらに,Banglaフェイクニュースを識別するためのNLP技術の現状を指標として,データセットの分析とベンチマークシステムの開発を行う。 このシステムを構築するために,従来の言語的特徴とニューラルネットワークに基づく手法を検討する。 このデータセットは、フェイクニュースの拡散を防ぎ、低リソース言語による研究に貢献する技術を構築する上で、貴重なリソースになるだろうと考えています。

Observing the damages that can be done by the rapid propagation of fake news in various sectors like politics and finance, automatic identification of fake news using linguistic analysis has drawn the attention of the research community. However, such methods are largely being developed for English where low resource languages remain out of the focus. But the risks spawned by fake and manipulative news are not confined by languages. In this work, we propose an annotated dataset of ~50K news that can be used for building automated fake news detection systems for a low resource language like Bangla. Additionally, we provide an analysis of the dataset and develop a benchmark system with state of the art NLP techniques to identify Bangla fake news. To create this system, we explore traditional linguistic features and neural network based methods. We expect this dataset will be a valuable resource for building technologies to prevent the spreading of fake news and contribute in research with low resource languages.
翻訳日:2022-12-12 00:14:43 公開日:2020-04-19
# 欠陥レポート検出のためのパターン学習とアプリレビューの改善要求

Pattern Learning for Detecting Defect Reports and Improvement Requests in App Reviews ( http://arxiv.org/abs/2004.08793v1 )

ライセンス: Link先を確認
Gino V.H. Mangnoesing, Maria Mihaela Trusca, Flavius Frasincar(参考訳) オンラインレビューは顧客を理解するための重要なフィードバック源です。 本研究では、レビューを欠陥報告と改善の要求として分類することで、この行動可能な洞察の欠如を狙う新しいアプローチに従う。 専門家のルールに基づく従来の分類法とは異なり、遺伝的プログラミングを通じて語彙・意味パターンを学習できる教師付きシステムを用いて、手作業を減らす。 さらに,パターンが生成するノイズラベルを利用した遠隔監視型SVMの実験を行った。 アプリレビューの実際のデータセットを使用して、自動学習されたパターンが手作業で作成したパターンよりも優れていることを示す。 また、遠隔監視されたSVMモデルはパターンベースのソリューションにそれほど遅れず、アノテーション付きデータの量に制限がある場合のこのアプローチの有用性を示している。

Online reviews are an important source of feedback for understanding customers. In this study, we follow novel approaches that target this absence of actionable insights by classifying reviews as defect reports and requests for improvement. Unlike traditional classification methods based on expert rules, we reduce the manual labour by employing a supervised system that is capable of learning lexico-semantic patterns through genetic programming. Additionally, we experiment with a distantly-supervised SVM that makes use of noisy labels generated by patterns. Using a real-world dataset of app reviews, we show that the automatically learned patterns outperform the manually created ones, to be generated. Also the distantly-supervised SVM models are not far behind the pattern-based solutions, showing the usefulness of this approach when the amount of annotated data is limited.
翻訳日:2022-12-12 00:14:29 公開日:2020-04-19
# テキストマッチングとしての抽出要約

Extractive Summarization as Text Matching ( http://arxiv.org/abs/2004.08795v1 )

ライセンス: Link先を確認
Ming Zhong, Pengfei Liu, Yiran Chen, Danqing Wang, Xipeng Qiu, Xuanjing Huang(参考訳) 本稿では,神経抽出要約システムの構築方法に関するパラダイムシフトについて述べる。 文を個別に抽出し,文間の関係をモデル化する一般的な枠組みに従う代わりに,抽出した要約タスクを意味的テキストマッチング問題として定式化し,ソース文書と候補要約をセマンティック空間内でマッチングする(原文から抽出)。 特に、セマンティクスマッチングフレームワークへのパラダイムシフトは、データセットの特性に基づいた文レベルと要約レベルの抽出子間の固有のギャップの包括的分析において十分に基礎を置いている。 さらに、単純な形式のマッチングモデルでフレームワークをインスタンス化しても、CNN/DailyMailの最先端の抽出結果を新しいレベル(ROUGE-1では44.41)に駆動しました。 他の5つのデータセットの実験も、マッチングフレームワークの有効性を示している。 このマッチングベースの要約フレームワークのパワーは、十分に活用されていないと考えています。 将来的にさらなるインスタンス化を促進するため、コード、処理されたデータセット、および生成された要約をhttps://github.com/maszhongming/MatchSumでリリースしました。

This paper creates a paradigm shift with regard to the way we build neural extractive summarization systems. Instead of following the commonly used framework of extracting sentences individually and modeling the relationship between sentences, we formulate the extractive summarization task as a semantic text matching problem, in which a source document and candidate summaries will be (extracted from the original text) matched in a semantic space. Notably, this paradigm shift to semantic matching framework is well-grounded in our comprehensive analysis of the inherent gap between sentence-level and summary-level extractors based on the property of the dataset. Besides, even instantiating the framework with a simple form of a matching model, we have driven the state-of-the-art extractive result on CNN/DailyMail to a new level (44.41 in ROUGE-1). Experiments on the other five datasets also show the effectiveness of the matching framework. We believe the power of this matching-based summarization framework has not been fully exploited. To encourage more instantiations in the future, we have released our codes, processed dataset, as well as generated summaries in https://github.com/maszhongming/MatchSum.
翻訳日:2022-12-12 00:14:16 公開日:2020-04-19
# メタラーニングを改良した知識グラフに基づく韻律対話生成

Knowledge-graph based Proactive Dialogue Generation with Improved Meta-Learning ( http://arxiv.org/abs/2004.08798v1 )

ライセンス: Link先を確認
Hongcai Xu, Junpeng Bao, Junqing Wang(参考訳) 知識グラフに基づく対話システムは、三重属性やグラフパスといった事前情報を用いて情報的かつ多様な応答を生成するための知識候補を絞り込むことができる。 しかし、現在の知識グラフ(KG)のほとんどは、不完全なドメイン固有の知識をカバーしている。 この欠点を克服するために,モデル非依存型メタラーニングアルゴリズム(maml)の改良,知識三重項埋め込みにおける知識選択,知識認識型プロアクティブ応答生成器の3つのコンポーネントを用いた知識グラフに基づくプロアクティブ対話生成モデル(kgdg)を提案する。 知識三重項埋め込みと選択については、文埋め込みの問題として定式化し、意味情報を取り込む。 改良されたMAMLアルゴリズムは,限られた知識グラフから一般特徴を学習し,未知の知識三重項を用いた対話生成を迅速に行うことができる。 知識を意識した対話データセット(DuConv)で大規模な実験を行う。 その結果、kgdgは知識グラフに基づく対話生成に高速かつ良好に適応し、最先端のベースラインを上回ることがわかった。

Knowledge graph-based dialogue systems can narrow down knowledge candidates for generating informative and diverse responses with the use of prior information, e.g., triple attributes or graph paths. However, most current knowledge graph (KG) cover incomplete domain-specific knowledge. To overcome this drawback, we propose a knowledge graph based proactive dialogue generation model (KgDg) with three components, improved model-agnostic meta-learning algorithm (MAML), knowledge selection in knowledge triplets embedding, and knowledge aware proactive response generator. For knowledge triplets embedding and selection, we formulate it as a problem of sentence embedding to better capture semantic information. Our improved MAML algorithm is capable of learning general features from a limited number of knowledge graphs, which can also quickly adapt to dialogue generation with unseen knowledge triplets. Extensive experiments are conducted on a knowledge aware dialogue dataset (DuConv). The results show that KgDg adapts both fast and well to knowledge graph-based dialogue generation and outperforms state-of-the-art baseline.
翻訳日:2022-12-12 00:13:56 公開日:2020-04-19
# 細粒度エンティティタイピングのための中国語コーパス

A Chinese Corpus for Fine-grained Entity Typing ( http://arxiv.org/abs/2004.08825v1 )

ライセンス: Link先を確認
Chin Lee, Hongliang Dai, Yangqiu Song, Xin Li(参考訳) きめ細かいエンティティタイピングは、幅広いアプリケーションにおいて難しい課題である。 しかし、このタスクのための既存のデータセットのほとんどは英語である。 本稿では,クラウドソーシングによって手作業でラベル付けされた4,800項目を含む,中国の細粒度エンティティタイピング用コーパスを提案する。 各参照は、フリーフォームのエンティティタイプでアノテートされる。 より可能なシナリオでデータセットを有用にするために、すべてのきめ細かい型を10の一般的な型に分類する。 最後に,細粒度のエンティティ型付けに典型的な構造を持ついくつかのニューラルモデルを用いて実験を行い,データセット上での性能を示す。 また,中国語の微粒なエンティティタイピングを言語間移動学習によって改善する可能性も示した。

Fine-grained entity typing is a challenging task with wide applications. However, most existing datasets for this task are in English. In this paper, we introduce a corpus for Chinese fine-grained entity typing that contains 4,800 mentions manually labeled through crowdsourcing. Each mention is annotated with free-form entity types. To make our dataset useful in more possible scenarios, we also categorize all the fine-grained types into 10 general types. Finally, we conduct experiments with some neural models whose structures are typical in fine-grained entity typing and show how well they perform on our dataset. We also show the possibility of improving Chinese fine-grained entity typing through cross-lingual transfer learning.
翻訳日:2022-12-12 00:13:36 公開日:2020-04-19
# 適応型メタラーニングによる動的知識グラフに基づく対話生成

Dynamic Knowledge Graph-based Dialogue Generation with Improved Adversarial Meta-Learning ( http://arxiv.org/abs/2004.08833v1 )

ライセンス: Link先を確認
Hongcai Xu, Junpeng Bao, Gaojie Zhang(参考訳) ナレッジグラフに基づく対話システムは、より有益な応答を生成でき、洗練された推論機構を実装することができる。 しかし、これらのモデルは知識グラフ(KG)のスパース性や不完全性を考慮しておらず、現在の対話モデルは動的KGには適用できない。 本稿では,対戦型メタラーニング(KDAD)を改善した動的知識グラフに基づく対話生成手法を提案する。 KDADは、動的知識三重項を敵攻撃の問題として定式化し、動的知識認識対話生成に迅速に適応する目的を取り入れている。 最小限のトレーニングサンプルを用いてADMLを改善した知識グラフに基づく対話モデルを訓練する。 モデルはパラメータを初期化し、未認識の知識に適応することで、わずか3つの知識に基づいてトレーニングを迅速に完了させることができる。 私たちのモデルは、他のベースラインよりも大幅に優れています。 本手法は,動的知識グラフに基づく対話生成に非常に高速かつよく適応することを示す。

Knowledge graph-based dialogue systems are capable of generating more informative responses and can implement sophisticated reasoning mechanisms. However, these models do not take into account the sparseness and incompleteness of knowledge graph (KG)and current dialogue models cannot be applied to dynamic KG. This paper proposes a dynamic Knowledge graph-based dialogue generation method with improved adversarial Meta-Learning (KDAD). KDAD formulates dynamic knowledge triples as a problem of adversarial attack and incorporates the objective of quickly adapting to dynamic knowledge-aware dialogue generation. We train a knowledge graph-based dialog model with improved ADML using minimal training samples. The model can initialize the parameters and adapt to previous unseen knowledge so that training can be quickly completed based on only a few knowledge triples. We show that our model significantly outperforms other baselines. We evaluate and demonstrate that our method adapts extremely fast and well to dynamic knowledge graph-based dialogue generation.
翻訳日:2022-12-12 00:13:25 公開日:2020-04-19
# 低リソースインド言語のためのニューラルマシン翻訳

Neural Machine Translation for Low-Resourced Indian Languages ( http://arxiv.org/abs/2004.13819v1 )

ライセンス: Link先を確認
Himanshu Choudhary, Shivansh Rao, Rajesh Rohilla(参考訳) 多くの重要な資産が英語でオンラインで利用可能であり、英語に詳しくない地元の人々の間での情報共有を容易にするために、ネイティブ言語に翻訳されることが多い。 しかし、手動翻訳は非常に退屈で費用がかかり、時間がかかる。 この目的のために、機械翻訳は人間の関与なしに異なる言語にテキストを変換する効果的なアプローチである。 neural machine translation (nmt) は、既存の機械翻訳システムの中で最も熟練した翻訳技術の一つである。 本稿では,英語・タミル語と英語・マラヤラム語という2つの形態素豊かなインド語にnmtを適用した。 オンライン翻訳があまり提供されていない低資源形態素インド言語に対するOOV(Out Of Vocabulary)問題を克服する効率的な翻訳システムを開発するために,Multihead自己注意(Multihead self-attention)とBPE(Byte-Pair-Encoded)とMultiBPE埋め込み(MultiBPE)を用いた新しいNMTモデルを提案した。 また、さまざまなソースからコーパスを収集し、これらの公開データの問題に対処し、さらなる用途のために洗練しました。 システム性能の評価にbleuスコアを使用しました。 実験の結果,提案する翻訳者(24.34 と 9.78 bleu スコア)がそれぞれ google 翻訳者(9.40 と 5.94 bleu スコア)を上回ることを確認した。

A large number of significant assets are available online in English, which is frequently translated into native languages to ease the information sharing among local people who are not much familiar with English. However, manual translation is a very tedious, costly, and time-taking process. To this end, machine translation is an effective approach to convert text to a different language without any human involvement. Neural machine translation (NMT) is one of the most proficient translation techniques amongst all existing machine translation systems. In this paper, we have applied NMT on two of the most morphological rich Indian languages, i.e. English-Tamil and English-Malayalam. We proposed a novel NMT model using Multihead self-attention along with pre-trained Byte-Pair-Encoded (BPE) and MultiBPE embeddings to develop an efficient translation system that overcomes the OOV (Out Of Vocabulary) problem for low resourced morphological rich Indian languages which do not have much translation available online. We also collected corpus from different sources, addressed the issues with these publicly available data and refined them for further uses. We used the BLEU score for evaluating our system performance. Experimental results and survey confirmed that our proposed translator (24.34 and 9.78 BLEU score) outperforms Google translator (9.40 and 5.94 BLEU score) respectively.
翻訳日:2022-12-12 00:13:09 公開日:2020-04-19
# 仮想人間のためのインペラティブ

Imperatives for Virtual Humans ( http://arxiv.org/abs/2004.10014v1 )

ライセンス: Link先を確認
Weizi Li and Jan M. Allbeck(参考訳) 仮想人間の誕生以来、彼らの行動をより自然で人間らしくするための努力が続けられてきた。 運動の視覚品質の向上に加えて、よりインテリジェントな仮想文字の作成に焦点を当てた研究が数多く行われている。 本稿では,構造化された英語入力を用いて,より合理的な仮想人間の行動を実現することを目的とした自然言語構築に触発されたフレームワークを提案する。 我々は主にオブジェクトの種類と特性、定量化器、決定器、空間関係に焦点を当てる。 このフレームワークは、人間の行動をシミュレートするための自然な柔軟なオーサリングシステムを提供する。

Seemingly since the inception of virtual humans, there has been an effort to make their behaviors more natural and human-like. In additions to improving movement's visual quality, there has been considerable research focused on creating more intelligent virtual characters. This paper presents a framework inspired by natural language constructs that aims to author more reasonable virtual human behaviors using structured English input. We focus mainly on object types and properties, quantifiers, determiners, and spatial relations. The framework provides a natural, flexible authoring system for simulating human behaviors.
翻訳日:2022-12-12 00:12:49 公開日:2020-04-19
# 偏光パラメータ構築ネットワークに基づく偏光視覚タスクのためのエンドツーエンドCNNフレームワーク

An end-to-end CNN framework for polarimetric vision tasks based on polarization-parameter-constructing network ( http://arxiv.org/abs/2004.08740v1 )

ライセンス: Link先を確認
Yong Wang, Qi Liu, Hongyu Zu, Xiao Liu, Ruichao Xie, Feng Wang(参考訳) 偏光情報の処理には,偏光画像間の画素分割操作が重要である。 このような操作の欠如のため、偏極情報は畳み込みニューラルネットワーク(CNN)で完全に利用することはできない。 本稿では,ネットワークがポラリメトリック画像の利点を最大限に活用できる,新しい偏光ビジョンタスクのためのエンド・ツー・エンドのcnnフレームワークを提案する。 このフレームワークは、偏光パラメータ構築ネットワーク(PPCN)とタスクネットワークの2つのサブネットワークで構成されている。 PPCNは1x1畳み込みカーネルを持つCNN形式の画像間の画素演算を実装している。 生のポラリメトリック画像を入力として、タスクネットワークに偏光パラメトリック画像を出力してバイソンタスクを完了させる。 共にトレーニングすることで、PPCNはタスクネットワークとデータセットに最適な偏光パラメトリック画像を提供することを学ぶことができる。 R-CNNをタスクネットワークとして高速にすることで、既存の手法と比較して、オブジェクト検出タスクにおける平均精度(mAP)がはるかに高いことを示す。

Pixel-wise operations between polarimetric images are important for processing polarization information. For the lack of such operations, the polarization information cannot be fully utilized in convolutional neural network(CNN). In this paper, a novel end-to-end CNN framework for polarization vision tasks is proposed, which enables the networks to take full advantage of polarimetric images. The framework consists of two sub-networks: a polarization-parameter-constructing network (PPCN) and a task network. PPCN implements pixel-wise operations between images in the CNN form with 1x1 convolution kernels. It takes raw polarimetric images as input, and outputs polarization-parametric images to task network so as to complete a vison task. By training together, the PPCN can learn to provide the most suitable polarization-parametric images for the task network and the dataset. Taking faster R-CNN as task network, the experimental results show that compared with existing methods, the proposed framework achieves much higher mean-average-precision (mAP) in object detection task
翻訳日:2022-12-12 00:12:42 公開日:2020-04-19
# ODE分割の観点からの確率勾配アルゴリズム

Stochastic gradient algorithms from ODE splitting perspective ( http://arxiv.org/abs/2004.08981v1 )

ライセンス: Link先を確認
Daniil Merkulov, Ivan Oseledets(参考訳) 我々は、ODEの近似解の分割スキームに遡る確率最適化に関する異なる見解を示す。 本稿では,確率的勾配降下アプローチとodeの1次分割スキームとの関係について述べる。 本稿では,機械学習アプリケーションから着想を得た分割の特別な場合を考察し,大域的分割誤差の新しい上限を導出する。 本稿では,線形最小二乗問題に対する単位バッチsgdの分割スキームの極限ケースとしてカツマルツ法を提案する。 我々は,局所的問題のより正確な解法がロバスト性の段階化につながり,ソフトマックス回帰問題に対する時間とイテレーションの収束性が向上することを示す,系統的実証研究で知見を裏付ける。

We present a different view on stochastic optimization, which goes back to the splitting schemes for approximate solutions of ODE. In this work, we provide a connection between stochastic gradient descent approach and first-order splitting scheme for ODE. We consider the special case of splitting, which is inspired by machine learning applications and derive a new upper bound on the global splitting error for it. We present, that the Kaczmarz method is the limit case of the splitting scheme for the unit batch SGD for linear least squares problem. We support our findings with systematic empirical studies, which demonstrates, that a more accurate solution of local problems leads to the stepsize robustness and provides better convergence in time and iterations on the softmax regression problem.
翻訳日:2022-12-12 00:05:40 公開日:2020-04-19
# インド人患者におけるビタミンKアンタゴニストの量予測支援のための機械学習モデルの開発とモバイル応用

Development of a Machine Learning Model and Mobile Application to Aid in Predicting Dosage of Vitamin K Antagonists Among Indian Patients ( http://arxiv.org/abs/2004.11460v1 )

ライセンス: Link先を確認
Amruthlal M, Devika S, Ameer Suhail P A, Aravind K Menon, Vignesh Krishnan, Alan Thomas, Manu Thomas, Sanjay G, Lakshmi Kanth L R, Jimmy Jose, Harikrishnan S(参考訳) 機械的心臓弁置換や心房細動などの病態を持つ患者は、血液の凝固を防ぐためにビタミンKアンタゴニスト(VKA)薬を服用しなければならない。 これらの薬物は治療範囲が狭く、生命を脅かす副作用のために非常に密に監視する必要がある。 血液検査により得られたプロトロンビン時間-国際正規化比(PT-INR)値に基づいて、VKA薬物の服用量を決定する。 現在最も推奨されている抗凝固薬であるワルファリンの維持投与量を予測することを目的とした。 治療を受け, 安定なinr値が2.0~4.0の患者に対して, ワーファリンの維持投与量を予測するため, サポートベクター・マシン(svm)回帰モデルを構築した。

Patients who undergo mechanical heart valve replacements or have conditions like Atrial Fibrillation have to take Vitamin K Antagonists (VKA) drugs to prevent coagulation of blood. These drugs have narrow therapeutic range and need to be very closely monitored due to life threatening side effects. The dosage of VKA drug is determined and revised by a physician based on Prothrombin Time - International Normalised Ratio (PT-INR) value obtained through a blood test. Our work aimed at predicting the maintenance dosage of warfarin, the present most widely recommended anticoagulant drug, using the de-identified medical data collected from 109 patients from Kerala. A Support Vector Machine (SVM) Regression model was built to predict the maintenance dosage of warfarin, for patients who have been undergoing treatment from a physician and have reached stable INR values between 2.0 and 4.0.
翻訳日:2022-12-12 00:05:28 公開日:2020-04-19
# UNet 3+: 医用画像セグメンテーションのためのフルスケール接続されたUNet

UNet 3+: A Full-Scale Connected UNet for Medical Image Segmentation ( http://arxiv.org/abs/2004.08790v1 )

ライセンス: Link先を確認
Huimin Huang, Lanfen Lin, Ruofeng Tong, Hongjie Hu, Qiaowei Zhang, Yutaro Iwamoto, Xianhua Han, Yen-Wei Chen, Jian Wu(参考訳) 近年,深層学習に基づく意味セグメンテーションへの関心が高まっている。 エンコーダ-デコーダアーキテクチャを持つディープラーニングネットワークの1つであるunetは、医療画像のセグメンテーションで広く使われている。 マルチスケール機能を組み合わせることは、正確なセグメンテーションの重要な要素の1つである。 unet++は、入れ子と密接なスキップ接続を持つアーキテクチャを設計することで、修正されたunetとして開発された。 しかし、完全な規模から十分な情報を探ることができず、改善の余地は大きい。 本稿では,フルスケールのスキップ接続と深い監視機能を利用する新しいUNet 3+を提案する。 フルスケールのスキップ接続には、異なるスケールのフィーチャーマップから高レベルのセマンティクスを含む低レベルの詳細が含まれている。 提案手法は, 様々なスケールで出現する臓器に対して特に有益である。 精度の向上に加えて、提案するunet 3+はネットワークパラメータを削減し、計算効率を向上させることができる。 さらに, ハイブリッド損失関数を提案し, 分類誘導モジュールを考案し, 臓器の境界を拡大し, 非臓器像の過偏化を低減し, より正確なセグメンテーション結果を得る。 提案手法の有効性を2つのデータセットで示す。 コードは、github.com/ZJUGiveLab/UNet-Versionで入手できる。

Recently, a growing interest has been seen in deep learning-based semantic segmentation. UNet, which is one of deep learning networks with an encoder-decoder architecture, is widely used in medical image segmentation. Combining multi-scale features is one of important factors for accurate segmentation. UNet++ was developed as a modified Unet by designing an architecture with nested and dense skip connections. However, it does not explore sufficient information from full scales and there is still a large room for improvement. In this paper, we propose a novel UNet 3+, which takes advantage of full-scale skip connections and deep supervisions. The full-scale skip connections incorporate low-level details with high-level semantics from feature maps in different scales; while the deep supervision learns hierarchical representations from the full-scale aggregated feature maps. The proposed method is especially benefiting for organs that appear at varying scales. In addition to accuracy improvements, the proposed UNet 3+ can reduce the network parameters to improve the computation efficiency. We further propose a hybrid loss function and devise a classification-guided module to enhance the organ boundary and reduce the over-segmentation in a non-organ image, yielding more accurate segmentation results. The effectiveness of the proposed method is demonstrated on two datasets. The code is available at: github.com/ZJUGiveLab/UNet-Version
翻訳日:2022-12-12 00:05:09 公開日:2020-04-19
# FCNを用いた交通車線検出

Traffic Lane Detection using FCN ( http://arxiv.org/abs/2004.08977v1 )

ライセンス: Link先を確認
Shengchang Zhang, Ahmed EI Koubia, Khaled Abdul Karim Mohammed(参考訳) 自動車線検出は、自動運転車が都市部の複数車線走行環境に適切に配置できるようにする重要な技術である。 しかし,様々な気象条件下で多様な道路標識を検出することは,従来の画像処理やコンピュータビジョン技術では難しい課題である。 近年,この領域におけるディープラーニングとニューラルネットワークの応用は非常に効果的であることが証明されている。 本プロジェクトでは,車線検出のためのエンコーダデコーダ,完全畳み込みネットワークを設計した。 このモデルは現実世界の大規模データセットに適用され、ベースラインモデルを上回る精度を達成しました。

Automatic lane detection is a crucial technology that enables self-driving cars to properly position themselves in a multi-lane urban driving environments. However, detecting diverse road markings in various weather conditions is a challenging task for conventional image processing or computer vision techniques. In recent years, the application of Deep Learning and Neural Networks in this area has proven to be very effective. In this project, we designed an Encoder- Decoder, Fully Convolutional Network for lane detection. This model was applied to a real-world large scale dataset and achieved a level of accuracy that outperformed our baseline model.
翻訳日:2022-12-12 00:04:20 公開日:2020-04-19
# 自閉症児のためのウェアラブル型ソーシャルインタラクション支援

A Wearable Social Interaction Aid for Children with Autism ( http://arxiv.org/abs/2004.14281v1 )

ライセンス: Link先を確認
Nick Haber, Catalin Voss, Jena Daniels, Peter Washington, Azar Fazel, Aaron Kline, Titas De, Terry Winograd, Carl Feinstein, Dennis P. Wall(参考訳) 最近の推計では、米国では68人中1人の割合で自閉症スペクトラム障害(ASD)が流行している。 これらの子供たちの多くは、アイコンタクトを作り、表情を認識し、社会的相互作用に従事するのに苦労しています。 今日、中核自閉症関連障害の治療基準は、応用行動分析として知られる行動訓練の形式に焦点を当てている。 表現認識における認知障害に対処するために、ABAアプローチは、記憶を介した反復的な感情認識トレーニングにフラッシュカードなどのプロンプトを使用する。 これらの技術は、訓練を受けた実践者や、注意が必要な多くの子供や家族の手が届かないほど多くの臨床センターによって管理されなければならない。 アクセス待ち時間は最大18ヶ月であり、この待ち時間は子供たちが長期の予後を悪化させる孤立の道を後退させる可能性がある。 リスクや自閉症の診断によって、子どもの介護者を適切に支援し、臨床現場以外で使うためのモバイルツールやウェアラブル機器を活用できる新しいケアデリバリー方法の革新が急務である。

With most recent estimates giving an incidence rate of 1 in 68 children in the United States, the autism spectrum disorder (ASD) is a growing public health crisis. Many of these children struggle to make eye contact, recognize facial expressions, and engage in social interactions. Today the standard for treatment of the core autism-related deficits focuses on a form of behavior training known as Applied Behavioral Analysis. To address perceived deficits in expression recognition, ABA approaches routinely involve the use of prompts such as flash cards for repetitive emotion recognition training via memorization. These techniques must be administered by trained practitioners and often at clinical centers that are far outnumbered by and out of reach from the many children and families in need of attention. Waitlists for access are up to 18 months long, and this wait may lead to children regressing down a path of isolation that worsens their long-term prognosis. There is an urgent need to innovate new methods of care delivery that can appropriately empower caregivers of children at risk or with a diagnosis of autism, and that capitalize on mobile tools and wearable devices for use outside of clinical settings.
翻訳日:2022-12-12 00:04:13 公開日:2020-04-19
# 機械学習によるAGVのパレット検出と追跡

Machine Learning based Pallets Detection and Tracking in AGVs ( http://arxiv.org/abs/2004.08965v1 )

ライセンス: Link先を確認
Shengchang Zhang, Jie Xiang, Weijian Han(参考訳) 自動誘導車両(AGV)の使用は、製造・流通業務において重要な役割を担い、信頼性と効率的な製品処理を提供している。 本研究では,パレット検出と位置追跡のための深層学習に基づくパレット検出・追跡アーキテクチャを構築した。 データ前処理と拡張技術とハイパーパラメータチューニングの実験により,25%の誤り率,28.5%の偽陰性率,20%のトレーニング時間の短縮を実現した。

The use of automated guided vehicles (AGVs) has played a pivotal role in manufacturing and distribution operations, providing reliable and efficient product handling. In this project, we constructed a deep learning-based pallets detection and tracking architecture for pallets detection and position tracking. By using data preprocessing and augmentation techniques and experiment with hyperparameter tuning, we achieved the result with 25% reduction of error rate, 28.5% reduction of false negative rate, and 20% reduction of training time.
翻訳日:2022-12-12 00:03:43 公開日:2020-04-19
# MuBiNN:脳波信号分類のためのマルチレベル2値リカレントニューラルネットワーク

MuBiNN: Multi-Level Binarized Recurrent Neural Network for EEG signal Classification ( http://arxiv.org/abs/2004.08914v1 )

ライセンス: Link先を確認
Seyed Ahmad Mirsalari, Sima Sinaei, Mostafa E. Salehi, Masoud Daneshtalab(参考訳) リカレントニューラルネットワーク(Recurrent Neural Networks, RNN)は、脳波分類などのアプリケーションにおける学習シーケンスに広く使われている。 複雑なRNNは、計算とメモリ集約処理パターンのため、ウェアラブルデバイスにはほとんどデプロイできない。 一般に、精度の低下により効率が大幅に向上し、エネルギー効率のよい解として二項化RNNが導入される。 しかし, ナイーブな2値化法では脳波分類の精度が著しく低下する。 本稿では,完全精度のLSTMに近い精度を確保しつつ,計算量を著しく削減する多レベル二項化LSTMを提案する。 本手法は3ビットLSTMセル動作47*の遅延を0.01%未満の精度で低減する。

Recurrent Neural Networks (RNN) are widely used for learning sequences in applications such as EEG classification. Complex RNNs could be hardly deployed on wearable devices due to their computation and memory-intensive processing patterns. Generally, reduction in precision leads much more efficiency and binarized RNNs are introduced as energy-efficient solutions. However, naive binarization methods lead to significant accuracy loss in EEG classification. In this paper, we propose a multi-level binarized LSTM, which significantly reduces computations whereas ensuring an accuracy pretty close to the full precision LSTM. Our method reduces the delay of the 3-bit LSTM cell operation 47* with less than 0.01% accuracy loss.
翻訳日:2022-12-11 23:57:29 公開日:2020-04-19
# 私たちはそれを事前訓練していますか? visio-linguistic pretrainingへの深い掘り下げ

Are we pretraining it right? Digging deeper into visio-linguistic pretraining ( http://arxiv.org/abs/2004.08744v1 )

ライセンス: Link先を確認
Amanpreet Singh, Vedanuj Goswami, Devi Parikh(参考訳) 最近の多くの研究で、一般的な視覚言語表現を事前訓練し、下流の視覚や言語タスクのために微調整することが提案されている。 アーキテクチャと客観的関数設計の選択は注目されているが、事前トレーニングデータセットの選択はほとんど注目されていない。 本研究では,文献におけるデフォルト選択のいくつかを問う。 例えば、事前学習データセットドメイン(テキストとビジュアル)と下流ドメインの類似性がパフォーマンスにどのように影響するかを体系的に研究する。 驚くべきことに、下流タスク(例えばVQA v2)に近いドメインで自動生成されたデータは、"自然な"データではなく、少し異なるドメイン(例えば概念的キャプション)の事前トレーニングに適していることが示されます。 一方、事前トレーニングデータセットの合理的な選択は、下流タスクでは完全に効果がないことが判明した。 これは、近年の努力にもかかわらず、vision & language pretrainingはまだ"最初から"機能していないことを示唆している。 全体として、我々の研究の副産物として、事前学習における単純な設計選択は、アーキテクチャ上の変更なしに下流タスクにおける最先端の成果に近づくのに役立ちます。

Numerous recent works have proposed pretraining generic visio-linguistic representations and then finetuning them for downstream vision and language tasks. While architecture and objective function design choices have received attention, the choice of pretraining datasets has received little attention. In this work, we question some of the default choices made in literature. For instance, we systematically study how varying similarity between the pretraining dataset domain (textual and visual) and the downstream domain affects performance. Surprisingly, we show that automatically generated data in a domain closer to the downstream task (e.g., VQA v2) is a better choice for pretraining than "natural" data but of a slightly different domain (e.g., Conceptual Captions). On the other hand, some seemingly reasonable choices of pretraining datasets were found to be entirely ineffective for some downstream tasks. This suggests that despite the numerous recent efforts, vision & language pretraining does not quite work "out of the box" yet. Overall, as a by-product of our study, we find that simple design choices in pretraining can help us achieve close to state-of-art results on downstream tasks without any architectural changes.
翻訳日:2022-12-11 23:57:19 公開日:2020-04-19
# 野生におけるグラフ構造参照表現推論

Graph-Structured Referring Expression Reasoning in The Wild ( http://arxiv.org/abs/2004.08814v1 )

ライセンス: Link先を確認
Sibei Yang, Guanbin Li, Yizhou Yu(参考訳) 接地参照表現は、自然言語表現によって参照されるオブジェクトのイメージ中を特定することを目的としている。 参照表現の言語構造は、視覚的内容に対する推論のレイアウトを提供し、画像と参照表現を協調的に理解することがしばしば重要である。 本稿では,意味グラフ上で推論を行うシーングラフ誘導モジュラーネットワーク(sgmn)と,その表現の言語構造を指導するニューラルネットワークを用いたシーングラフを提案する。 特に,画像を構造化意味グラフとしてモデル化し,その表現を言語シーングラフに解析する。 言語シーングラフは、表現の言語構造をデコードするだけでなく、画像意味グラフと一貫した表現を持つ。 また,参照表現を基底とする構造化解の探索に加えて,構造化参照表現推論のための大規模実世界のデータセットRef-Reasoningを提案する。 多様な表現テンプレートと関数型プログラムを用いて画像のシーングラフ上の参照表現を自動的に生成する。 このデータセットは現実世界のビジュアルコンテンツと、推論レイアウトの異なるセマンティックにリッチな表現を備えています。 実験の結果,我々のSGMNは,新しいRef-Reasoningデータセットにおける既存の最先端アルゴリズムよりも優れているだけでなく,一般的なベンチマークデータセットにおける最先端構造化手法よりも優れていることがわかった。 推論の解釈可能な視覚的証拠を提供することもできる。 データとコードはhttps://github.com/sibeiyang/sgmnで入手できる。

Grounding referring expressions aims to locate in an image an object referred to by a natural language expression. The linguistic structure of a referring expression provides a layout of reasoning over the visual contents, and it is often crucial to align and jointly understand the image and the referring expression. In this paper, we propose a scene graph guided modular network (SGMN), which performs reasoning over a semantic graph and a scene graph with neural modules under the guidance of the linguistic structure of the expression. In particular, we model the image as a structured semantic graph, and parse the expression into a language scene graph. The language scene graph not only decodes the linguistic structure of the expression, but also has a consistent representation with the image semantic graph. In addition to exploring structured solutions to grounding referring expressions, we also propose Ref-Reasoning, a large-scale real-world dataset for structured referring expression reasoning. We automatically generate referring expressions over the scene graphs of images using diverse expression templates and functional programs. This dataset is equipped with real-world visual contents as well as semantically rich expressions with different reasoning layouts. Experimental results show that our SGMN not only significantly outperforms existing state-of-the-art algorithms on the new Ref-Reasoning dataset, but also surpasses state-of-the-art structured methods on commonly used benchmark datasets. It can also provide interpretable visual evidences of reasoning. Data and code are available at https://github.com/sibeiyang/sgmn
翻訳日:2022-12-11 23:56:59 公開日:2020-04-19
# $\ell_0$-regressionの安全なスクリーニングルール

Safe Screening Rules for $\ell_0$-Regression ( http://arxiv.org/abs/2004.08773v1 )

ライセンス: Link先を確認
Alper Atamt\"urk and Andr\'es G\'omez(参考訳) 我々は$\ell_0$正規化や濃度制約で変数を回帰から排除するための安全なスクリーニングルールを与える。 これらのルールは、機能が最適なソリューションで選択されるかどうかの保証に基づいている。 スクリーニングルールは、$\ell_0$最適化問題を解くことなく、凸緩和解から線形時間で計算することができる。 したがって、プリオリを考慮して変数を安全に取り除く前処理ステップで使用できる。 実データおよび合成データに関する数値実験によれば、変数の76\%は、平均して最適値に固定できるため、最適化の計算負荷が大幅に軽減される。 したがって、提案した高速かつ効果的なスクリーニングルールは、より大規模なデータセットに$\ell_0$-regressionのアルゴリズムの範囲を広げる。

We give safe screening rules to eliminate variables from regression with $\ell_0$ regularization or cardinality constraint. These rules are based on guarantees that a feature may or may not be selected in an optimal solution. The screening rules can be computed from a convex relaxation solution in linear time, without solving the $\ell_0$ optimization problem. Thus, they can be used in a preprocessing step to safely remove variables from consideration apriori. Numerical experiments on real and synthetic data indicate that, on average, 76\% of the variables can be fixed to their optimal values, hence, reducing the computational burden for optimization substantially. Therefore, the proposed fast and effective screening rules extend the scope of algorithms for $\ell_0$-regression to larger data sets.
翻訳日:2022-12-11 23:56:30 公開日:2020-04-19
# 判別教師による時間ゆがみによるニューラルネットワークの時系列データ拡張

Time Series Data Augmentation for Neural Networks by Time Warping with a Discriminative Teacher ( http://arxiv.org/abs/2004.08780v1 )

ライセンス: Link先を確認
Brian Kenji Iwana and Seiichi Uchida(参考訳) ニューラルネットワークはパターン認識において強力なツールとなり、その成功の一部は大規模データセットの使用の一般化によるものだ。 しかし、他の領域とは異なり、時系列分類データセットはしばしば小さい。 この問題に対処するため,ガイド付きワープと呼ばれる新しい時系列データ拡張を提案する。 多くのデータ拡張法はランダムな変換に基づいているが、ガイドドワーピングは動的時間ワーピング(dtw)と形状記述子に基づく高レベルdtw法(shapetw)の要素アライメント特性を利用して、決定論的にサンプルパターンをワープする。 このようにして、参照パターンの時間ステップに合うようにサンプルパターンの特徴を歪ませて時系列を混合する。 さらに,指導的ワープの指導的参考として,差別的な教師を紹介した。 本手法は, 深部畳み込みニューラルネットワーク (CNN) とリカレントニューラルネットワーク (RNN) を用いて, 2015 UCR Time Series Archive の85データセットについて評価した。 実装が容易なコードはhttps://github.com/uchidalab/time_series_augmentation にある。

Neural networks have become a powerful tool in pattern recognition and part of their success is due to generalization from using large datasets. However, unlike other domains, time series classification datasets are often small. In order to address this problem, we propose a novel time series data augmentation called guided warping. While many data augmentation methods are based on random transformations, guided warping exploits the element alignment properties of Dynamic Time Warping (DTW) and shapeDTW, a high-level DTW method based on shape descriptors, to deterministically warp sample patterns. In this way, the time series are mixed by warping the features of a sample pattern to match the time steps of a reference pattern. Furthermore, we introduce a discriminative teacher in order to serve as a directed reference for the guided warping. We evaluate the method on all 85 datasets in the 2015 UCR Time Series Archive with a deep convolutional neural network (CNN) and a recurrent neural network (RNN). The code with an easy to use implementation can be found at https://github.com/uchidalab/time_series_augmentation .
翻訳日:2022-12-11 23:56:17 公開日:2020-04-19
# 二元化グラフニューラルネットワーク

Binarized Graph Neural Network ( http://arxiv.org/abs/2004.11147v1 )

ライセンス: Link先を確認
Hanchen Wang, Defu Lian, Ying Zhang, Lu Qin, Xiangjian He, Yiguang Lin, Xuemin Lin(参考訳) 近年,多くのタスクにおいて卓越した性能を示す近傍集約スキームにグラフニューラルネットワーク(GNN)を適用することで,グラフ解析のブレークスルーが起きている。 しかし,既存のGNNグラフ埋め込み手法では,ネットワークのパラメータとノードの埋め込みが実数値行列で表現され,これらのモデルの効率性とスケーラビリティが制限される可能性がある。 バイナリベクトルは通常、実数値ベクトルよりも空間と時間効率がはるかに高いことが知られている。 これにより、GNNベースのパラダイムに従って、ノードのバイナリ表現をバイナリネットワークパラメータで学習する二項化グラフニューラルネットワークの開発を動機付けます。 提案手法は,モデルパラメータをバイナライズし,コンパクトな埋め込みを学習するために,既存のGNNベースの埋め込み手法にシームレスに統合することができる。 広汎な実験により、提案された二項グラフニューラルネットワーク、すなわちBGNは、最先端の性能に適合しながら、時間と空間の両方において、桁違いに効率が良いことが示されている。

Recently, there have been some breakthroughs in graph analysis by applying the graph neural networks (GNNs) following a neighborhood aggregation scheme, which demonstrate outstanding performance in many tasks. However, we observe that the parameters of the network and the embedding of nodes are represented in real-valued matrices in existing GNN-based graph embedding approaches which may limit the efficiency and scalability of these models. It is well-known that binary vector is usually much more space and time efficient than the real-valued vector. This motivates us to develop a binarized graph neural network to learn the binary representations of the nodes with binary network parameters following the GNN-based paradigm. Our proposed method can be seamlessly integrated into the existing GNN-based embedding approaches to binarize the model parameters and learn the compact embedding. Extensive experiments indicate that the proposed binarized graph neural network, namely BGN, is orders of magnitude more efficient in terms of both time and space while matching the state-of-the-art performance.
翻訳日:2022-12-11 23:55:57 公開日:2020-04-19
# superkernel neural architecture search for image denoising (特集 ニューラルアーキテクチャ)

Superkernel Neural Architecture Search for Image Denoising ( http://arxiv.org/abs/2004.08870v1 )

ライセンス: Link先を確認
Marcin Mo\.zejko, Tomasz Latkowski, {\L}ukasz Treszczotko, Micha{\l} Szafraniuk, Krzysztof Trojanowski(参考訳) 近年のニューラル・アーキテクチャ・サーチ(nas)の進歩により、画像分類、オブジェクト検出、意味セグメンテーションといったタスクのための最先端のニューラルネットワーク(ann)ソリューションが人間の監督なしに発見された。 本稿では,画像デノゲーションを行う高密度予測タスクに対するNASの探索に焦点をあてる。 コストのかかるトレーニング手順のため、画像強調のためのほとんどのNASソリューションは、通常訓練に数週間(あるいは数ヶ月)かかる強化学習または進化的アルゴリズム探索に依存している。 そこで本研究では,高密度予測のための高速(6-8 RTX2080 GPU時間)シングルショットトレーニングを可能にする,様々なスーパーカーネル手法の効率的な実装を提案する。 画像復調のためのSIDD+ベンチマークにおいて,本手法の有効性を示す。

Recent advancements in Neural Architecture Search(NAS) resulted in finding new state-of-the-art Artificial Neural Network (ANN) solutions for tasks like image classification, object detection, or semantic segmentation without substantial human supervision. In this paper, we focus on exploring NAS for a dense prediction task that is image denoising. Due to a costly training procedure, most NAS solutions for image enhancement rely on reinforcement learning or evolutionary algorithm exploration, which usually take weeks (or even months) to train. Therefore, we introduce a new efficient implementation of various superkernel techniques that enable fast (6-8 RTX2080 GPU hours) single-shot training of models for dense predictions. We demonstrate the effectiveness of our method on the SIDD+ benchmark for image denoising.
翻訳日:2022-12-11 23:55:39 公開日:2020-04-19
# 超次元計算を用いた分類法 : 概観

Classification using Hyperdimensional Computing: A Review ( http://arxiv.org/abs/2004.11204v1 )

ライセンス: Link先を確認
Lulu Ge and Keshab K. Parhi(参考訳) 超次元(hd)コンピューティングは、ハイパーベクトルと呼ばれるユニークなデータ型に基づいている。 これらの超ベクトルの次元は典型的には数万の範囲にある。 認知タスクを解決するために提案されたHDコンピューティングは、データ間の類似性を計算することを目的としている。 データ変換は加算、乗算、置換を含む3つの操作によって実現される。 その超広帯域データ表現はノイズに対する冗長性をもたらす。 情報はハイパーベクトルのあらゆるビットに均等に分散するので、hdコンピューティングは本質的に堅牢である。 さらに、これらの3つの操作の性質から、HDコンピューティングは学習能力の速さ、高エネルギー効率、学習および分類タスクにおける許容精度をもたらす。 本稿では,HDコンピューティングの背景について紹介し,データ表現,データ変換,類似度測定について述べる。 高次元の直交性はフレキシブルコンピューティングの機会を与える。 正確性と効率のトレードオフをバランスさせるため、戦略にはエンコーディング、再トレーニング、バイナリ化、ハードウェアアクセラレーションなどが含まれる。 評価の結果、HDコンピューティングは文字、信号、画像の形でのデータを用いて問題に対処する上で大きな可能性を示唆している。 特にHDコンピューティングは、モノのインターネット(IoT)分野において、軽量な分類器として機械学習アルゴリズムを置き換えるという大きな約束を示している。

Hyperdimensional (HD) computing is built upon its unique data type referred to as hypervectors. The dimension of these hypervectors is typically in the range of tens of thousands. Proposed to solve cognitive tasks, HD computing aims at calculating similarity among its data. Data transformation is realized by three operations, including addition, multiplication and permutation. Its ultra-wide data representation introduces redundancy against noise. Since information is evenly distributed over every bit of the hypervectors, HD computing is inherently robust. Additionally, due to the nature of those three operations, HD computing leads to fast learning ability, high energy efficiency and acceptable accuracy in learning and classification tasks. This paper introduces the background of HD computing, and reviews the data representation, data transformation, and similarity measurement. The orthogonality in high dimensions presents opportunities for flexible computing. To balance the tradeoff between accuracy and efficiency, strategies include but are not limited to encoding, retraining, binarization and hardware acceleration. Evaluations indicate that HD computing shows great potential in addressing problems using data in the form of letters, signals and images. HD computing especially shows significant promise to replace machine learning algorithms as a light-weight classifier in the field of internet of things (IoTs).
翻訳日:2022-12-11 23:48:26 公開日:2020-04-19
# NLPモデルのトレーニングコスト:簡潔な概要

The Cost of Training NLP Models: A Concise Overview ( http://arxiv.org/abs/2004.08900v1 )

ライセンス: Link先を確認
Or Sharir, Barak Peleg and Yoav Shoham(参考訳) 大規模言語モデルを訓練するコストと、これらのコストの要因についてレビューする。 対象には、モデルトレーニングの実験を予算化するエンジニアや科学者、現代の自然言語処理(NLP)の経済性を理解しようとする非専門家が含まれる。

We review the cost of training large-scale language models, and the drivers of these costs. The intended audience includes engineers and scientists budgeting their model-training experiments, as well as non-practitioners trying to make sense of the economics of modern-day Natural Language Processing (NLP).
翻訳日:2022-12-11 23:48:10 公開日:2020-04-19
# 知識蒸留におけるロールワイズデータ拡張

Role-Wise Data Augmentation for Knowledge Distillation ( http://arxiv.org/abs/2004.08861v1 )

ライセンス: Link先を確認
Jie Fu, Xue Geng, Zhijian Duan, Bohan Zhuang, Xingdi Yuan, Adam Trischler, Jie Lin, Chris Pal, Hao Dong(参考訳) 知識蒸留(英: knowledge distillation, kd)とは、ある機械学習モデル(en: \textit{teacher})によって学習された「知識」を別のモデル(en: \textit{student})に移す一般的な方法である。 私たちの知識では、既存の手法では、生徒が教師から余分な知識を吸収しているにもかかわらず、両方のモデルが同じ入力データを共有しているという事実を見落としています。 モデル能力の違いにより、生徒は教師が訓練されるのと同じデータポイントから完全に利益を得ることができない。 一方、人間教師は、例えば、その文化的背景と関心の観点から、特定の学生に適応した個別化された例で知識の一部を実証することができる。 この挙動に触発されて,我々は知識蒸留を促進するために,異なる役割を持つデータ拡張エージェントを設計した。 我々のデータ強化エージェントは,教師と生徒の個別のトレーニングデータを生成する。 特別に調整されたデータポイントが、教師の知識をより効果的に生徒に示せることを実証的に見出した。 我々は,本手法を既存のkd法と比較して,一般的なニューラルアーキテクチャを訓練し,役割回りのデータ拡張が強力な先行手法よりもkdの有効性を向上させることを実証する。 結果はhttps://github.com/bigaidream-projects/role-kdで再生できます。

Knowledge Distillation (KD) is a common method for transferring the ``knowledge'' learned by one machine learning model (the \textit{teacher}) into another model (the \textit{student}), where typically, the teacher has a greater capacity (e.g., more parameters or higher bit-widths). To our knowledge, existing methods overlook the fact that although the student absorbs extra knowledge from the teacher, both models share the same input data -- and this data is the only medium by which the teacher's knowledge can be demonstrated. Due to the difference in model capacities, the student may not benefit fully from the same data points on which the teacher is trained. On the other hand, a human teacher may demonstrate a piece of knowledge with individualized examples adapted to a particular student, for instance, in terms of her cultural background and interests. Inspired by this behavior, we design data augmentation agents with distinct roles to facilitate knowledge distillation. Our data augmentation agents generate distinct training data for the teacher and student, respectively. We find empirically that specially tailored data points enable the teacher's knowledge to be demonstrated more effectively to the student. We compare our approach with existing KD methods on training popular neural architectures and demonstrate that role-wise data augmentation improves the effectiveness of KD over strong prior approaches. The code for reproducing our results can be found at https://github.com/bigaidream-projects/role-kd
翻訳日:2022-12-11 23:48:03 公開日:2020-04-19
# 文法を用いた樹木エコー状態オートエンコーダ

Tree Echo State Autoencoders with Grammars ( http://arxiv.org/abs/2004.08925v1 )

ライセンス: Link先を確認
Benjamin Paassen, Irena Koprinska, Kalina Yacef(参考訳) ツリーデータは、コンピュータプログラム、化学分子、自然言語など、多くの形式で発生する。 残念なことに、ツリーの非ベクトル的かつ離散的性質は、ツリー形式の出力を持つ関数の構築を困難にし、最適化や時系列予測のようなタスクを複雑にする。 オートエンコーダはこの課題に対処し、木をベクトル的潜在空間にマッピングし、タスクの解決を容易にする。 しかしながら、ツリーデータに対する既存の自動エンコーディングアプローチでは、ツリードメインの特定の文法構造を考慮に入れず、ディープラーニングに依存しているため、大きなトレーニングデータセットと長いトレーニング時間が必要になる。 本稿では,木文法によって導かれ,貯水池計算により数秒以内に訓練できる木エコー状態オートエンコーダ(tes-ae)を提案する。 3つのデータセットに対する評価では、提案手法は最先端のディープラーニングオートエンコーディング手法(D-VAE)よりもはるかに高速であるだけでなく、データや時間が少ない場合の自動エンコーディングエラーが少ないことも示している。

Tree data occurs in many forms, such as computer programs, chemical molecules, or natural language. Unfortunately, the non-vectorial and discrete nature of trees makes it challenging to construct functions with tree-formed output, complicating tasks such as optimization or time series prediction. Autoencoders address this challenge by mapping trees to a vectorial latent space, where tasks are easier to solve, and then mapping the solution back to a tree structure. However, existing autoencoding approaches for tree data fail to take the specific grammatical structure of tree domains into account and rely on deep learning, thus requiring large training datasets and long training times. In this paper, we propose tree echo state autoencoders (TES-AE), which are guided by a tree grammar and can be trained within seconds by virtue of reservoir computing. In our evaluation on three datasets, we demonstrate that our proposed approach is not only much faster than a state-of-the-art deep learning autoencoding approach (D-VAE) but also has less autoencoding error if little data and time is given.
翻訳日:2022-12-11 23:47:36 公開日:2020-04-19
# クロスエントロピーと勾配に基づく最適化によるモデル予測制御

Model-Predictive Control via Cross-Entropy and Gradient-Based Optimization ( http://arxiv.org/abs/2004.08763v1 )

ライセンス: Link先を確認
Homanga Bharadhwaj, Kevin Xie, Florian Shkurti(参考訳) 近年の高次元モデル予測制御と学習力学と報酬モデルを用いたモデルベース強化学習の成果は、一連の行動計画のためのクロスエントロピー法(CEM)のような集団ベースの最適化手法に依拠している。 取るべきアクションを決定するために、CEMは、ダイナミクスモデルと報酬に応じて、最も高いリターンでアクションシーケンスを探索する。 アクションシーケンスは通常、無条件ガウス分布からランダムにサンプリングされ、環境上で評価される。 この分布は、高いリターンを持つアクションシーケンスに対して反復的に更新される。 しかし、この計画法は特に高次元の作用空間において非常に非効率である。 別のアプローチの1つの行は、勾配降下によって直接作用列を最適化するが、局所最適である。 そこで本研究では,CEMと勾配降下ステップをインターリーブして,アクションシーケンスの最適化を行う手法を提案する。 提案手法は,高次元作用空間においてもより高速に収束し,局所最小値の回避,CEMと同等の性能を示す。 この論文に付随するコードは、https://github.com/homangab/gradcemで入手できる。

Recent works in high-dimensional model-predictive control and model-based reinforcement learning with learned dynamics and reward models have resorted to population-based optimization methods, such as the Cross-Entropy Method (CEM), for planning a sequence of actions. To decide on an action to take, CEM conducts a search for the action sequence with the highest return according to the dynamics model and reward. Action sequences are typically randomly sampled from an unconditional Gaussian distribution and evaluated on the environment. This distribution is iteratively updated towards action sequences with higher returns. However, this planning method can be very inefficient, especially for high-dimensional action spaces. An alternative line of approaches optimize action sequences directly via gradient descent, but are prone to local optima. We propose a method to solve this planning problem by interleaving CEM and gradient descent steps in optimizing the action sequence. Our experiments show faster convergence of the proposed hybrid approach, even for high-dimensional action spaces, avoidance of local minima, and better or equal performance to CEM. Code accompanying the paper is available here https://github.com/homangab/gradcem.
翻訳日:2022-12-11 23:47:17 公開日:2020-04-19
# バイオインスパイアド最適化研究の公平性--メタヒューリスティックス比較のための方法論ガイドラインの処方

Fairness in Bio-inspired Optimization Research: A Prescription of Methodological Guidelines for Comparing Meta-heuristics ( http://arxiv.org/abs/2004.09969v1 )

ライセンス: Link先を確認
Antonio LaTorre, Daniel Molina, Eneko Osaba, Javier Del Ser, Francisco Herrera(参考訳) バイオインスパイアされた最適化(進化計算やSwarm Intelligenceを含む)は、毎年多くの競合するバイオインスパイアされたアルゴリズムが提案されている研究トピックである。 このような活発な領域では、新しいバイオインスパイアされたアルゴリズムの提案を成功させるのは容易ではない。 この研究分野の成熟を考えると、革新的な要素による新しい最適化手法の提案はもはや不十分である。 新規性とは別に、著者が報告した成果は、芸術の状況から過去の成果よりも大幅に進歩することが証明されるべきである。 残念ながら、すべての新しい提案がこの要件を適切に扱うわけではない。 それらの一部は、比較する適切なベンチマークや参照アルゴリズムの選択に失敗している。 他の場合では、実行された検証プロセスは原則的な方法で定義されない(あるいは全く行われない)。 したがって、このような研究で示された結果の意義は保証できない。 本稿では,文献におけるいくつかの勧告をレビューし,これらの課題を考慮し,提案を成功させるための方法論的ガイドラインを提案する。 これらのガイドラインは、著者だけでなく、レビュアーや編集者にとっても、この分野への新たな貢献を評価する上で有用であると期待しています。

Bio-inspired optimization (including Evolutionary Computation and Swarm Intelligence) is a growing research topic with many competitive bio-inspired algorithms being proposed every year. In such an active area, preparing a successful proposal of a new bio-inspired algorithm is not an easy task. Given the maturity of this research field, proposing a new optimization technique with innovative elements is no longer enough. Apart from the novelty, results reported by the authors should be proven to achieve a significant advance over previous outcomes from the state of the art. Unfortunately, not all new proposals deal with this requirement properly. Some of them fail to select an appropriate benchmark or reference algorithms to compare with. In other cases, the validation process carried out is not defined in a principled way (or is even not done at all). Consequently, the significance of the results presented in such studies cannot be guaranteed. In this work we review several recommendations in the literature and propose methodological guidelines to prepare a successful proposal, taking all these issues into account. We expect these guidelines to be useful not only for authors, but also for reviewers and editors along their assessment of new contributions to the field.
翻訳日:2022-12-11 23:45:50 公開日:2020-04-19