このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20201211となっている論文です。

PDF登録状況(公開日: 20201211)

TitleAuthorsAbstract論文公表日・翻訳日
# 定軸磁束を有する2次元ワームホールへの荷電フェルミオンの散乱

Scattering of charged fermion to two-dimensional wormhole with constant axial magnetic flux ( http://arxiv.org/abs/2004.03714v2 )

ライセンス: Link先を確認
Kulapant Pimsamarn, Piyabut Burikham, Trithos Rojjanason(参考訳) 1+2) 次元ワームホールを用いた定軸磁束の存在下での荷電フェルミオンの散乱について検討した。 ディラック方程式のフェルミオン解のクラスをワームホール曲面の曲面空間に拡張し、実エネルギーと運動量を持つ正規モードを含むことにより、フェルミオン波のワームホールへの散乱に対する量子選択規則を発見した。 新たに発見された運動量-角運動量関係は、量子化された運動量 $k=m'/a\sqrt{q}$ のフェルミオンのみがホールを通して伝達されることを意味する。 許容運動量は有効角運動量量子数$m'$に比例し、逆にワームホール$a$の喉の半径に比例する。 有効角運動量量子数の磁束依存性は、そのモーメントに応じて通過可能なフェルミオンを選択できる。 自然保護法は、インシデント、反射、透過波間のユニタリティ条件の観点からも自然に施行される。 その後、ワームホール内のフェルミオン状態の準正規モード~(qnms)を含む散乱が探究される。 QNMを含む全てのシナリオに対するワームホールを透過する波は、主に時間とともに抑制され、崩壊する。 QNMs散乱の場合、ユニタリティ条件に違反するが、散乱係数のより一般的な関係が確立される。 磁束$\phi=mhc/e$、すなわち磁束量子$hc/e$の単位で量子化されたとき、フェルミオンはゼロ反射でワームホールをトンネルする。

Scattering of charged fermion with $(1+2)$-dimensional wormhole in the presence of constant axial magnetic flux is explored. By extending the class of fermionic solutions of the Dirac equation in the curved space of wormhole surface to include normal modes with real energy and momentum, we found a quantum selection rule for the scattering of fermion waves to the wormhole. The newly found {\it momentum-angular momentum relation} implies that only fermion with the quantized momentum $k=m'/a\sqrt{q}$ can be transmitted through the hole. The allowed momentum is proportional to an effective angular momentum quantum number $m'$ and inversely proportional to the radius of the throat of the wormhole $a$. Flux dependence of the effective angular momentum quantum number permits us to select fermions that can pass through according to their momenta. A conservation law is also naturally enforced in terms of the unitarity condition among the incident, reflected, and transmitted waves. The scattering involving quasinormal modes~(QNMs) of fermionic states in the wormhole is subsequently explored. It is found that the transmitted waves through the wormhole for all scenarios involving QNMs are mostly suppressed and decaying in time. In the case of QNMs scattering, the unitarity condition is violated but a more generic relation of the scattering coefficients is established. When the magnetic flux $\phi=mhc/e$, i.e., quantized in units of the magnetic flux quantum $hc/e$, the fermion will tunnel through the wormhole with zero reflection.
翻訳日:2023-05-26 08:27:50 公開日:2020-12-11
# 量子非局在相互作用

Quantum Delocalised-Interactions ( http://arxiv.org/abs/2004.14658v2 )

ライセンス: Link先を確認
A. J. Paige, Hyukjoon Kwon, Selwyn Simsek, Chris N. Self, Johnnie Gray, M. S. Kim(参考訳) 古典力学は、物理的事象が一定の空間点で起こるという直感的な論理に従う。 しかし、絡み合いは特定の場所なしに相互作用を可能にすることでこの論理を破る。 本研究ではこれらの非局在化相互作用を研究する。 これらは、空間的重畳状態によって引き起こされた障害によって捉えられるように、古典的に可能なよりも少ない位置情報を生成する量子相互作用である。 この効果を捉えるために量子ゲームを導入し,非古典的性能向上に結びついた量子共起の直接的操作性を示す。 また、量子テレポーテーションとの接続を見つけ、ibm量子プロセッサを使ってゲームをデモします。

Classical mechanics obeys the intuitive logic that a physical event happens at a definite spatial point. Entanglement however, breaks this logic by enabling interactions without a specific location. In this work we study these delocalised-interactions. These are quantum interactions that create less locational information than would be possible classically, as captured by the disturbance induced on some spatial superposition state. We introduce quantum games to capture the effect and demonstrate a direct operational use for quantum concurrence in that it bounds the non-classical performance gain. We also find a connection with quantum teleportation, and demonstrate the games using an IBM quantum processor.
翻訳日:2023-05-21 17:23:34 公開日:2020-12-11
# 超電導クビットの左手メタマテリアル共振器への結合

Coupling a Superconducting Qubit to a Left-Handed Metamaterial Resonator ( http://arxiv.org/abs/2007.10932v2 )

ライセンス: Link先を確認
S. Indrajeet, H. Wang, M.D. Hutchings, B.G. Taketani, Frank K. Wilhelm, M.D. LaHaye, and B.L.T. Plourde(参考訳) 超伝導集積回路素子の配列からなるメタマテリアル共振構造は、左利き分散のマイクロ波モードスペクトルを示すことができ、超伝導量子ビットが通常動作されるのと同じ周波数範囲のモードの高密度化と、dcまで延びる低周波数のバンドギャップをもたらす。 マルチモード回路量子電磁力学のこの新しいレジームを用いて、磁束可変トランスモン量子ビットに結合した超伝導メタマテリアル共振器の一連の測定を行った。 メタマテリアルのマイクロ波測定により、我々は量子ビットが通過する各モードに結合することを観察した。 分離された読み出し共振器を用いて、量子ビットを分散的に観測し、量子ビットエネルギー緩和を周波数関数として特徴付け、密度モードスペクトルの存在下でのパーセル効果に強く影響する。 さらに, 様々なメタマテリアルモードにおける光子数の変化として, クォービットのアクスタークシフトを検討した。 回路パラメータの選択による高密度モードスペクトルの調整と、量子ビットとの相互作用によるメタマテリアルのフォトニック状態の操作は、アナログ量子シミュレーションと量子メモリにとって有望なプラットフォームとなる。

Metamaterial resonant structures made from arrays of superconducting lumped circuit elements can exhibit microwave mode spectra with left-handed dispersion, resulting in a high density of modes in the same frequency range where superconducting qubits are typically operated, as well as a bandgap at lower frequencies that extends down to dc. Using this novel regime for multi-mode circuit quantum electrodynamics, we have performed a series of measurements of such a superconducting metamaterial resonator coupled to a flux-tunable transmon qubit. Through microwave measurements of the metamaterial, we have observed the coupling of the qubit to each of the modes that it passes through. Using a separate readout resonator, we have probed the qubit dispersively and characterized the qubit energy relaxation as a function of frequency, which is strongly affected by the Purcell effect in the presence of the dense mode spectrum. Additionally, we have investigated the ac Stark shift of the qubit as the photon number in the various metamaterial modes is varied. The ability to tailor the dense mode spectrum through the choice of circuit parameters and manipulate the photonic state of the metamaterial through interactions with qubits makes this a promising platform for analog quantum simulation and quantum memories.
翻訳日:2023-05-08 20:48:53 公開日:2020-12-11
# ランダム対角ユニタリ行列上の積分のためのグラフ計算

A graphical calculus for integration over random diagonal unitary matrices ( http://arxiv.org/abs/2007.11219v2 )

ライセンス: Link先を確認
Ion Nechita and Satvik Singh(参考訳) 独立な複素位相を含むランダムベクトルの分布に関して,テンソルネットワーク図の平均を計算するためのグラフ計算を提供する。 本手法は,一様ブロック置換の部分順序集合の順序構造を利用する。 同様の計算は、偶数分割の半順序集合の組合せに基づいて、独立な一様符号からなるランダムベクトルに対して開発されている。 我々は、ジョンストンとマクリーンによる局所対角ユニタリ不変行列の族に関する結果のいくつかを拡張するために、この方法を用いる。 さらに、我々のグラフィカルなアプローチは、実(直交)の場合と同様に、関連する二部行列の分離性の条件を研究するために三次完全正の考え方を導入する。 最後に、独立対角ユニタリ行列による行列代数間の線型写像の回転解析を行い、この方法の別の応用を示す。

We provide a graphical calculus for computing averages of tensor network diagrams with respect to the distribution of random vectors containing independent uniform complex phases. Our method exploits the order structure of the partially ordered set of uniform block permutations. A similar calculus is developed for random vectors consisting of independent uniform signs, based on the combinatorics of the partially ordered set of even partitions. We employ our method to extend some of the results by Johnston and MacLean on the family of local diagonal unitary invariant matrices. Furthermore, our graphical approach applies just as well to the real (orthogonal) case, where we introduce the notion of triplewise complete positivity to study the condition for separability of the relevant bipartite matrices. Finally, we analyze the twirling of linear maps between matrix algebras by independent diagonal unitary matrices, showcasing another application of our method.
翻訳日:2023-05-08 18:36:42 公開日:2020-12-11
# 完全1問量子アルゴリズムのキャラクタリゼーション(ii) : 部分関数について

Characterization of exact one-query quantum algorithms (ii): for partial functions ( http://arxiv.org/abs/2008.11998v3 )

ライセンス: Link先を確認
Zekun Ye, Lvzhou Li(参考訳) クエリモデル(あるいはブラックボックスモデル)は、古典コンピューティングと量子コンピューティングの両方のコミュニティから注目を集めている。 通常、量子の利点は、古典的なアルゴリズムよりもクエリの複雑さが高い量子アルゴリズムを提示することで明らかにされる。 例えば、Deutsch-Jozsaアルゴリズム、Simonアルゴリズム、Groverアルゴリズムといったよく知られた量子アルゴリズムは、クエリ複雑性の観点から量子コンピューティングのかなりの利点を示している。 最近、我々は考察した(Phys)。 rev. a. {\bf 101}, 02232 (2020) 問題: 正確な1クエリ量子アルゴリズムで計算できる関数は何か? この問題は全体ブール関数に対しては解決されているが、部分ブール関数に対しては依然として開である。 そこで本論文では,いくつかの必要十分条件を与えることで,部分ブール関数に対する完全1問量子アルゴリズムの計算能力を特徴付ける。 これらの条件により、我々は1つの量子アルゴリズムによって正確に計算できるが、既に知られている関数と本質的な違いを持つ関数をいくつか構築する。 我々の研究の前には、正確に1クエリの量子アルゴリズムで計算できる既知の関数はすべて対称関数であり、この論文で構築された関数は一般に非対称である。

The query model (or black-box model) has attracted much attention from the communities of both classical and quantum computing. Usually, quantum advantages are revealed by presenting a quantum algorithm that has a better query complexity than its classical counterpart. For example, the well-known quantum algorithms including Deutsch-Jozsa algorithm, Simon algorithm and Grover algorithm all show a considerable advantage of quantum computing from the viewpoint of query complexity. Recently we have considered in (Phys. Rev. A. {\bf 101}, 02232 (2020)) the problem: what functions can be computed by an exact one-query quantum algorithm? This problem has been addressed for total Boolean functions but still open for partial Boolean functions. Thus, in this paper we continue to characterize the computational power of exact one-query quantum algorithms for partial Boolean functions by giving several necessary and sufficient conditions. By these conditions, we construct some new functions that can be computed exactly by one-query quantum algorithms but have essential difference from the already known ones. Note that before our work, the known functions that can be computed by exact one-query quantum algorithms are all symmetric functions, whereas the ones constructed in this papers are generally asymmetric.
翻訳日:2023-05-04 19:37:12 公開日:2020-12-11
# 有限成分動的量子相転移

Finite-component dynamical quantum phase transitions ( http://arxiv.org/abs/2008.13762v3 )

ライセンス: Link先を確認
Ricardo Puebla(参考訳) 相転移は近年、動的量子相転移(DQPT)と呼ばれる現象である量子多体系の時間領域で定式化され、現象学はしばしば2つのタイプに分けられる。 1つは、長期平均順序パラメータによる異なる位相を指し、もう1つは、ロシミットエコーの速度関数に現れる非解析的挙動に焦点を当てている。 ここでは、そのようなDQPTは、自由度がほとんどないシステム、すなわち従来の熱力学の限界に頼らずに行うことができることを示す。 これは、スピン=$\frac{1}{2}$とボソニックモードを含むシステムである量子ラビモデルにおける2種類のDQPTの存在を示すことによって説明される。 動的臨界性は、ボソニック周波数に対するスピン周波数の無限大比の限界に現れる。 動的位相図を定式化し, 半古典近似が遷移点の跳躍をもたらす長時間平均次数パラメータについて検討した。 速度関数が非解析的になる臨界時刻は、関連する臨界指数と有限周波数比で導入された補正を示す。 本研究は,DQPTの研究の扉を開き,コンポーネントの数を増大させることなく,制御性の良いシステムでの研究を可能にする。

Phase transitions have recently been formulated in the time domain of quantum many-body systems, a phenomenon dubbed dynamical quantum phase transitions (DQPTs), whose phenomenology is often divided in two types. One refers to distinct phases according to long-time averaged order parameters, while the other is focused on the non-analytical behavior emerging in the rate function of the Loschmidt echo. Here we show that such DQPTs can be found in systems with few degrees of freedom, i.e. they can take place without resorting to the traditional thermodynamic limit. We illustrate this by showing the existence of the two types of DQPTs in a quantum Rabi model -- a system involving a spin-$\frac{1}{2}$ and a bosonic mode. The dynamical criticality appears in the limit of an infinitely large ratio of the spin frequency with respect to the bosonic one. We determine its dynamical phase diagram and study the long-time averaged order parameters, whose semiclassical approximation yields a jump at the transition point. We find the critical times at which the rate function becomes non-analytical, showing its associated critical exponent as well as the corrections introduced by a finite frequency ratio. Our results open the door for the study of DQPTs without the need to scale up the number of components, thus allowing for their investigation in well controllable systems.
翻訳日:2023-05-04 05:23:45 公開日:2020-12-11
# フォン・ノイマン測定の最適証明について

On the optimal certification of von Neumann measurements ( http://arxiv.org/abs/2009.06776v3 )

ライセンス: Link先を確認
Paulina Lewandowska and Aleksandra Krawiec and Ryszard Kukulski and {\L}ukasz Pawela and Zbigniew Pucha{\l}a(参考訳) 本報告では、量子仮説テストの拡張と見なすことができる量子測定の証明について検討する。 この拡張には、入力状態と測定手順の研究も含まれる。 ここでは、nullおよび代替仮説が単一要素集合である2点(バイナリ)認証方式に興味を持つ。 我々の目標は、一定の統計学的意義から、タイプiiの誤差の確率を最小化することである。 本報告では、純量子状態とユニタリチャネルの2点認証について検討し、その後、フォン・ノイマン測度を単ショットおよび並列シナリオで証明することから始める。 我々の主な結果から、ユニタリ操作とフォン・ノイマン測定の2つの純粋状態が完全に区別できないが、与えられた統計学的意義で証明できる条件に従う。 さらに、量子チャネルの認証やフォン・ノイマン測定値と$q$-数値範囲の概念との関係を示す。

In this report we study certification of quantum measurements, which can be viewed as the extension of quantum hypotheses testing. This extension involves also the study of the input state and the measurement procedure. Here, we will be interested in two-point (binary) certification scheme in which the null and alternative hypotheses are single element sets. Our goal is to minimize the probability of the type II error given some fixed statistical significance. In this report, we begin with studying the two-point certification of pure quantum states and unitary channels to later use them to prove our main result, which is the certification of von Neumann measurements in single-shot and parallel scenarios. From our main result follow the conditions when two pure states, unitary operations and von Neumann measurements cannot be distinguished perfectly but still can be certified with a given statistical significance. Moreover, we show the connection between the certification of quantum channels or von Neumann measurements and the notion of $q$-numerical range.
翻訳日:2023-05-02 06:27:05 公開日:2020-12-11
# 量子アシスト型光干渉計:機器要件

Quantum-Assisted Optical Interferometers: Instrument Requirements ( http://arxiv.org/abs/2012.02812v2 )

ライセンス: Link先を確認
Andrei Nomerotski, Paul Stankus, An\v{z}e Slosar, Stephen Vintskevich, Shane Andrewski, Gabriella Carini, Denis Dolzhenko, Duncan England, Eden Figueroa, Sonali Gera, Justine Haupt, Sven Herrmann, Dimitrios Katramatos, Michael Keach, Alexander Parsells, Olli Saira, Jonathan Schiff, Peter Svihra, Thomas Tsang and Yingwen Zhang(参考訳) 光学干渉計は、代わりに量子力学的に絡み合ったペアの源を提供することができれば、ステーション間の位相安定な光リンクを必要としないことが近年提案されている。 我々は、このアイデアの新たなバリエーションを開発し、2つの異なるソースからの光子が2つの分離されたステーションで干渉され、それらの間の古典的な接続が遅いことを提案した。 このアプローチは、2つの恒星の相対アストロメトリーの高精度な測定を可能にし、単純な推定では2つの明るい恒星の観測で角分解能が10 \ \mu$asであることを示している。 また、これらの観測のための機器、特に時間分解能とスペクトル分解能の要件についても述べる。 最後に,実装技術と第一原理実証実験について述べる。

It has been recently suggested that optical interferometers may not require a phase-stable optical link between the stations if instead sources of quantum-mechanically entangled pairs could be provided to them, enabling extra-long baselines and benefiting numerous topics in astrophysics and cosmology. We developed a new variation of this idea, proposing that photons from two different sources could be interfered at two decoupled stations, requiring only a slow classical connection between them. We show that this approach could allow high-precision measurements of the relative astrometry of the two sources, with a simple estimate giving angular resolution of $10 \ \mu$as in a few hours' observation of two bright stars. We also give requirements on the instrument for these observations, in particular on its temporal and spectral resolution. Finally, we discuss possible technologies for the instrument implementation and first proof-of-principle experiments.
翻訳日:2023-04-22 02:44:07 公開日:2020-12-11
# 相関N-Qubit系の分割

Partitions of Correlated N-Qubit Systems ( http://arxiv.org/abs/2012.04220v2 )

ライセンス: Link先を確認
Simon J. D Phoenix, Faisal Shah Khan and Berihu Teklu(参考訳) 量子相関プロトコルの生成と操作は、古典的なフレームワーク内で達成不可能な特性を得るために、相関の量子的性質をリソースとして使用できる中心的な役割を担います。 本稿では,量子システム,特に多部量子システムにおける相関強度の尺度について述べる。

The production and manipulation of quantum correlation protocols will play a central role where the quantum nature of the correlation can be used as a resource to yield properties unachievable within a classical framework is a very active and important area of research. In this work, we provide a description of a measure of correlation strength between quantum systems, especially for multipartite quantum systems.
翻訳日:2023-04-21 18:31:37 公開日:2020-12-11
# XX鎖上の熱改質

Heat rectification on the XX chain ( http://arxiv.org/abs/2012.04811v2 )

ライセンス: Link先を確認
Saulo H. S. Silva, Gabriel T. Landi, Raphael C. Drumond, Emmanuel Pereira(参考訳) 熱改質のための最小限の材料をよりよく理解するために、簡単なスピン鎖、すなわちグローバル散逸器を含むリンドブラッド力学を持つオープンXXモデルを詳細に研究する。 我々はジョルダン・ウィグナー変換を用いて、定常状態の熱電流と他の性質を計算する数学的形式を導出する。 我々は, わずかに非対称鎖であっても, 熱的整流の発生を実証するための厳密な結果を得た。 興味深いことに、システムサイズを増加させるにつれて整流化がゼロに崩壊しない場合、すなわち、整流化は熱力学的極限において有限のままである。 さらに,より非対称な鎖に対する数値的な結果についても述べる。 この単純なモデルにおける熱的整流の存在は、この現象が量子スピン系で一般的に発生することを示している。

In order to better understand the minimal ingredients for thermal rectification, we perform a detailed investigation of a simple spin chain, namely, the open XX model with a Lindblad dynamics involving global dissipators. We use a Jordan-Wigner transformation to derive a mathematical formalism to compute the heat currents and other properties of the steady state. We have rigorous results to prove the occurrence of thermal rectification even for slightly asymmetrical chains. Interestingly, we describe cases where the rectification does not decay to zero as we increase the system size, that is, the rectification remains finite in the thermodynamic limit. We also describe some numerical results for more asymmetrical chains. The presence of thermal rectification in this simple model indicates that the phenomenon is of general occurrence in quantum spin systems.
翻訳日:2023-04-21 08:21:20 公開日:2020-12-11
# 時変コヒーレント入力に結合した線形量子システムのデータ駆動システム同定

Data-Driven System Identification of Linear Quantum Systems Coupled to Time-Varying Coherent Inputs ( http://arxiv.org/abs/2012.06040v1 )

ライセンス: Link先を確認
H. I. Nurdin and N. H. Amini and J. Chen(参考訳) 本稿では,システム出力の単発連続ホモダイン測定データに基づいて,時間変化コヒーレント状態によって駆動される未知の線形量子系のモデルを特定するシステム同定アルゴリズムを開発する。 提案手法は、線形量子系の物理的実現可能性条件を満たすモデルを特定し、古典的(非量子)線形系同定では見当たらない制約に挑戦する。 同定アルゴリズムの適用例を示すために,多入力多重出力光キャビティモデルにおける数値例を示す。

In this paper, we develop a system identification algorithm to identify a model for unknown linear quantum systems driven by time-varying coherent states, based on empirical single-shot continuous homodyne measurement data of the system's output. The proposed algorithm identifies a model that satisfies the physical realizability conditions for linear quantum systems, challenging constraints not encountered in classical (non-quantum) linear system identification. Numerical examples on a multiple-input multiple-output optical cavity model are presented to illustrate an application of the identification algorithm.
翻訳日:2023-04-21 03:38:54 公開日:2020-12-11
# ゆるやかに変化するポテンシャルをもつ1次元モザイク格子の厳密なモビリティエッジ

Exact Mobility Edges in One-Dimensional Mosaic Lattices Inlaid with Slowly Varying Potentials ( http://arxiv.org/abs/2012.06169v1 )

ライセンス: Link先を確認
Longyan Gong(参考訳) 我々は, 1 次元モザイクモデルの族を,ゆるやかに変化するポテンシャル $v_n=\lambda\cos(\pi\alpha n^\nu)$ で表し,ここでは $n$ は格子サイトインデックス,$0<\nu<1$ である。 この漸近的ヒューリスティックな議論と移動行列のトレースマップの理論を組み合わせることで、そのエネルギースペクトルにおける移動エッジ(ME)と擬運動エッジ(PME)を半解析的に解き、MEは弱局所化状態から拡張状態を切り離し、PMEは弱局所化状態と強局所化状態とを分離する。 拡大、臨界、弱局所化、強局所化における固有状態の性質は、状態の局所密度、リャプノフ指数、局在テンソルによって診断される。 数値計算の結果は理論的な予測とよく一致している。

We propose a family of one-dimensional mosaic models inlaid with a slowly varying potential $V_n=\lambda\cos(\pi\alpha n^\nu)$, where $n$ is the lattice site index and $0<\nu<1$. Combinating the asymptotic heuristic argument with the theory of trace map of transfer matrix, mobility edges (MEs) and pseudo-mobility edges (PMEs) in their energy spectra are solved semi-analytically, where ME separates extended states from weakly localized ones and PME separates weakly localized states from strongly localized ones. The nature of eigenstates in extended, critical, weakly localized and strongly localized is diagnosed by the local density of states, the Lyapunov exponent, and the localization tensor. Numerical calculation results are in excellent quantitative agreement with theoretical predictions.
翻訳日:2023-04-21 03:36:06 公開日:2020-12-11
# ユビキタス量子ゲート、人工ニューロン、およびtextit{lc}共振器によるパターン認識

Universal quantum gates, artificial neurons and pattern recognition simulated by \textit{LC} resonators ( http://arxiv.org/abs/2012.06124v1 )

ライセンス: Link先を確認
Motohiko Ezawa(参考訳) 本稿では, 電圧の振幅と位相が量子状態を表すような, textit{LC}共振器による量子ゲートのシミュレーションを提案する。 共振器の容量またはインダクタンスを制御することにより、電圧の位相を任意に制御することができる。 共振器のセットは位相シフト、アダマール、CNOTゲートとして機能する。 これらは普遍量子ゲートの集合を構成する。 人工ニューロンへの応用についても論じる。 例として、入力と参照パターンの類似性を評価することにより、数字とアルファベットのパターン認識について検討する。 また,複雑なニューラルネットワークを用いてカラーパターン認識の研究を行った。

We propose to simulate quantum gates by \textit{LC} resonators, where the amplitude and the phase of the voltage describe the quantum state. By controlling capacitance or inductance of resonators, it is possible to control the phase of the voltage arbitrarily. A set of resonators acts as the phase-shift, the Hadamard and the CNOT gates. They constitute a set of universal quantum gates. We also discuss an application to an artificial neuron. As an example, we study a pattern recognition of numbers and alphabets by evaluating the similarity between an input and the reference pattern. We also study a colored pattern recognition by using a complex neural network.
翻訳日:2023-04-21 03:35:29 公開日:2020-12-11
# 量子アニールにおける不等式制約二項最適化問題の解法

Solving Inequality-Constrained Binary Optimization Problems on Quantum Annealer ( http://arxiv.org/abs/2012.06119v1 )

ライセンス: Link先を確認
Kouki Yonaga, Masamichi J. Miyama and Masayuki Ohzeki(参考訳) 量子アニールを用いた不等式制約下でのバイナリ最適化問題の解法を提案する。 不等式制約に対処するため、従来のアプローチのようにスラック変数を使うことが多い。 slack変数を使用する場合、通常、多くの物理量子ビットを必要とするバイナリ展開を実行する。 したがって、現在の量子アニールの問題は小さなスケールに限られている。 本研究では,乗算器の交互方向法を適用した。 このアプローチにより、スラック変数を使わずに、現在の量子アニールの制約を使って様々な型を扱うことができる。 アルゴリズムの性能をテストするために、二次的なknapsack問題(QKP)を用いる。 本手法の精度をシミュレーションアニーラとd-waveマシンの最適化・サンプリングモードと比較した。 実験の結果,サンプリングモードが最も精度が高いことがわかった。 また,高密度グラフ上で定義された様々なQKPに対処する場合,計算時間は精度の高い解法よりも速いことがわかった。

We propose a new method for solving binary optimization problems under inequality constraints using a quantum annealer. To deal with inequality constraints, we often use slack variables, as in previous approaches. When we use slack variables, we usually conduct a binary expansion, which requires numerous physical qubits. Therefore, the problem of the current quantum annealer is limited to a small scale. In this study, we employ the alternating direction method of multipliers. This approach allows us to deal with various types using constraints in the current quantum annealer without slack variables. To test the performance of our algorithm, we use quadratic knapsack problems (QKPs). We compared the accuracy obtained by our method with a simulated annealer and the optimization and sampling mode of a D-Wave machine. As a result of our experiments, we found that the sampling mode shows the best accuracy. We also found that the computational time of our method is faster than that of the exact solver when we tackle various QKPs defined on dense graphs.
翻訳日:2023-04-21 03:35:18 公開日:2020-12-11
# 絶縁体チップ上でのニオブ酸リチウムからの光子生成

Ultra-bright multiplexed energy-time entangled photon generation from lithium niobate on insulator chip ( http://arxiv.org/abs/2012.06092v1 )

ライセンス: Link先を確認
Guang-Tai Xue, Yun-Fei Niu, Xiaoyue Liu, Jia-Chen Duan, Wenjun Chen, Ying Pan, Kunpeng Jia, Xiaohan Wang, Hua-Ying Liu, Yong Zhang, Ping Xu, Gang Zhao, Xinlun Cai, Yan-Xiao Gong, Xiaopeng Hu, Zhenda Xie, and Shining Zhu(参考訳) 高流動光子源は量子光学研究および応用の鍵となる資源である。 ここでは、2.79*10^11 Hz/mW光子対レートと1.53*10^9 Hz/nm/mWスペクトル輝度を有するアイソレータ(LNOI)チップ上のニオブ酸リチウムで実現される。 これらのデータは、既存の技術に比べて2桁以上向上している。 130nmの広帯域帯域を8チャンネル多重エネルギー時間絡みに設計する。 高周波周波数相関とフランソン干渉を最大99.17%の可視性に利用することで、このようなエネルギー時間エンタングルメント多重化は、高流束データレートをさらに向上させ、チップ上の量子情報処理における幅広い応用を保証している。

High-flux entangled photon source is the key resource for quantum optical study and application. Here it is realized in a lithium niobate on isolator (LNOI) chip, with 2.79*10^11 Hz/mW photon pair rate and 1.53*10^9 Hz/nm/mW spectral brightness. These data are boosted by over two orders of magnitude compared to existing technologies. A 130-nm broad bandwidth is engineered for 8-channel multiplexed energy-time entanglement. Harnessed by high-extinction frequency correlation and Franson interferences up to 99.17% visibility, such energy-time entanglement multiplexing further enhances high-flux data rate, and warrants broad applications in quantum information processing on a chip.
翻訳日:2023-04-21 03:34:32 公開日:2020-12-11
# ナノフォトニックキャビティにおける固体スピンに対するハイブリッドマイクロ波光走査プローブ

Hybrid microwave-optical scanning probe for addressing solid-state spins in nanophotonic cavities ( http://arxiv.org/abs/2012.06080v1 )

ライセンス: Link先を確認
Songtao Chen, Salim Ourari, Mouktik Raha, Christopher M. Phenicie, Mehmet T. Uysal, Jeff D. Thompson(参考訳) 固体原子欠陥に基づくスピン光子インタフェースは、量子情報処理における様々な重要な応用を可能にしている。 光マッター結合強度を最大化するために、欠陥はしばしばナノスケールデバイスの内部に配置される。 これらの構造に光とマイクロ波を効率よく結合させることは、特に試料アクセスが制限された低温または高真空環境において実験的な課題である。 本研究では、光を平面フォトニック回路に結合し、電子スピン遷移を駆動するマイクロ波を高出力で供給するファイバーベースの走査プローブを実証する。 光部は1方向結合効率が46%、マイクロ波部は9ガウスまでの強度を持つ交流磁場を供給する。 プローブ全体は、自由空間の光学的アクセスなしで、$^3$Heのクライオスタット内の多数のデバイスでスキャンできる。 シリコンナノフォトニック回路を単一Er$^{3+}$イオンに結合させることで,この手法を実証する。

Spin-photon interfaces based on solid-state atomic defects have enabled a variety of key applications in quantum information processing. To maximize the light-matter coupling strength, defects are often placed inside nanoscale devices. Efficiently coupling light and microwave radiation into these structures is an experimental challenge, especially in cryogenic or high vacuum environments with limited sample access. In this work, we demonstrate a fiber-based scanning probe that simultaneously couples light into a planar photonic circuit and delivers high power microwaves for driving electron spin transitions. The optical portion achieves 46% one-way coupling efficiency, while the microwave portion supplies an AC magnetic field with strength up to 9 Gauss. The entire probe can be scanned across a large number of devices inside a $^3$He cryostat without free-space optical access. We demonstrate this technique with silicon nanophotonic circuits coupled to single Er$^{3+}$ ions.
翻訳日:2023-04-21 03:34:03 公開日:2020-12-11
# 古典的極限に近づく固有状態熱化スケーリング

Eigenstate thermalization scaling in approaching the classical limit ( http://arxiv.org/abs/2012.06361v1 )

ライセンス: Link先を確認
Goran Nakerst and Masudul Haque(参考訳) 固有状態熱化仮説 (ETH) によれば, 局所観測値の固有状態から固有状態への変動は, システムサイズの増加とともに減少する。 熱力学的限界(サイト数と粒子数が同じ速度で増加する)に近づくと、ゆらぎはヒルベルト空間次元 $d$ とともに$\sim d^{-1/2}$ に拡張される。 ここでは、固定格子位相の粒子数を増加させることにより、異なる極限(古典的あるいは半古典的極限)を研究する。 大規模格子の量子カオスであり,小格子の混合挙動を示すbose-hubbard系に着目した。 ガウス分布のランダム成分を持つ理想的な固有状態を仮定して、予測スケーリングの式を導出する。 より大きい格子の場合、物理的中スペクトル固有状態のETHスケーリングは理想(ガウス)予想に従うが、より小さな格子の場合、スケーリングは異なる指数によって行われることを示す。 この異常なスケーリングのメカニズムについて検討する。

According to the eigenstate thermalization hypothesis (ETH), the eigenstate-to-eigenstate fluctuations of expectation values of local observables should decrease with increasing system size. In approaching the thermodynamic limit - the number of sites and the particle number increasing at the same rate - the fluctuations should scale as $\sim D^{-1/2}$ with the Hilbert space dimension $D$. Here, we study a different limit - the classical or semiclassical limit - by increasing the particle number in fixed lattice topologies. We focus on the paradigmatic Bose-Hubbard system, which is quantum-chaotic for large lattices and shows mixed behavior for small lattices. We derive expressions for the expected scaling, assuming ideal eigenstates having Gaussian-distributed random components. We show numerically that, for larger lattices, ETH scaling of physical mid-spectrum eigenstates follows the ideal (Gaussian) expectation, but for smaller lattices, the scaling occurs via a different exponent. We examine several plausible mechanisms for this anomalous scaling.
翻訳日:2023-04-21 03:26:39 公開日:2020-12-11
# マルチバレー実効質量理論を用いたシリコン交換結合ドナーのフルコンフィグレーション相互作用シミュレーション

Full configuration interaction simulations of exchange-coupled donors in silicon using multi-valley effective mass theory ( http://arxiv.org/abs/2012.06293v1 )

ライセンス: Link先を確認
Benjamin Joecker, Andrew D. Baczewski, John K. Gamble, Jarryd J. Pla, Andr\'e Saraiva, Andrea Morello(参考訳) シリコンのドナースピンはコヒーレンス時間と単一量子ゲート忠実度の記録値を達成した。 開発の次の段階は、交換相互作用が最も自然な結合である高忠実な2ビット論理ゲートを示すことである。 スケーラブルなドナー型量子プロセッサの効率的な設計を支援するため,マルチバレー有効質量理論における完全な構成相互作用法を用いて2電子波動関数をモデル化する。 提案手法は, 幅広い格子位置, 向き, 印加電界関数において, 2つのリン供与体間の交換相互作用, 谷密度, 電子密度を調べるために, 高い計算効率を生かした。 結果は、谷や軌道要素の進化を観察しながら、ドナーの位置を探索できるインタラクティブな画像で可視化される。 その結果,シリコンのドナーを用いた高忠実度2ビットゲートの実現に必要な配置条件とチューニング基準を,物理的に直感的かつ定量的に把握することができた。

Donor spin in silicon have achieved record values of coherence times and single-qubit gate fidelities. The next stage of development involves demonstrating high-fidelity two-qubit logic gates, where the most natural coupling is the exchange interaction. To aid the efficient design of scalable donor-based quantum processors, we model the two-electron wave function using a full configuration interaction method within a multi-valley effective mass theory. We exploit the high computational efficiency of our code to investigate the exchange interaction, valley population, and electron densities for two phosphorus donors in a wide range of lattice positions, orientations, and as a function of applied electric fields. The outcomes are visualized with interactive images where donor positions can be swept while watching the valley and orbital components evolve accordingly. Our results provide a physically intuitive and quantitatively accurate understanding of the placement and tuning criteria necessary to achieve high-fidelity two-qubit gates with donors in silicon.
翻訳日:2023-04-21 03:26:09 公開日:2020-12-11
# 完全量子制御のための情報フローと誤差スケーリング

Information flow and error scaling for fully-quantum control ( http://arxiv.org/abs/2012.06234v1 )

ライセンス: Link先を確認
Stefano Gherardini, Matthias M. M\"uller, Simone Montangero, Tommaso Calarco, Filippo Caruso(参考訳) 量子システムの最適設計制御は、新しい、より効率的な量子技術を設計する上で、ますます重要な役割を担っている。 ここで、任意の量子系を他の最適初期化補助量子系と相互作用して制御することにより表されるシナリオでは、量子チャネル容量が最適制御誤差のスケーリング動作を設定することを示す。 具体的には、初期制御状態から制御システムの目標状態、すなわち制御対象システムへの量子情報フローを最適化することで、チャネルの量子容量を最大化することにより、最小制御誤差が保証されることを示す。 数値的なエビデンスによって支持される分析結果は、システムとコントローラが量子ビットまたは単一ボソニックモードであり、制御可能な量子デバイスのための非常に大規模なプラットフォームに適用できる場合に提供される。

The optimally designed control of quantum systems is playing an increasingly important role to engineer novel and more efficient quantum technologies. Here, in the scenario represented by controlling an arbitrary quantum system via the interaction with an another optimally initialized auxiliary quantum system, we show that the quantum channel capacity sets the scaling behaviour of the optimal control error. Specifically, we prove that the minimum control error is ensured by maximizing the quantum capacity of the channel mapping the initial control state into the target state of the controlled system, i.e., optimizing the quantum information flow from the controller to the system to be controlled. Analytical results, supported by numerical evidences, are provided when the systems and the controller are either qubits or single Bosonic modes and can be applied to a very large class of platforms for controllable quantum devices.
翻訳日:2023-04-21 03:25:27 公開日:2020-12-11
# 企業技術がEコマース戦略の成功に及ぼす影響:中小企業の視点から

Impact of Business technologies on the success of Ecommerce Strategies: SMEs Perspective ( http://arxiv.org/abs/2012.06214v1 )

ライセンス: Link先を確認
Z. H. A Almtiri, S. J. Miah(参考訳) 本研究の主な課題は,技術導入と電子商取引成功の関連性を検討することである。 インターネット技術の急速な成長、eサービスの新たな次元、そして電子商取引業務に必要な要素である革新的な対策に直接影響を与える重要な関係を研究することが不可欠である。 ほとんどのサウジアラビアの小売業者は技術の進歩を認識しているが、既存の研究はeコマース戦略の採用を妨げるいくつかの課題を明らかにしている。 電子商取引の利点は近年の研究でしばしば示されている。 インターネット技術開発は、伝統的な貿易とオンラインビジネスの違いを狭め、さらに伝統的な市場がオンラインプラットフォームに移行した。 サウジアラビアのコミュニティは、テクノロジーベースのプログラム、特にeコマースの発展のハブとして認識されている。

The primary task of the study is to inspect the affiliation between the implementation of technology and e-commerce success. It is imperative to study such an important relationship that directly impacts the rapid growth of Internet technology, new dimensions of e-services, and innovative measures that are necessary factors for electronic commerce operations. Despite most Saudi Arabia retailers being aware of technological advancements, existing research reveals several challenges that hinder the adoption of e-commerce strategies, including the cost of installation and training. The advantages of e-commerce are frequently shown in recent studies. Internet technologies development has narrowed the difference between traditional trade and online business grounds, with additional traditional markets moving to online platforms. The Saudi Arabia community has been recognized as a potential hub for advancing technology-based programs, particularly e-commerce.
翻訳日:2023-04-21 03:24:56 公開日:2020-12-11
# poincare不変量子力学における水素様系の相対論的ポテンシャル

Relativistic potential of a hydrogen-like system in Poincare invariant quantum mechanics ( http://arxiv.org/abs/2012.06196v1 )

ライセンス: Link先を確認
V.V. Andreev(参考訳) 相対論的水素原子を記述するために、ゲージ不変ポテンシャルを持つ2粒子系のポインカレ共変モデルを用いた。 電磁相互作用を持つ2つのフェルミオンの系を記述する放射積分方程式の核を得る。

To describe a relativistic hydrogen atom we used the Poincare-covariant model of a two particle system with gauge invariant potential. The kernel of the radial integral equation is obtained which describes a system of two fermions with electromagnetic interaction.
翻訳日:2023-04-21 03:24:43 公開日:2020-12-11
# 環境騒音と相互作用するスピンの量子電池

Quantum battery of interacting spins with environmental noise ( http://arxiv.org/abs/2012.06187v1 )

ライセンス: Link先を確認
Fang Zhao, Fu-Quan Dou, Qing Zhao(参考訳) 量子電池は一時的なエネルギー貯蔵システムである。 近接ホッピング相互作用を有するNスピン鎖の量子バッテリモデルを構築し, 量子バッテリの充電過程について検討した。 我々は、コヒーレントキャビティ駆動フィールドまたは熱熱浴によって充電された量子電池の最大エネルギーを得た。 有限長のスピンチェーンでは、熱電荷は非ゼロのエルゴトロピーとなり、以前の結果と矛盾することを確認した: 非コヒーレントな熱源は単一スピンの量子電池を充電できない。 近接-neighborホッピング相互作用はエネルギーバンド分割を誘導し、量子電池のエネルギー貯蔵とエルゴトロピーを増大させる。 我々は、基底状態の量子相転移によるエネルギーとエルゴトロピーの臨界点を発見し、その後エネルギーが著しく高められた。 最後に、障害によって量子バッテリーのエネルギーが増加することもわかりました。

A quantum battery is a temporary energy-storage system. We constructed the quantum battery model of an N-spin chain with nearest-neighbor hopping interaction and investigated the charging process of the quantum battery. We obtained the maximum energy in the quantum battery charged by a coherent cavity driving field or a thermal heat bath. We confirmed that for a finite-length spin chain, thermal charging results in a nonzero ergotropy, contradicting a previous result: that an incoherent heat source cannot charge a single-spin quantum battery. The nearest-neighbor hopping interaction induces energy band splitting, which enhances the energy storage and the ergotropy of the quantum battery. We found a critical point in the energy and ergotropy resulting from the ground-state quantum phase transition, after which the energy significantly enhance. Finally, we also found that disorder increased the energy of the quantum battery.
翻訳日:2023-04-21 03:24:38 公開日:2020-12-11
# guardianが裏切った:親のコントロールソリューションのセキュリティとプライバシーのリスク

Betrayed by the Guardian: Security and Privacy Risks of Parental Control Solutions ( http://arxiv.org/abs/2012.06502v1 )

ライセンス: Link先を確認
S. Ali, M. Elgharabawy, Q. Duchaussoy, M. Mannan, A. Youssef(参考訳) 幼児や青年の両親にとって、デジタル時代は、過剰なスクリーンタイム、不適切なオンラインコンテンツ、サイバー捕食者、サイバーいじめなど、多くの新しい課題をもたらした。 これらの課題に対処するために、多くの親は、ペアレンタルコントロールネットワークデバイス(例えばWiFiルータ)やモバイルデバイスやラップトップ上のソフトウェアアプリケーションなど、さまざまなプラットフォーム上の多数のペアレンタルコントロールソリューションに依存している。 これらのペアレンタルコントロールソリューションは、デジタルペアレンタルに役立つかもしれないが、その特権の増大と大量のプライバシーに敏感なデータへのアクセスのために、子供や親に深刻なセキュリティとプライバシーリスクをもたらす可能性がある。 本稿では,ペアレンタルコントロールソフトウェアとハードウェアソリューションにおけるセキュリティとプライバシの問題を体系的に評価するための実験フレームワークを提案する。 開発したフレームワークを用いて,ネットワークデバイス,Windowsアプリケーション,Chromeエクステンション,Androidアプリなど,複数のプラットフォーム上でのペアレンタルコントロールツールの総合的研究を行った。 我々の分析は、個人情報の漏洩につながる広範囲にわたるセキュリティとプライバシーの問題を明らかにし、敵が親のコントロールソリューションを完全にコントロールできるようにする。

For parents of young children and adolescents, the digital age has introduced many new challenges, including excessive screen time, inappropriate online content, cyber predators, and cyberbullying. To address these challenges, many parents rely on numerous parental control solutions on different platforms, including parental control network devices (e.g., WiFi routers) and software applications on mobile devices and laptops. While these parental control solutions may help digital parenting, they may also introduce serious security and privacy risks to children and parents, due to their elevated privileges and having access to a significant amount of privacy-sensitive data. In this paper, we present an experimental framework for systematically evaluating security and privacy issues in parental control software and hardware solutions. Using the developed framework, we provide the first comprehensive study of parental control tools on multiple platforms including network devices, Windows applications, Chrome extensions and Android apps. Our analysis uncovers pervasive security and privacy issues that can lead to leakage of private information, and/or allow an adversary to fully control the parental control solution, and thereby may directly aid cyberbullying and cyber predators.
翻訳日:2023-04-21 03:16:47 公開日:2020-12-11
# デジタルコンタクトトラクション:技術,欠点,これからの道のり

Digital Contact Tracing: Technologies, Shortcomings, and the Path Forward ( http://arxiv.org/abs/2012.06466v1 )

ライセンス: Link先を確認
Amee Trivedi, Deepak Vasisht(参考訳) 新型コロナウイルス(COVID-19)のパンデミックが始まって以来、テクノロジー愛好家は、新型コロナウイルス(COVID-19)の感染連鎖を破壊する重要なツールとして、デジタル接触追跡を推進してきた。 この動きに触発された多くの国や企業は、感染した個人から他人への感染の連鎖を特定し、早期隔離を可能にするために、デジタル接触追跡を可能にするアプリを開発した。 インドではaarogyasetu、シンガポールではtracetogether、スイスではswisscovidなどのデジタル連絡先追跡アプリケーションが数億回ダウンロードされている。 しかし、この技術はパンデミックの開始時に私たちが想定した影響を見ていない。 一部の国はアプリをロールバックし、他の国は採用率を下げている。 したがって、コンタクトトレーシングの技術的展望と欠けている部分とは何なのかを問うのは慎重である。 私たちはこの仕事をこの論文で実行しようと試みる。 我々は,デジタルコンタクトトレーシングの基礎となる技術について,高いレベルのレビューを行うとともに,異なるコンタクトトレーシング技術を評価する上で重要な指標のセットを提示する。 私たちの希望は2倍です。 (a)コンタクトトレーシングアプリケーションの将来の設計者は、このレビュー論文を使って技術状況を理解することができる。 b)研究者たちは、新型コロナウイルスのパンデミックと今後のパンデミックに直面する準備が整うように、このパズルの欠落部分を特定し、解決することができる。 この議論の大部分は、個人間の接触を識別する能力に焦点を当てている。 このような接触追跡の倫理、プライバシー、セキュリティに関する質問は、簡潔に述べられているが、詳細には議論されていない。

Since the start of the COVID-19 pandemic, technology enthusiasts have pushed for digital contact tracing as a critical tool for breaking the COVID-19 transmission chains. Motivated by this push, many countries and companies have created apps that enable digital contact tracing with the goal to identify the chain of transmission from an infected individual to others and enable early quarantine. Digital contact tracing applications like AarogyaSetu in India, TraceTogether in Singapore, SwissCovid in Switzerland, and others have been downloaded hundreds of millions of times. Yet, this technology hasn't seen the impact that we envisioned at the start of the pandemic. Some countries have rolled back their apps, while others have seen low adoption. Therefore, it is prudent to ask what the technology landscape of contact-tracing looks like and what are the missing pieces. We attempt to undertake this task in this paper. We present a high-level review of technologies underlying digital contact tracing, a set of metrics that are important while evaluating different contact tracing technologies, and evaluate where the different technologies stand today on this set of metrics. Our hope is two-fold: (a) Future designers of contact tracing applications can use this review paper to understand the technology landscape, and (b) Researchers can identify and solve the missing pieces of this puzzle so that we are ready to face the rest of the COVID-19 pandemic and any future pandemics. A majority of this discussion is focused on the ability to identify contact between individuals. The questions of ethics, privacy, and security of such contact tracing are briefly mentioned but not discussed in detail.
翻訳日:2023-04-21 03:16:27 公開日:2020-12-11
# 量子超越性と量子相転移

Quantum supremacy and quantum phase transitions ( http://arxiv.org/abs/2012.06459v1 )

ライセンス: Link先を確認
Supanut Thanasilp, Jirawat Tangpanitanon, Marc-Antoine Lemonde, Ninnat Dangniam and Dimitris G. Angelakis(参考訳) 既存の量子プラットフォームが古典的コンピュータに難解な計算タスクを実行する能力を示すことは、量子コンピューティングの基盤となる。 このような「量子スプリーム」タスクが増えているにもかかわらず、それらの直接的な応用を特定することは依然として重要な課題である。 本稿では,refで提案されたアプローチについて述べる。 [arXiv:2002.1 1946] コールド原子やイオン配置などの一般駆動型アナログ多体系における量子超越性を実証するために、動的量子相転移を探索するために拡張することができる。 量子超越シグネチャ(例えば、超越状態における出力分布と期待されるポーター・トーマス分布との間の距離)が、実効的な順序パラメータとしてどのように用いられるかを示す。 本手法を周期的に駆動される乱れた1次元イジングモデルに適用し, 駆動熱化相と多体局所化相の遷移を正確に捉えることができることを示す。 このアプローチはまた、高周波駆動のためのフロッケ予熱レジームへの遷移を捉えている。 量子超越性に関する最近の議論の光の下で物質の量子相を再考することは、複雑性理論とアナログ多体系とを関連付ける。

Demonstrating the ability of existing quantum platforms to perform certain computational tasks intractable to classical computers represents a cornerstone in quantum computing. Despite the growing number of such proposed "quantum supreme" tasks, it remains an important challenge to identify their direct applications. In this work, we describe how the approach proposed in Ref. [arXiv:2002.11946] for demonstrating quantum supremacy in generic driven analog many-body systems, such as those found in cold atom and ion setups, can be extended to explore dynamical quantum phase transitions. We show how key quantum supremacy signatures, such as the distance between the output distribution and the expected Porter Thomas distribution at the supremacy regime, can be used as effective order parameters. We apply this approach to a periodically driven disordered 1D Ising model and show that we can accurately capture the transition between the driven thermalized and many-body localized phases. This approach also captures the transition towards the Floquet prethermalized regime for high-frequency driving. Revisiting quantum phases of matter under the light of the recent discussions about quantum supremacy draws a link between complexity theory and analog many-body systems.
翻訳日:2023-04-21 03:15:42 公開日:2020-12-11
# マルチキュービットシステムのためのモノガミー関係

Monogamy Relations for Multiqubit Systems ( http://arxiv.org/abs/2012.06429v1 )

ライセンス: Link先を確認
Priyabrata Char, Prabir Kumar Dey, Amit Kundu, Indrani Chattopadhyay and Debasis Sarkar(参考訳) 最近、christopher eltschkaらによって、二乗共起という観点から新しい一夫一妻関係(実際に指数関数的に多数)が提供された。 彼らのアプローチは、グローバル状態の異なるサブシステム間で共有される二成分の絡み合いの分布に限定されている。 我々は,これらの一夫一婦制関係を,正方形負性度を用いて4量子純状態と同様に3つに批判的に分析した。 純粋な3量子状態の場合、それらの関係は常に正方負性という観点で真であることが証明できた。 しかし、純粋な4量子ビット状態を考えると、結果は必ずしも真ではない。 むしろ、一夫一婦関係のいくつかが違反している4つのキュービット純粋状態の特定のクラスで逆の挙動を見つける。 我々は我々の主張を支持する分析的および数値的な証拠を提供した。

Recently a new class of monogamy relations (actually, exponentially many) was provided by Christopher Eltschka et al. in terms of squared concurrence. Their approach restricted to the distribution of bipartite entanglement shared between different subsystems of a global state. We have critically analyzed those monogamy relations in three as well as in four qubit pure states using squared negativity. We have been able to prove that in case of pure three qubit states those relations are always true in terms of squared negativity. However, if we consider the pure four qubit states, the results are not always true. Rather, we find opposite behaviour in some particular classes of four qubit pure states where some of the monogamy relations are violated. We have provided analytical and numerical evidences in support of our claim.
翻訳日:2023-04-21 03:15:23 公開日:2020-12-11
# 線欠陥の存在下での幾何学的散乱

Geometric scattering in the presence of line defects ( http://arxiv.org/abs/2012.06395v1 )

ライセンス: Link先を確認
Hai Viet Bui, Ali Mostafazadeh, and Sema Seymen(参考訳) 曲面上を移動する非相対論的スカラー粒子は、量子ハミルトニアン作用素の式に入る内在的および外在的曲率係数の理論的に曖昧な値に敏感な振る舞いを持つ幾何散乱を受ける。 これは散乱データを用いてハミルトンの定義の曖昧さを解決することを示唆している。 近年,表面への点欠陥の包含は幾何学的散乱効果を高めることが示されている。 粒子がガウスバンプ上を移動するために閉じ込められ、欠陥が線または散乱軸に垂直な平行線の集合に支持されるデルタ関数ポテンシャルによってモデル化される場合の線欠陥の存在下での幾何学的散乱現象の詳細な研究を行う。 点欠陥を持つ面とは対照的に、この系に関連する散乱現象は、平坦な面に対して散乱振幅がすべての散乱角に対して、$\theta_0$ と $\pi-\theta_0$ を除いて、$\theta_0$ が入射角であるという意味で、自然に幾何学的である。 線欠陥の存在はガウスのバンプによる幾何学的散乱を増幅することを示した。 この増幅効果は、2本のライン欠陥の間にバンプの中心を置くと特に強い。

A non-relativistic scalar particle moving on a curved surface undergoes a geometric scattering whose behavior is sensitive to the theoretically ambiguous values of the intrinsic and extrinsic curvature coefficients entering the expression for the quantum Hamiltonian operator. This suggests using the scattering data to settle the ambiguity in the definition of the Hamiltonian. It has recently been shown that the inclusion of point defects on the surface enhances the geometric scattering effects. We perform a detailed study of the geometric scattering phenomenon in the presence of line defects for the case that the particle is confined to move on a Gaussian bump and the defect(s) are modeled by delta-function potentials supported on a line or a set of parallel lines normal to the scattering axis. In contrast to a surface having point defects, the scattering phenomenon associated with this system is generically geometric in nature in the sense that for a flat surface the scattering amplitude vanishes for all scattering angles $\theta$ except $\theta=\theta_0$ and $\pi-\theta_0$, where $\theta_0$ is the angle of incidence. We show that the presence of the line defects amplifies the geometric scattering due to the Gaussian bump. This amplification effect is particularly strong when the center of the bump is placed between two line defects.
翻訳日:2023-04-21 03:15:12 公開日:2020-12-11
# 暗黒とストライプ:太さ知覚に及ぼす衣服の影響

Darks and Stripes: Effects of Clothing on Weight Perception ( http://arxiv.org/abs/2012.14274v1 )

ライセンス: Link先を確認
Kirill Martynov, Kiran Garimella, Robert West(参考訳) 多くの社会では、スリムな外観が魅力的であると考えられている。 ファッション業界は、スリムな外観を増やせるような衣装をデザインすることで、この傾向に対応しようとしている。 ファッション界に広まる2つの逸話規則は、(1)黒服を選択し、(2)横縞を避けて、スリムな姿を見せることである。 これまでのところ、実証的な証拠はこれらの規則の有効性を決定づけることができなかったため、色とパターンが重量の視覚的知覚に与える影響について多くの議論がある。 本稿では,上記の2つの主張を調査する大規模クラウドソーシング研究の成果を提示することにより,このギャップを埋めることを目的とする。 私たちは、webから約1000人の画像と、その身長と身長、および色やパターンに関する衣服属性のデータセットを収集しました。 色やパターンの効果を明らかにするため、群衆に各画像の重さを見積もるように求めた。 分析では,2つの画像が色やパターンによって異なるが,他の関連面に関して類似した2つの画像のマッチングにより,潜在的なコンファウンドを制御した。 まず,2つの実画像から,第1に観察的に,第2に,写真の編集によって衣服の色や模様を操作することによって,2つの画像対を作成した。 分析の結果,(1)暗い衣服の重量はわずかに減少するが,統計的には減少し,(2)水平のストライプは光沢のある衣服に比べて目立たないことがわかった。 これらの結果は、特定の衣服の色やパターンの影響に関する議論の進展に寄与し、日常的なファッション決定の実証的根拠を提供する。 さらに,私たちの研究は,現代ファッション産業におけるクラウドソーシングの膨大な利用機会を概観している。

In many societies, appearing slim is considered attractive. The fashion industry has been attempting to cater to this trend by designing outfits that can enhance the appearance of slimness. Two anecdotal rules, widespread in the world of fashion, are (1) choose dark clothes and (2) avoid horizontal stripes, in order to appear slim. Thus far, empirical evidence has been unable to conclusively determine the validity of these rules, and there is consequently much controversy regarding the impact of both color and patterns on the visual perception of weight. In this paper, we aim to close this gap by presenting the results from a series of large-scale crowdsourcing studies that investigate the above two claims. We gathered a dataset of around 1,000 images of people from the Web together with their ground-truth weight and height, as well as clothing attributes about colors and patterns. To elicit the effects of colors and patterns, we asked crowd workers to estimate the weight in each image. For the analysis, we controlled potential confounds by matching images in pairs where the two images differ with respect to color or pattern, but are similar with respect to other relevant aspects. We created image pairs in two ways: first, observationally, i.e., from two real images; and second, experimentally, by manipulating the color or pattern of clothing in a real image via photo editing. Based on our analysis, we conclude that (1) dark clothes indeed decrease perceived weight slightly but statistically significantly, and (2) horizontal stripes have no discernible effect compared to solid light-colored clothes. These results contribute to advancing the debate around the effect of specific clothing colors and patterns and thus provide empirical grounds for everyday fashion decisions. Moreover, our work gives an outlook on the vast opportunities of using crowd sourcing in the modern fashion industry.
翻訳日:2023-04-21 03:08:03 公開日:2020-12-11
# 量子論における計算可能幾何表現について

On Computable Geometric Expressions in Quantum Theory ( http://arxiv.org/abs/2012.08305v1 )

ライセンス: Link先を確認
Ross N. Greenwood(参考訳) 幾何学的代数と微積分学は、物理学の理論が尊重しているように見える基本的な幾何学的関係をコードする数学的言語である。 幾何代数における表現の統計式が量子論において計算可能である条件を,その代数的性質を保存するような方法で提案する。 これらの元は、状態空間上で自明に作用する代数の元による乗法により、クリフォード代数の基底を任意に変換できなければならない。 動的多ベクトル場の物理学におけるこれらの基準の結果について考察する。

Geometric Algebra and Calculus are mathematical languages encoding fundamental geometric relations that theories of physics seem to respect. We propose criteria given which statistics of expressions in geometric algebra are computable in quantum theory, in such a way that preserves their algebraic properties. They are that one must be able to arbitrarily transform the basis of the Clifford algebra, via multiplication by elements of the algebra that act trivially on the state space; all such elements must be neighbored by operators corresponding to factors in the original expression and not the state vectors. We explore the consequences of these criteria for a physics of dynamical multivector fields.
翻訳日:2023-04-21 03:07:28 公開日:2020-12-11
# アフリカにおけるcovid-19パンデミック対応における技術とイノベーションの利用

Use of Technology and Innovations in the COVID-19 Pandemic Response in Africa ( http://arxiv.org/abs/2012.07741v1 )

ライセンス: Link先を確認
Adyasha Maharana, Morine Amutorine, Moinina David Sengeh, Elaine O. Nsoesie(参考訳) SARS-CoV-2ウイルスの出現と拡散による公衆衛生の危機に対抗すべく、テクノロジーの利用はあらゆる場所で行われている。 アフリカ諸国は、情報を広めたり、新型コロナウイルス(COVID-19)の拡散に対抗したり、患者の診断、治療、管理を助ける最先端の技術を開発してきた。 これらの努力の本質と成果は、アフリカの他の地域と比べて、その独特の挑戦と機会のためにしばしば異なる。 いくつかの国は、技術へのアクセスが変化する多様な人口に対応する革新的な技術駆動ソリューションを開発した。 問題解決への柔軟なアプローチ、地元のテック起業家シップ、最先端技術の採用の迅速化など、多くの取り組みが注目されている。

The use of technology has been ubiquitous in efforts to combat the ongoing public health crisis due to emergence and spread of the SARS-CoV-2 virus. African countries have made tremendous use of technology to disseminate information, counter the spread of COVID-19, and develop cutting-edge techniques to help with diagnosis, treatment and management of patients. The nature and outcomes of these efforts sometimes differ in Africa compared to other areas of the world due to its unique challenges and opportunities. Several countries have developed innovative technology-driven solutions to cater to a diverse population with varying access to technology. Much of the efforts are also earmarked by a flexible approach to problem solving, local tech entrepreneurship, and swift adoption of cutting-edge technology.
翻訳日:2023-04-21 03:07:17 公開日:2020-12-11
# 二重環型量子ドットの低温・高温における熱力学的性質

Remarks on thermodynamic properties of a double ring-shaped quantum dot at low and high temperatures ( http://arxiv.org/abs/2012.07633v1 )

ライセンス: Link先を確認
Andr\'es G. Jir\'on Vicente and Luis B. Castro and Angel E. Obispo and Luis E. Arroyo Meza(参考訳) このジャーナルに掲載された最近の論文で、ホルダードと[J Low Temp Phys (2018) 190:200]は、外磁場および電場下でのGaAs二重環型量子ドットの熱力学特性を研究した。 その功績ある研究において、系のエネルギーはschr\"{o}dinger方程式を解いて得られた。 放射状方程式は合流超幾何微分方程式にマッピングされ、$z$座標に関連付けられた微分方程式は二流ハイン微分方程式にマッピングされた。 そこで本論文では, 両流 heun 方程式の解に対する誤解を招く処理を指摘した。 エネルギー$E_{z}$は$n_{z}$とラベル付けできないことが示され、この事実がこのシステムの結果を危険にさらしている。 本研究では,エネルギースペクトルを用いて分配関数を計算し,その比熱とエントロピーを低温・高温の関数として再計算する。

In a recent paper published in this Journal, Khordad and collaborators [J Low Temp Phys (2018) 190:200] have studied the thermodynamics properties of a GaAs double ring-shaped quantum dot under external magnetic and electric fields. In that meritorious research the energy of system was obtained by solving the Schr\"{o}dinger equation. The radial equation was mapped into a confluent hypergeometric differential equation and the differential equation associated to $z$ coordinate was mapped into a biconfluent Heun differential equation. In this paper, it is pointed out a misleading treatment on the solution of the biconfluent Heun equation. It is shown that the energy $E_{z}$ can not be labeled with $n_{z}$ and this fact jeopardizes the results of this system. We calculate the partition function with the correct energy spectrum and recalculate the specific heat and entropy as a function of low and high temperatures.
翻訳日:2023-04-21 03:07:05 公開日:2020-12-11
# 量子コンピュータを用いた物理実験から学ぶ:ミューオン分光法への応用

Learning from physics experiments, with quantum computers: Applications in muon spectroscopy ( http://arxiv.org/abs/2012.06602v1 )

ライセンス: Link先を確認
Sam McArdle(参考訳) Computational physics is an important tool for analysing, verifying, and -at times -- replacing physical experiments. Nevertheless, simulating quantum systems and analysing quantum data has so far resisted an efficient classical treatment in full generality. While programmable quantum systems have been developed to address this challenge, the resources required for classically intractable problems still lie beyond our reach. In this work, we consider a new target for quantum simulation algorithms; analysing the data arising from physics experiments -- specifically, muon spectroscopy experiments. これらの実験は凝縮物質系に存在する量子相互作用を探索するために用いられる。 しかし、それらの結果を完全に分析するには、シミュレーションされたシステムサイズで指数関数的にスケールする古典的な計算リソースが必要である。 我々は、このタスクが次世代の量子コンピュータに自然に適合することを示します。 我々は,29キュービットまでのシステム上で量子アルゴリズムの古典的エミュレーションを用いて実実験データを分析し,提案に必要な短期的および誤り訂正されたリソースを推定する。 我々のアルゴリズムは、個々のデータポイントをターゲットにするのではなく、適合した曲線からグローバルパラメータを抽出したいという願望から、優れたノイズ耐性を示す。 いくつかの点で、我々の資源推定は、与えられた回路を実行するだけでなく、完全なタスクを解くのに必要なリソースを見積もることによって、量子シミュレーションにおける以前の作業よりもさらに進んでいる。 観測可能な測定のオーバーヘッドを考慮し、複数のデータポイントを考慮すれば、アルゴリズムがミューオン分光データの解析に実用的になる場合、重要な課題が残ることが分かる。

Computational physics is an important tool for analysing, verifying, and -- at times -- replacing physical experiments. Nevertheless, simulating quantum systems and analysing quantum data has so far resisted an efficient classical treatment in full generality. While programmable quantum systems have been developed to address this challenge, the resources required for classically intractable problems still lie beyond our reach. In this work, we consider a new target for quantum simulation algorithms; analysing the data arising from physics experiments -- specifically, muon spectroscopy experiments. These experiments can be used to probe the quantum interactions present in condensed matter systems. However, fully analysing their results can require classical computational resources scaling exponentially with the simulated system size, which can limit our understanding of the studied system. We show that this task may be a natural fit for the coming generations of quantum computers. We use classical emulations of our quantum algorithm on systems of up to 29 qubits to analyse real experimental data, and to estimate both the near-term and error corrected resources required for our proposal. We find that our algorithm exhibits good noise resilience, stemming from our desire to extract global parameters from a fitted curve, rather than targeting any individual data point. In some respects, our resource estimates go further than some prior work in quantum simulation, by estimating the resources required to solve a complete task, rather than just to run a given circuit. Taking the overhead of observable measurement and calculating multiple datapoints into account, we find that significant challenges still remain if our algorithm is to become practical for analysing muon spectroscopy data.
翻訳日:2023-04-21 03:06:25 公開日:2020-12-11
# nambu量子力学における干渉と振動

Interference and Oscillation in Nambu Quantum Mechanics ( http://arxiv.org/abs/2012.06583v1 )

ライセンス: Link先を確認
Djordje Minic, Tatsu Takeuchi, Chia Hsiung Tze(参考訳) Nambu Quantum Mechanics - Physで提案されている。 Lett! B536, 305 (2002) は正準量子力学の変形であり、エネルギー固有状態の「位相」の時間進化のみが修正される。 我々は、この理論が振動現象に与える影響を論じ、大気中ニュートリノ混合角$\theta_{23}$のデータを利用して変形パラメータに境界を置く。

Nambu Quantum Mechanics, proposed in Phys. Lett. B536, 305 (2002), is a deformation of canonical Quantum Mechanics in which only the time-evolution of the "phases" of energy eigenstates is modified. We discuss the effect this theory will have on oscillation phenomena, and place a bound on the deformation parameters utilizing the data on the atmospheric neutrino mixing angle $\theta_{23}$.
翻訳日:2023-04-21 03:06:01 公開日:2020-12-11
# キャビティ量子電磁力学とキラル量子光学

Cavity quantum electrodynamics and chiral quantum optics ( http://arxiv.org/abs/2012.06546v1 )

ライセンス: Link先を確認
Michael Scheucher, J\"urgen Volz, Arno Rauschenbeutel(参考訳) キャビティ量子電磁力学(cqed)は共振器に閉じ込められた光と原子のような粒子の間の相互作用を調べる。 近年、cqed実験が光学領域に到達し、量子情報処理の分野で多くの興味深い応用が行われている。 これらの応用の多くは、光子損失による制限を克服する必要がある。 この文脈では、whispering-gallery mode (WGM) 共振器が大きな関心を集めている。 小さなモード体積と超高品質の他に、キラル光-物質相互作用を引き起こす良好な偏光特性を示す。 本章では,これらのキラル特徴の原点と結果について論じ,この分野における最近の成果を概観する。

Cavity quantum electrodynamics (CQED) investigates the interaction between light confined in a resonator and particles, such as atoms. In recent years, CQED experiments have reached the optical domain resulting in many interesting applications in the realm of quantum information processing. For many of these application it is necessary to overcome limitations imposed by photon loss. In this context whispering-gallery mode (WGM) resonators have obtained significant interest. Besides their small mode volume and their ultra high quality, they also exhibit favorable polarization properties that give rise to chiral light--matter interaction. In this chapter, we will discuss the origin and the consequences of these chiral features and we review recent achievements in this area.
翻訳日:2023-04-21 03:05:33 公開日:2020-12-11
# deepforensics-1.0:実世界の顔偽造検出のための大規模データセット

DeeperForensics-1.0: A Large-Scale Dataset for Real-World Face Forgery Detection ( http://arxiv.org/abs/2001.03024v2 )

ライセンス: Link先を確認
Liming Jiang, Ren Li, Wayne Wu, Chen Qian, Chen Change Loy(参考訳) 顔偽造検出のための大規模なベンチマークを構築するための取り組みについて述べる。 このベンチマークの最初のバージョンであるDeeperForensics-1.0は、これまでで最大の顔偽造検出データセットであり、合計1760万フレームからなる6万のビデオは同じ種類の既存のデータセットの10倍の大きさである。 広汎な現実世界の摂動を適用して、より大きなスケールとより高い多様性のより困難なベンチマークを得る。 DeeperForensics-1.0のすべてのソースビデオは慎重に収集され、新しいエンドツーエンドの顔交換フレームワークによって偽のビデオが生成される。 生成されたビデオの品質は、既存のデータセットよりも優れており、ユーザスタディによって検証される。 このベンチマークには隠れたテストセットがあり、人間の評価において高い認識スコアを達成する操作されたビデオを含んでいる。 さらに、5つの代表検出基準を評価し、異なる設定の詳細な分析を行う包括的研究にも貢献する。

We present our on-going effort of constructing a large-scale benchmark for face forgery detection. The first version of this benchmark, DeeperForensics-1.0, represents the largest face forgery detection dataset by far, with 60,000 videos constituted by a total of 17.6 million frames, 10 times larger than existing datasets of the same kind. Extensive real-world perturbations are applied to obtain a more challenging benchmark of larger scale and higher diversity. All source videos in DeeperForensics-1.0 are carefully collected, and fake videos are generated by a newly proposed end-to-end face swapping framework. The quality of generated videos outperforms those in existing datasets, validated by user studies. The benchmark features a hidden test set, which contains manipulated videos achieving high deceptive scores in human evaluations. We further contribute a comprehensive study that evaluates five representative detection baselines and make a thorough analysis of different settings.
翻訳日:2023-01-13 04:30:10 公開日:2020-12-11
# 機械読解のためのふりかえり読解

Retrospective Reader for Machine Reading Comprehension ( http://arxiv.org/abs/2001.09694v4 )

ライセンス: Link先を確認
Zhuosheng Zhang, Junjie Yang, Hai Zhao(参考訳) machine reading comprehension (mrc)は、与えられた文章に基づいて質問に対する正しい回答を決定するために機械が要求するaiチャレンジである。 mrcシステムは、必要な時に質問に答えるだけでなく、与えられた文に従って回答が得られない場合の区別も行わなければならない。 MRCタスクに未解決の質問が関わる場合、特に検証モジュールと呼ばれる本質的な検証モジュールがエンコーダに加えて必要となるが、MRCモデリングの最新プラクティスは「読み上げ」のみに焦点を当てて、十分に訓練された言語モデルをエンコーダブロックとして採用することの最も大きな利点である。 本稿では, MRC タスクに対して, 解答不能な質問に対して, より良い検証設計を提案する。 人間が理解的な質問を読み解く方法に触発されて、私たちは2段階の読書と検証戦略を統合するふりかえりリーダー(retro-reader)を提案しました。 1) 通訳及び質問の全体的な相互作用を簡潔に調査し,最初の判断を下すスケッチ読み 2) 回答を検証し,最終的な予測を行う集中的な読解。 提案した読者は、SQuAD2.0とNewsQAの2つのベンチマークMCCチャレンジデータセットで評価され、新しい最先端の結果が得られた。 その結果, ELECTRAやALBERTのベースラインよりも, モデルの方がはるかに優れていることがわかった。 また,提案手法の有効性を解析するための一連の分析を行った。

Machine reading comprehension (MRC) is an AI challenge that requires machine to determine the correct answers to questions based on a given passage. MRC systems must not only answer question when necessary but also distinguish when no answer is available according to the given passage and then tactfully abstain from answering. When unanswerable questions are involved in the MRC task, an essential verification module called verifier is especially required in addition to the encoder, though the latest practice on MRC modeling still most benefits from adopting well pre-trained language models as the encoder block by only focusing on the "reading". This paper devotes itself to exploring better verifier design for the MRC task with unanswerable questions. Inspired by how humans solve reading comprehension questions, we proposed a retrospective reader (Retro-Reader) that integrates two stages of reading and verification strategies: 1) sketchy reading that briefly investigates the overall interactions of passage and question, and yield an initial judgment; 2) intensive reading that verifies the answer and gives the final prediction. The proposed reader is evaluated on two benchmark MRC challenge datasets SQuAD2.0 and NewsQA, achieving new state-of-the-art results. Significance tests show that our model is significantly better than the strong ELECTRA and ALBERT baselines. A series of analysis is also conducted to interpret the effectiveness of the proposed reader.
翻訳日:2023-01-06 07:32:15 公開日:2020-12-11
# 精密カメラ内監視者再識別に向けて

Towards Precise Intra-camera Supervised Person Re-identification ( http://arxiv.org/abs/2002.04932v2 )

ライセンス: Link先を確認
Menglin Wang, Baisheng Lai, Haokun Chen, Jianqiang Huang, Xiaojin Gong, Xian-Sheng Hua(参考訳) 人物再識別 (re-id) のためのカメラ内監督 (ics) は、識別ラベルは各カメラビュー内で独立にアノテートされ、カメラ間アイデンティティアソシエーションはラベル付けされないと仮定している。 望ましいRe-ID性能を維持しつつ、アノテーションの負担を軽減するため、最近提案された新しい設定である。 しかし、カメラ間ラベルの欠如により、ICS Re-ID問題は完全な教師付きラベルよりもはるかに難しい。 本稿では,ICSの特性を調べた結果,カメラ固有の非パラメトリック分類器とハイブリット・マイニング・クインタップレットの損失を併用して,カメラ内学習を行う。 そして、グラフベースのID関連ステップとRe-IDモデル更新ステップとからなるカメラ間学習モジュールを実行する。 3つの大規模なRe-IDデータセットに対する大規模な実験により、我々のアプローチは既存のICSの作業よりもはるかに優れています。 われわれの手法は、2つのデータセットで最先端の完全教師付き手法に匹敵する。

Intra-camera supervision (ICS) for person re-identification (Re-ID) assumes that identity labels are independently annotated within each camera view and no inter-camera identity association is labeled. It is a new setting proposed recently to reduce the burden of annotation while expect to maintain desirable Re-ID performance. However, the lack of inter-camera labels makes the ICS Re-ID problem much more challenging than the fully supervised counterpart. By investigating the characteristics of ICS, this paper proposes camera-specific non-parametric classifiers, together with a hybrid mining quintuplet loss, to perform intra-camera learning. Then, an inter-camera learning module consisting of a graph-based ID association step and a Re-ID model updating step is conducted. Extensive experiments on three large-scale Re-ID datasets show that our approach outperforms all existing ICS works by a great margin. Our approach performs even comparable to state-of-the-art fully supervised methods in two of the datasets.
翻訳日:2023-01-01 20:13:57 公開日:2020-12-11
# reward-rational (implicit) choice: 報酬学習のための統一形式

Reward-rational (implicit) choice: A unifying formalism for reward learning ( http://arxiv.org/abs/2002.04833v4 )

ライセンス: Link先を確認
Hong Jun Jeon, Smitha Milli, Anca D. Dragan(参考訳) タスクの正しい報酬関数が何であるかを手作業で特定することが難しい場合が多いため、研究者は人間の行動やフィードバックから報酬機能を学ぶことを目指している。 報酬関数の証拠として解釈される行動の種類は近年大きく拡大している。 デモから比較まで、人間がロボットを押したりオフにしたりしたときにリークした情報を読んだりしました。 そしてもちろん、もっと多くのことが起こるだろう。 ロボットは、こうした多様な振る舞いをどう理解するのか? 私たちの重要な洞察は、異なるタイプの行動は、人間がしばしば暗黙的に行っている報酬-合理的な選択として、単一の統一形式に解釈できるということです。 フォーマリズムは、過去の作品を見るための統一レンズと、まだ発見されていない新しい情報ソースを解釈するためのレシピの両方を提供する。 新たなフィードバックタイプを解釈し、フィードバックの選択自体が報酬に関する情報を漏洩させる方法を読む。

It is often difficult to hand-specify what the correct reward function is for a task, so researchers have instead aimed to learn reward functions from human behavior or feedback. The types of behavior interpreted as evidence of the reward function have expanded greatly in recent years. We've gone from demonstrations, to comparisons, to reading into the information leaked when the human is pushing the robot away or turning it off. And surely, there is more to come. How will a robot make sense of all these diverse types of behavior? Our key insight is that different types of behavior can be interpreted in a single unifying formalism - as a reward-rational choice that the human is making, often implicitly. The formalism offers both a unifying lens with which to view past work, as well as a recipe for interpreting new sources of information that are yet to be uncovered. We provide two examples to showcase this: interpreting a new feedback type, and reading into how the choice of feedback itself leaks information about the reward.
翻訳日:2023-01-01 19:38:46 公開日:2020-12-11
# 条件分布マッチングと一般化ラベルシフトによる領域適応

Domain Adaptation with Conditional Distribution Matching and Generalized Label Shift ( http://arxiv.org/abs/2003.04475v3 )

ライセンス: Link先を確認
Remi Tachet, Han Zhao, Yu-Xiang Wang and Geoff Gordon(参考訳) 逆学習は、教師なし領域適応設定において、ドメイン不変表現を学習することによって、優れた性能を示した。 しかし、最近の研究では、ソースとターゲットドメインのラベル分布が異なる場合、このアプローチの制限が示されている。 本稿では,不整合ラベル分布に対するロバスト性を改善するために,一般化ラベルシフト(gls$)を提案する。 $gls$ は、ラベル上で条件付けされ、ソースドメインとターゲットドメインの間に不変な入力の表現が存在することを述べる。 GLS$で、任意の分類器の転送性能に関する理論的保証を提供する。 また、ドメイン間の相対クラス重みの推定とサンプルの適切な再重み付けを用いて、gls$を保持するための必要十分条件を考案する。 提案手法は,計算オーバーヘッドが小さく,ドメイン不変表現を学習する既存のドメイン適応(da)アルゴリズムにおいて,直接的かつ汎用的に重み付けを行うことができる。 特に,JAN,DANN,CDANの3つのDAアルゴリズムを修正し,その性能を標準および人工DAタスクで評価する。 当社のアルゴリズムはベースバージョンを上回っており、大きなラベルの分布ミスマッチを大幅に改善しています。 私たちのコードはhttps://tinyurl.com/y585xt6jで利用可能です。

Adversarial learning has demonstrated good performance in the unsupervised domain adaptation setting, by learning domain-invariant representations. However, recent work has shown limitations of this approach when label distributions differ between the source and target domains. In this paper, we propose a new assumption, generalized label shift ($GLS$), to improve robustness against mismatched label distributions. $GLS$ states that, conditioned on the label, there exists a representation of the input that is invariant between the source and target domains. Under $GLS$, we provide theoretical guarantees on the transfer performance of any classifier. We also devise necessary and sufficient conditions for $GLS$ to hold, by using an estimation of the relative class weights between domains and an appropriate reweighting of samples. Our weight estimation method could be straightforwardly and generically applied in existing domain adaptation (DA) algorithms that learn domain-invariant representations, with small computational overhead. In particular, we modify three DA algorithms, JAN, DANN and CDAN, and evaluate their performance on standard and artificial DA tasks. Our algorithms outperform the base versions, with vast improvements for large label distribution mismatches. Our code is available at https://tinyurl.com/y585xt6j.
翻訳日:2022-12-24 20:17:04 公開日:2020-12-11
# プログラム意味論グラフを用いたソフトウェア言語理解

Software Language Comprehension using a Program-Derived Semantics Graph ( http://arxiv.org/abs/2004.00768v3 )

ライセンス: Link先を確認
Roshni G. Iyer, Yizhou Sun, Wei Wang, Justin Gottschlich(参考訳) 抽象構文木(AST)やconteXtual flow graph(XFG)といった従来のコード変換構造、より一般的にはコンパイラ中間表現(IR)は、コードから高階のセマンティクスを抽出するのに制限がある。 既に高階セマンティクスの持ち上げ(例えば、aroma's simplified parse tree (spt), verified lifting's lambda calculi, halide's intentional domain specific language (dsl))の作業が始まっているが、この分野の研究はまだ未熟である。 本研究を進展させるため,プログラム由来のセマンティックスグラフ,コードのセマンティクスをキャプチャする新しいグラフィカルな構造を提案する。 PSGは、プログラムセマンティクスを複数の抽象化レベルでキャプチャするための単一の構造を提供するように設計されている。 PSGは、従来の事前定義されたルールセットから構築できず、代わりに学習されなければならない、新しい構造表現のクラスに属するかもしれない。 本稿では,psgと,その基本構造の違いについて述べる。 PSGの探索はまだ初期段階ですが、初期の成果とアーキテクチャ分析から、プログラムのセマンティクスを自動的に抽出する新たな研究方向性が期待できることが示されています。

Traditional code transformation structures, such as abstract syntax trees (ASTs), conteXtual flow graphs (XFGs), and more generally, compiler intermediate representations (IRs), may have limitations in extracting higher-order semantics from code. While work has already begun on higher-order semantics lifting (e.g., Aroma's simplified parse tree (SPT), verified lifting's lambda calculi, and Halide's intentional domain specific language (DSL)), research in this area is still immature. To continue to advance this research, we present the program-derived semantics graph, a new graphical structure to capture semantics of code. The PSG is designed to provide a single structure for capturing program semantics at multiple levels of abstraction. The PSG may be in a class of emerging structural representations that cannot be built from a traditional set of predefined rules and instead must be learned. In this paper, we describe the PSG and its fundamental structural differences compared to state-of-the-art structures. Although our exploration into the PSG is in its infancy, our early results and architectural analysis indicate it is a promising new research direction to automatically extract program semantics.
翻訳日:2022-12-17 13:04:54 公開日:2020-12-11
# 軽量深部畳み込みニューラルネットワークを用いた視覚追跡のための効率的なスケール推定法

Efficient Scale Estimation Methods using Lightweight Deep Convolutional Neural Networks for Visual Tracking ( http://arxiv.org/abs/2004.02933v2 )

ライセンス: Link先を確認
Seyed Mojtaba Marvasti-Zadeh, Hossein Ghanei-Yakhdan, Shohreh Kasaei(参考訳) 近年,識別相関フィルタ(DCF)に基づく視覚追跡手法が注目されている。 しかし、これらの手法の多くは、堅牢なスケール推定スキルの欠如に苦しんでいる。 翻訳モデルでは, 深層畳み込みニューラルネットワーク(CNN)から抽出した特徴を多種多様なDCFベースの手法で利用しているが, 視覚的対象の規模は手作りの特徴によって推定されている。 cnnsの活用には高い計算負荷がかかるが,本稿では,事前学習した軽量cnnsモデルを用いて,視覚追跡性能の向上だけでなく,許容可能な追従速度を提供する2つの効率的なスケール推定法を提案する。 提案手法は、畳み込み特徴写像の全体的あるいは地域的表現に基づいて定式化され、DCF定式化に効率的に統合され、周波数領域のロバストスケールモデルを学ぶ。 さらに,異なる対象領域の反復的特徴抽出を用いた従来のスケール推定手法に対して,計算効率を大幅に向上させる1パス特徴抽出法を提案する。 OTB-50, OTB-100, TC-128, VOT-2018 の視覚追跡データセットに関する総合的な実験結果から,提案手法が最先端の手法を効果的に上回ることを示す。

In recent years, visual tracking methods that are based on discriminative correlation filters (DCF) have been very promising. However, most of these methods suffer from a lack of robust scale estimation skills. Although a wide range of recent DCF-based methods exploit the features that are extracted from deep convolutional neural networks (CNNs) in their translation model, the scale of the visual target is still estimated by hand-crafted features. Whereas the exploitation of CNNs imposes a high computational burden, this paper exploits pre-trained lightweight CNNs models to propose two efficient scale estimation methods, which not only improve the visual tracking performance but also provide acceptable tracking speeds. The proposed methods are formulated based on either holistic or region representation of convolutional feature maps to efficiently integrate into DCF formulations to learn a robust scale model in the frequency domain. Moreover, against the conventional scale estimation methods with iterative feature extraction of different target regions, the proposed methods exploit proposed one-pass feature extraction processes that significantly improve the computational efficiency. Comprehensive experimental results on the OTB-50, OTB-100, TC-128 and VOT-2018 visual tracking datasets demonstrate that the proposed visual tracking methods outperform the state-of-the-art methods, effectively.
翻訳日:2022-12-16 06:29:33 公開日:2020-12-11
# ベンチマークによる新しいグラフ的曲げ変換

A Novel Graphic Bending Transformation on Benchmark ( http://arxiv.org/abs/2004.10042v2 )

ライセンス: Link先を確認
Chunxiuzi Liu and Fengyang Sun and Qingrui Ni and Lin Wang and Bo Yang(参考訳) 古典的なベンチマーク問題は、例えば反中心効果のシフトや反次元感度の回転といった最適化の難しさを高めるために、複数の変換技術を利用する。 しかし、変換不変性をテストするにもかかわらず、そのような操作はランドスケープの「形」を変えるのではなく、むしろ「視点」を変える。 例えば、回転した後、悪条件問題は向きの点で向きを変えられるが、それでも比例成分を保ち、ある程度最適化において大きな障害を生じさせない。 本稿では,画像処理から着想を得たベンチマーク問題に対する新しい図形等角写像変換を行い,関数形状を変形させる。 屈曲操作は関数の基本特性を変化させない、例えば、一様関数は屈曲後のユニモダリティをほぼ維持できるが、探索空間における興味のある領域の形状を変更することができる。 実験では、同じオプティマイザが、ローテーションバージョンよりも検索予算を増やし、共形曲がり関数により多くの障害に遭遇することを示している。 提案する関数のパラメータも解析して,進化的アルゴリズムの性能感受性を明らかにする。

Classical benchmark problems utilize multiple transformation techniques to increase optimization difficulty, e.g., shift for anti centering effect and rotation for anti dimension sensitivity. Despite testing the transformation invariance, however, such operations do not really change the landscape's "shape", but rather than change the "view point". For instance, after rotated, ill conditional problems are turned around in terms of orientation but still keep proportional components, which, to some extent, does not create much obstacle in optimization. In this paper, inspired from image processing, we investigate a novel graphic conformal mapping transformation on benchmark problems to deform the function shape. The bending operation does not alter the function basic properties, e.g., a unimodal function can almost maintain its unimodality after bent, but can modify the shape of interested area in the search space. Experiments indicate the same optimizer spends more search budget and encounter more failures on the conformal bent functions than the rotated version. Several parameters of the proposed function are also analyzed to reveal performance sensitivity of the evolutionary algorithms.
翻訳日:2022-12-11 06:20:59 公開日:2020-12-11
# 同期=翻訳等価性

Synonymy = Translational Equivalence ( http://arxiv.org/abs/2004.13886v2 )

ライセンス: Link先を確認
Bradley Hauer, Grzegorz Kondrak(参考訳) 同義語と翻訳同値(translational equivalence)は、言語内および言語間の意味の同一性の関係である。 ワードネットやマルチワードネットの主要な関係として、それらは計算語彙意味論に不可欠であるが、この分野にはそれらの特性と関係を定義する共通の形式的枠組みが存在しない。 本稿では,これら2つの関係を統一的に扱う方法を提案し,既存の資源実験により検証する。 我々の見解では、同義語と翻訳的同値性は単に意味的アイデンティティの異なるタイプである。 この理論は、言語間意味論における先行研究を批判的に再評価し、語彙資源の作成、検証、改善を促進するための確かな基礎を確立している。

Synonymy and translational equivalence are the relations of sameness of meaning within and across languages. As the principal relations in wordnets and multi-wordnets, they are vital to computational lexical semantics, yet the field suffers from the absence of a common formal framework to define their properties and relationship. This paper proposes a unifying treatment of these two relations, which is validated by experiments on existing resources. In our view, synonymy and translational equivalence are simply different types of semantic identity. The theory establishes a solid foundation for critically re-evaluating prior work in cross-lingual semantics, and facilitating the creation, verification, and amelioration of lexical resources.
翻訳日:2022-12-08 23:07:40 公開日:2020-12-11
# PreCNet:予測符号化に基づく次のフレームビデオ予測

PreCNet: Next Frame Video Prediction Based on Predictive Coding ( http://arxiv.org/abs/2004.14878v2 )

ライセンス: Link先を確認
Zdenek Straka, Tomas Svoboda, Matej Hoffmann(参考訳) 現在、神経科学において非常に影響力のある理論である予測符号化は、機械学習にはまだ広く採用されていない。 本研究では,Rao と Ballard (1999) のセミナルモデルを,元のスキーマに忠実なままながら,現代的なディープラーニングフレームワークに変換する。 提案するネットワーク(precnet)は,車載カメラから撮影された都市環境からの映像から構成した,広範に使用されるnext frame video predictionベンチマークを用いてテストを行った。 このベンチマーク(トレーニング:kittiデータセットからの41kイメージ;テスト:caltech pedestrianデータセット)では、構造的類似性指標(ssim)で測定した場合、これまでで最高のパフォーマンスを達成できます。 KITTIトレーニングセットの制限を指摘して,トレーニングセットを大きくした(BDD100kから2Mイメージ)ことで,すべての指標のパフォーマンスがさらに向上した。 この研究は、神経科学モデルに基づくアーキテクチャが、手作業に合わせて明示的に調整されることなく、前例のない性能を示すことを示した。

Predictive coding, currently a highly influential theory in neuroscience, has not been widely adopted in machine learning yet. In this work, we transform the seminal model of Rao and Ballard (1999) into a modern deep learning framework while remaining maximally faithful to the original schema. The resulting network we propose (PreCNet) is tested on a widely used next frame video prediction benchmark, which consists of images from an urban environment recorded from a car-mounted camera. On this benchmark (training: 41k images from KITTI dataset; testing: Caltech Pedestrian dataset), we achieve to our knowledge the best performance to date when measured with the Structural Similarity Index (SSIM). Performance on all measures was further improved when a larger training set (2M images from BDD100k), pointing to the limitations of the KITTI training set. This work demonstrates that an architecture carefully based in a neuroscience model, without being explicitly tailored to the task at hand, can exhibit unprecedented performance.
翻訳日:2022-12-08 02:46:42 公開日:2020-12-11
# 非ガウジアンレヴィ雑音を用いた確率力学系発見のためのデータ駆動アプローチ

A Data-Driven Approach for Discovering Stochastic Dynamical Systems with Non-Gaussian Levy Noise ( http://arxiv.org/abs/2005.03769v2 )

ライセンス: Link先を確認
Yang Li and Jinqiao Duan(参考訳) 複雑なシステムの貴重な観測、実験、シミュレーションデータの増加に伴い、これらのシステムの進化の根底にある統治法則の発見に多大な努力が注がれている。 しかし、既存の手法は、決定論的微分方程式またはガウスノイズを持つ確率微分方程式としてデータから規則を抽出することに限定されている。 本研究では,非ガウシアン対称l\'evyノイズとガウシアンノイズを持つ確率力学系を抽出するための新しいデータ駆動手法を開発した。 まず,基礎となる確率力学系に対するドリフト係数,拡散係数,ジャンプ測度(異常拡散)をサンプルパスデータの観点から表現し,実現可能な理論的枠組みを確立する。 次に, ドリフト, 拡散係数, ジャンプ測度を計算する数値アルゴリズムを設計し, ガウス雑音および非ガウス雑音を伴う支配的確率微分方程式を抽出する。 最後に, 試作1次元, 2次元, 3次元システムに適用することにより, 提案手法の有効性と精度を示す。 この新しい手法は、ノイズの多いデータセットからランダムな揺らぎや軽い尾の統計的特徴によって引き起こされる稀な事象などの複雑な現象を観察またはシミュレートすることから、動的法則を発見できるツールとなる。

With the rapid increase of valuable observational, experimental and simulating data for complex systems, great efforts are being devoted to discovering governing laws underlying the evolution of these systems. However, the existing techniques are limited to extract governing laws from data as either deterministic differential equations or stochastic differential equations with Gaussian noise. In the present work, we develop a new data-driven approach to extract stochastic dynamical systems with non-Gaussian symmetric L\'evy noise, as well as Gaussian noise. First, we establish a feasible theoretical framework, by expressing the drift coefficient, diffusion coefficient and jump measure (i.e., anomalous diffusion) for the underlying stochastic dynamical system in terms of sample paths data. We then design a numerical algorithm to compute the drift, diffusion coefficient and jump measure, and thus extract a governing stochastic differential equation with Gaussian and non-Gaussian noise. Finally, we demonstrate the efficacy and accuracy of our approach by applying to several prototypical one-, two- and three-dimensional systems. This new approach will become a tool in discovering governing dynamical laws from noisy data sets, from observing or simulating complex phenomena, such as rare events triggered by random fluctuations with heavy as well as light tail statistical features.
翻訳日:2022-12-05 23:06:55 公開日:2020-12-11
# 長期カスタマイズアレルギーシーズン予測のための多変量トリプル回帰予測アルゴリズム

A Multi-Variate Triple-Regression Forecasting Algorithm for Long-Term Customized Allergy Season Prediction ( http://arxiv.org/abs/2005.04557v3 )

ライセンス: Link先を確認
Xiaoyu Wu, Zeyu Bai, Jianguo Jia, Youzhi Liang(参考訳) 本稿では,3重回帰法を用いて,長期にわたり各患者にカスタマイズ可能な気腫アレルギーシーズンを予測できる新しい多変量アルゴリズムを提案する。 予測精度を向上させるために,まず,気象データなどの他の共変量からの花粉濃度と各種推定信号の履歴データを統合する前処理を行う。 We then propose a novel algorithm which encompasses three-stage regressions: in Stage 1, a regression model to predict the start/end date of a airborne-pollen allergy season is trained from a feature matrix extracted from 12 time series of the covariates with a rolling window; in Stage 2, a regression model to predict the corresponding uncertainty is trained based on the feature matrix and the prediction result from Stage 1; in Stage 3, a weighted linear regression model is built upon prediction results from Stage 1 and 2. その結果,ステージ3は予測精度の向上と多変量三回帰アルゴリズムの不確かさの低減に寄与することが確認された。 アレルギー感受性の異なるレベルに基づいて、花粉のトリガー濃度 - アレルギーシーズンの定義を個別にカスタマイズすることができる。 バックテストでは,平均絶対誤差(MAE)は4.7日であった。 このアルゴリズムは一般予測問題と長期予測問題の両方に適用可能であると結論づけた。

In this paper, we propose a novel multi-variate algorithm using a triple-regression methodology to predict the airborne-pollen allergy season that can be customized for each patient in the long term. To improve the prediction accuracy, we first perform a pre-processing to integrate the historical data of pollen concentration and various inferential signals from other covariates such as the meteorological data. We then propose a novel algorithm which encompasses three-stage regressions: in Stage 1, a regression model to predict the start/end date of a airborne-pollen allergy season is trained from a feature matrix extracted from 12 time series of the covariates with a rolling window; in Stage 2, a regression model to predict the corresponding uncertainty is trained based on the feature matrix and the prediction result from Stage 1; in Stage 3, a weighted linear regression model is built upon prediction results from Stage 1 and 2. It is observed and proved that Stage 3 contributes to the improved forecasting accuracy and the reduced uncertainty of the multi-variate triple-regression algorithm. Based on different allergy sensitivity level, the triggering concentration of the pollen - the definition of the allergy season can be customized individually. In our backtesting, a mean absolute error (MAE) of 4.7 days was achieved using the algorithm. We conclude that this algorithm could be applicable in both generic and long-term forecasting problems.
翻訳日:2022-12-05 01:38:14 公開日:2020-12-11
# 逆G-ウィッシュアート分布と変分メッセージパッシング

The Inverse G-Wishart Distribution and Variational Message Passing ( http://arxiv.org/abs/2005.09876v3 )

ライセンス: Link先を確認
L. Maestrini and M.P. Wand(参考訳) 因子グラフ上のメッセージパッシングは、任意のグラフィカルな大モデルに対する近似推論アルゴリズムのコーディングのための強力なパラダイムである。 因子グラフフラグメントの概念は、代数とコンピュータコードの区画化を可能にする。 Inverse G-Wishart family of distributionsにより、基本的な変動メッセージパッシング係数グラフの断片をエレガントかつ簡潔に表現できることが示されている。 このような断片は共分散行列や分散パラメータに関する近似推論が作成されるモデルに現れ、現代の統計学や機械学習においてユビキタスである。

Message passing on a factor graph is a powerful paradigm for the coding of approximate inference algorithms for arbitrarily graphical large models. The notion of a factor graph fragment allows for compartmentalization of algebra and computer code. We show that the Inverse G-Wishart family of distributions enables fundamental variational message passing factor graph fragments to be expressed elegantly and succinctly. Such fragments arise in models for which approximate inference concerning covariance matrix or variance parameters is made, and are ubiquitous in contemporary statistics and machine learning.
翻訳日:2022-12-01 04:46:47 公開日:2020-12-11
# 画像転送学習に基づく機械音の音響異常検出

Acoustic Anomaly Detection for Machine Sounds based on Image Transfer Learning ( http://arxiv.org/abs/2006.03429v2 )

ライセンス: Link先を確認
Robert M\"uller, Fabian Ritz, Steffen Illium and Claudia Linnhoff-Popien(参考訳) 産業応用においては、故障する工場機械の早期検出が重要である。 本稿では,トランスファー学習による音響異常検出について検討する。 ディープオートエンコーダに基づく現在のアプローチの多くとは対照的に,画像分類のタスクで事前学習されたニューラルネットワークを用いた特徴抽出を提案する。 次に,これらの特徴を用いて様々な異常検出モデルを訓練し,雑音環境における4台の異なるファクトリーマシンの記録における畳み込みオートエンコーダと比較して,結果が向上することを示す。 さらに,resnet ベースのネットワークから抽出した機能は alexnet や squeezenet よりも優れた結果が得られることがわかった。 我々の設定では、ガウス混合モデルとワンクラスサポートベクトルマシンが最高の異常検出性能を達成する。

In industrial applications, the early detection of malfunctioning factory machinery is crucial. In this paper, we consider acoustic malfunction detection via transfer learning. Contrary to the majority of current approaches which are based on deep autoencoders, we propose to extract features using neural networks that were pretrained on the task of image classification. We then use these features to train a variety of anomaly detection models and show that this improves results compared to convolutional autoencoders in recordings of four different factory machines in noisy environments. Moreover, we find that features extracted from ResNet based networks yield better results than those from AlexNet and Squeezenet. In our setting, Gaussian Mixture Models and One-Class Support Vector Machines achieve the best anomaly detection performance.
翻訳日:2022-11-25 03:44:44 公開日:2020-12-11
# 多自由度生成型深層学習乱流

Multi-fidelity Generative Deep Learning Turbulent Flows ( http://arxiv.org/abs/2006.04731v2 )

ライセンス: Link先を確認
Nicholas Geneva, Nicholas Zabaras(参考訳) 計算流体力学では、精度と計算コストの間に必然的なトレードオフがある。 本研究では,計算コストが安価だが不正確な低忠実度解法の解法により,高忠実度乱流場の代理モデルとして,新しい多忠実度深部生成モデルを提案する。 結果として生じるサーロゲートは、高忠実度シミュレーションよりも低い計算コストで物理的に正確な乱流実現を生成することができる。 深層生成モデルは、正規化フローで構築された条件付き非可逆ニューラルネットワークで、LSTM接続を繰り返すことで、予測精度の高い過渡システムの安定したトレーニングを可能にする。 このモデルは、データ駆動学習と物理制約学習の両方を組み合わせた変分損失で訓練される。 この深い生成モデルは、異なるレイノルズ数における後方向きのステップ上の乱流流やブラフ体の配列の後ろの乱流後流など、ナビエ・ストークス方程式によって支配される非自明な高レイノルズ数流に適用される。 どちらの例でも、このモデルは安価で低忠実度溶液に条件付きで物理的に正確な乱流を生成することができる。

In computational fluid dynamics, there is an inevitable trade off between accuracy and computational cost. In this work, a novel multi-fidelity deep generative model is introduced for the surrogate modeling of high-fidelity turbulent flow fields given the solution of a computationally inexpensive but inaccurate low-fidelity solver. The resulting surrogate is able to generate physically accurate turbulent realizations at a computational cost magnitudes lower than that of a high-fidelity simulation. The deep generative model developed is a conditional invertible neural network, built with normalizing flows, with recurrent LSTM connections that allow for stable training of transient systems with high predictive accuracy. The model is trained with a variational loss that combines both data-driven and physics-constrained learning. This deep generative model is applied to non-trivial high Reynolds number flows governed by the Navier-Stokes equations including turbulent flow over a backwards facing step at different Reynolds numbers and turbulent wake behind an array of bluff bodies. For both of these examples, the model is able to generate unique yet physically accurate turbulent fluid flows conditioned on an inexpensive low-fidelity solution.
翻訳日:2022-11-24 02:44:46 公開日:2020-12-11
# モダンなディープラーニングタスクとアーキテクチャへの直接フィードバックアライメント尺度

Direct Feedback Alignment Scales to Modern Deep Learning Tasks and Architectures ( http://arxiv.org/abs/2006.12878v2 )

ライセンス: Link先を確認
Julien Launay, Iacopo Poli, Fran\c{c}ois Boniface, Florent Krzakala(参考訳) ディープラーニングのワークホースであるにも関わらず、バックプロパゲーションアルゴリズムはpanaceaではない。 シーケンシャルなレイヤ更新を実施することで、トレーニングプロセスの効率的な並列化を防止する。 さらに、生物学的な可能性にも疑問が呈されている。 代替スキームが考案されたが、シナプス非対称性の制約の下では、現代のディープラーニングタスクやアーキテクチャには拡張されていない。 本稿では,この視点に挑戦し,ニューラルビュー合成,レコメンダシステム,幾何学学習,自然言語処理への直接フィードバックアライメントの適用性について検討する。 コンピュータビジョンのタスクに限定されたこれまでの研究とは対照的に,最先端のディープラーニングアーキテクチャのトレーニングに成功し,パフォーマンスは微調整されたバックプロパゲーションに近いことが判明した。 共通の信念と異なり、我々の仕事は、重量輸送がない場合に挑戦的なタスクに取り組むことができることを支持しています。

Despite being the workhorse of deep learning, the backpropagation algorithm is no panacea. It enforces sequential layer updates, thus preventing efficient parallelization of the training process. Furthermore, its biological plausibility is being challenged. Alternative schemes have been devised; yet, under the constraint of synaptic asymmetry, none have scaled to modern deep learning tasks and architectures. Here, we challenge this perspective, and study the applicability of Direct Feedback Alignment to neural view synthesis, recommender systems, geometric learning, and natural language processing. In contrast with previous studies limited to computer vision tasks, our findings show that it successfully trains a large range of state-of-the-art deep learning architectures, with performance close to fine-tuned backpropagation. At variance with common beliefs, our work supports that challenging tasks can be tackled in the absence of weight transport.
翻訳日:2022-11-17 21:24:26 公開日:2020-12-11
# CheXPhoto:1万枚以上の胸部X線写真と変換による深層学習ロバストネスのベンチマーク

CheXphoto: 10,000+ Photos and Transformations of Chest X-rays for Benchmarking Deep Learning Robustness ( http://arxiv.org/abs/2007.06199v2 )

ライセンス: Link先を確認
Nick A. Phillips, Pranav Rajpurkar, Mark Sabini, Rayan Krishnan, Sharon Zhou, Anuj Pareek, Nguyet Minh Phu, Chris Wang, Mudit Jain, Nguyen Duong Du, Steven QH Truong, Andrew Y. Ng, Matthew P. Lungren(参考訳) 胸部x線解釈のためのディープラーニングアルゴリズムの臨床展開には、世界中の幅広い臨床ワークフローに統合可能なソリューションが必要である。 スケールされたデプロイメントに対する魅力的なアプローチは、WhatsAppのようなメッセージングサービスを使って、X線の写真を撮って臨床医と共有することで、スマートフォンのユビキティを活用することだ。 しかし、胸部X線アルゴリズムを胸部X線写真に適用するには、機械学習モデルのトレーニングに使用されるデジタルX線では通常遭遇しないアーティファクトの存在を確実に分類する必要がある。 スマートフォン写真とCheXpertデータセットから採取した胸部X線の合成写真変換のデータセットであるCheXphotoを紹介した。 CheX Photo を生成するためには,(1) 異なる設定でデジタルX線を自動かつ手動で撮影し,(2) デジタルX線とX線フィルムのように見えるようにするためのデジタルX線を合成変換する。 我々はこのデータセットを,胸部X線写真の自動解釈のためのディープラーニングアルゴリズムの堅牢性をテストするためのリソースとしてリリースする。

Clinical deployment of deep learning algorithms for chest x-ray interpretation requires a solution that can integrate into the vast spectrum of clinical workflows across the world. An appealing approach to scaled deployment is to leverage the ubiquity of smartphones by capturing photos of x-rays to share with clinicians using messaging services like WhatsApp. However, the application of chest x-ray algorithms to photos of chest x-rays requires reliable classification in the presence of artifacts not typically encountered in digital x-rays used to train machine learning models. We introduce CheXphoto, a dataset of smartphone photos and synthetic photographic transformations of chest x-rays sampled from the CheXpert dataset. To generate CheXphoto we (1) automatically and manually captured photos of digital x-rays under different settings, and (2) generated synthetic transformations of digital x-rays targeted to make them look like photos of digital x-rays and x-ray films. We release this dataset as a resource for testing and improving the robustness of deep learning algorithms for automated chest x-ray interpretation on smartphone photos of chest x-rays.
翻訳日:2022-11-10 23:40:40 公開日:2020-12-11
# MFRNet: 後処理とインループフィルタリングのための新しいCNNアーキテクチャ

MFRNet: A New CNN Architecture for Post-Processing and In-loop Filtering ( http://arxiv.org/abs/2007.07099v2 )

ライセンス: Link先を確認
Di Ma, Fan Zhang, and David R. Bull(参考訳) 本稿では,ビデオ圧縮における後処理 (PP) とインループフィルタリング (ILF) のための新しい畳み込みニューラルネットワーク (CNN) アーキテクチャ MFRNet を提案する。 このネットワークは、カスケード構造を用いて接続される4つのmfrb(multi-level feature review residual dense blocks)で構成される。 各MFRBは、密接な接続と多レベル残差学習構造を用いて、複数の畳み込み層から特徴を抽出する。 これらのブロック間の情報フローをさらに改善するために、それぞれが以前のmfrbから高次元の特徴を再利用する。 このネットワークはHEVC (HM 16.20) とVVC (VTM 7.0) の両方のPPとILFのコーディングモジュールに統合され、ランダムアクセス構成を用いてJVET共通テスト条件で完全に評価されている。 実験の結果、アンカーコーデック(HEVC HMとVVC VTM)と、Bjontegaard Delta測定に基づく既存のCNNベースのPP/ILFアプローチの両方に対して、PSNRとVMAFの両方を用いて品質評価を行った。 MFRNetをHM 16.20に統合すると、ILFでは最大16.0%(BDレートVMAF)、PPでは最大21.0%(BDレートVMAF)となる。 VTM 7.0のそれぞれの利得は、ILFでは5.1%、PPでは7.1%である。

In this paper, we propose a novel convolutional neural network (CNN) architecture, MFRNet, for post-processing (PP) and in-loop filtering (ILF) in the context of video compression. This network consists of four Multi-level Feature review Residual dense Blocks (MFRBs), which are connected using a cascading structure. Each MFRB extracts features from multiple convolutional layers using dense connections and a multi-level residual learning structure. In order to further improve information flow between these blocks, each of them also reuses high dimensional features from the previous MFRB. This network has been integrated into PP and ILF coding modules for both HEVC (HM 16.20) and VVC (VTM 7.0), and fully evaluated under the JVET Common Test Conditions using the Random Access configuration. The experimental results show significant and consistent coding gains over both anchor codecs (HEVC HM and VVC VTM) and also over other existing CNN-based PP/ILF approaches based on Bjontegaard Delta measurements using both PSNR and VMAF for quality assessment. When MFRNet is integrated into HM 16.20, gains up to 16.0% (BD-rate VMAF) are demonstrated for ILF, and up to 21.0% (BD-rate VMAF) for PP. The respective gains for VTM 7.0 are up to 5.1% for ILF and up to 7.1% for PP.
翻訳日:2022-11-10 14:23:51 公開日:2020-12-11
# 人間-AIコラボレーションの将来動向:多元知と学習スタイルを用いたAI/AGIの総合分類

Future Trends for Human-AI Collaboration: A Comprehensive Taxonomy of AI/AGI Using Multiple Intelligences and Learning Styles ( http://arxiv.org/abs/2008.04793v4 )

ライセンス: Link先を確認
Andrzej Cichocki and Alexander P. Kuleshov(参考訳) 本稿では、複雑な顔と異なる種類の人間の知能、特に社会的、感情的、注意的、倫理的知能に関連する、次世代の人工知能(AGI)システムの開発動向と概念について論じる。 複数の人間の知性と学習スタイルのさまざまな側面を説明し、さまざまなAI問題領域に影響を与える可能性がある。 一種類の知能というよりもむしろ「複数知能」という概念を用いて、認知能力や能力に応じて様々なAGIの動作定義を分類し、提供する。 未来のAIシステムは、人間のユーザや互いにコミュニケーションするだけでなく、知識と知恵をコラボレーションやコラボレーションの能力と効率的に交換し、新しい価値あるものを作り、メタ学習能力を持つものを作ることもできる。 このようなマルチエージェントシステムは、個々のインテリジェントエージェントによって解決が難しい問題を解決するために使用できる。 キーワード:人工知能(AGI)、複数の知性、学習スタイル、物理的知性、感情的知性、社会知性、注意的知性、道徳的倫理的知性、責任ある意思決定、創造的革新的知性、認知機能、AIシステムのメタラーニング。

This article discusses some trends and concepts in developing new generation of future Artificial General Intelligence (AGI) systems which relate to complex facets and different types of human intelligence, especially social, emotional, attentional and ethical intelligence. We describe various aspects of multiple human intelligences and learning styles, which may impact on a variety of AI problem domains. Using the concept of 'multiple intelligences' rather than a single type of intelligence, we categorize and provide working definitions of various AGI depending on their cognitive skills or capacities. Future AI systems will be able not only to communicate with human users and each other, but also to efficiently exchange knowledge and wisdom with abilities of cooperation, collaboration and even co-creating something new and valuable and have meta-learning capacities. Multi-agent systems such as these can be used to solve problems that would be difficult to solve by any individual intelligent agent. Key words: Artificial General Intelligence (AGI), multiple intelligences, learning styles, physical intelligence, emotional intelligence, social intelligence, attentional intelligence, moral-ethical intelligence, responsible decision making, creative-innovative intelligence, cognitive functions, meta-learning of AI systems.
翻訳日:2022-11-02 01:31:56 公開日:2020-12-11
# より優れた道路ポトホール検出を学習する:注意集約から対向領域適応へ

We Learn Better Road Pothole Detection: from Attention Aggregation to Adversarial Domain Adaptation ( http://arxiv.org/abs/2008.06840v2 )

ライセンス: Link先を確認
Rui Fan, Hengli Wang, Mohammud J. Bocus, Ming Liu(参考訳) 認定検査官による手動の視覚検査は依然として道路の穴検出の主形態である。 しかし、このプロセスは退屈で時間がかかり、コストがかかるだけでなく、検査官にとっても危険である。 さらに,道路孔検出結果は個々の経験に依存しているため,常に主観的である。 最近導入したdisparity(または逆深さ)変換アルゴリズムは、損傷した道路エリアと損傷のない道路エリアの識別性を高め、道路ポットホール検出結果を改善するために、任意のセマンティックセグメンテーションネットワークに容易にデプロイできる。 性能を向上させるために,異なる種類の注意モジュールの利点を生かした新しい注意集約(AA)フレームワークを提案する。 さらに,合成道路rgb画像と変換された道路差(または逆深度)画像を生成し,意味的セグメンテーションネットワークの訓練を強化する,逆領域適応に基づく効果的な訓練セット拡張手法を開発した。 The experimental results demonstrate that, firstly, the transformed disparity (or inverse depth) images become more informative; secondly, AA-UNet and AA-RTFNet, our best performing implementations, respectively outperform all other state-of-the-art single-modal and data-fusion networks for road pothole detection; and finally, the training set augmentation technique based on adversarial domain adaptation not only improves the accuracy of the state-of-the-art semantic segmentation networks, but also accelerates their convergence.

Manual visual inspection performed by certified inspectors is still the main form of road pothole detection. This process is, however, not only tedious, time-consuming and costly, but also dangerous for the inspectors. Furthermore, the road pothole detection results are always subjective, because they depend entirely on the individual experience. Our recently introduced disparity (or inverse depth) transformation algorithm allows better discrimination between damaged and undamaged road areas, and it can be easily deployed to any semantic segmentation network for better road pothole detection results. To boost the performance, we propose a novel attention aggregation (AA) framework, which takes the advantages of different types of attention modules. In addition, we develop an effective training set augmentation technique based on adversarial domain adaptation, where the synthetic road RGB images and transformed road disparity (or inverse depth) images are generated to enhance the training of semantic segmentation networks. The experimental results demonstrate that, firstly, the transformed disparity (or inverse depth) images become more informative; secondly, AA-UNet and AA-RTFNet, our best performing implementations, respectively outperform all other state-of-the-art single-modal and data-fusion networks for road pothole detection; and finally, the training set augmentation technique based on adversarial domain adaptation not only improves the accuracy of the state-of-the-art semantic segmentation networks, but also accelerates their convergence.
翻訳日:2022-10-28 11:59:26 公開日:2020-12-11
# Attr2Style:アパレル属性によるファッションスタイル推論のための伝達学習アプローチ

Attr2Style: A Transfer Learning Approach for Inferring Fashion Styles via Apparel Attributes ( http://arxiv.org/abs/2008.11662v2 )

ライセンス: Link先を確認
Rajdeep Hazra Banerjee, Abhinav Ravi, Ujjal Kr Dutta(参考訳) 人気のファッションeコマースプラットフォームは、主に製品の詳細ページにアパレル(ネックタイプ、ドレスの長さ、カラータイプなど)の低レベル属性の詳細を提供する。 しかし、客は通常、スタイル情報に基づいてアパレルを購入することを好むか、単に機会(パーティー、スポーツ、カジュアルウェアなど)を置く。 教師付き画像キャプションモデルのスタイルベース画像キャプション生成への応用は,スタイルベースキャプションの形式による地味なアノテーションの獲得が困難であるため,制限されている。 これは、アノテートスタイルに基づくキャプションには、一定の量のファッションドメインの専門知識が必要であり、コストや手作業も追加されるためである。 逆に低レベルの属性ベースのアノテーションは、ずっと簡単に利用できる。 この問題に対処するために,我々は,十分な属性に基づく基底キャプションを持つソースデータセット上で学習し,対象データセット上のスタイルに基づくキャプションを予測するためのトランスファーラーニングベースのキャプションモデルを提案する。 ターゲットデータセットは、スタイルベースの接地構文キャプションを備えた限られた量の画像しか持たない。 私たちのアプローチの主な動機は、ほとんどの場合、アパレルの低レベルの属性と高レベルのスタイルの間に相関関係があることにあります。 我々は、この事実を利用して、注意機構を用いたエンコーダ・デコーダベースのフレームワークでモデルをトレーニングする。 特に、モデルのエンコーダは、まずソースデータセットでトレーニングされ、低レベルの属性をキャプチャする潜在表現を取得する。 トレーニングされたモデルは、ターゲットデータセットのスタイルベースのキャプションを生成するように微調整される。 本手法の有効性を強調するため,本手法で生成したキャプションが,評価されたアパレルの実際のスタイル情報に近いことを定量的に定量的に示す。 私たちのモデルのための概念実証は、Myntraのパイロットで、一部の内部ユーザからフィードバックを受けています。

Popular fashion e-commerce platforms mostly provide details about low-level attributes of an apparel (eg, neck type, dress length, collar type) on their product detail pages. However, customers usually prefer to buy apparel based on their style information, or simply put, occasion (eg, party/ sports/ casual wear). Application of a supervised image-captioning model to generate style-based image captions is limited because obtaining ground-truth annotations in the form of style-based captions is difficult. This is because annotating style-based captions requires a certain amount of fashion domain expertise, and also adds to the costs and manual effort. On the contrary, low-level attribute based annotations are much more easily available. To address this issue, we propose a transfer-learning based image captioning model that is trained on a source dataset with sufficient attribute-based ground-truth captions, and used to predict style-based captions on a target dataset. The target dataset has only a limited amount of images with style-based ground-truth captions. The main motivation of our approach comes from the fact that most often there are correlations among the low-level attributes and the higher-level styles for an apparel. We leverage this fact and train our model in an encoder-decoder based framework using attention mechanism. In particular, the encoder of the model is first trained on the source dataset to obtain latent representations capturing the low-level attributes. The trained model is fine-tuned to generate style-based captions for the target dataset. To highlight the effectiveness of our method, we qualitatively and quantitatively demonstrate that the captions generated by our approach are close to the actual style information for the evaluated apparel. A Proof Of Concept for our model is under pilot at Myntra where it is exposed to some internal users for feedback.
翻訳日:2022-10-24 21:45:54 公開日:2020-12-11
# 暗黙的なフィードバック 深層協調フィルタリング製品推薦システム

Implicit Feedback Deep Collaborative Filtering Product Recommendation System ( http://arxiv.org/abs/2009.08950v2 )

ライセンス: Link先を確認
Karthik Raja Kalaiselvi Bhaskar, Deepa Kundur, Yuri Lawryshyn(参考訳) 本稿では,ユーザ・項目間インタラクションを用いて,顧客購買行動の希少な部分の隠れた変化を捉えるために,潜伏可変手法を用いたcf手法をいくつか検討した。 潜在要因は、顧客の購買パターンの一般化と製品のレコメンデーションの提供に使用される。 大規模部品供給会社が提供する実世界のプロプライエタリデータセットにおいて,神経協調フィルタリング(neural collaborative filter, ncf)を用いたcfが,最大値の正規化ディスカウント累積ゲイン(ndcg)性能を示した。 CFフレームワークの適用性について、ベイズ最適化(BO)を用いて異なるハイパーパラメータを試験した。 クリックデータやクリックスルーレート(CTR)のようなメトリクスといった外部データソースは、提示された作業の拡張の可能性についてレビューされた。 本論文では、収益の向上、新規顧客獲得、競合相手に対する優位性獲得のために、企業が製品レコメンデーションに利用できる技術を提供する。

In this paper, several Collaborative Filtering (CF) approaches with latent variable methods were studied using user-item interactions to capture important hidden variations of the sparse customer purchasing behaviours. The latent factors are used to generalize the purchasing pattern of the customers and to provide product recommendations. CF with Neural Collaborative Filtering(NCF) was shown to produce the highest Normalized Discounted Cumulative Gain (NDCG) performance on the real-world proprietary dataset provided by a large parts supply company. Different hyperparameters were tested using Bayesian Optimization (BO) for applicability in the CF framework. External data sources like click-data and metrics like Clickthrough Rate (CTR) were reviewed for potential extensions to the work presented. The work shown in this paper provides techniques the Company can use to provide product recommendations to enhance revenues, attract new customers, and gain advantages over competitors.
翻訳日:2022-10-20 21:03:17 公開日:2020-12-11
# AttnGrounder:注意深い車について語る

AttnGrounder: Talking to Cars with Attention ( http://arxiv.org/abs/2009.05684v2 )

ライセンス: Link先を確認
Vivek Mittal(参考訳) 本研究では,視覚接地作業のための単段訓練モデルであるアテンション・グラウンドダー(attngrounder,attngrounder)を提案する。 visual groundingは、与えられた自然言語テキストクエリに基づいて、画像内の特定のオブジェクトをローカライズすることを目的としている。 画像領域毎に同じテキスト表現を使用する従来の方法とは異なり,各クエリ内の各単語と対応する画像内の各領域を関連付ける視覚テキストアテンションモジュールを用いて,領域依存のテキスト表現を構築する。 さらに,提案モデルのローカライズ性を向上させるため,視覚テキストアテンションモジュールを用いて参照物体の周囲にアテンションマスクを生成する。 与えられた接地座標で生成された矩形マスクを用いて、注意マスクを補助タスクとして訓練する。 我々はTalk2Carデータセット上でAttnGrounderを評価し,既存の手法よりも3.26%改善したことを示す。

We propose Attention Grounder (AttnGrounder), a single-stage end-to-end trainable model for the task of visual grounding. Visual grounding aims to localize a specific object in an image based on a given natural language text query. Unlike previous methods that use the same text representation for every image region, we use a visual-text attention module that relates each word in the given query with every region in the corresponding image for constructing a region dependent text representation. Furthermore, for improving the localization ability of our model, we use our visual-text attention module to generate an attention mask around the referred object. The attention mask is trained as an auxiliary task using a rectangular mask generated with the provided ground-truth coordinates. We evaluate AttnGrounder on the Talk2Car dataset and show an improvement of 3.26% over the existing methods.
翻訳日:2022-10-19 21:41:08 公開日:2020-12-11
# QRおよびLQ分解行列バックプロパゲーションアルゴリズムによる正方形,広角,深部 – 実あるいは複雑 -- 行列とそのソフトウェア実装

QR and LQ Decomposition Matrix Backpropagation Algorithms for Square, Wide, and Deep -- Real or Complex -- Matrices and Their Software Implementation ( http://arxiv.org/abs/2009.10071v4 )

ライセンス: Link先を確認
Denisa A.O. Roberts and Lucas R. Roberts(参考訳) 本稿では、正方形(m = n)、幅(m < n)、深さ(m > n)、階数$k = min(m, n)$のいずれかである行列のQR分解に対する行列バックプロパゲーションアルゴリズムを提案する。 さらに, ピボット(フルランク)QR分解と深部入力行列のLQ分解のための新しい行列バックプロパゲーション結果を導出した。 微分可能QR分解は、機械学習やコンピュータビジョンで頻繁に発生する最小二乗問題を解くために、数値的に安定で、計算的に効率的な方法を提供する。 グラフ学習やネットワーク圧縮といった他のユースケースもこの記事に記載されている。 一般的なディープラーニングフレームワーク(PyTorch、TensorFlow、MXNet)にまたがるソフトウェア実装には、ディープラーニングコミュニティで一般的に使用される方法が組み込まれている。 さらに,本論文は,大規模計算グラフの一部として行列バックプロパゲーション手法の理解を支援する。

This article presents matrix backpropagation algorithms for the QR decomposition of matrices $A_{m, n}$, that are either square (m = n), wide (m < n), or deep (m > n), with rank $k = min(m, n)$. Furthermore, we derive novel matrix backpropagation results for the pivoted (full-rank) QR decomposition and for the LQ decomposition of deep input matrices. Differentiable QR decomposition offers a numerically stable, computationally efficient method to solve least squares problems frequently encountered in machine learning and computer vision. Other use cases such as graph learning and network compression are listed in the article. Software implementation across popular deep learning frameworks (PyTorch, TensorFlow, MXNet) incorporate the methods for general use within the deep learning community. Furthermore, this article aids the practitioner in understanding the matrix backpropagation methodology as part of larger computational graphs.
翻訳日:2022-10-16 21:10:05 公開日:2020-12-11
# Pea-KD:BERT上のパラメータ効率と正確な知識蒸留

Pea-KD: Parameter-efficient and Accurate Knowledge Distillation on BERT ( http://arxiv.org/abs/2009.14822v2 )

ライセンス: Link先を確認
Ikhyun Cho, U Kang(参考訳) 性能を維持しながらモデルを効率的に圧縮する方法? 知識蒸留(KD)はモデル圧縮の手法として広く知られている。 本質的には、kdは、より大きな教師モデルに基づいて、より小さな生徒モデルを訓練し、教師モデルのパフォーマンスレベルを可能な限り維持しようとする。 しかし、既存のKD法には以下の制限がある。 第一に、学生モデルは絶対サイズが小さいため、本質的にはモデルの能力に欠ける。 第2に,学生モデルの初期指導が欠如しているため,教師モデルを最大限に模倣することは困難である。 従来のKD法はこれらの制限により性能が低い。 本稿では,KD に対する新しいアプローチである Pea-KD (Parameter- efficient and accurate Knowledge Distillation) を提案する。 Pea-KDは、Shuffled Parameter Sharing(SPS)とPretraining with Teacher's Predictions(PTP)の2つの主要な部分から構成される。 この組み合わせにより、我々はKDの限界を緩和することができる。 SPSは,学生モデルの容量を増大させる新しいパラメータ共有手法である。 PTPはKD特化初期化法であり、学生にとって良い初期ガイドとして機能する。 この手法を組み合わせると、学生モデルの性能が大幅に向上する。 BERTと異なるデータセットとタスクを用いて行った実験により、提案手法は4つのGLUEタスクにおいて、学生モデルの性能を平均4.4 %改善し、既存のKDベースラインをかなりのマージンで上回った。

How can we efficiently compress a model while maintaining its performance? Knowledge Distillation (KD) is one of the widely known methods for model compression. In essence, KD trains a smaller student model based on a larger teacher model and tries to retain the teacher model's level of performance as much as possible. However, existing KD methods suffer from the following limitations. First, since the student model is smaller in absolute size, it inherently lacks model capacity. Second, the absence of an initial guide for the student model makes it difficult for the student to imitate the teacher model to its fullest. Conventional KD methods yield low performance due to these limitations. In this paper, we propose Pea-KD (Parameter-efficient and accurate Knowledge Distillation), a novel approach to KD. Pea-KD consists of two main parts: Shuffled Parameter Sharing (SPS) and Pretraining with Teacher's Predictions (PTP). Using this combination, we are capable of alleviating the KD's limitations. SPS is a new parameter sharing method that increases the student model capacity. PTP is a KD-specialized initialization method, which can act as a good initial guide for the student. When combined, this method yields a significant increase in student model's performance. Experiments conducted on BERT with different datasets and tasks show that the proposed approach improves the student model's performance by 4.4\% on average in four GLUE tasks, outperforming existing KD baselines by significant margins.
翻訳日:2022-10-12 22:52:45 公開日:2020-12-11
# Few-shot Neural Sequence Labelingのための適応型自己学習

Adaptive Self-training for Few-shot Neural Sequence Labeling ( http://arxiv.org/abs/2010.03680v2 )

ライセンス: Link先を確認
Yaqing Wang, Subhabrata Mukherjee, Haoda Chu, Yuancheng Tu, Ming Wu, Jing Gao, Ahmed Hassan Awadallah(参考訳) シーケンスラベリングは、名前付きエンティティ認識(NER)、ダイアログシステムのためのスロットタグ付け、意味解析など、多くの自然言語処理(NLP)タスクに使用される重要なテクニックである。 大規模な事前学習された言語モデルは、大量のタスク固有のラベル付きデータで微調整された場合、これらのタスクで非常に優れたパフォーマンスを得る。 しかし、このような大規模ラベル付きデータセットは、人間によるアノテーションのコストが高く、機密性の高いユーザアプリケーションに対するプライバシやデータアクセスの制約があるため、いくつかのタスクやドメインでは入手が難しい。 これはトークンレベルでこのようなアノテーションを必要とするシーケンスラベリングタスクに対して悪化する。 本研究では,ニューラルシーケンスラベリングモデルにおけるラベル不足問題に対処する手法を開発した。 具体的には,ラベルの少ないニューラルネットワークタグを学習するための自己学習およびメタラーニング技術を開発した。 自己学習は、大量のラベルのないデータから学習する効果的なメカニズムであるが、メタラーニングは、適応的なサンプル再重み付けにおいて、ノイズの多い擬似ラベルからのエラー伝播を軽減するのに役立つ。 大規模多言語NERのための2つとタスク指向対話システムのための4つのスロットタグ付けデータセットを含む6つのベンチマークデータセットの大規模な実験により,本手法の有効性が示された。 提案手法は,各タスクのクラス毎に10個のラベル付き例しか持たず,低リソース設定の有効性を示す最先端システムよりも10%改善されている。

Sequence labeling is an important technique employed for many Natural Language Processing (NLP) tasks, such as Named Entity Recognition (NER), slot tagging for dialog systems and semantic parsing. Large-scale pre-trained language models obtain very good performance on these tasks when fine-tuned on large amounts of task-specific labeled data. However, such large-scale labeled datasets are difficult to obtain for several tasks and domains due to the high cost of human annotation as well as privacy and data access constraints for sensitive user applications. This is exacerbated for sequence labeling tasks requiring such annotations at token-level. In this work, we develop techniques to address the label scarcity challenge for neural sequence labeling models. Specifically, we develop self-training and meta-learning techniques for training neural sequence taggers with few labels. While self-training serves as an effective mechanism to learn from large amounts of unlabeled data -- meta-learning helps in adaptive sample re-weighting to mitigate error propagation from noisy pseudo-labels. Extensive experiments on six benchmark datasets including two for massive multilingual NER and four slot tagging datasets for task-oriented dialog systems demonstrate the effectiveness of our method. With only 10 labeled examples for each class for each task, our method obtains 10% improvement over state-of-the-art systems demonstrating its effectiveness for the low-resource setting.
翻訳日:2022-10-09 21:42:57 公開日:2020-12-11
# 分散ロバスト最適化のための大規模手法

Large-Scale Methods for Distributionally Robust Optimization ( http://arxiv.org/abs/2010.05893v2 )

ライセンス: Link先を確認
Daniel Levy, Yair Carmon, John C. Duchi and Aaron Sidford(参考訳) 本稿では,危険条件値(CVaR)と分散不確実性集合($\chi^2$)による凸損失の分布的ロバストな最適化アルゴリズムを提案する。 提案アルゴリズムは,トレーニングセットのサイズやパラメータの数によらず,多数の勾配評価を必要とすることを証明し,大規模アプリケーションに適合する。 $\chi^2$不確実集合の場合、これらは文献において最初のそのような保証であり、CVaRの場合、我々の保証は以前の研究のように二次的にではなく不確実度レベルで線形にスケールする。 また,CVaRに対するアルゴリズムの最悪の最適性を証明し,$\chi^2$問題のペナル化版も提供する。 私たちの主な技術的貢献は、バッチロバストなリスク推定のバイアスと[blanchet & glynn, 2015]によるマルチレベルモンテカルロ勾配推定器の分散に関する新しい境界です。 MNIST と ImageNet の実験により,本手法の 9-36 倍の効率性を持つアルゴリズムの理論的スケーリングが確認された。

We propose and analyze algorithms for distributionally robust optimization of convex losses with conditional value at risk (CVaR) and $\chi^2$ divergence uncertainty sets. We prove that our algorithms require a number of gradient evaluations independent of training set size and number of parameters, making them suitable for large-scale applications. For $\chi^2$ uncertainty sets these are the first such guarantees in the literature, and for CVaR our guarantees scale linearly in the uncertainty level rather than quadratically as in previous work. We also provide lower bounds proving the worst-case optimality of our algorithms for CVaR and a penalized version of the $\chi^2$ problem. Our primary technical contributions are novel bounds on the bias of batch robust risk estimation and the variance of a multilevel Monte Carlo gradient estimator due to [Blanchet & Glynn, 2015]. Experiments on MNIST and ImageNet confirm the theoretical scaling of our algorithms, which are 9--36 times more efficient than full-batch methods.
翻訳日:2022-10-08 06:22:26 公開日:2020-12-11
# ブラックボックスのセマンティクス:知識グラフはディープラーニングシステムをより解釈しやすく説明可能にするか?

Semantics of the Black-Box: Can knowledge graphs help make deep learning systems more interpretable and explainable? ( http://arxiv.org/abs/2010.08660v4 )

ライセンス: Link先を確認
Manas Gaur, Keyur Faldu, Amit Sheth(参考訳) 近年のディープラーニング(DL)の革新は、肯定的にも否定的にも、個人や社会に影響を与える大きな可能性を示している。 膨大な計算能力と膨大なデータセットを利用するdlモデルは、コンピュータビジョン、自然言語処理、信号処理、人間とコンピュータの相互作用など、テクノロジ分野にわたる、ますます困難で明確に定義された研究タスクの過去のベンチマークを大きく上回っている。 しかし、DLモデルのブラックボックスの性質とラベルや密度表現に凝縮された大量のデータへの過度な依存は、システムの解釈可能性と説明可能性に課題をもたらす。 さらに、DLは、関連するドメイン知識と人間の理解に不可欠な経験を効果的に活用する能力について、まだ証明されていない。 この側面は、初期のデータ中心のアプローチや、知識に干渉した学習や他の計算的知識を組み込む戦略に欠けている。 本稿では,知識グラフとして提供される知識を,知識注入学習を用いたDLメソッドに組み込む方法を紹介する。 次に,これが現在のアプローチの解釈可能性と説明可能性に根本的な違いをもたらし,医療・教育アプリケーションのための自然言語処理の例で説明する。

The recent series of innovations in deep learning (DL) have shown enormous potential to impact individuals and society, both positively and negatively. The DL models utilizing massive computing power and enormous datasets have significantly outperformed prior historical benchmarks on increasingly difficult, well-defined research tasks across technology domains such as computer vision, natural language processing, signal processing, and human-computer interactions. However, the Black-Box nature of DL models and their over-reliance on massive amounts of data condensed into labels and dense representations poses challenges for interpretability and explainability of the system. Furthermore, DLs have not yet been proven in their ability to effectively utilize relevant domain knowledge and experience critical to human understanding. This aspect is missing in early data-focused approaches and necessitated knowledge-infused learning and other strategies to incorporate computational knowledge. This article demonstrates how knowledge, provided as a knowledge graph, is incorporated into DL methods using knowledge-infused learning, which is one of the strategies. We then discuss how this makes a fundamental difference in the interpretability and explainability of current approaches, and illustrate it with examples from natural language processing for healthcare and education applications.
翻訳日:2022-10-06 21:13:43 公開日:2020-12-11
# SKATE:構造化知識をエンコードするための自然言語インタフェース

SKATE: A Natural Language Interface for Encoding Structured Knowledge ( http://arxiv.org/abs/2010.10597v2 )

ライセンス: Link先を確認
Clifton McFate, Aditya Kalyanpur, Dave Ferrucci, Andrea Bradshaw, Ariel Diertani, David Melville, Lori Moon(参考訳) 自然言語(NL)アプリケーションでは、NLインターフェースが解釈できるものと、素人が表現する方法を知っているものの間には、しばしばミスマッチがある。 本研究は,自動生成された半構造化テンプレートを通じて自然言語入力を洗練することにより,このミスマッチを低減する新しい自然言語インタフェースについて述べる。 本稿では,神経意味構文解析器を用いてnl入力を解析し,再帰的に満たされた半構造化テンプレートを提案し,完全に構造化された解釈を生成する手法について述べる。 また、SKATEがニューラルルール生成モデルとどのように統合され、インタラクティブにコモンセンス知識を提案・取得するかを示す。 ストーリー理解のタスクのためにskateの予備カバレッジ分析を行い、そのツールの現在のビジネスユースケースを特定のドメイン、covid-19ポリシーデザインで記述します。

In Natural Language (NL) applications, there is often a mismatch between what the NL interface is capable of interpreting and what a lay user knows how to express. This work describes a novel natural language interface that reduces this mismatch by refining natural language input through successive, automatically generated semi-structured templates. In this paper we describe how our approach, called SKATE, uses a neural semantic parser to parse NL input and suggest semi-structured templates, which are recursively filled to produce fully structured interpretations. We also show how SKATE integrates with a neural rule-generation model to interactively suggest and acquire commonsense knowledge. We provide a preliminary coverage analysis of SKATE for the task of story understanding, and then describe a current business use-case of the tool in a specific domain: COVID-19 policy design.
翻訳日:2022-10-05 07:23:49 公開日:2020-12-11
# LXPER Index 2.0:韓国におけるL2英語学生のテキスト可読性評価モデルの改善

LXPER Index 2.0: Improving Text Readability Assessment Model for L2 English Students in Korea ( http://arxiv.org/abs/2010.13374v4 )

ライセンス: Link先を確認
Bruce W. Lee and Jason Lee(参考訳) 外国語教育(ELT)カリキュラムにおけるテキストの可読性評価モデルの開発は,自然言語処理の分野ではあまり注目されていない。 したがって、ほとんどの発達したモデルは、l2英語のテキストに対して非常に低い精度を示しており、公平な比較を行うものさえ多くない。 本稿では韓国におけるL2英語学習者のテキスト可読性評価モデルについて検討する。 韓国のELTカリキュラム(CoKEC-text)のテキストコーパスの改善と拡張を行う。 各テキストは、ターゲットグレードレベルでラベル付けされる。 我々は,韓国のELTカリキュラムにおけるテキストの読みやすさ評価を,CoKEC-textでトレーニングし,精度を大幅に向上させる。

Developing a text readability assessment model specifically for texts in a foreign English Language Training (ELT) curriculum has never had much attention in the field of Natural Language Processing. Hence, most developed models show extremely low accuracy for L2 English texts, up to the point where not many even serve as a fair comparison. In this paper, we investigate a text readability assessment model for L2 English learners in Korea. In accordance, we improve and expand the Text Corpus of the Korean ELT curriculum (CoKEC-text). Each text is labeled with its target grade level. We train our model with CoKEC-text and significantly improve the accuracy of readability assessment for texts in the Korean ELT curriculum.
翻訳日:2022-10-02 17:54:36 公開日:2020-12-11
# モンテカルロ木探索によるゴール指向分子生成

Goal directed molecule generation using Monte Carlo Tree Search ( http://arxiv.org/abs/2010.16399v2 )

ライセンス: Link先を確認
Anand A. Rajasekar, Karthik Raman, Balaraman Ravindran(参考訳) 生化学における難しい重要な課題は、望ましい性質を持つ新規分子の生成である。 分子空間の通過が困難であり、生成分子は化学価の規則に従う必要があるため、新しい分子生成は依然として困難である。 本研究では,モンテカルロ木探索を用いて各ステップで分子単位の変更を行い,分子生成を行う新しい手法である unitmcts を提案する。 本手法はqedやペナライズドlogpなどのベンチマーク分子最適化タスクにおいて最近発表された手法よりも優れていることを示す。 また,本手法が開始分子に類似した分子特性の向上に有用であることを示す。 学習が関与していないことを考慮し、より短い時間内に所望の分子を探索する。

One challenging and essential task in biochemistry is the generation of novel molecules with desired properties. Novel molecule generation remains a challenge since the molecule space is difficult to navigate through, and the generated molecules should obey the rules of chemical valency. Through this work, we propose a novel method, which we call unitMCTS, to perform molecule generation by making a unit change to the molecule at every step using Monte Carlo Tree Search. We show that this method outperforms the recently published techniques on benchmark molecular optimization tasks such as QED and penalized logP. We also demonstrate the usefulness of this method in improving molecule properties while being similar to the starting molecule. Given that there is no learning involved, our method finds desired molecules within a shorter amount of time.
翻訳日:2022-10-01 16:09:08 公開日:2020-12-11
# アーキテクチャ非依存ニューラルネットワーク

Architecture Agnostic Neural Networks ( http://arxiv.org/abs/2011.02712v2 )

ライセンス: Link先を確認
Sabera Talukder, Guruprasad Raghavan, Yisong Yue(参考訳) 本稿では,脳の確率的シナプスプラニングに触発されて,ニューラルネットワークアーキテクチャを合成する代替手法について検討する。 一生の間、多くの異なるニューロンアーキテクチャが同じタスクを実行する責任を担っている。 これは、生物学的ニューラルネットワークがある程度アーキテクチャに依存しないことを示している。 しかし、人工ネットワークはその優れた性能のために、微調整された重量と手作りのアーキテクチャに依存している。 人工アーキテクチャに依存しないニューラルネットワークを構築することは可能か? この研究の基礎となるのは、脳の回路と平行する疎結合ニューラルネットワークである。 このスパースなバイナリパラダイムの中で、バックプロパゲーションによってトレーニングされていないアーキテクチャに依存しないニューラルネットワークのファミリーを作成するために、多くのバイナリアーキテクチャをサンプリングします。 これらの高パフォーマンスネットワークファミリは、同じスパース性、二分重みの分布を共有し、静的タスクと動的タスクの両方で成功する。 要約すると、我々は、家族やアーキテクチャに依存しないニューラルネットワークを発見するためのアーキテクチャ多様体探索手順を作成する。

In this paper, we explore an alternate method for synthesizing neural network architectures, inspired by the brain's stochastic synaptic pruning. During a person's lifetime, numerous distinct neuronal architectures are responsible for performing the same tasks. This indicates that biological neural networks are, to some degree, architecture agnostic. However, artificial networks rely on their fine-tuned weights and hand-crafted architectures for their remarkable performance. This contrast begs the question: Can we build artificial architecture agnostic neural networks? To ground this study we utilize sparse, binary neural networks that parallel the brain's circuits. Within this sparse, binary paradigm we sample many binary architectures to create families of architecture agnostic neural networks not trained via backpropagation. These high-performing network families share the same sparsity, distribution of binary weights, and succeed in both static and dynamic tasks. In summation, we create an architecture manifold search procedure to discover families or architecture agnostic neural networks.
翻訳日:2022-09-29 11:31:53 公開日:2020-12-11
# 最適決定スランプを用いた非パラメトリック変数スクリーニング

Nonparametric Variable Screening with Optimal Decision Stumps ( http://arxiv.org/abs/2011.02683v2 )

ライセンス: Link先を確認
Jason M. Klusowski and Peter M. Tian(参考訳) 決定木とそのアンサンブルには、予測モデルにおける変数のランク付けとスクリーニングのための豊富な診断ツールセットが与えられている。 ツリーベースの変数重要度尺度が広く使われているにもかかわらず、その理論的な性質をピン留めすることは困難であり、それゆえほとんど探検されていない。 このような理論と実践のギャップに対処するため、単レベルCART決定木(決定切り株)を用いた非パラメトリックモデルにおける変数選択に対する有限サンプル性能保証を導出する。 変数スクリーニング文献における標準動作仮定では, 変数の限界信号強度と環境次元はそれぞれ, 最先端の非パラメトリックな変数選択法よりもかなり弱く, 高い値となることが判明した。 さらに,各辺縁射影を切削ベース展開により直接推定しようとする従来の辺縁遮蔽法とは異なり,ここで用いられる装着モデルは単純で同義的な決定スタンプであり,基底項の数を調整する必要がなくなる。 したがって、驚くべきことに、決定スランプは推定のために非常に不正確であるが、一貫性のあるモデル選択を実行するためにも使用できる。

Decision trees and their ensembles are endowed with a rich set of diagnostic tools for ranking and screening variables in a predictive model. Despite the widespread use of tree based variable importance measures, pinning down their theoretical properties has been challenging and therefore largely unexplored. To address this gap between theory and practice, we derive finite sample performance guarantees for variable selection in nonparametric models using a single-level CART decision tree (a decision stump). Under standard operating assumptions in variable screening literature, we find that the marginal signal strength of each variable and ambient dimensionality can be considerably weaker and higher, respectively, than state-of-the-art nonparametric variable selection methods. Furthermore, unlike previous marginal screening methods that attempt to directly estimate each marginal projection via a truncated basis expansion, the fitted model used here is a simple, parsimonious decision stump, thereby eliminating the need for tuning the number of basis terms. Thus, surprisingly, even though decision stumps are highly inaccurate for estimation purposes, they can still be used to perform consistent model selection.
翻訳日:2022-09-29 11:31:25 公開日:2020-12-11
# DNAサブシーケンスと制限部位解析への機械学習の適用

Machine learning applications to DNA subsequence and restriction site analysis ( http://arxiv.org/abs/2011.03544v5 )

ライセンス: Link先を確認
Ethan J. Moyer (1) and Anup Das (PhD) (2) ((1) School of Biomedical Engineering, Science and Health Systems, Drexel University, Philadelphia, Pennsylvania, USA, (2) College of Engineering, Drexel University, Philadelphia, Pennsylvania, USA)(参考訳) BioBricks標準に基づいて、制限合成は、エンドヌクレアーゼを用いて参照配列からクエリ配列を合成する新規な触媒的反復DNA合成法である。 本研究では、3つの異なる機械学習手法(サポートベクターマシン(svms)、ランダムフォレスト(random forest)、畳み込みニューラルネットワーク(convolution neural networks:cnns)を用いた合成法に適用可能または適用不可能と分類し、より短いサブシーケンスから参照シーケンスを構築する。 これらの手法をデータに適用する前に、特徴の選択、キュレーション、削減の一連のステップを適用して、正確で代表的な特徴空間を作成する。 これらの前処理工程の後、200以上のエンドヌクレアーゼの制限部位に対応するヌクレオチド配列および他の関連する特徴に基づいてサブ配列を分類する3つの異なるパイプラインが提案されている。 SVM、ランダム森林、CNNの感度はそれぞれ94.9%、92.7%、91.4%である。 さらに、SVM、ランダムフォレスト、CNNでは、それぞれ77.4%、85.7%、82.4%と特異性が低い。 これらの結果の解析に加えて,SVMとCNNの誤分類についても検討した。 これら2つのモデルにまたがって、派生ヌクレオチド特異性を持つ異なる特徴は他の特徴に比べて分類に視覚的に寄与する。 この観察は、将来の研究における新しいヌクレオチド感受性の特徴を考える上で重要な要素である。

Based on the BioBricks standard, restriction synthesis is a novel catabolic iterative DNA synthesis method that utilizes endonucleases to synthesize a query sequence from a reference sequence. In this work, the reference sequence is built from shorter subsequences by classifying them as applicable or inapplicable for the synthesis method using three different machine learning methods: Support Vector Machines (SVMs), random forest, and Convolution Neural Networks (CNNs). Before applying these methods to the data, a series of feature selection, curation, and reduction steps are applied to create an accurate and representative feature space. Following these preprocessing steps, three different pipelines are proposed to classify subsequences based on their nucleotide sequence and other relevant features corresponding to the restriction sites of over 200 endonucleases. The sensitivity using SVMs, random forest, and CNNs are 94.9%, 92.7%, 91.4%, respectively. Moreover, each method scores lower in specificity with SVMs, random forest, and CNNs resulting in 77.4%, 85.7%, and 82.4%, respectively. In addition to analyzing these results, the misclassifications in SVMs and CNNs are investigated. Across these two models, different features with a derived nucleotide specificity visually contribute more to classification compared to other features. This observation is an important factor when considering new nucleotide sensitivity features for future studies.
翻訳日:2022-09-28 22:57:38 公開日:2020-12-11
# 合成データセット生成パイプラインによる3DMM属性制御の強化

Enhanced 3DMM Attribute Control via Synthetic Dataset Creation Pipeline ( http://arxiv.org/abs/2011.12833v2 )

ライセンス: Link先を確認
Wonwoong Cho, Inyeop Lee, David Inouye(参考訳) generative adversarial networks (gans) による2d画像の表情属性操作は,その実用性からコンピュータビジョンやグラフィックスにおいて一般的である一方,3d属性操作の研究は比較的発展していない。 既存の3D属性操作方法は、同じ意味変化が各3D顔に適用されるため、制限されている。 優れた3d属性制御手法を開発する上での鍵となる課題は、ある属性が固定されている間、他の属性が固定されている間、ある属性が変更されるペア化されたトレーニングデータがないことだ。 この課題を克服するために,ganのパワーを利用して対の3d顔を生成する新しいパイプラインを設計する。 このパイプライン上で,既存の手法と比較して3次元属性制御の精度と多様性を向上する,非線形3次元条件属性制御の強化を提案する。 定量的および定性評価により,データセット生成パイプラインの有効性と条件属性制御の優れた性能を示す。

While facial attribute manipulation of 2D images via Generative Adversarial Networks (GANs) has become common in computer vision and graphics due to its many practical uses, research on 3D attribute manipulation is relatively undeveloped. Existing 3D attribute manipulation methods are limited because the same semantic changes are applied to every 3D face. The key challenge for developing better 3D attribute control methods is the lack of paired training data in which one attribute is changed while other attributes are held fixed -- e.g., a pair of 3D faces where one is male and the other is female but all other attributes, such as race and expression, are the same. To overcome this challenge, we design a novel pipeline for generating paired 3D faces by harnessing the power of GANs. On top of this pipeline, we then propose an enhanced non-linear 3D conditional attribute controller that increases the precision and diversity of 3D attribute control compared to existing methods. We demonstrate the validity of our dataset creation pipeline and the superior performance of our conditional attribute controller via quantitative and qualitative evaluations.
翻訳日:2022-09-21 03:42:33 公開日:2020-12-11
# Transformer Query-Target Knowledge Discovery (TEND): CORD-19による薬物発見

Transformer Query-Target Knowledge Discovery (TEND): Drug Discovery from CORD-19 ( http://arxiv.org/abs/2012.04682v2 )

ライセンス: Link先を確認
Leo K. Tam and Xiaosong Wang and Daguang Xu(参考訳) これまでの研究で、スキップグラムの word2vec モデルは、熱電の発見のための材料科学文献の知識を掘り出すのに利用可能であった。 近年のトランスフォーマーアーキテクチャは、言語モデリングと関連する微調整タスクにおいて大きな進歩を見せているが、薬物発見にはまだ適応していない。 そこで本研究では,問合せ条件を用いたマスク付き言語トークン予測を拡張したRoBERTa変換方式を提案する。 このトランスフォーマー発見法は、ドメイン固有(抗ウイルス)アナロジー性能、ネゲーションハンドリング、柔軟なクエリ解析(特異的)を含む、word2vec法よりもいくつかの利点を伴い、インフルエンザ治療薬の発見で実証されている。 新型コロナウイルスの研究を刺激するために、covid-19 open research dataset challenge(cord-19)の文献データセットと共に使用されるインフルエンザ臨床試験および抗ウイルス類似データセットを公開する。 そこで本研究では,kショットファインチューニングによる下流のアナログ性能の向上と,モデル説明可能性のためのアナログのマイニングについて検討する。 さらに、インフルエンザ薬物臨床試験データセットに対する前方連鎖解析において、新型コロナウイルス薬物(コンビネーションと副作用)および進行中の臨床試験に適応する前に、クエリターゲット分析を検証する。 現在のトピックを考慮して、私たちはモデル、データセット、コードをリリースします。

Previous work established skip-gram word2vec models could be used to mine knowledge in the materials science literature for the discovery of thermoelectrics. Recent transformer architectures have shown great progress in language modeling and associated fine-tuned tasks, but they have yet to be adapted for drug discovery. We present a RoBERTa transformer-based method that extends the masked language token prediction using query-target conditioning to treat the specificity challenge. The transformer discovery method entails several benefits over the word2vec method including domain-specific (antiviral) analogy performance, negation handling, and flexible query analysis (specific) and is demonstrated on influenza drug discovery. To stimulate COVID-19 research, we release an influenza clinical trials and antiviral analogies dataset used in conjunction with the COVID-19 Open Research Dataset Challenge (CORD-19) literature dataset in the study. We examine k-shot fine-tuning to improve the downstream analogies performance as well as to mine analogies for model explainability. Further, the query-target analysis is verified in a forward chaining analysis against the influenza drug clinical trials dataset, before adapted for COVID-19 drugs (combinations and side-effects) and on-going clinical trials. In consideration of the present topic, we release the model, dataset, and code.
翻訳日:2022-09-19 19:20:48 公開日:2020-12-11
# 複雑なカテゴリの樹状デコードによるロングテールの重畳

Supertagging the Long Tail with Tree-Structured Decoding of Complex Categories ( http://arxiv.org/abs/2012.01285v2 )

ライセンス: Link先を確認
Jakob Prange, Nathan Schneider, Vivek Srikumar(参考訳) 現在のCCGスーパータガーは標準的なWSJテストセットで高い精度を達成するが、解析中に構文的導出を駆動するカテゴリの内部構造を利用するシステムはほとんどない。 タグセットは伝統的に切り捨てられ、長い尾にある多くの稀で複雑なカテゴリーの型を捨てる。 しかし、スーパータグはそれ自体が木である。 稀なタグを諦める代わりに,木構造予測のための新しい手法を含む内部構造を考慮した構成モデルを検討する。 我々の最高のタグは、長い尾のスーパータグの相当な部分を復元し、トレーニングで見たことのないCCGカテゴリを生成できると同時に、タグ全体の精度を少ないパラメータで予測できる。 さらに、異なるアプローチがドメイン外評価セットにどのように一般化するかについても検討する。

Although current CCG supertaggers achieve high accuracy on the standard WSJ test set, few systems make use of the categories' internal structure that will drive the syntactic derivation during parsing. The tagset is traditionally truncated, discarding the many rare and complex category types in the long tail. However, supertags are themselves trees. Rather than give up on rare tags, we investigate constructive models that account for their internal structure, including novel methods for tree-structured prediction. Our best tagger is capable of recovering a sizeable fraction of the long-tail supertags and even generates CCG categories that have never been seen in training, while approximating the prior state of the art in overall tag accuracy with fewer parameters. We further investigate how well different approaches generalize to out-of-domain evaluation sets.
翻訳日:2021-05-25 04:03:58 公開日:2020-12-11
# (参考訳) 航空画像における意味セグメンテーションの領域適応

Domain Adaptation on Semantic Segmentation for Aerial Images ( http://arxiv.org/abs/2012.02264v2 )

ライセンス: CC BY 4.0
Ying Chen, Xu Ouyang, Kaiyue Zhu, Gady Agam(参考訳) セマンティックセグメンテーションは近年大きな進歩を遂げている。 ディープニューラルネットワークはセマンティックセグメンテーションをうまく実行するが、その成功は高価で時間を要するピクセルレベルの監視に依存している。 さらに、あるドメインからのデータを使ったトレーニングは、異なるドメイン内のデータ分散間のドメインギャップのため、新しいドメインからのデータに対してうまく一般化できない。 この領域のギャップは、視覚的な外観が環境の画像の種類、季節、天気、および環境が撮影された日の時間に依存する空中画像で特に顕著である。 この分布ギャップは、事前訓練されたセグメンテーションモデルを用いて異なる特徴を持つ新しいデータを分析する場合、深刻な精度の損失をもたらす。 本稿では,空中意味画像セグメンテーションの文脈における領域シフトに対処する,新しい教師なしドメイン適応フレームワークを提案する。 この目的のために、ソースとターゲットドメイン間のソフトラベル分布差を学習することで、ドメインシフトの問題を解決する。 さらに, 対象領域にエントロピー最小化を適用し, 擬似ラベルによる高密度予測ではなく, 高信頼予測を行う。 ISPRSの課題画像セグメンテーションデータセットを用いて、ドメイン適応フレームワークの有効性を実証し、様々な指標による最先端手法の改善を示す。

Semantic segmentation has achieved significant advances in recent years. While deep neural networks perform semantic segmentation well, their success rely on pixel level supervision which is expensive and time-consuming. Further, training using data from one domain may not generalize well to data from a new domain due to a domain gap between data distributions in the different domains. This domain gap is particularly evident in aerial images where visual appearance depends on the type of environment imaged, season, weather, and time of day when the environment is imaged. Subsequently, this distribution gap leads to severe accuracy loss when using a pretrained segmentation model to analyze new data with different characteristics. In this paper, we propose a novel unsupervised domain adaptation framework to address domain shift in the context of aerial semantic image segmentation. To this end, we solve the problem of domain shift by learn the soft label distribution difference between the source and target domains. Further, we also apply entropy minimization on the target domain to produce high-confident prediction rather than using high-confident prediction by pseudo-labeling. We demonstrate the effectiveness of our domain adaptation framework using the challenge image segmentation dataset of ISPRS, and show improvement over state-of-the-art methods in terms of various metrics.
翻訳日:2021-05-23 17:10:34 公開日:2020-12-11
# (参考訳) 畳み込みニューラルネットワークを用いた食品分類と多クラス線形識別分析

Food Classification with Convolutional Neural Networks and Multi-Class Linear Discernment Analysis ( http://arxiv.org/abs/2012.03170v2 )

ライセンス: CC BY 4.0
Joshua Ball(参考訳) 畳み込みニューラルネットワーク(cnns)は、人間の脳で知覚される完全に接続された推論能力を表現することに成功している。 cnnの無数の実装は、これらの複雑なパターン、特に画像分類の領域を学習する能力の強さを示している。 しかし、高性能CNNをいわゆる「最先端技術」レベルに上げるコストは、計算コストがかかる。 mobilenetv2のようなモデルから非常に深い層を利用する転送学習を使う場合でも、cnnは膨大な時間とリソースを必要とします。 フィッシャーの線形判別を一般化した線形判別分析(LDA)は、画像分類に高性能なシステムを必要としないが、クラス特徴の分離性を高めるために多クラス分類法で実装することができる。 同様に、私たちはLDAが優れたパフォーマンスを約束しているとも信じています。 本稿では, 食品分類のための堅牢なCNNの開発プロセスと, マルチクラスLDAの効果的な実装について論じ, 1) 画像分類においてCNNがLDAよりも優れていること, (2) 画像分類においてLDAを除外すべきでない理由について述べる。

Convolutional neural networks (CNNs) have been successful in representing the fully-connected inferencing ability perceived to be seen in the human brain: they take full advantage of the hierarchy-style patterns commonly seen in complex data and develop more patterns using simple features. Countless implementations of CNNs have shown how strong their ability is to learn these complex patterns, particularly in the realm of image classification. However, the cost of getting a high performance CNN to a so-called "state of the art" level is computationally costly. Even when using transfer learning, which utilize the very deep layers from models such as MobileNetV2, CNNs still take a great amount of time and resources. Linear discriminant analysis (LDA), a generalization of Fisher's linear discriminant, can be implemented in a multi-class classification method to increase separability of class features while not needing a high performance system to do so for image classification. Similarly, we also believe LDA has great promise in performing well. In this paper, we discuss our process of developing a robust CNN for food classification as well as our effective implementation of multi-class LDA and prove that (1) CNN is superior to LDA for image classification and (2) why LDA should not be left out of the races for image classification, particularly for binary cases.
翻訳日:2021-05-22 09:28:22 公開日:2020-12-11
# 深部沈み込みネットワークを用いた交通流予測

Traffic flow prediction using Deep Sedenion Networks ( http://arxiv.org/abs/2012.03874v2 )

ライセンス: Link先を確認
Alabi Bojesomo, Panos Liatsis, Hasan Al Marzouqi(参考訳) 本稿では,traffic4cast2020のトラヒック予測課題に対する解決策を提案する。 このコンペティションでは、参加者はベルリン、イスタンブール、モスクワの3つの都市で将来の交通パラメータ(速度とボリューム)を予測する。 情報には、最初の8つが4つの異なる方向(ne、nw、se、sw)の速度と体積を表す9つのチャネルが含まれているが、最後のチャンネルは、トラフィックインシデントの存在を示すために使用される。 期待される出力は、入力の最初の8チャンネルを6つの将来のタイミング間隔(5,10,15,30,45,60min)で、過去のトラフィックデータの1時間の持続時間を5分間隔で入力として提供する。 我々は,新しいsedenion u-netニューラルネットワークを用いてこの問題を解決する。 セデニオンネットワークは、相関したマルチモーダルデータセットの効率的なエンコーディングの手段を提供する。 動的入力には15個の仮想部品のうち12個を使用し、静的入力には実際のセデニオン成分を用いる。 ネットワークのセデニオン出力は、マルチモーダルトラフィック予測を表すために使用される。 提案システムは、検証mse 1.33e-3とテストmse 1.31e-3を達成した。

In this paper, we present our solution to the Traffic4cast2020 traffic prediction challenge. In this competition, participants are to predict future traffic parameters (speed and volume) in three different cities: Berlin, Istanbul and Moscow. The information provided includes nine channels where the first eight represent the speed and volume for four different direction of traffic (NE, NW, SE and SW), while the last channel is used to indicate presence of traffic incidents. The expected output should have the first 8 channels of the input at six future timing intervals (5, 10, 15, 30, 45, and 60min), while a one hour duration of past traffic data, in 5mins intervals, are provided as input. We solve the problem using a novel sedenion U-Net neural network. Sedenion networks provide the means for efficient encoding of correlated multimodal datasets. We use 12 of the 15 sedenion imaginary parts for the dynamic inputs and the real sedenion component is used for the static input. The sedenion output of the network is used to represent the multimodal traffic predictions. Proposed system achieved a validation MSE of 1.33e-3 and a test MSE of 1.31e-3.
翻訳日:2021-05-16 21:21:31 公開日:2020-12-11
# (参考訳) 少量知識蒸留用プログレッシブネットワークグラフト

Progressive Network Grafting for Few-Shot Knowledge Distillation ( http://arxiv.org/abs/2012.04915v2 )

ライセンス: CC BY 4.0
Chengchao Shen, Xinchao Wang, Youtan Yin, Jie Song, Sihui Luo, Mingli Song(参考訳) 知識蒸留は深部モデル圧縮における励振性能を示す。 しかし、既存のアプローチの多くは、知識転送を達成するために大量のラベル付きデータを必要としており、モデル圧縮は面倒でコストのかかるプロセスとなっている。 本稿では,人間アノテーションのないサンプルが各カテゴリにわずか数個しか存在しないと仮定した,実用的マイノリティ蒸留シナリオについて検討する。 そこで本研究では, 数ショットデータに適した二段蒸留方式を提案する。 第1段階では,生徒ブロックを1つずつ教師にグラフトし,他の教師ブロックと連動したグラフトブロックのパラメータを学習する。 第2のステップでは、訓練された学生ブロックは徐々に接続され、教師ネットワークにグラフトされ、学習された学生ブロックが互いに適応し、最終的には教師ネットワークを置き換えることができる。 実験により, CIFAR10, CIFAR100, ILSVRC-2012における実験結果が得られた。 CIFAR10とCIFAR100では、全データセットを利用する知識蒸留方式と同等の性能を示しています。 ソースコードはhttps://github.com/zju-vipa/netgraftで入手できる。

Knowledge distillation has demonstrated encouraging performances in deep model compression. Most existing approaches, however, require massive labeled data to accomplish the knowledge transfer, making the model compression a cumbersome and costly process. In this paper, we investigate the practical few-shot knowledge distillation scenario, where we assume only a few samples without human annotations are available for each category. To this end, we introduce a principled dual-stage distillation scheme tailored for few-shot data. In the first step, we graft the student blocks one by one onto the teacher, and learn the parameters of the grafted block intertwined with those of the other teacher blocks. In the second step, the trained student blocks are progressively connected and then together grafted onto the teacher network, allowing the learned student blocks to adapt themselves to each other and eventually replace the teacher network. Experiments demonstrate that our approach, with only a few unlabeled samples, achieves gratifying results on CIFAR10, CIFAR100, and ILSVRC-2012. On CIFAR10 and CIFAR100, our performances are even on par with those of knowledge distillation schemes that utilize the full datasets. The source code is available at https://github.com/zju-vipa/NetGraft.
翻訳日:2021-05-16 11:58:09 公開日:2020-12-11
# MLComp:Pareto-Optimal Compiler最適化系列の機械学習に基づく性能推定と適応選択手法

MLComp: A Methodology for Machine Learning-based Performance Estimation and Adaptive Selection of Pareto-Optimal Compiler Optimization Sequences ( http://arxiv.org/abs/2012.05270v2 )

ライセンス: Link先を確認
Alessio Colucci, D\'avid Juh\'asz, Martin Mosbeck, Alberto Marchisio, Semeen Rehman, Manfred Kreutzer, Guenther Nadbath, Axel Jantsch and Muhammad Shafique(参考訳) 組込みシステムは、サイバー物理システムとモノのインターネットの進化により、様々な消費者や産業のアプリケーションで普及してきた。 これらのシステムは厳密な制約を受けており、組み込みソフトウェアは複数の目的、すなわちエネルギー消費量、実行時間、コードサイズを同時に最適化する必要がある。 コンパイラはこれらのメトリクスを改善する最適化フェーズを提供する。 しかし、適切な選択と順序付けは複数の要因に依存し、通常は専門家の知識を必要とする。 最先端のオプティマイザは、ケースによって異なるプラットフォームやアプリケーションのケースを容易にし、動的プロファイリングによって異なるターゲットに対して時間を要するだけでなく、1度に1つのメトリックを最適化することで制限される。 これらの問題に対処するために,強化学習に基づくポリシーにより最適化フェーズをシーケンスする新しいMLComp手法を提案する。 ポリシーのトレーニングは、迅速なパフォーマンス推定のための機械学習ベースの分析モデルによってサポートされ、動的プロファイリングに費やされる時間を大幅に削減する。 私たちのフレームワークでは、最適なモデルを選択するために、さまざまな機械学習モデルが自動的にテストされます。 訓練された性能推定モデルを用いて、準最適位相列を生成するための強化学習に基づく多目的ポリシーを効率的に考案する。 最先端推定モデルと比較して、パフォーマンス推定モデルは、複数のプラットフォームやアプリケーションドメインで最大50倍高速なトレーニング時間を持つ低い相対誤差(2%)を達成する。 我々のフェーズ選択ポリシーは、与えられたコードの実行時間とエネルギー消費をそれぞれ最大12%と6%改善します。 パフォーマンス推定器とフェーズ選択ポリシーは、任意のプラットフォームとアプリケーションドメインに対して効率的にトレーニングできます。

Embedded systems have proliferated in various consumer and industrial applications with the evolution of Cyber-Physical Systems and the Internet of Things. These systems are subjected to stringent constraints so that embedded software must be optimized for multiple objectives simultaneously, namely reduced energy consumption, execution time, and code size. Compilers offer optimization phases to improve these metrics. However, proper selection and ordering of them depends on multiple factors and typically requires expert knowledge. State-of-the-art optimizers facilitate different platforms and applications case by case, and they are limited by optimizing one metric at a time, as well as requiring a time-consuming adaptation for different targets through dynamic profiling. To address these problems, we propose the novel MLComp methodology, in which optimization phases are sequenced by a Reinforcement Learning-based policy. Training of the policy is supported by Machine Learning-based analytical models for quick performance estimation, thereby drastically reducing the time spent for dynamic profiling. In our framework, different Machine Learning models are automatically tested to choose the best-fitting one. The trained Performance Estimator model is leveraged to efficiently devise Reinforcement Learning-based multi-objective policies for creating quasi-optimal phase sequences. Compared to state-of-the-art estimation models, our Performance Estimator model achieves lower relative error (<2%) with up to 50x faster training time over multiple platforms and application domains. Our Phase Selection Policy improves execution time and energy consumption of a given code by up to 12% and 6%, respectively. The Performance Estimator and the Phase Selection Policy can be trained efficiently for any target platform and application domain.
翻訳日:2021-05-16 01:51:12 公開日:2020-12-11
# (参考訳) flatland-rl : 列車におけるマルチエージェント強化学習

Flatland-RL : Multi-Agent Reinforcement Learning on Trains ( http://arxiv.org/abs/2012.05893v2 )

ライセンス: CC BY 4.0
Sharada Mohanty, Erik Nygren, Florian Laurent, Manuel Schneider, Christian Scheller, Nilabha Bhattacharya, Jeremy Watson, Adrian Egli, Christian Eichenberger, Christian Baumberger, Gereon Vienken, Irene Sturm, Guillaume Sartoretti, Giacomo Spigler(参考訳) 列車の効率的な自動スケジューリングは現代の鉄道システムにとって大きな課題である。 車両再スケジュール問題(VRSP)は、数十年前からオペレーティング・リサーチ(OR)の主要な焦点となっている。 従来のアプローチでは、複雑なシミュレータを使ってVRSPを研究しており、様々な新しいアイデアを試すには時間がかかる。 本稿では,高速な実験を可能にする「フラトランド」と呼ばれる2次元簡易グリッド環境を提案する。 Flatlandは、完全な物理シミュレーションの複雑さを軽減するだけでなく、Reinforcement Learning (RL)やImitation Learning (IL)といったVRSPの新しいアプローチをテストするための使いやすいインターフェースを提供する。 フラットランドにおける機械学習(ml)研究の可能性を探究するため,(1)rlとilの実験と(2)neurips 2020で公開ベンチマークを実施し,大規模な研究者コミュニティによる研究を行った。 一方、我々の実験結果は、MLがFlatlandのVRSPを解く可能性を実証している。 一方で、さらなる研究を必要とする重要なトピックを特定する。 全体的に、フラットランド環境は鉄道網のvrspを調査するための堅牢で価値のある枠組みであることが証明されている。 われわれの実験は、NeurIPS 2020 Flatland Benchmarkの参加者にとって、さらなる研究の出発点となる。 これらすべての取り組みは、将来のモビリティを形作る上で大きな影響を与える可能性がある。

Efficient automated scheduling of trains remains a major challenge for modern railway systems. The underlying vehicle rescheduling problem (VRSP) has been a major focus of Operations Research (OR) since decades. Traditional approaches use complex simulators to study VRSP, where experimenting with a broad range of novel ideas is time consuming and has a huge computational overhead. In this paper, we introduce a two-dimensional simplified grid environment called "Flatland" that allows for faster experimentation. Flatland does not only reduce the complexity of the full physical simulation, but also provides an easy-to-use interface to test novel approaches for the VRSP, such as Reinforcement Learning (RL) and Imitation Learning (IL). In order to probe the potential of Machine Learning (ML) research on Flatland, we (1) ran a first series of RL and IL experiments and (2) design and executed a public Benchmark at NeurIPS 2020 to engage a large community of researchers to work on this problem. Our own experimental results, on the one hand, demonstrate that ML has potential in solving the VRSP on Flatland. On the other hand, we identify key topics that need further research. Overall, the Flatland environment has proven to be a robust and valuable framework to investigate the VRSP for railway networks. Our experiments provide a good starting point for further research and for the participants of the NeurIPS 2020 Flatland Benchmark. All of these efforts together have the potential to have a substantial impact on shaping the mobility of the future.
翻訳日:2021-05-15 10:41:09 公開日:2020-12-11
# より詳細: 一般化可能なReIDモデルのための一般化可能なサンプルの選択

One for More: Selecting Generalizable Samples for Generalizable ReID Model ( http://arxiv.org/abs/2012.05475v2 )

ライセンス: Link先を確認
Enwei Zhang, Xinyang Jiang, Hao Cheng, Ancong Wu, Fufu Yu, Ke Li, Xiaowei Guo, Feng Zheng, Wei-Shi Zheng, Xing Sun(参考訳) 既存の人物再識別(ReID)モデルの現在のトレーニング目標は、バッチ外のサンプルのパフォーマンスに関係なく、選択したトレーニングバッチにおいてモデルの損失が減少することを保証するのみである。 必然的にモデルが支配的な位置(例えば、不均衡クラスのヘッドデータ、簡単なサンプル、騒がしいサンプルなど)でデータを過剰に適合させる。 % より多くのデータを一般化可能なサンプルとするためにモデルを更新するサンプルを呼び出します。 最新の再サンプリング手法では、モデルが特定の種類のデータ(ハードサンプル、テールデータなど)をより一般化する特定のサンプルを選択するための特定の基準を設計することでこの問題に対処している。 そこで,本研究では,どのサンプルが一般化可能かを単純に仮定する代わりに,選択したサンプルを損失関数として直接的に一般化する1対3の学習目標を提案する。 さらに重要なことは、提案した1対3のサンプルラをReIDトレーニングフレームワークにシームレスに統合することで、エンドツーエンドでReIDモデルとサンプルラを同時にトレーニングすることができることです。 実験の結果,提案手法はReIDモデルのトレーニングを効果的に改善し,ReIDモデルの性能を向上させることができることがわかった。

Current training objectives of existing person Re-IDentification (ReID) models only ensure that the loss of the model decreases on selected training batch, with no regards to the performance on samples outside the batch. It will inevitably cause the model to over-fit the data in the dominant position (e.g., head data in imbalanced class, easy samples or noisy samples). %We call the sample that updates the model towards generalizing on more data a generalizable sample. The latest resampling methods address the issue by designing specific criterion to select specific samples that trains the model generalize more on certain type of data (e.g., hard samples, tail data), which is not adaptive to the inconsistent real world ReID data distributions. Therefore, instead of simply presuming on what samples are generalizable, this paper proposes a one-for-more training objective that directly takes the generalization ability of selected samples as a loss function and learn a sampler to automatically select generalizable samples. More importantly, our proposed one-for-more based sampler can be seamlessly integrated into the ReID training framework which is able to simultaneously train ReID models and the sampler in an end-to-end fashion. The experimental results show that our method can effectively improve the ReID model training and boost the performance of ReID models.
翻訳日:2021-05-15 06:39:25 公開日:2020-12-11
# オンライン半定義型プログラミングのための一般化ログ決定型正規化器とその応用

A generalised log-determinant regularizer for online semi-definite programming and its applications ( http://arxiv.org/abs/2012.05632v2 )

ライセンス: Link先を確認
Yaxiong Liu, Ken-ichiro Moridomi, Kohei Hatano, Eiji Takimoto(参考訳) オンライン半定義型プログラミング問題 (osdp: online semi-definite programming problem) の変種を考える: 決定空間は、有界な$\gamma$-trace ノルムを持つ半定義行列から成り、正の定値行列 $\gamma.$ で定義されるトレースノルムの一般化である。 次に、一般化された設定と提案アルゴリズムをオンライン行列補完(OMC)およびオンライン類似度予測にサイド情報で適用する。 特に、オンライン行列補完問題を一般化された osdp 問題に還元し、その辺情報は $\gamma$ matrix として表現される。 したがって、一般OSDPに対する残念な点から、対数係数を除去することで、OMCに対する最適な誤りが得られる。

We consider a variant of online semi-definite programming problem (OSDP): The decision space consists of semi-definite matrices with bounded $\Gamma$-trace norm, which is a generalization of trace norm defined by a positive definite matrix $\Gamma.$ To solve this problem, we utilise the follow-the-regularized-leader algorithm with a $\Gamma$-dependent log-determinant regularizer. Then we apply our generalised setting and our proposed algorithm to online matrix completion(OMC) and online similarity prediction with side information. In particular, we reduce the online matrix completion problem to the generalised OSDP problem, and the side information is represented as the $\Gamma$ matrix. Hence, due to our regret bound for the generalised OSDP, we obtain an optimal mistake bound for the OMC by removing the logarithmic factor.
翻訳日:2021-05-15 06:09:47 公開日:2020-12-11
# (参考訳) ai駆動シミュレータの台頭: 新しいクリスタルボールの構築

The Rise of AI-Driven Simulators: Building a New Crystal Ball ( http://arxiv.org/abs/2012.06049v1 )

ライセンス: CC BY 4.0
Ian Foster, David Parkes, and Stephan Zheng(参考訳) 計算シミュレーションの使用は今や社会に広く浸透しているので、米国と国際的な繁栄、安全保障、健康がシミュレーション能力の継続的な改善に依存していると言うのは誇張ではない。 2週間後に天気を予報したり、新型ウイルス病の新しい薬の設計を指導したり、製造コストと時間を桁違いに削減する新しい製造プロセスを管理することができるとしたらどうだろう? 例えば、自然災害時の避難要請への対応や、財政刺激による労働対応など、集団的人間の行動を予測することは可能か。 (パンデミック情報学に関するコンパニオンcccccクアッドペーパーも参照のこと) この10年で、世界の膨大なデータを収集できるセンサーや、それらのデータから予測パターンを学習するAI手法など、補完的な分野で顕著な進歩を遂げた。 これらの進歩は、多くの種類のセンサーが大量のデータを生成するのに使われ、AIメソッドはそれらのデータ内のパターンを識別し、新しいAI駆動シミュレータは、機械学習と数学的ルールを組み合わせて正確で行動可能な予測を行う。 また、数学的な理解の限界に到達したり、少なくとも数学的な理解を効率的なシミュレーションに翻訳する能力に到達しているところもあります。 本稿では,AI駆動シミュレータにおける凝集性,多分野,アプリケーションに触発された研究課題の一部を構成することを想定するテーマについて述べる。

The use of computational simulation is by now so pervasive in society that it is no exaggeration to say that continued U.S. and international prosperity, security, and health depend in part on continued improvements in simulation capabilities. What if we could predict weather two weeks out, guide the design of new drugs for new viral diseases, or manage new manufacturing processes that cut production costs and times by an order of magnitude? What if we could predict collective human behavior, for example, response to an evacuation request during a natural disaster, or labor response to fiscal stimulus? (See also the companion CCC Quad Paper on Pandemic Informatics, which discusses features that would be essential to solving large-scale problems like preparation for, and response to, the inevitable next pandemic.) The past decade has brought remarkable advances in complementary areas: in sensors, which can now capture enormous amounts of data about the world, and in AI methods capable of learning to extract predictive patterns from those data. These advances may lead to a new era in computational simulation, in which sensors of many kinds are used to produce vast quantities of data, AI methods identify patterns in those data, and new AI-driven simulators combine machine-learned and mathematical rules to make accurate and actionable predictions. At the same time, there are new challenges -- computers in some important regards are no longer getting faster, and in some areas we are reaching the limits of mathematical understanding, or at least of our ability to translate mathematical understanding into efficient simulation. In this paper, we lay out some themes that we envision forming part of a cohesive, multi-disciplinary, and application-inspired research agenda on AI-driven simulators.
翻訳日:2021-05-14 13:08:11 公開日:2020-12-11
# (参考訳) クラウドコンピューティングにおけるスマート産業 4.0 アプリケーションの性能分析

Analyzing the Performance of Smart Industry 4.0 Applications on Cloud Computing Systems ( http://arxiv.org/abs/2012.06054v1 )

ライセンス: CC BY 4.0
Razin Farhan Hussain, Alireza Pakravan, Mohsen Amini Salehi(参考訳) レイテンシに敏感な推論を行うクラウドベースのDeep Neural Network (DNN)アプリケーションは、Industrial 4.0で必須の部分になりつつある。 クラウドコンピューティング環境に固有のマルチテナントとリソースの不均一性のため、DNNベースのアプリケーションの推論時間は確率的である。 このような確率性は、捕まらなければ、低品質のサービス(qos)や、石油やガス産業のような重要な分野における災害につながる可能性がある。 産業4.0を堅牢にするためには、ソリューションアーキテクトと研究者は、DNNベースのアプリケーションの振る舞いを理解し、推論時間内に確率性を捉える必要がある。 そこで本研究では,2つの視点から推論時間の記述的分析を行った。 まず、アプリケーション中心の分析を行い、統計的に異なる4つのdnnアプリケーションのamazonおよびchameleonクラウド上での実行時間をモデル化する。 第二に、リソース中心のアプローチを採り、クラウド上の異種マシンに対するMIPS(Million Instruction Per Second)という形でレートベースのメトリクスを分析する。 この非パラメトリックモデリングはJackknifeとBootstrapの再サンプリング手法によって達成され、異種クラウドマシンに対するMIPSの信頼区間を提供する。 この研究の結果は、研究者やクラウドソリューションアーキテクトがクラウド上のDNNアプリケーションの推論時間の確率的性質に対して堅牢なソリューションを開発し、ユーザに対してより高いQoSを提供し、意図しない結果を避けるのに役立つ。

Cloud-based Deep Neural Network (DNN) applications that make latency-sensitive inference are becoming an indispensable part of Industry 4.0. Due to the multi-tenancy and resource heterogeneity, both inherent to the cloud computing environments, the inference time of DNN-based applications are stochastic. Such stochasticity, if not captured, can potentially lead to low Quality of Service (QoS) or even a disaster in critical sectors, such as Oil and Gas industry. To make Industry 4.0 robust, solution architects and researchers need to understand the behavior of DNN-based applications and capture the stochasticity exists in their inference times. Accordingly, in this study, we provide a descriptive analysis of the inference time from two perspectives. First, we perform an application-centric analysis and statistically model the execution time of four categorically different DNN applications on both Amazon and Chameleon clouds. Second, we take a resource-centric approach and analyze a rate-based metric in form of Million Instruction Per Second (MIPS) for heterogeneous machines in the cloud. This non-parametric modeling, achieved via Jackknife and Bootstrap re-sampling methods, provides the confidence interval of MIPS for heterogeneous cloud machines. The findings of this research can be helpful for researchers and cloud solution architects to develop solutions that are robust against the stochastic nature of the inference time of DNN applications in the cloud and can offer a higher QoS to their users and avoid unintended outcomes.
翻訳日:2021-05-14 11:27:26 公開日:2020-12-11
# (参考訳) 人工知能が社会に与える影響を理解するための学際的アプローチ

Interdisciplinary Approaches to Understanding Artificial Intelligence's Impact on Society ( http://arxiv.org/abs/2012.06057v1 )

ライセンス: CC BY 4.0
Suresh Venkatasubramanian, Nadya Bliss, Helen Nissenbaum, and Melanie Moses(参考訳) AIのイノベーションは主に、Web検索のパターンを見つけるための"何"と"どのように"のアルゴリズムに関する質問に焦点を当てている。 ひとつは、テクノロジー業界におけるインセンティブや力によって、製品主導の焦点が、潜在的な害や誤解に対するより広範な反省的な懸念を解き放つ傾向にあることだ。 しかし、これは主に、コンピュータ科学における工学と数学に焦点を当てたトレーニングの反映であり、ツールの構築と計算概念の開発に重点を置いている。 この厳密な技術的焦点の結果として、AIは、人種的または性別に偏った方法で行動するアルゴリズムから、不平等を持続するフィードバックループに捕捉される、あるいは自由で民主的な社会の基本的な価値に挑戦する前例のない行動監視の監視まで、予期せぬ社会技術的問題の嵐に遭遇した。 AIはもはや技術者の領域ではなく、社会全体の領域であるということを考えると、コンピュータ科学と社会と社会的価値を研究する分野の密接な結合が必要である。

Innovations in AI have focused primarily on the questions of "what" and "how"-algorithms for finding patterns in web searches, for instance-without adequate attention to the possible harms (such as privacy, bias, or manipulation) and without adequate consideration of the societal context in which these systems operate. In part, this is driven by incentives and forces in the tech industry, where a more product-driven focus tends to drown out broader reflective concerns about potential harms and misframings. But this focus on what and how is largely a reflection of the engineering and mathematics-focused training in computer science, which emphasizes the building of tools and development of computational concepts. As a result of this tight technical focus, and the rapid, worldwide explosion in its use, AI has come with a storm of unanticipated socio-technical problems, ranging from algorithms that act in racially or gender-biased ways, get caught in feedback loops that perpetuate inequalities, or enable unprecedented behavioral monitoring surveillance that challenges the fundamental values of free, democratic societies. Given that AI is no longer solely the domain of technologists but rather of society as a whole, we need tighter coupling of computer science and those disciplines that study society and societal values.
翻訳日:2021-05-14 11:10:41 公開日:2020-12-11
# (参考訳) 次の波の人工知能:堅牢、説明可能、適応可能、倫理的、説明責任

Next Wave Artificial Intelligence: Robust, Explainable, Adaptable, Ethical, and Accountable ( http://arxiv.org/abs/2012.06058v1 )

ライセンス: CC BY 4.0
Odest Chadwicke Jenkins, Daniel Lopresti, and Melanie Mitchell(参考訳) AIの歴史には、いくつかの"波"のアイデアが含まれている。 1950年代半ばから1980年代にかけての最初の波は、知識の論理と記号的手書き表現、いわゆる「エキスパートシステム」の基礎に焦点を当てていた。 第2の波は1990年代に始まり、統計と機械学習に焦点を当て、プログラマは振る舞いのハンドプログラミングのルールの代わりに、大規模なデータセットでトレーニングできる「統計学習アルゴリズム」を構築した。 直近のAIにおける波動研究では、主に深層ニューラルネットワークに焦点を当てており、脳に緩やかにインスパイアされ、「深層学習」の手法で訓練されている。 しかし、ディープニューラルネットワークはコンピュータビジョン、音声認識、言語処理、ゲームプレイング、ロボット工学において多くの成功と新機能をもたらしているが、幅広い応用の可能性にはいくつかの要因がある。 制限に関して言えば、今日のAIシステムの中でも最も成功したものでさえ不安定性に悩まされ、トレーニングされたシステムと十分に異なる状況に直面した場合に予期せぬ方法で失敗する可能性があるということです。 この堅牢性の欠如は、敵対的な攻撃に対するAIシステムの脆弱性にも現れ、敵はAIシステムから特定の間違った回答やアクションを保証する方法でデータを微妙に操作することができる。 AIシステムは、トレーニングデータから性別、人種、その他の要因に基づくバイアスを吸収し、その後の意思決定におけるバイアスをさらに大きくすることができる。 これらさまざまな制限が組み合わさって、自動医療診断や自動運転車のようなaiシステムが幅広い展開に十分な信頼を持てなくなった。 社会全体のAIの急増は、我々の生産性や生活の質、価値観を犠牲にしない技術を生み出すために、根本的に新しいアイデアを必要とします。

The history of AI has included several "waves" of ideas. The first wave, from the mid-1950s to the 1980s, focused on logic and symbolic hand-encoded representations of knowledge, the foundations of so-called "expert systems". The second wave, starting in the 1990s, focused on statistics and machine learning, in which, instead of hand-programming rules for behavior, programmers constructed "statistical learning algorithms" that could be trained on large datasets. In the most recent wave research in AI has largely focused on deep (i.e., many-layered) neural networks, which are loosely inspired by the brain and trained by "deep learning" methods. However, while deep neural networks have led to many successes and new capabilities in computer vision, speech recognition, language processing, game-playing, and robotics, their potential for broad application remains limited by several factors. A concerning limitation is that even the most successful of today's AI systems suffer from brittleness-they can fail in unexpected ways when faced with situations that differ sufficiently from ones they have been trained on. This lack of robustness also appears in the vulnerability of AI systems to adversarial attacks, in which an adversary can subtly manipulate data in a way to guarantee a specific wrong answer or action from an AI system. AI systems also can absorb biases-based on gender, race, or other factors-from their training data and further magnify these biases in their subsequent decision-making. Taken together, these various limitations have prevented AI systems such as automatic medical diagnosis or autonomous vehicles from being sufficiently trustworthy for wide deployment. The massive proliferation of AI across society will require radically new ideas to yield technology that will not sacrifice our productivity, our quality of life, or our values.
翻訳日:2021-05-14 11:05:46 公開日:2020-12-11
# (参考訳) マニフォールド学習を用いた行列補完のための深層学習手法

Deep Learning Approach for Matrix Completion Using Manifold Learning ( http://arxiv.org/abs/2012.06063v1 )

ライセンス: CC BY 4.0
Saeid Mehrdad, Mohammad Hossein Kahaei(参考訳) 行列の完成は、様々な研究分野に広く応用されているため、多くの注目を集め、研究されている。 既存の行列補完法は、データ行列のエントリ間の非線形(あるいは線形)関係のみを考慮し、線形(または非線形)関係を潜在的に無視する。 本稿では,線形モデルと非線形モデルを組み合わせたデータ行列のための新しい潜在変数モデルを提案し,データ行列のエントリ間の線形関係と非線形関係に対処する新しい深層ニューラルネットワークに基づく行列補完アルゴリズムを提案する。 提案手法は2つの分枝からなる。 第1のブランチは列の潜在表現を学び、隠れたニューラルネットワーク層を通じて部分的に観察された行列の列を再構築する。 2番目のブランチは行に対して同じことをします。 さらに、マルチタスク学習の原則に基づき、これら2つのブランチを連携させ、オーバーフィッティングを減らすための新しい正規化手法を導入する。 具体的には、欠落したデータのエントリをメインタスクとして回収し、補助タスクとして多様体学習を行う。 補助タスクは、ネットワークの重みを制約し、正規化要因と見なすことができ、メインタスクを改善し、過度な適合を減らす。 合成データと実世界データから得られた実験結果から,提案手法の有効性を最新行列補完法と比較して検証した。

Matrix completion has received vast amount of attention and research due to its wide applications in various study fields. Existing methods of matrix completion consider only nonlinear (or linear) relations among entries in a data matrix and ignore linear (or nonlinear) relationships latent. This paper introduces a new latent variables model for data matrix which is a combination of linear and nonlinear models and designs a novel deep-neural-network-based matrix completion algorithm to address both linear and nonlinear relations among entries of data matrix. The proposed method consists of two branches. The first branch learns the latent representations of columns and reconstructs the columns of the partially observed matrix through a series of hidden neural network layers. The second branch does the same for the rows. In addition, based on multi-task learning principles, we enforce these two branches work together and introduce a new regularization technique to reduce over-fitting. More specifically, the missing entries of data are recovered as a main task and manifold learning is performed as an auxiliary task. The auxiliary task constrains the weights of the network so it can be considered as a regularizer, improving the main task and reducing over-fitting. Experimental results obtained on the synthetic data and several real-world data verify the effectiveness of the proposed method compared with state-of-the-art matrix completion methods.
翻訳日:2021-05-14 11:00:48 公開日:2020-12-11
# (参考訳) レーザーデータに基づくインテリジェント車両用車線レベル道路地図の自動生成

Laser Data Based Automatic Generation of Lane-Level Road Map for Intelligent Vehicles ( http://arxiv.org/abs/2101.05066v1 )

ライセンス: CC BY 4.0
Zehai Yu, Hui Zhu, Linglong Lin, Huawei Liang, Biao Yu, Weixin Huang(参考訳) インテリジェントな車両システムの開発により、多くの面で高精度の道路地図が求められている。 自動車線抽出とモデリングは、正確な車線レベルの道路地図を生成する上で最も重要なステップである。 本稿では,車線レベル道路地図自動生成システムを提案する。 地上の道路マーキングを抽出するために,背景と道路マーキングのばらつきを最大化するレーザデータの強度値を算出するマルチリージョン大津しきい値法を適用した。 抽出された道路マーキングポイントはラスター画像に投影され、2段階クラスタリングアルゴリズムを用いてクラスタ化される。 その後、これらのクラスターから線が最小有界矩形の形状によって認識される。 地図の保存効率を確保するために,ベイズ推定法を用いて,レーン線を立方次多項式曲線に近似する。 提案したレーンレベルの道路地図生成システムは,中国河北省の都市部および高速道路の条件下で試験されている。 実験結果から,本手法は抽出およびクラスタリング効果に優れ,10cm未満の誤差で高い位置精度を達成できることが示唆された。

With the development of intelligent vehicle systems, a high-precision road map is increasingly needed in many aspects. The automatic lane lines extraction and modeling are the most essential steps for the generation of a precise lane-level road map. In this paper, an automatic lane-level road map generation system is proposed. To extract the road markings on the ground, the multi-region Otsu thresholding method is applied, which calculates the intensity value of laser data that maximizes the variance between background and road markings. The extracted road marking points are then projected to the raster image and clustered using a two-stage clustering algorithm. Lane lines are subsequently recognized from these clusters by the shape features of their minimum bounding rectangle. To ensure the storage efficiency of the map, the lane lines are approximated to cubic polynomial curves using a Bayesian estimation approach. The proposed lane-level road map generation system has been tested on urban and expressway conditions in Hefei, China. The experimental results on the datasets show that our method can achieve excellent extraction and clustering effect, and the fitted lines can reach a high position accuracy with an error of less than 10 cm
翻訳日:2021-05-14 10:44:16 公開日:2020-12-11
# (参考訳) Euler Particle Transportによる生成学習

Generative Learning With Euler Particle Transport ( http://arxiv.org/abs/2012.06094v1 )

ライセンス: CC BY 4.0
Yuan Gao, Jian Huang, Yuling Jiao, Jin Liu, Xiliang Lu and Zhijian Yang(参考訳) 生成学習のためのEuler Particle Transport (EPT) アプローチを提案する。 提案手法は,モンジュ・アンペア方程式を特徴とする目標分布に対する基準分布から最適輸送マップを求める問題に動機づけられる。 測度空間の勾配流の観点から、モンゲ・アンペア方程式の無限小線型化を解釈すると、確率的マッケイン・ブラソフ方程式が導かれる。 我々はこの方程式を解くためにフォワードオイラー法を用いる。 結果として生じる前方オイラー写像は、目標への参照分布を前進させる。 この写像は単純な剰余写像の列の合成であり、計算的に安定であり、訓練が容易である。 トレーニングにおける重要なタスクは、残留マップを決定する密度比や差を推定することである。 深部密度比(差分)フィッティングを用いた勾配ペナルティを伴うブレグマン分岐に基づいて密度比(差分)を推定する。 提案する密度比(差分)推定器は,データが低次元多様体上で支持されている場合,「次元の曲線」に支障を来さないことを示す。 多モード合成データセットを用いた数値実験と実ベンチマークデータセットにおける既存手法との比較により,提案手法の有効性が示された。

We propose an Euler particle transport (EPT) approach for generative learning. The proposed approach is motivated by the problem of finding an optimal transport map from a reference distribution to a target distribution characterized by the Monge-Ampere equation. Interpreting the infinitesimal linearization of the Monge-Ampere equation from the perspective of gradient flows in measure spaces leads to a stochastic McKean-Vlasov equation. We use the forward Euler method to solve this equation. The resulting forward Euler map pushes forward a reference distribution to the target. This map is the composition of a sequence of simple residual maps, which are computationally stable and easy to train. The key task in training is the estimation of the density ratios or differences that determine the residual maps. We estimate the density ratios (differences) based on the Bregman divergence with a gradient penalty using deep density-ratio (difference) fitting. We show that the proposed density-ratio (difference) estimators do not suffer from the "curse of dimensionality" if data is supported on a lower-dimensional manifold. Numerical experiments with multi-mode synthetic datasets and comparisons with the existing methods on real benchmark datasets support our theoretical results and demonstrate the effectiveness of the proposed method.
翻訳日:2021-05-14 09:51:33 公開日:2020-12-11
# (参考訳) ペアビュー非教師なしグラフ表現学習

Pair-view Unsupervised Graph Representation Learning ( http://arxiv.org/abs/2012.06113v1 )

ライセンス: CC BY-SA 4.0
You Li, Binli Luo, Ning Gui(参考訳) 低次元グラフ埋め込みは、リンク関連コンテンツレコメンデーションやノード分類タスクなど、大きなグラフの様々な下流タスクで非常に有用であることが証明されている。 既存の埋め込みアプローチは、GNNのノード認識フィールドやランダムウォークのコンテクストノードなど、情報集約の基本的な単位としてノードを取り上げている。 このようなノードビューによって引き起こされた主な欠点は、ノード間の複合関係を表現するためのサポートの欠如である。 この目的のために、グラフ埋め込みのコアとして「ノード」よりも高いレベルの単位である「ペア」を使用するソリューションであるPairE(Pair Embedding)を提案する。 したがって、複数自己監督型オートエンコーダは、2つのプレテキストタスクを満たすように設計され、各ペアとその周辺状況の特徴分布を再構成する。 PairEには3つの大きな利点がある: 1) ノードビューを越えたインフォーマティブな埋め込みはグラフのよりリッチな情報を保存することができる; 2) シンプルに、PairEが提供するソリューションは時間節約であり、ストレージ効率が低く、ハイパーパラメータが少ない; 3) 導入したトランスレータ演算子を使ってノード埋め込みにペア埋め込みをマッピングする高い適応性、PairEはリンクベースとノードベースのグラフ解析の両方で効果的に使用できる。 実験の結果、PairEは4つの下流タスク、特にリンク予測およびマルチラベルノード分類タスクにおいて、ベースラインの状態を常に上回ることがわかった。

Low-dimension graph embeddings have proved extremely useful in various downstream tasks in large graphs, e.g., link-related content recommendation and node classification tasks, etc. Most existing embedding approaches take nodes as the basic unit for information aggregation, e.g., node perception fields in GNN or con-textual nodes in random walks. The main drawback raised by such node-view is its lack of support for expressing the compound relationships between nodes, which results in the loss of a certain degree of graph information during embedding. To this end, this paper pro-poses PairE(Pair Embedding), a solution to use "pair", a higher level unit than a "node" as the core for graph embeddings. Accordingly, a multi-self-supervised auto-encoder is designed to fulfill two pretext tasks, to reconstruct the feature distribution for respective pairs and their surrounding context. PairE has three major advantages: 1) Informative, embedding beyond node-view are capable to preserve richer information of the graph; 2) Simple, the solutions provided by PairE are time-saving, storage-efficient, and require the fewer hyper-parameters; 3) High adaptability, with the introduced translator operator to map pair embeddings to the node embeddings, PairE can be effectively used in both the link-based and the node-based graph analysis. Experiment results show that PairE consistently outperforms the state of baselines in all four downstream tasks, especially with significant edges in the link-prediction and multi-label node classification tasks.
翻訳日:2021-05-14 09:50:16 公開日:2020-12-11
# (参考訳) DSRNA:ロバストニューラルネットワークの微分検索

DSRNA: Differentiable Search of Robust Neural Architectures ( http://arxiv.org/abs/2012.06122v1 )

ライセンス: CC BY 4.0
Ramtin Hosseini, Xingyi Yang and Pengtao Xie(参考訳) ディープラーニングアプリケーションでは、ディープニューラルネットワークのアーキテクチャは高い精度を達成するために不可欠である。 高性能なニューラルアーキテクチャを自動検索する多くの手法が提案されている。 しかし、これらの検索されたアーキテクチャは敵の攻撃を受けやすい。 入力データの小さな摂動はアーキテクチャをレンダリングして予測結果を大きく変えることができる。 そこで本研究では,ロバストなニューラルネットワークの可微分探索を行う手法を提案する。 本手法では,認定下界とヤコビノルム境界に基づいて,アーキテクチャのロバスト性を測定するために2つの微分可能なメトリクスを定義する。 次に、ロバスト性メトリクスを最大化することでロバストなアーキテクチャを探します。 アーキテクチャのロバスト性を暗黙の方法で改善することを目的とした従来のアプローチとは違って,ロバストなアーキテクチャを抽出するためのロバスト性メトリクスを明示的にかつ直接的に最大化する手法である。 CIFAR-10, ImageNet, MNISTでは,本手法のロバスト性に関するゲームベース評価と検証ベース評価を行う。 実験結果から,本手法はNASベースラインよりも各種のノルムバウンド攻撃に対して堅牢であること,攻撃がない場合のベースラインよりも精度が高いこと,および,ベースラインよりも高い認証下限を有することがわかった。

In deep learning applications, the architectures of deep neural networks are crucial in achieving high accuracy. Many methods have been proposed to search for high-performance neural architectures automatically. However, these searched architectures are prone to adversarial attacks. A small perturbation of the input data can render the architecture to change prediction outcomes significantly. To address this problem, we propose methods to perform differentiable search of robust neural architectures. In our methods, two differentiable metrics are defined to measure architectures' robustness, based on certified lower bound and Jacobian norm bound. Then we search for robust architectures by maximizing the robustness metrics. Different from previous approaches which aim to improve architectures' robustness in an implicit way: performing adversarial training and injecting random noise, our methods explicitly and directly maximize robustness metrics to harvest robust architectures. On CIFAR-10, ImageNet, and MNIST, we perform game-based evaluation and verification-based evaluation on the robustness of our methods. The experimental results show that our methods 1) are more robust to various norm-bound attacks than several robust NAS baselines; 2) are more accurate than baselines when there are no attacks; 3) have significantly higher certified lower bounds than baselines.
翻訳日:2021-05-14 09:39:24 公開日:2020-12-11
# (参考訳) 3次元畳み込みリカレントネットワークによる映像予測のためのログ状正規化KL分散

A Log-likelihood Regularized KL Divergence for Video Prediction with A 3D Convolutional Variational Recurrent Network ( http://arxiv.org/abs/2012.06123v1 )

ライセンス: CC BY 4.0
Haziq Razali and Basura Fernando(参考訳) 潜在変数モデルの使用は、シーケンス上の確率分布をモデル化する強力なツールであることが示されている。 本稿では,ビデオフレーム予測の課題に対して,リカレントネットワークを2つの方法で拡張する新しい変動モデルを提案する。 まず,リカレントモデルを含む全モジュールに3次元畳み込みを導入してフレーム予測を行い,各時間ステップでビデオフレームのシーケンスを入力・出力する。 これにより、変動反復モデル内の時空間情報をよりうまく活用し、高品質な予測を生成できる。 第2に,変分モデルで一般的に用いられるkl発散に加えて,最大確率推定を導入することにより,変分モデルの潜在損失を増大させる。 この単純な拡張は変分自己エンコーダ損失関数のより強力な正則化器として機能し、より良い結果と一般化性が得られる。 実験により,本モデルは,パラメータを少なくしながら,複数のベンチマークで既存の映像予測手法より優れていることが示された。

The use of latent variable models has shown to be a powerful tool for modeling probability distributions over sequences. In this paper, we introduce a new variational model that extends the recurrent network in two ways for the task of video frame prediction. First, we introduce 3D convolutions inside all modules including the recurrent model for future frame prediction, inputting and outputting a sequence of video frames at each timestep. This enables us to better exploit spatiotemporal information inside the variational recurrent model, allowing us to generate high-quality predictions. Second, we enhance the latent loss of the variational model by introducing a maximum likelihood estimate in addition to the KL divergence that is commonly used in variational models. This simple extension acts as a stronger regularizer in the variational autoencoder loss function and lets us obtain better results and generalizability. Experiments show that our model outperforms existing video prediction methods on several benchmarks while requiring fewer parameters.
翻訳日:2021-05-14 09:11:56 公開日:2020-12-11
# (参考訳) ダークフラッシュノーマルカメラ

A Dark Flash Normal Camera ( http://arxiv.org/abs/2012.06125v1 )

ライセンス: CC BY 4.0
Zhihao Xia, Jason Lawrence, Supreeth Achar(参考訳) カジュアル撮影は、低画質の画像が得られ、下流処理の性能が低下する未制御照明でしばしば行われる。 近赤外光源(NIR)とカメラ(いわゆる「暗フラッシュ画像」)で可視光を補うことで、これらの条件にもかかわらず人物を映し出すシーンの表面の正常さと反射率マップを推定する問題を考察する。 本手法は、任意の可視光下で撮影した単一カラー画像と、制御されたフロントライトNIR照明下で撮影した単一ダークフラッシュ画像とを同一視点で入力し、通常の地図、拡散アルベドマップ、シーンの特異強度マップを演算する。 地上の真実の正規化と顔の反射率マップの取得が難しいため,ステレオ深度信号と測光シェーディングキューという2つの相補的情報源からの情報を組み合わせた,新しいトレーニング手法を提案する。 本手法は,様々な被写体や照明条件から評価し,ステレオ形状の最適化と影の充填という2つの応用例について述べる。

Casual photography is often performed in uncontrolled lighting that can result in low quality images and degrade the performance of downstream processing. We consider the problem of estimating surface normal and reflectance maps of scenes depicting people despite these conditions by supplementing the available visible illumination with a single near infrared (NIR) light source and camera, a so-called "dark flash image". Our method takes as input a single color image captured under arbitrary visible lighting and a single dark flash image captured under controlled front-lit NIR lighting at the same viewpoint, and computes a normal map, a diffuse albedo map, and a specular intensity map of the scene. Since ground truth normal and reflectance maps of faces are difficult to capture, we propose a novel training technique that combines information from two readily available and complementary sources: a stereo depth signal and photometric shading cues. We evaluate our method over a range of subjects and lighting conditions and describe two applications: optimizing stereo geometry and filling the shadows in an image.
翻訳日:2021-05-14 08:58:28 公開日:2020-12-11
# (参考訳) 医薬品設計におけるアンサンブル法の比較分析

A Comparative Analysis of the Ensemble Methods for Drug Design ( http://arxiv.org/abs/2012.07640v1 )

ライセンス: CC BY 4.0
Rifkat Davronova and Fatima Adilovab(参考訳) 定量的構造活性相関 (QSAR) は、化学化合物の構造特性と生物活性の関係を同定するコンピュータモデリング手法である。 薬物発見にはQSARモデリングが必要であるが、多くの制限がある。 アンサンブルベースの機械学習アプローチは、制限を克服し、信頼できる予測を生成するために使用されている。 アンサンブル学習は多様なモデルを作り、それらを組み合わせます。 比較分析では,各アンサンブルアルゴリズムと基本アルゴリズムのペアリングを行ったが,基本アルゴリズムも別々に検討した。 この構成では、57のアルゴリズムが開発され、4つの異なるデータセットで比較された。 そこで,多様なモデルを構築し,それらを統合する複雑なアンサンブル手法を提案する。 提案した個々のモデルは統合されたモデルとして印象的な結果を示さなかったが、組み合わせると最も重要な予測器とみなされた。 我々は、アンサンブルが必ずしも個々のアルゴリズムよりもよい結果を与えるかどうかを評価した。 この記事で実験結果を得るために書かれたPythonコードはGithubにアップロードされた(https://github.com/rifqat/Comparative-Analysis)。

Quantitative structure-activity relationship (QSAR) is a computer modeling technique for identifying relationships between the structural properties of chemical compounds and biological activity. QSAR modeling is necessary for drug discovery, but it has many limitations. Ensemble-based machine learning approaches have been used to overcome limitations and generate reliable predictions. Ensemble learning creates a set of diverse models and combines them. In our comparative analysis, each ensemble algorithm was paired with each of the basic algorithms, but the basic algorithms were also investigated separately. In this configuration, 57 algorithms were developed and compared on 4 different datasets. Thus, a technique for complex ensemble method is proposed that builds diversified models and integrates them. The proposed individual models did not show impressive results as a unified model, but it was considered the most important predictor when combined. We assessed whether ensembles always give better results than individual algorithms. The Python code written to get experimental results in this article has been uploaded to Github (https://github.com/rifqat/Comparative-Analysis).
翻訳日:2021-05-14 08:42:08 公開日:2020-12-11
# (参考訳) ParsiNLU:ペルシア語に対する言語理解の課題のスイート

ParsiNLU: A Suite of Language Understanding Challenges for Persian ( http://arxiv.org/abs/2012.06154v1 )

ライセンス: CC BY 4.0
Daniel Khashabi, Arman Cohan, Siamak Shakeri, Pedram Hosseini, Pouya Pezeshkpour, Malihe Alikhani, Moin Aminnaseri, Marzieh Bitaab, Faeze Brahman, Sarik Ghazarian, Mozhdeh Gheini, Arman Kabiri, Rabeeh Karimi Mahabadi, Omid Memarrast, Ahmadreza Mosallanezhad, Erfan Noury, Shahab Raji, Mohammad Sadegh Rasooli, Sepideh Sadeghi, Erfan Sadeqi Azer, Niloofar Safi Samghabadi, Mahsa Shafaei, Saber Sheybani, Ali Tazarv, Yadollah Yaghoobzadeh(参考訳) 近年の自然言語理解(NLU)問題への取り組みの進展にもかかわらず、この進歩の大部分は英語のような資源に富む言語に集中している。 この研究は、世界で最も広く話されている言語の一つであるペルシア語に焦点を当てているが、このリッチ言語で利用可能なNLUデータセットは少ない。 高品質な評価データセットの可用性は、異なるNLUタスクやドメインの進捗を確実に評価するために必要である。 私たちはペルシャ語で最初のベンチマークであるParsiNLUを紹介します。 これらのデータセットは、多数の方法で収集され、しばしばネイティブスピーカーによる手動アノテーションを含む。 これにより、6つの異なるNLUタスクにわたる14.5$k以上の新規インスタンスが生成される。 さらに,このベンチマークでは,最先端のモノリンガルおよび多言語事前学習言語モデルの最初の結果を提示し,人間のパフォーマンスと比較し,ペルシャにおける自然言語理解の課題に取り組む能力に関する貴重な知見を提供する。 ParsiNLUがペルシア語理解のさらなる研究と進歩を後押しすることを願っている。

Despite the progress made in recent years in addressing natural language understanding (NLU) challenges, the majority of this progress remains to be concentrated on resource-rich languages like English. This work focuses on Persian language, one of the widely spoken languages in the world, and yet there are few NLU datasets available for this rich language. The availability of high-quality evaluation datasets is a necessity for reliable assessment of the progress on different NLU tasks and domains. We introduce ParsiNLU, the first benchmark in Persian language that includes a range of high-level tasks -- Reading Comprehension, Textual Entailment, etc. These datasets are collected in a multitude of ways, often involving manual annotations by native speakers. This results in over 14.5$k$ new instances across 6 distinct NLU tasks. Besides, we present the first results on state-of-the-art monolingual and multi-lingual pre-trained language-models on this benchmark and compare them with human performance, which provides valuable insights into our ability to tackle natural language understanding challenges in Persian. We hope ParsiNLU fosters further research and advances in Persian language understanding.
翻訳日:2021-05-14 08:34:50 公開日:2020-12-11
# (参考訳) Voxel Super-ResolutionとLearred Implicit Representationを組み合わせた多視点画像からの詳細な3次元人体再構成

Detailed 3D Human Body Reconstruction from Multi-view Images Combining Voxel Super-Resolution and Learned Implicit Representation ( http://arxiv.org/abs/2012.06178v1 )

ライセンス: CC BY 4.0
Zhongguo Li, Magnus Oskarsson, Anders Heyden(参考訳) 画像から詳細な3次元人体モデルを再構築する作業は興味深いが、人間の身体の自由度が高いコンピュータビジョンでは難しい。 この問題に対処するために,暗黙表現の学習に基づくボクセル超解像を組み合わせた多視点画像から詳細な3次元人体を再構築する粗大な手法を提案する。 まず,多視点画像から多段階の時間ガラスネットワークから抽出したマルチスケール特徴に基づいて暗黙の表現を学習することにより,粗い3次元モデルを推定する。 そして、粗い3dモデルによって生成された低解像度ボクセルグリッドを入力として、暗黙表現に基づくボクセル超解像を多段3d畳み込みニューラルネットワークを介して学習する。 最後に、洗練された精巧な3d人体モデルはvoxel super- resolutionによって作成することができ、細部を保存でき、粗い3dモデルの偽の再構築を低減できる。 暗黙的表現から見れば,本手法のトレーニングプロセスはメモリ効率が高く,多視点画像から得られた詳細な3次元人体は,高分解能幾何を用いた連続決定境界である。 また,voxelスーパーレゾリューションに基づく粗粒度法では,偽復元を除去し,最終レゾリューションの外観詳細を保存できる。 実験では,実データと合成データの両方に様々なポーズと形状を持つ画像から,定量的に定性的に3次元人体再構成を実現する。

The task of reconstructing detailed 3D human body models from images is interesting but challenging in computer vision due to the high freedom of human bodies. In order to tackle the problem, we propose a coarse-to-fine method to reconstruct a detailed 3D human body from multi-view images combining voxel super-resolution based on learning the implicit representation. Firstly, the coarse 3D models are estimated by learning an implicit representation based on multi-scale features which are extracted by multi-stage hourglass networks from the multi-view images. Then, taking the low resolution voxel grids which are generated by the coarse 3D models as input, the voxel super-resolution based on an implicit representation is learned through a multi-stage 3D convolutional neural network. Finally, the refined detailed 3D human body models can be produced by the voxel super-resolution which can preserve the details and reduce the false reconstruction of the coarse 3D models. Benefiting from the implicit representation, the training process in our method is memory efficient and the detailed 3D human body produced by our method from multi-view images is the continuous decision boundary with high-resolution geometry. In addition, the coarse-to-fine method based on voxel super-resolution can remove false reconstructions and preserve the appearance details in the final reconstruction, simultaneously. In the experiments, our method quantitatively and qualitatively achieves the competitive 3D human body reconstructions from images with various poses and shapes on both the real and synthetic datasets.
翻訳日:2021-05-14 07:20:17 公開日:2020-12-11
# (参考訳) メモリ拡張ニューラルネットワークを用いた衣服推薦

Garment Recommendation with Memory Augmented Neural Networks ( http://arxiv.org/abs/2012.06200v1 )

ライセンス: CC BY 4.0
Lavinia De Divitiis, Federico Becattini, Claudio Baecchi, Alberto Del Bimbo(参考訳) ファッションは社会において重要な役割を果たす。 服装を適切に組み合わせることは、人格や様式を伝える上で不可欠である。 また、社会的な服装規則に従うために、衣装を徹底的に選ぶ必要がある。 したがって、衣服を適切に組み合わせることは簡単ではない。 ファッション業界は、これを巨大な収入源にしており、顧客に適した衣服を検索し、提案するための複雑なレコメンデーションシステムに依存している。 より良い推奨を行うために、ユーザーの好みや購入履歴を考慮してパーソナライズされた提案を行うことができる。 本稿では,記憶拡張型ニューラルネットワーク(mann)を活用し,異なる衣料品(トップスとボトムス)をペアリングする衣料推奨システムを提案する。 メモリ書き込みコントローラをトレーニングすることで、サンプルの非冗長なサブセットを格納し、与えられたトップを補完するために適切なボトムのランクリストを取得することができる。 特に、特定の衣服を組み合わせることができる様々なモダリティを検索することを目的としている。 推奨を洗練させるために、Matrix Factorizationを通じてユーザの好みを含めます。 オンラインファッションコミュニティから収集したデータセット iqon3000 について実験を行い,その成果を報告する。

Fashion plays a pivotal role in society. Combining garments appropriately is essential for people to communicate their personality and style. Also different events require outfits to be thoroughly chosen to comply with underlying social clothing rules. Therefore, combining garments appropriately might not be trivial. The fashion industry has turned this into a massive source of income, relying on complex recommendation systems to retrieve and suggest appropriate clothing items for customers. To perform better recommendations, personalized suggestions can be performed, taking into account user preferences or purchase histories. In this paper, we propose a garment recommendation system to pair different clothing items, namely tops and bottoms, exploiting a Memory Augmented Neural Network (MANN). By training a memory writing controller, we are able to store a non-redundant subset of samples, which is then used to retrieve a ranked list of suitable bottoms to complement a given top. In particular, we aim at retrieving a variety of modalities in which a certain garment can be combined. To refine our recommendations, we then include user preferences via Matrix Factorization. We experiment on IQON3000, a dataset collected from an online fashion community, reporting state of the art results.
翻訳日:2021-05-11 13:58:38 公開日:2020-12-11
# (参考訳) $\pi$-ROAD: V2Xシナリオにおけるオンデマンド緊急スライスのための学習用フレームワーク

$\pi$-ROAD: a Learn-as-You-Go Framework for On-Demand Emergency Slices in V2X Scenarios ( http://arxiv.org/abs/2012.06208v1 )

ライセンス: CC BY 4.0
Armin Okic, Lanfranco Zanzi, Vincenzo Sciancalepore, Alessandro Redondi, Xavier Costa-Perez(参考訳) vehicle-to-everything(v2x)は、近い将来、5gビジネスのメインドライバーの1つになるだろう。 自動運転など先進的なV2Xサービスの厳格な要件を満たすため、道路の被害を劇的に減らすことが想定されている。 しかし、v2xサービスがよりミッションクリティカルになるにつれて、例外的な状況でもサービスデリバリを成功させるための新しいソリューションが考案される必要がある。 交通事故、渋滞など この文脈では,道路沿いの通常の移動トラフィックパターンを自動的に学習し,非再帰事象を検出し,重大度で分類する,emph{deep learning}フレームワークである$\pi$-ROADを提案する。 $\pi$-ROADにより、オペレータは、サービス臨界度レベルに応じて既存のスライスを再分割しながら、必要に応じて専用の \emph{Emergency Network Slices (ENS) をインスタンス化できる。 本フレームワークは,欧州の高速道路の400〜kmで収集された実際の移動ネットワークトレースを用いて検証し,関連する道路イベントに関する情報を公開して拡張する。 その結果、$\pi$-ROADは未発生の道路イベントの検出と分類に成功し、すでに稼働しているサービスに対するENSの影響を最大30\%まで低減できることがわかった。

Vehicle-to-everything (V2X) is expected to become one of the main drivers of 5G business in the near future. Dedicated \emph{network slices} are envisioned to satisfy the stringent requirements of advanced V2X services, such as autonomous driving, aimed at drastically reducing road casualties. However, as V2X services become more mission-critical, new solutions need to be devised to guarantee their successful service delivery even in exceptional situations, e.g. road accidents, congestion, etc. In this context, we propose $\pi$-ROAD, a \emph{deep learning} framework to automatically learn regular mobile traffic patterns along roads, detect non-recurring events and classify them by severity level. $\pi$-ROAD enables operators to \emph{proactively} instantiate dedicated \emph{Emergency Network Slices (ENS)} as needed while re-dimensioning the existing slices according to their service criticality level. Our framework is validated by means of real mobile network traces collected within $400~km$ of a highway in Europe and augmented with publicly available information on related road events. Our results show that $\pi$-ROAD successfully detects and classifies non-recurring road events and reduces up to $30\%$ the impact of ENS on already running services.
翻訳日:2021-05-11 13:48:46 公開日:2020-12-11
# (参考訳) Commonsenseの知識によるゼロショット学習ベースラインの改善

Improving Zero Shot Learning Baselines with Commonsense Knowledge ( http://arxiv.org/abs/2012.06236v1 )

ライセンス: CC BY 4.0
Abhinaba Roy, Deepanway Ghosal, Erik Cambria, Navonil Majumder, Rada Mihalcea, Soujanya Poria(参考訳) ゼロショットラーニング(ゼロショットラーニング) – 完全に不連続なクラスのトレーニングとテストの問題は、その知識を列車クラスからテストクラスに転送する能力に大きく依存している。 伝統的に、人間の定義属性(HA)または分散単語埋め込み(DWE)から構成されるセマンティック埋め込みは、視覚的およびセマンティック埋め込みの関連性を改善することで、この伝達を促進するために用いられる。 本稿では,共通意味知識グラフであるconceptnetで定義されたノード間の明示的な関係を利用して,グラフ畳み込みネットワークベースのオートエンコーダを用いてクラスラベルの共通意味埋め込みを生成する。 3つの標準ベンチマークデータセットで実施した実験は、既存のセマンティックな埋め込みとコモンセンスの埋め込みを融合させたときに、強いベースラインを超えた。 HAとDWE。

Zero shot learning -- the problem of training and testing on a completely disjoint set of classes -- relies greatly on its ability to transfer knowledge from train classes to test classes. Traditionally semantic embeddings consisting of human defined attributes (HA) or distributed word embeddings (DWE) are used to facilitate this transfer by improving the association between visual and semantic embeddings. In this paper, we take advantage of explicit relations between nodes defined in ConceptNet, a commonsense knowledge graph, to generate commonsense embeddings of the class labels by using a graph convolution network-based autoencoder. Our experiments performed on three standard benchmark datasets surpass the strong baselines when we fuse our commonsense embeddings with existing semantic embeddings i.e. HA and DWE.
翻訳日:2021-05-11 13:23:59 公開日:2020-12-11
# (参考訳) 自然言語エンタープライズ検索のためのクエリ理解

Query Understanding for Natural Language Enterprise Search ( http://arxiv.org/abs/2012.06238v1 )

ライセンス: CC BY 4.0
Francisco Borges, Georgios Balikas, Marc Brette, Guillaume Kempf, Arvind Srikantan, Matthieu Landos, Darya Brazouskaya, Qianqian Shi(参考訳) Natural Language Search (NLS)は、キーワード検索を行う検索エンジンの機能を拡張し、ユーザーがより自然な言語でクエリを発行できるようにする。 エンジンはクエリの意味を理解し、Persons、Organizations、Time Expressionsなどをサポートするシンボルにクエリワードをマップしようとします。 そして、答えやレコード、レコードのリストなど、ユーザのニーズを満たすさまざまな形式で情報を取得する。 我々は,主要なCRMプラットフォームの検索サービスの一部として実装したNLSシステムを提案する。 システムは現在、何千もの顧客にサービスを提供している。 ユーザ調査の結果,NLSで動的レポートを作成することで,ナビゲーション検索で同じ結果が得られるのに対して,ユーザの50%以上を節約できた。 我々は、システムのアーキテクチャ、crmドメインの特異性、そしてそれらが設計決定にどのように影響したかを説明します。 システムのいくつかのサブモジュールの中で、Deep Learning Named Entity Recognizerの役割を詳述する。 この記事は、この製品の開発中に学んだ教訓に関する議論で締めくくっている。

Natural Language Search (NLS) extends the capabilities of search engines that perform keyword search allowing users to issue queries in a more "natural" language. The engine tries to understand the meaning of the queries and to map the query words to the symbols it supports like Persons, Organizations, Time Expressions etc.. It, then, retrieves the information that satisfies the user's need in different forms like an answer, a record or a list of records. We present an NLS system we implemented as part of the Search service of a major CRM platform. The system is currently in production serving thousands of customers. Our user studies showed that creating dynamic reports with NLS saved more than 50% of our user's time compared to achieving the same result with navigational search. We describe the architecture of the system, the particularities of the CRM domain as well as how they have influenced our design decisions. Among several submodules of the system we detail the role of a Deep Learning Named Entity Recognizer. The paper concludes with discussion over the lessons learned while developing this product.
翻訳日:2021-05-11 13:10:44 公開日:2020-12-11
# (参考訳) 均質ニューラルネットワークにおける適応最適化アルゴリズムのインプシットバイアス

The Implicit Bias for Adaptive Optimization Algorithms on Homogeneous Neural Networks ( http://arxiv.org/abs/2012.06244v1 )

ライセンス: CC BY 4.0
Bohan Wang, Qi Meng, Wei Chen(参考訳) 過剰に適合する能力は圧倒的だが、特定の最適化アルゴリズムによって訓練されたディープニューラルネットワークは、見当たらないデータに対して比較的よく一般化する傾向がある。 最近、研究者は最適化アルゴリズムの暗黙のバイアスについて研究している。 顕著な進歩は、勾配降下(GD)が均一な深層ニューラルネットワークのマージンを最大化することを示す研究[18]である。 GDのような一階最適化アルゴリズムを除いて、AdaGrad、RMSProp、Adamといった適応アルゴリズムは、その迅速なトレーニングプロセスのために人気がある。 一方、多くの作品が適応法が一般化性能の低下に苦しむという実証的な証拠を提供している。 しかし、適応最適化アルゴリズムの一般化に関する理論的説明はまだ欠けている。 本稿では,同次ニューラルネットワークにおける適応最適化アルゴリズムの暗黙バイアスについて検討する。 特に,ロジスティック損失を最適化する場合のパラメータの収束方向について検討する。 我々は RMSProp の収束方向が GD と同じであることを証明するが、AdaGrad の場合、収束方向は適応条件に依存する。 技術的には, 適応最適化アルゴリズムの収束方向を, 新規かつ非自明な適応勾配流とサーロゲートマージンを構築して解析するための統一的枠組みを提供する。 RMSPropとAdamが採用した指数移動平均戦略の一般化における優位性を説明する。 知る限りでは、非線形ディープニューラルネットワークにおける適応最適化の収束方向を研究する最初の研究である。

Despite their overwhelming capacity to overfit, deep neural networks trained by specific optimization algorithms tend to generalize relatively well to unseen data. Recently, researchers explained it by investigating the implicit bias of optimization algorithms. A remarkable progress is the work [18], which proves gradient descent (GD) maximizes the margin of homogeneous deep neural networks. Except the first-order optimization algorithms like GD, adaptive algorithms such as AdaGrad, RMSProp and Adam are popular owing to its rapid training process. Meanwhile, numerous works have provided empirical evidence that adaptive methods may suffer from poor generalization performance. However, theoretical explanation for the generalization of adaptive optimization algorithms is still lacking. In this paper, we study the implicit bias of adaptive optimization algorithms on homogeneous neural networks. In particular, we study the convergent direction of parameters when they are optimizing the logistic loss. We prove that the convergent direction of RMSProp is the same with GD, while for AdaGrad, the convergent direction depends on the adaptive conditioner. Technically, we provide a unified framework to analyze convergent direction of adaptive optimization algorithms by constructing novel and nontrivial adaptive gradient flow and surrogate margin. The theoretical findings explain the superiority on generalization of exponential moving average strategy that is adopted by RMSProp and Adam. To the best of knowledge, it is the first work to study the convergent direction of adaptive optimizations on non-linear deep neural networks
翻訳日:2021-05-11 13:09:57 公開日:2020-12-11
# (参考訳) トピックモデル評価のためのトピックカバレッジアプローチ

A Topic Coverage Approach to Evaluation of Topic Models ( http://arxiv.org/abs/2012.06274v1 )

ライセンス: CC BY-SA 4.0
Damir Koren\v{c}i\'c (1), Strahil Ristov (1), Jelena Repar (1), Jan \v{S}najder (2) ((1) Rudjer Bo\v{s}kovi\'c Institute, Croatia, (2) University of Zagreb, Faculty of Electrical Engineering and Computing, Croatia)(参考訳) トピックモデルがテキストコレクション内のトピックの発見に使用されるとき、自然に生じる疑問は、モデルによって引き起こされるトピックがアナリストにとって関心のあるトピックにどの程度適合しているかである。 本研究では,トピックカバレッジの測定に基づくトピックモデル評価のアプローチを調査し,モデルトピックと参照トピックのマッチングに基づくカバレッジ尺度を提案する。 本研究は,2つの異なるテキスト領域上で,異なるタイプのトピックモデルを評価することによって,アプローチの利点を実証する。 実験には、モデル品質の評価、異なるトピックカテゴリのカバレッジの分析、カバレッジと他のトピックモデル評価方法との関係が含まれる。 本論文のコントリビューションには,トピック発見のためのトピックモデルの利用に関する,カバレッジの尺度と推奨事項が含まれている。

When topic models are used for discovery of topics in text collections, a question that arises naturally is how well the model-induced topics correspond to topics of interest to the analyst. We investigate an approach to topic model evaluation based on measuring topic coverage, and propose measures of coverage based on matching between model topics and reference topics. We demonstrate the benefits of the approach by evaluating, in a series of experiments, different types of topic models on two distinct text domains. The experiments include evaluation of model quality, analysis of coverage of distinct topic categories, and the relation between coverage and other topic model evaluation methods. The contributions of the paper include the measures of coverage and the recommendations for the use of topic models for topic discovery.
翻訳日:2021-05-11 13:07:32 公開日:2020-12-11
# (参考訳) Constrained ConvNetを用いたセンサパターンノイズからの映像カメラの同定

Video Camera Identification from Sensor Pattern Noise with a Constrained ConvNet ( http://arxiv.org/abs/2012.06277v1 )

ライセンス: CC BY 4.0
Derrick Timmerman, Swaroop Bennabhaktula, Enrique Alegre and George Azzopardi(参考訳) ビデオからのソースカメラの識別は、非常に関連性の高い鑑識分析のトピックであるが、画像を使用するそれよりもはるかに研究されていない。 本研究では,ビデオフレームから抽出したカメラ固有のノイズパターンに基づいて,映像のソースカメラを特定する手法を提案する。 ノイズパターンの特徴を抽出するために,色入力を処理可能な制約付き畳み込み層の拡張版を提案する。 本システムは,映像フレームを個別に分類し,多数決によりソースカメラの識別を行うように設計されている。 提案手法は,28台のカメラから1539本の動画を収録したベンチマークVISIONデータセットを用いて評価した。 私たちの知る限りでは、これはデバイスレベルでビデオカメラの識別の課題に対処する最初の仕事です。 実験によると、我々のアプローチは非常に有望であり、WhatsAppやYouTubeの圧縮技術に頑丈でありながら、93.1%の精度を実現している。 この研究はEUが支援する4NSEEKプロジェクトの一部であり、児童性的虐待に対する法医学に焦点を当てている。

The identification of source cameras from videos, though it is a highly relevant forensic analysis topic, has been studied much less than its counterpart that uses images. In this work we propose a method to identify the source camera of a video based on camera specific noise patterns that we extract from video frames. For the extraction of noise pattern features, we propose an extended version of a constrained convolutional layer capable of processing color inputs. Our system is designed to classify individual video frames which are in turn combined by a majority vote to identify the source camera. We evaluated this approach on the benchmark VISION data set consisting of 1539 videos from 28 different cameras. To the best of our knowledge, this is the first work that addresses the challenge of video camera identification on a device level. The experiments show that our approach is very promising, achieving up to 93.1% accuracy while being robust to the WhatsApp and YouTube compression techniques. This work is part of the EU-funded project 4NSEEK focused on forensics against child sexual abuse.
翻訳日:2021-05-11 13:06:38 公開日:2020-12-11
# (参考訳) エルマイト系列推定器を用いた非パラメトリック相関の逐次推定

Sequential Estimation of Nonparametric Correlation using Hermite Series Estimators ( http://arxiv.org/abs/2012.06287v1 )

ライセンス: CC BY 4.0
Michael Stephanou and Melvin Varughese(参考訳) 本稿では,スピアマンのランク相関係数に対する新たなエルミート系列に基づく逐次推定法について述べるとともに,定常と非定常の両方に適用可能なアルゴリズムを提案する。 本研究では,2変数データストリームの局所的非パラメトリック相関を追跡可能な,スピアマンのランク相関に対する指数関数的に重み付けされた新しい推定器を提案する。 我々の知る限りでは、このアルゴリズムは移動窓のアプローチに依存しない時間変化スピアマンのランク相関を推定するために提案された最初のアルゴリズムである。 本研究は,実データと実効性を示すシミュレーション研究を通して,エルマイト系推定器の実用性について検討する。 特にシミュレーション研究は、既存のアルゴリズムと比較して競合性能を示す。 この研究の潜在的な応用は多様体である。 エルミート級数に基づくスピアマンのランク相関推定器は、時間とともに変化する可能性のある相関の高速で堅牢なオンライン計算に適用できる。 機械学習アプリケーションには、高速な機能選択や大規模データセットの階層的クラスタリングなどが含まれる。

In this article we describe a new Hermite series based sequential estimator for the Spearman's rank correlation coefficient and provide algorithms applicable in both the stationary and non-stationary settings. To treat the non-stationary setting, we introduce a novel, exponentially weighted estimator for the Spearman's rank correlation, which allows the local nonparametric correlation of a bivariate data stream to be tracked. To the best of our knowledge this is the first algorithm to be proposed for estimating a time-varying Spearman's rank correlation that does not rely on a moving window approach. We explore the practical effectiveness of the Hermite series based estimators through real data and simulation studies demonstrating good practical performance. The simulation studies in particular reveal competitive performance compared to an existing algorithm. The potential applications of this work are manifold. The Hermite series based Spearman's rank correlation estimator can be applied to fast and robust online calculation of correlation which may vary over time. Possible machine learning applications include, amongst others, fast feature selection and hierarchical clustering on massive data sets.
翻訳日:2021-05-11 12:56:21 公開日:2020-12-11
# (参考訳) 独立ランダム射影によるモノのインターネットのための軽量プライバシー保全協調学習について

On Lightweight Privacy-Preserving Collaborative Learning for Internet of Things by Independent Random Projections ( http://arxiv.org/abs/2012.07626v1 )

ライセンス: CC0 1.0
Linshan Jiang, Rui Tan, Xin Lou, Guosheng Lin(参考訳) IoT(Internet of Things)は,より優れたシステムインテリジェンスを実現するための,主要なデータ生成インフラストラクチャになります。 本稿では,多くのIoTオブジェクトが提供したデータに基づいて,学習コーディネータがより優れた機械学習モデルをトレーニングし,トレーニングデータの生形態の機密性をコーディネータに対して保護する,実用的なプライバシー保護協調学習スキームの設計と実装について考察する。 既存の分散機械学習とデータ暗号化アプローチでは、計算と通信のオーバーヘッドが大きくなり、リソース制約のあるIoTオブジェクトには適さない。 我々は、各IoTオブジェクトに対して独立したランダムプロジェクションを適用してデータを難読化し、IoTオブジェクトからの予測データに基づいて、コーディネータでディープニューラルネットワークをトレーニングするアプローチを研究する。 このアプローチでは、IoTオブジェクトに光計算オーバーヘッドを導入し、ほとんどのワークロードを十分な計算リソースを持つコーディネータに移行する。 IoTオブジェクトによって実行される独立したプロジェクションは、好奇心の強いコーディネータといくつかの妥協したIoTオブジェクトとの潜在的な衝突に対処するが、予測されたデータの複雑さを大幅に増加させる。 本稿では,高度なパターンを捉え,優れた学習性能を維持するために,ディープラーニングの優れた学習能力を活用する。 広範な比較評価により、このアプローチは、データパターンの複雑さを軽視するアプリケーションで学習するための差分プライバシおよび/またはサポートベクターマシンに付加ノイズを適用する他の軽量アプローチよりも優れていることが示されている。

The Internet of Things (IoT) will be a main data generation infrastructure for achieving better system intelligence. This paper considers the design and implementation of a practical privacy-preserving collaborative learning scheme, in which a curious learning coordinator trains a better machine learning model based on the data samples contributed by a number of IoT objects, while the confidentiality of the raw forms of the training data is protected against the coordinator. Existing distributed machine learning and data encryption approaches incur significant computation and communication overhead, rendering them ill-suited for resource-constrained IoT objects. We study an approach that applies independent random projection at each IoT object to obfuscate data and trains a deep neural network at the coordinator based on the projected data from the IoT objects. This approach introduces light computation overhead to the IoT objects and moves most workload to the coordinator that can have sufficient computing resources. Although the independent projections performed by the IoT objects address the potential collusion between the curious coordinator and some compromised IoT objects, they significantly increase the complexity of the projected data. In this paper, we leverage the superior learning capability of deep learning in capturing sophisticated patterns to maintain good learning performance. The extensive comparative evaluation shows that this approach outperforms other lightweight approaches that apply additive noisification for differential privacy and/or support vector machines for learning in the applications with light to moderate data pattern complexities.
翻訳日:2021-05-11 12:55:26 公開日:2020-12-11
# (参考訳) ADD: ストックトレンド予測を改善するための拡張ディスタングル蒸留フレームワーク

ADD: Augmented Disentanglement Distillation Framework for Improving Stock Trend Forecasting ( http://arxiv.org/abs/2012.06289v1 )

ライセンス: CC BY 4.0
Hongshun Tang, Lijun Wu, Weiqing Liu, Jiang Bian(参考訳) 株価トレンド予測は、金融分野で広く注目を集める研究方向として人気がある。 ディープラーニングの手法は有望な成果を上げていますが、生のストックデータからクリーンな機能を抽出する方法など、まだ多くの制限があります。 本稿では,ノイズ付き生データから干渉特性を除去する<emph{Augmented Disentanglement Distillation (ADD) アプローチを提案する。 具体的には,1)ストックデータから余剰情報と市場情報を分離して,相互の予測を乱す2つの要因を回避するための絡み合い構造を提案する。 また, 2) 動的自己蒸留法を適用して, 他の暗黙的干渉因子を除去することができる。 さらに,本フレームワークのデコーダモジュールのおかげで,異なる余剰および市場特性に基づいてトレーニングサンプルを増強し,性能を向上させる新たな戦略が提案されている。 我々は中国株式市場のデータで実験を行う。 その結果,提案手法は,バックテストによる実際の投資所得だけでなく,株価トレンド予測性能を著しく改善し,アプローチの有効性を強く示している。

Stock trend forecasting has become a popular research direction that attracts widespread attention in the financial field. Though deep learning methods have achieved promising results, there are still many limitations, for example, how to extract clean features from the raw stock data. In this paper, we introduce an \emph{Augmented Disentanglement Distillation (ADD)} approach to remove interferential features from the noised raw data. Specifically, we present 1) a disentanglement structure to separate excess and market information from the stock data to avoid the two factors disturbing each other's own prediction. Besides, by applying 2) a dynamic self-distillation method over the disentanglement framework, other implicit interference factors can also be removed. Further, thanks to the decoder module in our framework, 3) a novel strategy is proposed to augment the training samples based on the different excess and market features to improve performance. We conduct experiments on the Chinese stock market data. Results show that our method significantly improves the stock trend forecasting performances, as well as the actual investment income through backtesting, which strongly demonstrates the effectiveness of our approach.
翻訳日:2021-05-11 12:54:05 公開日:2020-12-11
# (参考訳) システム同定におけるOccam's Razorの超越 - モデリングダイナミクスにおけるダブルディフレッシュ

Beyond Occam's Razor in System Identification: Double-Descent when Modeling Dynamics ( http://arxiv.org/abs/2012.06341v1 )

ライセンス: CC BY 4.0
Ant\^onio H. Ribeiro, Johannes N. Hendriks, Adrian G. Wills, Thomas B. Sch\"on(参考訳) システム識別は、データから動的システムのモデルを構築することを目的としている。 モデルは、システムのダイナミクスを捉えるのに十分リッチでなければならないが、データセットから急激なランダムな影響を学ぶほど柔軟ではない。 モデル検証性能はモデル複雑性が増加するにつれてU字型曲線に従うことが典型的である。 しかし、機械学習と統計学の最近の進展は、このu字型モデルパフォーマンス曲線を「二重線」曲線が乗じる状況が観察されている。 モデルが補間能力—————(ほぼ)完璧に適合する——を補間する能力に到達した時点を超えて、パフォーマンスが2番目に低下する。 しかし、我々の知る限りでは、そのような現象は動的システムの同定という文脈では研究されていない。 本稿では,動的システムのパラメータを推定する際にも,そのような現象が観測できるのか? 人工的に生成されたデータセットと実世界のデータセットの両方に対して実験的にこのような振る舞いを検証する。

System identification aims to build models of dynamical systems from data. Traditionally, choosing the model requires the designer to balance between two goals of conflicting nature; the model must be rich enough to capture the system dynamics, but not so flexible that it learns spurious random effects from the dataset. It is typically observed that model validation performance follows a U-shaped curve as the model complexity increases. Recent developments in machine learning and statistics, however, have observed situations where a "double-descent" curve subsumes this U-shaped model-performance curve. With a second decrease in performance occurring beyond the point where the model has reached the capacity of interpolating - i.e., (near) perfectly fitting - the training data. To the best of our knowledge, however, such phenomena have not been studied within the context of the identification of dynamic systems. The present paper aims to answer the question: "Can such a phenomenon also be observed when estimating parameters of dynamic systems?" We show the answer is yes, verifying such behavior experimentally both for artificially generated and real-world datasets.
翻訳日:2021-05-11 12:15:55 公開日:2020-12-11
# (参考訳) 双眼視のサイクロピー幾何学

Cyclopean Geometry of Binocular Vision ( http://arxiv.org/abs/2012.06363v1 )

ライセンス: CC BY 4.0
Miles Hansard and Radu Horaud(参考訳) 双眼射影の幾何学は、霊長類視覚系を参照して解析される。 特に網膜画像に対する協調眼球運動の影響について検討した。 適切なOculomotorパラメータ化が定義され、古典的なバージョンと頂点角を補完するように示される。 中間線ホロプターが同定され、その後システムのエピポーラ形状を構築するのに使用される。 エピポールと中間線ホロープターの投影を組み合わせることで本質マトリックスが得られることを示した。 固定点を含む平面に対して深さを測定するシーンの局所モデルを採用する。 両眼差場は対称パラメータ化が与えられ、未知のシーン深度が対応する画像特徴の位置を決定する。 結果のサイクロピア深度マップは推定されたオキュロモータパラメータと組み合わせて、シーンの局所的な表現を生成することができる。 網膜画像からの視覚方向と奥行きの回復について, 関連する精神物理学的, 神経生理学的文献から考察した。

The geometry of binocular projection is analyzed, with reference to the primate visual system. In particular, the effects of coordinated eye movements on the retinal images are investigated. An appropriate oculomotor parameterization is defined, and is shown to complement the classical version and vergence angles. The midline horopter is identified, and subsequently used to construct the epipolar geometry of the system. It is shown that the Essential matrix can be obtained by combining the epipoles with the projection of the midline horopter. A local model of the scene is adopted, in which depth is measured relative to a plane containing the fixation point. The binocular disparity field is given a symmetric parameterization, in which the unknown scene-depths determine the location of corresponding image-features. The resulting Cyclopean depth-map can be combined with the estimated oculomotor parameters, to produce a local representation of the scene. The recovery of visual direction and depth from retinal images is discussed, with reference to the relevant psychophysical and neurophysiological literature.
翻訳日:2021-05-11 08:01:25 公開日:2020-12-11
# (参考訳) 群間隔を用いたデータからの物理的に一貫した数学的モデル学習

Learning physically consistent mathematical models from data using group sparsity ( http://arxiv.org/abs/2012.06391v1 )

ライセンス: CC BY 4.0
Suryanarayana Maddu, Bevan L. Cheeseman, Christian L. M\"uller, Ivo F. Sbalzarini(参考訳) 本研究では,(1)保存則の施行,2)モデル等価性の確保,3)測定データから微分方程式モデルを学習または推論する場合の対称性の保証に使用可能な群疎回帰に基づく統計的学習フレームワークを提案する。 データから直接$\textit{interpretable}$ 数学的モデルを学ぶことは、貴重なモデリングアプローチとして現れました。 しかし、生物学、高騒音レベル、センサーによる相関、強いシステム間変動といった分野では、モデル構造に追加の制約を加えることなく、データ駆動モデルや物理的に一貫性のないモデルをレンダリングすることができる。 したがって、物理原則から$\textit{prior}$の知識を活用して、単にデータに最適なモデルではなく、"生物学的に妥当で物理的に一貫性のある"モデルを学ぶことが重要です。 本稿では, パラメータ調整を最小限に抑え, 物理的に一貫したモデルを推算するために, 安定選択を用いた新しい群Iterative Hard Thresholding (gIHT) アルゴリズムを提案する。 データ駆動モデリングにおける$\textit{priors}$の利点を示すシステム生物学からのいくつかの応用例を示す。

We propose a statistical learning framework based on group-sparse regression that can be used to 1) enforce conservation laws, 2) ensure model equivalence, and 3) guarantee symmetries when learning or inferring differential-equation models from measurement data. Directly learning $\textit{interpretable}$ mathematical models from data has emerged as a valuable modeling approach. However, in areas like biology, high noise levels, sensor-induced correlations, and strong inter-system variability can render data-driven models nonsensical or physically inconsistent without additional constraints on the model structure. Hence, it is important to leverage $\textit{prior}$ knowledge from physical principles to learn "biologically plausible and physically consistent" models rather than models that simply fit the data best. We present a novel group Iterative Hard Thresholding (gIHT) algorithm and use stability selection to infer physically consistent models with minimal parameter tuning. We show several applications from systems biology that demonstrate the benefits of enforcing $\textit{priors}$ in data-driven modeling.
翻訳日:2021-05-11 07:35:08 公開日:2020-12-11
# (参考訳) ニューラルアーキテクチャ探索のための微分進化

Differential Evolution for Neural Architecture Search ( http://arxiv.org/abs/2012.06400v1 )

ライセンス: CC BY 4.0
Noor Awad, Neeratyoy Mallik, Frank Hutter(参考訳) ニューラルアーキテクチャサーチ(NAS)手法は、次にどのアーキテクチャを評価するかを決定する検索戦略と、パフォーマンスを評価するパフォーマンス評価戦略(例えば、フル評価、マルチフィデリティ評価、ワンショットモデル)に依存している。 本稿では,検索戦略に焦点をあてる。 我々はNASコミュニティに差分進化の単純かつ強力な進化アルゴリズムを導入する。 その結果,NAS-Bench-101,NAS-Bench-1Shot1,NAS-Bench-201,NAS-HPOをベースとした13個のNASベンチマークにおいて,この探索戦略を正規化進化とベイズ最適化と総合的に比較し,より堅牢な結果が得られることを示した。

Neural architecture search (NAS) methods rely on a search strategy for deciding which architectures to evaluate next and a performance estimation strategy for assessing their performance (e.g., using full evaluations, multi-fidelity evaluations, or the one-shot model). In this paper, we focus on the search strategy. We introduce the simple yet powerful evolutionary algorithm of differential evolution to the NAS community. Using the simplest performance evaluation strategy of full evaluations, we comprehensively compare this search strategy to regularized evolution and Bayesian optimization and demonstrate that it yields improved and more robust results for 13 tabular NAS benchmarks based on NAS-Bench-101, NAS-Bench-1Shot1, NAS-Bench-201 and NAS-HPO bench.
翻訳日:2021-05-11 07:12:49 公開日:2020-12-11
# (参考訳) 深部畳み込みニューラルネットワークを用いた模倣型アクティブカメラ制御

Imitation-Based Active Camera Control with Deep Convolutional Neural Network ( http://arxiv.org/abs/2012.06428v1 )

ライセンス: CC BY 4.0
Christos Kyrkou(参考訳) スマートカメラ監視、トラフィック監視、インテリジェント環境などのアプリケーションに対する自動的な視覚監視と制御の必要性が高まっているため、視覚的アクティブ監視のための方法の改善が必要である。 従来、アクティブな監視タスクは、検出、フィルタリング、制御などのモジュールのパイプラインを通じて処理されていた。 本稿では, コンピュータビジョンと制御を組み合わせることで, 視覚情報からカメラの動きまで, 教師ありで解決すべき模倣学習問題として, アクティブな視覚モニタリングを枠組し, コンピュータビジョンと制御を組み合わせることで, 満足のいくソリューションを提供する。 ディープ畳み込みニューラルネットワークは、カメラを複数のターゲットに追従するために必要な処理パイプライン全体を学び、その密度を単一のイメージから推定するカメラコントローラとしてエンドツーエンドに訓練される。 実験結果から,提案手法は各種条件に対して堅牢であり,監視対象数,監視時間ともに従来の手法よりも優れた監視性能を達成でき,最大25FPSに達することが示唆された。 これにより、監視およびスマート環境アプリケーションにおけるマルチターゲットアクティブモニタリングのための実用的で安価なソリューションとなる。

The increasing need for automated visual monitoring and control for applications such as smart camera surveillance, traffic monitoring, and intelligent environments, necessitates the improvement of methods for visual active monitoring. Traditionally, the active monitoring task has been handled through a pipeline of modules such as detection, filtering, and control. In this paper we frame active visual monitoring as an imitation learning problem to be solved in a supervised manner using deep learning, to go directly from visual information to camera movement in order to provide a satisfactory solution by combining computer vision and control. A deep convolutional neural network is trained end-to-end as the camera controller that learns the entire processing pipeline needed to control a camera to follow multiple targets and also estimate their density from a single image. Experimental results indicate that the proposed solution is robust to varying conditions and is able to achieve better monitoring performance both in terms of number of targets monitored as well as in monitoring time than traditional approaches, while reaching up to 25 FPS. Thus making it a practical and affordable solution for multi-target active monitoring in surveillance and smart-environment applications.
翻訳日:2021-05-11 07:04:30 公開日:2020-12-11
# (参考訳) 類似北欧語を区別する

Discriminating Between Similar Nordic Languages ( http://arxiv.org/abs/2012.06431v1 )

ライセンス: CC BY 4.0
Ren\'e Haas, Leon Derczynski(参考訳) 言語の自動識別は難しい問題である。 近縁な言語間の区別は特に困難である。 本論文では,既存の最先端ツールで誤分類されることが多い北欧語の自動言語識別のための機械学習手法を提案する。 具体的には、デンマーク語、スウェーデン語、ノルウェー語(nynorsk)、ノルウェー語(bokm{\aa}l)、フェロー語、アイスランド語という6つの北欧語の区別に焦点を当てる。

Automatic language identification is a challenging problem. Discriminating between closely related languages is especially difficult. This paper presents a machine learning approach for automatic language identification for the Nordic languages, which often suffer miscategorisation by existing state-of-the-art tools. Concretely we will focus on discrimination between six Nordic languages: Danish, Swedish, Norwegian (Nynorsk), Norwegian (Bokm{\aa}l), Faroese and Icelandic.
翻訳日:2021-05-11 06:54:20 公開日:2020-12-11
# (参考訳) 自己教師付きシャムオートエンコーダによる野生画像のリライト

Relighting Images in the Wild with a Self-Supervised Siamese Auto-Encoder ( http://arxiv.org/abs/2012.06444v1 )

ライセンス: CC BY 4.0
Yang Liu, Alexandros Neophytou, Sunando Sengupta, Eric Sommerlade(参考訳) 本研究では,野生の単一ビュー画像の自己教師付きリライティング手法を提案する。 この方法は、シーン照明と内容に関する2つの別々のエンコーディングに画像を分解するオートエンコーダに基づいている。 この埋め込み情報を監視せずに切り離すために、いくつかの拡張操作は画像内容に影響を与えず、光方向のみに影響を及ぼすと仮定する。 球面調和損失(spherical harmonic loss)と呼ばれる新しい損失関数が導入され、照明を埋め込んで球面調和ベクトルに変換する。 youtube 8mやcelebaといった大規模データセットでモデルをトレーニングしています。 本実験は,シーン照明とリアルに再照らされた入力画像を,監督や事前形状モデルなしで正確に推定できることを示す。 監督手法と比較すると,我々のアプローチは同じような性能を持ち,一般的な照明アーチファクトを回避している。

We propose a self-supervised method for image relighting of single view images in the wild. The method is based on an auto-encoder which deconstructs an image into two separate encodings, relating to the scene illumination and content, respectively. In order to disentangle this embedding information without supervision, we exploit the assumption that some augmentation operations do not affect the image content and only affect the direction of the light. A novel loss function, called spherical harmonic loss, is introduced that forces the illumination embedding to convert to a spherical harmonic vector. We train our model on large-scale datasets such as Youtube 8M and CelebA. Our experiments show that our method can correctly estimate scene illumination and realistically re-light input images, without any supervision or a prior shape model. Compared to supervised methods, our approach has similar performance and avoids common lighting artifacts.
翻訳日:2021-05-11 06:46:20 公開日:2020-12-11
# (参考訳) 対称性サブグループの作用に不変な新しいニューラルネットワークアーキテクチャ

A New Neural Network Architecture Invariant to the Action of Symmetry Subgroups ( http://arxiv.org/abs/2012.06452v1 )

ライセンス: CC BY 4.0
Piotr Kicki, Mete Ozay, Piotr Skrzypczy\'nski(参考訳) 入力データに対する対称群の置換部分群 $g \leq s_n$ の作用に不変な関数を近似する計算効率の良い$g$-invariantニューラルネットワークを提案する。 提案されたネットワークアーキテクチャの重要な要素は、入力データの$g$-invariant latent表現を生成する新しい$g$-invariant transformationモジュールである。 理論的考察は、他の$G$不変ニューラルネットワークと比較して提案手法の有効性と強力な一般化特性を示す数値実験によって支持される。

We propose a computationally efficient $G$-invariant neural network that approximates functions invariant to the action of a given permutation subgroup $G \leq S_n$ of the symmetric group on input data. The key element of the proposed network architecture is a new $G$-invariant transformation module, which produces a $G$-invariant latent representation of the input data. Theoretical considerations are supported by numerical experiments, which demonstrate the effectiveness and strong generalization properties of the proposed method in comparison to other $G$-invariant neural networks.
翻訳日:2021-05-11 06:34:36 公開日:2020-12-11
# (参考訳) Better Call Surrogates: ハイパーパラメータ最適化のためのハイブリッド進化アルゴリズム

Better call Surrogates: A hybrid Evolutionary Algorithm for Hyperparameter optimization ( http://arxiv.org/abs/2012.06453v1 )

ライセンス: CC BY 4.0
Subhodip Biswas, Adam D Cobb, Andreea Sistrunk, Naren Ramakrishnan, Brian Jalaian(参考訳) 本稿では,機械学習(ML)モデルのハイパーパラメータ最適化のための代理支援進化アルゴリズム(EA)を提案する。 提案したSTEADEモデルは、まずRadarBasis関数補間を用いて目的関数のランドスケープを推定し、ベイズ最適化フレームワークによって導かれる新しいソリューションの進化に使用される差分進化と呼ばれるEA技術に知識を伝達する。 我々は、NeurIPS 2020におけるブラックボックス最適化チャレンジの一環として、ハイパーパラメータ最適化問題に関するモデルを実証的に評価し、バニラEAに対してSTEADEがもたらした改善を実証した。

In this paper, we propose a surrogate-assisted evolutionary algorithm (EA) for hyperparameter optimization of machine learning (ML) models. The proposed STEADE model initially estimates the objective function landscape using RadialBasis Function interpolation, and then transfers the knowledge to an EA technique called Differential Evolution that is used to evolve new solutions guided by a Bayesian optimization framework. We empirically evaluate our model on the hyperparameter optimization problems as a part of the black box optimization challenge at NeurIPS 2020 and demonstrate the improvement brought about by STEADE over the vanilla EA.
翻訳日:2021-05-11 06:21:54 公開日:2020-12-11
# (参考訳) コンテキスト: 医用画像のためのグラフに基づく自己教師型表現学習

Context Matters: Graph-based Self-supervised Representation Learning for Medical Images ( http://arxiv.org/abs/2012.06457v1 )

ライセンス: CC BY 4.0
Li Sun, Ke Yu, Kayhan Batmanghelich(参考訳) 教師付き学習法は大量の注釈付きデータセットを必要とする。 このようなデータセットの収集には時間と費用がかかる。 これまで、新型コロナウイルス(COVID-19)画像データセットに注釈を付けたものはほとんどない。 自己教師付き学習は、ラベルのないデータを利用してトレーニングをブートストラップすることができるが、自然画像の汎用的な自己教師付き手法は、文脈を十分に取り入れていない。 医用画像の場合、解剖学的には各解剖学的領域の正常な組織からの偏差を検出するのに十分な感度が望ましい。 本稿では,地域解剖学レベルと患者レベルの2段階の自己指導型表現学習目標を用いた新しいアプローチを提案する。 グラフニューラルネットワークを用いて、異なる解剖学的領域間の関係を組み込む。 グラフの構造は、各患者と解剖学的アトラスの間の解剖学的対応によって通知される。 さらに、グラフ表現は任意の任意サイズの画像をフル解像度で処理する利点がある。 肺画像の大規模コンピュータ断層撮影(CT)データセットを用いた実験により,本手法は文脈を考慮しないベースライン法と比較した。 learnt embeddedを使って、covid-19の臨床進歩を定量化し、この方法が異なる病院のcovid-19患者に広く普及していることを示す。 定性的な結果から,画像内の臨床関連領域を同定できることが示唆された。

Supervised learning method requires a large volume of annotated datasets. Collecting such datasets is time-consuming and expensive. Until now, very few annotated COVID-19 imaging datasets are available. Although self-supervised learning enables us to bootstrap the training by exploiting unlabeled data, the generic self-supervised methods for natural images do not sufficiently incorporate the context. For medical images, a desirable method should be sensitive enough to detect deviation from normal-appearing tissue of each anatomical region; here, anatomy is the context. We introduce a novel approach with two levels of self-supervised representation learning objectives: one on the regional anatomical level and another on the patient-level. We use graph neural networks to incorporate the relationship between different anatomical regions. The structure of the graph is informed by anatomical correspondences between each patient and an anatomical atlas. In addition, the graph representation has the advantage of handling any arbitrarily sized image in full resolution. Experiments on large-scale Computer Tomography (CT) datasets of lung images show that our approach compares favorably to baseline methods that do not account for the context. We use the learnt embedding to quantify the clinical progression of COVID-19 and show that our method generalizes well to COVID-19 patients from different hospitals. Qualitative results suggest that our model can identify clinically relevant regions in the images.
翻訳日:2021-05-11 06:14:53 公開日:2020-12-11
# (参考訳) 長距離特徴統合のための周期的直交畳み込み

Cyclic orthogonal convolutions for long-range integration of features ( http://arxiv.org/abs/2012.06462v1 )

ライセンス: CC BY 4.0
Federica Freddi, Jezabel R Garcia, Michael Bromberg, Sepehr Jalali, Da-Shan Shiu, Alvin Chua, Alberto Bernacchia(参考訳) 畳み込みニューラルネットワーク(cnns)では、情報は画像の各ピクセルの小さな近傍を流れ、ネットワークの深い層に到達する前に特徴の長距離統合を防いでいる。 本稿では,z$と位置$(x,y)$間の柔軟な情報フローを,少数のレイヤで画像全体にわたって実現可能な新しいアーキテクチャを提案する。 このアーキテクチャは、3つの直交畳み込みのサイクルを使用し、$(x,y)$座標だけでなく$(x,z)$と$(y,z)$座標も使う。 このようなサイクルのシーケンスを積み重ねて、cyclenetというディープネットワークを得るのです。 これは標準畳み込みの軸の置換のみを必要とするため、その性能はCNNと直接比較することができる。 このモデルでは,CIFAR-10とImageNetデータセットの画像分類において,類似サイズのCNNと比較して,競合する結果が得られる。 長距離統合はテクスチャよりも形状による物体の認識が好ましいと仮定し,CycleNetがCNNよりもスタイリングされた画像に転送することを示す。 遠隔機能の統合が重要であるpathfinderチャレンジでは、cyclenetはcnnを大きなマージンで上回っている。 また、小さな畳み込みカーネルを用いる場合であっても、CycleNetの受容フィールドのサイズは1サイクルで最大になるが、従来のCNNでは多数のレイヤを必要とする。

In Convolutional Neural Networks (CNNs) information flows across a small neighbourhood of each pixel of an image, preventing long-range integration of features before reaching deep layers in the network. We propose a novel architecture that allows flexible information flow between features $z$ and locations $(x,y)$ across the entire image with a small number of layers. This architecture uses a cycle of three orthogonal convolutions, not only in $(x,y)$ coordinates, but also in $(x,z)$ and $(y,z)$ coordinates. We stack a sequence of such cycles to obtain our deep network, named CycleNet. As this only requires a permutation of the axes of a standard convolution, its performance can be directly compared to a CNN. Our model obtains competitive results at image classification on CIFAR-10 and ImageNet datasets, when compared to CNNs of similar size. We hypothesise that long-range integration favours recognition of objects by shape rather than texture, and we show that CycleNet transfers better than CNNs to stylised images. On the Pathfinder challenge, where integration of distant features is crucial, CycleNet outperforms CNNs by a large margin. We also show that even when employing a small convolutional kernel, the size of receptive fields of CycleNet reaches its maximum after one cycle, while conventional CNNs require a large number of layers.
翻訳日:2021-05-11 06:12:32 公開日:2020-12-11
# (参考訳) dilie: 画像エンハンスメントのための深い内部学習

DILIE: Deep Internal Learning for Image Enhancement ( http://arxiv.org/abs/2012.06469v1 )

ライセンス: CC BY 4.0
Indra Deep Mastan and Shanmuganathan Raman(参考訳) 入力画像が知覚的に見栄えのよい画像に変換される一般的な深部画像強調問題を考える。 近年の画像強調手法では, スタイル転送と画像復元が問題となっている。 トレーニングデータベースとトレーニングデータ非依存(深い内部学習方法)の2つのカテゴリに大別される。 我々は,深層内部学習フレームワークで画像強調を行う。 我々のDeep Internal Learning for Image Enhancement frameworkは、コンテンツ機能とスタイル機能を強化し、強調画像中の画像コンテキストを保存するためにコンテキストコンテンツ損失を使用する。 画像強調とノイズ強調の両方の結果を示す。 その結果,画像中の非現実的変形を測定するのに効率的である構造的類似性と知覚的誤りを用いた。 提案フレームワークは,画像エンハンスメントのための関連する最先端の作業よりも優れていることを示す。

We consider the generic deep image enhancement problem where an input image is transformed into a perceptually better-looking image. Recent methods for image enhancement consider the problem by performing style transfer and image restoration. The methods mostly fall into two categories: training data-based and training data-independent (deep internal learning methods). We perform image enhancement in the deep internal learning framework. Our Deep Internal Learning for Image Enhancement framework enhances content features and style features and uses contextual content loss for preserving image context in the enhanced image. We show results on both hazy and noisy image enhancement. To validate the results, we use structure similarity and perceptual error, which is efficient in measuring the unrealistic deformation present in the images. We show that the proposed framework outperforms the relevant state-of-the-art works for image enhancement.
翻訳日:2021-05-11 06:00:00 公開日:2020-12-11
# (参考訳) 信頼性評価法によるペプチドの溶血傾向の予測

Prediction of Hemolysis Tendency of Peptides using a Reliable Evaluation Method ( http://arxiv.org/abs/2012.06470v1 )

ライセンス: CC BY 4.0
Ali Raza, Hafiz Saud Arshad(参考訳) 過去数十年間、多くのペプチドが発見され、抗菌性や抗癌性を示す。 これらの理由から、ペプチドは適切な治療候補であると考えられている。 一部のペプチドは代謝安定性が低く、毒性が高く、ペプチドのヘモリティが高い。 これは、治療に使用する前に、ペプチドの溶血傾向や毒性を評価することの重要性を強調している。 従来のペプチドの毒性評価法は、時間と費用がかかる。 本研究では,特定の血液量基準に基づく抗菌活性およびペプチド構造データベース(dbaasp)からペプチドデータ(hemo-db)を抽出し,ペプチドの溶血傾向予測のための機械学習手法(すなわち,ペプチドの溶血傾向予測法)を提案する。 溶血性または非溶血性)。 我々のモデルは、ヘモリティ予測ベンチマークを著しく改善する。 また,テストセット内のペプチドが試験セットのどのペプチドと40%以上類似していないことを保証する,信頼性の高いクラスタリングに基づくトレインテスト分割法を提案する。 このトレインテストスプリットを用いて、未知のデータ分布や新たに発見されたペプチドの予測モデル性能を推定できる。 本モデルでは,従来のランダムトレインテスト分割法を用いて,0.9986 auc-rocと97.79%のhemo-dbテストセットの精度をテストした。 さらに,クラスタリングベースの列車試験データ分割を用いて,0.997のAUC-ROCと97.58%の精度で実験を行った。 さらに,不明瞭なデータ分布(Hemo-PI3)のモデルを確認し,0.8726 AUC-ROCと79.5%の精度を記録した。 提案法では, ペプチドおよび新規に発見されたペプチドの未沈アミノ酸分布を予測し, さらなる治療効果が期待できる治療ペプチドのスクリーニングが可能となる。

There are numerous peptides discovered through past decades, which exhibit antimicrobial and anti-cancerous tendencies. Due to these reasons, peptides are supposed to be sound therapeutic candidates. Some peptides can pose low metabolic stability, high toxicity and high hemolity of peptides. This highlights the importance for evaluating hemolytic tendencies and toxicity of peptides, before using them for therapeutics. Traditional methods for evaluation of toxicity of peptides can be time-consuming and costly. In this study, we have extracted peptides data (Hemo-DB) from Database of Antimicrobial Activity and Structure of Peptides (DBAASP) based on certain hemolity criteria and we present a machine learning based method for prediction of hemolytic tendencies of peptides (i.e. Hemolytic or Non-Hemolytic). Our model offers significant improvement on hemolity prediction benchmarks. we also propose a reliable clustering-based train-tests splitting method which ensures that no peptide in train set is more than 40% similar to any peptide in test set. Using this train-test split, we can get reliable estimated of expected model performance on unseen data distribution or newly discovered peptides. Our model tests 0.9986 AUC-ROC (Area Under Receiver Operating Curve) and 97.79% Accuracy on test set of Hemo-DB using traditional random train-test splitting method. Moreover, our model tests AUC-ROC of 0.997 and Accuracy of 97.58% while using clustering-based train-test data split. Furthermore, we check our model on an unseen data distribution (at Hemo-PI 3) and we recorded 0.8726 AUC-ROC and 79.5% accuracy. Using the proposed method, potential therapeutic peptides can be screened, which may further in therapeutics and get reliable predictions for unseen amino acids distribution of peptides and newly discovered peptides.
翻訳日:2021-05-11 05:50:25 公開日:2020-12-11
# (参考訳) 人型運動の生成:環境特徴に基づく2つのアプローチの比較

Generating Human-Like Movement: A Comparison Between Two Approaches Based on Environmental Features ( http://arxiv.org/abs/2012.06474v1 )

ライセンス: CC BY 4.0
A. Zonta, S.K. Smit and A.E. Eiben(参考訳) シミュレーションで現実的な人間の振る舞いをモデル化することは、社会科学、哲学、人工知能といったいくつかの分野の間に存在する課題である。 人間の動きは、意図によって駆動される特別な行動(例えば、)である。 食料品を得る)と周囲の環境(例えば、) 新しい興味深い場所を見る好奇心) オンラインおよびオフラインで利用可能なサービスは、通常、経路を計画するときに環境を考慮しない。 環境特性に基づく人間のような軌道を生成するための2つの新しいアルゴリズムが提案されている。 また、Attraction-based A*アルゴリズムは、環境特徴からの情報を含むが、Feature-based A*アルゴリズムは、実際の軌跡から情報をその計算に注入する。 人間の類似性は、最終生成軌道を現実的なものと判断する人間の専門家によってテストされている。 本稿では, 効率, 有効性, ハイパーパラメータの感度といった重要な指標における2つの手法の比較を行った。 予め定義した基準に従って,実物に近い軌道を生成するにもかかわらず,特徴量に基づくA*アルゴリズムは,Attraction-based A*アルゴリズムと比較して時間効率が低下し,実世界におけるモデルのユーザビリティを損なうことを示す。

Modelling realistic human behaviours in simulation is an ongoing challenge that resides between several fields like social sciences, philosophy, and artificial intelligence. Human movement is a special type of behaviour driven by intent (e.g. to get groceries) and the surrounding environment (e.g. curiosity to see new interesting places). Services available online and offline do not normally consider the environment when planning a path, which is decisive especially on a leisure trip. Two novel algorithms have been presented to generate human-like trajectories based on environmental features. The Attraction-Based A* algorithm includes in its computation information from the environmental features meanwhile, the Feature-Based A* algorithm also injects information from the real trajectories in its computation. The human-likeness aspect has been tested by a human expert judging the final generated trajectories as realistic. This paper presents a comparison between the two approaches in some key metrics like efficiency, efficacy, and hyper-parameters sensitivity. We show how, despite generating trajectories that are closer to the real one according to our predefined metrics, the Feature-Based A* algorithm fall short in time efficiency compared to the Attraction-Based A* algorithm, hindering the usability of the model in the real world.
翻訳日:2021-05-11 05:44:13 公開日:2020-12-11
# (参考訳) 技術的意見:動物行動から自律ロボットへ

Technical Opinion: From Animal Behaviour to Autonomous Robots ( http://arxiv.org/abs/2012.06492v1 )

ライセンス: CC BY 4.0
Chinedu Pascal Ezenkwu and Andrew Starkey(参考訳) ロボットの非構造的現実環境への応用の高まりに伴い、ロボット学者はそのような環境の複雑さに起因する問題にますます関心を寄せている。 この問題に対する1つの解決策は、ロボットの自律性である。 自然が既に自律性の問題を解決しているので、自律ロボットの開発に適したモデルになり得る。 本稿では,動物行動の観点からロボット自律性に関する簡潔なレビューを行う。 最先端の技術を調べ、研究の方向性を示唆する。

With the rising applications of robots in unstructured real-world environments, roboticists are increasingly concerned with the problems posed by the complexity of such environments. One solution to these problems is robot autonomy. Since nature has already solved the problem of autonomy it can be a suitable model for developing autonomous robots. This paper presents a concise review on robot autonomy from the perspective of animal behaviour. It examines some state-of-the-art techniques as well as suggesting possible research directions.
翻訳日:2021-05-11 05:42:53 公開日:2020-12-11
# (参考訳) DeepObjStyle:ディープオブジェクトベースの写真スタイル転送

DeepObjStyle: Deep Object-based Photo Style Transfer ( http://arxiv.org/abs/2012.06498v1 )

ライセンス: CC BY 4.0
Indra Deep Mastan and Shanmuganathan Raman(参考訳) スタイル転送の大きな課題の1つは、出力画像と入力画像(スタイルとコンテンツ)の間の適切な画像特徴の監督である。 効率的な戦略は、スタイルのオブジェクトとコンテンツイメージの間のオブジェクトマップを定義することである。 しかし、スタイルやコンテンツイメージに異なる型や数値のセマンティックオブジェクトが存在する場合、そのようなマッピングは十分に確立されていない。 また、スタイル転送出力のコンテンツミスマッチが発生し、結果の視覚的品質が低下する可能性がある。 本稿では、データ独立フレームワークのトレーニングにおいて、スタイルを監督するための、deepobjstyleと呼ばれるオブジェクトベースのスタイル転送手法を提案する。 DeepObjStyleは、オブジェクトのセマンティクスを保存し、スタイルとコンテンツイメージがイメージ機能のミスマッチを持つ場合、難しいシナリオにおいて、より良いスタイル転送を実現する。 また、単語クラウドを含む画像のスタイル転送を行い、DeepObjStyleが適切な画像特徴監視を可能にすることを示す。 定量的比較とユーザスタディを用いて結果を検証する。

One of the major challenges of style transfer is the appropriate image features supervision between the output image and the input (style and content) images. An efficient strategy would be to define an object map between the objects of the style and the content images. However, such a mapping is not well established when there are semantic objects of different types and numbers in the style and the content images. It also leads to content mismatch in the style transfer output, which could reduce the visual quality of the results. We propose an object-based style transfer approach, called DeepObjStyle, for the style supervision in the training data-independent framework. DeepObjStyle preserves the semantics of the objects and achieves better style transfer in the challenging scenario when the style and the content images have a mismatch of image features. We also perform style transfer of images containing a word cloud to demonstrate that DeepObjStyle enables an appropriate image features supervision. We validate the results using quantitative comparisons and user studies.
翻訳日:2021-05-11 05:39:16 公開日:2020-12-11
# (参考訳) 補助モデルによる信頼度推定

Confidence Estimation via Auxiliary Models ( http://arxiv.org/abs/2012.06508v1 )

ライセンス: CC BY 4.0
Charles Corbi\`ere, Nicolas Thome, Antoine Saporta, Tuan-Hung Vu, Matthieu Cord, Patrick P\'erez(参考訳) ディープニューラルネットワーク分類器の信頼性を確実に定量化することは、そのようなモデルを安全クリティカルなアプリケーションにデプロイする上で、難しいが基本的な要件である。 本稿では,モデル信頼度のための新しい目標基準,すなわち真のクラス確率(tcp)を提案する。 我々は,TCPが標準最大クラス確率(MCP)よりも信頼性推定に優れていることを示す。 真のクラスは本質的にテスト時に未知であるため、補助モデルを用いてデータからTCPの基準を学習し、この文脈に適応した特定の学習スキームを導入することを提案する。 提案手法は,障害予測と疑似ラベルによる自己学習の課題に対して,効果的な信頼度評価を必要とする手法である。 各タスクにおける提案手法の妥当性を検証するために,広範な実験を行った。 様々なネットワークアーキテクチャを研究し,画像分類とセマンティックセグメンテーションのための小型・大規模データセットを用いた実験を行った。 テストされたベンチマークで、我々のアプローチは強いベースラインよりも優れています。

Reliably quantifying the confidence of deep neural classifiers is a challenging yet fundamental requirement for deploying such models in safety-critical applications. In this paper, we introduce a novel target criterion for model confidence, namely the true class probability (TCP). We show that TCP offers better properties for confidence estimation than standard maximum class probability (MCP). Since the true class is by essence unknown at test time, we propose to learn TCP criterion from data with an auxiliary model, introducing a specific learning scheme adapted to this context. We evaluate our approach on the task of failure prediction and of self-training with pseudo-labels for domain adaptation, which both necessitate effective confidence estimates. Extensive experiments are conducted for validating the relevance of the proposed approach in each task. We study various network architectures and experiment with small and large datasets for image classification and semantic segmentation. In every tested benchmark, our approach outperforms strong baselines.
翻訳日:2021-05-11 05:28:28 公開日:2020-12-11
# (参考訳) ウェアラブルセンサを用いたパーソナライズされたステップカウント:ドメイン適応LSTMネットワークアプローチ

Personalized Step Counting Using Wearable Sensors: A Domain Adapted LSTM Network Approach ( http://arxiv.org/abs/2012.08975v1 )

ライセンス: CC BY 4.0
Arvind Pillai, Halsey Lea, Faisal Khan, Glynn Dennis(参考訳) 運動モニターは、運動、フィットネス、健康の指標として様々な身体活動(pa)を測定するために広く使われている。 同様に、歩数における経時的傾向のリアルタイムモニタリングは、日常生活活動の変化に関するパーソナライズされた指標として、重要な臨床的可能性を持っている。 しかし, ベンダー, 身体位置, 個人歩容差の整合性は臨床的有用性に限界がある。 paモニター内の3軸加速度計は、デバイスと個人間のステップカウント精度を向上させるために活用できる。 本研究では,(1) 生三軸センサデータをモデル化し,信頼性と精度を両立させるとともに,(2) 一般化されたステップカウントモデルを新たなデータを用いて各歩行パターンに効率よく適用できる,という仮説を立てる。 まず、オープンソースの生センサデータを用いて、ステップカウントをモデル化するための長期記憶(LSTM)深層ニューラルネットワークを構築した。 そして、異なるデバイスと異なる主題を使って、新しい完全に独立したデータセットを生成しました。 最後に,個別化ステップ数精度の高いパーソナライズモデルを作成するために,少量の主題別データをドメイン化した。 これらの結果から, 大規模かつ自由なデータセットを用いてトレーニングしたモデルは, 大規模な歴史的データセットが稀な患者集団に適用可能であることが示唆された。

Activity monitors are widely used to measure various physical activities (PA) as an indicator of mobility, fitness and general health. Similarly, real-time monitoring of longitudinal trends in step count has significant clinical potential as a personalized measure of disease related changes in daily activity. However, inconsistent step count accuracy across vendors, body locations, and individual gait differences limits clinical utility. The tri-axial accelerometer inside PA monitors can be exploited to improve step count accuracy across devices and individuals. In this study, we hypothesize: (1) raw tri-axial sensor data can be modeled to create reliable and accurate step count, and (2) a generalized step count model can then be efficiently adapted to each unique gait pattern using very little new data. Firstly, open-source raw sensor data was used to construct a long short term memory (LSTM) deep neural network to model step count. Then we generated a new, fully independent data set using a different device and different subjects. Finally, a small amount of subject-specific data was domain adapted to produce personalized models with high individualized step count accuracy. These results suggest models trained using large freely available datasets can be adapted to patient populations where large historical data sets are rare.
翻訳日:2021-05-11 04:40:20 公開日:2020-12-11
# (参考訳) 保護政策移転

Protective Policy Transfer ( http://arxiv.org/abs/2012.06662v1 )

ライセンス: CC BY 4.0
Wenhao Yu, C. Karen Liu, Greg Turk(参考訳) 既存のスキルを新たな状況に移行できることは、予測不能な実環境で動作するようにロボットを訓練する上で重要な能力だ。 転送を成功させるアルゴリズムは、ロボットが新しい環境で収集する必要があるサンプルの数を最小限に抑えるだけでなく、移動プロセス中にロボットが自身や周囲の環境を傷つけることを防ぐ必要がある。 本稿では,ロボットの運動能力を新たなシナリオに適応させ,重大な障害を最小限に抑えるためのポリシー伝達アルゴリズムを提案する。 本アルゴリズムは,作業の完了に最適化されたタスクポリシと,ロボットが安全でないイベント(例えば,ロボットの安全を損なわないための保護ポリシという,トレーニング環境における2つのコントロールポリシを訓練する。 地面に倒れる)。 実行中に使用するポリシを決定するために,ロボットの持続的安全性レベルを推定するトレーニング環境において,安全推定モデルを学ぶ。 一連の閾値で使用すると、安全推定器は、保護ポリシーとタスクポリシーを切り替えるための分類器となる。 本研究では,4つのロボット移動問題と2次元ナビゲーション問題に対するアプローチを評価し,ロボットの安全性を考慮しつつ,異なる環境への移動を成功させることができることを示す。

Being able to transfer existing skills to new situations is a key capability when training robots to operate in unpredictable real-world environments. A successful transfer algorithm should not only minimize the number of samples that the robot needs to collect in the new environment, but also prevent the robot from damaging itself or the surrounding environment during the transfer process. In this work, we introduce a policy transfer algorithm for adapting robot motor skills to novel scenarios while minimizing serious failures. Our algorithm trains two control policies in the training environment: a task policy that is optimized to complete the task of interest, and a protective policy that is dedicated to keep the robot from unsafe events (e.g. falling to the ground). To decide which policy to use during execution, we learn a safety estimator model in the training environment that estimates a continuous safety level of the robot. When used with a set of thresholds, the safety estimator becomes a classifier for switching between the protective policy and the task policy. We evaluate our approach on four simulated robot locomotion problems and a 2D navigation problem and show that our method can achieve successful transfer to notably different environments while taking the robot's safety into consideration.
翻訳日:2021-05-11 04:22:15 公開日:2020-12-11
# (参考訳) tabtransformer: コンテキスト埋め込みを用いた表データモデリング

TabTransformer: Tabular Data Modeling Using Contextual Embeddings ( http://arxiv.org/abs/2012.06678v1 )

ライセンス: CC0 1.0
Xin Huang, Ashish Khetan, Milan Cvitkovic, Zohar Karnin(参考訳) 本研究では,教師付きおよび半教師付き学習のための新しい深層表データモデリングアーキテクチャであるTabTransformerを提案する。 Tab Transformerは自己アテンションベースのTransformer上に構築されている。 トランスフォーマー層はカテゴリの特徴の埋め込みをロバストなコンテキスト埋め込みに変換し、高い予測精度を達成する。 15の公開データセットに関する広範な実験により、TabTransformerは、AUCの平均値に対して少なくとも1.0%以上の最先端の深層学習手法を上回り、ツリーベースのアンサンブルモデルの性能に匹敵することを示す。 さらに,tabtransformerから学習したコンテキスト埋め込みは,欠落データとノイズデータの両方に対して極めて堅牢であり,解釈性が向上することを示す。 最後に, 半教師付き環境において, データ駆動型コンテキスト埋め込みを学習するための教師なし事前学習手法を開発し, 平均2.1%のAUCが最先端の手法に到達した。

We propose TabTransformer, a novel deep tabular data modeling architecture for supervised and semi-supervised learning. The TabTransformer is built upon self-attention based Transformers. The Transformer layers transform the embeddings of categorical features into robust contextual embeddings to achieve higher prediction accuracy. Through extensive experiments on fifteen publicly available datasets, we show that the TabTransformer outperforms the state-of-the-art deep learning methods for tabular data by at least 1.0% on mean AUC, and matches the performance of tree-based ensemble models. Furthermore, we demonstrate that the contextual embeddings learned from TabTransformer are highly robust against both missing and noisy data features, and provide better interpretability. Lastly, for the semi-supervised setting we develop an unsupervised pre-training procedure to learn data-driven contextual embeddings, resulting in an average 2.1% AUC lift over the state-of-the-art methods.
翻訳日:2021-05-11 04:07:18 公開日:2020-12-11
# ポイントゴールナビゲーションエージェントを(サンプルと計算)予算で訓練する方法

How to Train PointGoal Navigation Agents on a (Sample and Compute) Budget ( http://arxiv.org/abs/2012.06117v1 )

ライセンス: Link先を確認
Erik Wijmans and Irfan Essa and Dhruv Batra(参考訳) ポイントゴールナビゲーションは、居住地プラットフォームと関連する課題によって推進され、近年大きな関心と進歩が見られる。 本稿では,サンプル予算 (75万フレーム) と計算予算 (1日あたり1GPU) の両面からPointGoalナビゲーションについて検討する。 さまざまな実験を行い、累計で5万以上のgpu時間を計上し、表面上はマイナーだが重要な設計選択 — アドバンテージ推定手順(トレーニングにおける重要なコンポーネント)、ビジュアルエンコーダアーキテクチャ、一見小さなハイパーパラメータの変更 — を特定し、議論することができました。 全体として、これらの設計選択は、savvaなどに存在するベースラインに対して、相当かつ一貫した改善をもたらすことになる。 サンプル予算では、RGB-Dエージェントの性能はギブソンでは8 SPL(相対改善率14%)、マターポート3Dでは20 SPL(相対改善率38%)である。 計算予算では、RGB-Dエージェントの性能はGibsonの19 SPL(32%の相対改善)とMatterport3Dの35 SPL(220%の相対改善)に改善される。 コミュニティの実験をより効率的にするために、私たちの発見と推奨が役立てることを願っています。

PointGoal navigation has seen significant recent interest and progress, spurred on by the Habitat platform and associated challenge. In this paper, we study PointGoal navigation under both a sample budget (75 million frames) and a compute budget (1 GPU for 1 day). We conduct an extensive set of experiments, cumulatively totaling over 50,000 GPU-hours, that let us identify and discuss a number of ostensibly minor but significant design choices -- the advantage estimation procedure (a key component in training), visual encoder architecture, and a seemingly minor hyper-parameter change. Overall, these design choices to lead considerable and consistent improvements over the baselines present in Savva et al. Under a sample budget, performance for RGB-D agents improves 8 SPL on Gibson (14% relative improvement) and 20 SPL on Matterport3D (38% relative improvement). Under a compute budget, performance for RGB-D agents improves by 19 SPL on Gibson (32% relative improvement) and 35 SPL on Matterport3D (220% relative improvement). We hope our findings and recommendations will make serve to make the community's experiments more efficient.
翻訳日:2021-05-11 03:14:32 公開日:2020-12-11
# 逆攻撃検出のためのランダム投影

Random Projections for Adversarial Attack Detection ( http://arxiv.org/abs/2012.06405v1 )

ライセンス: Link先を確認
Nathan Drenkow, Neil Fendley, Philippe Burlina(参考訳) 敵の攻撃検出は注目されているものの、2つの観点からの根本的な課題である。 第一に、脅威モデルは明確に定義できるが、攻撃戦略はこれらの制約内でも広く異なる可能性がある。 したがって、現在のほとんどの検出戦略とは対照的に、検出はオープンセットの問題と見なすべきである。 これらの方法は、閉じたセットの視点でバイナリ検出器を訓練し、検出器トレーニング中に見られる攻撃に対して検出を偏らせる。 第2に、情報はテスト時に制限され、画像のラベルや基礎となるコンテンツを含む迷惑要因によって共起される。 現在のハイパフォーマンス技術の多くは、これらの問題に対処するためのトレーニングセットを使用しているが、検出ステップの全体サイズと多様性によって制限される可能性がある。 ランダムな部分空間解析に基づく新しい戦略により,これらの課題に対処する。 ランダム射影の特殊特性を利用する手法を提案し, 多様な部分空間の集合にまたがるクリーン例と逆例の挙動を特徴付ける。 次に,モデルアクティベーションの自己一貫性(あるいは非一貫性)を活用して,敵の例からクリーンを識別する。 性能評価の結果,本手法は攻撃方法自体に非依存でありながら,SOTA攻撃戦略(SOTA)の競合状態($0.92$AUC)よりも優れていた。 さらに、より厳密なテストシナリオで評価された場合、チャンスパフォーマンスのみを達成する競合するsomaメソッドと比較して、クリーンな例のみで構成されるトレーニングデータも大幅に少なくする。

Whilst adversarial attack detection has received considerable attention, it remains a fundamentally challenging problem from two perspectives. First, while threat models can be well-defined, attacker strategies may still vary widely within those constraints. Therefore, detection should be considered as an open-set problem, standing in contrast to most current detection strategies. These methods take a closed-set view and train binary detectors, thus biasing detection toward attacks seen during detector training. Second, information is limited at test time and confounded by nuisance factors including the label and underlying content of the image. Many of the current high-performing techniques use training sets for dealing with some of these issues, but can be limited by the overall size and diversity of those sets during the detection step. We address these challenges via a novel strategy based on random subspace analysis. We present a technique that makes use of special properties of random projections, whereby we can characterize the behavior of clean and adversarial examples across a diverse set of subspaces. We then leverage the self-consistency (or inconsistency) of model activations to discern clean from adversarial examples. Performance evaluation demonstrates that our technique outperforms ($>0.92$ AUC) competing state of the art (SOTA) attack strategies, while remaining truly agnostic to the attack method itself. It also requires significantly less training data, composed only of clean examples, when compared to competing SOTA methods, which achieve only chance performance, when evaluated in a more rigorous testing scenario.
翻訳日:2021-05-11 03:14:09 公開日:2020-12-11
# 説明可能なモデルに対する依存分解と拒絶オプション

Dependency Decomposition and a Reject Option for Explainable Models ( http://arxiv.org/abs/2012.06523v1 )

ライセンス: Link先を確認
Jan Kronenberger and Anselm Haselhoff(参考訳) 機械学習モデルを安全関連ドメイン(例)にデプロイする 自律運転、医療診断) 説明可能なアプローチを要求し、敵の攻撃に対して堅牢で、モデルの不確実性を認識します。 近年のディープラーニングモデルは様々な推論タスクにおいて非常によく機能するが、これらのアプローチのブラックボックスの性質は上記の3つの要件に関して弱点をもたらす。 近年の進歩は、特徴の可視化、入力の属性(例えば、熱マップ)の記述、テキストによる説明の提供、次元の縮小などを提供する。 しかしながら、分類タスクの説明は依存するのか、それとも相互独立なのか。 インスタンスでは、オブジェクトの形は色に依存していますか? 予測クラスを使用した説明の生成とその逆の効果はどのようなものか? 本稿では,説明可能な深層学習モデルの文脈において,所望の画像分類出力と説明変数(例)の確率分布に関する第1の分析を行う。 属性、テキスト、ヒートマップ)。 そこで,我々は説明依存性分解(edd)を行う。 異なる依存関係の意味を解析し,説明を生成する2つの方法を提案する。 最後に、この説明を用いて予測を検証(承認または拒否)する。

Deploying machine learning models in safety-related do-mains (e.g. autonomous driving, medical diagnosis) demands for approaches that are explainable, robust against adversarial attacks and aware of the model uncertainty. Recent deep learning models perform extremely well in various inference tasks, but the black-box nature of these approaches leads to a weakness regarding the three requirements mentioned above. Recent advances offer methods to visualize features, describe attribution of the input (e.g.heatmaps), provide textual explanations or reduce dimensionality. However,are explanations for classification tasks dependent or are they independent of each other? For in-stance, is the shape of an object dependent on the color? What is the effect of using the predicted class for generating explanations and vice versa? In the context of explainable deep learning models, we present the first analysis of dependencies regarding the probability distribution over the desired image classification outputs and the explaining variables (e.g. attributes, texts, heatmaps). Therefore, we perform an Explanation Dependency Decomposition (EDD). We analyze the implications of the different dependencies and propose two ways of generating the explanation. Finally, we use the explanation to verify (accept or reject) the prediction
翻訳日:2021-05-11 03:13:47 公開日:2020-12-11
# バックプロパゲーション以外のハードウェア:直接フィードバックアライメントのためのフォトニックコプロセッサ

Hardware Beyond Backpropagation: a Photonic Co-Processor for Direct Feedback Alignment ( http://arxiv.org/abs/2012.06373v1 )

ライセンス: Link先を確認
Julien Launay, Iacopo Poli, Kilian M\"uller, Gustave Pariente, Igor Carron, Laurent Daudet, Florent Krzakala, Sylvain Gigan(参考訳) スケーリング仮説は、パフォーマンス向上への道筋として、パラメータ数兆を超えるモデルの拡張を動機付けている。 GPT-3のような最近の重要な発展はこの予想によって推進されている。 しかし,モデルがスケールアップするにつれて,バックプロパゲーションで効率的にトレーニングすることが困難になる。 モデル、パイプライン、データ並列性は、計算ノードにパラメータと勾配を分散させるため、通信のオーケストレーションは困難である。 本研究では,これらの問題を緩和し,超大規模トレーニングハードウェアの設計を通知できる代替トレーニング手法について論じる。 実際、ダイレクトフィードバックアライメントのような並列化可能な後方パスを持つシンセプティック非対称な手法を用いることで、通信の必要性は劇的に減少する。 数兆のパラメータでランダムなプロジェクションを計算できる、ダイレクトフィードバックアライメントのためのフォトニック加速器を提案する。 本稿では,完全連結ネットワークとグラフ畳み込みネットワークを用いて,ベンチマークタスクを行うシステムを示す。 私たちのハードウェアは、ニューラルネットワークをトレーニングする最初のアーキテクチャに依存しないフォトニックコプロセッサです。 これはスケーラブルなハードウェアを構築するための重要なステップであり、バックプロパゲーションを超えて、ディープラーニングのための新たな道を開くことができる。

The scaling hypothesis motivates the expansion of models past trillions of parameters as a path towards better performance. Recent significant developments, such as GPT-3, have been driven by this conjecture. However, as models scale-up, training them efficiently with backpropagation becomes difficult. Because model, pipeline, and data parallelism distribute parameters and gradients over compute nodes, communication is challenging to orchestrate: this is a bottleneck to further scaling. In this work, we argue that alternative training methods can mitigate these issues, and can inform the design of extreme-scale training hardware. Indeed, using a synaptically asymmetric method with a parallelizable backward pass, such as Direct Feedback Alignement, communication needs are drastically reduced. We present a photonic accelerator for Direct Feedback Alignment, able to compute random projections with trillions of parameters. We demonstrate our system on benchmark tasks, using both fully-connected and graph convolutional networks. Our hardware is the first architecture-agnostic photonic co-processor for training neural networks. This is a significant step towards building scalable hardware, able to go beyond backpropagation, and opening new avenues for deep learning.
翻訳日:2021-05-11 03:13:16 公開日:2020-12-11
# eコマース検索における名前付きエンティティ認識のためのエンドツーエンドソリューション

An End-to-End Solution for Named Entity Recognition in eCommerce Search ( http://arxiv.org/abs/2012.07553v1 )

ライセンス: Link先を確認
Xiang Cheng, Mitchell Bowden, Bhushan Ramesh Bhange, Priyanka Goyal, Thomas Packer, Faizan Javed(参考訳) 名前付きエンティティ認識(NER)は、現代の検索クエリ理解における重要なステップである。 eコマースの分野では、ブランドや製品タイプといった重要なエンティティを特定することで、検索エンジンが関連する商品を検索し、魅力的なショッピング体験を提供することができる。 最近の研究では、ディープラーニングメソッドを用いたベンチマークnerタスクの共有に有望な結果を示しているが、業界では、ドメイン知識、トレーニングデータ、モデル生成に関するユニークな課題が残っている。 本稿では,これらの課題を解決するためのエンドツーエンドソリューションを示す。 私たちのソリューションの核心は、従来のように1つのトレーニングセットではなく、3つのトレーニングデータセットから反復的に学習する、新しいモデルトレーニングフレームワーク"triplelearn"です。 このアプローチを用いて、最良のモデルは、ホールドアウトテストデータにおいてF1スコアを69.5から93.3に引き上げる。 オフライン実験では、TripleLearnは、単一のトレーニングデータを使用する従来のトレーニングアプローチと比較して、モデルパフォーマンスを改善しました。 さらに、オンラインA/Bテストでは、ユーザエンゲージメントと収益変換に大きな改善が見られます。 このモデルはHomedepot.comで9ヶ月以上ライブされ、検索の変換と収益が増加した。 私たちのアプリケーション以外にも、このTripleLearnフレームワークは、エンドツーエンドのプロセスと同様に、モデル非依存で問題非依存なので、より多くの産業アプリケーション、特に同様のデータ基盤と問題を持つeコマース業界に一般化することができます。

Named entity recognition (NER) is a critical step in modern search query understanding. In the domain of eCommerce, identifying the key entities, such as brand and product type, can help a search engine retrieve relevant products and therefore offer an engaging shopping experience. Recent research shows promising results on shared benchmark NER tasks using deep learning methods, but there are still unique challenges in the industry regarding domain knowledge, training data, and model production. This paper demonstrates an end-to-end solution to address these challenges. The core of our solution is a novel model training framework "TripleLearn" which iteratively learns from three separate training datasets, instead of one training set as is traditionally done. Using this approach, the best model lifts the F1 score from 69.5 to 93.3 on the holdout test data. In our offline experiments, TripleLearn improved the model performance compared to traditional training approaches which use a single set of training data. Moreover, in the online A/B test, we see significant improvements in user engagement and revenue conversion. The model has been live on homedepot.com for more than 9 months, boosting search conversions and revenue. Beyond our application, this TripleLearn framework, as well as the end-to-end process, is model-independent and problem-independent, so it can be generalized to more industrial applications, especially to the eCommerce industry which has similar data foundations and problems.
翻訳日:2021-05-11 03:13:00 公開日:2020-12-11
# 乳腺病理像のダクトインスタンス指向パイプラインによる分類

Classifying Breast Histopathology Images with a Ductal Instance-Oriented Pipeline ( http://arxiv.org/abs/2012.06136v1 )

ライセンス: Link先を確認
Beibin Li, Ezgi Mercan, Sachin Mehta, Stevan Knezevich, Corey W. Arnold, Donald L. Weaver, Joann G. Elmore, Linda G. Shapiro(参考訳) 本研究では、ダクトレベルのインスタンスセグメンテーションモデル、組織レベルのセグメンテーションモデル、診断分類のための3段階の機能を含むDctal Instance-Oriented Pipeline(DIOP)を提案する。 近年のインスタンスセグメンテーションとMask R-CNNモデルに基づいて,本研究のダクトレベルセグメンタは,顕微鏡画像中の各ダクトレベルを識別し,同定されたダクトレベルから組織レベル情報を抽出する。 これらの管例と病理像から得られた3つのレベルの情報を活用することで、提案したDIOPは、すべての診断タスクにおいて以前のアプローチ(特徴ベースとCNNベースの両方)より優れており、このユニークなデータセットにおいて、DIOPは一般的な病理学者に匹敵するパフォーマンスを達成している。 提案されたdiopは推論時間にほんの数秒しかかからず、ほとんどの現代のコンピュータでインタラクティブに使用できる。 将来的にこのシステムの堅牢性と一般化性を研究するには、さらなる臨床調査が必要である。

In this study, we propose the Ductal Instance-Oriented Pipeline (DIOP) that contains a duct-level instance segmentation model, a tissue-level semantic segmentation model, and three-levels of features for diagnostic classification. Based on recent advancements in instance segmentation and the Mask R-CNN model, our duct-level segmenter tries to identify each ductal individual inside a microscopic image; then, it extracts tissue-level information from the identified ductal instances. Leveraging three levels of information obtained from these ductal instances and also the histopathology image, the proposed DIOP outperforms previous approaches (both feature-based and CNN-based) in all diagnostic tasks; for the four-way classification task, the DIOP achieves comparable performance to general pathologists in this unique dataset. The proposed DIOP only takes a few seconds to run in the inference time, which could be used interactively on most modern computers. More clinical explorations are needed to study the robustness and generalizability of this system in the future.
翻訳日:2021-05-11 03:12:37 公開日:2020-12-11
# 対人機械学習における近接性と不確実性認識

Closeness and Uncertainty Aware Adversarial Examples Detection in Adversarial Machine Learning ( http://arxiv.org/abs/2012.06390v1 )

ライセンス: Link先を確認
Omer Faruk Tuna, Ferhat Ozgur Catak, M. Taner Eskil(参考訳) ディープニューラルネットワーク(dnn)アーキテクチャはランダム摂動に対して堅牢であると考えられている。 それにもかかわらず、これらはわずかながら慎重に作られた入力の摂動に対して脆弱である可能性が示された。 近年,dnnモデルの信頼性を高めるために,逆サンプルと正規入力を区別する研究が数多く行われている。 本研究では,モンテカルロ・ドロップアウトサンプリングを用いた不確実性推定に基づく検体と,モデルにより抽出された深部特徴量の部分空間における近接度測定に基づく検体を用いて,2つの異なる検体を用いた検体を探索・評価する。 また、敵検出のための新機能を導入し、これらの指標のパフォーマンスが使用される攻撃の強さに大きく依存していることを示します。

Deep neural network (DNN) architectures are considered to be robust to random perturbations. Nevertheless, it was shown that they could be severely vulnerable to slight but carefully crafted perturbations of the input, which are termed as adversarial samples. In recent years, numerous studies have been conducted to increase the reliability of DNN models by distinguishing adversarial samples from regular inputs. In this work, we explore and assess the usage of 2 different groups of metrics in detecting adversarial samples: the ones which are based on the uncertainty estimation using Monte-Carlo Dropout Sampling and the ones which are based on closeness measures in the subspace of deep features extracted by the model. We also introduce a new feature for adversarial detection, and we show that the performances of all these metrics heavily depend on the strength of the attack being used.
翻訳日:2021-05-11 03:11:19 公開日:2020-12-11
# OPAC:機会主義的アクター批判

OPAC: Opportunistic Actor-Critic ( http://arxiv.org/abs/2012.06555v1 )

ライセンス: Link先を確認
Srinjoy Roy, Saptam Bakshi, Tamal Maharaj(参考訳) モデルフリー強化学習(RL)の一種であるアクタークリティカル法は、連続制御において多くの実世界の領域で最先端の性能を達成した。 彼らの成功にもかかわらず、これらのモデルの広範囲な展開はいまだに未解決だ。 これらのアクタ-クリティック手法の主な問題は、非効率な探索とサブオプティマポリシーである。 soft actor-critic (sac) と twin delay deep deterministic policy gradient (td3) の2つのアルゴリズムはこれらの問題に苦しんでいる。 SACは、サンプルの複雑さと収束脆性の問題をハイパーパラメータに効果的に解決し、TD3を含む最先端のアルゴリズムをハードタスクで上回り、TD3は全ての環境で適度な結果を生み出した。 SACは、より単純な作業において境界線性能を引き起こす政策のガウス的性質のため、非効率な探索に苦しむ。 本稿では,より優れた探索ポリシとより分散度の低いモデルフリーなディープRLアルゴリズムであるOPACを紹介する。 OPACは、TD3とSACの最も強力な機能を組み合わせて、政治以外の方法で確率的ポリシーを最適化することを目指している。 対象のQ値を計算するために、OPACは2つの批評家の代わりに3つの批評家を使用し、環境の複雑さに基づいて、対象のQ値がどのように計算されるかを選択する。 我々は,TD3 と SAC の性能に比較して,最先端の性能と性能を達成できる MuJoCo 環境上で,アルゴリズムを体系的に評価した。

Actor-critic methods, a type of model-free reinforcement learning (RL), have achieved state-of-the-art performances in many real-world domains in continuous control. Despite their success, the wide-scale deployment of these models is still a far cry. The main problems in these actor-critic methods are inefficient exploration and sub-optimal policies. Soft Actor-Critic (SAC) and Twin Delayed Deep Deterministic Policy Gradient (TD3), two cutting edge such algorithms, suffer from these issues. SAC effectively addressed the problems of sample complexity and convergence brittleness to hyper-parameters and thus outperformed all state-of-the-art algorithms including TD3 in harder tasks, whereas TD3 produced moderate results in all environments. SAC suffers from inefficient exploration owing to the Gaussian nature of its policy which causes borderline performance in simpler tasks. In this paper, we introduce Opportunistic Actor-Critic (OPAC), a novel model-free deep RL algorithm that employs better exploration policy and lesser variance. OPAC combines some of the most powerful features of TD3 and SAC and aims to optimize a stochastic policy in an off-policy way. For calculating the target Q-values, instead of two critics, OPAC uses three critics and based on the environment complexity, opportunistically chooses how the target Q-value is computed from the critics' evaluation. We have systematically evaluated the algorithm on MuJoCo environments where it achieves state-of-the-art performance and outperforms or at least equals the performance of TD3 and SAC.
翻訳日:2021-05-11 03:11:04 公開日:2020-12-11
# Smooth Bandit Optimization: H\"古い空間への一般化

Smooth Bandit Optimization: Generalization to H\"older Space ( http://arxiv.org/abs/2012.06076v1 )

ライセンス: Link先を確認
Yusha Liu, Yining Wang, Aarti Singh(参考訳) 目的が累積後悔最小化である円滑な報酬関数の帯域最適化を考える。 この問題は、$0<\alpha\leq 1$のリプシッツを含む$\alpha$-h\"older連続函数に対して研究されている。 我々の主な結果は、リプシッツバンドイットとリニアバンドイットのような無限微分可能なモデルの間のギャップを埋めるために、指数$\alpha>1$のh\"older空間への報酬関数の一般化である。 h\"older連続関数に対しては、離散化領域のビンのランダムサンプリングに基づくアプローチが最適である。 対照的に、不特定線形/ポリノミアル帯域幅アルゴリズムをビンに展開する2層アルゴリズムのクラスを提案する。 提案アルゴリズムは, 既存の下界に一致するような$\alpha>1$に対して, $\tilde{O}(T^\frac{d+\alpha}{d+2\alpha})$ の残差上限を導出することにより, 関数の高次滑らか性を利用することができることを示す。 また,提案した2層アルゴリズムを用いた帯域モデル選択手法を用いて,H\"古い空間の連続スケールにおける未知関数の滑らか性への適応性についても検討した。 我々は、$\alpha\leq 1$ のサブセット内で、既存の下限に適合する後悔率を達成することを示す。

We consider bandit optimization of a smooth reward function, where the goal is cumulative regret minimization. This problem has been studied for $\alpha$-H\"older continuous (including Lipschitz) functions with $0<\alpha\leq 1$. Our main result is in generalization of the reward function to H\"older space with exponent $\alpha>1$ to bridge the gap between Lipschitz bandits and infinitely-differentiable models such as linear bandits. For H\"older continuous functions, approaches based on random sampling in bins of a discretized domain suffices as optimal. In contrast, we propose a class of two-layer algorithms that deploy misspecified linear/polynomial bandit algorithms in bins. We demonstrate that the proposed algorithm can exploit higher-order smoothness of the function by deriving a regret upper bound of $\tilde{O}(T^\frac{d+\alpha}{d+2\alpha})$ for when $\alpha>1$, which matches existing lower bound. We also study adaptation to unknown function smoothness over a continuous scale of H\"older spaces indexed by $\alpha$, with a bandit model selection approach applied with our proposed two-layer algorithms. We show that it achieves regret rate that matches the existing lower bound for adaptation within the $\alpha\leq 1$ subset.
翻訳日:2021-05-11 03:10:32 公開日:2020-12-11
# ハイブリッド正規化を用いたランダム特徴モデルの二重降下現象の回避

Avoiding The Double Descent Phenomenon of Random Feature Models Using Hybrid Regularization ( http://arxiv.org/abs/2012.06667v1 )

ライセンス: Link先を確認
Kelvin Kan, James G Nagy and Lars Ruthotto(参考訳) 本研究では,ランダム特徴モデルの訓練中に発生する二重降下現象を自動的に回避するハイブリッド正規化手法の能力を示す。 二重降下現象の顕著な特徴は、補間閾値における正則化ギャップのスパイクである。 RFMの特徴数がトレーニングサンプルの数と等しい場合。 このギャップを埋めるために,本論文で検討したハイブリット法は,2つの最も一般的な正則化形式である早期停止と重量減衰のそれぞれの強度を組み合わせたものである。 このスキームは、一般化クロスバリデーション(GCV)を用いて停止イテレーションと重み減衰ハイパーパラメータを自動的に選択するため、ハイパーパラメータチューニングを必要としない。 これはまた、専用の検証セットの必要性を回避する。 ハイブリッド手法の利点は不適切な逆問題に対して十分に文書化されているが,本研究は機械学習における最初のユースケースである。 正規化やハイブリッド手法のモチベーションの必要性を明らかにするため,画像分類にインスパイアされた詳細な数値実験を行った。 これらの例では、ハイブリッドスキームは二重降下現象をうまく回避し、テストデータを用いてハイパーパラメータを最適に調整する古典的な正規化アプローチに匹敵する一般化を持つrfmを生成する。 本稿では,数値実験を行うためのMATLABコードについて,https://github.com/EmoryMLIP/HybridRFMで紹介する。

We demonstrate the ability of hybrid regularization methods to automatically avoid the double descent phenomenon arising in the training of random feature models (RFM). The hallmark feature of the double descent phenomenon is a spike in the regularization gap at the interpolation threshold, i.e. when the number of features in the RFM equals the number of training samples. To close this gap, the hybrid method considered in our paper combines the respective strengths of the two most common forms of regularization: early stopping and weight decay. The scheme does not require hyperparameter tuning as it automatically selects the stopping iteration and weight decay hyperparameter by using generalized cross-validation (GCV). This also avoids the necessity of a dedicated validation set. While the benefits of hybrid methods have been well-documented for ill-posed inverse problems, our work presents the first use case in machine learning. To expose the need for regularization and motivate hybrid methods, we perform detailed numerical experiments inspired by image classification. In those examples, the hybrid scheme successfully avoids the double descent phenomenon and yields RFMs whose generalization is comparable with classical regularization approaches whose hyperparameters are tuned optimally using the test data. We provide our MATLAB codes for implementing the numerical experiments in this paper at https://github.com/EmoryMLIP/HybridRFM.
翻訳日:2021-05-11 03:10:04 公開日:2020-12-11
# ディープラーニングを用いた並列化速度歪み最適化量子化

Parallelized Rate-Distortion Optimized Quantization Using Deep Learning ( http://arxiv.org/abs/2012.06380v1 )

ライセンス: Link先を確認
Dana Kianfar, Auke Wiggers, Amir Said, Reza Pourreza, Taco Cohen(参考訳) RDOQはH.264/AVC、H.265/HEVC、VP9、AV1といった最近のビデオ圧縮標準の符号化性能において重要な役割を果たしている。 このスキームは比較的小さな歪みの増加を犠牲にしてビットレートを著しく低下させる。 通常、rdoqアルゴリズムは、逐次的な性質とエントロピー符号化コストを頻繁に得る必要性から、リアルタイムなハードウェアエンコーダを実装するのに非常に高価である。 この研究は、オフラインの教師付きトレーニング中にトレードオフレートと歪みを学習するニューラルネットワークベースのアプローチを用いて、この制限に対処する。 これらのネットワークは、既存のニューラルネットワークハードウェア上で実行可能な標準的な演算のみに基づいているため、専用のRDOQ回路のために追加の領域オンチップを予約する必要はない。 我々は,完全畳み込みネットワークと自己回帰ネットワークの2種類のニューラルネットワークを訓練し,スカラー量子化(sq)などの安価量子化スキームを洗練するために設計されたポスト量子化ステップとして評価する。 両方のネットワークアーキテクチャは計算オーバーヘッドが低いように設計されている。 訓練後、HEVCのHM 16.20実装に統合され、ビデオ符号化性能はH.266/VVC共通テストシーケンスのサブセットで評価される。 RDOQとSQをHM 16.20で比較する。 提案手法は,HM SQアンカーに比べて光度に1.64%のBDレートの節約を実現し,HM RDOQアルゴリズムの性能の45%に達する。

Rate-Distortion Optimized Quantization (RDOQ) has played an important role in the coding performance of recent video compression standards such as H.264/AVC, H.265/HEVC, VP9 and AV1. This scheme yields significant reductions in bit-rate at the expense of relatively small increases in distortion. Typically, RDOQ algorithms are prohibitively expensive to implement on real-time hardware encoders due to their sequential nature and their need to frequently obtain entropy coding costs. This work addresses this limitation using a neural network-based approach, which learns to trade-off rate and distortion during offline supervised training. As these networks are based solely on standard arithmetic operations that can be executed on existing neural network hardware, no additional area-on-chip needs to be reserved for dedicated RDOQ circuitry. We train two classes of neural networks, a fully-convolutional network and an auto-regressive network, and evaluate each as a post-quantization step designed to refine cheap quantization schemes such as scalar quantization (SQ). Both network architectures are designed to have a low computational overhead. After training they are integrated into the HM 16.20 implementation of HEVC, and their video coding performance is evaluated on a subset of the H.266/VVC SDR common test sequences. Comparisons are made to RDOQ and SQ implementations in HM 16.20. Our method achieves 1.64% BD-rate savings on luminosity compared to the HM SQ anchor, and on average reaches 45% of the performance of the iterative HM RDOQ algorithm.
翻訳日:2021-05-11 03:09:41 公開日:2020-12-11
# リー群変換とスパース符号化による画像の分離

Disentangling images with Lie group transformations and sparse coding ( http://arxiv.org/abs/2012.12071v1 )

ライセンス: Link先を確認
Ho Yin Chau, Frank Qiu, Yubei Chen, Bruno Olshausen(参考訳) 離散空間パターンとその連続変換は、自然信号に含まれる2つの重要な規則性である。 リー群と表現論(英: Lie group and representation theory)は、連続的な画像変換をモデル化するために過去の研究で使われた数学的ツールである。 一方、スパース符号化は自然信号のパターンの辞書を学習するための重要なツールである。 本稿では,これらのアイデアを,空間パターンと連続的な変換を完全に教師なしの方法で解離するベイズ生成モデルに組み合わせる。 画像は形状成分のスパース重ね合わせとしてモデル化され、n個の連続変数によってパラメータ化される変換が続く。 形状成分や変換は事前に定義されていないが、代わりに変換が n-次元トーラスの表現を形成するという制約により、データの対称性を学ぶために適応される。 特定のMNIST桁の制御された幾何変換からなるデータセット上でモデルをトレーニングすると、これらの変換を桁とともに復元できることが分かる。 完全なmnistデータセットのトレーニングは、基本桁の形状と、このデータに含まれるせん断やストレッチといった自然変換の両方を学習できることを示しています。

Discrete spatial patterns and their continuous transformations are two important regularities contained in natural signals. Lie groups and representation theory are mathematical tools that have been used in previous works to model continuous image transformations. On the other hand, sparse coding is an important tool for learning dictionaries of patterns in natural signals. In this paper, we combine these ideas in a Bayesian generative model that learns to disentangle spatial patterns and their continuous transformations in a completely unsupervised manner. Images are modeled as a sparse superposition of shape components followed by a transformation that is parameterized by n continuous variables. The shape components and transformations are not predefined, but are instead adapted to learn the symmetries in the data, with the constraint that the transformations form a representation of an n-dimensional torus. Training the model on a dataset consisting of controlled geometric transformations of specific MNIST digits shows that it can recover these transformations along with the digits. Training on the full MNIST dataset shows that it can learn both the basic digit shapes and the natural transformations such as shearing and stretching that are contained in this data.
翻訳日:2021-05-11 03:08:48 公開日:2020-12-11
# 連続脳波信号における言語セグメントのオンセット検出アルゴリズム

An algorithm for onset detection of linguistic segments in continuous electroencephalogram signals ( http://arxiv.org/abs/2012.06075v1 )

ライセンス: Link先を確認
Tonatiuh Hern\'andez-Del-Toro, Carlos A. Reyes-Garc\'ia(参考訳) 想像された単語に基づく脳コンピュータインタフェースは、被験者が脳信号を通して考えている単語をデコードして、外部デバイスを制御する。 脳波信号中の想像語を源とする完全に非同期な脳神経インタフェースを構築するためには,その単語の発端を検出するという問題を解決する必要がある。 この分野ではいくつかの研究がなされているが、問題が完全に解決されていない。 本稿では,統計,情報理論,カオス理論の値を特徴として用いて,連続信号における単語の発声を正確に識別する手法を提案する。 予測した単語の出現検出において,一般化ハースト指数に基づく特徴量を用いて,本手法が達成した最大正の正の確率は0.69と0.77であり,タイミング誤差許容領域は3秒と4秒であった。

A Brain Computer Interface based on imagined words can decode the word a subject is thinking on through brain signals to control an external device. In order to build a fully asynchronous Brain Computer Interface based on imagined words in electroencephalogram signals as source, we need to solve the problem of detecting the onset of the imagined words. Although there has been some research in this field, the problem has not been fully solved. In this paper we present an approach to solve this problem by using values from statistics, information theory and chaos theory as features to correctly identify the onset of imagined words in a continuous signal. On detecting the onsets of imagined words, the highest True Positive Rate achieved by our approach was obtained using features based on the generalized Hurst exponent, this True Positive Rate was 0.69 and 0.77 with a timing error tolerance region of 3 and 4 seconds respectively.
翻訳日:2021-05-11 03:08:31 公開日:2020-12-11
# DeCoAR 2.0:ベクトル量子化を用いた深部環境音響表現

DeCoAR 2.0: Deep Contextualized Acoustic Representations with Vector Quantization ( http://arxiv.org/abs/2012.06659v1 )

ライセンス: Link先を確認
Shaoshi Ling, Yuzong Liu(参考訳) 近年の音声表現学習の成功により、ラベルなしデータを利用した音声認識モデルの訓練が可能となった。 音声表現学習では、大量のラベルのないデータを自己教師ありで使用して特徴表現を学習する。 そして、新しい特徴表現を用いて下流のASRシステムをトレーニングするためにラベル付きデータの少ない量を使用する。 従来のDeCoARと他の音声表現学習のインスピレーションに基づいて,ベクトル量子化を用いたDeCoAR 2.0を提案する。 まず、LSTMの代わりにトランスフォーマーを使用し、次に、エンコーダと再構成モジュールの間にベクトル量子化層を導入し、第3に、再構成損失とベクトル量子化の多様性損失を組み合わせて、音声表現を訓練する目的を提案する。 実験では、異なるデータスパースシナリオにおける他の音声表現に対する一貫した改善を示す。 微調整なしでは、DeCoAR 2.0でラベル付けされたデータ10時間でトレーニングされた軽量のASRモデルは、フィルタバンク機能を備えた960時間データセットでトレーニングされたモデルよりも優れている。

Recent success in speech representation learning enables a new way to leverage unlabeled data to train speech recognition model. In speech representation learning, a large amount of unlabeled data is used in a self-supervised manner to learn a feature representation. Then a smaller amount of labeled data is used to train a downstream ASR system using the new feature representations. Based on our previous work DeCoAR and inspirations from other speech representation learning, we propose DeCoAR 2.0, a Deep Contextualized Acoustic Representation with vector quantization. We introduce several modifications over the DeCoAR: first, we use Transformers in encoding module instead of LSTMs; second, we introduce a vector quantization layer between encoder and reconstruction modules; third, we propose an objective that combines the reconstructive loss with vector quantization diversity loss to train speech representations. Our experiments show consistent improvements over other speech representations in different data-sparse scenarios. Without fine-tuning, a light-weight ASR model trained on 10 hours of LibriSpeech labeled data with DeCoAR 2.0 features outperforms the model trained on the full 960-hour dataset with filterbank features.
翻訳日:2021-05-11 03:08:17 公開日:2020-12-11
# ユニバーサルユーザ表現における行動構成の活用

Exploiting Behavioral Consistence for Universal User Representation ( http://arxiv.org/abs/2012.06146v1 )

ライセンス: Link先を確認
Jie Gu, Feng Wang, Qinghui Sun, Zhiquan Ye, Xiaoxiao Xu, Jingmin Chen, Jun Zhang(参考訳) ユーザモデリングは、業界におけるパーソナライズされたサービスを開発する上で重要である。 ユーザモデリングの一般的な方法は、興味や好みによって区別できるユーザ表現を学ぶことである。 本研究では,ユニバーサルユーザ表現モデルの開発に焦点をあてる。 得られた普遍表現はリッチな情報を含むことが期待され、さらに変更を加えることなく、様々な下流アプリケーションに適用することができる(例えば、ユーザ嗜好予測とユーザプロファイリング)。 したがって、これまでの作業のように、ダウンストリームタスク毎にタスク固有のモデルをトレーニングする重い作業から解放できるのです。 具体的には,行動データを普遍表現にエンコードする自己教師型ユーザモデリングネットワーク(SUMN)を提案する。 主なコンポーネントは2つある。 1つ目は、自己教師型学習フレームワークの下で、価値あるユーザ情報の完全な識別と保存をモデルに導く、新たな学習目標である。 もうひとつはマルチホップアグリゲーション層で、さまざまな振る舞いを集約するモデルキャパシティにメリットがあります。 ベンチマークデータセットに関する広範囲な実験は、このアプローチが最先端の教師なし表現メソッドよりも優れており、教師なし表現メソッドとさえ競合することを示している。

User modeling is critical for developing personalized services in industry. A common way for user modeling is to learn user representations that can be distinguished by their interests or preferences. In this work, we focus on developing universal user representation model. The obtained universal representations are expected to contain rich information, and be applicable to various downstream applications without further modifications (e.g., user preference prediction and user profiling). Accordingly, we can be free from the heavy work of training task-specific models for every downstream task as in previous works. In specific, we propose Self-supervised User Modeling Network (SUMN) to encode behavior data into the universal representation. It includes two key components. The first one is a new learning objective, which guides the model to fully identify and preserve valuable user information under a self-supervised learning framework. The other one is a multi-hop aggregation layer, which benefits the model capacity in aggregating diverse behaviors. Extensive experiments on benchmark datasets show that our approach can outperform state-of-the-art unsupervised representation methods, and even compete with supervised ones.
翻訳日:2021-05-11 03:07:41 公開日:2020-12-11
# earthnet2021: 新しい大規模データセットと局地的気候影響予測への挑戦

EarthNet2021: A novel large-scale dataset and challenge for forecasting localized climate impacts ( http://arxiv.org/abs/2012.06246v1 )

ライセンス: Link先を確認
Christian Requena-Mesa, Vitus Benson, Joachim Denzler, Jakob Runge and Markus Reichstein(参考訳) 気候変動は世界中で起きているが、その具体的な影響は地域によって大きく異なる。 季節天気予報は現在メソスケール(1km)で運行されている。 より標的的な緩和と適応には、100m以下のモデリングの影響が必要である。 しかし、そのような局所スケールでの駆動変数と地球表面の関係は、現在の物理モデルでは未解決のままである。 大規模な地球観測データセットにより、粗い気象情報を高解像度の地球表面予測に変換できる機械学習モデルが作成できるようになった。 本稿では,地球表面の高分解能予測を,メソスケール気象予報に基づく衛星画像の映像予測として定義する。 ビデオ予測にはディープラーニングモデルが取り組まれている。 このようなモデルの開発には、分析可能なデータセットが必要です。 我々は,高分解能地形とメソスケール(1.28km)の気象条件に適合した,目標時空間センチネル2衛星画像を含む新しいキュレートデータセットであるEarthNet2021を紹介する。 32000以上のサンプルで、ディープニューラルネットワークのトレーニングに適している。 複数の地球表面の予測を比較することは簡単ではない。 そこで我々は,地球表面反射率予測モデルのための新しいランキング基準であるEarthNetScoreを定義した。 モデル相互比較では、異なるテストセットに基づいた4トラックの挑戦としてEarthNet2021をフレーム化します。 これにより、モデルの有効性とロバスト性の評価と、極端な事象と年次植生サイクルのモデル適用性が期待できる。 衛星由来の植生指標による直接観測可能な気象の影響の予測に加えて、地球表面モデルにより、作物収量予測、森林健康評価、海岸線管理、生物多様性監視といった下流の応用が可能になる。 www.earthnet.techでデータ、コード、参加方法を見つける。

Climate change is global, yet its concrete impacts can strongly vary between different locations in the same region. Seasonal weather forecasts currently operate at the mesoscale (> 1 km). For more targeted mitigation and adaptation, modelling impacts to < 100 m is needed. Yet, the relationship between driving variables and Earth's surface at such local scales remains unresolved by current physical models. Large Earth observation datasets now enable us to create machine learning models capable of translating coarse weather information into high-resolution Earth surface forecasts. Here, we define high-resolution Earth surface forecasting as video prediction of satellite imagery conditional on mesoscale weather forecasts. Video prediction has been tackled with deep learning models. Developing such models requires analysis-ready datasets. We introduce EarthNet2021, a new, curated dataset containing target spatio-temporal Sentinel 2 satellite imagery at 20 m resolution, matched with high-resolution topography and mesoscale (1.28 km) weather variables. With over 32000 samples it is suitable for training deep neural networks. Comparing multiple Earth surface forecasts is not trivial. Hence, we define the EarthNetScore, a novel ranking criterion for models forecasting Earth surface reflectance. For model intercomparison we frame EarthNet2021 as a challenge with four tracks based on different test sets. These allow evaluation of model validity and robustness as well as model applicability to extreme events and the complete annual vegetation cycle. In addition to forecasting directly observable weather impacts through satellite-derived vegetation indices, capable Earth surface models will enable downstream applications such as crop yield prediction, forest health assessments, coastline management, or biodiversity monitoring. Find data, code, and how to participate at www.earthnet.tech .
翻訳日:2021-05-11 03:07:01 公開日:2020-12-11
# 多出力ガウスプロセスによる生体物理パラメータ時系列のギャップ充填

Gap Filling of Biophysical Parameter Time Series with Multi-Output Gaussian Processes ( http://arxiv.org/abs/2012.05912v1 )

ライセンス: Link先を確認
Anna Mateo-Sanchis, Jordi Munoz-Mari, Manuel Campos-Taberner, Javier Garcia-Haro, Gustau Camps-Valls(参考訳) 本研究では,マルチアウトプット(mo)ガウス過程(gp)モデルについて,ギャップ充填条件下での生物物理パラメータ変数推定のためのコリージョン化線形モデル(lmc)に基づいて評価する。 特に,水田におけるLAIとfAPARに着目した。 本稿では,標準の単一出力(so)gpモデルではこの問題がどのように解決できないかを示し,提案するmo-gpモデルが,欠落したデータレジームにおいても,暗黙的にドメイン間情報転送を行うことで,これらの変数をうまく予測できることを示す。

In this work we evaluate multi-output (MO) Gaussian Process (GP) models based on the linear model of coregionalization (LMC) for estimation of biophysical parameter variables under a gap filling setup. In particular, we focus on LAI and fAPAR over rice areas. We show how this problem cannot be solved with standard single-output (SO) GP models, and how the proposed MO-GP models are able to successfully predict these variables even in high missing data regimes, by implicitly performing an across-domain information transfer.
翻訳日:2021-05-11 03:06:38 公開日:2020-12-11
# I-GCN:影響メカニズムによるロバストグラフ畳み込みネットワーク

I-GCN: Robust Graph Convolutional Network via Influence Mechanism ( http://arxiv.org/abs/2012.06110v1 )

ライセンス: Link先を確認
Haoxi Zhan, Xiaobing Pei(参考訳) グラフの深層学習モデル、特にグラフ畳み込みネットワーク(GCN)は、半教師付きノード分類のタスクにおいて顕著な性能を発揮している。 しかし近年の研究では、GCNは逆行性摂動に悩まされている。 このような攻撃に対する脆弱性は、セキュリティクリティカルなアプリケーションに適用される際のGCNの安定性を著しく低下させる。 各種研究により, 前処理, 注意機構, 対人訓練などの防衛手法が議論されている。 摂動率が低い場合に望ましい性能を達成することができるが、そのような手法は高い摂動率に対して脆弱である。 一方、一部の防御アルゴリズムは、ノード機能が見えない場合に性能が悪い。 そこで,本論文では,gcnsのロバスト性を高めるために,影響機構と呼ばれる新しいメカニズムを提案する。 影響メカニズムは、各ノードの効果を2つの部分に分割する: 内向的な影響は、自身の特徴を維持しようとするものであり、外向的な影響は、他のノードに影響を及ぼす。 影響メカニズムを利用して,影響GCN(I-GCN)モデルを提案する。 広範な実験により,提案手法は,非標的攻撃に対する防御において,最先端手法よりも高い精度が得られることを示した。

Deep learning models for graphs, especially Graph Convolutional Networks (GCNs), have achieved remarkable performance in the task of semi-supervised node classification. However, recent studies show that GCNs suffer from adversarial perturbations. Such vulnerability to adversarial attacks significantly decreases the stability of GCNs when being applied to security-critical applications. Defense methods such as preprocessing, attention mechanism and adversarial training have been discussed by various studies. While being able to achieve desirable performance when the perturbation rates are low, such methods are still vulnerable to high perturbation rates. Meanwhile, some defending algorithms perform poorly when the node features are not visible. Therefore, in this paper, we propose a novel mechanism called influence mechanism, which is able to enhance the robustness of the GCNs significantly. The influence mechanism divides the effect of each node into two parts: introverted influence which tries to maintain its own features and extroverted influence which exerts influences on other nodes. Utilizing the influence mechanism, we propose the Influence GCN (I-GCN) model. Extensive experiments show that our proposed model is able to achieve higher accuracy rates than state-of-the-art methods when defending against non-targeted attacks.
翻訳日:2021-05-11 03:06:28 公開日:2020-12-11
# 非線形ダイナミクスのエンドツーエンドモデリングのためのニューラルダイナミックモード分解

Neural Dynamic Mode Decomposition for End-to-End Modeling of Nonlinear Dynamics ( http://arxiv.org/abs/2012.06191v1 )

ライセンス: Link先を確認
Tomoharu Iwata, Yoshinobu Kawahara(参考訳) Koopmanスペクトル分析は非線形関数を用いて観測を持ち上げることで非線形状態を用いて非線形力学を解析できる非線形力学系を理解することに注目されている。 解析のためには、適切なリフト関数を見つける必要がある。 ニューラルネットワークに基づくリフト関数の推定にはいくつかの手法が提案されているが、既存の手法ではスペクトル解析を行わずにニューラルネットワークを訓練している。 本稿では,昇降空間のスペクトル分解に基づいて動的にモデル化された場合,予測誤差を最小限に抑えるようにニューラルネットワークを訓練するニューラルダイナミックモード分解を提案する。 提案手法では,予測誤差をニューラルネットワークとスペクトル分解によって再伝播し,クープマンスペクトル解析のエンドツーエンド学習を可能にする。 力学の周波数や成長速度に関する情報が得られれば,本手法は正規化器として活用することができる。 また,外因性制御時系列の影響を受ければ,我々のアプローチの拡張も提案する。 提案手法の有効性を,固有値推定と予測性能の観点から実証した。

Koopman spectral analysis has attracted attention for understanding nonlinear dynamical systems by which we can analyze nonlinear dynamics with a linear regime by lifting observations using a nonlinear function. For analysis, we need to find an appropriate lift function. Although several methods have been proposed for estimating a lift function based on neural networks, the existing methods train neural networks without spectral analysis. In this paper, we propose neural dynamic mode decomposition, in which neural networks are trained such that the forecast error is minimized when the dynamics is modeled based on spectral decomposition in the lifted space. With our proposed method, the forecast error is backpropagated through the neural networks and the spectral decomposition, enabling end-to-end learning of Koopman spectral analysis. When information is available on the frequencies or the growth rates of the dynamics, the proposed method can exploit it as regularizers for training. We also propose an extension of our approach when observations are influenced by exogenous control time-series. Our experiments demonstrate the effectiveness of our proposed method in terms of eigenvalue estimation and forecast performance.
翻訳日:2021-05-11 03:06:12 公開日:2020-12-11
# 密度に基づく計量学習による内在的永続的ホモロジー

Intrinsic persistent homology via density-based metric learning ( http://arxiv.org/abs/2012.07621v1 )

ライセンス: Link先を確認
Eugenio Borghini, Ximena Fern\'andez, Pablo Groisman, Gabriel Mindlin(参考訳) 有限サンプルから多様体内の固有距離を推定する問題に対処する。 サンプルによって定義される計量空間は、サンプルフェルマー距離として知られる計算可能な計量で与えられ、グロモフ・ハウスドルフの意味で a.s. に収束する。 制限対象は多様体自身に、多様体の幾何学とサンプルを生成する密度の両方を考慮に入れた内在的な計量である集団フェルマー距離(英語版)が与えられている。 この結果を用いて、本質的な永続図に向かって収束するサンプル永続図を得る。 本手法は理論的結果と計算実験によりユークリッドノルムに基づくより標準的な手法よりも優れていることを示す。

We address the problem of estimating intrinsic distances in a manifold from a finite sample. We prove that the metric space defined by the sample endowed with a computable metric known as sample Fermat distance converges a.s. in the sense of Gromov-Hausdorff. The limiting object is the manifold itself endowed with the population Fermat distance, an intrinsic metric that accounts for both the geometry of the manifold and the density that produces the sample. This result is applied to obtain sample persistence diagrams that converge towards an intrinsic persistence diagram. We show that this method outperforms more standard approaches based on Euclidean norm with theoretical results and computational experiments.
翻訳日:2021-05-11 03:05:56 公開日:2020-12-11
# 正規化制約を持つスパースニューラルネットワーク層に基づく特徴選択

Feature Selection Based on Sparse Neural Network Layer with Normalizing Constraints ( http://arxiv.org/abs/2012.06365v1 )

ライセンス: Link先を確認
Peter Bugata and Peter Drotar(参考訳) 高次元データの次元性の呪いを抑えながら、予測精度を向上させることが示されているため、機械学習において特徴選択は重要なステップである。 ニューラルネットワークは多くの非線形学習問題の解決に多大な成功を収めてきた。 本稿では,2つの制約を導入するニューラルネットワークに基づく特徴選択手法を提案する。 提案するfsの性能を評価するために,合成データと実世界データについて広範な実験を行った。 実験では,特徴選択の主な課題として,高次元,低サンプルサイズデータに着目した。 その結果,正規化制約付きスパースニューラルネットワーク層(SNEL-FS)に基づく特徴選択は,従来のFS法と比較して重要な特徴を選択でき,優れた性能が得られることを確認した。

Feature selection is important step in machine learning since it has shown to improve prediction accuracy while depressing the curse of dimensionality of high dimensional data. The neural networks have experienced tremendous success in solving many nonlinear learning problems. Here, we propose new neural-network based feature selection approach that introduces two constrains, the satisfying of which leads to sparse FS layer. We have performed extensive experiments on synthetic and real world data to evaluate performance of the proposed FS. In experiments we focus on the high dimension, low sample size data since those represent the main challenge for feature selection. The results confirm that proposed Feature Selection Based on Sparse Neural Network Layer with Normalizing Constraints (SNEL-FS) is able to select the important features and yields superior performance compared to other conventional FS methods.
翻訳日:2021-05-11 03:05:46 公開日:2020-12-11
# AIforCOVID: 新型コロナウイルス患者の胸部X線にAIを適用した臨床結果を予測する。 イタリアの多元研究

AIforCOVID: predicting the clinical outcomes in patients with COVID-19 applying AI to chest-X-rays. An Italian multicentre study ( http://arxiv.org/abs/2012.06531v1 )

ライセンス: Link先を確認
Paolo Soda, Natascha Claudia D'Amico, Jacopo Tessadori, Giovanni Valbusa, Valerio Guarrasi, Chandra Bortolotto, Muhammad Usman Akbar, Rosa Sicilia, Ermanno Cordelli, Deborah Fazzini, Michaela Cellina, Giancarlo Oliva, Giovanni Callea, Silvia Panella, Maurizio Cariati, Diletta Cozzi, Vittorio Miele, Elvira Stellato, Gian Paolo Carrafiello, Giulia Castorani, Annalisa Simeone, Lorenzo Preda, Giulio Iannello, Alessio Del Bue, Fabio Tedoldi, Marco Al\`i, Diego Sona and Sergio Papa(参考訳) 最近の疫学的データによると、世界中で5300万人以上がSARS-CoV-2に感染し、1300万人が死亡した。 この病気は、最初の感染者の特定から数ヶ月後、急速に拡大しており、すぐに病院の資源不足が問題となった。 本研究は,胸部X線(CXR)を,集中治療や死亡などの重篤な結果のリスクのある患者を早期に同定するためのツールとして利用できるかを検討する。 CXRは、CT(Computed tomography)と比較して、より単純で、より速く、より広く、放射線線量を減らす放射線技術である。 2020年春にイタリアの6つの病院から820人の患者から収集されたデータを含むデータセットを提案する。 データセットには、CXR画像、いくつかの臨床属性、臨床結果が含まれる。 重症例と軽症例を区別し,その予後を予測するための人工知能の可能性を検討した。 そこで本研究では,CXR画像から抽出した特徴を,畳み込み神経ネットワークによって手作りまたは自動で利用し,臨床データと統合する3つのアプローチを提案する。 被曝評価は10倍と1セントのクロスバリデーションの両方で有望なパフォーマンスを示し、臨床データや画像が患者や病院の資源管理に有用な情報を提供する可能性があることを示唆している。

Recent epidemiological data report that worldwide more than 53 million people have been infected by SARS-CoV-2, resulting in 1.3 million deaths. The disease has been spreading very rapidly and few months after the identification of the first infected, shortage of hospital resources quickly became a problem. In this work we investigate whether chest X-ray (CXR) can be used as a possible tool for the early identification of patients at risk of severe outcome, like intensive care or death. CXR is a radiological technique that compared to computed tomography (CT) it is simpler, faster, more widespread and it induces lower radiation dose. We present a dataset including data collected from 820 patients by six Italian hospitals in spring 2020 during the first COVID-19 emergency. The dataset includes CXR images, several clinical attributes and clinical outcomes. We investigate the potential of artificial intelligence to predict the prognosis of such patients, distinguishing between severe and mild cases, thus offering a baseline reference for other researchers and practitioners. To this goal, we present three approaches that use features extracted from CXR images, either handcrafted or automatically by convolutional neuronal networks, which are then integrated with the clinical data. Exhaustive evaluation shows promising performance both in 10-fold and leave-one-centre-out cross-validation, implying that clinical data and images have the potential to provide useful information for the management of patients and hospital resources.
翻訳日:2021-05-11 03:05:33 公開日:2020-12-11
# 生成的モデルと分布外検出のための生成的adversarial trainingの分析と改善

Analyzing and Improving Generative Adversarial Training for Generative Modeling and Out-of-Distribution Detection ( http://arxiv.org/abs/2012.06568v1 )

ライセンス: Link先を確認
Xuwang Yin, Shiying Li, Gustavo K. Rohde(参考訳) gat(generative adversarial training)は、最近導入された防御法である。 従来の研究は、堅牢な予測モデルをトレーニングするための実験的な評価に重点を置いてきた。 本稿では,gat法を理論的に理解し,生成的モデリングと分散検出に応用することに焦点を当てる。 我々は, GAT の目的によって用いられる最大値定式化の最適解を解析し, GAN が使用する最小値定式化の比較分析を行う。 学習アルゴリズムの収束特性を理解するために,理論解析と2次元シミュレーションを用いる。 これらの結果に基づき,漸進的生成訓練アルゴリズムを開発し,画像生成および逆分布検出に対するアルゴリズムの適用に関する包括的評価を行う。 以上の結果から,生成的敵意訓練は,上記の応用において有望な新しい方向性であることが示唆された。

Generative adversarial training (GAT) is a recently introduced adversarial defense method. Previous works have focused on empirical evaluations of its application to training robust predictive models. In this paper we focus on theoretical understanding of the GAT method and extending its application to generative modeling and out-of-distribution detection. We analyze the optimal solutions of the maximin formulation employed by the GAT objective, and make a comparative analysis of the minimax formulation employed by GANs. We use theoretical analysis and 2D simulations to understand the convergence property of the training algorithm. Based on these results, we develop an incremental generative training algorithm, and conduct comprehensive evaluations of the algorithm's application to image generation and adversarial out-of-distribution detection. Our results suggest that generative adversarial training is a promising new direction for the above applications.
翻訳日:2021-05-11 03:05:09 公開日:2020-12-11
# EQG-RACE:試験型質問生成

EQG-RACE: Examination-Type Question Generation ( http://arxiv.org/abs/2012.06106v1 )

ライセンス: Link先を確認
Xin Jia, Wenjie Zhou, Xu Sun, Yunfang Wu(参考訳) 質問生成(QG)は,読み書きの実践や評価を容易にするための高品質な質問を生成することを目的とした,インテリジェントな自動学習システムの重要な構成要素である。 しかし、既存のQG技術は、主にWebから得られるデータセットのバイアス付きおよび非自然な言語源に関するいくつかの重要な問題に直面している(例)。 SQAD)。 本稿では, RACEから抽出したデータセットに基づいて, テストライクな質問を生成するための革新的な試験型質問生成手法(EQG-RACE)を提案する。 EQG-RACEには2つの主要な戦略が採用されている。 入力の表現を強化するために、粗い回答とキーワードのタグ付け方式を用いる。 応答誘導グラフ畳み込みネットワーク (ag-gcn) は, 文間関係と文間関係を明らかにする際に構造情報をキャプチャするように設計されている。 実験の結果,EQG-RACEはベースラインよりも優れていることがわかった。 さらに,本研究は,新たなQGプロトタイプとデータセットとQG手法を構築し,今後の研究における重要なベンチマークを提供する。 さらなる研究のために、私たちのデータとコードを公開します。

Question Generation (QG) is an essential component of the automatic intelligent tutoring systems, which aims to generate high-quality questions for facilitating the reading practice and assessments. However, existing QG technologies encounter several key issues concerning the biased and unnatural language sources of datasets which are mainly obtained from the Web (e.g. SQuAD). In this paper, we propose an innovative Examination-type Question Generation approach (EQG-RACE) to generate exam-like questions based on a dataset extracted from RACE. Two main strategies are employed in EQG-RACE for dealing with discrete answer information and reasoning among long contexts. A Rough Answer and Key Sentence Tagging scheme is utilized to enhance the representations of input. An Answer-guided Graph Convolutional Network (AG-GCN) is designed to capture structure information in revealing the inter-sentences and intra-sentence relations. Experimental results show a state-of-the-art performance of EQG-RACE, which is apparently superior to the baselines. In addition, our work has established a new QG prototype with a reshaped dataset and QG method, which provides an important benchmark for related research in future work. We will make our data and code publicly available for further research.
翻訳日:2021-05-11 03:04:43 公開日:2020-12-11
# 和英会話パラレルコーパスの文書化

Document-aligned Japanese-English Conversation Parallel Corpus ( http://arxiv.org/abs/2012.06143v1 )

ライセンス: Link先を確認
Mat\=iss Rikters, Ryokan Ri, Tong Li, Toshiaki Nakazawa(参考訳) 文レベル(sl)機械翻訳(mt)は多くの高ソース言語で受け入れられる品質に達しているが、ドキュメントレベル(dl)mtは、1)少量のdlデータでトレーニングすること、2)主要な手法とデータセットとしてsl評価に焦点を当てている。 最初の課題に対処するために、調整とテストのためのバランスのとれた高品質なビジネス会話データを含む和英会話コーパスを提案する。 第2の課題は、SL MTが文脈の欠如により適切な翻訳を作成できない主な領域を手動で特定することである。 次に,これらの現象をアノテートしてDLシステムの自動評価を緩和する評価セットを作成する。 私たちは、コーパスを使用してMTモデルをトレーニングし、コンテキストの使用が改善につながることを示す。

Sentence-level (SL) machine translation (MT) has reached acceptable quality for many high-resourced languages, but not document-level (DL) MT, which is difficult to 1) train with little amount of DL data; and 2) evaluate, as the main methods and data sets focus on SL evaluation. To address the first issue, we present a document-aligned Japanese-English conversation corpus, including balanced, high-quality business conversation data for tuning and testing. As for the second issue, we manually identify the main areas where SL MT fails to produce adequate translations in lack of context. We then create an evaluation set where these phenomena are annotated to alleviate automatic evaluation of DL systems. We train MT models using our corpus to demonstrate how using context leads to improvements.
翻訳日:2021-05-11 03:04:24 公開日:2020-12-11
# レイヤマッピング探索によるタスク非依存BERT蒸留の改善

Improving Task-Agnostic BERT Distillation with Layer Mapping Search ( http://arxiv.org/abs/2012.06153v1 )

ライセンス: Link先を確認
Xiaoqi Jiao, Huating Chang, Yichun Yin, Lifeng Shang, Xin Jiang, Xiao Chen, Linlin Li, Fang Wang and Qun Liu(参考訳) 近年,大規模な教師モデルから小学生モデルに知識を伝達する知識蒸留(KD)が,BERTモデルを圧縮するために広く利用されている。 KDの出力の監督に加えて、最近の研究は、階層レベルの監督が学生BERTモデルの性能に不可欠であることを示している。 しかし、以前の作品では層マッピング戦略をヒューリスティックに設計しており(一様層や最後の層など)、性能を低下させる可能性がある。 本稿では,遺伝的アルゴリズム(ga)を用いて最適な層マッピングを自動的に探索する手法を提案する。 探索過程を高速化するために,蒸留のためにトレーニングコーパスのごく一部をサンプリングし,評価のために3つの代表的なタスクを選択するプロキシ設定を提案する。 最適層マッピングを得た後、コーパス全体に対してタスク非依存のBERT蒸留を行い、下流タスクを直接微調整できるコンパクトな学生モデルを構築する。 評価ベンチマークの総合的な実験から,1) 階層マッピング戦略がタスクに依存しないBERT蒸留や異なるレイヤマッピングに重大な影響があること,2) 提案した探索プロセスからの最適レイヤマッピング戦略が他のヒューリスティックな手法より一貫して優れていること,3) 最適レイヤマッピングでは,GLUEタスクにおける最先端のパフォーマンスが達成できること,などが示されている。

Knowledge distillation (KD) which transfers the knowledge from a large teacher model to a small student model, has been widely used to compress the BERT model recently. Besides the supervision in the output in the original KD, recent works show that layer-level supervision is crucial to the performance of the student BERT model. However, previous works designed the layer mapping strategy heuristically (e.g., uniform or last-layer), which can lead to inferior performance. In this paper, we propose to use the genetic algorithm (GA) to search for the optimal layer mapping automatically. To accelerate the search process, we further propose a proxy setting where a small portion of the training corpus are sampled for distillation, and three representative tasks are chosen for evaluation. After obtaining the optimal layer mapping, we perform the task-agnostic BERT distillation with it on the whole corpus to build a compact student model, which can be directly fine-tuned on downstream tasks. Comprehensive experiments on the evaluation benchmarks demonstrate that 1) layer mapping strategy has a significant effect on task-agnostic BERT distillation and different layer mappings can result in quite different performances; 2) the optimal layer mapping strategy from the proposed search process consistently outperforms the other heuristic ones; 3) with the optimal layer mapping, our student model achieves state-of-the-art performance on the GLUE tasks.
翻訳日:2021-05-11 03:04:08 公開日:2020-12-11
# Morphology Matters:多言語言語モデリング分析

Morphology Matters: A Multilingual Language Modeling Analysis ( http://arxiv.org/abs/2012.06262v1 )

ライセンス: Link先を確認
Hyunji Hayley Park, Katherine J. Zhang, Coleman Haley, Kenneth Steimel, Han Liu, Lane Schwartz(参考訳) 言語モデリングの先行研究(Cotterell et al., 2018; Mielke et al., 2019)では、屈折形態学が言語をモデル化しにくくするかどうかについて意見が分かれている。 我々はその意見の相違を解消し、研究を拡張しようと試みる。 我々は92の言語で145の聖書翻訳のより大きなコーパスをコンパイルし、多くの類型的特徴を蓄積する。 我々は,いくつかの言語で欠落しているタイプ学データを埋め,専門的なタイプ学的特徴に加えて,形態的複雑性のコーパスに基づく尺度を検討する。 LSTMモデルにBPE分類データを適用した場合,いくつかの形態的測定値が高い確率に大きく関連していることが判明した。 また,Morfessor や Finite-State Transducers (FSTs) のような言語的に動機付けられたサブワードセグメンテーション戦略も検討し,これらのセグメンテーション戦略が言語モデルに対する言語形態の影響を低減し,より良い性能をもたらすことを見出した。

Prior studies in multilingual language modeling (e.g., Cotterell et al., 2018; Mielke et al., 2019) disagree on whether or not inflectional morphology makes languages harder to model. We attempt to resolve the disagreement and extend those studies. We compile a larger corpus of 145 Bible translations in 92 languages and a larger number of typological features. We fill in missing typological data for several languages and consider corpus-based measures of morphological complexity in addition to expert-produced typological features. We find that several morphological measures are significantly associated with higher surprisal when LSTM models are trained with BPE-segmented data. We also investigate linguistically-motivated subword segmentation strategies like Morfessor and Finite-State Transducers (FSTs) and find that these segmentation strategies yield better performance and reduce the impact of a language's morphology on language modeling.
翻訳日:2021-05-11 03:03:40 公開日:2020-12-11
# ゼロショット言語間伝達における直交言語とタスクアダプタ

Orthogonal Language and Task Adapters in Zero-Shot Cross-Lingual Transfer ( http://arxiv.org/abs/2012.06460v1 )

ライセンス: Link先を確認
Marko Vidoni, Ivan Vuli\'c, Goran Glava\v{s}(参考訳) アダプタモジュール、事前学習されたトランスフォーマーの効率的な微調整を可能にする追加のトレーニング可能なパラメータは、最近多言語トランスフォーマーの言語特化、下流のゼロショットクロスリンガル転送の改善に使用されている。 本稿では,言語間変換のための直交言語とタスクアダプタ(dubbed orthoadapter)を提案する。 それらは、事前訓練されたトランスフォーマーのパラメータに既に格納されている知識と相補的な(直交する)言語およびタスク固有の情報をエンコードするように訓練される。 本研究では,3つのタスク(POSタグ,NER,NLI)と10の多言語からなるゼロショット言語間移動実験を行い,特に最も複雑なNLIタスクにおいて,オーソラアダプタの有用性を示すとともに,最適アダプタ構成がタスクとターゲット言語に大きく依存していることを示した。 我々の研究は、事前訓練されたトランスフォーマーの言語およびタスク固有の微調整における直交制約の有用性に関するより広範な調査を動機付けることを願っている。

Adapter modules, additional trainable parameters that enable efficient fine-tuning of pretrained transformers, have recently been used for language specialization of multilingual transformers, improving downstream zero-shot cross-lingual transfer. In this work, we propose orthogonal language and task adapters (dubbed orthoadapters) for cross-lingual transfer. They are trained to encode language- and task-specific information that is complementary (i.e., orthogonal) to the knowledge already stored in the pretrained transformer's parameters. Our zero-shot cross-lingual transfer experiments, involving three tasks (POS-tagging, NER, NLI) and a set of 10 diverse languages, 1) point to the usefulness of orthoadapters in cross-lingual transfer, especially for the most complex NLI task, but also 2) indicate that the optimal adapter configuration highly depends on the task and the target language. We hope that our work will motivate a wider investigation of usefulness of orthogonality constraints in language- and task-specific fine-tuning of pretrained transformers.
翻訳日:2021-05-11 03:03:23 公開日:2020-12-11
# TF-CR:テキスト分類のための重み付け埋め込み

TF-CR: Weighting Embeddings for Text Classification ( http://arxiv.org/abs/2012.06606v1 )

ライセンス: Link先を確認
Arkaitz Zubiaga(参考訳) テキスト分類は、カテゴリをテキストインスタンスに割り当てるタスクとして、情報科学において非常に一般的なタスクである。 近年,テキスト分類作業に使用する機能として,単語埋め込みなどの単語の分散表現を学習する手法が普及している。 テキスト分類における単語の埋め込みの増大にもかかわらず、これらは一般に教師なしの方法で使用される。 トレーニングデータの クラスラベルから派生した情報は 利用されない。 単語埋め込みは、本質的に単語の分布特性と、その周辺で観測されるコンテキストを大きなデータセットで捉えるが、手前の分類データセットのカテゴリ間で単語の分布を考えることは最適化されていない。 学習データにクラス分布を組み込むことで、単語埋め込みに基づくテキスト表現を最適化するために、各クラスにおけるそのサリエンシーに基づいて各単語の埋め込みに重みを割り当てる重み付けスキームの使用を提案する。 これを実現するために、単語埋め込みの計算において、高頻度のカテゴリー排他語を重み付けできる新しい重み付け方式TF-CR(Term Frequency-Category Ratio)を導入する。 16の分類データセットに対する実験によりTF-CRの有効性が示され、既存の重み付け方式よりも性能スコアが向上し、トレーニングデータのサイズが大きくなるにつれて性能差が増大した。

Text classification, as the task consisting in assigning categories to textual instances, is a very common task in information science. Methods learning distributed representations of words, such as word embeddings, have become popular in recent years as the features to use for text classification tasks. Despite the increasing use of word embeddings for text classification, these are generally used in an unsupervised manner, i.e. information derived from class labels in the training data are not exploited. While word embeddings inherently capture the distributional characteristics of words, and contexts observed around them in a large dataset, they aren't optimised to consider the distributions of words across categories in the classification dataset at hand. To optimise text representations based on word embeddings by incorporating class distributions in the training data, we propose the use of weighting schemes that assign a weight to embeddings of each word based on its saliency in each class. To achieve this, we introduce a novel weighting scheme, Term Frequency-Category Ratio (TF-CR), which can weight high-frequency, category-exclusive words higher when computing word embeddings. Our experiments on 16 classification datasets show the effectiveness of TF-CR, leading to improved performance scores over existing weighting schemes, with a performance gap that increases as the size of the training data grows.
翻訳日:2021-05-11 03:03:04 公開日:2020-12-11
# 比較テキスト分析の複雑さ -- 「庭師は常に殺人者」

The Complexity of Comparative Text Analysis -- "The Gardener is always the Murderer" says the Fourth Machine ( http://arxiv.org/abs/2012.07637v1 )

ライセンス: Link先を確認
Marcus Weber and Konstantin Fackeldey(参考訳) コンピューターがテキスト分析の複雑さを、人間研究者全体の能力と比較すると、どこまで地図化できるかという熱い議論がある。 与えられたテキストの「深い」分析は現代のコンピュータの可能性を超越している。 既存の計算テキスト解析アルゴリズムの中心には、代数体の規則に従って加算や乗算などの実数を扱う演算が存在する。 しかし、「比較」の過程は、代数体の構造とは異なる非常に正確な数学的構造を持つ。 比較」の数学的構造はブール環を用いて表現することができる。 この構造の上に構築し、対応する代数方程式を定義し、比較テキスト解析のアルゴリズムを「正しい」代数基底に引き上げる。 この観点から,比較テキスト解析における計算複雑性の問題を検討することができる。

There is a heated debate about how far computers can map the complexity of text analysis compared to the abilities of the whole team of human researchers. A "deep" analysis of a given text is still beyond the possibilities of modern computers. In the heart of the existing computational text analysis algorithms there are operations with real numbers, such as additions and multiplications according to the rules of algebraic fields. However, the process of "comparing" has a very precise mathematical structure, which is different from the structure of an algebraic field. The mathematical structure of "comparing" can be expressed by using Boolean rings. We build on this structure and define the corresponding algebraic equations lifting algorithms of comparative text analysis onto the "correct" algebraic basis. From this point of view, we can investigate the question of {\em computational} complexity of comparative text analysis.
翻訳日:2021-05-11 03:02:42 公開日:2020-12-11
# 新しいジョイントポイントとシルエットを用いた3次元人物のポーズと形状推定法

A novel joint points and silhouette-based method to estimate 3D human pose and shape ( http://arxiv.org/abs/2012.06109v1 )

ライセンス: Link先を確認
Zhongguo Li and Anders Heyden and Magnus Oskarsson(参考訳) 本稿では, パラメトリックモデルに基づく手動点とシルエットを用いて, 疎視画像から3次元人物のポーズと形状を推定する新しい手法を提案する。 まず、深層学習に基づく人間のポーズ推定によって推定される関節点にパラメトリックモデルを適用する。 次に,2次元空間と3次元空間におけるポーズフィッティングのパラメトリックモデルとシルエットの対応関係を抽出する。 対応に基づく新しいエネルギー関数が構築され、シルエットにパラメトリックモデルに適合するように最小化される。 シルエットのエネルギー関数は2次元空間と3次元空間の両方から構築されているため,形状情報の利用は十分である。 これはまた、使用するデータと必要な事前情報とのバランスをとるスパースビューからのイメージのみを必要とすることを意味する。 合成データと実データの結果から,人体のポーズと形状推定におけるアプローチの競争力が示された。

This paper presents a novel method for 3D human pose and shape estimation from images with sparse views, using joint points and silhouettes, based on a parametric model. Firstly, the parametric model is fitted to the joint points estimated by deep learning-based human pose estimation. Then, we extract the correspondence between the parametric model of pose fitting and silhouettes on 2D and 3D space. A novel energy function based on the correspondence is built and minimized to fit parametric model to the silhouettes. Our approach uses sufficient shape information because the energy function of silhouettes is built from both 2D and 3D space. This also means that our method only needs images from sparse views, which balances data used and the required prior information. Results on synthetic data and real data demonstrate the competitive performance of our approach on pose and shape estimation of the human body.
翻訳日:2021-05-11 03:02:31 公開日:2020-12-11
# 色関連局所バイナリパターン:カラー画像認識のための学習ローカル記述子

Color-related Local Binary Pattern: A Learned Local Descriptor for Color Image Recognition ( http://arxiv.org/abs/2012.06132v1 )

ライセンス: Link先を確認
Bin Xiao, Tao Geng, Xiuli Bi, Weisheng Li(参考訳) ローカルバイナリパターン(lbp)は、その単純さ、実装の容易さ、画像認識における強力な識別能力を示している。 いくつかのlbp変種はカラー画像認識のために特に研究されているが、画像の色情報は十分に考慮されておらず、分類における次元の呪いがこれらの手法で容易に引き起こされる。 本稿では,カラー画像認識のために,デコードされたlppから支配的なパターンを学習する色関連局所二分パターン(clbp)を提案する。 本稿ではまず,カラー画像を記述するための画像チャネル間の色相似性を表す相対相似性空間(rss)を提案する。 そして、rss伝統的rgb空間の各カラーチャネルに対応するlpp特徴マップ間の相関情報をマイニング可能な復号化されたlppを用いて特徴抽出を行う。 最後に、特徴ベクトルの次元を減少させ、さらに特徴の識別性を向上させるために、支配的な色関連パターンを学ぶために特徴学習戦略を用いる。 理論解析により,提案するrssは,従来のrgb空間よりも,より識別的情報を提供し,高い雑音ロバスト性と高い照明変動ロバスト性を有することが示された。 4つのグループ,全12のパブリックカラー画像データセットによる実験結果から,提案手法は特徴の次元,ノイズフリー,ノイズ,照明条件下での認識精度において,LBPの変種の大部分より優れていた。

Local binary pattern (LBP) as a kind of local feature has shown its simplicity, easy implementation and strong discriminating power in image recognition. Although some LBP variants are specifically investigated for color image recognition, the color information of images is not adequately considered and the curse of dimensionality in classification is easily caused in these methods. In this paper, a color-related local binary pattern (cLBP) which learns the dominant patterns from the decoded LBP is proposed for color images recognition. This paper first proposes a relative similarity space (RSS) that represents the color similarity between image channels for describing a color image. Then, the decoded LBP which can mine the correlation information between the LBP feature maps correspond to each color channel of RSS traditional RGB spaces, is employed for feature extraction. Finally, a feature learning strategy is employed to learn the dominant color-related patterns for reducing the dimension of feature vector and further improving the discriminatively of features. The theoretic analysis show that the proposed RSS can provide more discriminative information, and has higher noise robustness as well as higher illumination variation robustness than traditional RGB space. Experimental results on four groups, totally twelve public color image datasets show that the proposed method outperforms most of the LBP variants for color image recognition in terms of dimension of features, recognition accuracy under noise-free, noisy and illumination variation conditions.
翻訳日:2021-05-11 03:02:17 公開日:2020-12-11
# 高分解能ビデオ合成のための固有時間規則化

Intrinsic Temporal Regularization for High-resolution Human Video Synthesis ( http://arxiv.org/abs/2012.06134v1 )

ライセンス: Link先を確認
Lingbo Yang, Zhanning Gao, Peiran Ren, Siwei Ma, Wen Gao(参考訳) 時間的一貫性は、画像処理パイプラインをビデオドメインに拡張する上で非常に重要です。 しかし,人間の映像合成では,音源と対象映像のずれや正確な流れ推定の難しさから,その信頼性は低下している。 本稿では,フレーム生成器を介して固有信頼度マップを推定し,時間的損失変調による動き推定を制御し,これらの問題を緩和するための有効な固有時間正規化手法を提案する。 これにより、前端運動推定器に直接時間的損失勾配をバックプロパゲーションするショートカットが作成され、出力ビデオのトレーニング安定性と時間的コヒーレンスが向上する。 我々は、時間的コヒーレントでリアルな視覚的ディテールを備えた512\times512$の人間のアクションビデオを生成することができる強力な「INTERnet」を実現する。 大規模な実験は、いくつかの競争基盤線よりも提案されたInternetの優位性を実証している。

Temporal consistency is crucial for extending image processing pipelines to the video domain, which is often enforced with flow-based warping error over adjacent frames. Yet for human video synthesis, such scheme is less reliable due to the misalignment between source and target video as well as the difficulty in accurate flow estimation. In this paper, we propose an effective intrinsic temporal regularization scheme to mitigate these issues, where an intrinsic confidence map is estimated via the frame generator to regulate motion estimation via temporal loss modulation. This creates a shortcut for back-propagating temporal loss gradients directly to the front-end motion estimator, thus improving training stability and temporal coherence in output videos. We apply our intrinsic temporal regulation to single-image generator, leading to a powerful "INTERnet" capable of generating $512\times512$ resolution human action videos with temporal-coherent, realistic visual details. Extensive experiments demonstrate the superiority of proposed INTERnet over several competitive baselines.
翻訳日:2021-05-11 03:01:54 公開日:2020-12-11
# 空間制約付きサブスペースクラスタリングに基づくスーパーピクセルセグメンテーション

Superpixel Segmentation Based on Spatially Constrained Subspace Clustering ( http://arxiv.org/abs/2012.06149v1 )

ライセンス: Link先を確認
Hua Li, Yuheng Jia, Runmin Cong, Wenhui Wu, Sam Kwong, and Chuanbo Chen(参考訳) スーパーピクセルセグメンテーション(Superpixel segmentation)は、入力画像を、各スーパーピクセルの形状と大きさに関する事前の知識なしに、類似で一貫した固有の特性を持つ画素を含むいくつかの代表領域に分割することを目的とする。 本稿では,細部境界の維持が困難である産業作業におけるスーパーピクセルセグメンテーションの限界を軽減するため,各代表領域に独立したセマンティック情報をサブスペースとみなし,それに対応するスーパーピクセルセグメンテーションをサブスペースクラスタリング問題として定式化し,より詳細なコンテンツバウンダリを保存する。 従来のサブスペースクラスタリングとスーパーピクセルセグメンテーションの単純な統合は、スーパーピクセル内のピクセルの空間的相関のために効果的に機能しないため、相関を無視すると境界混乱やセグメンテーションエラーを引き起こす可能性がある。 その結果,空間正規化を考案し,空間隣接画素を類似属性で制約し,より詳細な境界を持つコンテンツ対応スーパーピクセルを生成することのできる,凸局所性制約付きサブスペースクラスタリングモデルを提案する。 最後に,乗算器 (ADMM) の効率的な交互方向法により,提案手法を解く。 異なる標準データセットに対する実験により,提案手法は,いくつかの最先端手法と比較して,定量的かつ質的に優れた性能を発揮することが示された。

Superpixel segmentation aims at dividing the input image into some representative regions containing pixels with similar and consistent intrinsic properties, without any prior knowledge about the shape and size of each superpixel. In this paper, to alleviate the limitation of superpixel segmentation applied in practical industrial tasks that detailed boundaries are difficult to be kept, we regard each representative region with independent semantic information as a subspace, and correspondingly formulate superpixel segmentation as a subspace clustering problem to preserve more detailed content boundaries. We show that a simple integration of superpixel segmentation with the conventional subspace clustering does not effectively work due to the spatial correlation of the pixels within a superpixel, which may lead to boundary confusion and segmentation error when the correlation is ignored. Consequently, we devise a spatial regularization and propose a novel convex locality-constrained subspace clustering model that is able to constrain the spatial adjacent pixels with similar attributes to be clustered into a superpixel and generate the content-aware superpixels with more detailed boundaries. Finally, the proposed model is solved by an efficient alternating direction method of multipliers (ADMM) solver. Experiments on different standard datasets demonstrate that the proposed method achieves superior performance both quantitatively and qualitatively compared with some state-of-the-art methods.
翻訳日:2021-05-11 03:01:36 公開日:2020-12-11
# 大ベースライン深部ホログラフィーによるエッジ保存画像スティッチの学習

Learning Edge-Preserved Image Stitching from Large-Baseline Deep Homography ( http://arxiv.org/abs/2012.06194v1 )

ライセンス: Link先を確認
Lang Nie, Chunyu Lin, Kang Liao, Yao Zhao(参考訳) 画像縫合はコンピュータビジョンにおいて古典的で重要な技法であり、広い視野で画像を生成することを目的としている。 従来の手法は特徴検出に大きく依存しており、シーンの特徴が密度が高く、画像に均等に分散していることが必要であり、ゴースト効果やロバスト性に乏しい。 学習方法は、通常、固定ビューと入力サイズ制限に悩まされ、他の実際のデータセットに対する一般化能力の欠如を示す。 本稿では,大きなベースライン深部ホモグラフィモジュールとエッジ保存変形モジュールからなる画像縫合学習フレームワークを提案する。 まず,異なる特徴量で参照画像と対象画像の正確な投影変換を推定するための,大規模ベースライン深層ホログラフィーモジュールを提案する。 その後、エッジ保存変形モジュールは、画像縫合の変形規則をエッジからコンテンツへと学習し、ゴースト効果を極力排除するように設計されている。 特に,提案する学習フレームワークは,任意の視点や入力サイズの画像を縫い合わせることができ,他の実画像の一般化能力に優れた教師あり深部画像縫い法に寄与する。 実験の結果,我々のホモグラフィモジュールは,既存の深層ホモグラフィ法を大きく上回っていることがわかった。 画像ステッチでは,既存の学習方法よりも優れ,最先端の従来手法と競合する性能を示す。

Image stitching is a classical and crucial technique in computer vision, which aims to generate the image with a wide field of view. The traditional methods heavily depend on the feature detection and require that scene features be dense and evenly distributed in the image, leading to varying ghosting effects and poor robustness. Learning methods usually suffer from fixed view and input size limitations, showing a lack of generalization ability on other real datasets. In this paper, we propose an image stitching learning framework, which consists of a large-baseline deep homography module and an edge-preserved deformation module. First, we propose a large-baseline deep homography module to estimate the accurate projective transformation between the reference image and the target image in different scales of features. After that, an edge-preserved deformation module is designed to learn the deformation rules of image stitching from edge to content, eliminating the ghosting effects as much as possible. In particular, the proposed learning framework can stitch images of arbitrary views and input sizes, thus contribute to a supervised deep image stitching method with excellent generalization capability in other real images. Experimental results demonstrate that our homography module significantly outperforms the existing deep homography methods in the large baseline scenes. In image stitching, our method is superior to the existing learning method and shows competitive performance with state-of-the-art traditional methods.
翻訳日:2021-05-11 03:00:18 公開日:2020-12-11
# 骨格に基づく行動認識のための空間時間変換器ネットワーク

Spatial Temporal Transformer Network for Skeleton-based Action Recognition ( http://arxiv.org/abs/2012.06399v1 )

ライセンス: Link先を確認
Chiara Plizzari, Marco Cannici, Matteo Matteucci(参考訳) スケルトンベースの人間の行動認識は近年大きな関心を集めており、スケルトンデータは照明の変化、ボディスケール、ダイナミックカメラのビュー、複雑な背景に頑健であることが示されている。 それでも、3dスケルトンの基礎となる潜在情報の効果的なエンコーディングは、まだ未解決の問題である。 本研究では,Transformer self-attention operatorを用いて関節間の依存関係をモデル化する新しいSpatial-Temporal Transformer Network (ST-TR)を提案する。 st-trモデルでは,異なる身体部位間のフレーム内相互作用を理解するために空間的自己付着モジュール (ssa) と,フレーム間相関をモデル化する時間的自己接触モジュール (tsa) が用いられる。 両者は、NTU-RGB+D 60とNTU-RGB+D 120の両方で同じ入力データを用いて、最先端モデルを上回る2ストリームネットワークで結合される。

Skeleton-based human action recognition has achieved a great interest in recent years, as skeleton data has been demonstrated to be robust to illumination changes, body scales, dynamic camera views, and complex background. Nevertheless, an effective encoding of the latent information underlying the 3D skeleton is still an open problem. In this work, we propose a novel Spatial-Temporal Transformer network (ST-TR) which models dependencies between joints using the Transformer self-attention operator. In our ST-TR model, a Spatial Self-Attention module (SSA) is used to understand intra-frame interactions between different body parts, and a Temporal Self-Attention module (TSA) to model inter-frame correlations. The two are combined in a two-stream network which outperforms state-of-the-art models using the same input data on both NTU-RGB+D 60 and NTU-RGB+D 120.
翻訳日:2021-05-11 02:59:31 公開日:2020-12-11
# シード画像解析への新しい自動アプローチ:獲得からセグメンテーションへ

A new automatic approach to seed image analysis: From acquisition to segmentation ( http://arxiv.org/abs/2012.06414v1 )

ライセンス: Link先を確認
A.M.P.G. Vale, M. Ucchesu, C. Di Ruberto, A. Loddo, J.M. Soares, G.Bacchetta(参考訳) 画像解析は、種子の形態的および色彩的特徴に基づいて血管植物の種を分類するための新しいツールを提供し、系統研究に重要な貢献をした。 しかし, 形態的, 色彩的特徴を抽出するためには, 分析対象の試料を含む画像を分割する必要がある。 この段階は画像処理において最も難しいステップの1つであり、一様および均質なオブジェクトを背景から分離することは困難である。 本稿では,シードサンプルの画像の自動セグメンテーションのための新しいオープンソースプラグインを提案する。 このプラグインは、ImageJオープンソースソフトウェアと連携できるようにJavaで書かれています。 新しいプラグインはfabaceaeファミリーに属する120種の合計3,386種の種子サンプルでテストされた。 デジタル画像はフラットベッドスキャナーで取得された。 対象物のエッジを識別し,背景から分離する手法として,本手法の有効性を検証するため,各試料を背景に4種類の青色でスキャンし,合計480枚のデジタル画像を精査した。 新しいプラグインのパフォーマンスは、同じシードサンプルを使用して、イメージをcore imagejプラグインを使って手動でセグメンテーションしたダブルイメージ取得(黒と白の背景を持つ)に基づく方法と比較された。 その結果、新しいプラグインはオブジェクト検出エラーを発生させることなく、すべてのデジタルイメージを分割することができた。 さらに、新しいプラグインは、平均0.02 s以内にイメージをセグメンテーションすることができたが、マニュアルメソッドでの実行平均時間は63 sであった。この新しいオープンソースプラグインは、1つのイメージで作業できることが証明されており、大量の画像と幅広い形状を扱う場合、時間とセグメンテーションの観点から非常に効率的である。

Image Analysis offers a new tool for classifying vascular plant species based on the morphological and colorimetric features of the seeds, and has made significant contributions in systematic studies. However, in order to extract the morphological and colorimetric features, it is necessary to segment the image containing the samples to be analysed. This stage represents one of the most challenging steps in image processing, as it is difficult to separate uniform and homogeneous objects from the background. In this paper, we present a new, open source plugin for the automatic segmentation of an image of a seed sample. This plugin was written in Java to allow it to work with ImageJ open source software. The new plugin was tested on a total of 3,386 seed samples from 120 species belonging to the Fabaceae family. Digital images were acquired using a flatbed scanner. In order to test the efficacy of this approach in terms of identifying the edges of objects and separating them from the background, each sample was scanned using four different hues of blue for the background, and a total of 480 digital images were elaborated. The performance of the new plugin was compared with a method based on double image acquisition (with a black and white background) using the same seed samples, in which images were manually segmented using the Core ImageJ plugin. The results showed that the new plugin was able to segment all of the digital images without generating any object detection errors. In addition, the new plugin was able to segment images within an average of 0.02 s, while the average time for execution with the manual method was 63 s. This new open source plugin is proven to be able to work on a single image, and to be highly efficient in terms of time and segmentation when working with large numbers of images and a wide diversity of shapes.
翻訳日:2021-05-11 02:59:15 公開日:2020-12-11
# リアルタイム人物検索のためのマルチタスク統合フレームワーク

A Multi-task Joint Framework for Real-time Person Search ( http://arxiv.org/abs/2012.06418v1 )

ライセンス: Link先を確認
Ye Li, Kangning Yin, Jie Liang, Chunyu Wang, Guangqiang Yin(参考訳) パーソナライズ検索は一般的に3つの重要な部分を含む:パーソナライズ検出、特徴抽出、アイデンティティ比較。 しかし, 検出, 抽出, 比較を統合した人物探索には, 以下の欠点がある。 まず、検出の精度が比較の精度に影響を与える。 第2に,リアルタイムアプリケーションの実現は困難である。 そこで本研究では,人物検出,特徴抽出,同一性比較をそれぞれ最適化したリアルタイム人物検索のためのマルチタスク統合フレームワークを提案する。 人検出モジュールとして,人物データセットをトレーニングしたYOLOv5-GSモデルを提案する。 ghostnetとswish-and-excitation (se)ブロックの利点を組み合わせることで、スピードと精度を向上させる。 特徴抽出モジュールでは、人数に応じて異なるネットワークを選択することができるモデル適応アーキテクチャ(MAA)を設計する。 精度と速度の関係をバランスさせることができます。 同一性比較のために,3次元(3次元)プーリングテーブルとマッチング戦略を提案し,識別精度を向上させる。 1920*1080の解像度ビデオと500のIDテーブルの条件で、我々の方法で達成された識別率(IR)とフレーム/秒(FPS)は93.6%と25.7に達した。

Person search generally involves three important parts: person detection, feature extraction and identity comparison. However, person search integrating detection, extraction and comparison has the following drawbacks. Firstly, the accuracy of detection will affect the accuracy of comparison. Secondly, it is difficult to achieve real-time in real-world applications. To solve these problems, we propose a Multi-task Joint Framework for real-time person search (MJF), which optimizes the person detection, feature extraction and identity comparison respectively. For the person detection module, we proposed the YOLOv5-GS model, which is trained with person dataset. It combines the advantages of the Ghostnet and the Squeeze-and-Excitation (SE) block, and improves the speed and accuracy. For the feature extraction module, we design the Model Adaptation Architecture (MAA), which could select different network according to the number of people. It could balance the relationship between accuracy and speed. For identity comparison, we propose a Three Dimension (3D) Pooled Table and a matching strategy to improve identification accuracy. On the condition of 1920*1080 resolution video and 500 IDs table, the identification rate (IR) and frames per second (FPS) achieved by our method could reach 93.6% and 25.7,
翻訳日:2021-05-11 02:58:46 公開日:2020-12-11
# d2-net: 弁別埋め込みと弁別アクティベーションによる弱い教師付き行動局在

D2-Net: Weakly-Supervised Action Localization via Discriminative Embeddings and Denoised Activations ( http://arxiv.org/abs/2012.06440v1 )

ライセンス: Link先を確認
Sanath Narayan, Hisham Cholakkal, Munawar Hayat, Fahad Shahbaz Khan, Ming-Hsuan Yang, Ling Shao(参考訳) 本研究は,映像レベルの監視による動作の時間的ローカライズを目的とした,D2-Netと呼ばれる時間的行動ローカライズフレームワークを提案する。 我々の主な貢献は、低監督による前景背景雑音に対する遅延埋め込みの識別性と出力時間的階級活性化の堅牢性を共同で強化する新しい損失定式化の導入である。 提案する定式化は、時間的行動局在を高めるための識別的および認知的損失項を含む。 判別用語は分類損失を組み込んでおり、トップダウンアテンション機構を利用して潜在前景バックグラウンド埋め込みの分離性を高める。 消音損失項はボトムアップアテンション機構を用いてビデオ内およびビデオ間相互情報を最大化することにより、クラスアクティベーションにおける前景バックグラウンドノイズに明示的に対処する。 その結果、背景領域の活性化が強調され、背景領域の活性化が抑制され、より堅牢な予測が導かれる。 THUMOS14とActivityNet1.2の2つのベンチマークで包括的な実験が行われた。 我々のD2-Netは、両方のデータセットの既存の手法と比較して良好に動作し、THUMOS14の平均的な精度で最大3.6%のゲインを達成した。

This work proposes a weakly-supervised temporal action localization framework, called D2-Net, which strives to temporally localize actions using video-level supervision. Our main contribution is the introduction of a novel loss formulation, which jointly enhances the discriminability of latent embeddings and robustness of the output temporal class activations with respect to foreground-background noise caused by weak supervision. The proposed formulation comprises a discriminative and a denoising loss term for enhancing temporal action localization. The discriminative term incorporates a classification loss and utilizes a top-down attention mechanism to enhance the separability of latent foreground-background embeddings. The denoising loss term explicitly addresses the foreground-background noise in class activations by simultaneously maximizing intra-video and inter-video mutual information using a bottom-up attention mechanism. As a result, activations in the foreground regions are emphasized whereas those in the background regions are suppressed, thereby leading to more robust predictions. Comprehensive experiments are performed on two benchmarks: THUMOS14 and ActivityNet1.2. Our D2-Net performs favorably in comparison to the existing methods on both datasets, achieving gains as high as 3.6% in terms of mean average precision on THUMOS14.
翻訳日:2021-05-11 02:58:27 公開日:2020-12-11
# 個別化脳機能ネットワーク同定のための教師なし深層学習

Unsupervised deep learning for individualized brain functional network identification ( http://arxiv.org/abs/2012.06494v1 )

ライセンス: Link先を確認
Hongming Li, Yong Fan(参考訳) 安静状態fmri(rsfmri)から個人特異的大脳機能ネットワーク(fns)をエンド・ツー・エンドの学習方法で同定する,教師なし深層学習法を開発した。 本手法では,ディープエンコーダ・デコーダネットワークと従来の脳分解モデルを用いて,教師なし学習フレームワークにおける個人固有のFNを同定し,ディープネットワークの1つの前方パスを持つ新規個体の高速推論を容易にする。 特に、エンコーダ・デコーダアーキテクチャを備えた畳み込みニューラルネットワーク(CNN)を用いて、脳分解モデルで一般的に使用されるデータフィッティングと空間正規化項を最適化することにより、rsfMRIデータから個々のFNを識別する。 さらに、時変表現学習モジュールは、rsfMRIデータの時間点の時間順に不変な特徴を学習するように設計されている。 提案手法は,大規模なrsfmriデータセットに基づいて検証され,実験により,確立されたfnsと整合し,脳年齢の予測に有用である個体特異的fnが得られることを実証し,個体特異的fnsが機能神経解剖学の基盤的変動を真に捉えたことを示す。

A novel unsupervised deep learning method is developed to identify individual-specific large scale brain functional networks (FNs) from resting-state fMRI (rsfMRI) in an end-to-end learning fashion. Our method leverages deep Encoder-Decoder networks and conventional brain decomposition models to identify individual-specific FNs in an unsupervised learning framework and facilitate fast inference for new individuals with one forward pass of the deep network. Particularly, convolutional neural networks (CNNs) with an Encoder-Decoder architecture are adopted to identify individual-specific FNs from rsfMRI data by optimizing their data fitting and sparsity regularization terms that are commonly used in brain decomposition models. Moreover, a time-invariant representation learning module is designed to learn features invariant to temporal orders of time points of rsfMRI data. The proposed method has been validated based on a large rsfMRI dataset and experimental results have demonstrated that our method could obtain individual-specific FNs which are consistent with well-established FNs and are informative for predicting brain age, indicating that the individual-specific FNs identified truly captured the underlying variability of individualized functional neuroanatomy.
翻訳日:2021-05-11 02:57:45 公開日:2020-12-11
# パーキンソン病検出のための表情と情動ドメインの検討

Exploring Facial Expressions and Affective Domains for Parkinson Detection ( http://arxiv.org/abs/2012.06563v1 )

ライセンス: Link先を確認
Luis Felipe Gomez-Gomez and Aythami Morales and Julian Fierrez and Juan Rafael Orozco-Arroyave(参考訳) パーキンソン病(英: Parkinson's Disease、PD)は、顔面運動と非言語コミュニケーションに影響を与える神経疾患である。 PD患者は、MDS-UPDRS-IIIスケールの3.2項目で評価される視力低下と呼ばれる顔面運動の低下を呈する。 本研究では,感情領域に基づく顔画像からの表情解析を用いてPD検出を改善することを提案する。 我々は、顔認識と顔行動ユニット(FAU)検出の最新の進歩を活用するために、異なるドメイン適応手法を提案する。 The principal contributions of this work are: (1) a novel framework to exploit deep face architectures to model hypomimia in PD patients; (2) we experimentally compare PD detection based on single images vs. image sequences while the patients are evoked various face expressions; (3) we explore different domain adaptation techniques to exploit existing models initially trained either for Face Recognition or to detect FAUs for the automatic discrimination between PD patients and healthy subjects; and (4) a new approach to use triplet-loss learning to improve hypomimia modeling and PD detection. PD患者の実際の顔画像から, イメージシーケンス(中性, オンセット・トランジション, 頂点, オフセット・トランジション, 中立性)を用いて, シングルイメージPD検出において5.5%の精度(72.9%から78.4%)で誘発感情を適切にモデル化できることが示唆された。 また,提案した感情ドメイン適応はPD検出を最大8.9%(78.4%から87.3%)改善することを示した。

Parkinson's Disease (PD) is a neurological disorder that affects facial movements and non-verbal communication. Patients with PD present a reduction in facial movements called hypomimia which is evaluated in item 3.2 of the MDS-UPDRS-III scale. In this work, we propose to use facial expression analysis from face images based on affective domains to improve PD detection. We propose different domain adaptation techniques to exploit the latest advances in face recognition and Face Action Unit (FAU) detection. The principal contributions of this work are: (1) a novel framework to exploit deep face architectures to model hypomimia in PD patients; (2) we experimentally compare PD detection based on single images vs. image sequences while the patients are evoked various face expressions; (3) we explore different domain adaptation techniques to exploit existing models initially trained either for Face Recognition or to detect FAUs for the automatic discrimination between PD patients and healthy subjects; and (4) a new approach to use triplet-loss learning to improve hypomimia modeling and PD detection. The results on real face images from PD patients show that we are able to properly model evoked emotions using image sequences (neutral, onset-transition, apex, offset-transition, and neutral) with accuracy improvements up to 5.5% (from 72.9% to 78.4%) with respect to single-image PD detection. We also show that our proposed affective-domain adaptation provides improvements in PD detection up to 8.9% (from 78.4% to 87.3% detection accuracy).
翻訳日:2021-05-11 02:57:11 公開日:2020-12-11
# RNN変換器を用いた音声認識における分散性に対するロバスト性の改善

Improved Robustness to Disfluencies in RNN-Transducer Based Speech Recognition ( http://arxiv.org/abs/2012.06259v1 )

ライセンス: Link先を確認
Valentin Mendelev, Tina Raissi, Guglielmo Camporese, Manuel Giollo(参考訳) リカレントニューラルネットワークトランスデューサ(RNN-T)に基づく音声認識(ASR)が,音声コミュニティに注目されている。 RNN-T ASRの頑健性向上を目的としたデータ選択と準備選択について,部分的単語に着目した音声の拡散について検討する。 評価には,清潔なデータ,不均一なデータ,音声による別個のデータセットを用いた。 学習に不均一性のある少量のデータを含むと、不均一性や混乱を伴うテストの認識精度が向上することを示す。 不正を伴うトレーニングデータ量の増加は、クリーンデータに低下を伴わずにさらなる利益をもたらす。 また、部分的な単語を専用トークンに置き換えることで、不一致や混乱を伴う発話の精度が向上することを示す。 最適モデルの評価は,これらの2つの評価セットに対して,22.5%と16.4%の相対的なWER削減を示す。

Automatic Speech Recognition (ASR) based on Recurrent Neural Network Transducers (RNN-T) is gaining interest in the speech community. We investigate data selection and preparation choices aiming for improved robustness of RNN-T ASR to speech disfluencies with a focus on partial words. For evaluation we use clean data, data with disfluencies and a separate dataset with speech affected by stuttering. We show that after including a small amount of data with disfluencies in the training set the recognition accuracy on the tests with disfluencies and stuttering improves. Increasing the amount of training data with disfluencies gives additional gains without degradation on the clean data. We also show that replacing partial words with a dedicated token helps to get even better accuracy on utterances with disfluencies and stutter. The evaluation of our best model shows 22.5% and 16.4% relative WER reduction on those two evaluation sets.
翻訳日:2021-05-11 02:56:27 公開日:2020-12-11
# データ効率的な回帰のための遅い特徴の教師なし学習

Unsupervised Learning of slow features for Data Efficient Regression ( http://arxiv.org/abs/2012.06279v1 )

ライセンス: Link先を確認
Oliver Struckmeier, Kshitij Tiwari, Ville Kyrki(参考訳) 計算神経科学の研究は、人間の脳の非並列データ効率は、連続的な感覚入力からゆっくりと変化する高次特徴を抽出し整理する非常に効率的なメカニズムの結果であることを示している。 本稿では,このスローネス原理を,ダウンストリーム回帰タスクのデータ効率的な学習を目標として,アート表現学習法の現状に適用する。 この目的のために、遅延表現に時間的類似性制約を適用した$\beta$-VAEの拡張である遅い変分オートエンコーダ(S-VAE)を提案する。 本手法を,時間的抽象化を伴う潜在空間における次のフレーム予測手法である$\beta$-vae とtemporal difference vae (td-vae) と比較した。 合成2次元球追跡データセットと、最近の学習環境からのデータセットとDeepMind Lab環境から生成されたデータセットを用いて、下流タスクのデータ効率に対する3つの手法を評価する。 すべてのタスクにおいて、提案手法は、密度の高いデータと、特にスパースなラベル付きデータの両方でベースラインを上回っていた。 s-vae は 20\%$ から 93\%$ のデータをベースラインと比較した場合、類似または良好な性能を達成した。

Research in computational neuroscience suggests that the human brain's unparalleled data efficiency is a result of highly efficient mechanisms to extract and organize slowly changing high level features from continuous sensory inputs. In this paper, we apply this slowness principle to a state of the art representation learning method with the goal of performing data efficient learning of down-stream regression tasks. To this end, we propose the slow variational autoencoder (S-VAE), an extension to the $\beta$-VAE which applies a temporal similarity constraint to the latent representations. We empirically compare our method to the $\beta$-VAE and the Temporal Difference VAE (TD-VAE), a state-of-the-art method for next frame prediction in latent space with temporal abstraction. We evaluate the three methods against their data-efficiency on down-stream tasks using a synthetic 2D ball tracking dataset, a dataset from a reinforcent learning environment and a dataset generated using the DeepMind Lab environment. In all tasks, the proposed method outperformed the baselines both with dense and especially sparse labeled data. The S-VAE achieved similar or better performance compared to the baselines with $20\%$ to $93\%$ less data.
翻訳日:2021-05-11 02:56:14 公開日:2020-12-11
# 事前学習データを必要としないトポロジ最適化のためのAI支援設計法

An AI-Assisted Design Method for Topology Optimization Without Pre-Optimized Training Data ( http://arxiv.org/abs/2012.06384v1 )

ライセンス: Link先を確認
Alex Halle, L. Flavio Campanile, Alexander Hasse(参考訳) 本稿では, トポロジー最適化に基づくai支援設計手法を提案し, 反復的最適探索をすることなく, 直接的に最適化設計を得られるようにした。 最適化された設計は、入力データとして境界条件と充填度(材料で満たされた体積率)に基づいて、ニューラルネットワーク、予測器によって提供される。 トレーニングフェーズでは、ランダムな入力データに基づいて生成されたジオメトリを所定の基準に応じて評価し、これらの評価結果が予測者のパラメータを適応することにより最小限の目的関数に流れ込む。 最先端の手順以外では、トレーニング中に最適化されたジオメトリは使用されない。 トレーニングが完了すると、提案されたAI支援設計手順は、従来のトポロジオプティマイザが生成したものに似たジオメトリを提供するが、これらのアルゴリズムが必要とする計算労力のごく一部を必要とする。

In this publication, an AI-assisted design method based on topology optimization is presented, which is able to obtain optimized designs in a direct way, without iterative optimum search. The optimized designs are provided by an artificial neural network, the predictor, on the basis of boundary conditions and degree of filling (the volume percentage filled by material) as input data. In the training phase, geometries generated on the basis of random input data are evaluated with respect to given criteria and the results of those evaluations flow into an objective function which is minimized by adapting the predictor's parameters. Other than in state-of-the-art procedures, no pre-optimized geometries are used during training. After the training is completed, the presented AI-assisted design procedure supplies geometries which are similar to the ones generated by conventional topology optimizers, but requires a small fraction of the computational effort required by those algorithms.
翻訳日:2021-05-11 02:55:54 公開日:2020-12-11
# 高精度学習に必要な無関係トレーニングデータの記憶はいつ必要か?

When is Memorization of Irrelevant Training Data Necessary for High-Accuracy Learning? ( http://arxiv.org/abs/2012.06421v1 )

ライセンス: Link先を確認
Gavin Brown, Mark Bun, Vitaly Feldman, Adam Smith, Kunal Talwar(参考訳) 現代の機械学習モデルは複雑で、個々の入力に関する驚くべき量の情報をエンコードすることが多い。 極端な場合、複雑なモデルは、一見無関係な情報(例えばテキストの社会保障番号)を含む全ての入力例を記憶しているように見える。 本稿では,このような記憶が正確な学習に必要かどうかを理解することを目的とする。 我々は,十分な精度のトレーニングアルゴリズムが,予測モデルにおいて,そのトレーニング例の大規模サブセットに関する情報を本質的にすべてエンコードしなければならない自然予測問題を記述する。 例が高次元であり、サンプルサイズよりもはるかに高いエントロピーを持つ場合や、その情報が最終的に手元にあるタスクと無関係である場合でも、これは事実である。 さらに,本研究の結果は,学習に使用する学習アルゴリズムやモデルのクラスに依存しない。 我々の問題は、次のシンボリック予測とクラスタラベリングタスクの単純かつかなり自然な変種である。 これらのタスクは、画像およびテキスト関連予測問題の抽象化と見なすことができる。 結果を確立するため、新たな情報複雑性の低い境界を証明できる一方的なコミュニケーション問題の家系から減じる。

Modern machine learning models are complex and frequently encode surprising amounts of information about individual inputs. In extreme cases, complex models appear to memorize entire input examples, including seemingly irrelevant information (social security numbers from text, for example). In this paper, we aim to understand whether this sort of memorization is necessary for accurate learning. We describe natural prediction problems in which every sufficiently accurate training algorithm must encode, in the prediction model, essentially all the information about a large subset of its training examples. This remains true even when the examples are high-dimensional and have entropy much higher than the sample size, and even when most of that information is ultimately irrelevant to the task at hand. Further, our results do not depend on the training algorithm or the class of models used for learning. Our problems are simple and fairly natural variants of the next-symbol prediction and the cluster labeling tasks. These tasks can be seen as abstractions of image- and text-related prediction problems. To establish our results, we reduce from a family of one-way communication problems for which we prove new information complexity lower bounds.
翻訳日:2021-05-11 02:55:39 公開日:2020-12-11
# データ共有のないデータ評価

Data Appraisal Without Data Sharing ( http://arxiv.org/abs/2012.06430v1 )

ライセンス: Link先を確認
Mimee Xu, Laurens van der Maaten, Awni Hannun(参考訳) 機械学習モデルのパフォーマンスを改善するための最も効果的なアプローチの1つは、追加のトレーニングデータを取得することである。 そのため、モデル所有者は、データ所有者から関連するトレーニングデータを取得することができる。 データを取得する前に、モデル所有者はデータを評価する必要がある。 しかし、データ所有者は通常、合意に達するまでデータを共有したくない。 その結果、Catch-22は効率的なデータ市場の形成を防ぐ。 この問題に対処するために,セキュアなマルチパーティ計算によるデータ共有を必要としないデータ評価手法を開発した。 具体的には,(1)パラメータ勾配ノルムの計算,(2)モデルの微調整,(3)影響関数の計算といった手法について検討する。 実験の結果、影響関数は高品質な評価と必要な計算の間に魅力的なトレードオフをもたらすことがわかった。

One of the most effective approaches to improving the performance of a machine-learning model is to acquire additional training data. To do so, a model owner may seek to acquire relevant training data from a data owner. Before procuring the data, the model owner needs to appraise the data. However, the data owner generally does not want to share the data until after an agreement is reached. The resulting Catch-22 prevents efficient data markets from forming. To address this problem, we develop data appraisal methods that do not require data sharing by using secure multi-party computation. Specifically, we study methods that: (1) compute parameter gradient norms, (2) perform model fine-tuning, and (3) compute influence functions. Our experiments show that influence functions provide an appealing trade-off between high-quality appraisal and required computation.
翻訳日:2021-05-11 02:55:21 公開日:2020-12-11
# ICU患者の死亡予測のための深層学習モデルの構築

Building Deep Learning Models to Predict Mortality in ICU Patients ( http://arxiv.org/abs/2012.07585v1 )

ライセンス: Link先を確認
Huachuan Wang and Yuanfei Bi(参考訳) 集中治療室における死亡予測は重篤な状態の患者を効率的に治療するための重要なステップの1つと考えられている。 その結果、現代の電子医療記録に基づいてこの問題に対処するために様々な予測モデルが開発されている。 しかし、心拍数や血圧などの検査結果が不整合な時間周波数でサンプリングされるため、時系列変数としてのタスクのモデル化はますます難しくなっている。 本稿では,SAPS IIスコアと同じ特徴を用いたいくつかのディープラーニングモデルを提案する。 提案するモデル性能に対する洞察を得る。 集中治療のための医療情報マート(Medical Information Mart for Intensive Care III)に基づいて、いくつかの実験が行われた。 予測結果は,提案モデルの精度,リコール,f1得点,受信機動作特性曲線下の面積について,提案モデルの能力を示す。

Mortality prediction in intensive care units is considered one of the critical steps for efficiently treating patients in serious condition. As a result, various prediction models have been developed to address this problem based on modern electronic healthcare records. However, it becomes increasingly challenging to model such tasks as time series variables because some laboratory test results such as heart rate and blood pressure are sampled with inconsistent time frequencies. In this paper, we propose several deep learning models using the same features as the SAPS II score. To derive insight into the proposed model performance. Several experiments have been conducted based on the well known clinical dataset Medical Information Mart for Intensive Care III. The prediction results demonstrate the proposed model's capability in terms of precision, recall, F1 score, and area under the receiver operating characteristic curve.
翻訳日:2021-05-11 02:55:09 公開日:2020-12-11
# ハイブリッド知能システムの概念化と枠組み

Conceptualization and Framework of Hybrid Intelligence Systems ( http://arxiv.org/abs/2012.06161v1 )

ライセンス: Link先を確認
Nikhil Prakash and Kory W. Mathewson(参考訳) 人工知能(AI)システムが社会内で普及するにつれ、その公正性、説明責任、透明性に関する問題が急速に増加している。 その結果、研究者は人間をAIシステムに統合し、堅牢で信頼性の高いハイブリッドインテリジェンスシステムを構築している。 しかし、これらのシステムの適切な概念化は、この急速な成長を阻害しない。 本稿では,ハイブリッドインテリジェンスシステムの正確な定義と,提案した枠組みと現代文献の例を通して,他の類似概念との関係を説明する。 この枠組みは、人間と機械の関係を、結合の度合いと各当事者の指示的権威の観点から分解する。 最後に、すべてのAIシステムはハイブリッドインテリジェンスシステムであると主張する。

As artificial intelligence (AI) systems are getting ubiquitous within our society, issues related to its fairness, accountability, and transparency are increasing rapidly. As a result, researchers are integrating humans with AI systems to build robust and reliable hybrid intelligence systems. However, a proper conceptualization of these systems does not underpin this rapid growth. This article provides a precise definition of hybrid intelligence systems as well as explains its relation with other similar concepts through our proposed framework and examples from contemporary literature. The framework breakdowns the relationship between a human and a machine in terms of the degree of coupling and the directive authority of each party. Finally, we argue that all AI systems are hybrid intelligence systems, so human factors need to be examined at every stage of such systems' lifecycle.
翻訳日:2021-05-11 02:54:56 公開日:2020-12-11
# 不安定電話カメラを用いたメソスコピックフォトグラメトリー

Mesoscopic photogrammetry with an unstabilized phone camera ( http://arxiv.org/abs/2012.06044v1 )

ライセンス: Link先を確認
Kevin C. Zhou, Colin Cooke, Jaehee Park, Ruobing Qian, Roarke Horstmeyer, Joseph A. Izatt, Sina Farsiu(参考訳) 本研究では,スマートフォンが手動で手動で近距離(数cm)で取得した画像列から,10マイクロンの精度で3次元メソスコピック(mmスケールの高度変化)を定量化できる機能フリーフォトグラム技術を提案する。 本手法は,各カメラ画像の立体的変形場として振る舞うコアライメント高さマップを推定し,全画像の相互登録と縫い合わせを行う。 高さマップ自体は、未学習エンコーダデコーダ畳み込みニューラルネットワーク(cnn)の出力として再パラメータ化され、生のカメライメージを入力とし、多くの再構築アーティファクトを効果的に除去する。 また、カメラのダイナミックな6Dポーズと非パラメトリックモデルによる歪みを共同で推定し、後者は、スマートフォンカメラのような短い作業距離で撮影するために設計されていないカメラを使用する場合、メソスコピック・アプリケーションにおいて特に重要である。 また,他の複数フレーム登録問題に適用可能な計算時間とメモリの削減戦略を提案する。 最後に, 様々なサンプル(例えば, ブラシストローク, 回路基板, シードなど)上で, 不安定なスマートフォンが捉えたマルチメガピクセル画像のシーケンスを用いて本手法を実証する。

We present a feature-free photogrammetric technique that enables quantitative 3D mesoscopic (mm-scale height variation) imaging with tens-of-micron accuracy from sequences of images acquired by a smartphone at close range (several cm) under freehand motion without additional hardware. Our end-to-end, pixel-intensity-based approach jointly registers and stitches all the images by estimating a coaligned height map, which acts as a pixel-wise radial deformation field that orthorectifies each camera image to allow homographic registration. The height maps themselves are reparameterized as the output of an untrained encoder-decoder convolutional neural network (CNN) with the raw camera images as the input, which effectively removes many reconstruction artifacts. Our method also jointly estimates both the camera's dynamic 6D pose and its distortion using a nonparametric model, the latter of which is especially important in mesoscopic applications when using cameras not designed for imaging at short working distances, such as smartphone cameras. We also propose strategies for reducing computation time and memory, applicable to other multi-frame registration problems. Finally, we demonstrate our method using sequences of multi-megapixel images captured by an unstabilized smartphone on a variety of samples (e.g., painting brushstrokes, circuit board, seeds).
翻訳日:2021-05-11 02:54:22 公開日:2020-12-11
# ラベル不確実性を有する3D-to-2Dネットワークを用いた腫瘍コアセグメンテーションの不確実性改善

Uncertainty-driven refinement of tumor-core segmentation using 3D-to-2D networks with label uncertainty ( http://arxiv.org/abs/2012.06436v1 )

ライセンス: Link先を確認
Richard McKinley, Micheal Rebsamen, Katrin Daetwyler, Raphael Meier, Piotr Radojewski, Roland Wiest(参考訳) 以前の研究では、低グレードグリオーマ(lgg)と高グレードグリオーマ(hggs)の分離トレーニングによって、パフォーマンスが向上できることが示されているが、実際には、どのモデルを使用するかを決めるには、テスト時にこの情報は利用できない。 HGGと対照的に、LGGは腫瘍核と周囲の浮腫の間に鋭い境界を示さず、むしろ腫瘍細胞密度を徐々に減少させる。 3Dから2Dまでの完全な畳み込みアーキテクチャを利用するDeepSCANは、2019年のBraTSチャレンジで高く評価され、不確実性を認識した損失を使用してトレーニングされた。 前提として,各腫瘍にコアがあるため,分類器で区切られたコアが曖昧に定義されたり,欠落している場合には,コア組織の分類のしきい値が低下する。 次に, 年齢, 腫瘍成分数, 腫瘍コア数に基づいて, 線形回帰とランダム森林分類の融合による高次グリオーマ患者の生存率を予測した。 本稿では,マルチモーダル脳腫瘍分割チャレンジ2020の検証データセット(セグメンテーションと不確実性チャレンジ)と,セグメンテーションで4位,不確実性推定で1位,生存予測で1位を得たテストセットについて報告する。

The BraTS dataset contains a mixture of high-grade and low-grade gliomas, which have a rather different appearance: previous studies have shown that performance can be improved by separated training on low-grade gliomas (LGGs) and high-grade gliomas (HGGs), but in practice this information is not available at test time to decide which model to use. By contrast with HGGs, LGGs often present no sharp boundary between the tumor core and the surrounding edema, but rather a gradual reduction of tumor-cell density. Utilizing our 3D-to-2D fully convolutional architecture, DeepSCAN, which ranked highly in the 2019 BraTS challenge and was trained using an uncertainty-aware loss, we separate cases into those with a confidently segmented core, and those with a vaguely segmented or missing core. Since by assumption every tumor has a core, we reduce the threshold for classification of core tissue in those cases where the core, as segmented by the classifier, is vaguely defined or missing. We then predict survival of high-grade glioma patients using a fusion of linear regression and random forest classification, based on age, number of distinct tumor components, and number of distinct tumor cores. We present results on the validation dataset of the Multimodal Brain Tumor Segmentation Challenge 2020 (segmentation and uncertainty challenge), and on the testing set, where the method achieved 4th place in Segmentation, 1st place in uncertainty estimation, and 1st place in Survival prediction.
翻訳日:2021-05-11 02:53:18 公開日:2020-12-11
# 多目的探索を用いたキーポイント検出DNNの自動テストスイート生成

Automatic Test Suite Generation for Key-points Detection DNNs Using Many-Objective Search ( http://arxiv.org/abs/2012.06511v1 )

ライセンス: Link先を確認
Fitash Ul Haq, Donghwan Shin, Lionel C. Briand, Thomas Stifter, Jun Wang(参考訳) 画像中のキーポイント(顔のキーポイントや指のキーポイントなど)の位置を自動的に検出することは、運転者の視線検出や自動運転システムにおける眠気検出など、多くのアプリケーションにおいて不可欠な問題である。 近年のディープニューラルネットワーク(DNN)の発展に伴い、キーポイント検出DNN(KP-DNN)もその目的のために採用されている。 kp-dnnは複数の独立したキーポイントを同時に予測し、個々のキーポイントがターゲットアプリケーションで重要になる可能性があるため、多くの要因に応じて画像が異なるため、kp-dnnのテストと検証は依然として困難な問題となっている。 本稿では,多目的探索を用いたKP-DNNのテストデータの自動生成手法を提案する。 本実験では,産業用自動車用として開発された顔のキーポイント検出DNNに着目し,平均して93%以上のキーポイントを誤って予測するテストスイートを生成することができることを示した。 比較として,ランダム検索に基づくテストデータ生成は,その41%に過ぎません。 しかし、これらの誤った予測の多くは避けられず、そのため失敗と見なすべきではない。 また、テストスイート生成に適した最先端多目的検索アルゴリズムとその変種を実証的に比較した。 さらに,画像の特徴(頭部の姿勢や肌の色など)に基づいて,重篤な予測ミスにつながる特定の条件を学習する方法を調査し,実証する。 このような状況は、リスク分析やDNNの再訓練の基礎となる。

Automatically detecting the positions of key-points (e.g., facial key-points or finger key-points) in an image is an essential problem in many applications, such as driver's gaze detection and drowsiness detection in automated driving systems. With the recent advances of Deep Neural Networks (DNNs), Key-Points detection DNNs (KP-DNNs) have been increasingly employed for that purpose. Nevertheless, KP-DNN testing and validation have remained a challenging problem because KP-DNNs predict many independent key-points at the same time -- where each individual key-point may be critical in the targeted application -- and images can vary a great deal according to many factors. In this paper, we present an approach to automatically generate test data for KP-DNNs using many-objective search. In our experiments, focused on facial key-points detection DNNs developed for an industrial automotive application, we show that our approach can generate test suites to severely mispredict, on average, more than 93% of all key-points. In comparison, random search-based test data generation can only severely mispredict 41% of them. Many of these mispredictions, however, are not avoidable and should not therefore be considered failures. We also empirically compare state-of-the-art, many-objective search algorithms and their variants, tailored for test suite generation. Furthermore, we investigate and demonstrate how to learn specific conditions, based on image characteristics (e.g., head posture and skin color), that lead to severe mispredictions. Such conditions serve as a basis for risk analysis or DNN retraining.
翻訳日:2021-05-11 02:52:46 公開日:2020-12-11
# ディープビデオ行動認識に関する総合的研究

A Comprehensive Study of Deep Video Action Recognition ( http://arxiv.org/abs/2012.06567v1 )

ライセンス: Link先を確認
Yi Zhu, Xinyu Li, Chunhui Liu, Mohammadreza Zolfaghari, Yuanjun Xiong, Chongruo Wu, Zhi Zhang, Joseph Tighe, R. Manmatha, Mu Li(参考訳) ビデオ動作認識は,映像理解における代表的なタスクの一つである。 過去10年間で私たちは、ディープラーニングの出現により、ビデオアクション認識の大幅な進歩を目の当たりにしてきた。 しかし,ビデオにおける長期時間情報のモデル化,高い計算コスト,データセットによる比較不能な結果,評価プロトコルのばらつきなど,新たな課題に遭遇した。 本稿では,映像行動認識のためのディープラーニングに関する200以上の既存論文を包括的に調査する。 まず,モデル設計に影響を与える17のアクション認識データセットを紹介する。 次に、ビデオ行動認識モデルを時系列順に提示する: ディープラーニングの早期適用から始め、2ストリームネットワークへ、続いて3D畳み込みカーネルの採用、そして最近では計算効率の高いモデルへ。 さらに、いくつかの代表的なデータセットと再現性のためのリリースコードに対して、人気のあるメソッドをベンチマークする。 最後に、オープンな問題について議論し、新しい研究アイデアを促進するビデオアクション認識の機会を明らかにした。

Video action recognition is one of the representative tasks for video understanding. Over the last decade, we have witnessed great advancements in video action recognition thanks to the emergence of deep learning. But we also encountered new challenges, including modeling long-range temporal information in videos, high computation costs, and incomparable results due to datasets and evaluation protocol variances. In this paper, we provide a comprehensive survey of over 200 existing papers on deep learning for video action recognition. We first introduce the 17 video action recognition datasets that influenced the design of models. Then we present video action recognition models in chronological order: starting with early attempts at adapting deep learning, then to the two-stream networks, followed by the adoption of 3D convolutional kernels, and finally to the recent compute-efficient models. In addition, we benchmark popular methods on several representative datasets and release code for reproducibility. In the end, we discuss open problems and shed light on opportunities for video action recognition to facilitate new research ideas.
翻訳日:2021-05-11 02:52:00 公開日:2020-12-11
# ロスレス画像符号化のためのソフト圧縮

Soft Compression for Lossless Image Coding ( http://arxiv.org/abs/2012.06240v1 )

ライセンス: Link先を確認
Gangtao Xin and Pingyi Fan(参考訳) ソフト圧縮は、符号化冗長性と空間冗長性を同時に排除し、コードブックの位置と形状を採用し、情報理論と統計分布の観点から画像を符号化する、ロスレス画像圧縮法である。 本稿では,画像に関する新しい概念である圧縮可能なインジケータ関数を提案する。これは,位置を表すのに必要なビット数の平均しきい値を与え,ソフト圧縮の性能を明らかにするために使用できる。 特定のアルゴリズムと圧縮可能なインジケータ値を用いて,2成分画像,グレー画像,多成分画像のソフト圧縮を調査し,解析する。 ソフト圧縮を適用することにより,同じ種類の画像の伝送・保存に必要な帯域幅とストレージ容量を大幅に削減できると考えられる。

Soft compression is a lossless image compression method, which is committed to eliminating coding redundancy and spatial redundancy at the same time by adopting locations and shapes of codebook to encode an image from the perspective of information theory and statistical distribution. In this paper, we propose a new concept, compressible indicator function with regard to image, which gives a threshold about the average number of bits required to represent a location and can be used for revealing the performance of soft compression. We investigate and analyze soft compression for binary image, gray image and multi-component image by using specific algorithms and compressible indicator value. It is expected that the bandwidth and storage space needed when transmitting and storing the same kind of images can be greatly reduced by applying soft compression.
翻訳日:2021-05-11 02:51:46 公開日:2020-12-11
# 非凸最適化の最近の理論進歩

Recent Theoretical Advances in Non-Convex Optimization ( http://arxiv.org/abs/2012.06188v1 )

ライセンス: Link先を確認
Marina Danilova, Pavel Dvurechensky, Alexander Gasnikov, Eduard Gorbunov, Sergey Guminov, Dmitry Kamzolov, Innokentiy Shibaev(参考訳) 本研究では,非凸最適化のための最適化アルゴリズムに対する近年の関心の高まりに動機づけられ,非凸最適化のための最適化アルゴリズムのグローバル性能保証に関する最近の理論結果の概要を示す。 まず古典的な議論から、一般の非凸問題は合理的な時間で効率的に解けないことを示す。 次に,この問題の構造を可能な限り活用して,グローバル・ミニマライザを見つけるために効率的に解決できる問題の一覧を示す。 非凸性に対処する別の方法は、グローバル最小点の発見から静止点や局所最小点の発見まで、目標を緩和することである。 この設定のために、決定論的一階法の収束率に関する既知の結果が最初に提示され、続いて最適な確率的およびランダムな勾配スキームの一般的な理論的解析と確率的一階法の概要が続く。 その後、例えば$\alpha$-weakly-quasi-convex関数の最小化や、一階法の理論的収束を保証するポリアック-ロジャシエヴィチ条件を満たす関数など、非常に一般的な非凸問題のクラスについて論じる。 次に,非凸最適化問題に対する高次およびゼロ次/導出自由法とその収束率について考察する。

Motivated by recent increased interest in optimization algorithms for non-convex optimization in application to training deep neural networks and other optimization problems in data analysis, we give an overview of recent theoretical results on global performance guarantees of optimization algorithms for non-convex optimization. We start with classical arguments showing that general non-convex problems could not be solved efficiently in a reasonable time. Then we give a list of problems that can be solved efficiently to find the global minimizer by exploiting the structure of the problem as much as it is possible. Another way to deal with non-convexity is to relax the goal from finding the global minimum to finding a stationary point or a local minimum. For this setting, we first present known results for the convergence rates of deterministic first-order methods, which are then followed by a general theoretical analysis of optimal stochastic and randomized gradient schemes, and an overview of the stochastic first-order methods. After that, we discuss quite general classes of non-convex problems, such as minimization of $\alpha$-weakly-quasi-convex functions and functions that satisfy Polyak--Lojasiewicz condition, which still allow obtaining theoretical convergence guarantees of first-order methods. Then we consider higher-order and zeroth-order/derivative-free methods and their convergence rates for non-convex optimization problems.
翻訳日:2021-05-11 02:51:34 公開日:2020-12-11
# 構造化政策表現:任意条件付き動的システムにおける安定性

Structured Policy Representation: Imposing Stability in arbitrarily conditioned dynamic systems ( http://arxiv.org/abs/2012.06224v1 )

ライセンス: Link先を確認
Julen Urain, Davide Tateo, Tianyu Ren, Jan Peters(参考訳) 我々は、ディープニューラルネットワークベースの動的システムの新しいファミリーを提示する。 提示されたダイナミクスはグローバルに安定しており、任意のコンテキスト状態で条件付けすることができる。 これらのダイナミクスを構造化ロボットのポリシーとして利用できることを示す。 グローバルな安定性は、デモンストレーションの領域外で合理的な行動を課すことができるため、最も重要で直接的な帰納的バイアスの1つです。

We present a new family of deep neural network-based dynamic systems. The presented dynamics are globally stable and can be conditioned with an arbitrary context state. We show how these dynamics can be used as structured robot policies. Global stability is one of the most important and straightforward inductive biases as it allows us to impose reasonable behaviors outside the region of the demonstrations.
翻訳日:2021-05-11 02:51:09 公開日:2020-12-11
# Hard-ODT:ハードウェアフレンドリーなオンライン決定木学習アルゴリズムとシステム

Hard-ODT: Hardware-Friendly Online Decision Tree Learning Algorithm and System ( http://arxiv.org/abs/2012.06272v1 )

ライセンス: Link先を確認
Zhe Lin, Sharad Sinha, Wei Zhang(参考訳) 決定木(decision tree)は、さまざまなアプリケーションシナリオで一般的に使用される機械学習モデルである。 ビッグデータの時代において、従来の決定木誘導アルゴリズムは、厳密なデータストレージ要件のため、大規模データセットの学習には適していない。 オンライン決定木学習アルゴリズムは、入ってくるサンプルとの同時トレーニングと推論結果の提供により、この問題に対処するために考案された。 しかし、最新のオンラインツリー学習アルゴリズムでさえも、高いメモリ使用率と高い計算強度と依存性と長いレイテンシに苦しむため、ハードウェアでの実装は困難である。 これらの課題を克服するため,我々は,最先端のオンライン学習モデルの1つであるhoeffding treeの誘導を改善するために,quantileベースの新しいアルゴリズムを導入する。 提案アルゴリズムは,高一般化能力を維持しつつ,メモリ需要と計算需要の両方の観点から軽量である。 提案アルゴリズム専用の最適化手法をハードウェアの観点から検討し, 粗粒度, 微細粒度並列性, 動的およびメモリベースのリソース共有, データ転送によるパイプライン化などを検討した。 次に,フィールドプログラマブルゲートアレイ(FPGA)を用いた高性能,ハードウェア効率,スケーラブルなオンライン決定木学習システムであるHard-ODTについて述べる。 各種設計指標間のトレードオフを早期かつ迅速に解析するための完全学習システムとして,性能と資源利用をモデル化する。 最後に,FPGAのランタイム電力モニタリングに提案した学習システムを応用した設計フローを提案する。

Decision trees are machine learning models commonly used in various application scenarios. In the era of big data, traditional decision tree induction algorithms are not suitable for learning large-scale datasets due to their stringent data storage requirement. Online decision tree learning algorithms have been devised to tackle this problem by concurrently training with incoming samples and providing inference results. However, even the most up-to-date online tree learning algorithms still suffer from either high memory usage or high computational intensity with dependency and long latency, making them challenging to implement in hardware. To overcome these difficulties, we introduce a new quantile-based algorithm to improve the induction of the Hoeffding tree, one of the state-of-the-art online learning models. The proposed algorithm is light-weight in terms of both memory and computational demand, while still maintaining high generalization ability. A series of optimization techniques dedicated to the proposed algorithm have been investigated from the hardware perspective, including coarse-grained and fine-grained parallelism, dynamic and memory-based resource sharing, pipelining with data forwarding. Following this, we present Hard-ODT, a high-performance, hardware-efficient and scalable online decision tree learning system on a field-programmable gate array (FPGA) with system-level optimization techniques. Performance and resource utilization are modeled for the complete learning system for early and fast analysis of the trade-off between various design metrics. Finally, we propose a design flow in which the proposed learning system is applied to FPGA run-time power monitoring as a case study.
翻訳日:2021-05-11 02:50:46 公開日:2020-12-11
# Bregman Divergencesによるクラスタリングのためのオンラインコアセット

Online Coresets for Clustering with Bregman Divergences ( http://arxiv.org/abs/2012.06522v1 )

ライセンス: Link先を確認
Rachit Chhaya, Jayesh Choudhari, Anirban Dasgupta, Supratim Shit(参考訳) bregman divergencesの幅広いサブセットに従って,クラスタ問題に対してオンライン環境でコアセットを作成するアルゴリズムを提案する。 特に、我々のコアセットは、Bachemなどの軽量コアセットと同様、小さな加算誤差を持つ。 アル そして、$d$がポイントの次元である入射点ごとに$o(d)$を更新します。 我々の最初のアルゴリズムは、$\tilde{O}(\mbox{poly}(k,d,\epsilon,\mu))$ for $k$-clusterings according by any $\mu$-similar Bregman divergence。 さらに、このアルゴリズムを拡張して非パラメトリックなコアセットの存在を示す。コアセットのサイズは、bregman divergencesの同じサブクラスに対して、クラスタ数である$k$から独立している。 我々の非パラメトリックコアセットは$O(\log n)$$$n$ is number of points)の係数で大きくなり、同様の(小さな)加法保証を持つ。 同時に、コアセットはDP-MeansのようなBregmanクラスタリングの非パラメトリックバージョンのための軽量コアセットとしても機能します。 これらのコアセットは付加的なエラー保証を提供するが、Bachemなどで得られた(相対エラー)コアセットよりもはるかに小さい($O(\log n)$と$O(d^d)$でスケーリングする)。 アル 2015年、DP-Meansに入社。 非パラメトリックコアセットは存在するが、特定の仮定の下でアルゴリズム版を与える。

We present algorithms that create coresets in an online setting for clustering problems according to a wide subset of Bregman divergences. Notably, our coresets have a small additive error, similar in magnitude to the lightweight coresets Bachem et. al. 2018, and take update time $O(d)$ for every incoming point where $d$ is dimension of the point. Our first algorithm gives online coresets of size $\tilde{O}(\mbox{poly}(k,d,\epsilon,\mu))$ for $k$-clusterings according to any $\mu$-similar Bregman divergence. We further extend this algorithm to show existence of a non-parametric coresets, where the coreset size is independent of $k$, the number of clusters, for the same subclass of Bregman divergences. Our non-parametric coresets are larger by a factor of $O(\log n)$ ($n$ is number of points) and have similar (small) additive guarantee. At the same time our coresets also function as lightweight coresets for non-parametric versions of the Bregman clustering like DP-Means. While these coresets provide additive error guarantees, they are also significantly smaller (scaling with $O(\log n)$ as opposed to $O(d^d)$ for points in $\~R^d$) than the (relative-error) coresets obtained in Bachem et. al. 2015 for DP-Means. While our non-parametric coresets are existential, we give an algorithmic version under certain assumptions.
翻訳日:2021-05-11 02:50:21 公開日:2020-12-11
# エネルギーモデルを用いたペアワイズインタラクションの再構築

Reconstruction of Pairwise Interactions using Energy-Based Models ( http://arxiv.org/abs/2012.06625v1 )

ライセンス: Link先を確認
Christoph Feinauer, Carlo Lucibello(参考訳) イジングモデルや一般化ポッツモデルのようなペアワイズモデルでは、物理学、生物学、経済学といった分野で多くの応用が成功している。 近接連結は逆統計力学の問題であり、観測されたデータからそのようなモデルのパラメータを推測することが目的である。 この分野でのオープンな問題は、データがペアワイズモデルに存在しない追加の高次相互作用を含む場合、これらのモデルをどうトレーニングするかという問題である。 本研究では,エネルギーベースモデルと擬似的類似度を最大化してこれらの問題に対処するアプローチを提案する。 ハイブリッドモデルとペアワイズモデルとニューラルネットワークを組み合わせることで,ペアワイズインタラクションの再構築において,大幅な改善がもたらされることを示す。 これらの改善は、ペアワイズモデルのみを用いた標準的なアプローチや、ニューラルネットワークのみを用いたアプローチと比較して、一貫して維持することを示す。 これは、単純な解釈可能なモデルと複雑なブラックボックスモデルが必ずしも二分法であるとは限らないという一般的な考え方と一致している。

Pairwise models like the Ising model or the generalized Potts model have found many successful applications in fields like physics, biology, and economics. Closely connected is the problem of inverse statistical mechanics, where the goal is to infer the parameters of such models given observed data. An open problem in this field is the question of how to train these models in the case where the data contain additional higher-order interactions that are not present in the pairwise model. In this work, we propose an approach based on Energy-Based Models and pseudolikelihood maximization to address these complications: we show that hybrid models, which combine a pairwise model and a neural network, can lead to significant improvements in the reconstruction of pairwise interactions. We show these improvements to hold consistently when compared to a standard approach using only the pairwise model and to an approach using only a neural network. This is in line with the general idea that simple interpretable models and complex black-box models are not necessarily a dichotomy: interpolating these two classes of models can allow to keep some advantages of both.
翻訳日:2021-05-11 02:49:56 公開日:2020-12-11
# Federated Learningのための適応ヒストグラムに基づく勾配木

Adaptive Histogram-Based Gradient Boosted Trees for Federated Learning ( http://arxiv.org/abs/2012.06670v1 )

ライセンス: Link先を確認
Yuya Jeremy Ong, Yi Zhou, Nathalie Baracaldo, Heiko Ludwig(参考訳) フェデレートラーニング(Federated Learning, FL)とは、複数のパーティ間でデータを共有せずにモデルを協調的にトレーニングする手法である。 コンシューマのドメインでも、個人データを保護するためにも、データ管理規則やデータサイロの実用性を扱うエンタープライズ設定でも使用されています。 XGBoostのような高勾配木の実装は、多くのユースケースで非常に成功したが、暗号やプライバシメソッドを使用するため、フェデレーション学習の適応は非常に遅く、広く使用されていない。 本稿では,データ暗号化を必要とせず,パーティー適応ヒストグラム集約法を用いた勾配ブースティングの新たな実装であるフェデレート学習のためのパーティ適応型xgboost(pax)を提案する。 決定木の分割を見つけるために、データ分布の代理表現を構築する。 実験の結果,特に非IID分布におけるモデル性能が向上し,既存のフェデレート実装よりもデータセット間の実行時間のトレーニングが大幅に高速化された。 このアプローチにより、企業連関学習において勾配強化木の利用が実用的になる。

Federated Learning (FL) is an approach to collaboratively train a model across multiple parties without sharing data between parties or an aggregator. It is used both in the consumer domain to protect personal data as well as in enterprise settings, where dealing with data domicile regulation and the pragmatics of data silos are the main drivers. While gradient boosted tree implementations such as XGBoost have been very successful for many use cases, its federated learning adaptations tend to be very slow due to using cryptographic and privacy methods and have not experienced widespread use. We propose the Party-Adaptive XGBoost (PAX) for federated learning, a novel implementation of gradient boosting which utilizes a party adaptive histogram aggregation method, without the need for data encryption. It constructs a surrogate representation of the data distribution for finding splits of the decision tree. Our experimental results demonstrate strong model performance, especially on non-IID distributions, and significantly faster training run-time across different data sets than existing federated implementations. This approach makes the use of gradient boosted trees practical in enterprise federated learning.
翻訳日:2021-05-11 02:49:41 公開日:2020-12-11
# バイオメディカル信号の事象検出と局所化のための隠れマルコフモデルとリカレントニューラルネットワークの検討

A Review of Hidden Markov Models and Recurrent Neural Networks for Event Detection and Localization in Biomedical Signals ( http://arxiv.org/abs/2012.06104v1 )

ライセンス: Link先を確認
Yassin Khalifa and Danilo Mandic and Ervin Sejdi\'c(参考訳) 生体医学的シグナルは、我々の身体活動を制御する複雑な生理的過程のシグネチャリズムを持つ。 これらのリズムの性質は、ホメオスタシスを維持する生理過程間の相互作用ダイナミクスの性質を示している。 疾患や障害に関連する異常は通常、これらのリズムを分離させるリズム構造とそれらの区別能力の混乱として現れるが、不可欠である。 コンピュータ支援診断システムは、現在、ほぼすべての医療施設で広く普及しており、ウェアラブル技術においてより密接な関係にあり、リズムやイベント検出は、彼らが実行する多くのインテリジェントなステップの第一段階である。 このリズムはどのように孤立しているか? プロセス間の遷移を時間内に記述できるモデルを開発するには? これらの疑問に対処し、バイオメディカル信号を別々のリズムにデコードする多くの方法が文献に存在している。 ここでは,時系列におけるリズムやイベントの検出と分離に最も有効な手法をデミステレーションし,それらが異なる生体信号に適用された方法と情報融合にどのように貢献したかを明らかにする。 これらの方法の重要な強みと限界、ならびに生体信号への応用に伴う課題についても論じる。

Biomedical signals carry signature rhythms of complex physiological processes that control our daily bodily activity. The properties of these rhythms indicate the nature of interaction dynamics among physiological processes that maintain a homeostasis. Abnormalities associated with diseases or disorders usually appear as disruptions in the structure of the rhythms which makes isolating these rhythms and the ability to differentiate between them, indispensable. Computer aided diagnosis systems are ubiquitous nowadays in almost every medical facility and more closely in wearable technology, and rhythm or event detection is the first of many intelligent steps that they perform. How these rhythms are isolated? How to develop a model that can describe the transition between processes in time? Many methods exist in the literature that address these questions and perform the decoding of biomedical signals into separate rhythms. In here, we demystify the most effective methods that are used for detection and isolation of rhythms or events in time series and highlight the way in which they were applied to different biomedical signals and how they contribute to information fusion. The key strengths and limitations of these methods are also discussed as well as the challenges encountered with application in biomedical signals.
翻訳日:2021-05-11 02:48:07 公開日:2020-12-11
# 異常音検出のための特徴表現の解析

Analysis of Feature Representations for Anomalous Sound Detection ( http://arxiv.org/abs/2012.06282v1 )

ライセンス: Link先を確認
Robert M\"uller, Steffen Illium, Fabian Ritz, Kyrill Schmid(参考訳) 本研究では,異常音検出のための特徴抽出器として,事前学習ニューラルネットワークの有効性を徹底的に評価する。 これらのニューラルネットワークに含まれる知識を活用し、正規性をモデル化するための密度推定器として使用されるガウス混合モデルの入力として機能する意味的にリッチな特徴(表現)を抽出する。 画像,環境音,音楽など,様々な分野のデータに基づいて学習した特徴抽出器を比較した。 本手法は,バルブ,ポンプ,スライダ,ファンなどの工場用機器の記録に基づいて評価する。 評価されたすべての表現はオートエンコーダベースラインより優れており、音楽に基づく表現がほとんどの場合、最高のパフォーマンスをもたらす。 これらの結果は、特徴抽出器の領域と下流タスクとの密接なマッチングにより、下流タスクのパフォーマンスが向上するという一般的な仮定に挑戦する。

In this work, we thoroughly evaluate the efficacy of pretrained neural networks as feature extractors for anomalous sound detection. In doing so, we leverage the knowledge that is contained in these neural networks to extract semantically rich features (representations) that serve as input to a Gaussian Mixture Model which is used as a density estimator to model normality. We compare feature extractors that were trained on data from various domains, namely: images, environmental sounds and music. Our approach is evaluated on recordings from factory machinery such as valves, pumps, sliders and fans. All of the evaluated representations outperform the autoencoder baseline with music based representations yielding the best performance in most cases. These results challenge the common assumption that closely matching the domain of the feature extractor and the downstream task results in better downstream task performance.
翻訳日:2021-05-11 02:47:38 公開日:2020-12-11
# 一般行列ゲームに対する線形古典的および量子的アルゴリズム

Sublinear classical and quantum algorithms for general matrix games ( http://arxiv.org/abs/2012.06519v1 )

ライセンス: Link先を確認
Tongyang Li, Chunhao Wang, Shouvanik Chakrabarti, and Xiaodi Wu(参考訳) 最適化と機械学習の基本的な問題である行列ゲームに対する線形古典的および量子的アルゴリズムを証明可能な保証とともに検討する。 行列 $a\in\mathbb{r}^{n\times d}$ が与えられたとき、行列ゲーム $\min_{x\in\mathcal{x}}\max_{y\in\mathcal{y}} y^{\top} ax$ のサブ線形アルゴリズムは、(1) $\mathcal{y}$ が $\ell_{1}$-norm 単位球であること、(2) $\mathcal{x}$ が $\ell_{1}$ または $\ell_{2}$-norm 単位球であることの2つの特別なケースでのみ知られていた。 任意の固定された$q\in (1,2]$ に対して、$\mathcal{x}$ is a $\ell_{q}$-norm unit ball in additive error $\epsilon$ in time $\tilde{o}((n+d)/{\epsilon^{2}})$という行列ゲームを解く。 対応する部分線形量子アルゴリズムも提供し、$n$ と $d$ の2次改良により、時間$\tilde{o}((\sqrt{n}+\sqrt{d})\textrm{poly}(1/\epsilon))$ で同じタスクを解く。 古典的および量子的アルゴリズムは、多元対数因子の次元パラメータ$n$と$d$で最適である。 最後に,近似carath\eodory問題と$\ell_{q}$-marginサポートベクターマシンに対する部分線形古典および量子アルゴリズムを応用として提案する。

We investigate sublinear classical and quantum algorithms for matrix games, a fundamental problem in optimization and machine learning, with provable guarantees. Given a matrix $A\in\mathbb{R}^{n\times d}$, sublinear algorithms for the matrix game $\min_{x\in\mathcal{X}}\max_{y\in\mathcal{Y}} y^{\top} Ax$ were previously known only for two special cases: (1) $\mathcal{Y}$ being the $\ell_{1}$-norm unit ball, and (2) $\mathcal{X}$ being either the $\ell_{1}$- or the $\ell_{2}$-norm unit ball. We give a sublinear classical algorithm that can interpolate smoothly between these two cases: for any fixed $q\in (1,2]$, we solve the matrix game where $\mathcal{X}$ is a $\ell_{q}$-norm unit ball within additive error $\epsilon$ in time $\tilde{O}((n+d)/{\epsilon^{2}})$. We also provide a corresponding sublinear quantum algorithm that solves the same task in time $\tilde{O}((\sqrt{n}+\sqrt{d})\textrm{poly}(1/\epsilon))$ with a quadratic improvement in both $n$ and $d$. Both our classical and quantum algorithms are optimal in the dimension parameters $n$ and $d$ up to poly-logarithmic factors. Finally, we propose sublinear classical and quantum algorithms for the approximate Carath\'eodory problem and the $\ell_{q}$-margin support vector machines as applications.
翻訳日:2021-05-11 02:47:25 公開日:2020-12-11
# 強化学習による平滑化制御のための正規化行動ポリシー

Regularizing Action Policies for Smooth Control with Reinforcement Learning ( http://arxiv.org/abs/2012.06644v1 )

ライセンス: Link先を確認
Siddharth Mysore, Bassel Mabsout, Renato Mancuso, Kate Saenko(参考訳) 深層強化学習(RL)で訓練されたコントローラの実用性に関する重要な問題は、RLポリシーによって学習された動作のスムーズさの顕著な欠如である。 この傾向は、しばしば制御信号の発振という形で現れ、制御不良、高消費電力、不適切なシステム摩耗をもたらす可能性がある。 本稿では,ニューラルネットワーク制御器の学習状態間マッピングのスムーズさを一貫して改善し,制御信号の高周波成分の除去に反映した,効果的な行動ポリシーの直感的規則化である行動ポリシー平滑性(CAPS)について紹介する。 実システムでテストしたところ、クアドロタードローンのコントローラーのスムース性が改善され、飛行にふさわしいコントローラーを一貫して訓練しながら、消費電力が80%近く削減された。 プロジェクトウェブサイト: http://ai.bu.edu/caps

A critical problem with the practical utility of controllers trained with deep Reinforcement Learning (RL) is the notable lack of smoothness in the actions learned by the RL policies. This trend often presents itself in the form of control signal oscillation and can result in poor control, high power consumption, and undue system wear. We introduce Conditioning for Action Policy Smoothness (CAPS), an effective yet intuitive regularization on action policies, which offers consistent improvement in the smoothness of the learned state-to-action mappings of neural network controllers, reflected in the elimination of high-frequency components in the control signal. Tested on a real system, improvements in controller smoothness on a quadrotor drone resulted in an almost 80% reduction in power consumption while consistently training flight-worthy controllers. Project website: http://ai.bu.edu/caps
翻訳日:2021-05-11 02:46:41 公開日:2020-12-11
# 適応動的モード分解に向けて

Towards an Adaptive Dynamic Mode Decomposition ( http://arxiv.org/abs/2012.07834v1 )

ライセンス: Link先を確認
Mohammad N. Murshed, M. Monir Uddin(参考訳) dynamic mode decomposition (dmd) はデータベースのモデリングツールで、ある時点での量を将来同じ量にマッピングするためにマトリックスを識別する。 我々は、時間遅延座標、投影法、フィルタをデータの性質に応じて利用し、利用可能な問題のモデルを作成するAdaptive Dynamic Mode Decomposition (ADMD) と呼ばれる新しいバージョンを設計する。 フィルタは高次元データセットのランクを下げるのに非常に効果的である。 我々は,フィルタとして'discrete Fourier transform' と 'augmented lagrangian multiplier' を組み込んだ。 提案したADMDは、様々な複雑さのデータセットでテストされており、その性能は有望であるようだ。

Dynamic Mode Decomposition (DMD) is a data based modeling tool that identifies a matrix to map a quantity at some time instant to the same quantity in future. We design a new version which we call Adaptive Dynamic Mode Decomposition (ADMD) that utilizes time delay coordinates, projection methods and filters as per the nature of the data to create a model for the available problem. Filters are very effective in reducing the rank of high-dimensional dataset. We have incorporated 'discrete Fourier transform' and 'augmented lagrangian multiplier' as filters in our method. The proposed ADMD is tested on several datasets of varying complexities and its performance appears to be promising.
翻訳日:2021-05-11 02:46:25 公開日:2020-12-11