このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210316となっている論文です。

PDF登録状況(公開日: 20210316)

TitleAuthorsAbstract論文公表日・翻訳日
# 量子セルオートマトン、物理複雑性、ゴールディロック規則

Entangled quantum cellular automata, physical complexity, and Goldilocks rules ( http://arxiv.org/abs/2005.01763v3 )

ライセンス: Link先を確認
Logan E. Hillberry, Matthew T. Jones, David L. Vargas, Patrick Rall, Nicole Yunger Halpern, Ning Bao, Simone Notarnicola, Simone Montangero, Lincoln D. Carr(参考訳) セルオートマトンは、フラクタルから乱数生成器、チューリング完全計算に至るまで、様々な創発的な振る舞いを示す古典ビットと相互作用する。 量子セルオートマトン(qca)は生物学、社会学、経済学を記述した複雑性科学の意味で複雑性を示すことができる。 QCAは、活動と停滞のバランスをとることで定義する「ゴールドロックルール」の下で進化するときに複雑さを示す。 我々のGoldilocksルールは、堅牢な動的特徴(絡み合った呼吸器)、ネットワーク構造と複雑性に整合した力学、永続的なエントロピー変動を生成する。 現在の実験プラットフォーム(Rydberg配列、閉じ込められたイオン、超伝導量子ビット)は、Goldilocksプロトコルを実装し、複雑性科学とQCAが公開する量子計算の関連性をテストすることができる。

Cellular automata are interacting classical bits that display diverse emergent behaviors, from fractals to random-number generators to Turing-complete computation. We discover that quantum cellular automata (QCA) can exhibit complexity in the sense of the complexity science that describes biology, sociology, and economics. QCA exhibit complexity when evolving under "Goldilocks rules" that we define by balancing activity and stasis. Our Goldilocks rules generate robust dynamical features (entangled breathers), network structure and dynamics consistent with complexity, and persistent entropy fluctuations. Present-day experimental platforms -- Rydberg arrays, trapped ions, and superconducting qubits -- can implement our Goldilocks protocols, making testable the link between complexity science and quantum computation exposed by our QCA.
翻訳日:2023-05-21 05:04:17 公開日:2021-03-16
# 最大ラピッドトモグラフィを用いた量子回路切断

Quantum Circuit Cutting with Maximum Likelihood Tomography ( http://arxiv.org/abs/2005.12702v4 )

ライセンス: Link先を確認
Michael A. Perlin, Zain H. Saleem, Martin Suchara, James C. Osborn(参考訳) 本稿では,量子デバイス上で量子回路を量子ビット数限定で動作させるための回路切断技術として,MLFT(Max maximum fragment tomography)を導入する。 回路切断法における古典的な計算オーバーヘッドを最小化することに加えて、回路の断片から得られる測定データから、MLFTは量子回路の出力の確率分布が最も高いことを発見した。 乱ユニタリ回路の数値実験により,断片化量子回路の出力を正確に推定するMLFTの利点を実証する。 最後に,回路切断は全回路実行よりも忠実度の高いクラスタ回路の出力を推定できることを示し,量子ハードウェア上でクラスタ回路を実行するための標準ツールとして回路切断を用いることを動機付けている。

We introduce maximum likelihood fragment tomography (MLFT) as an improved circuit cutting technique for running clustered quantum circuits on quantum devices with a limited number of qubits. In addition to minimizing the classical computing overhead of circuit cutting methods, MLFT finds the most likely probability distribution for the output of a quantum circuit, given the measurement data obtained from the circuit's fragments. We demonstrate the benefits of MLFT for accurately estimating the output of a fragmented quantum circuit with numerical experiments on random unitary circuits. Finally, we show that circuit cutting can estimate the output of a clustered circuit with higher fidelity than full circuit execution, thereby motivating the use of circuit cutting as a standard tool for running clustered circuits on quantum hardware.
翻訳日:2023-05-19 01:25:45 公開日:2021-03-16
# 完全量子コンピューティングスタックのアプリケーションモチベーションと総括的ベンチマーク

Application-Motivated, Holistic Benchmarking of a Full Quantum Computing Stack ( http://arxiv.org/abs/2006.01273v3 )

ライセンス: Link先を確認
Daniel Mills, Seyon Sivarajah, Travis L. Scholten, Ross Duncan(参考訳) 量子コンピューティングシステムは、期待される実用的なタスクの観点からベンチマークする必要がある。 本稿では,3つの「応用モチベーション」回路クラスを提案する。深度(変分量子固有解法アルゴリズムにおける状態準備の関連性)、浅度(近距離量子機械学習に有用なIQP型回路に着想を得た)、および正方形(量子体積ベンチマークに着想を得た)。 我々は,これらのクラスから回路を動作させる際の量子コンピューティングシステムの性能を,指数関数的古典計算資源とシステムからの古典的サンプル(ビットストリング)の多項式数を必要とするいくつかの数値を用いて定量化する。 使用するコンパイル戦略と,回路が動作する装置によって,性能がどう変化するかを検討する。 ibm quantumが利用可能なシステムを使用して、その性能を調べ、ノイズ対応のコンパイル戦略が有益である可能性を示し、デバイス接続性とノイズレベルが、ベンチマークによるシステムパフォーマンスにおいて重要な役割を果たすことを示した。

Quantum computing systems need to be benchmarked in terms of practical tasks they would be expected to do. Here, we propose 3 "application-motivated" circuit classes for benchmarking: deep (relevant for state preparation in the variational quantum eigensolver algorithm), shallow (inspired by IQP-type circuits that might be useful for near-term quantum machine learning), and square (inspired by the quantum volume benchmark). We quantify the performance of a quantum computing system in running circuits from these classes using several figures of merit, all of which require exponential classical computing resources and a polynomial number of classical samples (bitstrings) from the system. We study how performance varies with the compilation strategy used and the device on which the circuit is run. Using systems made available by IBM Quantum, we examine their performance, showing that noise-aware compilation strategies may be beneficial, and that device connectivity and noise levels play a crucial role in the performance of the system according to our benchmarks.
翻訳日:2023-05-17 11:09:11 公開日:2021-03-16
# 2次元ボース・ハバード格子の膨張ダイナミクス:ボース・アインシュタイン凝縮と熱雲

Expansion dynamics in two-dimensional Bose-Hubbard lattices: Bose-Einstein condensate and thermal cloud ( http://arxiv.org/abs/2007.06331v2 )

ライセンス: Link先を確認
Mauricio Trujillo-Martinez, Anna Posazhennikova, and Johann Kroha(参考訳) 二次元正方形光学格子における超低温ボース気体の時間展開について検討した。 ガスは超流動状態の奥深くにあるボース=ハッバードモデルによって説明され、最初は格子の中心にすべてのボソンが凝縮された。 本研究では,多体ハミルトニアンを適切な局所的に表現し,対応する場演算子を古典的[Bose-Einstein Condensate (BEC)]部分と量子力学的揺らぎに分離する,相互作用するボソニック系の時間的進化を捉えるための非平衡プロパゲータ法を提案する。 格子の近距離ホッピングが突然切り替わった後、ボソニック雲は空間的に高速で弾道的な前駆体と、自転によって制御される緩やかに拡大する中央部分に分けられる。 先行展開はBECのコヒーレントダイナミクスによって駆動され、その速度はリーブ・ロビンソン境界と一致していることを示す。 より小さな格子に対して、準粒子衝突が凝縮劣化と振動減衰の増大につながるかを分析する。

We study the temporal expansion of an ultracold Bose gas in two-dimensional, square optical lattices. The gas is described by the Bose-Hubbard model deep in the superfluid regime, with initially all bosons condensed in the central site of the lattice. We use the previously developed nonequilibrium propagator method for capturing the time evolution of an interacting bosonic system, where the many-body Hamiltonian is represented in an appropriate local basis and the corresponding field operators are separated into the classical [Bose-Einstein condensate (BEC)] part and quantum mechanical fluctuations. After a quench, i.e. after a sudden switch of the lattice nearest-neighbor hopping, the expanding, bosonic cloud separates spatially into a fast, ballistic forerunner and a slowly expanding central part controlled by selftrapping. We show that the forerunner expansion is driven by the coherent dynamics of the BEC and that its velocity is consistent with the Lieb-Robinson bound. For smaller lattices we analyze how quasiparticle collisions lead to enhanced condensate depletion and oscillation damping.
翻訳日:2023-05-10 04:38:05 公開日:2021-03-16
# 座標のシンプレクティック変換による量子力学的観測

Quantum Mechanical Observables under a Symplectic Transformation of Coordinates ( http://arxiv.org/abs/2007.10858v2 )

ライセンス: Link先を確認
Jakub K\'aninsk\'y(参考訳) 我々は、構成空間が$ \mathbb{R}^{q} $ に同型な有限次元系の量子化バージョンにおける量子力学的可観測体の一般的なシンプレクティック変換(線型正準変換とも呼ばれる)を考える。 厳密なヒルベルト空間の形式論を用いて、すべての可観測空間に対する固有状態を定義する。 そして、これらの固有状態の対応する変換の明示的な形式を解明する。 論文の最後にいくつか例を挙げる。

We consider a general symplectic transformation (also known as linear canonical transformation) of quantum-mechanical observables in a quantized version of a finite-dimensional system with configuration space isomorphic to $ \mathbb{R}^{q} $. Using the formalism of rigged Hilbert spaces, we define eigenstates for all the observables. Then we work out the explicit form of the corresponding transformation of these eigenstates. A few examples are included at the end of the paper.
翻訳日:2023-05-08 20:59:17 公開日:2021-03-16
# 絡み合った直交基底の局所的不等分性と不完全性:2要素局所不等分性アンサンブルの生成法

Local indistinguishability and incompleteness of entangled orthogonal bases: Method to generate two-element locally indistinguishable ensembles ( http://arxiv.org/abs/2008.01620v2 )

ライセンス: Link先を確認
Saronath Halder, Ujjwal Sen(参考訳) 直交状態の局所的不連続性現象と、両部量子系と多部量子系に対する絡み合った基底の非拡張性と非可逆性の性質を関連づける。 2量子ビットのエンタングルベースはサイズ3であり、分離可能な測定値では完全に区別できないことが証明される。 情報共有アプリケーションに繋がる可能性のある、拡張不可能な絡み合ったベースの概念に基づいて、2要素直交アンサンブルを構築する方法を特定する。 2要素のアンサンブルはアンサンブルの基本単位を形成するが、純粋な状態要素に対して局所的に区別できないアンサンブルは提供しない。 混合状態に移行することはこの可能性を開くが、識別することは困難である。 拡張不能な絡み合った基底を用いる方法は、その体系的な生成に使用できる。 多部系では、拡張不能な絡み合った基底のクラスを見つけ、その非拡張性はすべての二分割にわたって保存される。 また,高次元量子システムから絡み合った資源状態を必要とする非局所演算を局所的に実装する。

We relate the phenomenon of local indistinguishability of orthogonal states with the properties of unextendibility and uncompletability of entangled bases for bipartite and multipartite quantum systems. We prove that all two-qubit unextendible entangled bases are of size three and they cannot be perfectly distinguished by separable measurements. We identify a method of constructing two-element orthogonal ensembles, based on the concept of unextendible entangled bases, that can potentially lead to information sharing applications. Two-element ensembles form the fundamental unit of ensembles, and yet does not offer locally indistinguishable ensembles for pure state elements. Going over to mixed states does open this possibility, but can be difficult to identify. The method provided using unextendible entangled bases can be used for their systematic generation. In multipartite systems, we find a class of unextendible entangled bases for which the unextendibility property remains conserved across all bipartitions. We also identify nonlocal operations, local implementation of which require entangled resource states from a higher-dimensional quantum system.
翻訳日:2023-05-07 04:22:51 公開日:2021-03-16
# キャビティ同期単一光子源からのスケーラブル多光子生成

Scalable multiphoton generation from cavity-synchronized single-photon sources ( http://arxiv.org/abs/2009.02382v2 )

ライセンス: Link先を確認
Ming Li, Juan Jos\'e Garc\'ia-Ripoll, Tom\'as Ramos(参考訳) 我々は、複数のチャネル上で数百個の識別不能な光子をオンデマンドで生成する、効率的でスケーラブルで決定論的スキームを提案する。 我々の設計は複数の単一光子源に依存し、それぞれが導波路に結合され、それぞれが共通のキャビティモードと相互作用する。 共振器は、導波路によって収集される各光源による1つの光子の同時放出を同期させトリガーする。 最先端の回路QED実装では、この方式は純度、不明瞭さ、効率が99\%の単一光子を$\sim $MHzで作成するのをサポートする。 また、30光子を同時に生成する装置を数百kHzの速度で70\%以上の効率で作成する条件についても論じる。 これは、ボゾンサンプリングの前の多重化源よりも数桁効率が良く、決定論的多光子源の実現と、光子によるスケーラブルな量子情報処理を可能にする。

We propose an efficient, scalable and deterministic scheme to generate up to hundreds of indistinguishable photons over multiple channels, on demand. Our design relies on multiple single-photon sources, each coupled to a waveguide, and all of them interacting with a common cavity mode. The cavity synchronizes and triggers the simultaneous emission of one photon by each source, which are collected by the waveguides. For a state-of-the-art circuit QED implementation, this scheme supports the creation of single photons with purity, indistinguishability, and efficiency of $99\%$ at rates of $\sim $MHz. We also discuss conditions to create a device to produce 30-photon simultaneously with efficiency above $70\%$ at a rate of hundreds of kHz. This is several orders of magnitude more efficient than previous demultiplexed sources for boson sampling, and enables the realization of deterministic multi-photon sources and scalable quantum information processing with photons.
翻訳日:2023-05-03 20:35:10 公開日:2021-03-16
# 数基底測定による高速で頑健な量子状態トモグラフィ

Fast and robust quantum state tomography from few basis measurements ( http://arxiv.org/abs/2009.08216v2 )

ライセンス: Link先を確認
Fernando G.S.L. Brand\~ao, Richard Kueng, Daniel Stilck Fran\c{c}a(参考訳) 量子状態トモグラフィー(quantum state tomography)は、多くの量子情報処理タスクの強力な、しかしリソース集約的な一般的なソリューションである。 これは、関連するリソースを可能な限り控えめに使用するロバストなトモグラフィ手順の設計を動機付ける。 重要なコスト要因は、状態のコピー数と測定設定、および古典的な後処理時間とメモリである。 本研究では,上述したすべてのリソースを,精度の悪さを犠牲にして最適化するオンライントモグラフィアルゴリズムを提案し,解析する。 このプロトコルは、状態のコピー、測定設定、メモリに対するランクと寸法の観点で、確実に最適なパフォーマンスを提供する最初のプロトコルである。 古典的ランタイムも大幅に削減され、数値実験は他の最先端技術と比較できる。 量子コンピュータ上でアルゴリズムを実行し、量子状態トモグラフィーのための量子スピードアップを提供することにより、さらなる改善が可能となる。

Quantum state tomography is a powerful, but resource-intensive, general solution for numerous quantum information processing tasks. This motivates the design of robust tomography procedures that use relevant resources as sparingly as possible. Important cost factors include the number of state copies and measurement settings, as well as classical postprocessing time and memory. In this work, we present and analyze an online tomography algorithm designed to optimize all the aforementioned resources at the cost of a worse dependence on accuracy. The protocol is the first to give provably optimal performance in terms of rank and dimension for state copies, measurement settings and memory. Classical runtime is also reduced substantially and numerical experiments demonstrate a favorable comparison with other state-of-the-art techniques. Further improvements are possible by executing the algorithm on a quantum computer, giving a quantum speedup for quantum state tomography.
翻訳日:2023-05-02 00:20:01 公開日:2021-03-16
# フロックワイル半金属相におけるワイルノードの動的キャラクタリゼーション

Dynamical characterization of Weyl nodes in Floquet Weyl semimetal phases ( http://arxiv.org/abs/2009.09189v2 )

ライセンス: Link先を確認
Muhammad Umer, Raditya Weda Bomantara and Jiangbin Gong(参考訳) 非平衡(周期的に駆動される)トポロジカルな物質の研究により、物質の平衡状態の分類に用いられるトポロジカル不変量は、それらの非平衡な状態を記述するのに十分でないことが理解されている。 実際、フロケ系において、準エネルギーブリルアンゾーンの周期性から生じる余分なギャップは、しばしば平衡類似を持たない独自の位相現象をもたらす。 フローケ・ワイル半金属の文脈では、ワイル点は準エネルギー零点と$\pi/T$(T$)の両方で誘導され、これらの2種類のワイル点は運動量空間において互いに非常に近い。 運動量空間の近接のため、個々のワイル点のキラリティーは理論と実験の両方において特徴づけられにくくなり、システム全体のトポロジーを決定するのが難しくなる。 本研究では、フロケチャーン絶縁体における動的巻線数の構成に着想を得て、異なる準エネルギー値のワイル点を特徴づけ、区別できる動的不変量を提案し、フロケワイル半金属のトポロジカルキャラクタリゼーションにおいてさらに一歩前進する。 このような動的位相不変量の有用性を示すために、いくつかの系パラメータの強さでワイル点数が無限に上昇する多くのワイル点を示す周期的に蹴られたハーパーモデル(フロッケ位相位相の研究における最初のモデル)の変種を考える。 さらに,ワイル点に関連する2端子輸送信号について検討した。 この研究の理論的発見は、一見単純なフロケ半金属系の豊富なトポロジカルバンド構造を実験的に探究する道を開いた。

Due to studies in nonequilibrium (periodically-driven) topological matter, it is now understood that some topological invariants used to classify equilibrium states of matter do not suffice to describe their nonequilibrium counterparts. Indeed, in Floquet systems the additional gap arising from the periodicity of the quasienergy Brillouin zone often leads to unique topological phenomena without equilibrium analogues. In the context of Floquet Weyl semimetal, Weyl points may be induced at both quasienergy zero and $\pi/T$ ($T$ being the driving period) and these two types of Weyl points can be very close to each other in the momentum space. Because of their momentum-space proximity, the chirality of each individual Weyl point may become hard to characterize in both theory and experiments, thus making it challenging to determine the system's overall topology. In this work, inspired by the construction of dynamical winding numbers in Floquet Chern insulators, we propose a dynamical invariant capable of characterizing and distinguishing between Weyl points at different quasienergy values, thus advancing one step further in the topological characterization of Floquet Weyl semimetals. To demonstrate the usefulness of such a dynamical topological invariant, we consider a variant of the periodically kicked Harper model (the very first model in studies of Floquet topological phases) that exhibits many Weyl points, with the number of Weyl points rising unlimitedly with the strength of some system parameters. Furthermore, we investigate the two-terminal transport signature associated with the Weyl points. Theoretical findings of this work pave the way for experimentally probing the rich topological band structures of some seemingly simple Floquet semimetal systems.
翻訳日:2023-05-01 20:05:36 公開日:2021-03-16
# 準周期駆動型非断熱式トポロジカルエネルギーポンプ

Nonadiabatic Topological Energy Pumps with Quasiperiodic Driving ( http://arxiv.org/abs/2010.02228v2 )

ライセンス: Link先を確認
David M. Long, Philip J. D. Crowley, Anushya Chandran(参考訳) 我々は、d$非コンメンシュレートトーンによって駆動されるd$-次元格子モデルの定常状態の位相的分類を導出する。 周波数空間における$(d+D)$-次元局所化モデルへの写像は、静的アナログを持たない異常局所化位相(ALTP)を明らかにする。 形式的分類は $d+d$ で決定されるが、各altp の可観測符号は空間次元 $d$ に依存する。 d$ の各$d+d=3$ に対して、量子化された循環電流と対応する位相的エッジ状態を特定する。 エッジ状態は、駆動間の量子化された非断熱エネルギーポンプとして機能する(d=1$)。 我々は,いくつかの位相クラスのaltpsを実現する準周期駆動量子ビットとワイヤの具体的モデルを設計する。 本研究は,低次元駆動システムにおける高次元ALTPを実験的にアクセスするための経路を提供する。

We derive a topological classification of the steady states of $d$-dimensional lattice models driven by $D$ incommensurate tones. Mapping to a unifying $(d+D)$-dimensional localized model in frequency space reveals anomalous localized topological phases (ALTPs) with no static analog. While the formal classification is determined by $d+D$, the observable signatures of each ALTP depend on the spatial dimension $d$. For each $d$, with $d+D=3$, we identify a quantized circulating current, and corresponding topological edge states. The edge states for a driven wire ($d=1$) function as a quantized, nonadiabatic energy pump between the drives. We design concrete models of quasiperiodically driven qubits and wires that achieve ALTPs of several topological classes. Our results provide a route to experimentally access higher dimensional ALTPs in driven low-dimensional systems.
翻訳日:2023-04-29 22:28:08 公開日:2021-03-16
# シングルサイドバンド連続位相変調の性能とスペクトル特性

Performance vs. Spectral Properties For Single-Sideband Continuous Phase Modulation ( http://arxiv.org/abs/2011.10541v2 )

ライセンス: Link先を確認
Karim Kassan, Ha\"ifa Far\`es, D. Christian Glattli and Yves Lou\"et(参考訳) 本研究は,シングルサイドバンド(SSB)スペクトルを直接生成できる連続位相変調(CPM)の性能を無効にする。 この信号は変調指標、パルス長、パルス幅で解析され、いずれも誤差確率、帯域幅、SSB特性、受信機の複雑さに影響を与える。 誤差確率性能は、最小ユークリッド距離の近似に基づいている。 この特定のSSB変調に対する変調指数による数値パワースペクトル密度計算を示す。 SSB信号の性質を失うことなく、ビット誤り率(BER)、スペクトル効率、複雑さの大幅な改善を保証するために、多目的最適化を用いて変調スキームを設計する際の合理的なトレードオフが提案されている。 性能比較は既知のCPMスキーム、例えばガウス最小シフトキー(GMSK)とRisingd CosineベースのCPM(RC)を用いて行われる。

This study revokes the performance of continuous phase modulation (CPM) able to generate a single-sideband (SSB) spectrum directly. This signal is analyzed in terms of modulation indices, pulse lengths, and pulse widths, all of which affect error probability, bandwidth, SSB property, and receiver complexity. The error probability performance is based on an approximation of the minimum Euclidean distance. A numerical power spectral density calculation for this particular SSB modulation in terms of modulation index is presented. Reasonable tradeoffs in designing modulation schemes have been proposed using multi-objective optimization to ensure sizable improvements in bit error rate (BER), spectral efficiencies, and complexity without losing the property of being a SSB signal. Performance comparisons are made with known CPM schemes, e.g., Gaussian Minimum Shift Keying (GMSK) and Raised Cosine based CPM (RC)
翻訳日:2023-04-23 14:57:57 公開日:2021-03-16
# 非エルミート準周期格子の局在と位相遷移

Localization and topological transitions in non-Hermitian quasiperiodic lattices ( http://arxiv.org/abs/2101.05505v2 )

ライセンス: Link先を確認
Ling-Zhi Tang, Guo-Qing Zhang, Ling-Feng Zhang, and Dan-Wei Zhang(参考訳) 一般オーブリー・アンド・r\'{e}-ハーパーモデルによって記述された1次元(相互作用)非エルミート準周期格子の局在と位相遷移について,非対角ホッピングおよびオンサイトポテンシャルにおける不合理な変調と非共役ホッピングおよび複素ポテンシャル相からの非エルミート性について検討する。 非相互作用の場合、非相互ホッピング (複素ポテンシャル位相) が2つの準周期変調強度で表される相図の非局在化(局在化)領域を拡大できることを明らかにする。 局所化遷移は常に3つの異なる非エルミートの場合の固有エネルギーの曲がり角を特徴とする位相相転移を伴うことを示す。 さらに、エネルギースペクトルにおける実複素エネルギー遷移は、非逆(複素ポテンシャル)の場合におけるこれら2つの相転移と(以前より)一致することが判明し、実複素エネルギー遷移は2つの非ヘルミティティーの共存下では欠落している。 スピンレスフェルミオンの相互作用について, 拡張相と多体局在相は, 固有状態の絡み合いエントロピーと複素固有エネルギーの準位統計によって同定できることを示した。 さらに, 臨界スケーリング解析を行うことにより, 多体局在遷移は実複相遷移と一致し, 複素相の場合に存在しない非逆相の場合の位相遷移の前に生じることを示した。

We investigate the localization and topological transitions in a one-dimensional (interacting) non-Hermitian quasiperiodic lattice, which is described by a generalized Aubry-Andr\'{e}-Harper model with irrational modulations in the off-diagonal hopping and on-site potential and with non-Hermiticities from the nonreciprocal hopping and complex potential phase. For noninteracting cases, we reveal that the nonreciprocal hopping (the complex potential phase) can enlarge the delocalization (localization) region in the phase diagrams spanned by two quasiperiodical modulation strengths. We show that the localization transition are always accompanied by a topological phase transition characterized the winding numbers of eigenenergies in three different non-Hermitian cases. Moreover, we find that a real-complex eigenenergy transition in the energy spectrum coincides with (occurs before) these two phase transitions in the nonreciprocal (complex potential) case, while the real-complex transition is absent under the coexistence of the two non-Hermiticities. For interacting spinless fermions, we demonstrate that the extended phase and the many-body localized phase can be identified by the entanglement entropy of eigenstates and the level statistics of complex eigenenergies. By making the critical scaling analysis, we further show that the many-body localization transition coincides with the real-complex transition and occurs before the topological transition in the nonreciprocal case, which are absent in the complex phase case.
翻訳日:2023-04-15 05:25:17 公開日:2021-03-16
# 測定値のon-state commutativityと結果のジョイント分布

On-State Commutativity of Measurements and Joint Distributions of Their Outcomes ( http://arxiv.org/abs/2101.08313v2 )

ライセンス: Link先を確認
Jan Czajkowski and Alex B. Grilo(参考訳) 本稿では,量子状態の集合上で行われる量子測定の系列の結果から生じる確率分布の解析を行う。 まず,古典的行動を得るためには,これらの分布のいくつかの特性を満たさなければならない。 第二に、結合分布がiff測定演算子「on-state」を透過する(可換性は2つ以上の作用素の可換性である)ことを証明する。 オンステート」とは、ヒルベルト空間内の状態の部分集合のみを保持する作用素の性質を意味する。 そして、Carstens, Ebrahimi, Tabia, Unruh (eprint 2018) によって提案された予想を否定し、この予想は、部分的オンステート置換の性質が完全なオンステート置換を意味することを述べる。 ヒルベルト空間のすべての状態に対する可換性の場合とは異なり、ペアの「オン状態」可換性はオン状態の可換性を含まない反例でこの予想を論じる。 最後に、2つのプロジェクションがほぼオンステート通勤であるなら、元の状態に近い2組の作用素が存在するという簡単な証明をすることで、オンステート可換性という新しい概念を探求する。 この結果は当初、一般作用素に対するHastings (Communications in Mathematical Physics, 2019) によって証明された。

In this note, we analyze joint probability distributions that arise from outcomes of sequences of quantum measurements performed on sets of quantum states. First, we identify some properties of these distributions that need to be fulfilled to get a classical behavior. Secondly, we prove that a joint distribution exists iff measurement operators "on-state" permute (permutability is the commutativity of more than two operators). By "on-state" we mean properties of operators that hold only on a subset of states in the Hilbert space. Then, we disprove a conjecture proposed by Carstens, Ebrahimi, Tabia, and Unruh (eprint 2018), which states that the property of partial on-state permutation implies full on-state permutation. We disprove this conjecture with a counterexample where pairwise "on-state" commutativity does not imply on-state permutability, unlike in the case of commutativity for all states in the Hilbert space. Finally, we explore the new concept of on-state commutativity by showing a simple proof that if two projections almost on-state commute, then there is a commuting pair of operators that are on-state close to the originals. This result was originally proven by Hastings (Communications in Mathematical Physics, 2019) for general operators.
翻訳日:2023-04-14 11:07:44 公開日:2021-03-16
# ナノファイバーテーパ近傍のナノ粒子に対する光誘起シーブ効果

Optically induced sieve effect for nanoparticles near a nanofiber taper ( http://arxiv.org/abs/2102.04735v2 )

ライセンス: Link先を確認
Mark Sadgrove, Takaaki Yoshino, Masakazu Sugawara, Yasuyoshi Mitsumori, and Keiichi Edamatsu(参考訳) ナノファイバーテーパ近傍のナノ粒子に対して, サイズ選択的な光トラップと輸送を示す。 2波長の逆伝搬モード構成を用いて、100nmの直径と150nmの金ナノスフィア(GNS)が、異なる光力でテーパ領域のエバネッセント場に閉じ込められていることを示す。 逆に、1つのナノ粒子が閉じ込められた場合、もう1つのナノ粒子が輸送され、シーブのような効果をもたらす。 以上の結果から, ナノフォトニクス素子のモード挙動を活かし, パッシブな構成で高度な光学操作を実現することができた。

We demonstrate size selective optical trapping and transport for nanoparticles near an optical nanofiber taper. Using a two-wavelength, counter-propagating mode configuration, we show that 100 nm diameter and 150 nm diameter gold nanospheres (GNSs) are trapped by the evanescent field in the taper region at different optical powers. Conversely, when one nanoparticle species is trapped the other may be transported, leading to a sieve-like effect. Our results show that sophisticated optical manipulation can be achieved in a passive configuration by taking advantage of mode behavior in nanophotonics devices.
翻訳日:2023-04-12 03:27:07 公開日:2021-03-16
# ランダム状態とブラックホールの相対エントロピー

Relative Entropy of Random States and Black Holes ( http://arxiv.org/abs/2102.05053v2 )

ライセンス: Link先を確認
Jonah Kudler-Flam(参考訳) 我々は高励起量子状態の相対エントロピーの研究を行う。 まず、wishartアンサンブルから状態をサンプリングし、相対エントロピーの大規模n図法を開発した。 解は基本関数の観点で正確に表現される。 解析結果を小N数値と比較し,正確な一致を求める。 さらに, ランダム行列理論は, カオス多体固有状態の挙動と正確に一致し, 固有状態熱化の指標となる。 この形式をads/cft対応に適用し、相対エントロピーは異なるブラックホールのマイクロ状態間の識別性を測定する。 ブラックホールのミクロ状態は、観測者が任意に量子状態へのアクセスが小さかったとしても区別可能であるが、ニュートン定数の識別性は非摂動的に小さかった。 最後に、これらの結果は、ホログラム系が全系の半分のサブシステムに sETH に従うことを結論として、サブシステム固有状態熱化仮説(sETH)の文脈で解釈する。

We study the relative entropy of highly excited quantum states. First, we sample states from the Wishart ensemble and develop a large-N diagrammatic technique for the relative entropy. The solution is exactly expressed in terms of elementary functions. We compare the analytic results to small-N numerics, finding precise agreement. Furthermore, the random matrix theory results accurately match the behavior of chaotic many-body eigenstates, a manifestation of eigenstate thermalization. We apply this formalism to the AdS/CFT correspondence where the relative entropy measures the distinguishability between different black hole microstates. We find that black hole microstates are distinguishable even when the observer has arbitrarily small access to the quantum state, though the distinguishability is nonperturbatively small in Newton's constant. Finally, we interpret these results in the context of the subsystem Eigenstate Thermalization Hypothesis (sETH), concluding that holographic systems obey sETH up to subsystems half the size of the total system.
翻訳日:2023-04-12 03:19:09 公開日:2021-03-16
# 周期ポテンシャルにおける分岐流からスーパーワイヤへ

From Branched Flow to Superwires in Periodic Potentials ( http://arxiv.org/abs/2103.08943v1 )

ライセンス: Link先を確認
Alvar Daza, Eric J. Heller, Anton M. Graf, Esa R\"as\"anen(参考訳) 高ブリルイーン帯において周期ポテンシャルで伝播する波の予期せぬ古典的および量子力学を報告する。 分岐流は、順序付けられた周期構造の典型的な長さスケールよりも短い波長で現れ、ポテンシャル障壁を超えるエネルギーを示す。 最強の分岐は無限に安定であり、波は通常のワイヤの電子として潜在的壁に直接閉じ込められるのではなく、動的安定性によって間接的に、より下位に閉じ込められる。 スーパーワイヤは超格子と関連しているため、これらをスーパーワイヤと呼びます。

We report unexpected classical and quantum dynamics of a wave propagating in a periodic potential in high Brilloiun zones. Branched flow appears at wavelengths shorter than the typical length scale of the ordered periodic structure and for energies above the potential barrier. The strongest branches remain stable indefinitely and may create linear dynamical channels, wherein waves are not confined directly by potential walls as electrons in ordinary wires, but rather indirectly and more subtly by dynamical stability. We term these superwires, since they are associated with a superlattice.
翻訳日:2023-04-07 23:52:23 公開日:2021-03-16
# 平衡から遠く離れたクビット熱力学:熱の性質と量子状態における作用に関する2つの視点

Qubit thermodynamics far from equilibrium: two perspectives about the nature of heat and work in the quantum regime ( http://arxiv.org/abs/2103.08934v1 )

ライセンス: Link先を確認
Andr\'es Vallejo, Alejandro Romanelli and Ra\'ul Donangelo(参考訳) エントロピーに基づく熱と仕事へのエネルギーの分割を考えると、二段階系の熱力学解析のための別の理論的枠組みを考案する。 これらの結果とこれらの量の標準的な定義の下で得られたものを比較すると、局所ハミルトニアンを定義する外部場の存在下でブロッホベクトルを回転させるエネルギーコストを表す新しい項の出現が観察される。 さらに, 両パラダイムにおいて, 温度, 熱容量, 内部エントロピー生成に関する明示的な表現を得る。 2つの異なるシステムにおける物質-放射相互作用のプロセスについて,両視点から検討した。

Considering an entropy-based division of energy transferred into heat and work, we develop an alternative theoretical framework for the thermodynamic analysis of two-level systems. When comparing these results with those obtained under the standard definitions of these quantities, we observe the appearance of a new term of work, which represents the energy cost of rotating the Bloch vector in presence of the external field that defines the local Hamiltonian. Additionally, we obtain explicit expressions for the temperature, the heat capacity and the internal entropy production of the system in both paradigms. In order to illustrate our findings we study, from both perspectives, matter-radiation interaction processes for two different systems.
翻訳日:2023-04-07 23:52:14 公開日:2021-03-16
# 科学技術関係の2つの物語:特許インテキストとフロントページ参照

Two tales of science technology linkage: Patent in-text versus front-page references ( http://arxiv.org/abs/2103.08931v1 )

ライセンス: Link先を確認
Jian Wang and Suzan Verberne(参考訳) 科学技術開発に科学がいかに有用かについては議論が続いているが、テクノロジーにどのような科学がより有用かはほとんど分かっていない。 本論文は,特許の価値(特許の先行引用及び特許の発行に対する株式市場の反応)が,基礎性,学際性,新規性,科学的引用に基づく科学的論文の特徴にどのように依存するかを考察することによって,文献のこのギャップを埋めるものである。 33,337usptoのバイオテクノロジー・ユーティリティ・パテントとその860,879のテキストによるweb of science journalの記事を参照し、(1)参照された科学論文の数の正の効果、(2)基本性の反転したu字型効果、(3)学際的効果、(4)不連続で非線形なノベルティ効果、(5)特許市場価値に対する科学的引用の正の効果、そして特許引用に対する無意味な効果を見出した。 さらに、テキスト内参照論文は、中程度に基礎的で、学際性が低く、目新しさが低く、より高く引用された場合に、同じ特許のフロントページに載る確率が高い。 したがって、フロントページ参照を使用すると、テキスト内参照とは大きく異なる結果が得られる。

There is recurrent debate about how useful science is for technological development, but we know little about what kinds of science are more useful for technology. This paper fills this gap in the literature by exploring how the value of a patent (as measured by patent forward citations and the stock market response to the issuing of the patent) depends on the characteristics of the scientific papers that it builds on, specifically, basicness, interdisciplinarity, novelty, and scientific citations. Using a dataset of 33,337 USPTO biotech utility patents and their 860,879 in-text references to Web of Science journal articles, we find (1) a positive effect of the number of referenced scientific papers, (2) an inverted U-shaped effect of basicness, (3) an insignificant effect of interdisciplinarity, (4) a discontinuous and nonlinear effect of novelty, and (5) a positive effect of scientific citations for patent market value but an insignificant effect on patent citations. In addition, in-text referenced papers have a higher chance of being listed on the front-page of the same patent when they are moderately basic, less interdisciplinary, less novel, and more highly cited. Accordingly, using front-page reference yields substantially different results than using in-text references.
翻訳日:2023-04-07 23:52:02 公開日:2021-03-16
# すべての二分割に対する絡み合いエントロピーのリンク表現

Link representation of the entanglement entropies for all bipartitions ( http://arxiv.org/abs/2103.08929v1 )

ライセンス: Link先を確認
Sudipto Singha Roy, Silvia N. Santalla, Germ\'an Sierra, Javier Rodr\'iguez-Laguna(参考訳) 量子状態の任意の二分割の絡み合いエントロピーは、内部および外部のサイトを接続する特定のリンク強度の和として近似できることを示した。 この表現は、量子多体状態の絡み合い構造に関連する幾何学を明らかにするのに有用である。 しかし、これらの絡み合いリンクの拘束は複雑な数学的問題である。 本稿では,この問題に対処し,行列積状態,自由フェルミオン状態,あるいは連続ブロックが特に関係する場合の近似手法を提案する。 これに伴い、異なるタイプの状態と分割に対する近似の精度について議論する。 最後に、リンク表現を用いて、スピン1/2長距離XXZ鎖とスピン-1双線型バイカジュラティック鎖の2つの異なる物理系について議論する。

We have recently shown that the entanglement entropy of any bipartition of a quantum state can be approximated as the sum of certain link strengths connecting internal and external sites. The representation is useful to unveil the geometry associated with the entanglement structure of a quantum many-body state which may occasionally differ from the one suggested by the Hamiltonian of the system. Yet, the obtention of these entanglement links is a complex mathematical problem. In this work, we address this issue and propose several approximation techniques for matrix product states, free fermionic states, or in cases in which contiguous blocks are specially relevant. Along with this, we discuss the accuracy of the approximation for different types of states and partitions. Finally, we employ the link representation to discuss two different physical systems: the spin-1/2 long-range XXZ chain and the spin-1 bilinear biquadratic chain.
翻訳日:2023-04-07 23:51:36 公開日:2021-03-16
# 狭帯域周波数コムによる原子媒体のテーラー光学特性

Tailored optical properties of atomic medium by a narrow bandwidth frequency comb ( http://arxiv.org/abs/2103.08861v1 )

ライセンス: Link先を確認
Rita Behera, Bappaditya Pal and Swarupananda Pradhan(参考訳) 定常原子分極の出現による量子干渉支援光学活性の研究を行った。 反相対性コーティングセル中のルビジウム原子は、複数のラーモス周波数での現象に対処するのに最適なプラットフォームを提供する。 光場の周波数変調によって生成される狭い帯域幅の周波数コムと相互作用する。 三色場を持つlindbladマスター方程式は、狭帯域周波数コムに対する原子反応の微視的画像を提供する。 磁場間の相対位相の指示は、磁気共鳴の減衰依存性において、三色場モデルによって決定的に捕捉される。 測定された吸収、非線形磁気光学回転、および様々な実験パラメータへの依存性を解析する。 光場の楕円性は、複数のラーモス周波数でのいくつかの物理過程の範囲を制御する。 この研究は、狭帯域周波数コムと原子アンサンブルとの相互作用におけるゼーマンコヒーレンスに対処するアプローチを提供し、様々な量子デバイスに応用する。

The quantum interference assisted enhanced optical activity due to the emergence of a steady-state atomic polarization is investigated. The Rubidium atoms in an antirelaxation coated cell provide a suitable platform to address the phenomena at multiple Larmors frequencies. It interacts with a narrow bandwidth frequency comb generated by the frequency modulation of the light field. The Lindblad master equation with a trichromatic field provides a microscopic picture of the atomic response to the narrow bandwidth frequency comb. The directive of the relative phase between the light fields, in the detuning dependence of the magnetic resonances, is conclusively captured with the trichromatic field model. The measured absorption, nonlinear magneto-optic rotation, and their dependencies on various experimental parameters are analysed. The ellipticity of the light field controls the extent of several physical processes at multiple Larmors frequencies. The investigation provides an approach to address the Zeeman coherence in the interaction of a narrow bandwidth frequency comb with an atomic ensemble and will have applications in various quantum devices.
翻訳日:2023-04-07 23:51:10 公開日:2021-03-16
# グラフ上の連続時間量子ウォーク:グループ状態転送

Continuous Time Quantum Walks on Graphs: Group State Transfer ( http://arxiv.org/abs/2103.08837v1 )

ライセンス: Link先を確認
Luke C. Brown, William J. Martin, Duncan Wright(参考訳) 本稿では,グラフ上の群状態移動の概念を紹介し,量子ウォーク理論における他の概念との関係を要約し,基本理論を定式化し,例を議論する。 x$ を隣接行列 $a$ のグラフとし、連続時間依存ユニタリ遷移作用素 $u(t)= \exp(ita)$ によって支配される頂点集合 $v(x)$ 上の量子ウォークを考える。 s,t\subseteq v(x)$ に対して、$x$ は $s$ から $t$ までの "グループ状態転送" を許容すると言い、$u(\tau)$ のサブ行列が $s$ でカラムに制限され、$t$ でない行が全ゼロ行列であるなら$\tau$ とする。 完全状態転移、分数再生、周期性の一般化として、群状態転移は自然単調性および推移性を満たす。 しかし、非自明な群状態転移は依然として稀であり、コンパクト性引数を用いて、ほぼすべての$t$に対して単射群状態転移($|S|=|T|$)が存在しないことが証明される。 この単射の場合に焦点を当てて、構造定理を求め、単射群状態遷移が「単元的」であることを証明し、グラフの各固有空間への$s$と$t$の関係を研究する。 これは、$s\subseteq v(x)$ のセットワイズ安定化子と、$s$ を時間をかけて拡散して得られた自然に定義された部分集合の安定化子との関係と、このプロセスを大まかに反転させる情報を与える。 これらの演算は十分にうまく行なっており、$V(X)$ 上の位相を与えることができ、これは単にその時に単射群状態移動が起こる部分集合の位相である可能性が高い。 整数固有値を持つ二部グラフ、グラフの結合、対称二重星における非自明な群状態遷移を示す。 Cartesian製品は、古いものから新しい例を作ることができます。

We introduce the concept of group state transfer on graphs, summarize its relationship to other concepts in the theory of quantum walks, set up a basic theory, and discuss examples. Let $X$ be a graph with adjacency matrix $A$ and consider quantum walks on the vertex set $V(X)$ governed by the continuous time-dependent unitary transition operator $U(t)= \exp(itA)$. For $S,T\subseteq V(X)$, we says $X$ admits "group state transfer" from $S$ to $T$ at time $\tau$ if the submatrix of $U(\tau)$ obtained by restricting to columns in $S$ and rows not in $T$ is the all-zero matrix. As a generalization of perfect state transfer, fractional revival and periodicity, group state transfer satisfies natural monotonicity and transitivity properties. Yet non-trivial group state transfer is still rare; using a compactness argument, we prove that bijective group state transfer (the optimal case where $|S|=|T|$) is absent for almost all $t$. Focusing on this bijective case, we obtain a structure theorem, prove that bijective group state transfer is "monogamous", and study the relationship between the projections of $S$ and $T$ into each eigenspace of the graph. Group state transfer is obviously preserved by graph automorphisms and this gives us information about the relationship between the setwise stabilizer of $S\subseteq V(X)$ and the stabilizers of naturally defined subsets obtained by spreading $S$ out over time and crudely reversing this process. These operations are sufficiently well-behaved to give us a topology on $V(X)$ which is likely to be simply the topology of subsets for which bijective group state transfer occurs at that time. We illustrate non-trivial group state transfer in bipartite graphs with integer eigenvalues, in joins of graphs, and in symmetric double stars. The Cartesian product allows us to build new examples from old ones.
翻訳日:2023-04-07 23:50:57 公開日:2021-03-16
# 援助のコヒーレンスと最大コヒーレント状態の支援

Coherence of assistance and assisted maximally coherent states ( http://arxiv.org/abs/2103.08818v1 )

ライセンス: Link先を確認
Ming-Jing Zhao, Rajesh Pereira, Teng Ma, and Shao-Ming Fei(参考訳) コヒーレンスと絡み合いは資源理論の基本的な概念である。 支援のコヒーレンス(絡み合い)は、局所的な測定と古典的コミュニケーションによって他の当事者が支援できるコヒーレンス(絡み合い)である。 我々は援助の全般的一貫性を導入し研究する。 第一に、確率単純性上の実対称凹函数の観点では、援助のコヒーレンスと援助の絡み合いが1対1の対応にあることが示される。 次に、量子状態の2つのクラス、つまり最大コヒーレント状態と最大絡み合い状態を導入する。 それらは、局所的な測定と古典的コミュニケーションを用いて、他の当事者の助けを借りて、最大にコヒーレントまたは絡み合った純粋な状態に変換することができる。 我々は、最大コヒーレントまたは最大エンタングルドを補助する状態に必要な条件を与える。 これらに基づき、コヒーレンス(絡み合い)対策、援助のコヒーレンス(絡み合い)、コヒーレンス(絡み合い)リソースを含むコヒーレンスと絡み合いの統一的な枠組みを提案する。 そして,全階層密度行列に対して,補助のコヒーレンスと補助の絡み合いが凸屋根のコヒーレンスや凸屋根の絡み合いよりも厳密に大きいことを示す。 したがって、全てのフルランク量子状態は、補助コヒーレンス蒸留において蒸留可能である。

Coherence and entanglement are fundamental concepts in resource theory. The coherence (entanglement) of assistance is the coherence (entanglement) that can be extracted assisted by another party with local measurement and classical communication. We introduce and study the general coherence of assistance. First, in terms of real symmetric concave functions on the probability simplex, the coherence of assistance and the entanglement of assistance are shown to be in one-to-one correspondence. We then introduce two classes of quantum states: the assisted maximally coherent states and the assisted maximally entangled states. They can be transformed into maximally coherent or entangled pure states with the help of another party using local measurement and classical communication. We give necessary conditions for states to be assisted maximally coherent or assisted maximally entangled. Based on these, a unified framework between coherence and entanglement including coherence (entanglement) measures, coherence (entanglement) of assistance, coherence (entanglement) resources is proposed. Then we show that the coherence of assistance as well as entanglement of assistance are strictly larger than the coherence of convex roof and entanglement of convex roof for all full rank density matrices. So all full rank quantum states are distillable in the assisted coherence distillation.
翻訳日:2023-04-07 23:50:14 公開日:2021-03-16
# 量子ソフトウェアのためのサイズと構造メトリクス

Some Size and Structure Metrics for Quantum Software ( http://arxiv.org/abs/2103.08815v1 )

ライセンス: Link先を確認
Jianjun Zhao(参考訳) 量子ソフトウェアは、量子コンピューティングシステムの潜在能力を最大限活用する上で重要な役割を果たす。 その結果、近年は注目が集まっている。 量子プログラミングの研究が多くのアクティブな研究と実用的な製品で成熟するにつれて、ソフトウェアメトリクス研究者は厳密かつ定量的に評価するためにこの新しいパラダイムに注目する必要がある。 第一段階として,量子ソフトウェアのサイズと構造を測定することを中心に,量子ソフトウェアの基本的な測定基準を提案する。 これらのメトリクスは、量子ソフトウェアにおける様々なサイズと構造特性を明示的に表現するために、異なる抽象レベルで定義される。 提案手法は,様々な観点から量子ソフトウェアの評価に利用できる。

Quantum software plays a critical role in exploiting the full potential of quantum computing systems. As a result, it is drawing increasing attention recently. As research in quantum programming reaches maturity with a number of active research and practical products, software metric researchers need to focus on this new paradigm to evaluate it rigorously and quantitatively. As the first step, this paper proposes some basic metrics for quantum software, which mainly focus on measuring the size and structure of quantum software. These metrics are defined at different abstraction levels to represent various size and structure attributes in quantum software explicitly. The proposed metrics can be used to evaluate quantum software from various viewpoints.
翻訳日:2023-04-07 23:49:50 公開日:2021-03-16
# 高指数コントラストスロット導波路を用いたフォトニックギャップアンテナ

Photonic Gap Antennas Based on High Index-Contrast Slot-Waveguides ( http://arxiv.org/abs/2103.08814v1 )

ライセンス: Link先を確認
Ashutosh Patri, K\'evin G. Cogn\'ee, Louis Haeberl\'e, Vinod Menon, Christophe Caloz, St\'ephane K\'ena-Cohen(参考訳) 低損失誘電体を用いた光アンテナは、高放射能量子効率、無視可能な加熱、優れた光安定性など、プラズモニックアンテナよりもいくつかの利点がある。 しかし、空間閉じ込めが弱いため、従来の誘電体アンテナはプラズモニックアンテナと同等の光-物質相互作用強度を提供できない。 ここでは,強拘束モード(v\sim10^{-4}\lambda_{0}^3$)をサポートしつつ,単一アンテナの量子効率を維持できる全誘電体アンテナ構成を提案する。 この構成は、低インデックス材料で満たされた横ギャップを有する高インデックス柱構造からなり、インデックスのコントラストがギャップに垂直な電界の強い増強を誘導する。 本稿では、対称及び非対称水平スロット導波路の分散関係に基づいて、このようなフォトニックギャップアンテナ(PGA)の動作原理を詳細に説明する。 PGAの特性を議論するため, シリコン柱と空気, CYTOPをギャップ材料として検討した。 空隙にエミッタを埋め込んだPGAは、空隙に$\sim$1000、CYTOPギャップに$\sim$400、スペクトル帯域に$\Delta\lambda\approx300$ nm、$\lambda=1.25$ \textmu mで$\sim$400で自然放出率を高めることができることを示す。 さらに、PGAはスペクトル帯域のかなりの部分にわたって一方向外放射を提供するように設計されている。 これにより、ギャップの位置を最適化された柱のオフセンター位置に設定し、構造物の垂直対称性を適切に破壊する。 また, 受信機として機能する場合, PGAは空気ギャップの$\sim$3000, CYTOPギャップの$\sim$1200により, 近接場強度向上につながることを示した。

Optical antennas made of low-loss dielectrics have several advantages over plasmonic antennas, including high radiative quantum efficiency, negligible heating and excellent photostability. However, due to weak spatial confinement, conventional dielectric antennas fail to offer light-matter interaction strengths on par with those of plasmonic antennas. We propose here an all-dielectric antenna configuration that can support strongly confined modes ($V\sim10^{-4}\lambda_{0}^3$) while maintaining unity antenna quantum efficiency. This configuration consists of a high-index pillar structure with a transverse gap that is filled with a low-index material, where the contrast of indices induces a strong enhancement of the electric field perpendicular to the gap. We provide a detailed explanation of the operation principle of such Photonic Gap Antennas (PGAs) based on the dispersion relation of symmetric and asymmetric horizontal slot-waveguides. To discuss the properties of PGAs, we consider silicon pillars with air or CYTOP as the gap-material. We show by full-wave simulations that PGAs with an emitter embedded in the gap can enhance the spontaneous emission rate by a factor of $\sim$1000 for air gaps and $\sim$400 for CYTOP gaps over a spectral bandwidth of $\Delta\lambda\approx300$ nm at $\lambda=1.25$ \textmu m. Furthermore, the PGAs can be designed to provide unidirectional out-of-plane radiation across a substantial portion of their spectral bandwidth. This is achieved by setting the position of the gap at an optimized off-centered position of the pillar so as to properly break the vertical symmetry of the structure. We also demonstrate that, when acting as receivers, PGAs can lead to a near-field intensity enhancement by a factor of $\sim$3000 for air gaps and $\sim$1200 for CYTOP gaps.
翻訳日:2023-04-07 23:49:40 公開日:2021-03-16
# 準周期ポテンシャルにおける多体動的相転移

Many-body dynamical phase transition in quasi-periodic potential ( http://arxiv.org/abs/2103.09065v1 )

ライセンス: Link先を確認
Ranjan Modak and Debraj Rakshit(参考訳) 量子相転移(DQPT)は、従来の量子系における量子臨界点の急激なクエンチに起因する。 しかしながら、システムがローカライズ-非局在化遷移を行う場合、あまり研究されていない。 本研究では,準周期ポテンシャルの存在下での1次元フェルミオン系の研究を行い,1次元においても非局在化-局所化遷移を誘導する。 異なる普遍性クラスに属する相間でクエンチングを行う場合、多体力学におけるDQPTのシグネチャを示す。 動的自由エネルギーの非解析性がベア系の充填分数にどのように影響するか,さらに相互作用下におけるdqptの運命について検討する。 本研究は, 低絡みの局所化相から高絡みの非局在化相への焼成を行うと, DQPTと絡みの速度との親密な関係が示唆される。

Much has been learned regarding dynamical quantum phase transition (DQPT) due to sudden quenches across quantum critical points in traditional quantum systems. However, not much has been explored when a system undergoes a localization-delocalization transition. Here, we study one dimensional fermionic systems in presence of a quasi-periodic potential, which induces delocalization-localization transition even in 1D. We show signatures of DQPT in the many-body dynamics, when quenching is performed between phases belonging to different universality classes. We investigate how the non-analyticity in the dynamical free energy gets affected with filling fractions in the bare system and, further, study the fate of DQPT under interaction. Strikingly, whenever quenching is performed from the low-entangled localized phase to the high-entangled delocalized phase, our studies suggest an intimate relationship between DQPT and the rate of the entanglement growth -- Faster growths of entanglement entropy ensures quicker manifestation of the non-analiticties in the many-body dynamical free energy.
翻訳日:2023-04-07 23:42:22 公開日:2021-03-16
# クビット周波数ドリフトに敏感な非断熱幾何学的量子ゲート

Nonadiabatic geometric quantum gates that are insensitive to qubit-frequency drifts ( http://arxiv.org/abs/2103.09005v1 )

ライセンス: Link先を確認
Jian Zhou, Sai Li, Guo-Zhu Pan, Gang Zhang, Tao Chen, and Zheng-Yuan Xue(参考訳) 幾何学的位相に基づく量子操作は、堅牢な量子ゲートへの有望な方法を提供する。 しかしながら、現在の非断熱的な幾何学的位相の実装では、操作的および/またはランダムな誤差は幾何学的位相を誘導する条件を損なう傾向があり、ノイズ耐性の特徴を損なう。 最近の実験[y. xu et al., phys. rev. lett. 124, 230503 (2020)]では、高忠実性普遍幾何量子ゲートが超伝導回路に実装され、幾何進化経路の異なる構成下で異なる種類のエラーに頑健である。 本稿では、経路設計戦略を適用し、両構成が単一ループ方式で普遍的な量子ゲートを実現できる理由を説明する。 一方,我々は,現実的な超伝導回路のエラー源であるクビット周波数ドリフト誘導誤差に対して頑健な経路構成を選択することで,幾何学的操作を意図的に誘導する。 さらに,本提案手法は合成スキームとさらに統合してゲートロバスト性を高め,数値シミュレーションにより検証できる。 したがって,本手法は高忠実かつロバストな量子ゲートの実現に向けて有望な方法を提供する。

Quantum manipulation based on geometric phases provides a promising way towards robust quantum gates. However, in the current implementation of nonadiabatic geometric phases, operational and/or random errors tend to destruct the conditions that induce geometric phases, thereby smearing their noise-resilient feature. In a recent experiment [Y. Xu et al., Phys. Rev. Lett. 124, 230503 (2020)], high-fidelity universal geometric quantum gates have been implemented in a superconducting circuit, which are robust to different types of errors under different configurations of the geometric evolution paths. Here, we apply the path-design strategy to explain in detail why both configurations can realize universal quantum gates in a single-loop way. Meanwhile, we purposefully induce our geometric manipulation by selecting the path configuration that is robust against the qubit-frequency-drift induced error, which is the dominant error source on realistic superconducting circuits and has not been deliberately addressed. Moreover, our proposal can further integrate with the composite scheme to enhance the gate robustness, which is verified by numerical simulations. Therefore, our scheme provides a promising way towards practical realization of high-fidelity and robust nonadiabatic geometric quantum gates.
翻訳日:2023-04-07 23:41:40 公開日:2021-03-16
# ダイヤモンド中の異なるスピンアンサンブル間の光学的フリップフロップ検出

Optically detected flip-flops between different spin ensembles in diamond ( http://arxiv.org/abs/2103.08994v1 )

ライセンス: Link先を確認
Sergei Masis, Sergey Hazanov, Nir Alfasi, Oleg Shtempluck and Eyal Buks(参考訳) 磁気共鳴の光学的検出技術を用いて、異なる結晶方位の窒素空白色中心と置換窒素欠陥との間のダイヤモンドの双極子相互作用を研究する。 ダイヤモンド中の異なるスピンアンサンブル間の共振スピンフリップ(第2ラーモア線)とフリップフリップの光学的測定を行った。 また, 窒素空調色中心とバルク音響モードとのひずみ結合を光学的検出により検討した。 我々の発見は、ダイヤモンドベースの検出器の感度を向上させることができるクロス偏光プロトコルの最適化に役立つかもしれない。

We employ the technique of optical detection of magnetic resonance to study dipolar interaction in diamond between nitrogen-vacancy color centers of different crystallographic orientations and substitutional nitrogen defects. We demonstrate optical measurements of resonant spin flips-flips (second Larmor line), and flip-flops between different spin ensembles in diamond. In addition, the strain coupling between the nitrogen-vacancy color centers and bulk acoustic modes is studied using optical detection. Our findings may help optimizing cross polarization protocols, which, in turn, may allow improving the sensitivity of diamond-based detectors.
翻訳日:2023-04-07 23:41:13 公開日:2021-03-16
# グラバートマスター方程式の安定性

Stability of the Grabert master equation ( http://arxiv.org/abs/2103.08982v1 )

ライセンス: Link先を確認
Eyal Buks and Dvir Schwartz(参考訳) 有限次元 $d_{\mathrm{h}}$ のヒルベルト空間を持つ量子系の力学について研究する。 システムのダイナミクスを支配するマスター方程式が非線形項を含む場合、不安定性は可能である。 ここでは、グラベルトによって導かれる非線形マスター方程式を考える。 固定点近傍の力学は線形化法とヤコビ行列の固有値の評価によって解析される。 これらの固有値はすべて非負であり、不動点が安定であると結論付ける。 この発見は疑問を提起する: 有限の$d_{\mathrm{h}}$を持つ量子系において、どのような条件下で不安定になるのか?

We study the dynamics of a quantum system having Hilbert space of finite dimension $d_{\mathrm{H}}$. Instabilities are possible provided that the master equation governing the system's dynamics contain nonlinear terms. Here we consider the nonlinear master equation derived by Grabert. The dynamics near a fixed point is analyzed by using the method of linearization, and by evaluating the eigenvalues of the Jacobian matrix. We find that all these eigenvalues are non-negative, and conclude that the fixed point is stable. This finding raises the question: under what conditions instability is possible in a quantum system having finite $d_{\mathrm{H}}$?
翻訳日:2023-04-07 23:41:04 公開日:2021-03-16
# d_4$対称格子の長距離カップリングによる高次位相状態

Higher-order topological states mediated by long-range coupling in $D_4$-symmetric lattices ( http://arxiv.org/abs/2103.08980v1 )

ライセンス: Link先を確認
Nikita A. Olekhno, Alina D. Rozenblit, Valerii I. Kachin, Alexey A. Dmitriev, Oleg I. Burmistrov, Pavel S. Seregin, Dmitry V. Zhirihin, Maxim A. Gorlach(参考訳) トポロジカル物理学は、フレキシブルなルーティングと様々な性質の波のレジリエントな局在への扉を開く。 最近提案された高次トポロジカル絶縁体は、異なる次元構造における波動局在の高度な制御を提供する。 多くの場合、そのような高次位相相の形成は格子対称性によって制御され、カゴメと呼吸ハニカム格子が顕著な例である。 そこで我々は,D_4$対称性の共振回路を設計し,実験により実現した。 我々が証明する通り、遠い隣人の結合は、ギャップ内のコーナー状態を引き起こす。 実験から関連する不変量を直接回収し,設計システムのトポロジカルな性質を実証し,トポロジカル位相の形成における長距離相互作用の役割を明らかにする。 以上の結果から,強い結合系と長距離結合を持つフォトニック系との区別が明らかになった。

Topological physics opens a door towards flexible routing and resilient localization of waves of various nature. Recently proposed higher-order topological insulators provide advanced control over wave localization in the structures of different dimensionality. In many cases, the formation of such higher-order topological phases is governed by the lattice symmetries, with kagome and breathing honeycomb lattices being prominent examples. Here, we design and experimentally realize the resonant electric circuit with $D_4$ symmetry and additional next-nearest-neighbor couplings. As we prove, a coupling of the distant neighbors gives rise to an in-gap corner state. Retrieving the associated invariant directly from the experiment, we demonstrate the topological nature of the designed system, revealing the role of long-range interactions in the formation of topological phases. Our results thus highlight the distinctions between tight-binding systems and their photonic counterparts with long-range couplings.
翻訳日:2023-04-07 23:40:55 公開日:2021-03-16
# 量子光キャラクタリゼーションのための中赤外ホモダインバランス検出器

Mid-infrared homodyne balanced detector for quantum light characterization ( http://arxiv.org/abs/2103.08977v1 )

ライセンス: Link先を確認
Tecla Gabbrielli, Francesco Cappelli, Natalia Bruno, Nicola Corrias, Simone Borri, Paolo De Natale, Alessandro Zavatta(参考訳) 中赤外域で作動する新しい平衡ホモダイン検出器の特性について述べる。 近赤外光における非古典性を明らかにする課題 ~g。 量子カスケードレーザーの放出では、高性能検出システムが必要である。 インシデント放射からの差動信号の強度雑音パワースペクトル密度解析により,我々の設定はショットノイズに制限されていることを示す。 実験結果を,自由空間量子通信などの量子技術への応用の可能性の観点から考察する。

We present the characterization of a novel balanced homodyne detector operating in the mid-infrared. The challenging task of revealing non-classicality in mid-infrared light, e.~g. in quantum cascade lasers emission, requires a high-performance detection system. Through the intensity noise power spectral density analysis of the differential signal coming from the incident radiation, we show that our setup is shot-noise limited. We discuss the experimental results with a view to possible applications to quantum technologies, such as free-space quantum communication.
翻訳日:2023-04-07 23:40:40 公開日:2021-03-16
# 超伝導量子ビットの反クロストーク高忠実状態識別

Anti-crosstalk high-fidelity state discrimination for superconducting qubits ( http://arxiv.org/abs/2103.08961v1 )

ライセンス: Link先を確認
Zi-Feng Chen, Qi Zhou, Peng Duan, Wei-Cheng Kong, Hai-Feng Zhang and Guo-Ping Guo(参考訳) 量子ビットの測定は量子計算において重要な役割を果たす。 超伝導マルチキュービットシステムにおける単一キュービットの状態分類の現在の方法は、クロストークの存在により、特に周波数の混雑の場合には、期待よりも低いフィデリティを生成する。 そこで我々は,浅層ニューラルネットワークの計測に使用されるデジタル信号処理(DSP)システムを,クロストークの影響を低減するための最適な分類器として訓練する。 実験の結果,6量子ビット超伝導量子チップに3秒の最適化を適用した後,クロストークによる読み出し誤差が100%削除された。

Measurement for qubits plays a key role in quantum computation. Current methods for classifying states of single qubit in a superconducting multi-qubit system produce fidelities lower than expected due to the existence of crosstalk, especially in case of frequency crowding. Here, We make the digital signal processing (DSP) system used in measurement into a shallow neural network and train it to be an optimal classifier to reduce the impact of crosstalk. The experiment result shows the crosstalk-induced readout error deceased by 100% after a 3-second optimization applied on the 6-qubit superconducting quantum chip.
翻訳日:2023-04-07 23:40:17 公開日:2021-03-16
# 超強磁場中の量子物質

Quantum matter in ultrahigh magnetic fields ( http://arxiv.org/abs/2103.09155v1 )

ライセンス: Link先を確認
N. P. Ong and Lu Li(参考訳) このレポートを書く際には、2つの目標が念頭にありました。 第一は、高磁場中の量子物質に関する最近の実験から発見された発見のサブセットを調査し、さらに高い磁場で実現される科学的機会を予測することである。 この調査が、量子マッターコミュニティにおける高磁場研究の興奮とペースを、より広いオーディエンス(特に大学院生)に伝えることを期待したい。 第2の目標は、2つの選択肢を比較することにある: 磁場が150テスラ(期間1-10msec)に達するパルスフィールド施設、または60テスラに達するDCフィールド施設。 強磁場の量子現象に関わる主要な科学者によるワークショップがnsf, alexandria sep. 2122 (2017) で開催された。

In writing this report we had two goals in mind. The first is to provide a survey of a subset of discoveries from recent experiments performed on quantum matter in high magnetic fields, and to anticipate the scientific opportunities to be realized in even higher fields. Hopefully, the survey will convey a sense of the excitement and pace of high-magnetic-field research in the quantum-matter community to a broader audience (undergraduates, especially). The second goal is to discuss the comparative merits of two options: a pulsed-field facility for attaining a magnetic field of 150 Tesla (of duration 1-10 msec) or a DC field facility that attains 60 Tesla. A workshop involving leading scientists involved with quantum phenomena in high magnetic fields was held at NSF, Alexandria Sep. 21,22 (2017) to address these issues.
翻訳日:2023-04-07 23:33:55 公開日:2021-03-16
# 量子アイシングチェーンにおける測定誘起エンタングルメント遷移:無限からゼロクリックへ

Measurement-Induced Entanglement Transitions in the Quantum Ising Chain: From Infinite to Zero Clicks ( http://arxiv.org/abs/2103.09138v1 )

ライセンス: Link先を確認
Xhek Turkeshi, Alberto Biella, Rosario Fazio, Marcello Dalmonte, Marco Schiro(参考訳) モニタリング環境に結合した量子イジング鎖における測定誘起相転移について検討した。 時間単位あたりの無限小ジャンプに対応する確率的量子状態拡散プロトコルと、選択後の制限に対応するノークリック限界の2つの異なる限界を比較し、非エルミートハミルトニアンにより記述する。 いずれの場合も、測定強度$\gamma$の増加、すなわち、エンタングルメントの対数スケーリングを伴う臨界相から領域ロー位相への鋭い遷移が2つのプロトコルにおける測定速度と同じ値で起こるため、非常に類似した表現論が見いだされる。 絡み合いの対数的スケーリングから抽出された効果的な中心電荷は、共通の遷移点において連続的に消滅するが、2つのプロトコルの異なる普遍性クラスを示唆する異なる臨界挙動を持つ。 臨界点に近づくと創発的バイモーダリティを示すエンタングルメント統計によって示唆されるように,ノイズ誘起不等角性の観点から,遷移近傍の中央電荷ミスマッチを解釈する。 非エルミート・ハミルトニアンとその関連する準放射スペクトル遷移は、連続対称性を欠くモデルと領域法則への絡み合い遷移の両方を理解する自然な枠組みを提供する。

We investigate measurement-induced phase transitions in the Quantum Ising chain coupled to a monitoring environment. We compare two different limits of the measurement problem, the stochastic quantum-state diffusion protocol corresponding to infinite small jumps per unit of time and the no-click limit, corresponding to post-selection and described by a non-Hermitian Hamiltonian. In both cases we find a remarkably similar phenomenology as the measurement strength $\gamma$ is increased, namely a sharp transition from a critical phase with logarithmic scaling of the entanglement to an area-law phase, which occurs at the same value of the measurement rate in the two protocols. An effective central charge, extracted from the logarithmic scaling of the entanglement, vanishes continuously at the common transition point, although with different critical behavior possibly suggesting different universality classes for the two protocols. We interpret the central charge mismatch near the transition in terms of noise-induced disentanglement, as suggested by the entanglement statistics which displays emergent bimodality upon approaching the critical point. The non-Hermitian Hamiltonian and its associated subradiance spectral transition provide a natural framework to understand both the extended critical phase, emerging here for a model which lacks any continuous symmetry, and the entanglement transition into the area law.
翻訳日:2023-04-07 23:33:00 公開日:2021-03-16
# ユークリッド偏差と共変量バランスのための変分量子アルゴリズム

Variational Quantum Algorithms for Euclidean Discrepancy and Covariate-Balancing ( http://arxiv.org/abs/2103.09090v1 )

ライセンス: Link先を確認
Ji\v{r}\'i Lebl, Asif Shakeel(参考訳) アルゴリズム的不一致理論(英語版)は、集合における彩色の不均衡を最小化する集合の二つの色付けを見つけるための効率的なアルゴリズムを求める。 ランダム化試験におけるユークリッド差分問題と共変量のバランスの問題は、Gram-Schmidt walk (GSW) に基づく効率的なランダム化アルゴリズムを持つ。 我々はこれらの問題を量子イジングモデルとして捉え、変分量子アルゴリズム(VQA)が特に有用である。 ibm量子シミュレータ上でコヴァリエートバランスの例をシミュレーションした結果、変分量子固有解法(vqe)と量子近似最適化アルゴリズム(qaoa)はgswアルゴリズムに匹敵する結果が得られることがわかった。

Algorithmic discrepancy theory seeks efficient algorithms to find those two-colorings of a set that minimize a given measure of coloring imbalance in the set, its {\it discrepancy}. The {\it Euclidean discrepancy} problem and the problem of balancing covariates in randomized trials have efficient randomized algorithms based on the Gram-Schmidt walk (GSW). We frame these problems as quantum Ising models, for which variational quantum algorithms (VQA) are particularly useful. Simulating an example of covariate-balancing on an IBM quantum simulator, we find that the variational quantum eigensolver (VQE) and the quantum approximate optimization algorithm (QAOA) yield results comparable to the GSW algorithm.
翻訳日:2023-04-07 23:31:39 公開日:2021-03-16
# 量子プログラムにおけるバグパターンの同定

Identifying Bug Patterns in Quantum Programs ( http://arxiv.org/abs/2103.09069v1 )

ライセンス: Link先を確認
Pengzhan Zhao, Jianjun Zhao and Lei Ma(参考訳) バグパターンは誤ったコードイディオムや悪いコーディングプラクティスであり、繰り返し失敗することが証明されているが、これは通常、プログラミング言語の機能の誤解、誤った設計パターンの使用、共通の振る舞いを共有する単純なミスによって引き起こされる。 本稿では、量子プログラミング言語Qiskitのバグパターンを特定し、分類し、それらのバグパターンの排除や防止方法を簡潔に議論する。 この研究は、量子プログラムのデバッグとテストの基礎となる基盤を提供するための第一歩だと考えています。

Bug patterns are erroneous code idioms or bad coding practices that have been proved to fail time and time again, which are usually caused by the misunderstanding of a programming language's features, the use of erroneous design patterns, or simple mistakes sharing common behaviors. This paper identifies and categorizes some bug patterns in the quantum programming language Qiskit and briefly discusses how to eliminate or prevent those bug patterns. We take this research as the first step to provide an underlying basis for debugging and testing quantum programs.
翻訳日:2023-04-07 23:31:01 公開日:2021-03-16
# 古典的bscと量子pscの間の双対性の半古典的証明

A Semiclassical Proof of Duality Between the Classical BSC and the Quantum PSC ( http://arxiv.org/abs/2103.09225v1 )

ライセンス: Link先を確認
Narayanan Rengaswamy and Henry D. Pfister(参考訳) 2018年、Renes (IEEE Trans. Inf. Theory, vol. 64, No. 1, pp. 577-592 (2018)] (arXiv:1701.05583) は古典的入力量子出力(CQ)チャネルのチャネル双対性に関する一般的な理論を開発した。 この結果は、バイナリ消去チャネル上の線形符号に対する多くのよく知られている双対性結果が、本質的に量子力学である双対問題の使用を犠牲にして、一般の古典的チャネルに拡張できることを示した。 この双対性の特別な場合の1つは、量子純状態チャネル (psc) 上の誤り訂正符号 (wire-tap secrecy) と、古典的な二進対称チャネル (bsc) 上のワイヤタップ秘密符号 (resp. error correction) との接続である。 この結果は古典的コーディングにとって重要な意味を持つが、一般双対性結果の背後にある機械は量子情報理論の強い背景を持たない研究者にとってかなり困難である。 本研究では,PSCの線形コードに対する事前結果を利用して,上記の特殊ケースを,性能指標のクローズドフォーム式を演算することで,代替的な導出を行う。 前述した結果は、PSC上の線形符号に対する平方根測定(SRM)の最適性と線形符号のフーリエ双対性を含む。 また,SRM は BSC 上のチャネル符号化(CQ 問題と解釈された場合)と PSC 上の秘密通信のための準最適測定値であることを示す。 我々の証明は線型代数と基本群理論のみを必要とするが、便利には量子ディラック記法を用いる。

In 2018, Renes [IEEE Trans. Inf. Theory, vol. 64, no. 1, pp. 577-592 (2018)] (arXiv:1701.05583) developed a general theory of channel duality for classical-input quantum-output (CQ) channels. That result showed that a number of well-known duality results for linear codes on the binary erasure channel could be extended to general classical channels at the expense of using dual problems which are intrinsically quantum mechanical. One special case of this duality is a connection between coding for error correction (resp. wire-tap secrecy) on the quantum pure-state channel (PSC) and coding for wire-tap secrecy (resp. error correction) on the classical binary symmetric channel (BSC). While this result has important implications for classical coding, the machinery behind the general duality result is rather challenging for researchers without a strong background in quantum information theory. In this work, we leverage prior results for linear codes on PSCs to give an alternate derivation of the aforementioned special case by computing closed-form expressions for the performance metrics. The noted prior results include optimality of the square-root measurement (SRM) for linear codes on the PSC and the Fourier duality of linear codes. We also show that the SRM forms a suboptimal measurement for channel coding on the BSC (when interpreted as a CQ problem) and secret communications on the PSC. Our proofs only require linear algebra and basic group theory, though we use the quantum Dirac notation for convenience.
翻訳日:2023-04-07 23:23:16 公開日:2021-03-16
# Clandestinoか、Rifugiatoか? イタリアで反移民のFacebook広告ターゲティング

Clandestino or Rifugiato? Anti-immigration Facebook Ad Targeting in Italy ( http://arxiv.org/abs/2103.09224v1 )

ライセンス: Link先を確認
Arthur Capozzi, Gianmarco De Francisci Morales, Yelena Mejova, Corrado Monti, Andr\'e Panisson, Daniela Paolotti(参考訳) 論争を巻き起こす問題に関する広告の監視は、政治プロセスの説明責任と透明性を確保するための重要なステップである。 そのためにFacebook Ads Libraryを使って、イタリアで1年以上にわたって2312の移民関連広告キャンペーンを集めています。 F1=0.85)は、イタリアの主要政党の間で党派的な分裂が見られ、1500万件近いインプレッションを反移民広告が占めている。 移行関連広告の47.6%を占めるが、反移民広告のインプレッションは65.2%である。 我々は、捕獲されたキャンペーンの約3分の2が、場所、性別、年齢をターゲットとした何らかの人口統計を用いていると見積もっている。 例えば、主要政党からの反移民広告は、女性よりも男性ユーザーの方が17%多い。 移民反対派とは異なり、移民反対派は有権者と同様の人口層に達する。 しかし、参加者はトピックによって変化する: 反移民団体からの広告は、もしそうでなくても、男性ユーザーが移行について話すと24%の確率で表示される。 さらに、こうしたキャンペーンの視聴者は、移民に関する主流のニュースのボリュームに従う傾向にあり、政治広告主が現在のニュースの「波を乗り越える」という理論を支持している。 Facebook Ads Libraryは広告主の意図とアルゴリズムによるターゲティングを区別できないので、社会・政治キャンペーンのターゲティング設定に関するプラットフォームによってさらに詳細が共有されるべきである、と我々は主張する。

Monitoring advertising around controversial issues is an important step in ensuring accountability and transparency of political processes. To that end, we use the Facebook Ads Library to collect 2312 migration-related advertising campaigns in Italy over one year. Our pro- and anti-immigration classifier (F1=0.85) reveals a partisan divide among the major Italian political parties, with anti-immigration ads accounting for nearly 15M impressions. Although composing 47.6% of all migration-related ads, anti-immigration ones receive 65.2% of impressions. We estimate that about two thirds of all captured campaigns use some kind of demographic targeting by location, gender, or age. We find sharp divides by age and gender: for instance, anti-immigration ads from major parties are 17% more likely to be seen by a male user than a female. Unlike pro-migration parties, we find that anti-immigration ones reach a similar demographic to their own voters. However their audience change with topic: an ad from anti-immigration parties is 24% more likely to be seen by a male user when the ad speaks about migration, than if it does not. Furthermore, the viewership of such campaigns tends to follow the volume of mainstream news around immigration, supporting the theory that political advertisers try to "ride the wave" of current news. We conclude with policy implications for political communication: since the Facebook Ads Library does not allow to distinguish between advertisers intentions and algorithmic targeting, we argue that more details should be shared by platforms regarding the targeting configuration of socio-political campaigns.
翻訳日:2023-04-07 23:22:44 公開日:2021-03-16
# ランダムハミルトニアンにおけるOTOC濃度とリーブ・ロビンソン速度

Concentration of OTOC and Lieb-Robinson velocity in random Hamiltonians ( http://arxiv.org/abs/2103.09186v1 )

ライセンス: Link先を確認
Chi-Fang Chen(参考訳) 異なる空間と時間における演算子間の交換器は、ユニタリ進化の局所性の診断である。 既存の結果の多くは、特定の(ランダムな)ハミルトニアン (out-of-time-order-correlators) や、より悪い場合のハミルトニアン (lieb-robinson-like boundsまたはotoc bounds) のどちらかである。 本研究では,一般的なハミルトニアンの通勤者について検討する。 ゼロ平均有界なランダムハミルトンアンサンブル、時間独立あるいはブラウン的アンサンブルからサンプルを描画し、スペクトルノルムにおける濃度境界と任意の非ランダム状態のOTOCに対して定式化する。 我々の境界は、相互作用の総和で高い確率とスケールで成り立つ。 我々のブラウン境界はブラウン極限と両立するが、決定論的作用素成長境界は分岐しなければならない。 短距離1dパワーロー相互作用とSYKライクなk-ローカル系に関するこの一般的な枠組みを評価し,既存の下界と予想に一致させる。 我々の主な確率論は、一様滑らか性と呼ばれるロバストな行列マーティンゲール手法を用いており、他の設定でも適用できる。

The commutator between operators at different space and time has been a diagnostic for locality of unitary evolution. Most existing results are either for specific tractable (random) Hamiltonians(Out-of-Time-Order-Correlators calculations), or for worse case Hamiltonians (Lieb-Robinson-like bounds or OTOC bounds). In this work, we study commutators in typical Hamiltonians. Draw a sample from any zero-mean bounded independent random Hamiltonian ensemble, time-independent or Brownian, we formulate concentration bounds in the spectral norm and for the OTOC with arbitrary non-random state. Our bounds hold with high probability and scale with the sum of interactions squared. Our Brownian bounds are compatible with the Brownian limit while deterministic operator growth bounds must diverge. We evaluate this general framework on short-ranged, 1d power-law interacting, and SYK-like k-local systems and the results match existing lower bounds and conjectures. Our main probabilistic argument employs a robust matrix martingale technique called uniform smoothness and may be applicable in other settings.
翻訳日:2023-04-07 23:21:32 公開日:2021-03-16
# 量子ソフトウェアのテストとデバッグについて

On Testing and Debugging Quantum Software ( http://arxiv.org/abs/2103.09172v1 )

ライセンス: Link先を確認
Andriy Miranskyy and Lei Zhang and Javad Doliskani(参考訳) 量子コンピュータが主流になりつつある。 より多くのプログラマが量子プログラムの記述に注目し始めているため、コードをテストしてデバッグする必要がある。 本稿では,量子コンピュータの様々な用途について,単独でもシステムの一部としても議論する。 これらのユースケースに基づいて、量子ソフトウェアの品質を確保するために使用できるいくつかのテストおよびデバッグ戦術について論じる。 また、量子コンピュータ固有の問題を強調し、これらの問題に対処するために必要な新しいテクニックをリストアップする。 実践者は量子プログラムを書くプロセスにこれらの戦術を適用でき、研究者は将来の仕事の機会を学ぶことができる。

Quantum computers are becoming more mainstream. As more programmers are starting to look at writing quantum programs, they need to test and debug their code. In this paper, we discuss various use-cases for quantum computers, either standalone or as part of a System of Systems. Based on these use-cases, we discuss some testing and debugging tactics that one can leverage to ensure the quality of the quantum software. We also highlight quantum-computer-specific issues and list novel techniques that are needed to address these issues. The practitioners can readily apply some of these tactics to their process of writing quantum programs, while researchers can learn about opportunities for future work.
翻訳日:2023-04-07 23:21:10 公開日:2021-03-16
# スカラー場からのコヒーレンスの収穫と触媒作用

Assisted harvesting and catalysis of coherence from scalar fields ( http://arxiv.org/abs/2103.09165v1 )

ライセンス: Link先を確認
Nikolaos K. Kollas and Dimitris Moustos(参考訳) 近年,コヒーレントスカラー場からの絡み合い以外の量子資源の採取が可能であることが実証されている。 時間依存摂動理論を用いて,フィールドの適切な時間微分に結合した空間的に拡張されたunruh-dewitt検出器が,フィールドの初期状態に対してコヒーレンスを収穫できる条件と,各収穫に必要なエネルギーコストの完全な解析を行う。 反復抽出による収穫の研究により、検出器がデルタカップリングコヒーレンスを介して磁場と相互作用すると、触媒であることが証明される。 ガウススミア検出器では、コヒーレント場からの収穫はその振幅分布とその初期エネルギーの位相と検出器の平均半径と2つの間の平均相互作用時間に依存することが示されている。 一定の速度で移動し、遷移波長と同じ平均半径の検出器に対して、相対論的速度では、コヒーレンス膨らみ効果はミンコフスキー時空の次元に依存する強度を示す。

Recently it has been demonstrated that it is possible to harvest quantum resources other than entanglement from a coherent scalar field. Employing time-dependent perturbation theory, we present a complete analysis of the conditions under which a spatially extended Unruh-DeWitt detector coupled to the proper time derivative of the field can harvest coherence for any initial state of the field, as well as the energy cost that is required for each harvest. By studying harvesting under repeatable extractions it is proven that when the detector interacts with the field through a delta coupling coherence is catalytic. For a Gaussian smeared detector it is shown that harvesting from a coherent field depends on the phase of its amplitude distribution and its initial energy as well as on the mean radius of the detector and the mean interaction duration between the two. For a detector moving at a constant velocity and with a mean radius of the same order as its transition wavelength, we observe that, for relativistic speeds, coherence swelling effects are present the intensity of which depends on the dimension of the underlying Minkowski spacetime.
翻訳日:2023-04-07 23:21:01 公開日:2021-03-16
# 近接磁場および電界走査画像からの閉放射線および開放射線の機械学習による分類

Machine-Learning Classification of Closed and Open Radiating Wires from Near Magnetic or Electric Field Scan Images ( http://arxiv.org/abs/2104.09277v1 )

ライセンス: Link先を確認
Amir Geranmayeh(参考訳) 近接場スキャンデータにインテリジェント分類器のセットを適用し、放射配線の形状を自動的に分類する。 種々の放射線配置の近接場放射パターンを用いて,支持ベクトルマシン,k-アネレス近傍アルゴリズム,ガウス過程分類を訓練する。 leave-one-outクロスバリデーションは、予測モデルのパフォーマンスを推定するために使用される。 本研究の成果は, 放射状結合源の磁気タイプ, 電気タイプの識別を自動化するため, 計測された近接場データバンクに基づいて再トレーニングするのに適したソフトウェアパッケージである。

Sets of intelligent classifiers are applied to the near-field scan-data in order to automatically classify the shape of radiating wirings. The support vector machine, k-nearest neighbors algorithm, and Gaussian process classifications are trained using the near-field radiation pattern of diverse radiating wire configurations. Leave-one-out cross-validation is used for estimating the performance of the predictive models. The output of this research is a software package well-suited to be retrained based on any measured near-field databank to automate the identification of magnetic-type or electric-type of the radiating coupling sources.
翻訳日:2023-04-07 23:14:40 公開日:2021-03-16
# 小児外科領域における社会経済・環境条件の関連分析へのデータサイエンス的アプローチ

A Data Science Approach to Analyze the Association of Socioeconomic and Environmental Conditions With Disparities in Pediatric Surgery ( http://arxiv.org/abs/2104.04058v1 )

ライセンス: Link先を確認
Oguz Akbilgic, Eun Kyong Shin, Arash Shaban-Nejad(参考訳) 科学的証拠は、手術の結果を含む医療に重大な人種的格差が存在することを証明している。 しかし,小児の術前の体調の差異はよく理解されていない。 本研究は, 小児の身体状態における人種格差における社会経済・環境要因の役割を明らかにすることを目的として, 患者および人口レベルで複数のデータソースを多次元的に統合することを目的とする。 データ統合プロセスの後、近所の品質指標に関する教師なしk平均アルゴリズムが開発され、メンフィス、TNから、29のジップ符号を良質で良質な地区に分割した。 アフリカ系アメリカ人と白人の小児の無調整比較では、白人に比べて術前状態の悪さが有意に高いことが示された。 手術の重症度と近所の質で調整した場合, 手術成績に有意な差は認められなかった。 社会環境因子は小児の術前臨床状況と手術成績に影響を及ぼす。

Scientific evidence confirm that significant racial disparities exist in healthcare, including surgery outcomes. However, the causal pathway underlying disparities at preoperative physical condition of children is not well-understood. This research aims to uncover the role of socioeconomic and environmental factors in racial disparities at the preoperative physical condition of children through multidimensional integration of several data sources at the patient and population level. After the data integration process an unsupervised k-means algorithm on neighborhood quality metrics was developed to split 29 zip-codes from Memphis, TN into good and poor-quality neighborhoods. An unadjusted comparison of African Americans and white children showed that the prevalence of poor preoperative condition is significantly higher among African Americans compared to whites. No statistically significant difference in surgery outcome was present when adjusted by surgical severity and neighborhood quality. The socioenvironmental factors affect the preoperative clinical condition of children and their surgical outcomes.
翻訳日:2023-04-07 23:14:23 公開日:2021-03-16
# RAWLSNET:Rawlsian Fair Equality of Opportunityを符号化するベイズ的ネットワーク

RAWLSNET: Altering Bayesian Networks to Encode Rawlsian Fair Equality of Opportunity ( http://arxiv.org/abs/2104.03909v1 )

ライセンス: Link先を確認
David Liu, Zohair Shafi, William Fleisher, Tina Eliassi-Rad, Scott Alfeld(参考訳) 提案するRAWLSNETは,機会均等性(FEO)のRawlsian原則を満たすためにベイズネットワーク(BN)モデルを変更するシステムである。 RAWLSNETのBNモデルは、理想的に公正なFEOに満足する社会を反映して生成されたデータという、願望的なデータ分散を生成する。 FEOは、同じ才能とそれを使用する意志を持つすべての人は、社会的地位(例えば、雇用)を、その背景にある状況(例えば、社会経済的な地位)に関わらず、同じ機会を得るべきであると述べている。 FEOを満足させるためには、学校の課題のような社会構造の変更が必要である。 本稿では, FEO アプリケーションの BN 表現を入力として RAWLSNET を記述し, 可能な限り FEO を満たすために BN のパラメータを変更し, FEO からの偏差を最小限に抑える手法について述べる。 FEOの適切な応用を認識することを含むRAWLSNETの適用に関するガイダンスも提供する。 我々は,公開データセットを用いたシステムの利用を実証する。 RAWLSNETが変更したBNは、FEO関連タスクの仮定データを生成する新しい機能を提供する。 願望データは実世界のデータのバイアスから自由であり、偏りのあるデータ以外に機械学習アルゴリズムにおける不公平な原因の認識と検出に有用である。

We present RAWLSNET, a system for altering Bayesian Network (BN) models to satisfy the Rawlsian principle of fair equality of opportunity (FEO). RAWLSNET's BN models generate aspirational data distributions: data generated to reflect an ideally fair, FEO-satisfying society. FEO states that everyone with the same talent and willingness to use it should have the same chance of achieving advantageous social positions (e.g., employment), regardless of their background circumstances (e.g., socioeconomic status). Satisfying FEO requires alterations to social structures such as school assignments. Our paper describes RAWLSNET, a method which takes as input a BN representation of an FEO application and alters the BN's parameters so as to satisfy FEO when possible, and minimize deviation from FEO otherwise. We also offer guidance for applying RAWLSNET, including on recognizing proper applications of FEO. We demonstrate the use of our system with publicly available data sets. RAWLSNET's altered BNs offer the novel capability of generating aspirational data for FEO-relevant tasks. Aspirational data are free from the biases of real-world data, and thus are useful for recognizing and detecting sources of unfairness in machine learning algorithms besides biased data.
翻訳日:2023-04-07 23:14:08 公開日:2021-03-16
# グローバー探索による量子集中の高速化

Faster Quantum Concentration via Grover's Search ( http://arxiv.org/abs/2103.09818v1 )

ライセンス: Link先を確認
Cem M. Unsal and A. Yavuz Oruc(参考訳) 本稿では,フル容量脂肪・スリム濃縮器,境界脂肪・スリム濃縮器,正規脂肪・スリム濃縮器の濃度割り当てをルーティングする量子アルゴリズムを提案する。 古典的には、濃度割当は、すべての集中子に$O(n)$時間を要するが、ここでは$n$は入力の数である。 グローバーの量子探索アルゴリズムにより、我々のアルゴリズムはo(\sqrt{nc}\ln{c})$時間を取る。 したがって、量子アルゴリズムは古典的アルゴリズムよりも漸近的に高速であり、$c\ln^2{c}=o(n)$である。 一般に、$c = n^\mu,$ satisfies $c\ln^2{c}=o(n),$ は任意の$\mu, 0 < \mu < 1.$ に対して$o(n^{0.5(1+ \mu )} \ln n)の時間の複雑さを意味する。

We present quantum algorithms for routing concentration assignments on full capacity fat-and-slim concentrators, bounded fat-and-slim concentrators, and regular fat-and-slim concentrators. Classically, the concentration assignment takes $O(n)$ time on all these concentrators, where $n$ is the number of inputs. Powered by Grover's quantum search algorithm, our algorithms take $O(\sqrt{nc}\ln{c})$ time, where $c$ is the capacity of the concentrator. Thus, our quantum algorithms are asymptotically faster than their classical counterparts, when $c\ln^2{c}=o(n)$.In general, $c = n^\mu,$ satisfies $c\ln^2{c}=o(n),$ implying a time complexity of $O(n^{0.5(1+ \mu )} \ln n),$ for any $\mu, 0 < \mu < 1.$
翻訳日:2023-04-07 23:13:46 公開日:2021-03-16
# 量子コンピューティングの哲学

The Philosophy of Quantum Computing ( http://arxiv.org/abs/2103.09334v1 )

ライセンス: Link先を確認
Michael E. Cuffaro(参考訳) 哲学者の視点から見ると、量子計算への関心は、物理学(特に量子力学)と計算機科学という2つの異なる科学からの基本概念を結合する方法に起因している。 量子コンピューティングは、これらの伝統的な調査領域を、完全に新しい(独立した)科学に組み合わせている。 この合併によって生じる哲学的疑問と、学ぶべき哲学的教訓がある。 この章では、私が最も重要視しているものについて論じます。

From the philosopher's perspective, the interest in quantum computation stems primarily from the way that it combines fundamental concepts from two distinct sciences: physics (especially quantum mechanics) and computer science, each long a subject of philosophical speculation and analysis in its own right. Quantum computing combines both of these more traditional areas of inquiry into one wholly new (if not quite independent) science. There are philosophical questions that arise from this merger, and philosophical lessons to be learned. Over the course of this chapter we discuss what I take to be some of the most important.
翻訳日:2023-04-07 23:12:43 公開日:2021-03-16
# ガウス量子過程の二次指数関数

Quadratic-exponential functionals of Gaussian quantum processes ( http://arxiv.org/abs/2103.09279v1 )

ライセンス: Link先を確認
Igor G. Vladimirov, Ian R. Petersen, Matthew R. James(参考訳) 本稿では, 量子過程の積分四重項関数の指数的モーメント型の正準可換関係について述べる。 そのような二次指数関数(QEF)は、ボゾン場によって駆動されるオープン量子調和振動子(OQHO)の制御問題における堅牢な性能基準として生じる。 量子過程のKarhunen-Loeve展開を、2点の可換核の固有基底上の有界時間間隔で、非可換な位置-運動対を係数としてQEFのランダム化表現を開発する。 この表現は特定の量子状態に関係なく成り立ち、共分散作用素が可換核によって指定される補助古典ガウス乱数過程を平均化する。 これにより、QEFは量子過程のモーメント生成関数と関連付けられ、多点ガウス状態に対して計算される。 定常ガウス量子過程に対しては、三角関数の合成における量子共分散核のフーリエ変換の観点からQEFレートの周波数領域式を確立する。 近似と数値計算のリスク感度パラメータに関して,QEFレートに対して微分方程式を求める。 QEFは、量子相対エントロピー記述による統計的不確実性の存在下で、OQHOに対する大きな偏差と最悪の平均平方コスト境界にも適用される。

This paper is concerned with exponential moments of integral-of-quadratic functions of quantum processes with canonical commutation relations of position-momentum type. Such quadratic-exponential functionals (QEFs) arise as robust performance criteria in control problems for open quantum harmonic oscillators (OQHOs) driven by bosonic fields. We develop a randomised representation for the QEF using a Karhunen-Loeve expansion of the quantum process on a bounded time interval over the eigenbasis of its two-point commutator kernel, with noncommuting position-momentum pairs as coefficients. This representation holds regardless of a particular quantum state and employs averaging over an auxiliary classical Gaussian random process whose covariance operator is specified by the commutator kernel. This allows the QEF to be related to the moment-generating functional of the quantum process and computed for multipoint Gaussian states. For stationary Gaussian quantum processes, we establish a frequency-domain formula for the QEF rate in terms of the Fourier transform of the quantum covariance kernel in composition with trigonometric functions. A differential equation is obtained for the QEF rate with respect to the risk sensitivity parameter for its approximation and numerical computation. The QEF is also applied to large deviations and worst-case mean square cost bounds for OQHOs in the presence of statistical uncertainty with a quantum relative entropy description.
翻訳日:2023-04-07 23:12:02 公開日:2021-03-16
# 経路クエリを用いた隠れ方向グラフの学習について

On Learning a Hidden Directed Graph with Path Queries ( http://arxiv.org/abs/2002.11541v2 )

ライセンス: Link先を確認
Mano Vikash Janardhanan, Lev Reyzin(参考訳) 本稿では,経路クエリを用いて有向グラフを再構成する問題を考える。 この学習のクエリモデルでは、グラフは学習者から隠れており、学習者はパスクエリでそれに関する情報にアクセスすることができる。 ソースと宛先ノードに対して、パスクエリは、隠れたグラフにソースから宛先ノードへの指示されたパスがあるかどうかを返します。 本稿ではまず,n$頂点とk$強連結成分のグラフを学習するための境界を与える。 次に、有界次数有向木の場合を研究し、"ほぼ木"を学ぶための新しいアルゴリズムを与えます。 また、我々のアプローチを正当化するいくつかの低い境界構造を与えます。

In this paper, we consider the problem of reconstructing a directed graph using path queries. In this query model of learning, a graph is hidden from the learner, and the learner can access information about it with path queries. For a source and destination node, a path query returns whether there is a directed path from the source to the destination node in the hidden graph. In this paper we first give bounds for learning graphs on $n$ vertices and $k$ strongly connected components. We then study the case of bounded degree directed trees and give new algorithms for learning "almost-trees" -- directed trees to which extra edges have been added. We also give some lower bound constructions justifying our approach.
翻訳日:2022-12-28 15:44:20 公開日:2021-03-16
# 因子グラフ上のニューラルエンハンスメントな信念伝播

Neural Enhanced Belief Propagation on Factor Graphs ( http://arxiv.org/abs/2003.01998v5 )

ライセンス: Link先を確認
Victor Garcia Satorras, Max Welling(参考訳) グラフィカルモデルは局所依存確率変数の構造的表現である。 これらの確率変数を推論する伝統的な方法は、信念の伝播を用いて推論を行うことである。 真のデータ生成プロセスが提供されると、信条伝搬は木構造因子グラフの最適後確率推定を推測することができる。 しかし、多くの場合、データ生成プロセスの貧弱な近似にしかアクセスできないか、あるいは係数グラフのループに直面して、最適以下の推定に繋がる可能性がある。 本研究では、まずグラフニューラルネットワークを因子グラフ(FG-GNN)に拡張する。 そこで我々は,FG-GNNを連立して動作させるハイブリッドモデルを提案する。 FG-GNNは、推論イテレーション毎に信条伝搬から入力メッセージを受信し、それらの修正バージョンを出力する。 その結果,信念伝達とグラフニューラルネットワークの両方の利点を組み合わせた,より正確なアルゴリズムが得られた。 提案手法を誤り訂正復号タスクに適用し,バーストチャネル上のldpc符号の信念伝達をアルゴリズムが上回ることを示す。

A graphical model is a structured representation of locally dependent random variables. A traditional method to reason over these random variables is to perform inference using belief propagation. When provided with the true data generating process, belief propagation can infer the optimal posterior probability estimates in tree structured factor graphs. However, in many cases we may only have access to a poor approximation of the data generating process, or we may face loops in the factor graph, leading to suboptimal estimates. In this work we first extend graph neural networks to factor graphs (FG-GNN). We then propose a new hybrid model that runs conjointly a FG-GNN with belief propagation. The FG-GNN receives as input messages from belief propagation at every inference iteration and outputs a corrected version of them. As a result, we obtain a more accurate algorithm that combines the benefits of both belief propagation and graph neural networks. We apply our ideas to error correction decoding tasks, and we show that our algorithm can outperform belief propagation for LDPC codes on bursty channels.
翻訳日:2022-12-26 12:24:13 公開日:2021-03-16
# 自動計画による強化学習におけるロボット探索の指導

Guiding Robot Exploration in Reinforcement Learning via Automated Planning ( http://arxiv.org/abs/2004.11456v2 )

ライセンス: Link先を確認
Yohei Hayamizu, Saeid Amiri, Kishan Chandan, Keiki Takadama, Shiqi Zhang(参考訳) 強化学習(Reinforcement Learning, RL)は、エージェントが長期目標を達成するための試行錯誤経験から学ぶことを可能にする。 複雑なタスクを完了させるという共通の目標にもかかわらず、RLと自動計画の開発は、計算量が異なるため、大きく分離されている。 RLエージェントの学習効率の向上に焦点をあてて,RLエージェントが行動知識で推論できるようにガイドダイナQ(GDQ)を開発した。 行動知識は楽観的なシミュレーションから人工体験を生成するために使用される。 gdqは、マルチルームオフィス環境でナビゲーションタスクを行う移動ロボットを用いて、シミュレーションで評価されている。 競争基準と比較すると、GDQは学習ポリシーの質を改善しながら探索の労力を大幅に削減する。

Reinforcement learning (RL) enables an agent to learn from trial-and-error experiences toward achieving long-term goals; automated planning aims to compute plans for accomplishing tasks using action knowledge. Despite their shared goal of completing complex tasks, the development of RL and automated planning has been largely isolated due to their different computational modalities. Focusing on improving RL agents' learning efficiency, we develop Guided Dyna-Q (GDQ) to enable RL agents to reason with action knowledge to avoid exploring less-relevant states. The action knowledge is used for generating artificial experiences from an optimistic simulation. GDQ has been evaluated in simulation and using a mobile robot conducting navigation tasks in a multi-room office environment. Compared with competitive baselines, GDQ significantly reduces the effort in exploration while improving the quality of learned policies.
翻訳日:2022-12-10 12:38:49 公開日:2021-03-16
# 高速かつメモリ効率のよいニューラルコード補完

Fast and Memory-Efficient Neural Code Completion ( http://arxiv.org/abs/2004.13651v4 )

ライセンス: Link先を確認
Alexey Svyatkovskiy, Sebastian Lee, Anna Hadjitofi, Maik Riechert, Juliana Franco, Miltiadis Allamanis(参考訳) コード補完は、現代の統合開発環境(IDE)で最も広く使われている機能の1つである。 ディープラーニングはソースコードの統計的予測に大きな進歩を遂げているが、最先端のニューラルネットワークモデルは数百メガバイトのメモリを消費し、開発環境を肥大化させている。 まず、コード補完のためのモジュール型ニューラルフレームワークを示します。 これにより、デザインスペースを探索し、異なるテクニックを評価することができます。 第2に、このフレームワークでは、静的解析と粒度のトークンエンコーディングを組み合わせた、新しい階層的ニューラルネットワーク補完モデルを設計します。 最高のニューラルリグレードモデルはRAMを6MB(以前のモデルより19倍少ない)しか消費せず、8ミリ秒で1回の完了を計算し、上位5つの提案で90%の精度を達成する。

Code completion is one of the most widely used features of modern integrated development environments (IDEs). While deep learning has made significant progress in the statistical prediction of source code, state-of-the-art neural network models consume hundreds of megabytes of memory, bloating the development environment. We address this in two steps: first we present a modular neural framework for code completion. This allows us to explore the design space and evaluate different techniques. Second, within this framework we design a novel reranking neural completion model that combines static analysis with granular token encodings. The best neural reranking model consumes just 6 MB of RAM, - 19x less than previous models - computes a single completion in 8 ms, and achieves 90% accuracy in its top five suggestions.
翻訳日:2022-12-08 23:43:46 公開日:2021-03-16
# 階層パラメータ推定のための経験ベイズとカーネルフローの一貫性

Consistency of Empirical Bayes And Kernel Flow For Hierarchical Parameter Estimation ( http://arxiv.org/abs/2005.11375v2 )

ライセンス: Link先を確認
Yifan Chen, Houman Owhadi, Andrew M. Stuart(参考訳) ガウス過程の回帰は統計学、機械学習、逆問題において非常に強力であることが証明されている。 この手法の成功の重要な側面は、複雑で実世界の問題に対する幅広い応用において、ハイパーパラメータの階層的モデリングと学習である。 本研究の目的は,階層的パラメータを学習する2つのパラダイムを検討することである。1つは確率的ベイズ的観点,特にベイズ統計学で広く用いられている経験的ベイズアプローチ,もう1つは決定論的および近似的理論的視点,および特に最近機械学習文献で提唱されたカーネルフローアルゴリズムである。 本論文では,大規模データ限界におけるそれらの一貫性の解析とパラメータ学習における暗黙バイアスの明示的同定を,トーラス上のMat\'ern-likeモデルとして確立する。 我々が克服した特別な技術的課題は、空間統計学の文献において一貫性の結果が極めて少ないmat\'ern様の分野における正規性パラメータの学習である。 さらに,Mat\'ern-likeモデルを超える広範な数値実験を行い,さらに2つのアルゴリズムを比較した。 これらの実験は振幅や長さスケールなどの他の階層的パラメータの学習を実証しており、カーネルフローアプローチが従来の経験的ベイズ手法よりも優れた性能を示すモデルミススペクテーションの設定も示している。

Gaussian process regression has proven very powerful in statistics, machine learning and inverse problems. A crucial aspect of the success of this methodology, in a wide range of applications to complex and real-world problems, is hierarchical modeling and learning of hyperparameters. The purpose of this paper is to study two paradigms of learning hierarchical parameters: one is from the probabilistic Bayesian perspective, in particular, the empirical Bayes approach that has been largely used in Bayesian statistics; the other is from the deterministic and approximation theoretic view, and in particular the kernel flow algorithm that was proposed recently in the machine learning literature. Analysis of their consistency in the large data limit, as well as explicit identification of their implicit bias in parameter learning, are established in this paper for a Mat\'ern-like model on the torus. A particular technical challenge we overcome is the learning of the regularity parameter in the Mat\'ern-like field, for which consistency results have been very scarce in the spatial statistics literature. Moreover, we conduct extensive numerical experiments beyond the Mat\'ern-like model, comparing the two algorithms further. These experiments demonstrate learning of other hierarchical parameters, such as amplitude and lengthscale; they also illustrate the setting of model misspecification in which the kernel flow approach could show superior performance to the more traditional empirical Bayes approach.
翻訳日:2022-11-30 09:52:16 公開日:2021-03-16
# 拡散モデル学習の限界

The Limits to Learning a Diffusion Model ( http://arxiv.org/abs/2006.06373v2 )

ライセンス: Link先を確認
Jackie Baek, Vivek F. Farias, Andreea Georgescu, Retsef Levi, Tianyi Peng, Deeksha Sinha, Joshua Wilde, Andrew Zheng(参考訳) 本稿では,Bassモデル(モデル消費者採用に使用される)やSIRモデル(モデリング流行に使用される)を含む,単純な拡散モデルの推定のための,最初のサンプル複雑性の低いバウンダリを提供する。 拡散のかなり遅くまでそのようなモデルを学ぶことを期待できないことを示す。 具体的には、サンプルの複雑さよりも低い境界を超える多くの観測を収集するのに要する時間が大きいことを示す。 イノベーション率の低いBassモデルの場合、私たちの結果は、新規採用者の割合がピークに達するまでの道の少なくとも3分の2まで、最終的に採用顧客数を予測することはできないことを示唆しています。 同様の結果から,sirモデルの場合,感染率がピークに達した時点までの3分の2程度になるまで,感染の最終的な数を予測することは不可能であることが示唆された。 これらの制限は、製品採用データ(Amazon)と疫病データ(COVID-19)の両方で発生している。

This paper provides the first sample complexity lower bounds for the estimation of simple diffusion models, including the Bass model (used in modeling consumer adoption) and the SIR model (used in modeling epidemics). We show that one cannot hope to learn such models until quite late in the diffusion. Specifically, we show that the time required to collect a number of observations that exceeds our sample complexity lower bounds is large. For Bass models with low innovation rates, our results imply that one cannot hope to predict the eventual number of adopting customers until one is at least two-thirds of the way to the time at which the rate of new adopters is at its peak. In a similar vein, our results imply that in the case of an SIR model, one cannot hope to predict the eventual number of infections until one is approximately two-thirds of the way to the time at which the infection rate has peaked. These limits are borne out in both product adoption data (Amazon), as well as epidemic data (COVID-19).
翻訳日:2022-11-22 14:35:22 公開日:2021-03-16
# DrNAS: ディリクレニューラルネットワーク検索

DrNAS: Dirichlet Neural Architecture Search ( http://arxiv.org/abs/2006.10355v4 )

ライセンス: Link先を確認
Xiangning Chen, Ruochen Wang, Minhao Cheng, Xiaocheng Tang, Cho-Jui Hsieh(参考訳) 本稿では,分散学習問題に定式化することで,新たなアーキテクチャ探索手法を提案する。 ディリクレ分布をモデルとした連続緩和型混合重みをランダム変数として扱う。 最近開発された経路微分法により、ディリクレパラメータは勾配に基づく最適化器をエンドツーエンドで容易に最適化できる。 この定式化は一般化能力を向上し、探索空間での探索を自然に促進する確率性を誘導する。 さらに、微分可能なNASの大きなメモリ消費を軽減するため、大規模タスクを直接検索し、探索と評価フェーズ間のギャップを解消する、シンプルで効果的なプログレッシブ学習方式を提案する。 広範な実験により本手法の有効性が実証された。 具体的には、CIFAR-10では2.46%、モバイル環境では23.7%のテストエラーを得る。 nas-bench-201では、3つのデータセットすべてで最先端の結果を達成し、ニューラルネットワーク探索アルゴリズムの効果的な設計のための洞察を提供する。

This paper proposes a novel differentiable architecture search method by formulating it into a distribution learning problem. We treat the continuously relaxed architecture mixing weight as random variables, modeled by Dirichlet distribution. With recently developed pathwise derivatives, the Dirichlet parameters can be easily optimized with gradient-based optimizer in an end-to-end manner. This formulation improves the generalization ability and induces stochasticity that naturally encourages exploration in the search space. Furthermore, to alleviate the large memory consumption of differentiable NAS, we propose a simple yet effective progressive learning scheme that enables searching directly on large-scale tasks, eliminating the gap between search and evaluation phases. Extensive experiments demonstrate the effectiveness of our method. Specifically, we obtain a test error of 2.46% for CIFAR-10, 23.7% for ImageNet under the mobile setting. On NAS-Bench-201, we also achieve state-of-the-art results on all three datasets and provide insights for the effective design of neural architecture search algorithms.
翻訳日:2022-11-19 09:51:33 公開日:2021-03-16
# TinyRadarNN:短距離レーダを用いた埋め込みジェスチャー認識のための空間的・時間的畳み込みニューラルネットワークの組み合わせ

TinyRadarNN: Combining Spatial and Temporal Convolutional Neural Networks for Embedded Gesture Recognition with Short Range Radars ( http://arxiv.org/abs/2006.16281v3 )

ライセンス: Link先を確認
Moritz Scherer, Michele Magno, Jonas Erb, Philipp Mayer, Manuel Eggimann, Luca Benini(参考訳) 本研究は,低消費電力短距離RADARセンサを用いた電池駆動ウェアラブルデバイスを対象とした,低消費電力な組込み手位置認識アルゴリズムを提案する。 範囲周波数ドップラー特徴を用いた2次元畳み込みニューラルネットワーク(CNN)と時間列予測のための時間畳み込みニューラルネットワーク(TCN)を組み合わせる。 最終アルゴリズムのモデルサイズはわずか46万パラメータで、メモリフットプリントはわずか92kbである。 26人の異なる人物による11の挑戦的な手のジェスチャーを含む2つのデータセットが、合計20,210のジェスチャーインスタンスを含む記録されている。 11のジェスチャーデータセットでは、86.6%(26人)と92.4%(1人)のアキュラシーが達成され、最先端のユーザに比べて7500倍小さいTCNベースのネットワークを使用して87%(10人)と94%(1人)を達成した。 さらに、このジェスチャー認識分類器を並列超低消費電力プロセッサに実装し、フルTNシーケンス予測ネットワークにおいて、リアルタイム予測が21mWの消費電力で実現可能であるとともに、システムレベルの消費電力が100mW未満であることを示す。 当社は、tinyradar.ethz.chのこの作業で収集および使用されたすべてのコードとデータに対するオープンソースアクセスを提供します。

This work proposes a low-power high-accuracy embedded hand-gesture recognition algorithm targeting battery-operated wearable devices using low power short-range RADAR sensors. A 2D Convolutional Neural Network (CNN) using range frequency Doppler features is combined with a Temporal Convolutional Neural Network (TCN) for time sequence prediction. The final algorithm has a model size of only 46 thousand parameters, yielding a memory footprint of only 92 KB. Two datasets containing 11 challenging hand gestures performed by 26 different people have been recorded containing a total of 20,210 gesture instances. On the 11 hand gesture dataset, accuracies of 86.6% (26 users) and 92.4% (single user) have been achieved, which are comparable to the state-of-the-art, which achieves 87% (10 users) and 94% (single user), while using a TCN-based network that is 7500x smaller than the state-of-the-art. Furthermore, the gesture recognition classifier has been implemented on a Parallel Ultra-Low Power Processor, demonstrating that real-time prediction is feasible with only 21 mW of power consumption for the full TCN sequence prediction network, while a system-level power consumption of less than 100 mW is achieved. We provide open-source access to all the code and data collected and used in this work on tinyradar.ethz.ch.
翻訳日:2022-11-17 04:41:14 公開日:2021-03-16
# 電気航空機のユニバーサルバッテリ性能と劣化モデル

Universal Battery Performance and Degradation Model for Electric Aircraft ( http://arxiv.org/abs/2008.01527v2 )

ライセンス: Link先を確認
Alexander Bills and Shashank Sripad and William L. Fredericks and Matthew Guttenberg and Devin Charles and Evan Frank and Venkatasubramanian Viswanathan(参考訳) アーバン・エア・モビリティ(uam)の概念は、主に垂直離着陸機(evtols)、垂直離着陸可能な小型航空機に焦点が当てられ、充電可能な(主にリチウムイオン電池)電池で駆動されている。 eVTOLの設計、分析、運用には、バッテリー寿命を通してLiイオン電池の性能を高速かつ正確に予測する必要がある。 eVTOLバッテリ性能モデリングは、高出力離陸と着陸部の正確なシミュレーションを確実にするために、特に高放電速度で正確でなければならない。 本研究では,eVTOLのデューティサイクルに特有の電池性能と熱的挙動のデータセットを生成する。 このデータセットを用いて, 電気化学モデルと固体電解質間相成長, リチウムめっき, 電荷損失を含む劣化モデルを組み合わせた, 物理インフォームド・機械学習(U-ODE)を用いた電池性能・劣化モデル(Cellfit)を開発した。 U-ODEによるセルフィットは, 機械的電池劣化モデルよりも電池劣化を予測できることを示す。 劣化モデルの精度が向上し,性能モデルの精度が向上することを示す。 われわれはCellfitがeVTOLデザイナーにとって価値のあるツールであることが証明されると考えている。

Development of Urban Air Mobility (UAM) concepts has been primarily focused on electric vertical takeoff and landing aircraft (eVTOLs), small aircraft which can land and takeoff vertically, and which are powered by rechargeable (typically lithium-ion) batteries. Design, analysis, and operation of eVTOLs requires fast and accurate prediction of Li-ion battery performance throughout the lifetime of the battery. eVTOL battery performance modeling must be particularly accurate at high discharge rates to ensure accurate simulation of the high power takeoff and landing portions of the flight. In this work, we generate a battery performance and thermal behavior dataset specific to eVTOL duty cycles. We use this dataset to develop a battery performance and degradation model (Cellfit) which employs physics-informed machine learning in the form of Universal Ordinary Differential Equations (U-ODE's) combined with an electrochemical cell model and degradation models which include solid electrolyte interphase (SEI) growth, lithium plating, and charge loss. We show that Cellfit with U-ODE's is better able to predict battery degradation than a mechanistic battery degradation model. We show that the improved accuracy of the degradation model improves the accuracy of the performance model. We believe that Cellfit will prove to be a valuable tool for eVTOL designers.
翻訳日:2022-11-13 03:21:18 公開日:2021-03-16
# 安定性によるサブガウス速度による外乱平均推定

Outlier Robust Mean Estimation with Subgaussian Rates via Stability ( http://arxiv.org/abs/2007.15618v2 )

ライセンス: Link先を確認
Ilias Diakonikolas, Daniel M. Kane, Ankit Pensia(参考訳) 我々は, 有限共分散仮定の下で, より広義に低次モーメント仮定の下で, 頑健な高次元平均推定の問題を研究する。 近年のロバスト統計文献から標準安定条件を考察し、指数関数的に小さい故障確率を除いて、この条件を満たすイリアーは多数存在することを証明した。 その結果, 繰り返しフィルタリングや非凸勾配降下などのロバストな平均推定アルゴリズムによって, (近方) サブガウスレートの最適誤差推定器が得られることがわかった。 これらのアルゴリズムの以前の解析は、非常に最適ではない。 本研究では,有限共分散仮定下での強い汚染モデルにおける外乱平均推定のためのサブガウシアンレートを用いた計算効率の高い最初のアルゴリズムを得る。

We study the problem of outlier robust high-dimensional mean estimation under a finite covariance assumption, and more broadly under finite low-degree moment assumptions. We consider a standard stability condition from the recent robust statistics literature and prove that, except with exponentially small failure probability, there exists a large fraction of the inliers satisfying this condition. As a corollary, it follows that a number of recently developed algorithms for robust mean estimation, including iterative filtering and non-convex gradient descent, give optimal error estimators with (near-)subgaussian rates. Previous analyses of these algorithms gave significantly suboptimal rates. As a corollary of our approach, we obtain the first computationally efficient algorithm with subgaussian rate for outlier-robust mean estimation in the strong contamination model under a finite covariance assumption.
翻訳日:2022-11-05 13:58:56 公開日:2021-03-16
# 画像認識におけるデータセットバイアス

Dataset Bias in Few-shot Image Recognition ( http://arxiv.org/abs/2008.07960v3 )

ライセンス: Link先を確認
Shuqiang Jiang, Yaohui Zhu, Chenlong Liu, Xinhang Song, Xiangyang Li, and Weiqing Min(参考訳) few-shot image recognition(fsir)の目的は、トレーニングデータ(ベースカテゴリ)から転送可能な知識を活用し、少数の注釈付きサンプルで新しいカテゴリを特定することである。 ほとんどの研究は、伝達可能な知識は、新しいカテゴリーを特定するのによく用いられると仮定している。 しかし、このような転送能力はデータセットバイアスに影響される可能性があり、この問題はこれまでほとんど研究されていない。 さらに、数少ない学習方法のほとんどは、異なるデータセットに偏っているため、深く調査する必要がある重要な問題でもある。 本稿では,まず,ベースカテゴリから学習した伝達能力の影響について検討する。 具体的には,その関連性を利用して,基本カテゴリと新規カテゴリの関係を測定する。 基本カテゴリの分布は、インスタンス密度とカテゴリの多様性によって表される。 FSIRモデルは、関連するトレーニングデータからより良い伝達可能な知識を学習する。 関連するデータでは、密接なインスタンスやカテゴリが学習した知識をさらに豊かにすることができる。 ImagNetの異なるサブデータセットに対する実験結果から、カテゴリの関連性、インスタンス密度、カテゴリの多様性は、ベースカテゴリからの転送可能なバイアスを示す。 第2に,データセット構造とマイズショット学習方法の違いによるデータセットの性能差について検討する。 具体的には、画像複雑性、概念内一貫性、概念間類似性を導入し、データセット構造の特徴を定量化する。 これらの量的特徴と4つの数発学習法を用いて,5つの異なるデータセットの性能差を分析した。 実験結果から,データセット構造とマイナショット学習法の両方の観点から,いくつかの洞察的な観察を得た。 これらの観測が将来のFSIR研究を導くのに役立つことを願っている。

The goal of few-shot image recognition (FSIR) is to identify novel categories with a small number of annotated samples by exploiting transferable knowledge from training data (base categories). Most current studies assume that the transferable knowledge can be well used to identify novel categories. However, such transferable capability may be impacted by the dataset bias, and this problem has rarely been investigated before. Besides, most of few-shot learning methods are biased to different datasets, which is also an important issue that needs to be investigated deeply. In this paper, we first investigate the impact of transferable capabilities learned from base categories. Specifically, we use the relevance to measure relationships between base categories and novel categories. Distributions of base categories are depicted via the instance density and category diversity. The FSIR model learns better transferable knowledge from relevant training data. In the relevant data, dense instances or diverse categories can further enrich the learned knowledge. Experimental results on different sub-datasets of ImagNet demonstrate category relevance, instance density and category diversity can depict transferable bias from base categories. Second, we investigate performance differences on different datasets from dataset structures and different few-shot learning methods. Specifically, we introduce image complexity, intra-concept visual consistency, and inter-concept visual similarity to quantify characteristics of dataset structures. We use these quantitative characteristics and four few-shot learning methods to analyze performance differences on five different datasets. Based on the experimental analysis, some insightful observations are obtained from the perspective of both dataset structures and few-shot learning methods. We hope these observations are useful to guide future FSIR research.
翻訳日:2022-10-27 21:49:54 公開日:2021-03-16
# 重み付きランダムウォーク確率勾配ディフレッシュ

Private Weighted Random Walk Stochastic Gradient Descent ( http://arxiv.org/abs/2009.01790v2 )

ライセンス: Link先を確認
Ghadir Ayache and Salim El Rouayheb(参考訳) グラフ内のノードに分散したデータを分散する分散学習環境を考える。 目標は、信頼できる必要のある中央のエンティティを必要とせずに、分散データでグローバルモデルを学ぶことだ。 この学習目標を達成するためにゴシップベースの確率勾配降下 (sgd) が用いられるが、全てのノードで全ての局所モデルが収束するのを待つ必要があるため、高い通信コストと計算コストがかかる。 収束を高速化するため,グラフ上のランダムウォークに基づいてグローバルモデルを更新したランダムウォークに基づくSGDを提案する。 本研究では,データの均一サンプリングと重要サンプリングを実現する2種類のランダムウォークに基づく2つのアルゴリズムを提案する。 データとグラフに関連する定数を考慮して,収束率の非漸近的解析を行う。 その結果, 重み付きランダムウォークに基づくアルゴリズムは, 高分散データに対して優れた性能を示すことがわかった。 さらに,提案するガンマノイズ機構に基づき,局所微分プライバシーを実現するプライバシ保存ランダムウォークアルゴリズムを提案する。 また,このアルゴリズムの収束に関する数値的な結果を示し,付加的ラプラスに基づくプライバシ機構よりも優れていることを示す。

We consider a decentralized learning setting in which data is distributed over nodes in a graph. The goal is to learn a global model on the distributed data without involving any central entity that needs to be trusted. While gossip-based stochastic gradient descent (SGD) can be used to achieve this learning objective, it incurs high communication and computation costs, since it has to wait for all the local models at all the nodes to converge. To speed up the convergence, we propose instead to study random walk based SGD in which a global model is updated based on a random walk on the graph. We propose two algorithms based on two types of random walks that achieve, in a decentralized way, uniform sampling and importance sampling of the data. We provide a non-asymptotic analysis on the rate of convergence, taking into account the constants related to the data and the graph. Our numerical results show that the weighted random walk based algorithm has a better performance for high-variance data. Moreover, we propose a privacy-preserving random walk algorithm that achieves local differential privacy based on a Gamma noise mechanism that we propose. We also give numerical results on the convergence of this algorithm and show that it outperforms additive Laplace-based privacy mechanisms.
翻訳日:2022-10-22 08:17:00 公開日:2021-03-16
# 強化学習のためのサブゴナルオートマタの誘導と爆発

Induction and Exploitation of Subgoal Automata for Reinforcement Learning ( http://arxiv.org/abs/2009.03855v2 )

ライセンス: Link先を確認
Daniel Furelos-Blanco, Mark Law, Anders Jonsson, Krysia Broda and Alessandra Russo(参考訳) 本稿では,表在的強化学習(RL)課題におけるサブゴールの学習と活用のためのISAを提案する。 isaは強化学習を、一連のハイレベルなイベントに対して命題論理式として表されるタスクのサブゴアルによって端がラベル付けされるサブゴアルオートマトン(subgoal automaton)の誘導とインターリーブする。 サブゴールオートマトンはまた、タスクの完了を示す状態と、タスクが成功せずに完了したことを示す状態の2つの特別な状態で構成されている。 最先端の帰納的論理プログラミングシステムを用いて、RLエージェントが観測した高レベル事象のトレースをカバーするサブゴールオートマトンを学習する。 現在使われているオートマトンがトレースを正しく認識していない場合、オートマトン学習者はそのトレースをカバーする新しいオートマトンを誘導する。 インターリーブプロセスは、最小状態数でオートマタの誘導を保証し、完備のまま探索空間を縮小するために対称性の破断機構を適用する。 我々は,複数のグリッドワールドおよび連続状態空間問題において,自動構造を利用するRLアルゴリズムを用いてISAを評価する。 我々は,最終学習可能なオートマトンに課されるトレース,対称性の破れ,特定の制限の観点から,オートマトン学習性能の詳細な実証分析を行う。 RL問題の各クラスに対して、学習したオートマトンをうまく利用して目標に達するポリシーを学習できることを示し、オートマトンが学習されず手作りされ、事前に与えられた場合と同等の平均的な報酬を達成する。

In this paper we present ISA, an approach for learning and exploiting subgoals in episodic reinforcement learning (RL) tasks. ISA interleaves reinforcement learning with the induction of a subgoal automaton, an automaton whose edges are labeled by the task's subgoals expressed as propositional logic formulas over a set of high-level events. A subgoal automaton also consists of two special states: a state indicating the successful completion of the task, and a state indicating that the task has finished without succeeding. A state-of-the-art inductive logic programming system is used to learn a subgoal automaton that covers the traces of high-level events observed by the RL agent. When the currently exploited automaton does not correctly recognize a trace, the automaton learner induces a new automaton that covers that trace. The interleaving process guarantees the induction of automata with the minimum number of states, and applies a symmetry breaking mechanism to shrink the search space whilst remaining complete. We evaluate ISA in several gridworld and continuous state space problems using different RL algorithms that leverage the automaton structures. We provide an in-depth empirical analysis of the automaton learning performance in terms of the traces, the symmetry breaking and specific restrictions imposed on the final learnable automaton. For each class of RL problem, we show that the learned automata can be successfully exploited to learn policies that reach the goal, achieving an average reward comparable to the case where automata are not learned but handcrafted and given beforehand.
翻訳日:2022-10-20 20:37:03 公開日:2021-03-16
# ゲーム理論から見たドロップアウトの解釈と促進

Interpreting and Boosting Dropout from a Game-Theoretic View ( http://arxiv.org/abs/2009.11729v4 )

ライセンス: Link先を確認
Hao Zhang, Sen Li, Yinchao Ma, Mingjie Li, Yichen Xie, Quanshi Zhang(参考訳) 本稿では,ゲーム理論的相互作用の観点から,ドロップアウト操作の有用性を理解し,改善することを目的とする。 深層ニューラルネットワーク(DNN)の入力変数間の相互作用の強さを抑えることができることを示す。 理論的な証明は様々な実験によって検証される。 さらに,このような相互作用は,深層学習における過度に適合する問題と強く関係していることがわかった。 したがって、ドロップアウトの有用性は、過剰フィッティングの意義を和らげるために相互作用を減少させると見なすことができる。 この理解に基づいて,ドロップアウトの有用性をさらに向上する相互作用損失を提案する。 実験結果から, 相互作用損失はドロップアウトの有用性を効果的に向上し, DNNの性能を向上させることが示唆された。

This paper aims to understand and improve the utility of the dropout operation from the perspective of game-theoretic interactions. We prove that dropout can suppress the strength of interactions between input variables of deep neural networks (DNNs). The theoretic proof is also verified by various experiments. Furthermore, we find that such interactions were strongly related to the over-fitting problem in deep learning. Thus, the utility of dropout can be regarded as decreasing interactions to alleviate the significance of over-fitting. Based on this understanding, we propose an interaction loss to further improve the utility of dropout. Experimental results have shown that the interaction loss can effectively improve the utility of dropout and boost the performance of DNNs.
翻訳日:2022-10-15 03:57:14 公開日:2021-03-16
# リスク基準下での準最適MNLバンド

Near-Optimal MNL Bandits Under Risk Criteria ( http://arxiv.org/abs/2009.12511v3 )

ライセンス: Link先を確認
Guangyu Xi, Chao Tao and Yuan Zhou(参考訳) リスク基準の下で,従来のマルチアームバンディット問題の変種であるMNLバンディットについて検討した。 通常の予想収益とは異なり、リスク基準は産業やバスで広く使われる一般的な目標である。 リスク基準は広く, 既知条件付きリスク, シャープ比, エントロピーリスクに限られるが, ほぼ最適の後悔を被ることを示すアルゴリズムを設計する。 補足として,提案アルゴリズムの実証性能を示すために,合成データと実データの両方を用いて実験を行う。

We study MNL bandits, which is a variant of the traditional multi-armed bandit problem, under risk criteria. Unlike the ordinary expected revenue, risk criteria are more general goals widely used in industries and bussiness. We design algorithms for a broad class of risk criteria, including but not limited to the well-known conditional value-at-risk, Sharpe ratio and entropy risk, and prove that they suffer a near-optimal regret. As a complement, we also conduct experiments with both synthetic and real data to show the empirical performance of our proposed algorithms.
翻訳日:2022-10-14 08:28:25 公開日:2021-03-16
# EigenGame: ナッシュ平衡としてのPCA

EigenGame: PCA as a Nash Equilibrium ( http://arxiv.org/abs/2010.00554v2 )

ライセンス: Link先を確認
Ian Gemp, Brian McWilliams, Claire Vernade, Thore Graepel(参考訳) 本稿では,主成分分析(pca)を,各近似固有ベクトルを自効機能を最大化しようとするプレイヤーが制御する競争ゲームとして,新たな視点を提案する。 このPCAゲームの性質と勾配に基づく更新の挙動を解析する。 結果として得られるアルゴリズムは、Ojaの規則から一般化したGram-Schmidt直交化を組み合わせ、自然に分散化され、メッセージパッシングによって並列化可能である。 大規模画像データセットとニューラルネットワークアクティベーションの実験により,アルゴリズムのスケーラビリティを実証する。 我々は,PCAを差別化可能なゲームとして捉えた新たな視点が,さらなるアルゴリズム開発や洞察につながるかについて議論する。

We present a novel view on principal component analysis (PCA) as a competitive game in which each approximate eigenvector is controlled by a player whose goal is to maximize their own utility function. We analyze the properties of this PCA game and the behavior of its gradient based updates. The resulting algorithm -- which combines elements from Oja's rule with a generalized Gram-Schmidt orthogonalization -- is naturally decentralized and hence parallelizable through message passing. We demonstrate the scalability of the algorithm with experiments on large image datasets and neural network activations. We discuss how this new view of PCA as a differentiable game can lead to further algorithmic developments and insights.
翻訳日:2022-10-12 07:36:46 公開日:2021-03-16
# カテゴリー意味論を教師なしドメイン翻訳に統合する

Integrating Categorical Semantics into Unsupervised Domain Translation ( http://arxiv.org/abs/2010.01262v2 )

ライセンス: Link先を確認
Samuel Lavoie, Faruk Ahmed, Aaron Courville(参考訳) 教師なしドメイン翻訳(UDT)は近年,多くの成功を収めていますが,分類的セマンティック機能による翻訳が適用範囲を広げる可能性がある,と私たちは主張しています。 特に、カテゴリー意味論は、複数のオブジェクトカテゴリを共有する知覚的に異なるドメイン間の翻訳を改善することを実証する。 本稿では,ソース領域と対象領域の不変なカテゴリー的意味的特徴(オブジェクトラベルなど)を教師なしで学習する手法を提案する。 学習されたカテゴリー意味論における教師なし領域翻訳法のスタイルエンコーダの条件付けは、mnist$\leftrightarrow$svhnの数字を保存する変換と、スケッチ$\to$realsのより現実的なスタイライゼーションをもたらす。

While unsupervised domain translation (UDT) has seen a lot of success recently, we argue that mediating its translation via categorical semantic features could broaden its applicability. In particular, we demonstrate that categorical semantics improves the translation between perceptually different domains sharing multiple object categories. We propose a method to learn, in an unsupervised manner, categorical semantic features (such as object labels) that are invariant of the source and target domains. We show that conditioning the style encoder of unsupervised domain translation methods on the learned categorical semantics leads to a translation preserving the digits on MNIST$\leftrightarrow$SVHN and to a more realistic stylization on Sketches$\to$Reals.
翻訳日:2022-10-11 08:43:49 公開日:2021-03-16
# R-GAP: プライバシーに対する再帰的なグラディエント攻撃

R-GAP: Recursive Gradient Attack on Privacy ( http://arxiv.org/abs/2010.07733v3 )

ライセンス: Link先を確認
Junyi Zhu and Matthew Blaschko(参考訳) フェデレートされた学習フレームワークは、プライバシの要求と大量の分散データから学ぶという約束の間のジレンマを打破する有望なアプローチとみなされている。 このようなフレームワークの多くは、他のコラボレータに生データを公開するのではなく、ローカルに保存されたデータに関する勾配など、共通のモデルのローカルアップデートを共有するように、コラボレータに要求するだけです。 しかし、最近の最適化に基づく勾配攻撃は、しばしば勾配から生データを正確に回収できることを示している。 真の勾配と推定データとのユークリッド距離を最小化することは、しばしばプライベートデータの完全回復に有効であることが示されている。 しかし、勾配がいかにしていつ元のデータのユニークな回復につながるかという理論的理解の根本的な欠如がある。 我々の研究は、ディープニューラルネットワークの勾配からデータを復元するクローズドフォーム再帰手順を提供することで、このギャップを埋める。 R-GAP (Recursive Gradient Attack on Privacy) と呼ぶ。 実験の結果、R-GAPは特定の条件下での計算のごく一部において最適化に基づくアプローチよりもうまく機能することが示された。 さらに,最適化ベースかクローズドフォーム再帰攻撃かに関わらず,特定のネットワークアーキテクチャに固有の勾配攻撃のリスクを推定するために,ランク解析手法を提案する。 実験により,ネットワークのセキュリティ向上に向けたランク解析の有用性が示された。 ソースコードはhttps://github.com/JunyiZhu-AI/R-GAPからダウンロードできる。

Federated learning frameworks have been regarded as a promising approach to break the dilemma between demands on privacy and the promise of learning from large collections of distributed data. Many such frameworks only ask collaborators to share their local update of a common model, i.e. gradients with respect to locally stored data, instead of exposing their raw data to other collaborators. However, recent optimization-based gradient attacks show that raw data can often be accurately recovered from gradients. It has been shown that minimizing the Euclidean distance between true gradients and those calculated from estimated data is often effective in fully recovering private data. However, there is a fundamental lack of theoretical understanding of how and when gradients can lead to unique recovery of original data. Our research fills this gap by providing a closed-form recursive procedure to recover data from gradients in deep neural networks. We name it Recursive Gradient Attack on Privacy (R-GAP). Experimental results demonstrate that R-GAP works as well as or even better than optimization-based approaches at a fraction of the computation under certain conditions. Additionally, we propose a Rank Analysis method, which can be used to estimate the risk of gradient attacks inherent in certain network architectures, regardless of whether an optimization-based or closed-form-recursive attack is used. Experimental results demonstrate the utility of the rank analysis towards improving the network's security. Source code is available for download from https://github.com/JunyiZhu-AI/R-GAP.
翻訳日:2022-10-07 03:07:09 公開日:2021-03-16
# MLCask: コラボレーションデータ分析パイプラインにおけるコンポーネント進化の効率的な管理

MLCask: Efficient Management of Component Evolution in Collaborative Data Analytics Pipelines ( http://arxiv.org/abs/2010.10246v4 )

ライセンス: Link先を確認
Zhaojing Luo, Sai Ho Yeung, Meihui Zhang, Kaiping Zheng, Lei Zhu, Gang Chen, Feiyi Fan, Qian Lin, Kee Yuan Ngiam, Beng Chin Ooi(参考訳) データセットとトレーニングされたモデルの両方が時間とともに進化するにつれ、機械学習パイプラインのメンテナンスはますます複雑になっています。 協調的な環境では、パイプラインの進化による変更や更新は、しばしば面倒な調整やメンテナンス作業を引き起こし、コストを上げ、使用を困難にします。 既存のソリューションは、特に異なるユーザロールによる操作を分離するために、線形でないバージョン管理セマンティクスを必要とする共同環境では、バージョン進化の問題に対処しない。 バージョン管理セマンティクスの欠如も不要なストレージ消費を引き起こし、データの重複やデータ前処理の繰り返しによる効率を低下させる。 本稿では、機械学習パイプラインのデプロイ時に発生する2つの主な課題を特定し、エンドツーエンド分析システムMLCaskのバージョニング設計で対処する。 システムは、複数のユーザロールをサポートし、マシンラーニングパイプラインのコンテキストでGitライクなブランチとマージ操作を実行することができる。 我々は,再利用可能な履歴レコードとパイプライン互換性情報を用いてパイプライン探索ツリーをprunすることで,メトリック駆動マージ動作を定義し,高速化する。 さらに、優先順位付けされたパイプライン検索を設計、実装し、より良いパフォーマンスをもたらすパイプラインを優先します。 MLCaskの有効性は、いくつかの実世界の展開事例に関する広範な研究を通じて評価される。 性能評価の結果,提案手法は最大7.8倍高速であり,履歴記録を使用しないベースライン法よりも11.9倍のストレージ容量を節約できることがわかった。

With the ever-increasing adoption of machine learning for data analytics, maintaining a machine learning pipeline is becoming more complex as both the datasets and trained models evolve with time. In a collaborative environment, the changes and updates due to pipeline evolution often cause cumbersome coordination and maintenance work, raising the costs and making it hard to use. Existing solutions, unfortunately, do not address the version evolution problem, especially in a collaborative environment where non-linear version control semantics are necessary to isolate operations made by different user roles. The lack of version control semantics also incurs unnecessary storage consumption and lowers efficiency due to data duplication and repeated data pre-processing, which are avoidable. In this paper, we identify two main challenges that arise during the deployment of machine learning pipelines, and address them with the design of versioning for an end-to-end analytics system MLCask. The system supports multiple user roles with the ability to perform Git-like branching and merging operations in the context of the machine learning pipelines. We define and accelerate the metric-driven merge operation by pruning the pipeline search tree using reusable history records and pipeline compatibility information. Further, we design and implement the prioritized pipeline search, which gives preference to the pipelines that probably yield better performance. The effectiveness of MLCask is evaluated through an extensive study over several real-world deployment cases. The performance evaluation shows that the proposed merge operation is up to 7.8x faster and saves up to 11.9x storage space than the baseline method that does not utilize history records.
翻訳日:2022-10-06 12:21:57 公開日:2021-03-16
# 音声表現の生成とコントラスト学習のためのフレームワーク

A Framework for Generative and Contrastive Learning of Audio Representations ( http://arxiv.org/abs/2010.11459v2 )

ライセンス: Link先を確認
Prateek Verma, Julius Smith(参考訳) 本稿では,基底的真理ラベルを使わずに自己教師付きフレーム作業において,音声表現のコントラスト学習のための枠組みを提案する。 自己教師付きコントラスト学習の核となるアイデアは、オーディオ信号とその拡張されたバージョン(ピッチや音色といった音声の突出した側面を示す)を、互いに近接した空間にマッピングし、他の異なる信号と分離することである。 さらに,音声信号の潜伏空間をラベルにアクセスできることなく学習するための,アートトランスフォーマーに基づくアーキテクチャの状態に基づく生成モデルについても検討する。 ここでは,音声信号を離散辞書要素とトレイントランスフォーマに小さなスケールでマッピングし,次の辞書要素を予測する。 私たちは、深層ニューラルネットワークのトレーニングの監督として機能するために必要なラベルの必要性を回避して、監視の手段としてデータのみを使用します。 次に、線形分類器ヘッドを用いて、学習した自己教師付きコントラストと生成変換器に基づく表現の両方に対して、モデルの性能を評価する。 本システムは,ニューラルネットワークモデルをトレーニングするために,地上の真理ラベルにアクセス可能な完全教師付き手法と比較して,かなりの性能を実現している。 これらの表現は、音声理解タスクの様々なタスクにおいて、大規模音声データの利用性を示す。

In this paper, we present a framework for contrastive learning for audio representations, in a self supervised frame work without access to any ground truth labels. The core idea in self supervised contrastive learning is to map an audio signal and its various augmented versions (representative of salient aspects of audio like pitch, timbre etc.) to a space where they are close together, and are separated from other different signals. In addition we also explore generative models based on state of the art transformer based architectures for learning latent spaces for audio signals, without access to any labels. Here, we map audio signals on a smaller scale to discrete dictionary elements and train transformers to predict the next dictionary element. We only use data as a method of supervision, bypassing the need of labels needed to act as a supervision for training the deep neural networks. We then use a linear classifier head in order to evaluate the performance of our models, for both self supervised contrastive and generative transformer based representations that are learned. Our system achieves considerable performance, compared to a fully supervised method, with access to ground truth labels to train the neural network model. These representations, with avail-ability of large scale audio data show promise in various tasks for audio understanding tasks
翻訳日:2022-10-04 08:28:01 公開日:2021-03-16
# 量子ニューラルネットワークのカオスと複雑性:機械学習における拡散メトリックを用いた研究

Chaos and Complexity from Quantum Neural Network: A study with Diffusion Metric in Machine Learning ( http://arxiv.org/abs/2011.07145v2 )

ライセンス: Link先を確認
Sayantan Choudhury, Ankan Dutta and Debisree Ray(参考訳) 本研究では,量子ニューラルネットワーク(QNN)の機械学習力学において,量子カオスと複雑性の現象を研究することを目的とする。 SGD(Stochastic Gradient Descent)を用いて最適化を行う汎用関数近似器として、ハイブリッド量子古典フレームワークにおけるパラメータ化量子回路(PQC)を導入する。 統計的および微分幾何学的手法を用いてQNNの学習理論を研究する。 パラメータ化されたユニタリ作用素の進化は拡散計量のパラメータの軌跡と相関する。 我々は、量子複雑性と量子カオスのパラメトリズドバージョンを物理的に関連する量として確立するが、これは安定性を決定するのに必須であるだけでなく、qnnの一般化能力に非常に重要な下限を与えるのにも不可欠である。 QNNの一般化能力は, 位相空間における極限周期や振動の実行時において最大化可能であることを明確に証明する。 最後に、コーシー・シュワルツの不等式を用いて、定常状態におけるQNNのパラメータの分散に縛られる一般化能力を決定した。

In this work, our prime objective is to study the phenomena of quantum chaos and complexity in the machine learning dynamics of Quantum Neural Network (QNN). A Parameterized Quantum Circuits (PQCs) in the hybrid quantum-classical framework is introduced as a universal function approximator to perform optimization with Stochastic Gradient Descent (SGD). We employ a statistical and differential geometric approach to study the learning theory of QNN. The evolution of parametrized unitary operators is correlated with the trajectory of parameters in the Diffusion metric. We establish the parametrized version of Quantum Complexity and Quantum Chaos in terms of physically relevant quantities, which are not only essential in determining the stability, but also essential in providing a very significant lower bound to the generalization capability of QNN. We explicitly prove that when the system executes limit cycles or oscillations in the phase space, the generalization capability of QNN is maximized. Finally, we have determined the generalization capability bound on the variance of parameters of the QNN in a steady state condition using Cauchy Schwartz Inequality.
翻訳日:2022-09-25 01:29:11 公開日:2021-03-16
# 非常に深いVAEは自己回帰モデルを一般化し、画像上でのテーマより優れている

Very Deep VAEs Generalize Autoregressive Models and Can Outperform Them on Images ( http://arxiv.org/abs/2011.10650v2 )

ライセンス: Link先を確認
Rewon Child(参考訳) 我々は,すべての自然画像ベンチマークにおいて,PixelCNNをログライクな性能で上回りながら,初めてサンプルを高速に生成する階層型VAEを提案する。 理論上は、vaesは自己回帰モデルだけでなく、十分に深く作られた場合に、より速く、より優れたモデルを表現することができる。 それにもかかわらず、自己回帰モデルは歴史的にログライクなVAEよりも優れている。 CIFAR-10, ImageNet, FFHQなどよりも, VAEをより確率的な深さにスケーリングすることで, 深度が不十分であるかどうかを検証する。 pixelcnnと比較して、これらの非常に深いvaesは高い可能性を達成し、パラメータを少なくし、数千倍の速度でサンプルを生成し、高解像度画像に容易に適用できる。 定性的研究は、VAEが効率的な階層的な視覚表現を学習していることを示唆している。 ソースコードとモデルはhttps://github.com/openai/vdvaeでリリースします。

We present a hierarchical VAE that, for the first time, generates samples quickly while outperforming the PixelCNN in log-likelihood on all natural image benchmarks. We begin by observing that, in theory, VAEs can actually represent autoregressive models, as well as faster, better models if they exist, when made sufficiently deep. Despite this, autoregressive models have historically outperformed VAEs in log-likelihood. We test if insufficient depth explains why by scaling a VAE to greater stochastic depth than previously explored and evaluating it CIFAR-10, ImageNet, and FFHQ. In comparison to the PixelCNN, these very deep VAEs achieve higher likelihoods, use fewer parameters, generate samples thousands of times faster, and are more easily applied to high-resolution images. Qualitative studies suggest this is because the VAE learns efficient hierarchical visual representations. We release our source code and models at https://github.com/openai/vdvae.
翻訳日:2022-09-23 05:32:40 公開日:2021-03-16
# 細粒度視覚分類における学習クラスの特徴

Learning Class Unique Features in Fine-Grained Visual Classification ( http://arxiv.org/abs/2011.10951v2 )

ライセンス: Link先を確認
Runkai Zheng, Zhijia Yu, Yinqi Zhang, Chris Ding, Hei Victor Cheng, Li Liu(参考訳) 細粒度視覚分類(FGVC)における大きな課題は、細部を区別する特徴を学習することで、クラス間類似度の高い様々なカテゴリを区別することである。 従来のクロスエントロピー訓練された畳み込みニューラルネットワーク(CNN)は、FGVCのクラス間不変機能の生成に苦しむ可能性があるため、この課題に失敗する。 本研究は,情報理論的な観点から各カテゴリの特徴のユニークさを強制することにより,cnnの訓練の規則化を革新的に提案する。 この目標を達成するために、ゲーム理論の枠組みに基づいてミニマックス損失を定式化し、nash平衡がこの正規化目標と一致することが証明される。 さらに、冗長な特徴を生じる可能性のあるミニマックス損失の可能な解を避けるため、選択された各特徴写像対間の正規化内積に基づく特徴冗長損失(FRL)を提案し、提案したミニマックス損失を補完する。 有意なベンチマークの優れた実験結果と可視化の結果から,本手法はベースラインモデルの性能に新たな計算をすることなくフルに発揮でき,最先端モデルと同等の結果が得られることがわかった。

A major challenge in Fine-Grained Visual Classification (FGVC) is distinguishing various categories with high inter-class similarity by learning the feature that differentiate the details. Conventional cross entropy trained Convolutional Neural Network (CNN) fails this challenge as it may suffer from producing inter-class invariant features in FGVC. In this work, we innovatively propose to regularize the training of CNN by enforcing the uniqueness of the features to each category from an information theoretic perspective. To achieve this goal, we formulate a minimax loss based on a game theoretic framework, where a Nash equilibria is proved to be consistent with this regularization objective. Besides, to prevent from a feasible solution of minimax loss that may produce redundant features, we present a Feature Redundancy Loss (FRL) based on normalized inner product between each selected feature map pair to complement the proposed minimax loss. Superior experimental results on several influential benchmarks along with visualization show that our method gives full play to the performance of the baseline model without additional computation and achieves comparable results with state-of-the-art models.
翻訳日:2022-09-22 12:18:37 公開日:2021-03-16
# fast and complete: rapid and massively parallel incomplete verifiersによる完全ニューラルネットワーク検証の実現

Fast and Complete: Enabling Complete Neural Network Verification with Rapid and Massively Parallel Incomplete Verifiers ( http://arxiv.org/abs/2011.13824v2 )

ライセンス: Link先を確認
Kaidi Xu, Huan Zhang, Shiqi Wang, Yihan Wang, Suman Jana, Xue Lin, Cho-Jui Hsieh(参考訳) ニューラルネットワーク(NN)の形式的検証は困難で重要な問題である。 既存の効率的な完全解法は分岐とバウンド(BaB)プロセスを必要とするが、これは問題領域をサブドメインに分割し、線形に緩和されたサブドメイン上の線形プログラミング(LP)のようなより高速だが弱い不完全な検証器を用いて各サブドメインを解く。 本稿では,gpuやtpusなどの一般的な機械学習アクセラレータ上で効率的に実装可能なbabプロセス中にlpを置き換えるために,逆モード線形緩和に基づく摂動解析(lirpa)を提案する。 しかし、LPとは異なり、LiRPAが適用されると、より弱い境界が生成され、分割時にサブドメインのコンフリクトをチェックできないため、BaB後に手続き全体が不完全となる。 これらの課題に対処すべく,高速な勾配に基づく境界引き締め手順とバッチ分割を併用し,lpバウンドプロシージャの最小使用法の設計を行い,lpベースアプローチを著しく上回るような完全なnn検証問題に対して,アクセラレータハードウェア上でlirpaを効果的に使用することを可能にした。 1つのGPU上では、既存のLPベースのアプローチと比較して桁違いのスピードアップを示す。

Formal verification of neural networks (NNs) is a challenging and important problem. Existing efficient complete solvers typically require the branch-and-bound (BaB) process, which splits the problem domain into sub-domains and solves each sub-domain using faster but weaker incomplete verifiers, such as Linear Programming (LP) on linearly relaxed sub-domains. In this paper, we propose to use the backward mode linear relaxation based perturbation analysis (LiRPA) to replace LP during the BaB process, which can be efficiently implemented on the typical machine learning accelerators such as GPUs and TPUs. However, unlike LP, LiRPA when applied naively can produce much weaker bounds and even cannot check certain conflicts of sub-domains during splitting, making the entire procedure incomplete after BaB. To address these challenges, we apply a fast gradient based bound tightening procedure combined with batch splits and the design of minimal usage of LP bound procedure, enabling us to effectively use LiRPA on the accelerator hardware for the challenging complete NN verification problem and significantly outperform LP-based approaches. On a single GPU, we demonstrate an order of magnitude speedup compared to existing LP-based approaches.
翻訳日:2022-09-20 01:38:04 公開日:2021-03-16
# (参考訳) PDEによる高次元パラメトリックマップのための微分インフォームド・ニューラルネット

Derivative-Informed Projected Neural Networks for High-Dimensional Parametric Maps Governed by PDEs ( http://arxiv.org/abs/2011.15110v2 )

ライセンス: CC BY 4.0
Thomas O'Leary-Roseberry, Umberto Villa, Peng Chen, and Omar Ghattas(参考訳) 不確かさの定量化、ベイジアン逆変換、ベイジアン最適実験設計、不確実性下での最適化から生じる多くの問合せ問題。 これらの評価は、このパラメトリック写像が高次元であり、偏微分方程式(pdes)の高価な解を含む場合、禁止される。 この課題に取り組むために,高次元 pde-governed parametric map のためのサロゲートを投影ニューラルネットワークとして構築し,これらの写像の幾何学的および固有低次元性を同時に捉えることを提案する。 具体的には、これらの PDE ベースの写像のヤコビアンを計算し、高次元パラメータを低次元微分インフォームドな活性部分空間に投影する。 このことは、多くの高次元 PDE-governed parametric map が低次元パラメータと出力部分空間で十分に近似できるという事実を利用する。 我々は、ニューラルネットワークの第1層と最後の層の重み付けを構成するために、アクティブ部分空間における投影基底ベクトルと主出力部分空間を使用する。 これにより、ニューラルネットワークの低次元層のみに重みをトレーニングすることができます。 結果のニューラルネットワークのアーキテクチャは、パラメトリックマップの低次元構造と幾何学を1階にキャプチャする。 提案したニューラルネットワークは,特に高価なPDEベースのパラメトリックマップによって提供される限られたトレーニングデータ構造において,完全なニューラルネットワークよりも高い一般化精度を実現することを示す。 さらに、投影されたネットワークの内部層の自由度数はパラメータと出力次元とは無関係であり、離散化次元とは独立な重み次元で高精度に達成できることを示す。

Many-query problems, arising from uncertainty quantification, Bayesian inversion, Bayesian optimal experimental design, and optimization under uncertainty-require numerous evaluations of a parameter-to-output map. These evaluations become prohibitive if this parametric map is high-dimensional and involves expensive solution of partial differential equations (PDEs). To tackle this challenge, we propose to construct surrogates for high-dimensional PDE-governed parametric maps in the form of projected neural networks that parsimoniously capture the geometry and intrinsic low-dimensionality of these maps. Specifically, we compute Jacobians of these PDE-based maps, and project the high-dimensional parameters onto a low-dimensional derivative-informed active subspace; we also project the possibly high-dimensional outputs onto their principal subspace. This exploits the fact that many high-dimensional PDE-governed parametric maps can be well-approximated in low-dimensional parameter and output subspace. We use the projection basis vectors in the active subspace as well as the principal output subspace to construct the weights for the first and last layers of the neural network, respectively. This frees us to train the weights in only the low-dimensional layers of the neural network. The architecture of the resulting neural network captures to first order, the low-dimensional structure and geometry of the parametric map. We demonstrate that the proposed projected neural network achieves greater generalization accuracy than a full neural network, especially in the limited training data regime afforded by expensive PDE-based parametric maps. Moreover, we show that the number of degrees of freedom of the inner layers of the projected network is independent of the parameter and output dimensions, and high accuracy can be achieved with weight dimension independent of the discretization dimension.
翻訳日:2021-06-06 22:28:37 公開日:2021-03-16
# 複数音源2次元定位における領域適応のための判別器のアンサンブル

Ensemble of Discriminators for Domain Adaptation in Multiple Sound Source 2D Localization ( http://arxiv.org/abs/2012.05908v2 )

ライセンス: Link先を確認
Guillaume Le Moing, Don Joven Agravante, Tadanobu Inoue, Jayakorn Vongkulbhisal, Asim Munawar, Ryuki Tachibana, Phongtharin Vinayavekhin(参考訳) 本稿では,複数音源の局所化のための領域適応手法の精度を向上させる識別器のアンサンブルを提案する。 近年、ディープニューラルネットワークがこのタスクに有望な結果をもたらしたが、トレーニングには大量のラベル付きデータが必要である。 このようなデータセットの記録とラベリングは、特にさまざまな音響条件をカバーするために十分な多様性を必要とするため、非常にコストがかかる。 本稿では,音響シミュレータを利用してラベル付きトレーニングサンプルを安価に生成する。 しかし、合成データに基づいて訓練されたモデルは、ドメインミスマッチのため、現実世界の録音では性能が良くない傾向にある。 そこで本研究では,ラベル付き合成データとラベルなし実データを用いた音源定位のための逆学習を用いた2つの領域適応手法について検討する。 局所化モデルの異なる特徴レベルに適用された識別器を組み合わせた新しいアンサンブル手法を提案する。 実験により,本手法は実データからのラベルを必要とせず,ローカライズ性能を大幅に向上させることがわかった。

This paper introduces an ensemble of discriminators that improves the accuracy of a domain adaptation technique for the localization of multiple sound sources. Recently, deep neural networks have led to promising results for this task, yet they require a large amount of labeled data for training. Recording and labeling such datasets is very costly, especially because data needs to be diverse enough to cover different acoustic conditions. In this paper, we leverage acoustic simulators to inexpensively generate labeled training samples. However, models trained on synthetic data tend to perform poorly with real-world recordings due to the domain mismatch. For this, we explore two domain adaptation methods using adversarial learning for sound source localization which use labeled synthetic data and unlabeled real data. We propose a novel ensemble approach that combines discriminators applied at different feature levels of the localization model. Experiments show that our ensemble discrimination method significantly improves the localization performance without requiring any label from the real data.
翻訳日:2021-05-15 06:04:48 公開日:2021-03-16
# 具体的動機づけ型ゴール・コンディション強化学習:短期調査

Intrinsically Motivated Goal-Conditioned Reinforcement Learning: a Short Survey ( http://arxiv.org/abs/2012.09830v2 )

ライセンス: Link先を確認
C\'edric Colas, Tristan Karch, Olivier Sigaud, Pierre-Yves Oudeyer(参考訳) オープンエンド環境を探索し、対話の可能性を発見し、スキルのレパートリーを自律的に構築できる自律マシンの構築は、人工知能の一般的な目的である。 開発アプローチでは、これは自律的かつ本質的な動機づけのある学習エージェントによってのみ達成できる、と論じている。 近年,発達的アプローチ,特に発達的ロボット工学が融合し,深層強化学習(rl)法が開発的機械学習の新しい領域を形成している。 この新たな領域内では、オープンエンドのレパートリーを自律的に獲得する開発ロボティクス問題に取り組むために、ディープRLアルゴリズムを訓練する一連の手法をレビューする。 本質的に目標条件付きRLアルゴリズムは、エージェントに自身の目標を表現、生成、追跡することを学ぶように訓練する。 目標の自己生成には、コンパクトなゴールエンコーディングの学習と、関連するゴールアゲメント関数が必要であり、これは、外部の報酬信号を使用して、事前定義された目標セットに取り組むように設計された従来のrlアルゴリズムと比較して、新たな課題をもたらす。 本稿では,深層rlと発達的アプローチの交点におけるこれらの手法の類型論,最近のアプローチのサーベイ,今後の展望について述べる。

Building autonomous machines that can explore open-ended environments, discover possible interactions and autonomously build repertoires of skills is a general objective of artificial intelligence. Developmental approaches argue that this can only be achieved by autonomous and intrinsically motivated learning agents that can generate, select and learn to solve their own problems. In recent years, we have seen a convergence of developmental approaches, and developmental robotics in particular, with deep reinforcement learning (RL) methods, forming the new domain of developmental machine learning. Within this new domain, we review here a set of methods where deep RL algorithms are trained to tackle the developmental robotics problem of the autonomous acquisition of open-ended repertoires of skills. Intrinsically motivated goal-conditioned RL algorithms train agents to learn to represent, generate and pursue their own goals. The self-generation of goals requires the learning of compact goal encodings as well as their associated goal-achievement functions, which results in new challenges compared to traditional RL algorithms designed to tackle pre-defined sets of goals using external reward signals. This paper proposes a typology of these methods at the intersection of deep RL and developmental approaches, surveys recent approaches and discusses future avenues.
翻訳日:2021-05-02 07:39:35 公開日:2021-03-16
# 確率系に対するチャンス制約付きモデルベースアクタ臨界

Model-Based Actor-Critic with Chance Constraint for Stochastic System ( http://arxiv.org/abs/2012.10716v2 )

ライセンス: Link先を確認
Baiyu Peng, Yao Mu, Yang Guan, Shengbo Eben Li, Yuming Yin, Jianyu Chen(参考訳) 実環境に適用される強化学習(RL)には安全性が不可欠である。 条件制約は確率システムの安全性要件を表現するのに適している。 従来の確率制約付きRL法は、通常は収束率が低いか、保守的な政策しか学ばない。 本稿では,安全かつ非保守的なポリシーを効率的に学習できるモデルベースのアクター制約付きアクタークリティカル(CCAC)アルゴリズムを提案する。 保守的な下界を最適化する既存の方法とは異なり、CCACは、目的関数と安全な確率を適応重みで同時に最適化する元の確率制約問題を直接解決する。 収束率を改善するため、CCACは動的モデルの勾配を利用して政策最適化を加速する。 CCACの有効性は確率的な車追従作業によって示される。 実験の結果, CCACは従来のRL法と比較して, 5倍の収束率で安全性を確保しながら性能を向上することがわかった。 また、確率モデル予測制御のような従来の安全技術よりも100倍高いオンライン計算効率を持つ。

Safety is essential for reinforcement learning (RL) applied in real-world situations. Chance constraints are suitable to represent the safety requirements in stochastic systems. Previous chance-constrained RL methods usually have a low convergence rate, or only learn a conservative policy. In this paper, we propose a model-based chance constrained actor-critic (CCAC) algorithm which can efficiently learn a safe and non-conservative policy. Different from existing methods that optimize a conservative lower bound, CCAC directly solves the original chance constrained problems, where the objective function and safe probability is simultaneously optimized with adaptive weights. In order to improve the convergence rate, CCAC utilizes the gradient of dynamic model to accelerate policy optimization. The effectiveness of CCAC is demonstrated by a stochastic car-following task. Experiments indicate that compared with previous RL methods, CCAC improves the performance while guaranteeing safety, with a five times faster convergence rate. It also has 100 times higher online computation efficiency than traditional safety techniques such as stochastic model predictive control.
翻訳日:2021-05-01 11:14:59 公開日:2021-03-16
# 進歩的ワンショットヒューマンパーシング

Progressive One-shot Human Parsing ( http://arxiv.org/abs/2012.11810v2 )

ライセンス: Link先を確認
Haoyu He, Jing Zhang, Bhavani Thuraisingham, Dacheng Tao(参考訳) 事前のヒューマンパースモデルは、トレーニングデータで予め定義されたクラスに人間をパースすることに限定されており、ファッション分析の新しい服など、目に見えないクラスに一般化することは柔軟ではない。 本稿では,人間を1つの参照例で定義されたオープンリファレンスクラスにパースする必要がある,one-shot human parse(oshp)という新しい問題を提案する。 トレーニング中、トレーニングセットで定義されたベースクラスのみが公開され、参照クラスの一部と重複する可能性がある。 本稿では,新しいプログレッシブ・ワンショット・パーシング・ネットワーク(POPNet)を考案し,テストバイアスと小型化という2つの重要な課題に対処する。 POPNetは,Attention Guidance ModuleとNearest Centroid Moduleという2つの共同メトリック学習モジュールで構成されている。 さらに、POPNetは、親クラスの学習知識を粗粒度に組み込むプログレッシブなヒューマンパーシングフレームワークを採用し、子孫クラスを粒度の細かい粒度で認識し、小さなサイズの問題に対処する。 OSHP用に調整されたATR-OSベンチマークの実験では、POPNetは他の代表的なワンショットセグメンテーションモデルよりも大きなマージンで優れ、強力なベースラインを確立している。 ソースコードはhttps://github.com/Charleshhy/One-shot-Human-Parsingにある。

Prior human parsing models are limited to parsing humans into classes pre-defined in the training data, which is not flexible to generalize to unseen classes, e.g., new clothing in fashion analysis. In this paper, we propose a new problem named one-shot human parsing (OSHP) that requires to parse human into an open set of reference classes defined by any single reference example. During training, only base classes defined in the training set are exposed, which can overlap with part of reference classes. In this paper, we devise a novel Progressive One-shot Parsing network (POPNet) to address two critical challenges , i.e., testing bias and small sizes. POPNet consists of two collaborative metric learning modules named Attention Guidance Module and Nearest Centroid Module, which can learn representative prototypes for base classes and quickly transfer the ability to unseen classes during testing, thereby reducing testing bias. Moreover, POPNet adopts a progressive human parsing framework that can incorporate the learned knowledge of parent classes at the coarse granularity to help recognize the descendant classes at the fine granularity, thereby handling the small sizes issue. Experiments on the ATR-OS benchmark tailored for OSHP demonstrate POPNet outperforms other representative one-shot segmentation models by large margins and establishes a strong baseline. Source code can be found at https://github.com/Charleshhy/One-shot-Human-Parsing.
翻訳日:2021-04-26 07:47:42 公開日:2021-03-16
# (参考訳) ダイバージェンス制御エンコーダネットワークによる関節次元の低減と分類

Divergence Regulated Encoder Network for Joint Dimensionality Reduction and Classification ( http://arxiv.org/abs/2012.15764v3 )

ライセンス: CC BY 4.0
Joshua Peeples, Sarah Walker, Connor McCurley, Alina Zare, James Keller(参考訳) 本稿では,新しいヒストグラムニューラルネットワークを用いて,関節次元の低減と分類を行う。 一般的な次元削減手法である t-Distributed Stochastic Neighbor Embedding (t-SNE) によって動機付けられた本手法は, 低次元埋め込み空間における試料に計算された分類損失を組み込む。 t-SNEが検出した座標に対するサンプル埋め込みを,分類精度と定性評価の観点から比較した。 また, t-SNEの目的において, 様々なばらつき対策の活用についても検討する。 提案手法は, クラス識別性を維持しつつ, サンプル外点の埋め込みを容易にし, 特徴次元を小さくするなどの利点がある。 以上の結果から,提案手法は分類性能を維持・/または向上させ,他のアプリケーションに役立つかもしれないニューラルネットワークの特徴を明らかにする。

In this paper, we investigate performing joint dimensionality reduction and classification using a novel histogram neural network. Motivated by a popular dimensionality reduction approach, t-Distributed Stochastic Neighbor Embedding (t-SNE), our proposed method incorporates a classification loss computed on samples in a low-dimensional embedding space. We compare the learned sample embeddings against coordinates found by t-SNE in terms of classification accuracy and qualitative assessment. We also explore use of various divergence measures in the t-SNE objective. The proposed method has several advantages such as readily embedding out-of-sample points and reducing feature dimensionality while retaining class discriminability. Our results show that the proposed approach maintains and/or improves classification performance and reveals characteristics of features produced by neural networks that may be helpful for other applications.
翻訳日:2021-04-17 21:38:53 公開日:2021-03-16
# 合成開口ソナー画像のための説明可能なシステム解析

Explainable Systematic Analysis for Synthetic Aperture Sonar Imagery ( http://arxiv.org/abs/2101.03134v3 )

ライセンス: Link先を確認
Sarah Walker, Joshua Peeples, Jeff Dale, James Keller, Alina Zare(参考訳) 本稿では,合成開口ソナー(sas)データのための微調整モデルにおいて,局所的解釈可能なモデル非依存説明(lime) (arxiv:1602.04938) などのツールと,どのような変化が性能向上に繋がるかを分析するためのダイバージェンス尺度を用いて,詳細な体系的分析を行う。 クラス不均衡などの微調整過程における要因に対する感度について検討する。 その結果,海底テクスチャ分類の改善だけでなく,性能向上に重要な役割を担っている特徴や,海底画像における海底テクスチャ分類のための深層学習モデルの微調整におけるバランスデータの重要性について深い知見が得られた。

In this work, we present an in-depth and systematic analysis using tools such as local interpretable model-agnostic explanations (LIME) (arXiv:1602.04938) and divergence measures to analyze what changes lead to improvement in performance in fine tuned models for synthetic aperture sonar (SAS) data. We examine the sensitivity to factors in the fine tuning process such as class imbalance. Our findings show not only an improvement in seafloor texture classification, but also provide greater insight into what features play critical roles in improving performance as well as a knowledge of the importance of balanced data for fine tuning deep learning models for seafloor classification in SAS imagery.
翻訳日:2021-04-11 00:02:52 公開日:2021-03-16
# ニュースメディアの事実性とバイアスの予測に関する調査研究

A Survey on Predicting the Factuality and the Bias of News Media ( http://arxiv.org/abs/2103.12506v1 )

ライセンス: Link先を確認
Preslav Nakov, Husrev Taha Sencar, Jisun An, Haewoon Kwak(参考訳) 偽物、偏り、広汎性のあるオンラインコンテンツの現在のレベルは、疑わしいクレームや記事のすべてについて、手動または自動で事実チェックが不可能になっている。 したがって、多くの研究者は、ニュースメディア全体のプロファイル化を目標として、その情報源の信頼性を単に確認することで、その発表の瞬間に「フェイクニュース」を検出することができるように、より高い粒度に注意を向けている。 ソースの事実性は、オンラインで取得した証拠の信頼性を評価する必要があるため、自動ファクトチェックや"フェイクニュース"検出のためのシステムの重要な要素でもある。 政治的バイアス検出は、西側の政治状況において左中心右バイアスを予測することを目的としているが、同様に重要な話題であり、ニュースメディア全体のプロファイリングにも同様の変化を経験している。 さらに、偏見の高いメディアが事実である可能性が低いため、両者の間には明確なつながりがあるが、この2つの問題は別々に解決されている。 本稿では,メディアプロファイリングにおける事実と偏見の実態を概観し,それらを共同でモデル化する必要性について論じる。 我々はさらに、ターゲットニュースサイトが公開した記事のテキストを超えた、異なる情報ソースとモダリティの利用に関する最近の興味深い進歩について論じる。 最後に,現在の課題を議論し,今後の研究の方向性について概説する。

The present level of proliferation of fake, biased, and propagandistic content online has made it impossible to fact-check every single suspicious claim or article, either manually or automatically. Thus, many researchers are shifting their attention to higher granularity, aiming to profile entire news outlets, which makes it possible to detect likely "fake news" the moment it is published, by simply checking the reliability of its source. Source factuality is also an important element of systems for automatic fact-checking and "fake news" detection, as they need to assess the reliability of the evidence they retrieve online. Political bias detection, which in the Western political landscape is about predicting left-center-right bias, is an equally important topic, which has experienced a similar shift towards profiling entire news outlets. Moreover, there is a clear connection between the two, as highly biased media are less likely to be factual; yet, the two problems have been addressed separately. In this survey, we review the state of the art on media profiling for factuality and bias, arguing for the need to model them jointly. We further discuss interesting recent advances in using different information sources and modalities, which go beyond the text of the articles the target news outlet has published. Finally, we discuss current challenges and outline future research directions.
翻訳日:2021-04-05 01:06:53 公開日:2021-03-16
# Selective Survey: 統合型マルチモーダルトランスポートのための最も効率的なモデルと解法

Selective Survey: Most Efficient Models and Solvers for Integrative Multimodal Transport ( http://arxiv.org/abs/2103.15555v1 )

ライセンス: Link先を確認
Oliviu Matei, Erdei Rudolf, Camelia-M. Pintea(参考訳) インテリジェントトランスポーテーションシステム(ITS)のファミリーでは、MMTS(マルチモーダルトランスポーテーションシステム)が、実現可能な統合トランスポーテーションプロセスとして、当時の主流のトランスポーテーション手段として位置づけられている。 世界経済は輸送の助けを借りて進んだ。 対象とする商品の量と距離は過去10年間で倍増しているため、最適化された輸送の需要が高く、高速だが低コストで資源を節約できるだけでなく、低またはゼロの排出で安全でもある。 したがって、この分野の既存の研究の概要を把握し、何が既になされたのか、次に何を研究すべきかを知ることが重要である。 主な目的は、マルチモーダル輸送研究分野における既存の研究、方法、情報の受益選択を探求し、研究における産業ニーズとギャップを特定し、今後の研究の文脈を提供することである。 選択的な調査は、コスト、時間、ネットワークトポロジーの観点から、マルチモーダルトランスポート設計と最適化をカバーしている。 マルチモーダル輸送の理論的側面、文脈、資源もまた様々な側面をカバーしている。 この調査では、インテリジェントトランスポーテーションシステム(ITS)の最良の方法と解決方法が選択されている。 理論と実世界の応用のギャップは、グローバルマルチモーダル輸送システムの最適化のためにさらに解決すべきである。

In the family of Intelligent Transportation Systems (ITS), Multimodal Transport Systems (MMTS) have placed themselves as a mainstream transportation mean of our time as a feasible integrative transportation process. The Global Economy progressed with the help of transportation. The volume of goods and distances covered have doubled in the last ten years, so there is a high demand of an optimized transportation, fast but with low costs, saving resources but also safe, with low or zero emissions. Thus, it is important to have an overview of existing research in this field, to know what was already done and what is to be studied next. The main objective is to explore a beneficent selection of the existing research, methods and information in the field of multimodal transportation research, to identify industry needs and gaps in research and provide context for future research. The selective survey covers multimodal transport design and optimization in terms of: cost, time, and network topology. The multimodal transport theoretical aspects, context and resources are also covering various aspects. The survey's selection includes nowadays best methods and solvers for Intelligent Transportation Systems (ITS). The gap between theory and real-world applications should be further solved in order to optimize the global multimodal transportation system.
翻訳日:2021-04-05 01:06:03 公開日:2021-03-16
# kanerva++: ローカルに割り当てられた潜在メモリをブロックする、差別化可能なkanervaマシンの拡張

Kanerva++: extending The Kanerva Machine with differentiable, locally block allocated latent memory ( http://arxiv.org/abs/2103.03905v2 )

ライセンス: Link先を確認
Jason Ramapuram, Yan Wu, Alexandros Kalousis(参考訳) エピソードとセマンティックメモリは人間の記憶モデルの重要な構成要素である。 補足学習システムの理論 (mcclelland et al., 1995) は、直列イベントによって生成される圧縮表現 (episodic memory) が後に再構成され、より一般化された再利用可能な知識 (semantic memory) が構築されることを示唆している。 本研究では,階層的潜在変数モデルを用いて,エピソジックメモリと意味記憶のギャップを橋渡しする新しい原理ベイズメモリ割当スキームを開発した。 従来のヒープ割り当てからインスピレーションを得て、ローカルに連続したメモリをkanervaマシンに拡張し、新しい微分可能なブロック割り当て潜在メモリを可能にする。 カネルバマシンとは対照的に、リードキー分布の確率性に頼り、完全にフィードフォワード決定論的プロセスとして扱うことで、メモリ書き込みのプロセスを単純化し、メモリ内に情報を分散させる。 このアロケーション方式によりメモリ条件画像生成の性能が向上し、二項化MNIST (<=41.58 nats/image)、二項化Omniglot (<=66.24 nats/image)、CIFAR10, DMLab Mazes, Celeb-A, ImageNet32x32の競合性能を示す。

Episodic and semantic memory are critical components of the human memory model. The theory of complementary learning systems (McClelland et al., 1995) suggests that the compressed representation produced by a serial event (episodic memory) is later restructured to build a more generalized form of reusable knowledge (semantic memory). In this work we develop a new principled Bayesian memory allocation scheme that bridges the gap between episodic and semantic memory via a hierarchical latent variable model. We take inspiration from traditional heap allocation and extend the idea of locally contiguous memory to the Kanerva Machine, enabling a novel differentiable block allocated latent memory. In contrast to the Kanerva Machine, we simplify the process of memory writing by treating it as a fully feed forward deterministic process, relying on the stochasticity of the read key distribution to disperse information within the memory. We demonstrate that this allocation scheme improves performance in memory conditional image generation, resulting in new state-of-the-art conditional likelihood values on binarized MNIST (<=41.58 nats/image) , binarized Omniglot (<=66.24 nats/image), as well as presenting competitive performance on CIFAR10, DMLab Mazes, Celeb-A and ImageNet32x32.
翻訳日:2021-04-05 00:45:39 公開日:2021-03-16
# (参考訳) 英国バイオバンクMRIにおける深部回帰アンサンブルを用いた不確実性認識体組成解析

Uncertainty-Aware Body Composition Analysis with Deep Regression Ensembles on UK Biobank MRI ( http://arxiv.org/abs/2101.06963v2 )

ライセンス: CC BY 4.0
Taro Langner, Fredrik K. Gustafsson, Benny Avelin, Robin Strand, H\r{a}kan Ahlstr\"om, and Joel Kullberg(参考訳) 豊かな健康関連メタデータとともに、2014年から44~82歳の英国バイオバンクの男性4万人以上のMRIも取得している。 これらの画像から得られたフェノタイプ、例えば体組成の測定は、遺伝学、心血管疾患、代謝状態の新たな関連を明らかにすることができる。 本研究では,6つの体組成測定をResNet50ニューラルネットワークを用いて自動推定し,頸部から膝へのMRI画像の回帰解析を行った。 高速かつ精度の可能性があるにもかかわらず、これらのネットワークは個々の測定の信頼性を示す出力セグメンテーションを作らない。 そこで, 予測不確かさ推定のための平均分散回帰とアンサンブルについて検討し, 個々の測定誤差を定量化し, 潜在的な異常値, 異常値, その他の故障事例を自動的に同定する。 約8,500人の被験者のデータに対する10倍のクロスバリデーションでは、平均分散回帰とアンサンブルは相補的な利点を示し、全ての予測における平均絶対誤差を12%削減した。 不確実性の校正と高い予測誤差を識別する能力を改善した。 クラス内相関係数 (ICC) を0.97以上とすると, 肝脂肪含量を除くすべてのターゲットが5%未満の相対測定誤差を示した。 さらに1000人の被験者を対象としたテストでは、一貫したパフォーマンスを示し、最終的に3万人の被験者に参照値の欠如を推測するためにメソッドが展開された。 その結果、ディープレグレッションアンサンブルは最終的に、今後数年以内に取得される予定の12万本以上の英国バイオバンクのネック・トゥ・クニー・ボディMRIに対して、身体組成の自動的不確実性測定を提供する可能性があることが示唆された。

Along with rich health-related metadata, an ongoing imaging study has acquired MRI of over 40,000 male and female UK Biobank participants aged 44-82 since 2014. Phenotypes derived from these images, such as measurements of body composition, can reveal new links between genetics, cardiovascular disease, and metabolic conditions. In this retrospective study, six measurements of body composition were automatically estimated by ResNet50 neural networks for image-based regression from neck-to-knee body MRI. Despite the potential for high speed and accuracy, these networks produce no output segmentations that could indicate the reliability of individual measurements. The presented experiments therefore examine mean-variance regression and ensembling for predictive uncertainty estimation, which can quantify individual measurement errors and thereby help to identify potential outliers, anomalies, and other failure cases automatically. In 10-fold cross-validation on data of about 8,500 subjects, mean-variance regression and ensembling showed complementary benefits, reducing the mean absolute error across all predictions by 12%. Both improved the calibration of uncertainties and their ability to identify high prediction errors. With intra-class correlation coefficients (ICC) above 0.97, all targets except the liver fat content yielded relative measurement errors below 5%. Testing on another 1,000 subjects showed consistent performance, and the method was finally deployed for inference to 30,000 subjects with missing reference values. The results indicate that deep regression ensembles could ultimately provide automated, uncertainty-aware measurements of body composition for more than 120,000 UK Biobank neck-to-knee body MRI that are to be acquired within the coming years.
翻訳日:2021-03-27 14:49:21 公開日:2021-03-16
# (参考訳) リスク駆動行動の知識を活用する自律エージェントの構築

Building Safer Autonomous Agents by Leveraging Risky Driving Behavior Knowledge ( http://arxiv.org/abs/2103.10245v1 )

ライセンス: CC BY 4.0
Ashish Rana, Avleen Malhi(参考訳) シミュレーション環境は、車線変更や駐車、交差点の処理など、さまざまな運転タスクを学ぶのに適しています。 抽象的な方法で しかし、これらのシミュレーション環境は、しばしば異なる車両間の保守的な相互作用行動下での操作に制限される。 しかし、私たちが知っているように、実際の運転タスクには、期待される意味で他のドライバーが振る舞わない非常に高いリスクシナリオが伴うことが多い。 疲れたり経験不足だったりするなど、この行動には多くの理由がある。 シミュレーション環境は、ナビゲーションエージェントのトレーニング中にこの情報を考慮していません。 そこで本研究では,モデルフリーな学習エージェントを作成するために,トラフィックの多さと予期せぬランダムな行動を伴うリスクシナリオを体系的に作成することに注力する。 highway-envシミュレーションパッケージに、新たなカスタムマルコフ決定プロセス(mdp)環境イテレーションを作成して、複数の自動運転シナリオを生成します。 行動方針は、深層強化学習モデルの助けを借りて訓練されたエージェントによって学習される。 私たちの行動方針は、衝突や危険なランダム化ドライバーの行動を扱うことを意図しています。 リスクの高い運転シナリオを補足したモデル自由学習エージェントを訓練し,その性能をベースラインエージェントと比較する。 最後に,これらの学習結果の活用によって得られた性能向上を正確に考慮し,学習プロセスにこれらの摂動を加えることが与える影響をカジュアルに測定する。

Simulation environments are good for learning different driving tasks like lane changing, parking or handling intersections etc. in an abstract manner. However, these simulation environments often restrict themselves to operate under conservative interactions behavior amongst different vehicles. But, as we know that the real driving tasks often involves very high risk scenarios where other drivers often don't behave in the expected sense. There can be many reasons for this behavior like being tired or inexperienced. The simulation environments doesn't take this information into account while training the navigation agent. Therefore, in this study we especially focus on systematically creating these risk prone scenarios with heavy traffic and unexpected random behavior for creating better model-free learning agents. We generate multiple autonomous driving scenarios by creating new custom Markov Decision Process (MDP) environment iterations in highway-env simulation package. The behavior policy is learnt by agents trained with the help from deep reinforcement learning models. Our behavior policy is deliberated to handle collisions and risky randomized driver behavior. We train model free learning agents with supplement information of risk prone driving scenarios and compare their performance with baseline agents. Finally, we casually measure the impact of adding these perturbations in the training process to precisely account for the performance improvement attained from utilizing the learnings from these scenarios.
翻訳日:2021-03-20 09:54:45 公開日:2021-03-16
# オンライン広告におけるマルチプラットフォーム予算最適化のための確率帯域

Stochastic Bandits for Multi-platform Budget Optimization in Online Advertising ( http://arxiv.org/abs/2103.10246v1 )

ライセンス: Link先を確認
Vashist Avadhanula, Riccardo Colini-Baldeschi, Stefano Leonardi, Karthik Abinav Sankararaman, Okke Schrijvers(参考訳) 我々は,複数のプラットフォームにまたがる広告キャンペーンにおいて,広告主の予算を最適に利用しようとするオンライン広告システムの問題について,それらのプラットフォーム上でユーザに対して広告を表示する価値を知らずに検討する。 この挑戦的な実践的応用を、knapsacks問題のある確率的バンディットとしてモデル化し、$m$-tuplesという異なる入札のセットによって与えられたアームセットを$t$の入札問題に当てはめ、$m$をプラットフォーム数とする。 我々は、badanidiyuru \emph{et al.,} で提案するアルゴリズムを複数のプラットフォームに拡張し、離散入札空間と連続入札空間の両方のアルゴリズムを得る。 すなわち、離散入札空間に対して、後悔するアルゴリズムに$o\left(opt \sqrt {\frac{mn}{b} }+ \sqrt{mn opt}\right)$を与え、ここで$opt$は分布を知る最適なアルゴリズムの性能である。 連続入札空間に対しては、我々のアルゴリズムの後悔は$\tilde{O}\left(m^{1/3} \cdot \min\left\{ B^{2/3}, (m T)^{2/3} \right\right)$である。 この特別なケースに制限された場合、このバウンダリは、手元にある特定のアプリケーションの場合と同様に、体制$OPT \ll T$のサンカラマンとスリブキンスよりも改善される。 第二に、離散ケースに対する$ \Omega\left (\sqrt {m OPT} \right)$下界と連続設定に対する$ \Omega\left(m^{1/3} B^{2/3}\right)$下界を示し、上界とほぼ一致する。 最後に、複数の広告プラットフォームを持つ巨大インターネットオンライン広告会社の実世界のデータセットを使用し、我々のアルゴリズムが一般的なベンチマークを上回り、現実世界のアプリケーションで保証される要求された特性を満たすことを示す。

We study the problem of an online advertising system that wants to optimally spend an advertiser's given budget for a campaign across multiple platforms, without knowing the value for showing an ad to the users on those platforms. We model this challenging practical application as a Stochastic Bandits with Knapsacks problem over $T$ rounds of bidding with the set of arms given by the set of distinct bidding $m$-tuples, where $m$ is the number of platforms. We modify the algorithm proposed in Badanidiyuru \emph{et al.,} to extend it to the case of multiple platforms to obtain an algorithm for both the discrete and continuous bid-spaces. Namely, for discrete bid spaces we give an algorithm with regret $O\left(OPT \sqrt {\frac{mn}{B} }+ \sqrt{mn OPT}\right)$, where $OPT$ is the performance of the optimal algorithm that knows the distributions. For continuous bid spaces the regret of our algorithm is $\tilde{O}\left(m^{1/3} \cdot \min\left\{ B^{2/3}, (m T)^{2/3} \right\} \right)$. When restricted to this special-case, this bound improves over Sankararaman and Slivkins in the regime $OPT \ll T$, as is the case in the particular application at hand. Second, we show an $ \Omega\left (\sqrt {m OPT} \right)$ lower bound for the discrete case and an $\Omega\left( m^{1/3} B^{2/3}\right)$ lower bound for the continuous setting, almost matching the upper bounds. Finally, we use a real-world data set from a large internet online advertising company with multiple ad platforms and show that our algorithms outperform common benchmarks and satisfy the required properties warranted in the real-world application.
翻訳日:2021-03-19 13:52:01 公開日:2021-03-16
# (参考訳) FES: 高速でスケーラブルなQoS予測フレームワーク

FES: A Fast Efficient Scalable QoS Prediction Framework ( http://arxiv.org/abs/2103.07494v2 )

ライセンス: CC BY 4.0
Soumi Chattopadhyay, Chandranath Adak, Ranjana Roy Chowdhury(参考訳) Webサービスのクオリティ・オブ・サービス予測は、サービス構成、サービス選択、サービスレコメンデーションなど、サービスライフサイクルのさまざまな側面における多様なアプリケーションのために、サービスコンピューティングの不可欠な部分です。 QoS予測アルゴリズムを設計する主な目的の1つは、良好な予測精度を達成することである。 しかし、QoS予測アルゴリズムを開発する際に満たすべき基準は精度だけではない。 アルゴリズムは、リアルタイムのレコメンデーションやコンポジションシステムに統合できるように、予測時間の観点からより高速でなければならない。 予測アルゴリズムを設計する際に考慮すべきもう1つの重要な要素は、予測アルゴリズムが大規模データセットに対処できるように拡張性である。 QoS予測の既存のアルゴリズムは、他のアルゴリズムを確実にしながら、ある目標に対して妥協することが多い。 本稿では,高い精度,高速な予測時間,スケーラビリティの3つの重要な目標を同時に達成する半オフラインQoS予測モデルを提案する。 ここでは,ユーザ間で異なるサービスのqos価値を予測することを目的とする。 本フレームワークは,前処理フェーズ予測,オンライン予測,事前学習モデルを用いた予測といった多相予測アルゴリズムからなる。 プリプロセッシングフェーズでは、まずデータセットにマルチレベルクラスタリングを適用し、相関のあるユーザとサービスを得る。 次に、協調フィルタリングを用いてクラスタを前処理し、与えられたQoS呼び出しログ行列の間隔を除去する。 最後に,ニューラルネットワークを用いた2段階の半オフライン回帰モデルを作成し,ユーザがリアルタイムに呼び出すサービスのqos値を予測する。 公開された4つのWS-DREAMデータセットの実験結果は、最先端の手法と比較して、フレームワークの正確性、スケーラビリティ、迅速な応答性の観点から効率性を示している。

Quality-of-Service prediction of web service is an integral part of services computing due to its diverse applications in the various facets of a service life cycle, such as service composition, service selection, service recommendation. One of the primary objectives of designing a QoS prediction algorithm is to achieve satisfactory prediction accuracy. However, accuracy is not the only criteria to meet while developing a QoS prediction algorithm. The algorithm has to be faster in terms of prediction time so that it can be integrated into a real-time recommendation or composition system. The other important factor to consider while designing the prediction algorithm is scalability to ensure that the prediction algorithm can tackle large-scale datasets. The existing algorithms on QoS prediction often compromise on one goal while ensuring the others. In this paper, we propose a semi-offline QoS prediction model to achieve three important goals simultaneously: higher accuracy, faster prediction time, scalability. Here, we aim to predict the QoS value of service that varies across users. Our framework consists of multi-phase prediction algorithms: preprocessing-phase prediction, online prediction, and prediction using the pre-trained model. In the preprocessing phase, we first apply multi-level clustering on the dataset to obtain correlated users and services. We then preprocess the clusters using collaborative filtering to remove the sparsity of the given QoS invocation log matrix. Finally, we create a two-staged, semi-offline regression model using neural networks to predict the QoS value of service to be invoked by a user in real-time. Our experimental results on four publicly available WS-DREAM datasets show the efficiency in terms of accuracy, scalability, fast responsiveness of our framework as compared to the state-of-the-art methods.
翻訳日:2021-03-19 02:11:56 公開日:2021-03-16
# (参考訳) stokes profile inversionsを高速化する機械学習初期化

Machine learning initialization to accelerate Stokes profile inversions ( http://arxiv.org/abs/2103.09651v1 )

ライセンス: CC BY 4.0
R. Gafeira, D. Orozco Su\'arez, I. Milic, C. Quintero Noda, B. Ruiz Cobo, H. Uitenbroek(参考訳) 本研究では、Stokesプロファイルの逆変換を有利に初期化するツールとして、畳み込みニューラルネットワーク(CNN)の適用について論じる。 CNNの有用性を示すために,本稿ではLTE Stokesプロファイルの逆転に着目した。 ヒノード探査機で観測された分光偏光度計をテストベンチマークとして使用した。 まず、所定の初期大気モデルを用いて、SIRインバージョンコードを用いてデータを慎重に解析する。 コードは、観測を再現する大気モデルセットを提供する。 これらのモデルはCNNのトレーニングに使用される。 その後、同じデータは再びSIRで逆転されるが、訓練されたCNNを使用して、SIRの大気モデルの初期推定を提供する。 CNNでは,初期推定モデル大気の計算に使用するインバージョンサイクルの数を著しく削減し,LTEインバージョンにおける計算時間を2~4倍に削減できる。 CNN単独では、補助インバージョンよりもはるかに高速だが、後者はより堅牢で正確である。 スペクトル線反転の最適初期大気モデル推定のための機械学習手法の利点と限界について考察した。 最後に、並列インバージョンを簡単に設定できるSIRおよびDeSIRe符号用のピソンラッパーについて述べる。 補助インバージョンはインバージョン処理を高速化するが、インバージョン結果の効率と正確性は、太陽シーンとCNNトレーニングに使用されるデータに強く依存する。 この方法(補助反転)は、個々の事象を最善の注意で分析する必要性をなくすものではなく、太陽科学者に大量の反転データをサンプリングするより優れた機会を与える。

In this work, we discuss the application of convolutional neural networks (CNNs) as a tool to advantageously initialize Stokes profile inversions. To demonstrate the usefulness of CNNs, we concentrate in this paper on the inversion of LTE Stokes profiles. We use observations taken with the spectropolarimeter onboard the Hinode spacecraft as a test benchmark. First, we carefully analyze the data with the SIR inversion code using a given initial atmospheric model. The code provides a set of atmospheric models that reproduce the observations. These models are then used to train a CNN. Afterwards, the same data are again inverted with SIR but using the trained CNN to provide the initial guess atmospheric models for SIR. The CNNs allow us to significantly reduce the number of inversion cycles when used to compute initial guess model atmospheres, decreasing the computational time for LTE inversions by a factor of two to four. CNN's alone are much faster than assisted inversions, but the latter are more robust and accurate. The advantages and limitations of machine learning techniques for estimating optimum initial atmospheric models for spectral line inversions are discussed. Finally, we describe a python wrapper for the SIR and DeSIRe codes that allows for the easy setup of parallel inversions. The assisted inversions can speed up the inversion process, but the efficiency and accuracy of the inversion results depend strongly on the solar scene and the data used for the CNN training. This method (assisted inversions) will not obviate the need for analyzing individual events with the utmost care but will provide solar scientists with a much better opportunity to sample large amounts of inverted data, which will undoubtedly broaden the physical discovery space.
翻訳日:2021-03-19 00:59:13 公開日:2021-03-16
# (参考訳) no intruder, no valid: evaluation criteria for privacy-preserving text anonymization

No Intruder, no Validity: Evaluation Criteria for Privacy-Preserving Text Anonymization ( http://arxiv.org/abs/2103.09263v1 )

ライセンス: CC BY 4.0
Maximilian Mozes, Bennett Kleinberg(参考訳) 機密テキストデータをNLP研究者と実践者の間で共有するには、共有ドキュメントはデータ保護とプライバシー法に従う必要がある。 そのため、テキスト匿名化の自動化アプローチへの関心が高まっている。 しかし、そのようなメソッドのパフォーマンスを測定することは難しい。単一の識別属性が欠落すると、個人のアイデンティティが明らかになる。 本稿では,この問題に注意を向け,自動テキスト匿名化システムを開発する研究者や実践者が,その評価手法が,個人の再同定を防げるシステムの能力を本当に反映しているかを慎重に評価すべきであると主張する。 次に、匿名化手法の技術的性能、匿名化による情報損失、再現された文書の非匿名化能力を含む評価基準のセットであるTILDを提案する。 これらの基準は、匿名化性能を測定する標準的な方法への進歩を促進する可能性がある。

For sensitive text data to be shared among NLP researchers and practitioners, shared documents need to comply with data protection and privacy laws. There is hence a growing interest in automated approaches for text anonymization. However, measuring such methods' performance is challenging: missing a single identifying attribute can reveal an individual's identity. In this paper, we draw attention to this problem and argue that researchers and practitioners developing automated text anonymization systems should carefully assess whether their evaluation methods truly reflect the system's ability to protect individuals from being re-identified. We then propose TILD, a set of evaluation criteria that comprises an anonymization method's technical performance, the information loss resulting from its anonymization, and the human ability to de-anonymize redacted documents. These criteria may facilitate progress towards a standardized way for measuring anonymization performance.
翻訳日:2021-03-19 00:36:47 公開日:2021-03-16
# (参考訳) トポロジカル特徴の双曲表現の学習

Learning Hyperbolic Representations of Topological Features ( http://arxiv.org/abs/2103.09273v1 )

ライセンス: CC BY 4.0
Panagiotis Kyriakis, Iordanis Fostiropoulos, Paul Bogdan(参考訳) 永続図のタスク固有の表現の学習は、トポロジカルなデータ分析と機械学習において重要な問題である。 しかし、現在の芸術的手法は、ユークリッド表現に焦点を当てているため、表現性が制限されている。 永続図は無限の永続性(すなわち本質的特徴)の特徴を含み、ユークリッド空間は無限遠を有限点に割り当てることができないため、非本質的特徴に比べてその重要性が小さくなる。 この問題に対処するため,我々は双曲空間,特にpoincareボールについて,永続図の表現を学ぶ手法を提案する。 無限の永続性の特徴をボールの境界に近い無限に表現することで、その距離と非必要特徴は無限に近づいたため、相対的な重要性が保たれる。 これは学習可能なパラメータに非常に高い値を用いることなく達成されるため、表現は下流最適化法に供給され、エンドツーエンドの方法で効率的に訓練することができる。 本研究は,グラフおよび画像分類タスクに関する実験結果から,本手法の性能が他の手法と同等かそれ以上であることを示す。

Learning task-specific representations of persistence diagrams is an important problem in topological data analysis and machine learning. However, current state of the art methods are restricted in terms of their expressivity as they are focused on Euclidean representations. Persistence diagrams often contain features of infinite persistence (i.e., essential features) and Euclidean spaces shrink their importance relative to non-essential features because they cannot assign infinite distance to finite points. To deal with this issue, we propose a method to learn representations of persistence diagrams on hyperbolic spaces, more specifically on the Poincare ball. By representing features of infinite persistence infinitesimally close to the boundary of the ball, their distance to non-essential features approaches infinity, thereby their relative importance is preserved. This is achieved without utilizing extremely high values for the learnable parameters, thus the representation can be fed into downstream optimization methods and trained efficiently in an end-to-end fashion. We present experimental results on graph and image classification tasks and show that the performance of our method is on par with or exceeds the performance of other state of the art methods.
翻訳日:2021-03-19 00:30:13 公開日:2021-03-16
# (参考訳) 高齢者における糖尿病の自己管理のためのパーソナルヘルスライブラリー対応mhealth recommenderシステム--ナレッジグラフとlinked dataを事例として

Using a Personal Health Library-Enabled mHealth Recommender System for Self-Management of Diabetes Among Underserved Populations: Use Case for Knowledge Graphs and Linked Data ( http://arxiv.org/abs/2103.09311v1 )

ライセンス: CC BY 4.0
Nariman Ammar, James E Bailey, Robert L Davis, Arash Shaban-Nejad(参考訳) パーソナルヘルスライブラリ(PHL)は、患者のデジタルヘルスデータへの安全なアクセスを提供し、デジタルヘルスプロファイルに格納された知識と、他のグローバルな知識ソースとの統合を可能にする。 PHLは、介護者や医療提供者に対して、彼らの生活の文脈で医療イベントを理解することによって、患者の健康に関する情報的な決定を下すのに役立つ。 本稿では,糖尿病成人のセルフケア行動を改善するためのリコメンデーションを提供するために,phlに記憶されたデジタルヘルスデータと,他のコンテキスト知識のソースの両方を組み込んだモバイルヘルスデジタル介入の実装について報告する。 文献的証拠をもとに,現在EHRから欠落している患者機能要件と非機能要件を理論的に評価した。 結果を使って、これらの要件に対応するために必要なテクノロジを特定しました。 PHLに格納されている知識の種類の構築、管理、統合に使用される技術基盤について述べる。 私たちはsocial linked data(solid)プラットフォームを活用して、相互運用性とケア統合をサポートする、完全に分散したプライバシー対応のプラットフォームを設計しています。 我々は,PHLの初期プロトタイプ設計を行い,提案したプロトタイプをユーザ要求にどう対応できるかを示すために,4人のアクタによるユースケースシナリオを作成した。PHLの構築と管理と,PHLに格納・統合された知識をプライベートかつ完全に分散的にクエリして,より優れたレコメンデーションを提供するモバイルアプリ開発への利用などだ。 提案するphlは、患者とその介護者が健康に関する意思決定において中心的な役割を担い、医療提供者に収集した知識の収集と解釈を支援するインフォマティクスツールを提供する。

Personal health libraries (PHLs) provide a single point of secure access to patients digital health data and enable the integration of knowledge stored in their digital health profiles with other sources of global knowledge. PHLs can help empower caregivers and health care providers to make informed decisions about patients health by understanding medical events in the context of their lives. This paper reports the implementation of a mobile health digital intervention that incorporates both digital health data stored in patients PHLs and other sources of contextual knowledge to deliver tailored recommendations for improving self-care behaviors in diabetic adults. We conducted a thematic assessment of patient functional and nonfunctional requirements that are missing from current EHRs based on evidence from the literature. We used the results to identify the technologies needed to address those requirements. We describe the technological infrastructures used to construct, manage, and integrate the types of knowledge stored in the PHL. We leverage the Social Linked Data (Solid) platform to design a fully decentralized and privacy-aware platform that supports interoperability and care integration. We provided an initial prototype design of a PHL and drafted a use case scenario that involves four actors to demonstrate how the proposed prototype can be used to address user requirements, including the construction and management of the PHL and its utilization for developing a mobile app that queries the knowledge stored and integrated into the PHL in a private and fully decentralized manner to provide better recommendations. The proposed PHL helps patients and their caregivers take a central role in making decisions regarding their health and equips their health care providers with informatics tools that support the collection and interpretation of the collected knowledge.
翻訳日:2021-03-18 23:55:30 公開日:2021-03-16
# (参考訳) グラフ畳み込みネットワークを用いた共同情報抽出のためのクロスタスクインスタンス表現相互作用とラベル依存性

Cross-Task Instance Representation Interactions and Label Dependencies for Joint Information Extraction with Graph Convolutional Networks ( http://arxiv.org/abs/2103.09330v1 )

ライセンス: CC BY-SA 4.0
Minh Van Nguyen, Viet Dac Lai and Thien Huu Nguyen(参考訳) 情報抽出(ie)に関する既存の研究は、主に4つの主要なタスク(エンティティ参照認識、関係抽出、イベントトリガー検出、引数抽出)を個別に解決しており、タスク間の相互依存性の恩恵を受けていない。 本稿では,1つのモデル(FourIE)でIEの4つのタスクを同時に解くための新しいディープラーニングモデルを提案する。 4つのIEタスクを共同実行する以前の作業と比べて、FourIEはタスク間の依存関係をキャプチャする2つの新しいコントリビューションを備えている。 まず、表現レベルでは、4つのタスクのインスタンス間の相互作用グラフを導入し、1つのタスクの予測表現と、他のタスクの関連インスタンスとの相互作用グラフを導入する。 第2に、ラベルレベルにおいて、入力文で表現された型間の接続をキャプチャする4つのIEタスクにおける情報型に対する依存性グラフを提案する。 黄金型依存グラフと予測型依存グラフの一貫性を強制し、表現学習を改善するために、新しい正規化機構が導入された。 提案モデルは,3つの異なる言語を用いた単言語学習と多言語学習の両方において,ieの最先端性能を実現する。

Existing works on information extraction (IE) have mainly solved the four main tasks separately (entity mention recognition, relation extraction, event trigger detection, and argument extraction), thus failing to benefit from inter-dependencies between tasks. This paper presents a novel deep learning model to simultaneously solve the four tasks of IE in a single model (called FourIE). Compared to few prior work on jointly performing four IE tasks, FourIE features two novel contributions to capture inter-dependencies between tasks. First, at the representation level, we introduce an interaction graph between instances of the four tasks that is used to enrich the prediction representation for one instance with those from related instances of other tasks. Second, at the label level, we propose a dependency graph for the information types in the four IE tasks that captures the connections between the types expressed in an input sentence. A new regularization mechanism is introduced to enforce the consistency between the golden and predicted type dependency graphs to improve representation learning. We show that the proposed model achieves the state-of-the-art performance for joint IE on both monolingual and multilingual learning settings with three different languages.
翻訳日:2021-03-18 23:30:42 公開日:2021-03-16
# (参考訳) Digital Peter: データセット,コンペティション,手書き認識方法

Digital Peter: Dataset, Competition and Handwriting Recognition Methods ( http://arxiv.org/abs/2103.09354v1 )

ライセンス: CC BY 4.0
Mark Potanin, Denis Dimitrov, Alex Shonenkov, Vladimir Bataev, Denis Karachev and Maxim Novopoltsev(参考訳) 本稿では,peter the great's manuscriptsの新しいデータセットを提示し,文書の初期画像を行に変換するセグメンテーション手順について述べる。 新しいデータセットは、異なるモデルを比較するベンチマークとして手書き文字認識モデルを訓練する研究者にとって有用かもしれない。 歴史文書の行に対応する9つの694の画像とテキストファイルで構成されている。 オープン機械学習コンペティションDigital Peterは、検討されたデータセットに基づいて開催された。 このコンペのベースライン・ソリューションや、手書きのテキスト認識に関するより高度な方法がこの記事に記載されている。 完全なデータセットとすべてのコードが公開されている。

This paper presents a new dataset of Peter the Great's manuscripts and describes a segmentation procedure that converts initial images of documents into the lines. The new dataset may be useful for researchers to train handwriting text recognition models as a benchmark for comparing different models. It consists of 9 694 images and text files corresponding to lines in historical documents. The open machine learning competition Digital Peter was held based on the considered dataset. The baseline solution for this competition as well as more advanced methods on handwritten text recognition are described in the article. Full dataset and all code are publicly available.
翻訳日:2021-03-18 23:06:23 公開日:2021-03-16
# (参考訳) 物理的に一貫したデータ駆動天気予報に向けて--等分散保存深部変圧器によるデータ同化の統合

Towards physically consistent data-driven weather forecasting: Integrating data assimilation with equivariance-preserving deep spatial transformers ( http://arxiv.org/abs/2103.09360v1 )

ライセンス: CC BY 4.0
Ashesh Chattopadhyay, Mustafa Mustafa, Pedram Hassanzadeh, Eviatar Bach, Karthik Kashinath(参考訳) 例えば、モデルからのデータや再分析に基づいてトレーニングされたU-NETのような畳み込みニューラルネットワークを使用することで、データ駆動型天気予報(DDWP)への関心が高まっている。 本稿では,その物理的一貫性と予測精度を向上させるために,一般的なddwpモデルと統合するための3つのコンポーネントを提案する。 These components are 1) a deep spatial transformer added to the latent space of the U-NETs to preserve a property called equivariance, which is related to correctly capturing rotations and scalings of features in spatio-temporal data, 2) a data-assimilation (DA) algorithm to ingest noisy observations and improve the initial conditions for next forecasts, and 3) a multi-time-step algorithm, which combines forecasts from DDWP models with different time steps through DA, improving the accuracy of forecasts at short intervals. ERA5の再解析から500~hPa (Z500) の測地的高さを用いて, DDWPフレームワークの特定の設定の短期的予測精度を検証した。 その結果, 等価保存ネットワーク(U-STN)はU-NETより明らかに優れており, 例えば予測能力が45.5%向上した。 DAとU-STNのSigma-point ensemble Kalman (SPEnKF) アルゴリズムをフォワードモデルとして用いて, 高い観測ノイズを伴っても, 安定かつ正確なDAサイクルが得られることを示す。 DDWP+DAフレームワークは、DAサイクル毎にデータ駆動のフォワードモデルで安価に生成される大規模な(O(1000)$)アンサンブルから実質的に恩恵を受ける。 DDWP+DAフレームワークは、例えば平均エラーを2~3の係数で削減するという約束も示している。

There is growing interest in data-driven weather prediction (DDWP), for example using convolutional neural networks such as U-NETs that are trained on data from models or reanalysis. Here, we propose 3 components to integrate with commonly used DDWP models in order to improve their physical consistency and forecast accuracy. These components are 1) a deep spatial transformer added to the latent space of the U-NETs to preserve a property called equivariance, which is related to correctly capturing rotations and scalings of features in spatio-temporal data, 2) a data-assimilation (DA) algorithm to ingest noisy observations and improve the initial conditions for next forecasts, and 3) a multi-time-step algorithm, which combines forecasts from DDWP models with different time steps through DA, improving the accuracy of forecasts at short intervals. To show the benefit/feasibility of each component, we use geopotential height at 500~hPa (Z500) from ERA5 reanalysis and examine the short-term forecast accuracy of specific setups of the DDWP framework. Results show that the equivariance-preserving networks (U-STNs) clearly outperform the U-NETs, for example improving the forecast skill by $45\%$. Using a sigma-point ensemble Kalman (SPEnKF) algorithm for DA and U-STN as the forward model, we show that stable, accurate DA cycles are achieved even with high observation noise. The DDWP+DA framework substantially benefits from large ($O(1000)$) ensembles that are inexpensively generated with the data-driven forward model in each DA cycle. The multi-time-step DDWP+DA framework also shows promises, e.g., it reduces the average error by factors of 2-3.
翻訳日:2021-03-18 22:51:28 公開日:2021-03-16
# バイオインスパイアされたロバストネス

Bio-inspired Robustness: A Review ( http://arxiv.org/abs/2103.09265v1 )

ライセンス: Link先を確認
Harshitha Machiraju, Oh-Hyeon Choung, Pascal Frossard, Michael. H Herzog(参考訳) 深層畳み込みニューラルネットワーク(dcnn)はコンピュータビジョンに革命をもたらし、しばしば人間の視覚システムの良いモデルとして主張されている。 しかし、現在DCNNには多くの欠点があり、人間の視覚のモデルとして利用できない。 例えば、敵対的な攻撃の場合、オブジェクトを含む画像に少量のノイズを加えると、そのオブジェクトの強い誤分類につながる可能性がある。 しかし、人間にとってノイズはしばしば目に見えない。 敵対的ノイズに対する脆弱性が修正できない場合、DCNNは人間の視覚の真剣なモデルとみなすことはできない。 多くの研究が、ヒトの視覚系の特徴をDCNNに追加し、敵の攻撃に対して堅牢にしようと試みている。 しかし、DCNNにおけるこれらの新しいコンポーネントの性能評価がしばしば不確定であるため、人間の視覚にインスパイアされたコンポーネントがロバスト性を高めるか否かは明らかになっていない。 これらの基準に基づいて, 適切な評価と分析のための一連の基準を提案する。 我々はついに、DCCNを人間の視覚モデルに一歩近付けるための将来の取り組みをスケッチした。

Deep convolutional neural networks (DCNNs) have revolutionized computer vision and are often advocated as good models of the human visual system. However, there are currently many shortcomings of DCNNs, which preclude them as a model of human vision. For example, in the case of adversarial attacks, where adding small amounts of noise to an image, including an object, can lead to strong misclassification of that object. But for humans, the noise is often invisible. If vulnerability to adversarial noise cannot be fixed, DCNNs cannot be taken as serious models of human vision. Many studies have tried to add features of the human visual system to DCNNs to make them robust against adversarial attacks. However, it is not fully clear whether human vision inspired components increase robustness because performance evaluations of these novel components in DCNNs are often inconclusive. We propose a set of criteria for proper evaluation and analyze different models according to these criteria. We finally sketch future efforts to make DCCNs one step closer to the model of human vision.
翻訳日:2021-03-18 13:12:06 公開日:2021-03-16
# スワヒリニュース分類のためのグラフ畳み込みネットワーク

Graph Convolutional Network for Swahili News Classification ( http://arxiv.org/abs/2103.09325v1 )

ライセンス: Link先を確認
Alexandros Kastanos and Tyler Martin(参考訳) この研究は、半教師付きスワヒリニュース分類のタスクにおいて、テキストグラフ畳み込みネットワーク(Text GCN)が従来の自然言語処理ベンチマークより優れていることを実証的に示す。 特に,低資源のアフリカ語に直面する実用的な制約を代表して,疎結合な半教師付き文脈に着目した実験を行った。 そこで本研究では,テキストGCNのメモリフットプリントを減少させるため,テキストGCNモデルの変種を導入し,テキストGCNのメモリフットプリントを減少させる手法を提案する。

This work empirically demonstrates the ability of Text Graph Convolutional Network (Text GCN) to outperform traditional natural language processing benchmarks for the task of semi-supervised Swahili news classification. In particular, we focus our experimentation on the sparsely-labelled semi-supervised context which is representative of the practical constraints facing low-resourced African languages. We follow up on this result by introducing a variant of the Text GCN model which utilises a bag of words embedding rather than a naive one-hot encoding to reduce the memory footprint of Text GCN whilst demonstrating similar predictive performance.
翻訳日:2021-03-18 13:09:28 公開日:2021-03-16
# 乱暴な価格変動: バンディットフィードバックによる単調確率凸最適化

Taming Wild Price Fluctuations: Monotone Stochastic Convex Optimization with Bandit Feedback ( http://arxiv.org/abs/2103.09287v1 )

ライセンス: Link先を確認
Jad Salem, Swati Gupta, Vijay Kamble(参考訳) 自動価格実験アルゴリズムによって生成される価格は、しばしば急激な変動を示し、好ましくない顧客の認識や個人の公正さの侵害につながる。 この問題に対処するため,帯域幅フィードバックを用いた確率凸最適化の枠組みにおいて,価格列の単調性制約の下で需要学習を提案する。 我々の主な貢献は、ノイズと無ノイズのバンディットフィードバックの下での滑らかで強い凹凸収益関数に対する単調価格実験のための最初のサブリニア・レグレットアルゴリズムの設計である。 決定レベルのいかなる増加(または減少)も最終的なものであるので、アルゴリズムは最適のオーバーシュートを避けるために、その探索において慎重でなければならない。 同時に、後悔を最小限に抑えるには、十分なペースで最適な方向に進む必要がある。 この2つの目標のバランスをとることは、ノイズの多いフィードバックの下では特に難しい。 我々の重要な革新は、保守的な勾配推定を利用して、局所的な勾配情報への注意度を適応的に調整し、最適から遠く離れ、価格が最適に近づくにつれて、より慎重になることです。 重要な点として,我々のアルゴリズムは,単調性の要件を伴わずに,最高の後悔率(対数的要因による)を保証できることを示した。

Prices generated by automated price experimentation algorithms often display wild fluctuations, leading to unfavorable customer perceptions and violations of individual fairness: e.g., the price seen by a customer can be significantly higher than what was seen by her predecessors, only to fall once again later. To address this concern, we propose demand learning under a monotonicity constraint on the sequence of prices, within the framework of stochastic convex optimization with bandit feedback. Our main contribution is the design of the first sublinear-regret algorithms for monotonic price experimentation for smooth and strongly concave revenue functions under noisy as well as noiseless bandit feedback. The monotonicity constraint presents a unique challenge: since any increase (or decrease) in the decision-levels is final, an algorithm needs to be cautious in its exploration to avoid over-shooting the optimum. At the same time, minimizing regret requires that progress be made towards the optimum at a sufficient pace. Balancing these two goals is particularly challenging under noisy feedback, where obtaining sufficiently accurate gradient estimates is expensive. Our key innovation is to utilize conservative gradient estimates to adaptively tailor the degree of caution to local gradient information, being aggressive far from the optimum and being increasingly cautious as the prices approach the optimum. Importantly, we show that our algorithms guarantee the same regret rates (up to logarithmic factors) as the best achievable rates of regret without the monotonicity requirement.
翻訳日:2021-03-18 13:06:03 公開日:2021-03-16
# 非ラベルデータを用いた一般化手術器具分割のためのコージェネレーションとセグメンテーション

Co-Generation and Segmentation for Generalized Surgical Instrument Segmentation on Unlabelled Data ( http://arxiv.org/abs/2103.09276v1 )

ライセンス: Link先を確認
Megha Kalia, Tajwar Abrar Aleef, Nassir Navab, and Septimiu E. Salcudean(参考訳) ロボット支援手術のための手術器具セグメンテーションは、正確な計器追跡と拡張現実オーバーレイのために必要である。 そのため、この話題はCAIコミュニティにおける最近の多くの論文の主題となっている。 深層学習法では手術器具のセグメンテーションに最先端のパフォーマンスが示されたが,結果はラベル付きデータに依存する。 しかし,ラベル付き手術データは有用性が低く,術中翻訳のボトルネックとなっている。 本稿では,ロボットによる手術を含むさまざまなデータセット上で,これらの手法の限定的な一般化性を実証する。 次に,ラベル付きデータを持たない領域に対して,よりよい一般化能力を持つセグメンテーションモデルを学ぶための新しいジョイント生成とセグメンテーション戦略を提案する。 この方法は異なるドメインにおけるラベル付きデータの可用性を活用する。 ジェネレータはラベル付きドメインからラベルなしドメインへのドメイン変換を行い、同時にセグメンテーションモデルが生成したデータを使用して生成モデルを正規化しながら学習する。 本手法を最先端手法と比較し,公開データセットと,ロボット支援プロスタクトミーによる自記録ビデオフレームの汎用性を示した。 提案手法では,ラベル付きドメインとラベル付きドメインの両方において,一方のドメインでのみデータを利用できる場合,平均diceスコアが一貫して高い値を示す。 ※カリアとアレフは写本に等しく貢献した。

Surgical instrument segmentation for robot-assisted surgery is needed for accurate instrument tracking and augmented reality overlays. Therefore, the topic has been the subject of a number of recent papers in the CAI community. Deep learning-based methods have shown state-of-the-art performance for surgical instrument segmentation, but their results depend on labelled data. However, labelled surgical data is of limited availability and is a bottleneck in surgical translation of these methods. In this paper, we demonstrate the limited generalizability of these methods on different datasets, including human robot-assisted surgeries. We then propose a novel joint generation and segmentation strategy to learn a segmentation model with better generalization capability to domains that have no labelled data. The method leverages the availability of labelled data in a different domain. The generator does the domain translation from the labelled domain to the unlabelled domain and simultaneously, the segmentation model learns using the generated data while regularizing the generative model. We compared our method with state-of-the-art methods and showed its generalizability on publicly available datasets and on our own recorded video frames from robot-assisted prostatectomies. Our method shows consistently high mean Dice scores on both labelled and unlabelled domains when data is available only for one of the domains. *M. Kalia and T. Aleef contributed equally to the manuscript
翻訳日:2021-03-18 13:02:34 公開日:2021-03-16
# atrous convolution とextrest enhanced unet を用いた大腸癌の分節化

Colorectal Cancer Segmentation using Atrous Convolution and Residual Enhanced UNet ( http://arxiv.org/abs/2103.09289v1 )

ライセンス: Link先を確認
Nisarg A. Shah, Divij Gupta, Romil Lodaya, Ujjwal Baid, and Sanjay Talbar(参考訳) 大腸癌は世界中で主要な死因である。 しかし、早期診断は生存率を劇的に増加させ、体内の腫瘍を同定することが重要である。 画像は高解像度技術を使っているため、腫瘍に注釈をつけるのに時間がかかり、特別な専門知識を必要とする。 近年、畳み込みニューラルネットワーク(CNN)に基づく手法は、多くのバイオメディカルセグメンテーションタスクでは良くないが、同等であることが証明されている。 そこで本研究では,従来のフィルタの他に有意な畳み込みと残差接続を用いたcnnベースの手法を提案する。 トレーニングと推論は効率的なパッチベースのアプローチで行われ、不要な計算を大幅に削減した。 提案するatresunetはdice係数0.748の大腸癌分画のための digestpath 2019 challengeデータセットでトレーニングされた。

Colorectal cancer is a leading cause of death worldwide. However, early diagnosis dramatically increases the chances of survival, for which it is crucial to identify the tumor in the body. Since its imaging uses high-resolution techniques, annotating the tumor is time-consuming and requires particular expertise. Lately, methods built upon Convolutional Neural Networks(CNNs) have proven to be at par, if not better in many biomedical segmentation tasks. For the task at hand, we propose another CNN-based approach, which uses atrous convolutions and residual connections besides the conventional filters. The training and inference were made using an efficient patch-based approach, which significantly reduced unnecessary computations. The proposed AtResUNet was trained on the DigestPath 2019 Challenge dataset for colorectal cancer segmentation with results having a Dice Coefficient of 0.748.
翻訳日:2021-03-18 13:02:13 公開日:2021-03-16
# 希少データのための深部時系列モデル

Deep Time Series Models for Scarce Data ( http://arxiv.org/abs/2103.09348v1 )

ライセンス: Link先を確認
Qiyao Wang, Ahmed Farahat, Chetan Gupta, Shuai Zheng(参考訳) 時系列データは多くの領域で爆発的な速度で成長し、時系列モデリングの研究が急増している。 データ分析タスクとして、さまざまな時系列モデルの包括的な比較は、データ分析実践者のためのモデル選択に関する有用なガイダンスを提供する。 データ不足は、データの収集、生成、ラベリングに関連する高いコストと、データ欠落などのデータ品質の問題によって、幅広いデータ分析問題で発生する普遍的な問題である。 本稿では,多変量時系列入力から離散クラスラベルや実数値応答変数への数学的マッピングを構築するための時間的分類/回帰問題に焦点を当てる。 そこで本研究では,小サンプルの不足データと,わずかかつ不規則に観測された時系列共変量の不足データという,2種類の不足データを特定する。 そこで本研究では,すべての既存作業がスパース時系列入力を適切にモデル化するために利用できないことを確認し,時系列共変器の疎度を扱うために,スパース関数型多層パーセプトロン(SFMLP)と呼ばれるモデルを提案する。 従来の深層逐次学習モデル(recurrent neural network, long short-term memoryなど)と比較し,この2種類のデータ不足に対するsfmlpの有効性を数学的考察と数値実験により検討した。

Time series data have grown at an explosive rate in numerous domains and have stimulated a surge of time series modeling research. A comprehensive comparison of different time series models, for a considered data analytics task, provides useful guidance on model selection for data analytics practitioners. Data scarcity is a universal issue that occurs in a vast range of data analytics problems, due to the high costs associated with collecting, generating, and labeling data as well as some data quality issues such as missing data. In this paper, we focus on the temporal classification/regression problem that attempts to build a mathematical mapping from multivariate time series inputs to a discrete class label or a real-valued response variable. For this specific problem, we identify two types of scarce data: scarce data with small samples and scarce data with sparsely and irregularly observed time series covariates. Observing that all existing works are incapable of utilizing the sparse time series inputs for proper modeling building, we propose a model called sparse functional multilayer perceptron (SFMLP) for handling the sparsity in the time series covariates. The effectiveness of the proposed SFMLP under each of the two types of data scarcity, in comparison with the conventional deep sequential learning models (e.g., Recurrent Neural Network, and Long Short-Term Memory), is investigated through mathematical arguments and numerical experiments.
翻訳日:2021-03-18 12:56:59 公開日:2021-03-16
# K-expectiles クラスタリング

K-expectiles clustering ( http://arxiv.org/abs/2103.09329v1 )

ライセンス: Link先を確認
Bingling Wang, Yinxing Li, Wolfgang Karl H\"ardle(参考訳) K$-meansクラスタリングは、クラスタ分析において、その単純さと計算効率から最も広く使われているパーティショニングアルゴリズムの1つである。 しかし、k$-meansは非球型クラスタのデータに適用する場合、適切なクラスタリング結果を提供しない。 本稿では,期待値に基づく分割クラスタリングアルゴリズムを提案する。 クラスター中心は多変量期待値として定義され、クラスタは内クラスタ '$\tau$ -variance' を最小化することで欲張りなアルゴリズムで探索される。 固定$\tau$クラスタリングと適応$\tau$クラスタリングの2つのスキームを提案する。 シミュレーションの結果により検証され、非対称なクラスタを持つデータ上での$K$平均とスペクトルクラスタリング、あるいは非対称正規、ベータ、スキュード$t$および$F$分散クラスタを含む複雑な構造を持つクラスタを破る。 暗号通貨(CC)市場データに対するアダプティブ$\tau$クラスタリングの応用が提供される。 CC市場の期待するクラスターが、機関投資家が市場を支配している現象を示していることが分かる。 第2のアプリケーションはイメージセグメンテーションです。 他のセンターベースのクラスタリング手法と比較して、ピクセルデータのアダプティブ$\tau$クラスタセンターは、画像の特徴をよりよくキャプチャして記述することができる。 固定された$\tau$クラスタリングは、適切な精度でセグメンテーションの柔軟性を高める。

$K$-means clustering is one of the most widely-used partitioning algorithm in cluster analysis due to its simplicity and computational efficiency. However, $K$-means does not provide an appropriate clustering result when applying to data with non-spherically shaped clusters. We propose a novel partitioning clustering algorithm based on expectiles. The cluster centers are defined as multivariate expectiles and clusters are searched via a greedy algorithm by minimizing the within cluster '$\tau$ -variance'. We suggest two schemes: fixed $\tau$ clustering, and adaptive $\tau$ clustering. Validated by simulation results, this method beats both $K$-means and spectral clustering on data with asymmetric shaped clusters, or clusters with a complicated structure, including asymmetric normal, beta, skewed $t$ and $F$ distributed clusters. Applications of adaptive $\tau$ clustering on crypto-currency (CC) market data are provided. One finds that the expectiles clusters of CC markets show the phenomena of an institutional investors dominated market. The second application is on image segmentation. compared to other center based clustering methods, the adaptive $\tau$ cluster centers of pixel data can better capture and describe the features of an image. The fixed $\tau$ clustering brings more flexibility on segmentation with a decent accuracy.
翻訳日:2021-03-18 12:55:12 公開日:2021-03-16
# 高分解能空中画像を用いた建物足跡検出のための深層学習法の比較検討

A comparative study of deep learning methods for building footprints detection using high spatial resolution aerial images ( http://arxiv.org/abs/2103.09300v1 )

ライセンス: Link先を確認
Hongjie He, Ke Yang, Yuwei Cai, Zijian Jiang, Qiutong Yu, Kun Zhao, Junbo Wang, Sarah Narges Fatholahi, Yan Liu, Hasti Andon Petrosians, Bingxu Hu, Liyuan Qing, Zhehan Zhang, Hongzhang Xu, Siyu Li, Linlin Xu, Jonathan Li(参考訳) 足跡データの構築は、いくつかの都市応用と自然災害管理において重要である。 従来の測量やマッピングとは対照的に、高空間分解能空中画像を用いて、ディープラーニングベースの建物足跡抽出手法は、建物の足跡を正確かつ効率的に抽出することができる。 ディープラーニング手法の急速な発展により、初心者は足跡抽出に強力なツールを活用することが困難になる。 本研究の目的は,深層学習を用いた高解像度画像からフットプリントを抽出するプロセス全体を提供することである。 さらに,Fully Convolutional Networks (FCN)-8s,U-Net,DeepLabv3+といった一般的な手法との比較を行った。 研究の最後には、モデルトレーニングで使用されるデータサイズを変更して、データサイズがアルゴリズムのパフォーマンスに与える影響を調べる。 実験によると、異なるデータサイズにおいて、DeepLabv3+は最も精度が高く、適度な効率のアルゴリズムであり、FCN-8sは最悪の精度と最高効率を示し、U-Netは適度な精度と最低効率を示している。 さらに、より多くのトレーニングデータにより、アルゴリズムは抽出結果の精度を高めてより高速に収束した。

Building footprints data is of importance in several urban applications and natural disaster management. In contrast to traditional surveying and mapping, using high spatial resolution aerial images, deep learning-based building footprints extraction methods can extract building footprints accurately and efficiently. With rapidly development of deep learning methods, it is hard for novice to harness the powerful tools in building footprints extraction. The paper aims at providing the whole process of building footprints extraction from high spatial resolution images using deep learning-based methods. In addition, we also compare the commonly used methods, including Fully Convolutional Networks (FCN)-8s, U-Net and DeepLabv3+. At the end of the work, we change the data size used in models training to explore the influence of data size to the performance of the algorithms. The experiments show that, in different data size, DeepLabv3+ is the best algorithm among them with the highest accuracy and moderate efficiency; FCN-8s has the worst accuracy and highest efficiency; U-Net shows the moderate accuracy and lowest efficiency. In addition, with more training data, algorithms converged faster with higher accuracy in extraction results.
翻訳日:2021-03-18 12:54:33 公開日:2021-03-16
# SoWaF: ウェイトとフィーチャーマップのシャッフル: 畳み込みニューラルネットワーク(CNN)に対するハードウェア固有の新たな攻撃(HIA)

SoWaF: Shuffling of Weights and Feature Maps: A Novel Hardware Intrinsic Attack (HIA) on Convolutional Neural Network (CNN) ( http://arxiv.org/abs/2103.09327v1 )

ライセンス: Link先を確認
Tolulope A. Odetola and Syed Rafay Hasan(参考訳) Convolutional Neural Network(CNN)のリソース制約組み込みシステム(例)への推論フェーズ展開のセキュリティ ローエンドFPGAは 研究領域として成長しています セキュアなプラクティスを使用することで、サードパーティのFPGAデザイナは、初期層と最終層の知識を得られない。 本研究では、ハードウェア固有の攻撃(HIA)が依然として「安全な」設計で可能であることを示す。 提案されたhiaは、cnnの個々の層の数学的操作の中に挿入され、その後の全てのcnn層の誤分類につながる誤操作を伝播する。 攻撃は非周期的で完全にランダムであるため、検出が困難になる。 各cnn層に対する5つの異なる攻撃シナリオを、オーバーヘッドリソースと元の実装と比較してトリガ率に基づいて設計し、評価する。 2つのCNNアーキテクチャの結果、全ての攻撃シナリオにおいて、追加のレイテンシは無視可能である(<0.61%)、DSP、LUT、FFは2.36%未満である。 3つの攻撃シナリオは追加のBRAMリソースを必要としないが、2つのシナリオではBRAMが増加し、FFとLUTの減少に対応する。 著者の知る限りでは、この研究はハードウェア固有のCNN攻撃に最初に対処するものであり、攻撃者は完全なCNNの知識を持っていない。

Security of inference phase deployment of Convolutional neural network (CNN) into resource constrained embedded systems (e.g. low end FPGAs) is a growing research area. Using secure practices, third party FPGA designers can be provided with no knowledge of initial and final classification layers. In this work, we demonstrate that hardware intrinsic attack (HIA) in such a "secure" design is still possible. Proposed HIA is inserted inside mathematical operations of individual layers of CNN, which propagates erroneous operations in all the subsequent CNN layers that lead to misclassification. The attack is non-periodic and completely random, hence it becomes difficult to detect. Five different attack scenarios with respect to each CNN layer are designed and evaluated based on the overhead resources and the rate of triggering in comparison to the original implementation. Our results for two CNN architectures show that in all the attack scenarios, additional latency is negligible (<0.61%), increment in DSP, LUT, FF is also less than 2.36%. Three attack scenarios do not require any additional BRAM resources, while in two scenarios BRAM increases, which compensates with the corresponding decrease in FF and LUTs. To the authors' best knowledge this work is the first to address the hardware intrinsic CNN attack with the attacker does not have knowledge of the full CNN.
翻訳日:2021-03-18 12:52:57 公開日:2021-03-16
# フェイクニュースサイトの増加と衰退:トラフィック分析

The Rise and Fall of Fake News sites: A Traffic Analysis ( http://arxiv.org/abs/2103.09258v1 )

ライセンス: Link先を確認
Manolis Chalkiadakis, Alexandros Kornilakis, Panagiotis Papadopoulos, Evangelos P. Markatos, Nicolas Kourtellis(参考訳) 過去10年間で、インターネット上での誤情報の台頭を目撃し、オンラインユーザーは偽ニュースの犠牲者を常に抱えている。 多くの過去の研究が偽ニュース拡散機構と検出と緩和技術を分析している。 偽ニュースサイトはいくつあるのか? それらは通常、長い時間オンラインにとどまりますか? このようなwebサイトは、お互いのアップダウンタイムを同期しているか? 同様のコンテンツを時間をかけて共有するのか? どのサードパーティが自分たちのオペレーションをサポートするのか? メインストリームや本物のニュースサイトと比べて、どのくらいのユーザートラフィックを惹きつけるのか? 本稿では,フェイクニュースサイトの存在に関する質問に回答し,実際のニュースサイトと比較してその行動を特徴付けるため,この種の調査を初めて実施する。 この結果に基づき、偽ニュースサイトを自動的に検出するコンテンツ非依存のML分類器を構築した。 手作業によるブラックリストには含まれていない。

Over the past decade, we have witnessed the rise of misinformation on the Internet, with online users constantly falling victims of fake news. A multitude of past studies have analyzed fake news diffusion mechanics and detection and mitigation techniques. However, there are still open questions about their operational behavior such as: How old are fake news websites? Do they typically stay online for long periods of time? Do such websites synchronize with each other their up and down time? Do they share similar content through time? Which third-parties support their operations? How much user traffic do they attract, in comparison to mainstream or real news websites? In this paper, we perform a first of its kind investigation to answer such questions regarding the online presence of fake news websites and characterize their behavior in comparison to real news websites. Based on our findings, we build a content-agnostic ML classifier for automatic detection of fake news websites (i.e. accuracy) that are not yet included in manually curated blacklists.
翻訳日:2021-03-18 12:52:00 公開日:2021-03-16
# 移行学習を用いたモバイルアプリケーションテストのための実時間クラウドアクセス時間の生成

Generation of Realistic Cloud Access Times for Mobile Application Testing using Transfer Learning ( http://arxiv.org/abs/2103.09355v1 )

ライセンス: Link先を確認
Manoj R. Rege, Vlado Handziski, Adam Wolisz(参考訳) アクセス時間、帯域幅、パケットロスといったqos(network quality of service)メトリクスは、モバイルアプリケーションのqoe(quality of experience)を決定する上で重要な役割を果たす。 Radio Resource Control (RRC) 状態、Mobile Network Operator (MNO) 固有の再送信構成、ユーザモビリティによって引き起こされるハンドオーバ、ネットワーク負荷など、さまざまな要因があります。 4G/LTE上のこれらのQoSメトリクスや、アプリケーションQoEに有害なWiFiネットワークに高いばらつきを引き起こす可能性がある。 したがって、モバイルアプリケーションを現実的なネットワークQoSメトリクスに公開することは、QoEを予測しようとするテスタにとって非常に重要です。 有効なアプローチは、合成トレースを使用したテストである。 realisitc合成トレースの生成における大きな課題は、環境の多様性と、ジェネレータを校正するための実トレースの広い範囲の欠如である。 本稿では,Long Short Term Memory(LSTM)ニューラルネットを用いた転送学習に基づく計測駆動手法について述べる。 この手法では、提示された基本モデルを新しい環境に適用するために、ターゲット環境の比較的短いサンプルが必要である。 この機能は,数千分で測定された6000サンプルのトレースサイズを持つ,多様なターゲット環境に適用可能な,現実的なWiFiおよびLTEクラウドアクセス時間モデルに対して提案する。 これらのモデルから生成された合成トレースは、その外れ値を含むアプリケーションqoeメトリック分布を正確に再現できることを実証する。

The network Quality of Service (QoS) metrics such as the access time, the bandwidth, and the packet loss play an important role in determining the Quality of Experience (QoE) of mobile applications. Various factors like the Radio Resource Control (RRC) states, the Mobile Network Operator (MNO) specific retransmission configurations, handovers triggered by the user mobility, the network load etc. can cause high variability in these QoS metrics on 4G/LTE, and WiFi networks, which can be detrimental to the application QoE. Therefore, exposing mobile application to realistic network QoS metrics is critical for testers attempting to predict its QoE. A viable approach is testing using synthetic traces. The main challenge in generation of realisitc synthetic traces is the diversity of environments and lack of wide scope of real traces to calibrate the generators. In this paper, we describe a measurement-driven methodology based on transfer learning with Long Short Term Memory (LSTM) neural nets to solve this problem. The methodology requires a relatively short sample of the targeted environment to adapt the presented basic model to new environments, thus simplifying synthetic traces generation. We present this feature for realistic WiFi and LTE cloud access time models adapted for diverse target environments with a trace size of just 6000 samples measured over a few tens of minutes. We demonstrate that synthetic traces generated from these models are capable of accurately reproducing application QoE metric distributions including their outlier values.
翻訳日:2021-03-18 12:51:49 公開日:2021-03-16
# 逆サブマーチンガルと交換性濾過を用いた凸発散の逐次推定

Sequential Estimation of Convex Divergences using Reverse Submartingales and Exchangeable Filtrations ( http://arxiv.org/abs/2103.09267v1 )

ライセンス: Link先を確認
Tudor Manole, Aaditya Ramdas(参考訳) 本稿では,分布間の凸発散を逐次推定するための統一的な手法として,カーネルの最大平均偏差のような積分確率メトリクス,kullback-leibler発散のような$\varphi$-divergences,wasserstein距離のパワーなどの最適輸送コストなどを提案する。 我々のアプローチの技術的基盤は、経験的凸発散は交換可能な濾過に関して(部分的に順序づけられた)逆置換であり、そのような過程の最大不等式と結びついている。 これらの技法は、信頼シーケンスと凸発散の両方の既存の文献に強力な付加物であるように見える。 我々は,既存のオフライン濃度の不等式を連続的に監視可能な時間一様信頼シーケンスに変換し,任意の停止時間に有効な推論を提供するオフライン・ツー・シークエンシャルデバイスを構築した。 得られた逐次境界は、対応する固定時間境界に対して反復対数価格のみを支払い、問題パラメータ(適用可能な場合の寸法やアルファベットサイズなど)に同じ依存を保持する。

We present a unified technique for sequential estimation of convex divergences between distributions, including integral probability metrics like the kernel maximum mean discrepancy, $\varphi$-divergences like the Kullback-Leibler divergence, and optimal transport costs, such as powers of Wasserstein distances. The technical underpinnings of our approach lie in the observation that empirical convex divergences are (partially ordered) reverse submartingales with respect to the exchangeable filtration, coupled with maximal inequalities for such processes. These techniques appear to be powerful additions to the existing literature on both confidence sequences and convex divergences. We construct an offline-to-sequential device that converts a wide array of existing offline concentration inequalities into time-uniform confidence sequences that can be continuously monitored, providing valid inference at arbitrary stopping times. The resulting sequential bounds pay only an iterated logarithmic price over the corresponding fixed-time bounds, retaining the same dependence on problem parameters (like dimension or alphabet size if applicable).
翻訳日:2021-03-18 12:49:57 公開日:2021-03-16
# (参考訳) diaret:統合勾配を有する糖尿病網膜症の評価のためのブラウザベースのアプリケーション

DiaRet: A browser-based application for the grading of Diabetic Retinopathy with Integrated Gradients ( http://arxiv.org/abs/2103.08501v2 )

ライセンス: CC BY 4.0
Shaswat Patel, Maithili Lohakare, Samyak Prajapati, Shaanya Singh, Nancy Patel(参考訳) 糖尿病は代謝障害であり、タイプ1の自己免疫性β細胞破壊の欠陥、またはタイプ2のインスリン作用に対する末梢性抵抗性、またはその両方によって引き起こされる。 長期糖尿病患者はしばしば糖尿病網膜症(dr)にかかり、人間の目の網膜が変化し、極端な症例では視力が失われる可能性がある。 本研究の目的は2つある: (a) 劣化した網膜眼底画像のグレードに訓練されたディープラーニングモデルを作成し、 (b) 眼底画像の重要な特徴を強調して診断手順を支援するブラウザベースのアプリケーションを作成することである。 深層学習はコンピュータ支援型DR診断で成功し、早期発見と盲目の予防に繋がった。 本研究は,光透過外乱,画像ブラリング,網膜アーティファクト挿入の複数の組み合わせに基づいて,歪みによる画像の劣化をエミュレートした。 これらの劣化画像は、複数のディープラーニングに基づく畳み込みニューラルネットワークのトレーニングに使用された。 InceptionV3、ResNet-50、InceptionResNetV2を複数のデータセットでトレーニングしました。 これらのモデルは、重症度レベルに基づいて網膜基底画像の分類に使用され、さらにブラウザベースのアプリケーションの作成に利用され、各クラスに関連するモデルの予測と確率が示される。 また、入力画像に重畳された統合勾配(ig)アトリビューションマスクも表示される。 ブラウザベースのアプリケーションの作成は、モデルによる教育を受けた予測に基づいて、眼科医による眼底画像の重要な特徴を強調することで、診断手順を支援するだろう。

Diabetes is a metabolic disorder that results from defects in autoimmune beta-cell destruction in Type 1, peripheral resistance to insulin action in Type 2 or, most commonly, both. Patients with long-standing diabetes often fall prey to Diabetic Retinopathy (DR) resulting in changes in the retina of the human eye, which may lead to loss of vision in extreme cases. The aim of this study is two-fold: (a) create deep learning models that were trained to grade degraded retinal fundus images and (b) to create a browser-based application that will aid in diagnostic procedures by highlighting the key features of the fundus image. Deep learning has proven to be a success for computer-aided DR diagnosis resulting in early-detection and prevention of blindness. In this research work, we have emulated the images plagued by distortions by degrading the images based on multiple different combinations of Light Transmission Disturbance, Image Blurring and insertion of Retinal Artifacts. These degraded images were used for the training of multiple Deep Learning based Convolutional Neural Networks. We have trained InceptionV3, ResNet-50 and InceptionResNetV2 on multiple datasets. The models were used to classify retinal fundus images based on their severity level and then further used in the creation of a browser-based application, which demonstrates the models prediction and the probability associated with each class. It will also show the Integration Gradient (IG) Attribution Mask superimposed onto the input image. The creation of the browser-based application would aid in the diagnostic procedures performed by ophthalmologists by highlighting the key features of the fundus image based on an educated prediction made by the model.
翻訳日:2021-03-18 09:34:21 公開日:2021-03-16
# IMUを信頼する: IMUドリフトを無視する理由

Trust Your IMU: Consequences of Ignoring the IMU Drift ( http://arxiv.org/abs/2103.08286v2 )

ライセンス: Link先を確認
Marcus Valtonen \"Ornhag and Patrik Persson and M{\aa}rten Wadenb\"ack and Kalle {\AA}str\"om and Anders Heyden(参考訳) 本稿では,慣性測定単位(imus)の現代的な事前積分法は,短時間のドリフトを無視できるほど正確であると主張する。 これにより、単純化されたカメラモデルを考えることができ、それによってさらに固有のキャリブレーションが可能となる。 我々は、IMUデータを利用して、未知かつ等距離の焦点長と半径歪みプロファイルの相対ポーズ問題を共同で解くための最初の解法を開発した。 さらに, 一部校正装置の精度を低下させることなく, 最先端のアルゴリズムと比較して, 大幅な高速化を示す。 提案するアルゴリズムは合成データと実データの両方でテストされ、後者は無人航空機(uavs)によるナビゲーションに焦点を当てている。 そこで本研究では, 市販の低コストuavを用いて提案する解法を評価し, imuドリフトの新たな仮定が実生活で実現可能であることを示す。 拡張された内在的自己校正により、歪んだ入力画像の使用が可能となり、現在の最先端の方法に比べて退屈な校正プロセスが時代遅れになる。

In this paper, we argue that modern pre-integration methods for inertial measurement units (IMUs) are accurate enough to ignore the drift for short time intervals. This allows us to consider a simplified camera model, which in turn admits further intrinsic calibration. We develop the first-ever solver to jointly solve the relative pose problem with unknown and equal focal length and radial distortion profile while utilizing the IMU data. Furthermore, we show significant speed-up compared to state-of-the-art algorithms, with small or negligible loss in accuracy for partially calibrated setups. The proposed algorithms are tested on both synthetic and real data, where the latter is focused on navigation using unmanned aerial vehicles (UAVs). We evaluate the proposed solvers on different commercially available low-cost UAVs, and demonstrate that the novel assumption on IMU drift is feasible in real-life applications. The extended intrinsic auto-calibration enables us to use distorted input images, making tedious calibration processes obsolete, compared to current state-of-the-art methods.
翻訳日:2021-03-18 09:24:08 公開日:2021-03-16
# (参考訳) dictNN:Twitterでヘイトスピーチを分類するための辞書強化CNNアプローチ

dictNN: A Dictionary-Enhanced CNN Approach for Classifying Hate Speech on Twitter ( http://arxiv.org/abs/2103.08780v1 )

ライセンス: CC BY-SA 4.0
Maximilian Kupi, Michael Bodnar, Nikolas Schmidt, and Carlos Eduardo Posada(参考訳) ソーシャルメディア上でのヘイトスピーチはますます懸念が高まっている。 大きな課題は、自然言語の曖昧さと急速な進化によるヘイトスピーチの潜在的回避性にある。 そこで我々は,クラウドソース型かつ継続的に更新されたヘイトワード辞書をベースとしたベクトル化を導入し,CNNモデルの分類性能を向上させるために,標準的な単語埋め込みと融合する手法を提案する。 モデルのトレーニングとテストには、2つの確立されたデータセット(合計110,748ツイート)のマージを使用します。 辞書付き入力を追加することで、CNNモデルの予測能力を高め、F1マクロスコアを7ポイント増やすことができる。

Hate speech on social media is a growing concern, and automated methods have so far been sub-par at reliably detecting it. A major challenge lies in the potentially evasive nature of hate speech due to the ambiguity and fast evolution of natural language. To tackle this, we introduce a vectorisation based on a crowd-sourced and continuously updated dictionary of hate words and propose fusing this approach with standard word embedding in order to improve the classification performance of a CNN model. To train and test our model we use a merge of two established datasets (110,748 tweets in total). By adding the dictionary-enhanced input, we are able to increase the CNN model's predictive power and increase the F1 macro score by seven percentage points.
翻訳日:2021-03-17 22:26:41 公開日:2021-03-16
# (参考訳) 勧告の公正性と透明性--利用者の視点から

Fairness and Transparency in Recommendation: The Users' Perspective ( http://arxiv.org/abs/2103.08786v1 )

ライセンス: CC BY 4.0
Nasim Sonboli and Jessie J. Smith, Florencia Cabral Berenfus, Robin Burke, Casey Fiesler(参考訳) 推薦システムはパーソナライズによって定義されるが、最近の研究は、公平性のような追加の精度以上の目的の重要性を示している。 ユーザーは自分のレコメンデーションが純粋にパーソナライズされることを期待しているので、これらの新しいアルゴリズムの目的を公正なレコメンデーションシステムで透過的に伝達する必要がある。 解説はレコメンダシステムの研究において長い歴史を持つが、公平な目的を持つシステムを説明する試みはほとんど行われていない。 AIの他の分野における以前の研究は、公正性を高めるツールとしての説明の使用を探求してきたが、この研究は推奨に重点を置いていない。 本稿では,公正を意識したレコメンデータシステムのユーザ視点と,透明性向上のための技術について考察する。 本稿では,フェアネス,レコメンデーションシステム,フェアネス認識目標に関する探索的インタビュー調査の結果について述べる。 私たちは,フェアネスを意識したレコメンダシステムに対するユーザの理解と信頼を改善する3つの機能を提案しました。

Though recommender systems are defined by personalization, recent work has shown the importance of additional, beyond-accuracy objectives, such as fairness. Because users often expect their recommendations to be purely personalized, these new algorithmic objectives must be communicated transparently in a fairness-aware recommender system. While explanation has a long history in recommender systems research, there has been little work that attempts to explain systems that use a fairness objective. Even though the previous work in other branches of AI has explored the use of explanations as a tool to increase fairness, this work has not been focused on recommendation. Here, we consider user perspectives of fairness-aware recommender systems and techniques for enhancing their transparency. We describe the results of an exploratory interview study that investigates user perceptions of fairness, recommender systems, and fairness-aware objectives. We propose three features -- informed by the needs of our participants -- that could improve user understanding of and trust in fairness-aware recommender systems.
翻訳日:2021-03-17 22:15:25 公開日:2021-03-16
# (参考訳) 教師なし形状クラスタリングを用いたバッテリのデータ駆動熱異常検出

Data-driven Thermal Anomaly Detection for Batteries using Unsupervised Shape Clustering ( http://arxiv.org/abs/2103.08796v1 )

ライセンス: CC BY 4.0
Xiaojun Li, Jianwei Li, Ali Abdollahi, Trevor Jones and Asif Habeebullah(参考訳) 電気自動車(EV)とエネルギー貯蔵(ES)バッテリーでは、制御不能な火災や爆発につながる可能性があるため、熱流出は重大な問題である。 熱異常検出は、最終的に熱流出を起こす可能性のあるバッテリーパックを特定できる。 しかし、データの利用不可能、環境の変化、電池の老化など、一般的な課題がある。 本研究では, 温度測定の形状相似性を比較することで, 電池の熱異常を検出するデータ駆動方式を提案する。 その形状に基づいて、測定値は連続して異なるクラスターにグループ化されている。 異常はクラスタ内の偏差を監視して検出される。 モデルベースや他のデータ駆動方式とは異なり、提案手法はデータ損失に対して頑健であり、異なるパック構成に対して最小限の参照データを必要とする。 最初の実験結果が示すように、この手法は搭載されているBMSよりも正確であるだけでなく、早期に予期せぬ異常を検出することもできる。

For electric vehicles (EV) and energy storage (ES) batteries, thermal runaway is a critical issue as it can lead to uncontrollable fires or even explosions. Thermal anomaly detection can identify problematic battery packs that may eventually undergo thermal runaway. However, there are common challenges like data unavailability, environment variations, and battery aging. We propose a data-driven method to detect battery thermal anomaly based on comparing shape-similarity between thermal measurements. Based on their shapes, the measurements are continuously being grouped into different clusters. Anomaly is detected by monitoring deviations within the clusters. Unlike model-based or other data-driven methods, the proposed method is robust to data loss and requires minimal reference data for different pack configurations. As the initial experimental results show, the method not only can be more accurate than the onboard BMS, but also can detect unforeseen anomalies at the early stage.
翻訳日:2021-03-17 22:01:03 公開日:2021-03-16
# (参考訳) エントロピー正規化最適輸送に基づくソフトおよびサブスペースロバスト多変量ランク試験

Soft and subspace robust multivariate rank tests based on entropy regularized optimal transport ( http://arxiv.org/abs/2103.08811v1 )

ライセンス: CC BY-SA 4.0
Shoaib Bin Masud, Boyang Lyu, Shuchin Aeron(参考訳) 本稿では,最近提案された多変量階のエネルギー距離を,分布の類似性の統計的検証のための最適輸送理論に基づいて,ソフトランクのエネルギー距離に拡張する。 これは微分可能であるので、階数エネルギーをストーフェル多様体上の最適化によって計算できる「射影ソフトランクエネルギー距離」と呼ばれる部分空間の頑健な階数エネルギー距離に拡張することができる。 実験により, ソフトランクエネルギーを用いて, 適切に選択された低次元部分空間に投影することで, 検出パワーと誤警報をトレードオフできることを示した。 また,多変量時系列データにおける教師なし変化点検出における提案手法の有用性を示す。 すべてのコードは実験セクションで提供されているリンクで公開されている。

In this paper, we extend the recently proposed multivariate rank energy distance, based on the theory of optimal transport, for statistical testing of distributional similarity, to soft rank energy distance. Being differentiable, this in turn allows us to extend the rank energy to a subspace robust rank energy distance, dubbed Projected soft-Rank Energy distance, which can be computed via optimization over the Stiefel manifold. We show via experiments that using projected soft rank energy one can trade-off the detection power vs the false alarm via projections onto an appropriately selected low dimensional subspace. We also show the utility of the proposed tests on unsupervised change point detection in multivariate time series data. All codes are publicly available at the link provided in the experiment section.
翻訳日:2021-03-17 21:52:16 公開日:2021-03-16
# (参考訳) ex-ray:差動特徴対称性によるニューラルネットワークの自然特徴とインジェクションバックドアの区別

EX-RAY: Distinguishing Injected Backdoor from Natural Features in Neural Networks by Examining Differential Feature Symmetry ( http://arxiv.org/abs/2103.08820v1 )

ライセンス: CC BY 4.0
Yingqi Liu, Guangyu Shen, Guanhong Tao, Zhenting Wang, Shiqing Ma, Xiangyu Zhang(参考訳) バックドア攻撃は、トリガーに埋め込まれた入力が攻撃者が望むターゲットラベルに誤分類されるようなモデルに悪意のある振る舞いを注入する。 しかし、自然機能はトリガーのように振る舞う可能性があり、一度埋め込まれると誤分類を引き起こす。 それらは避けられないが、注入されたトリガーとして誤認識することは、バックドアスキャンにおいて誤った警告を引き起こす。 したがって、重要な課題は自然の特徴を区別し、バックドアを注入することである。 2つのクラスを分離する最小の機能集合を識別する新しい対称特徴差分法を開発した。 対応するトリガーが被害者クラスとターゲットクラスを区別する特徴セットとは異なる特徴からなる場合、バックドアは注入されると考えられる。 我々は,TrojAIラウンドの2-4ラウンドとImageNet上の多数のモデルから,クリーンモデルとトロイの木馬モデルの両方を含む数千のモデルでこの技術を評価する。 既存のバックドアスキャン技術は、数百の偽陽性(つまり、トロイの木馬として認識されるきれいなモデル)を引き起こす可能性がある。 本手法は, 偽陽性の78-100%(最先端スキャナABS)を除去し, 偽陰性が0-30%増加し, 全体的な精度が17-41%向上し, リーダボード上での最高性能の達成を容易にする。 他のスキャナのパフォーマンスも向上する。 L2距離と帰属技術を用いて偽陽性除去法より優れる。 我々はまた、多くのセマンティクスバックドア攻撃を検出する可能性も示している。

Backdoor attack injects malicious behavior to models such that inputs embedded with triggers are misclassified to a target label desired by the attacker. However, natural features may behave like triggers, causing misclassification once embedded. While they are inevitable, mis-recognizing them as injected triggers causes false warnings in backdoor scanning. A prominent challenge is hence to distinguish natural features and injected backdoors. We develop a novel symmetric feature differencing method that identifies a smallest set of features separating two classes. A backdoor is considered injected if the corresponding trigger consists of features different from the set of features distinguishing the victim and target classes. We evaluate the technique on thousands of models, including both clean and trojaned models, from the TrojAI rounds 2-4 competitions and a number of models on ImageNet. Existing backdoor scanning techniques may produce hundreds of false positives (i.e., clean models recognized as trojaned). Our technique removes 78-100% of the false positives (by a state-of-the-art scanner ABS) with a small increase of false negatives by 0-30%, achieving 17-41% overall accuracy improvement, and facilitates achieving top performance on the leaderboard. It also boosts performance of other scanners. It outperforms false positive removal methods using L2 distance and attribution techniques. We also demonstrate its potential in detecting a number of semantic backdoor attacks.
翻訳日:2021-03-17 21:34:45 公開日:2021-03-16
# (参考訳) 全身キーポイントを用いたスケルトンに基づく手話認識

Skeleton Based Sign Language Recognition Using Whole-body Keypoints ( http://arxiv.org/abs/2103.08833v1 )

ライセンス: CC BY 4.0
Songyao Jiang, Bin Sun, Lichen Wang, Yue Bai, Kunpeng Li, Yun Fu(参考訳) 手話は視覚言語であり、聴覚障害や発話障害のある人々が互いにコミュニケーションするために使用される。 手話は常に手の動きや姿勢の素早い移行によって行われ、理解するために大量の知識と訓練を必要とする。 手話認識はコンピュータビジョンにおいて有用だが挑戦的なタスクとなる。 スケルトンベースのアクション認識が普及し、rgb-dベースの手法で最先端のパフォーマンスを実現することができる。 しかし、スケルトンに基づく認識は手の動きや表情の表示がないため、手話認識にはほとんど適用できない。 近年の全身的ポーズ推定法の開発に触発されて,全身的キーポイントと特徴に基づく手話認識を提案する。 認識結果は、RGBおよび光流の他のモードとさらにアンサンブルされ、精度がさらに向上する。 ChaLearnがホストする独立した手話認識の課題では、新しい大規模マルチモーダルトルコ手話データセット(AUTSL)が使用されている。 本手法は, 開発段階と試験段階の両方において, 先行精度を達成した。 この原稿は事実書版です。 ワークショップ用ペーパー版は間もなくリリースします。 私たちのコードはhttps://github.com/jackyjsy/CVPR21Chal-SLRで公開されています。

Sign language is a visual language that is used by deaf or speech impaired people to communicate with each other. Sign language is always performed by fast transitions of hand gestures and body postures, requiring a great amount of knowledge and training to understand it. Sign language recognition becomes a useful yet challenging task in computer vision. Skeleton-based action recognition is becoming popular that it can be further ensembled with RGB-D based method to achieve state-of-the-art performance. However, skeleton-based recognition can hardly be applied to sign language recognition tasks, majorly because skeleton data contains no indication of hand gestures or facial expressions. Inspired by the recent development of whole-body pose estimation \cite{jin2020whole}, we propose recognizing sign language based on the whole-body key points and features. The recognition results are further ensembled with other modalities of RGB and optical flows to improve the accuracy further. In the challenge about isolated sign language recognition hosted by ChaLearn using a new large-scale multi-modal Turkish Sign Language dataset (AUTSL). Our method achieved leading accuracy in both the development phase and test phase. This manuscript is a fact sheet version. Our workshop paper version will be released soon. Our code has been made available at https://github.com/jackyjsy/CVPR21Chal-SLR
翻訳日:2021-03-17 21:02:59 公開日:2021-03-16
# (参考訳) GSVNet: ビデオ上の高速セマンティックセグメンテーションのための空間変化型畳み込み

GSVNet: Guided Spatially-Varying Convolution for Fast Semantic Segmentation on Video ( http://arxiv.org/abs/2103.08834v1 )

ライセンス: CC BY 4.0
Shih-Po Lee, Si-Cun Chen, Wen-Hsiao Peng(参考訳) ビデオセグメンテーションはリアルタイム処理やリアルタイム処理よりも高速であることが多い。 特徴抽出から生じる計算を保存する一般的なレシピは、選択された数個のキーフレームの特徴を伝播させることである。 しかし、最近の高速画像分割の進歩により、これらのソリューションはより魅力的になる。 高速画像セグメンテーションをビデオセグメンテーションに活用するために,簡易かつ効率的な伝播フレームワークを提案する。 具体的には,セグメンテーション外空間における時間ゆがみのための1/8スケール画像空間における軽量な流れ推定を行う。 さらに,従来のフレームと現在のフレームから派生したセグメンテーションを融合させ,伝播誤差を軽減し,非キーフレーム上での軽量な特徴抽出を可能にする。 cityscapes と camvid を用いた実験の結果,ビデオセグメンテーションにおける最先端の精度向上を実現することができた。

This paper addresses fast semantic segmentation on video.Video segmentation often calls for real-time, or even fasterthan real-time, processing. One common recipe for conserving computation arising from feature extraction is to propagate features of few selected keyframes. However, recent advances in fast image segmentation make these solutions less attractive. To leverage fast image segmentation for furthering video segmentation, we propose a simple yet efficient propagation framework. Specifically, we perform lightweight flow estimation in 1/8-downscaled image space for temporal warping in segmentation outpace space. Moreover, we introduce a guided spatially-varying convolution for fusing segmentations derived from the previous and current frames, to mitigate propagation error and enable lightweight feature extraction on non-keyframes. Experimental results on Cityscapes and CamVid show that our scheme achieves the state-of-the-art accuracy-throughput trade-off on video segmentation.
翻訳日:2021-03-17 20:54:35 公開日:2021-03-16
# (参考訳) Lite-HDSeg: Lite Harmonic Dense Convolutionsを用いたLiDARセマンティックセマンティックセグメンテーション

Lite-HDSeg: LiDAR Semantic Segmentation Using Lite Harmonic Dense Convolutions ( http://arxiv.org/abs/2103.08852v1 )

ライセンス: CC BY 4.0
Ryan Razani, Ran Cheng, Ehsan Taghavi, and Liu Bingbing(参考訳) 自動運転車とロボットシステムは、周囲を正確に認識する。 シーン理解は知覚モジュールの重要な構成要素の1つである。 すべてのセンサのうち、LiDARは、センサー読み取りの高解像度でアクティブなセンシング特性を持つため、自律運転システムにとって重要なセンシングモダリティの1つである。 シーン理解にLiDARセンサをフル活用するには,高精度かつ高速なセマンティックセグメンテーション手法が必要である。 本稿では,3ドルのLiDAR点雲のセマンティックセグメンテーションのための,新しいリアルタイム畳み込みニューラルネットワークLite-HDSegを提案する。 Lite-HDSegはSemanticKittiベンチマークで最高の精度と計算複雑性のトレードオフを達成でき、軽量な高調波密度畳み込みをコアとする新しいエンコーダデコーダアーキテクチャに基づいて設計されている。 さらに、マルチスケールなコンテキスト特徴をキャプチャする改良されたグローバルコンテキストモジュールであるIMMと、セマンティック境界をさらに洗練するためのマルチクラス空間伝搬ネットワークであるMCSPNを紹介する。 実験の結果,提案手法は,ロボットや自律走行に最適なリアルタイム動作が可能な,最先端のセマンティクスセグメンテーション手法よりも優れていることがわかった。

Autonomous driving vehicles and robotic systems rely on accurate perception of their surroundings. Scene understanding is one of the crucial components of perception modules. Among all available sensors, LiDARs are one of the essential sensing modalities of autonomous driving systems due to their active sensing nature with high resolution of sensor readings. Accurate and fast semantic segmentation methods are needed to fully utilize LiDAR sensors for scene understanding. In this paper, we present Lite-HDSeg, a novel real-time convolutional neural network for semantic segmentation of full $3$D LiDAR point clouds. Lite-HDSeg can achieve the best accuracy vs. computational complexity trade-off in SemanticKitti benchmark and is designed on the basis of a new encoder-decoder architecture with light-weight harmonic dense convolutions as its core. Moreover, we introduce ICM, an improved global contextual module to capture multi-scale contextual features, and MCSPN, a multi-class Spatial Propagation Network to further refine the semantic boundaries. Our experimental results show that the proposed method outperforms state-of-the-art semantic segmentation approaches which can run real-time, thus is suitable for robotic and autonomous driving applications.
翻訳日:2021-03-17 20:39:34 公開日:2021-03-16
# (参考訳) 神経生物学モデルのダイナミックスによって符号化された勾配降下のない学習

Learning without gradient descent encoded by the dynamics of a neurobiological model ( http://arxiv.org/abs/2103.08878v1 )

ライセンス: CC BY 4.0
Vivek Kurien George, Vikash Morar, Weiwei Yang, Jonathan Larson, Bryan Tower, Shweti Mahajan, Arkin Gupta, Christopher White, Gabriel A. Silva(参考訳) 最先端の機械学習の成功は、基本的に、コストや損失関数のいくつかのバージョンを最小限に抑える勾配降下アルゴリズムの様々なバリエーションに基づいている。 しかし、基本的な制限は、これらのシステムを通常多くのトレーニング例に公開することにより、教師なしまたは教師なしの方法でトレーニングする必要があることである。 本稿では,ネットワークの幾何学的構造によって制約される動的シグナル伝達の神経生物学的モデルを利用した機械学習の基本的な概念的アプローチを提案する。 mnist画像は,教師なしの方法で,何の訓練も必要とせず,ほぼ最先端の精度を持つ幾何学的ネットワークのダイナミクスによって一意に符号化され,分類できることを示す。

The success of state-of-the-art machine learning is essentially all based on different variations of gradient descent algorithms that minimize some version of a cost or loss function. A fundamental limitation, however, is the need to train these systems in either supervised or unsupervised ways by exposing them to typically large numbers of training examples. Here, we introduce a fundamentally novel conceptual approach to machine learning that takes advantage of a neurobiologically derived model of dynamic signaling, constrained by the geometric structure of a network. We show that MNIST images can be uniquely encoded and classified by the dynamics of geometric networks with nearly state-of-the-art accuracy in an unsupervised way, and without the need for any training.
翻訳日:2021-03-17 20:05:16 公開日:2021-03-16
# (参考訳) 知的障害診断のためのクロスドメイン適応型クイックラーニング機構

Quick Learning Mechanism with Cross-Domain Adaptation for Intelligent Fault Diagnosis ( http://arxiv.org/abs/2103.08889v1 )

ライセンス: CC BY 4.0
Arun K. Sharma, Nishchal K. Verma(参考訳) 本稿では, 可変作業条件下で動作する回転機械の知的故障診断のための高速学習機構を提案する。 産業における実ケースマシンは異なる運転条件下で動作するため、実験室のケースマシンで訓練されたディープラーニングモデルは、実ケースマシンから記録されたデータを用いて、故障診断のためにうまく動作しない。 これは、新しい作業条件のすべての下で、実ケースマシンの故障診断のための新しい診断モデルをトレーニングする必要がある。 したがって、異なる条件下で動作しているマシンの既存の診断モデルを迅速に変換できるメカニズムが必要である。 本稿では,net2netトランスフォーメーションを用いたクイックラーニング手法と,前者に対する新しいデータの最大平均誤差を最小化するための微調整手法を提案する。 この変換により、新しいデータセットにほぼ使えるアーキテクチャで、新しいネットワークを作ることができます。 提案手法の有効性は,CWRUデータセット,IMSベアリングデータセット,Paderborn大学データセットで実証されている。 我々は,cwruデータをゼロロードでトレーニングした診断モデルを用いて,異なる負荷のcwruデータとimsデータセットの他の診断モデルを迅速にトレーニングできることを実証した。 Paderborn大学が提供するデータセットを用いて、人工的な損傷を受けた障害データセットに基づいてトレーニングされた診断モデルは、実際の損傷データセットのための他のモデルの迅速なトレーニングに使用できることが検証された。

This paper presents a quick learning mechanism for intelligent fault diagnosis of rotating machines operating under changeable working conditions. Since real case machines in industries run under different operating conditions, the deep learning model trained for a laboratory case machine fails to perform well for the fault diagnosis using recorded data from real case machines. It poses the need of training a new diagnostic model for the fault diagnosis of the real case machine under every new working condition. Therefore, there is a need for a mechanism that can quickly transform the existing diagnostic model for machines operating under different conditions. we propose a quick learning method with Net2Net transformation followed by a fine-tuning method to cancel/minimize the maximum mean discrepancy of the new data to the previous one. This transformation enables us to create a new network with any architecture almost ready to be used for the new dataset. The effectiveness of the proposed fault diagnosis method has been demonstrated on the CWRU dataset, IMS bearing dataset, and Paderborn university dataset. We have shown that the diagnostic model trained for CWRU data at zero load can be used to quickly train another diagnostic model for the CWRU data at different loads and also for the IMS dataset. Using the dataset provided by Paderborn university, it has been validated that the diagnostic model trained on artificially damaged fault dataset can be used for quickly training another model for real damage dataset.
翻訳日:2021-03-17 19:58:46 公開日:2021-03-16
# (参考訳) labelgit: 帰属依存グラフを用いたソフトウェアリポジトリ分類のためのデータセット

LabelGit: A Dataset for Software Repositories Classification using Attributed Dependency Graphs ( http://arxiv.org/abs/2103.08890v1 )

ライセンス: CC BY 4.0
Cezar Sas, Andrea Capiluppi(参考訳) ソフトウェアリポジトリホスティングサービスには大量のオープンソースソフトウェアが含まれており、GitHubは1億以上のリポジトリをホストしている。 この膨大な数のプロジェクトを考えると、ソフトウェアの内容と機能に基づいた検索の必要性が高まっている。 しかし、GitHubはソフトウェアの発見を支援する様々なソリューションを提供しているが、ほとんどのリポジトリはラベルを持っておらず、検索とトピックベースの分析の有用性を減らしている。 さらに、コンポーネントベースのソフトウェア開発の増加に伴い、ソフトウェアモジュールの分類も重要になっている。 しかし、以前の研究はキーワードベースのアプローチやプロジェクトのプロキシ(READMEなど)を使ったソフトウェア分類に重点を置いていた。 この作業では、LabelGitと呼ばれるGitHub Javaプロジェクトの注釈付きデータセットを作成します。 私たちのデータセットは、依存関係グラフや識別子からのソースコードニューラル表現など、ソースコードからの直接的な情報を使用します。 このデータセットを使うことで、プロキシに頼るのではなく、ソースコード全体を使用して分類を行うソリューションの開発を支援したいと考えています。

Software repository hosting services contain large amounts of open-source software, with GitHub hosting more than 100 million repositories, from new to established ones. Given this vast amount of projects, there is a pressing need for a search based on the software's content and features. However, even though GitHub offers various solutions to aid software discovery, most repositories do not have any labels, reducing the utility of search and topic-based analysis. Moreover, classifying software modules is also getting more importance given the increase in Component-Based Software Development. However, previous work focused on software classification using keyword-based approaches or proxies for the project (e.g., README), which is not always available. In this work, we create a new annotated dataset of GitHub Java projects called LabelGit. Our dataset uses direct information from the source code, like the dependency graph and source code neural representations from the identifiers. Using this dataset, we hope to aid the development of solutions that do not rely on proxies but use the entire source code to perform classification.
翻訳日:2021-03-17 19:38:05 公開日:2021-03-16
# (参考訳) EADNet: セマンティックセグメンテーションのための効率的な非対称拡張ネットワーク

EADNet: Efficient Asymmetric Dilated Network for Semantic Segmentation ( http://arxiv.org/abs/2103.08914v1 )

ライセンス: CC BY 4.0
Qihang Yang and Tao Chen and Jiayuan Fan and Ye Lu and Chongyan Zuo and Qinghua Chi(参考訳) 電力制約エッジデバイスでのリアルタイム画像意味セマンティクスセグメンテーションの必要性から、軽量な意味セマンティクスセグメンテーションニューラルネットワークを設計して、計算コストの削減と推論速度の向上を同時に実現したいという願望が高まっている。 本稿では,可変形状をキャプチャし,画像の情報をスケールするための拡張率が異なる複数の非対称畳み込み枝からなる,eadnetと呼ばれる効率的な非対称拡張意味セグメンテーションネットワークを提案する。 特に、少数のパラメータしか持たないMMRFC(multi-scale multi-shape receptive field convolution)ブロックは、そのような情報をキャプチャするために設計されている。 cityscapesデータセットにおける実験結果から,本提案手法は,軽量セマンティクスセグメンテーションネットワークにおいて,最小パラメータ数(わずか 0.35m)で67.1のセグメンテーションmiouを実現する。

Due to real-time image semantic segmentation needs on power constrained edge devices, there has been an increasing desire to design lightweight semantic segmentation neural network, to simultaneously reduce computational cost and increase inference speed. In this paper, we propose an efficient asymmetric dilated semantic segmentation network, named EADNet, which consists of multiple developed asymmetric convolution branches with different dilation rates to capture the variable shapes and scales information of an image. Specially, a multi-scale multi-shape receptive field convolution (MMRFC) block with only a few parameters is designed to capture such information. Experimental results on the Cityscapes dataset demonstrate that our proposed EADNet achieves segmentation mIoU of 67.1 with smallest number of parameters (only 0.35M) among mainstream lightweight semantic segmentation networks.
翻訳日:2021-03-17 19:27:57 公開日:2021-03-16
# (参考訳) OCR文脈における形態とヒストグラムに基づくテキスト行分割の組合せ

Combining Morphological and Histogram based Text Line Segmentation in the OCR Context ( http://arxiv.org/abs/2103.08922v1 )

ライセンス: CC BY 4.0
Pit Schneider(参考訳) テキストラインセグメンテーションは、現代の光学的文字認識システムの初期段階の1つである。 本論文で提案するアルゴリズムアプローチは,この目的のために設計されている。 主な特徴は2つの異なる技法、形態的画像操作と水平ヒストグラム投影の組み合わせである。 本手法は, 劣化紙, ぼやけたテキスト, 湾曲したテキストラインなどの品質問題を特徴とする歴史的データ収集に適用するために開発された。 そのため、問題のセグメンテーターは、ある歴史文書の堅牢な行境界ボックスへのアクセスを望む図書館、アーカイブ、博物館、...のような文化機関にとって特に関心があるかもしれない。 計算コストの低い結果と結びつく有望なセグメンテーションの結果から、このアルゴリズムは歴史的新聞コレクションの再処理の取り組みにおいて、ルクセンブルク国立図書館のOCRパイプラインに組み込まれた。 本論文の一般的な貢献は, 提案手法の概要と, 使用済みオープンソースOCRソフトウェアにバンドルしたセグメンテーションアルゴリズムと比較して, 精度と速度の面での利得を評価することである。

Text line segmentation is one of the pre-stages of modern optical character recognition systems. The algorithmic approach proposed by this paper has been designed for this exact purpose. Its main characteristic is the combination of two different techniques, morphological image operations and horizontal histogram projections. The method was developed to be applied on a historic data collection that commonly features quality issues, such as degraded paper, blurred text, or curved text lines. For that reason, the segmenter in question could be of particular interest for cultural institutions, such as libraries, archives, museums, ..., that want access to robust line bounding boxes for a given historic document. Because of the promising segmentation results that are joined by low computational cost, the algorithm was incorporated into the OCR pipeline of the National Library of Luxembourg, in the context of the initiative of reprocessing their historic newspaper collection. The general contribution of this paper is to outline the approach and to evaluate the gains in terms of accuracy and speed, comparing it to the segmentation algorithm bundled with the used open source OCR software.
翻訳日:2021-03-17 19:18:19 公開日:2021-03-16
# (参考訳) Twitter上でのCovid-19の談話:話題、感性、主観性、具体的フレームの時間的変化

Covid-19 Discourse on Twitter: How the Topics, Sentiments, Subjectivity, and Figurative Frames Changed Over Time ( http://arxiv.org/abs/2103.08952v1 )

ライセンス: CC BY 4.0
Philipp Wicke and Marianna M. Bolognesi(参考訳) ソーシャルメディアにおける現在の疫学的危機について語る言葉は、パンデミックをいかに概念化し、どのようにその発展に反応しているかを教えてくれる。 本稿は、このパンデミックの第1波に焦点を当て、Twitter上でのCovid-19に関する談話の時間的変化について、広範な爆発的分析を行う。 まず,2020年3月20日から7月1日までの広範なツイートのコーパスに基づいて,パンデミック発生に伴う話題が,トピックモデリングを用いて時間とともにどのように変化したかを示す。 第2に、ツイートで使用される言語の感情の極性が、最初のロックダウン中に比較的正の原子価から、再開に伴うより負の原子価へと変化したことを示す。 第3に、ツイートの平均主観性が線形に上昇し、第4に、実際の暴動や戦闘が会話に入ると、人気で頻繁に使われる戦争枠がどう変化したかを示す。

The words we use to talk about the current epidemiological crisis on social media can inform us on how we are conceptualizing the pandemic and how we are reacting to its development. This paper provides an extensive explorative analysis of how the discourse about Covid-19 reported on Twitter changes through time, focusing on the first wave of this pandemic. Based on an extensive corpus of tweets (produced between 20th March and 1st July 2020) first we show how the topics associated with the development of the pandemic changed through time, using topic modeling. Second, we show how the sentiment polarity of the language used in the tweets changed from a relatively positive valence during the first lockdown, toward a more negative valence in correspondence with the reopening. Third we show how the average subjectivity of the tweets increased linearly and fourth, how the popular and frequently used figurative frame of WAR changed when real riots and fights entered the discourse.
翻訳日:2021-03-17 19:06:25 公開日:2021-03-16
# (参考訳) 自己教師あり音声表現学習によるアフリカ語asrの高速開発

Fast Development of ASR in African Languages using Self Supervised Speech Representation Learning ( http://arxiv.org/abs/2103.08993v1 )

ライセンス: CC BY 4.0
Jama Hussein Mohamud, Lloyd Acquaye Thompson, Aissatou Ndoye, and Laurent Besacier(参考訳) 本稿では,2020年6月のAfrican Master of Machine Intelligence (AMMI)における非公式なコラボレーションの結果について述べる。 モバイルアプリケーションを用いた音声データ収集と音声からの自己教師型表現学習に関する一連の講義と研究室の後、学生と講師は、Wolof、Ga、Somaliの3つの言語を対象とした自動音声認識(ASR)プロジェクトに取り組んだ。 本稿では,データ収集方法と,少量 (1h) の書き起こし音声を訓練データとして開発したASRシステムについて述べる。 これらの低資源環境下では,asrシステムの効率向上のために,大量の生音声によるモデル事前学習が基本であった。

This paper describes the results of an informal collaboration launched during the African Master of Machine Intelligence (AMMI) in June 2020. After a series of lectures and labs on speech data collection using mobile applications and on self-supervised representation learning from speech, a small group of students and the lecturer continued working on automatic speech recognition (ASR) project for three languages: Wolof, Ga, and Somali. This paper describes how data was collected and ASR systems developed with a small amount (1h) of transcribed speech as training data. In these low resource conditions, pre-training a model on large amounts of raw speech was fundamental for the efficiency of ASR systems developed.
翻訳日:2021-03-17 18:38:35 公開日:2021-03-16
# (参考訳) 微分プライベートモデルのメンバシップ推論におけるドロップアウトの影響

The Influence of Dropout on Membership Inference in Differentially Private Models ( http://arxiv.org/abs/2103.09008v1 )

ライセンス: CC BY-SA 4.0
Erick Galinkin(参考訳) プライベートモデルは、モデルがトレーニングしたデータのプライバシを保護するため、モデルのセキュリティとプライバシの重要なコンポーネントになります。 同時に、データサイエンティストと機械学習エンジニアは、不確実性定量化手法を使用して、モデルが可能な限り有用かつ実行可能なものであることを保証する。 差分プライバシーを有するモデルに対する会員推測攻撃を行うことにより、ドロップアウトによる不確実性定量化とプライバシの間の緊張関係を検討する。 差分的プライベートモデルを含む全てのケースにおいて、大きなドロップアウトを持つモデルは、メンバーシップ推論攻撃に陥るリスクをわずかに増大させる。

Differentially private models seek to protect the privacy of data the model is trained on, making it an important component of model security and privacy. At the same time, data scientists and machine learning engineers seek to use uncertainty quantification methods to ensure models are as useful and actionable as possible. We explore the tension between uncertainty quantification via dropout and privacy by conducting membership inference attacks against models with and without differential privacy. We find that models with large dropout slightly increases a model's risk to succumbing to membership inference attacks in all cases including in differentially private models.
翻訳日:2021-03-17 18:30:22 公開日:2021-03-16
# (参考訳) 光回折トモグラフィーにおける教師なしコーン深層学習

Unsupervised Missing Cone Deep Learning in Optical Diffraction Tomography ( http://arxiv.org/abs/2103.09022v1 )

ライセンス: CC BY 4.0
Hyungjin Chung, Jaeyoung Huh, Geon Kim, Yong Keun Park, Jong Chul Ye(参考訳) 光回折トモグラフィ(ODT)は、様々な角度で散乱場を測定することにより、屈折率(RI)の3次元分布を生成する。 RI指数の分布は高情報であるが,ホログラムの限られた角度取得から生じるコーン問題により,水平撮像面よりも軸方向の分解能が極めて低い。 そこで,本稿では,最適なトランスポート駆動サイクルGANを用いて,不足投影ビューの確率分布を学習する非教師付きディープラーニングフレームワークを提案する。 実験結果から, ODTにおけるコーンアーチファクトの欠落は, 提案手法により著しく解決できることが示唆された。

Optical diffraction tomography (ODT) produces three dimensional distribution of refractive index (RI) by measuring scattering fields at various angles. Although the distribution of RI index is highly informative, due to the missing cone problem stemming from the limited-angle acquisition of holograms, reconstructions have very poor resolution along axial direction compared to the horizontal imaging plane. To solve this issue, here we present a novel unsupervised deep learning framework, which learns the probability distribution of missing projection views through optimal transport driven cycleGAN. Experimental results show that missing cone artifact in ODT can be significantly resolved by the proposed method.
翻訳日:2021-03-17 18:22:43 公開日:2021-03-16
# (参考訳) 深部強化学習を用いた傾斜クアドロレータランディング

Inclined Quadrotor Landing using Deep Reinforcement Learning ( http://arxiv.org/abs/2103.09043v1 )

ライセンス: CC BY 4.0
Jacob E. Kooi and Robert Babu\v{s}ka(参考訳) クワッドローターを傾斜面に着陸させるのは難しい作業だ。 傾斜した着陸軌道の最終状態は平衡状態ではなく、従来の制御方法の使用を妨げている。 傾斜面に対する自律着陸制御装置の設計のための深層強化学習手法を提案する。 ppo(proximal policy optimization)アルゴリズムを使って、スリムな報酬とカリキュラム学習のアプローチを用いて、標準ラップトップ上で90分以内のシミュレーションで堅牢なポリシーを訓練することができる。 このポリシーは、本物のcrazyflie 2.1クワッドローター上で直接動作し、フライングアリーナで実際の傾斜着陸に成功した。 1つのポリシー評価は約2.5msであり、将来のクオータへの組込み実装に適している。

Landing a quadrotor on an inclined surface is a challenging manoeuvre. The final state of any inclined landing trajectory is not an equilibrium, which precludes the use of most conventional control methods. We propose a deep reinforcement learning approach to design an autonomous landing controller for inclined surfaces. Using the proximal policy optimization (PPO) algorithm with sparse rewards and a tailored curriculum learning approach, a robust policy can be trained in simulation in less than 90 minutes on a standard laptop. The policy then directly runs on a real Crazyflie 2.1 quadrotor and successfully performs real inclined landings in a flying arena. A single policy evaluation takes approximately 2.5 ms, which makes it suitable for a future embedded implementation on the quadrotor.
翻訳日:2021-03-17 18:03:39 公開日:2021-03-16
# (参考訳) 早期ドロップアウト予測:キャリブレーションとアルゴリズム的公平性の検討

Predicting Early Dropout: Calibration and Algorithmic Fairness Considerations ( http://arxiv.org/abs/2103.09068v1 )

ライセンス: CC BY 4.0
Marzieh Karimi-Haghighi, Carlos Castillo, Davinia Hernandez-Leo, Veronica Moreno Oliver(参考訳) 本研究は, アルゴリズム的公平性の観点から, 学部におけるドロップアウトリスクの予測の問題に対処している。 本研究では,大学中退のリスクを予測できる機械学習手法を開発した。 本研究の目的は,リスクのある生徒を識別し,潜在的な差別バイアスを回避することにある。 両リスクをモデル化する際には,初年度より前の入試時間に利用可能なデータに基づいて,ROC曲線(AUC)0.77-0.78のエリアで予測モデルを得る。 このデータには、生徒の人口統計、出席した高校、入試(平均)の成績が含まれている。 私たちのモデルは、単なるスコアではなく、リスクごとに推定確率を生成します。 予測精度 (auc) と誤差率 (一般化偽陽性率, gfpr, または一般化偽陰性率, gfnr) の観点で, この手法が感度の高いグループに対して判別結果をもたらすかどうかを解析した。 これらのモデルは、AUCとGFNRの点でいくつかの株式をグループに沿って示している。 同様のGFNRは、退学した学生のリスクを検出するのに失敗する可能性を示している。 GFPRの格差はモデルの校正に影響を与えない緩和プロセスを通じて対処される。

In this work, the problem of predicting dropout risk in undergraduate studies is addressed from a perspective of algorithmic fairness. We develop a machine learning method to predict the risks of university dropout and underperformance. The objective is to understand if such a system can identify students at risk while avoiding potential discriminatory biases. When modeling both risks, we obtain prediction models with an Area Under the ROC Curve (AUC) of 0.77-0.78 based on the data available at the enrollment time, before the first year of studies starts. This data includes the students' demographics, the high school they attended, and their admission (average) grade. Our models are calibrated: they produce estimated probabilities for each risk, not mere scores. We analyze if this method leads to discriminatory outcomes for some sensitive groups in terms of prediction accuracy (AUC) and error rates (Generalized False Positive Rate, GFPR, or Generalized False Negative Rate, GFNR). The models exhibit some equity in terms of AUC and GFNR along groups. The similar GFNR means a similar probability of failing to detect risk for students who drop out. The disparities in GFPR are addressed through a mitigation process that does not affect the calibration of the model.
翻訳日:2021-03-17 17:48:16 公開日:2021-03-16
# (参考訳) 画像合成サイクル変換を用いた教師なし異常分割

Unsupervised Anomaly Segmentation using Image-Semantic Cycle Translation ( http://arxiv.org/abs/2103.09094v1 )

ライセンス: CC BY 4.0
Chenxin Li, Yunlong Zhang, Jiongcheng Li, Yue Huang, Xinghao Ding(参考訳) unsupervised anomaly segmentation(uas)の目的は、訓練中に認識されないピクセルレベルの異常を検出することである。 これは医療画像コミュニティにおいて有望な分野であり、例えば、健康なデータだけで訓練されたモデルを使用して、まれな疾患の病変を区分することができる。 既存の手法は主にインフォメーション・ボトルネック(Information Bottleneck)に基づいており、その基本的な原理は、学習を通して正常な解剖の分布をモデル化し、低次元の多様体で健康なデータを圧縮して復元し、この分布から外れ値として病変を検出することである。 しかし,この次元減少は,特に画素レベルの異常検出に欠かせない局所化情報を必然的に損なう。 本稿では,健康なデータ分布をモデル化する過程における健全な解剖学の意味空間について述べる。 より正確には、セグメンテーションと合成の2つを特別なオートエンコーダとして捉え、'image->semantic->image'の旅路を持つ新しいサイクル変換フレームワークを提案する。 BraTS および ISLES データベースにおける実験結果から,提案手法は従来のいくつかの手法やセグメントに比べて精度良く性能が向上することが示された。

The goal of unsupervised anomaly segmentation (UAS) is to detect the pixel-level anomalies unseen during training. It is a promising field in the medical imaging community, e.g, we can use the model trained with only healthy data to segment the lesions of rare diseases. Existing methods are mainly based on Information Bottleneck, whose underlying principle is modeling the distribution of normal anatomy via learning to compress and recover the healthy data with a low-dimensional manifold, and then detecting lesions as the outlier from this learned distribution. However, this dimensionality reduction inevitably damages the localization information, which is especially essential for pixel-level anomaly detection. In this paper, to alleviate this issue, we introduce the semantic space of healthy anatomy in the process of modeling healthy-data distribution. More precisely, we view the couple of segmentation and synthesis as a special Autoencoder, and propose a novel cycle translation framework with a journey of 'image->semantic->image'. Experimental results on the BraTS and ISLES databases show that the proposed approach achieves significantly superior performance compared to several prior methods and segments the anomalies more accurately.
翻訳日:2021-03-17 17:39:16 公開日:2021-03-16
# (参考訳) 顔偽造検出のための単一中心損失教師付き周波数認識特徴学習

Frequency-aware Discriminative Feature Learning Supervised by Single-Center Loss for Face Forgery Detection ( http://arxiv.org/abs/2103.09096v1 )

ライセンス: CC BY 4.0
Jiaming Li, Hongtao Xie, Jiahong Li, Zhongyuan Wang, Yongdong Zhang(参考訳) face forgery detectionは、顔操作技術が深刻な不安を引き起こすため、コンピュータビジョンへの関心がますます高まっている。 ソフトマックスの損失がクラス内コンパクト性とクラス間分離性を明示的に促進しないため, (a) ソフトマックスの損失によって監督される学習特徴は分離可能であるが, 識別が不十分である (b) 固定フィルタバンクと手作り特徴は多様な入力から周波数の偽造パターンを捉えるのに不十分である) 。 このような制約を補うために,新しい周波数認識型特徴学習フレームワークが提案されている。 具体的には, 組込み空間におけるクラス間差異を増大させながら, 自然顔のクラス内変動のみを圧縮する新しい単一中心損失(scl)を設計した。 このような場合、ネットワークは最適化の困難さを減らしてより差別的な特徴を学習することができる。 また、完全データ駆動方式の周波数手がかりをマイニングするために適応周波数特徴生成モジュールを開発した。 上記の2つのモジュールにより、フレームワーク全体がエンドツーエンドでより識別的な機能を学ぶことができる。 大規模な実験は、FF++データセットの3つのバージョンにおけるフレームワークの有効性と優位性を示している。

Face forgery detection is raising ever-increasing interest in computer vision since facial manipulation technologies cause serious worries. Though recent works have reached sound achievements, there are still unignorable problems: a) learned features supervised by softmax loss are separable but not discriminative enough, since softmax loss does not explicitly encourage intra-class compactness and interclass separability; and b) fixed filter banks and hand-crafted features are insufficient to capture forgery patterns of frequency from diverse inputs. To compensate for such limitations, a novel frequency-aware discriminative feature learning framework is proposed in this paper. Specifically, we design a novel single-center loss (SCL) that only compresses intra-class variations of natural faces while boosting inter-class differences in the embedding space. In such a case, the network can learn more discriminative features with less optimization difficulty. Besides, an adaptive frequency feature generation module is developed to mine frequency clues in a completely data-driven fashion. With the above two modules, the whole framework can learn more discriminative features in an end-to-end manner. Extensive experiments demonstrate the effectiveness and superiority of our framework on three versions of the FF++ dataset.
翻訳日:2021-03-17 17:30:36 公開日:2021-03-16
# (参考訳) 血管ミキシングにおける連続した後部分布:クロスドメイン網膜/静脈分類の規則化

Consistent Posterior Distributions under Vessel-Mixing: A Regularization for Cross-Domain Retinal Artery/Vein Classification ( http://arxiv.org/abs/2103.09097v1 )

ライセンス: CC BY 4.0
Chenxin Li, Yunlong Zhang, Zhehan Liang, Wenao Ma, Yue Huang, Xinghao Ding(参考訳) 網膜動脈/vein (a/v) 分類は糖尿病と心血管疾患の診断に重要な技術である。 ディープラーニングベースの手法はa/v分類において印象的な結果が得られたが、その性能は通常、画像プロトコルのバリエーションなどによるドメインシフトによって、他のデータベースに直接適用した場合に著しく低下する。 本稿では,網膜a/v分類におけるクロスドメイン学習のための新しい容器混合型一貫性正規化フレームワークを提案する。 特に、ラベルのスムーズな事前に基づくソースドメインへの深刻なバイアスを軽減するため、このモデルは、摂動状態にある未ラベルのターゲットドメイン入力に対して一貫した予測を与えるように正規化されている。 この一貫性の規則化は暗黙的に、モデルと摂動が互いに対向するメカニズムを導入する。 そこで本研究では,血管混合摂動と呼ばれる網膜a/vのシナリオにおいて,モデルのロバスト性をさらに高めるためのより難しい相手について検討する。 特に,2つの画像を局所的に混合することにより,底部画像,特に血管構造を効果的に妨害する。 様々な機関や撮像装置から収集した4つの公開データセットを用いて,クロスドメインa/v分類に関する広範な実験を行う。 その結果,本手法は,対象ドメインに対する教師付き学習によって得られる上限に近い,最先端のクロスドメイン性能を実現することを示す。

Retinal artery/vein (A/V) classification is a critical technique for diagnosing diabetes and cardiovascular diseases. Although deep learning based methods achieve impressive results in A/V classification, their performances usually degrade severely when being directly applied to another database, due to the domain shift, e.g., caused by the variations in imaging protocols. In this paper, we propose a novel vessel-mixing based consistency regularization framework, for cross-domain learning in retinal A/V classification. Specially, to alleviate the severe bias to source domain, based on the label smooth prior, the model is regularized to give consistent predictions for unlabeled target-domain inputs that are under perturbation. This consistency regularization implicitly introduces a mechanism where the model and the perturbation is opponent to each other, where the model is pushed to be robust enough to cope with the perturbation. Thus, we investigate a more difficult opponent to further inspire the robustness of model, in the scenario of retinal A/V, called vessel-mixing perturbation. Specially, it effectively disturbs the fundus images especially the vessel structures by mixing two images regionally. We conduct extensive experiments on cross-domain A/V classification using four public datasets, which are collected by diverse institutions and imaging devices. The results demonstrate that our method achieves the state-of-the-art cross-domain performance, which is also close to the upper bound obtained by fully supervised learning on target domain.
翻訳日:2021-03-17 17:09:11 公開日:2021-03-16
# (参考訳) ImageNet上でCNNアーキテクチャを最適化するには十分か?

Is it Enough to Optimize CNN Architectures on ImageNet? ( http://arxiv.org/abs/2103.09108v1 )

ライセンス: CC BY 4.0
Lukas Tuggener, J\"urgen Schmidhuber, Thilo Stadelmann(参考訳) 現代のコンピュータビジョン研究の暗黙的だが広く普及している仮説は、ImageNetでより良い性能を発揮する畳み込みニューラルネットワーク(CNN)アーキテクチャは、他のビジョンデータセットでもより良い性能を発揮するというものである。 我々は、この仮説に、幅広いアプリケーションドメインから500のサンプルCNNアーキテクチャと8つの他の画像分類データセットをトレーニングする広範な実証的研究を通して挑戦する。 アーキテクチャとパフォーマンスの関係はデータセットによって大きく異なる。 一部では、ImageNetとパフォーマンスの相関性はさらに否定的だ。 明らかに、すべてのアプリケーションに関係のある進歩を目指して、ImageNet専用のアーキテクチャを最適化するには不十分です。 そこで,データ集合特有の性能指標として,層間の累積幅とネットワークの深さの2つを同定した。 最後に、imagenetによってカバーされるデータセットの変動範囲は、imagenetサブセットを少数のクラスに制限することで大幅に拡張できることを示す。

An implicit but pervasive hypothesis of modern computer vision research is that convolutional neural network (CNN) architectures that perform better on ImageNet will also perform better on other vision datasets. We challenge this hypothesis through an extensive empirical study for which we train 500 sampled CNN architectures on ImageNet as well as 8 other image classification datasets from a wide array of application domains. The relationship between architecture and performance varies wildly, depending on the datasets. For some of them, the performance correlation with ImageNet is even negative. Clearly, it is not enough to optimize architectures solely for ImageNet when aiming for progress that is relevant for all applications. Therefore, we identify two dataset-specific performance indicators: the cumulative width across layers as well as the total depth of the network. Lastly, we show that the range of dataset variability covered by ImageNet can be significantly extended by adding ImageNet subsets restricted to few classes.
翻訳日:2021-03-17 16:43:26 公開日:2021-03-16
# (参考訳) $\text{t}\bar{\text{t}}\text{b}\bar{\text{b}}$ processにおけるb-jetsの追加を識別する際のマッチング効率向上の学習

Learning to increase matching efficiency in identifying additional b-jets in the $\text{t}\bar{\text{t}}\text{b}\bar{\text{b}}$ process ( http://arxiv.org/abs/2103.09129v1 )

ライセンス: CC BY 4.0
Cheongjae Jang (1), Sang-Kyun Ko (2), Yung-Kyun Noh (1 and 2), Jieun Choi (3), Jongwon Lim (3) and Tae Jeong Kim (3) ((1) A.I. Institute, Hanyang University, (2) Department of Computer Science, Hanyang University, (3) Department of Physics, Hanyang University)(参考訳) この$\text{t}\bar{\text{t}}\text{h}(\text{b}\bar{\text{b}})$プロセスはhiggsプロパティを明らかにするために必須のチャネルであるが、$\text{t}\bar{\text{t}}\text{b}\bar{\text{b}}$プロセスから既約な背景を持ち、bクォーク対と関連するトップクォーク対を生成する。 したがって、$\text{t}\bar{\text{t}}\text{b}\bar{\text{b}}$プロセスを理解することは、$\text{t}\bar{\text{t}}\text{h}(\text{b}\bar{\text{b}})$プロセスに対する検索の感度を向上させるために不可欠である。 この目的のために、$\text{t}\bar{\text{t}}\text{b}\bar{\text{b}}$プロセスの微分断面積を測定する際には、トップクォーク崩壊に由来するb-jetsと、グルーオン分裂に由来するb-jetsを区別する必要がある。 単純な識別ルールがないため、データから学習するためにディープラーニング手法を採用し、$\text{t}\bar{\text{t}}\text{b}\bar{\text{b}}$ eventsから追加のb-jetを識別する。 具体的には、$\text{t}\bar{\text{t}}\text{b}\bar{\text{b}}$イベントデータの特別な構造を利用することで、マッチング効率を直接向上するために最小化できるいくつかの損失関数、追加のb-jetを識別する精度を提案する。 合成データを用いた2進分類arXiv:1910.14535に基づいて,本手法と他の深層学習手法の違いを考察する。 次に、$\sqrt{s}$ = 13 TeV での pp 衝突による lepton+jets チャネルのイベントデータをシミュレートして、バイナリ分類精度よりもマッチング効率を直接向上させることにより、b-jets の追加がより正確に識別可能であることを検証した。

The $\text{t}\bar{\text{t}}\text{H}(\text{b}\bar{\text{b}})$ process is an essential channel to reveal the Higgs properties but has an irreducible background from the $\text{t}\bar{\text{t}}\text{b}\bar{\text{b}}$ process, which produces a top quark pair in association with a b quark pair. Therefore, understanding the $\text{t}\bar{\text{t}}\text{b}\bar{\text{b}}$ process is crucial for improving the sensitivity of a search for the $\text{t}\bar{\text{t}}\text{H}(\text{b}\bar{\text{b}})$ process. To this end, when measuring the differential cross-section of the $\text{t}\bar{\text{t}}\text{b}\bar{\text{b}}$ process, we need to distinguish the b-jets originated from top quark decays, and additional b-jets originated from gluon splitting. Since there are no simple identification rules, we adopt deep learning methods to learn from data to identify the additional b-jets from the $\text{t}\bar{\text{t}}\text{b}\bar{\text{b}}$ events. Specifically, by exploiting the special structure of the $\text{t}\bar{\text{t}}\text{b}\bar{\text{b}}$ event data, we propose several loss functions that can be minimized to directly increase the matching efficiency, the accuracy of identifying additional b-jets. We discuss the difference between our method and another deep learning-based approach based on binary classification arXiv:1910.14535 using synthetic data. We then verify that additional b-jets can be identified more accurately by increasing matching efficiency directly rather than the binary classification accuracy, using simulated $\text{t}\bar{\text{t}}\text{b}\bar{\text{b}}$ event data in the lepton+jets channel from pp collision at $\sqrt{s}$ = 13 TeV.
翻訳日:2021-03-17 16:40:09 公開日:2021-03-16
# (参考訳) 深層学習の進歩と音声・視覚的感情認識

Leveraging Recent Advances in Deep Learning for Audio-Visual Emotion Recognition ( http://arxiv.org/abs/2103.09154v1 )

ライセンス: CC BY 4.0
Liam Schoneveld and Alice Othmani and Hazem Abdelkawy(参考訳) 感情表現とは、感情の状態や態度を他人に伝える行動である。 言語的・非言語的コミュニケーションによって表現される。 複雑な人間の行動は、複数の様相(主に顔、声、身体のジェスチャー)から物理的特徴を研究することで理解できる。 近年,人間の行動分析において,自発性マルチモーダル感情認識が広く研究されている。 本稿では,音声・視覚感情認識のための深層学習に基づく新しいアプローチを提案する。 我々のアプローチは、知識蒸留や高い性能の深層建築のような、近年のディープラーニングの進歩を活用している。 オーディオと視覚的モダリティの深い特徴表現は、モデルレベルの融合戦略に基づいて融合される。 次に、繰り返しニューラルネットワークを使用して、時間的ダイナミクスをキャプチャする。 提案手法は,recolaデータセットのヴァレンス予測における最先端手法を実質的に上回っている。 さらに,提案する視覚表情特徴抽出ネットワークは,AffectNetとGoogle Facial Expression Comparisonデータセットの最先端結果よりも優れていた。

Emotional expressions are the behaviors that communicate our emotional state or attitude to others. They are expressed through verbal and non-verbal communication. Complex human behavior can be understood by studying physical features from multiple modalities; mainly facial, vocal and physical gestures. Recently, spontaneous multi-modal emotion recognition has been extensively studied for human behavior analysis. In this paper, we propose a new deep learning-based approach for audio-visual emotion recognition. Our approach leverages recent advances in deep learning like knowledge distillation and high-performing deep architectures. The deep feature representations of the audio and visual modalities are fused based on a model-level fusion strategy. A recurrent neural network is then used to capture the temporal dynamics. Our proposed approach substantially outperforms state-of-the-art approaches in predicting valence on the RECOLA dataset. Moreover, our proposed visual facial expression feature extraction network outperforms state-of-the-art results on the AffectNet and Google Facial Expression Comparison datasets.
翻訳日:2021-03-17 16:21:00 公開日:2021-03-16
# (参考訳) LRGNet: クラス非依存のクラウドセグメンテーションのために成長する学習可能な領域

LRGNet: Learnable Region Growing for Class-Agnostic Point Cloud Segmentation ( http://arxiv.org/abs/2103.09160v1 )

ライセンス: CC BY 4.0
Jingdao Chen, Zsolt Kira, and Yong K. Cho(参考訳) 3Dポイントクラウドセグメンテーションは、ロボットが周囲の環境のレイアウトを理解し、物体の把握、障害物の回避、ランドマークの発見などのタスクを実行するのを助ける重要な機能である。 現在のセグメンテーション法は主にクラス固有であり、その多くは特定のオブジェクトカテゴリで動作するように調整されており、異なるタイプのシーンには一般化できない。 本研究では,クラス非依存なポイントクラウドセグメンテーションのための学習可能な領域拡大手法を提案する。 提案手法では, 形状や大きさを仮定することなく, 単一のディープニューラルネットワークを用いて任意の種類のオブジェクトを分割することができる。 ディープニューラルネットワークは、ポイントクラウド領域からポイントを追加または削除して、オブジェクトインスタンスの漸進的に完全なリージョンに変形する方法を予測するためにトレーニングされる。 S3DISデータセットとScanNetデータセットのセグメンテーション結果から,提案手法は6つの評価指標に対して競合手法を1%-9%上回る性能を示した。

3D point cloud segmentation is an important function that helps robots understand the layout of their surrounding environment and perform tasks such as grasping objects, avoiding obstacles, and finding landmarks. Current segmentation methods are mostly class-specific, many of which are tuned to work with specific object categories and may not be generalizable to different types of scenes. This research proposes a learnable region growing method for class-agnostic point cloud segmentation, specifically for the task of instance label prediction. The proposed method is able to segment any class of objects using a single deep neural network without any assumptions about their shapes and sizes. The deep neural network is trained to predict how to add or remove points from a point cloud region to morph it into incrementally more complete regions of an object instance. Segmentation results on the S3DIS and ScanNet datasets show that the proposed method outperforms competing methods by 1%-9% on 6 different evaluation metrics.
翻訳日:2021-03-17 16:04:29 公開日:2021-03-16
# (参考訳) スマートフォンを用いた多発性硬化症の遠隔診断のための解釈型深層学習

Interpretable Deep Learning for the Remote Characterisation of Ambulation in Multiple Sclerosis using Smartphones ( http://arxiv.org/abs/2103.09171v1 )

ライセンス: CC BY 4.0
Andrew P. Creagh, Florian Lipsmeier, Michael Lindemann and Maarten De Vos(参考訳) 医療アプリケーションにおけるスマートフォンなどのデジタル技術の出現は、遠隔および非気候で管理可能な多発性硬化症(ms)障害の豊かで連続的で客観的な対策を開発する可能性を実証した。 本研究では,スマートフォンの慣性センサデータに適用したディープ畳み込みニューラルネットワーク(DCNN)を,標準のSVM(Support Vector Machine)機能ベース手法と比較して,MS参加者のアンブレーションと健全性をよく区別することを示した。 低被験者数、スパーシティ、異種データなど、リモートで生成された健康データに関連する典型的な制限を克服するために、同様の大規模オープンソースデータセットからの転送学習(tl)モデルを提案した。 我々のTLフレームワークは、類似のスマートフォンセンサデータから収集したHAR(Human Activity Recognition)タスクの照準情報を利用した。 ブラックボックス」深層ネットワークの透明性の欠如は、臨床応用における深層学習の広く受け入れられる最大の障害の1つである。 その後の研究は、Layer-Wise Relevance Propagation (LRP)を用いて、関連ヒートマップに起因するDCNNの決定を可視化することを目的としている。 LRPフレームワークを通じて、健康な人とMS(PwMS)の人との相互関係を反映したスマートフォンベースの慣性センサーデータから取得したパターンが確立され、理解されるようになった。 また, 健常者からMS障害を区別する特徴として, リズムに基づく測定, 歩行速度, 振動関連信号摂動が示唆された。 高頻度の気候外評価から生じるロバストで解釈可能な結果は、pwmの現在の気候内評価図を大幅に強化し、より良い疾患管理技術を提供し、より良い治療介入の開発を可能にする。

The emergence of digital technologies such as smartphones in healthcare applications have demonstrated the possibility of developing rich, continuous, and objective measures of multiple sclerosis (MS) disability that can be administered remotely and out-of-clinic. In this work, deep convolutional neural networks (DCNN) applied to smartphone inertial sensor data were shown to better distinguish healthy from MS participant ambulation, compared to standard Support Vector Machine (SVM) feature-based methodologies. To overcome the typical limitations associated with remotely generated health data, such as low subject numbers, sparsity, and heterogeneous data, a transfer learning (TL) model from similar large open-source datasets was proposed. Our TL framework utilised the ambulatory information learned on Human Activity Recognition (HAR) tasks collected from similar smartphone-based sensor data. A lack of transparency of "black-box" deep networks remains one of the largest stumbling blocks to the wider acceptance of deep learning for clinical applications. Ensuing work therefore aimed to visualise DCNN decisions attributed by relevance heatmaps using Layer-Wise Relevance Propagation (LRP). Through the LRP framework, the patterns captured from smartphone-based inertial sensor data that were reflective of those who are healthy versus persons with MS (PwMS) could begin to be established and understood. Interpretations suggested that cadence-based measures, gait speed, and ambulation-related signal perturbations were distinct characteristics that distinguished MS disability from healthy participants. Robust and interpretable outcomes, generated from high-frequency out-of-clinic assessments, could greatly augment the current in-clinic assessment picture for PwMS, to inform better disease management techniques, and enable the development of better therapeutic interventions.
翻訳日:2021-03-17 15:46:25 公開日:2021-03-16
# (参考訳) RackLay: 倉庫ラックのマルチレイヤレイアウト推定

RackLay: Multi-Layer Layout Estimation for Warehouse Racks ( http://arxiv.org/abs/2103.09174v1 )

ライセンス: CC BY 4.0
Meher Shashwat Nigam, Avinash Prabhu, Anurag Sahu, Puru Gupta, Tanvi Karandikar, N. Sai Shankar, Ravi Kiran Sarvadevabhatla, K. Madhava Krishna(参考訳) 倉庫ラックの単眼カラー画像が与えられた場合,多層レイアウト予測と呼ぶラック内の各棚の鳥眼配置を予測することを目的としている。 そこで本研究では,単一の画像からリアルタイム棚配置推定を行うディープニューラルネットワークracklayを提案する。 支配的な接地平面のみに単一のレイアウトを提供する従来のレイアウト推定方法とは異なり、 \textit{RackLay} は、オブジェクトが集中していると考えられるラック内の各棚の上位ビューのフロントビューレイアウトを推定する。 RackLayのアーキテクチャとその変種は、画像中のさまざまな可視棚の数、棚の占有率の大きな範囲、様々な背景の乱れを特徴とする多様なシーンの、汎用的で正確なレイアウトを推定する。 この領域におけるデータセットの極端なポーシティと、倉庫からの実データを取得することの難しさを考えると、私たちはさらにフレキシブルな合成データセット生成パイプライン \textit{waresynth}をリリースします。 アーキテクチャの変種間のアブレーションと強力な事前ベースラインとの比較は、多層レイアウト推定の新たな問題に対するaptアーキテクチャとしての \textit{racklay}の有効性を実証する。 また、トップビューとフロントビューを融合させることで、検討したラックに対する計量自由空間推定などの3次元推論が可能であることを示す。

Given a monocular colour image of a warehouse rack, we aim to predict the bird's-eye view layout for each shelf in the rack, which we term as multi-layer layout prediction. To this end, we present RackLay, a deep neural network for real-time shelf layout estimation from a single image. Unlike previous layout estimation methods, which provide a single layout for the dominant ground plane alone, \textit{RackLay} estimates the top-view \underline{and} front-view layout for each shelf in the considered rack populated with objects. RackLay's architecture and its variants are versatile and estimate accurate layouts for diverse scenes characterized by varying number of visible shelves in an image, large range in shelf occupancy factor and varied background clutter. Given the extreme paucity of datasets in this space and the difficulty involved in acquiring real data from warehouses, we additionally release a flexible synthetic dataset generation pipeline \textit{WareSynth} which allows users to control the generation process and tailor the dataset according to contingent application. The ablations across architectural variants and comparison with strong prior baselines vindicate the efficacy of \textit{RackLay} as an apt architecture for the novel problem of multi-layered layout estimation. We also show that fusing the top-view and front-view enables 3D reasoning applications such as metric free space estimation for the considered rack.
翻訳日:2021-03-17 15:17:09 公開日:2021-03-16
# (参考訳) 深層学習 : 統計的視点

Deep learning: a statistical viewpoint ( http://arxiv.org/abs/2103.09177v1 )

ライセンス: CC BY 4.0
Peter L. Bartlett and Andrea Montanari and Alexander Rakhlin(参考訳) ディープラーニングの驚くべき実践的な成功は、理論的な観点からいくつかの大きな驚きを明らかにしている。 特に、単純な勾配法は、非凸最適化問題に対する近似解を容易に見つけることができ、モデルの複雑さを明示的に制御することなく、トレーニングデータにほぼ完全に適合するが、予測精度は優れた。 オーバーパラメトリゼーションによって勾配法が補間解を見つけることができ、これらの方法が暗黙的に正規化を課し、オーバーパラメトリゼーションが良性オーバーフィッティングにつながると推測する。 我々は,これらの原理を簡素な設定で例示する最近の理論的進展を調査した。 まず、古典的一様収束結果と、なぜそれらが深層学習手法の振る舞いの側面を説明できないのかを概観する。 簡単な設定で暗黙的な正規化の例を示し、グラデーションメソッドはトレーニングデータに完全に適合する最小限のノルム関数をもたらす。 次に,二次損失を伴う回帰問題に着目し,良性オーバーフィッティングを示す予測手法について検討する。 これらの手法では,予測ルールを,過度に適合するが良好な設定で予測精度を損なうことなく,予測に有用な単純な成分とスパイクな成分に分解することができる。 本稿では,線形モデルによりネットワークを近似できるニューラルネットワークの線形構造に着目した。 この方法では,勾配流の成功を実証し,二層ネットワークによる良性オーバーフィットを考慮し,過パラメータの影響を正確に示す漸近解析を行う。 最後に、これらの洞察を現実的なディープラーニング設定に拡張する上で生じる重要な課題を強調する。

The remarkable practical success of deep learning has revealed some major surprises from a theoretical perspective. In particular, simple gradient methods easily find near-optimal solutions to non-convex optimization problems, and despite giving a near-perfect fit to training data without any explicit effort to control model complexity, these methods exhibit excellent predictive accuracy. We conjecture that specific principles underlie these phenomena: that overparametrization allows gradient methods to find interpolating solutions, that these methods implicitly impose regularization, and that overparametrization leads to benign overfitting. We survey recent theoretical progress that provides examples illustrating these principles in simpler settings. We first review classical uniform convergence results and why they fall short of explaining aspects of the behavior of deep learning methods. We give examples of implicit regularization in simple settings, where gradient methods lead to minimal norm functions that perfectly fit the training data. Then we review prediction methods that exhibit benign overfitting, focusing on regression problems with quadratic loss. For these methods, we can decompose the prediction rule into a simple component that is useful for prediction and a spiky component that is useful for overfitting but, in a favorable setting, does not harm prediction accuracy. We focus specifically on the linear regime for neural networks, where the network can be approximated by a linear model. In this regime, we demonstrate the success of gradient flow, and we consider benign overfitting with two-layer networks, giving an exact asymptotic analysis that precisely demonstrates the impact of overparametrization. We conclude by highlighting the key challenges that arise in extending these insights to realistic deep learning settings.
翻訳日:2021-03-17 15:00:08 公開日:2021-03-16
# (参考訳) FAQチャットボットのための多言語アフリカ埋め込み

A Multilingual African Embedding for FAQ Chatbots ( http://arxiv.org/abs/2103.09185v1 )

ライセンス: CC0 1.0
Aymen Ben Elhaj Mabrouk, Moez Ben Haj Hmida, Chayma Fourati, Hatem Haddad, Abir Messaoudi(参考訳) インターネット上に散在する情報や、アフリカの方言や言語と通信する政府通信チャネルの欠如により、利用可能な、信頼性があり、公式で、理解可能な情報を検索することは、簡単な作業ではない。 本稿では,危機コミュニケーションのための人工知能を利用したチャットボットについて紹介する。 本稿では,提案するチャットボットシステムのアーキテクチャと異なる階層の記述とともに,アフリカ方言の質問応答タスク用にカスタマイズされた修正されたstarspace埋め込みについて述べる。 英語、フランス語、アラビア語、チュニジア語、igbo、yor\`ub\'a、hausaは言語や方言として使われている。 実運用型Covid-19チャットボットの定量的,定性的な評価結果を得た。 その結果、ユーザーは満足し、チャットボットとの会話は顧客のニーズに合っていることがわかった。

Searching for an available, reliable, official, and understandable information is not a trivial task due to scattered information across the internet, and the availability lack of governmental communication channels communicating with African dialects and languages. In this paper, we introduce an Artificial Intelligence Powered chatbot for crisis communication that would be omnichannel, multilingual and multi dialectal. We present our work on modified StarSpace embedding tailored for African dialects for the question-answering task along with the architecture of the proposed chatbot system and a description of the different layers. English, French, Arabic, Tunisian, Igbo,Yor\`ub\'a, and Hausa are used as languages and dialects. Quantitative and qualitative evaluation results are obtained for our real deployed Covid-19 chatbot. Results show that users are satisfied and the conversation with the chatbot is meeting customer needs.
翻訳日:2021-03-17 14:58:01 公開日:2021-03-16
# (参考訳) エンドツーエンド運転のためのスパースカリキュラム強化学習

Sparse Curriculum Reinforcement Learning for End-to-End Driving ( http://arxiv.org/abs/2103.09189v1 )

ライセンス: CC BY 4.0
Pranav Agarwal, Pierre de Beaucorps and Raoul de Charette(参考訳) エンドツーエンド運転のための深い強化学習は、複雑な報酬工学の必要性によって制限される。 スパース報酬はこの課題を回避できるが、長い訓練時間に悩まされ、準最適政策につながる。 本研究では,目標条件付きスパース報酬のみを用いた運転について検討し,ナビゲーションビューマップのみを用いたエンドツーエンド運転のためのカリキュラム学習手法を提案する。 複数の運転ポリシーの複雑さに対処するために,ナビゲーションシステムによって選択された同時個別ポリシーを学習する。 提案手法は,未確認の道路レイアウトを一般化し,トレーニングよりも長い運転が可能であることを示す。

Deep reinforcement Learning for end-to-end driving is limited by the need of complex reward engineering. Sparse rewards can circumvent this challenge but suffers from long training time and leads to sub-optimal policy. In this work, we explore driving using only goal conditioned sparse rewards and propose a curriculum learning approach for end to end driving using only navigation view maps that benefit from small virtual-to-real domain gap. To address the complexity of multiple driving policies, we learn concurrent individual policies which are selected at inference by a navigation system. We demonstrate the ability of our proposal to generalize on unseen road layout, and to drive longer than in the training.
翻訳日:2021-03-17 14:47:09 公開日:2021-03-16
# (参考訳) 自律配送ロボットの設計と開発

Design and Development of Autonomous Delivery Robot ( http://arxiv.org/abs/2103.09229v1 )

ライセンス: CC BY 4.0
Aniket Gujarathi, Akshay Kulkarni, Unmesh Patil, Yogesh Phalak, Rajeshree Deotalu, Aman Jain, Navid Panchi, Ashwin Dhabale, Shital Chiddarwar(参考訳) 自律ロボット工学の分野は急速に成長している。 ますます多くのセンサーを車両に使用する傾向は、より安全で信頼性の高いサービスに対する法律と消費者の要求の両方によって引き起こされている。 現在、ロボットは家、病院、産業、軍事活動など、あらゆる場所で発見されている。 自律ロボットは人間のそばで働き、効率的に仕事を遂行できるほど頑丈に開発されている。 人間は、重力や運動感覚など、周りで作用する物理的な力を理解する自然な感覚を持っている。 明示的に教えられるのではなく 自然に発達します しかし、これはロボットには当てはまらない。 ロボットが人間と完全に自律的に作業できるようにするためには、ロボットは状況を認識し、タスクの実行中に発生する可能性のあるすべての逆を考慮し、スムーズな操作の計画を立てなければならない。 本論文では,VNITキャンパス内のパッケージを人間間通信なしで提供する,自律型移動ロボットプラットフォームを提案する。 ユーザーが提供する最初の地理的ターゲット位置から、システムは最適化された経路を計画し、それを自律的にナビゲートする。 この論文では、屋外環境で働く自律ロボットのパイプライン全体を詳細に説明している。

The field of autonomous robotics is growing at a rapid rate. The trend to use increasingly more sensors in vehicles is driven both by legislation and consumer demands for higher safety and reliable service. Nowadays, robots are found everywhere, ranging from homes, hospitals to industries, and military operations. Autonomous robots are developed to be robust enough to work beside humans and to carry out jobs efficiently. Humans have a natural sense of understanding of the physical forces acting around them like gravity, sense of motion, etc. which are not taught explicitly but are developed naturally. However, this is not the case with robots. To make the robot fully autonomous and competent to work with humans, the robot must be able to perceive the situation and devise a plan for smooth operation, considering all the adversities that may occur while carrying out the tasks. In this thesis, we present an autonomous mobile robot platform that delivers the package within the VNIT campus without any human intercommunication. From an initial user-supplied geographic target location, the system plans an optimized path and autonomously navigates through it. The entire pipeline of an autonomous robot working in outdoor environments is explained in detail in this thesis.
翻訳日:2021-03-17 14:34:38 公開日:2021-03-16
# (参考訳) リャプノフ障壁政策最適化

Lyapunov Barrier Policy Optimization ( http://arxiv.org/abs/2103.09230v1 )

ライセンス: CC BY 4.0
Harshit Sikchi, Wenxuan Zhou, David Held(参考訳) 現実世界にRLエージェントを配置するには、エージェントが安全上の制約を満たす必要がある。 現在のRLエージェントは、これらの制約を考慮せずに環境を探索し、環境内のハードウェアや他のエージェントにダメージを与える可能性がある。 本稿では,lyapunovベースのバリア関数を用いて,トレーニングイテレーション毎にポリシ更新をセーフセットに制限する手法であるlbpoを提案する。 また,本手法により,環境の制約に対して,エージェントの保守性を制御できる。 LBPOは、パフォーマンスの点で競争力がありながら、トレーニング中の制約違反の数で最先端のベースラインを著しく上回る。 さらに,本分析の結果から,CPOやSDDPGなどのベースラインは,安全投射ではなくバックトラックに大きく依存していることが明らかとなった。

Deploying Reinforcement Learning (RL) agents in the real-world require that the agents satisfy safety constraints. Current RL agents explore the environment without considering these constraints, which can lead to damage to the hardware or even other agents in the environment. We propose a new method, LBPO, that uses a Lyapunov-based barrier function to restrict the policy update to a safe set for each training iteration. Our method also allows the user to control the conservativeness of the agent with respect to the constraints in the environment. LBPO significantly outperforms state-of-the-art baselines in terms of the number of constraint violations during training while being competitive in terms of performance. Further, our analysis reveals that baselines like CPO and SDDPG rely mostly on backtracking to ensure safety rather than safe projection, which provides insight into why previous methods might not have effectively limit the number of constraint violations.
翻訳日:2021-03-17 14:21:50 公開日:2021-03-16
# 道路交通の間接的評価に向けて

Towards Indirect Top-Down Road Transport Emissions Estimation ( http://arxiv.org/abs/2103.08829v1 )

ライセンス: Link先を確認
Ryan Mukherjee, Derek Rollend, Gordon Christie, Armin Hadzic, Sally Matson, Anshu Saksena, Marisa Hughes(参考訳) 道路交通は気候変動に影響を及ぼす温室効果ガス(GHG)排出量の最大セクターの1つである。 気候変動を世界的なコミュニティとして取り組むためには、道路交通の排出を計測し在庫する新しい能力が必要です。 しかし、自動車排出の大規模かつ分散的な性質は、既存の在庫手法において特にこの分野を困難にしている。 本研究では,衛星画像を用いた道路交通エミッションの間接的トップダウン推定を行う機械学習モデルを開発する。 最初の実験は、私たちのモデルをトレーニングするためのボトムアップインベントリが利用できる米国に焦点を当てました。 平均絶対誤差 (MAE) を39.5kg CO$_{2}$で達成し, センチネル2画像の画素単位100m$^{2}$で算出した。 また、グローバルな地理に一般化可能なモデルを開発する上で、対処すべき重要なモデル仮定と課題についても論じる。 本研究は,視覚画像を用いた道路交通セクター排出の間接的トップダウン自動推定のための最初のアプローチであり,独立的にかつ客観的に測定された,スケーラブルでグローバルで,ほぼリアルタイムな道路交通エミッション在庫に対する重要なステップであると考えている。

Road transportation is one of the largest sectors of greenhouse gas (GHG) emissions affecting climate change. Tackling climate change as a global community will require new capabilities to measure and inventory road transport emissions. However, the large scale and distributed nature of vehicle emissions make this sector especially challenging for existing inventory methods. In this work, we develop machine learning models that use satellite imagery to perform indirect top-down estimation of road transport emissions. Our initial experiments focus on the United States, where a bottom-up inventory was available for training our models. We achieved a mean absolute error (MAE) of 39.5 kg CO$_{2}$ of annual road transport emissions, calculated on a pixel-by-pixel (100 m$^{2}$) basis in Sentinel-2 imagery. We also discuss key model assumptions and challenges that need to be addressed to develop models capable of generalizing to global geography. We believe this work is the first published approach for automated indirect top-down estimation of road transport sector emissions using visual imagery and represents a critical step towards scalable, global, near-real-time road transportation emissions inventories that are measured both independently and objectively.
翻訳日:2021-03-17 13:39:28 公開日:2021-03-16
# 空間依存ネットワーク:生成画像モデリングを改善するニューラルネットワーク層

Spatial Dependency Networks: Neural Layers for Improved Generative Image Modeling ( http://arxiv.org/abs/2103.08877v1 )

ライセンス: Link先を確認
{\DJ}or{\dj}e Miladinovi\'c, Aleksandar Stani\'c, Stefan Bauer, J\"urgen Schmidhuber, Joachim M. Buhmann(参考訳) 画像の空間的規則性とコヒーレンスをうまく活用して生成モデルを改善するには? 本稿では,イメージジェネレータ(デコーダ)を構築するニューラルネットワークを導入し,それを可変オートエンコーダ(VAE)に適用する。 空間依存ネットワーク(sdns)では、2次元空間に文脈情報を分散する逐次ゲーティングに基づくメカニズムを用いて、深層ニューラルネットワークの各レベルの特徴マップを空間的にコヒーレントな方法で計算する。 また,空間依存層による階層型vaeのデコーダの強化は,ベースライン畳み込み型アーキテクチャの密度推定と,同一クラス内のモデル間の状態推定を大幅に改善することを示した。 さらに,高品質かつコヒーレンスなサンプルを合成することにより,sdnを大規模画像に適用できることを実証する。 バニラVAE設定では、強力なSDNデコーダが、アンタングル表現の学習を改善し、このタスクにおいてニューラルネットワークが重要な役割を果たすことを示す。 以上より,様々なvae設定において畳み込み層に対する空間依存が好まれることが示唆された。 付随するソースコードはhttps://github.com/djordjemila/sdnで提供される。

How to improve generative modeling by better exploiting spatial regularities and coherence in images? We introduce a novel neural network for building image generators (decoders) and apply it to variational autoencoders (VAEs). In our spatial dependency networks (SDNs), feature maps at each level of a deep neural net are computed in a spatially coherent way, using a sequential gating-based mechanism that distributes contextual information across 2-D space. We show that augmenting the decoder of a hierarchical VAE by spatial dependency layers considerably improves density estimation over baseline convolutional architectures and the state-of-the-art among the models within the same class. Furthermore, we demonstrate that SDN can be applied to large images by synthesizing samples of high quality and coherence. In a vanilla VAE setting, we find that a powerful SDN decoder also improves learning disentangled representations, indicating that neural architectures play an important role in this task. Our results suggest favoring spatial dependency over convolutional layers in various VAE settings. The accompanying source code is given at https://github.com/djordjemila/sdn.
翻訳日:2021-03-17 13:39:08 公開日:2021-03-16
# 対話システムのためのインテントスロット自動誘導

Automatic Intent-Slot Induction for Dialogue Systems ( http://arxiv.org/abs/2103.08886v1 )

ライセンス: Link先を確認
Zengfeng Zeng, Dan Ma, Haiqin Yang, Zhen Gou and Jianping Shen(参考訳) 対話システムの成功には,ユーザの意図を自動的かつ正確に識別し,発話言語からのスロットを埋めることが不可欠である。 従来の手法では、DOMAIN-INTENT-SLOTスキーマを手動で定義し、多くのドメインエキスパートに対応する発話に注釈を付ける必要がある。 この手順は、オープンドメインの対話システムにおいて、情報共有の障害、スキーマ外、あるいはデータの分散という課題をもたらす。 これらの課題に対処するため,本研究では,自動インテントスロット誘導という新たな課題を探求し,ドメインに依存しない新しいツールを提案する。 That is, we design a coarse-to-fine three-step procedure including Role-labeling, Concept-mining, And Pattern-mining (RCAP): (1) role-labeling: extracting keyphrases from users' utterances and classifying them into a quadruple of coarsely-defined intent-roles via sequence labeling; (2) concept-mining: clustering the extracted intent-role mentions and naming them into abstract fine-grained concepts; (3) pattern-mining: applying the Apriori algorithm to mine intent-role patterns and automatically inferring the intent-slot using these coarse-grained intent-role labels and fine-grained concepts. Empirical evaluations on both real-world in-domain and out-of-domain datasets show that: (1) our RCAP can generate satisfactory SLU schema and outperforms the state-of-the-art supervised learning method; (2) our RCAP can be directly applied to out-of-domain datasets and gain at least 76\% improvement of F1-score on intent detection and 41\% improvement of F1-score on slot filling; (3) our RCAP exhibits its power in generic intent-slot extractions with less manual effort, which opens pathways for schema induction on new domains and unseen intent-slot discovery for generalizable dialogue systems.

Automatically and accurately identifying user intents and filling the associated slots from their spoken language are critical to the success of dialogue systems. Traditional methods require manually defining the DOMAIN-INTENT-SLOT schema and asking many domain experts to annotate the corresponding utterances, upon which neural models are trained. This procedure brings the challenges of information sharing hindering, out-of-schema, or data sparsity in open-domain dialogue systems. To tackle these challenges, we explore a new task of {\em automatic intent-slot induction} and propose a novel domain-independent tool. That is, we design a coarse-to-fine three-step procedure including Role-labeling, Concept-mining, And Pattern-mining (RCAP): (1) role-labeling: extracting keyphrases from users' utterances and classifying them into a quadruple of coarsely-defined intent-roles via sequence labeling; (2) concept-mining: clustering the extracted intent-role mentions and naming them into abstract fine-grained concepts; (3) pattern-mining: applying the Apriori algorithm to mine intent-role patterns and automatically inferring the intent-slot using these coarse-grained intent-role labels and fine-grained concepts. Empirical evaluations on both real-world in-domain and out-of-domain datasets show that: (1) our RCAP can generate satisfactory SLU schema and outperforms the state-of-the-art supervised learning method; (2) our RCAP can be directly applied to out-of-domain datasets and gain at least 76\% improvement of F1-score on intent detection and 41\% improvement of F1-score on slot filling; (3) our RCAP exhibits its power in generic intent-slot extractions with less manual effort, which opens pathways for schema induction on new domains and unseen intent-slot discovery for generalizable dialogue systems.
翻訳日:2021-03-17 13:38:49 公開日:2021-03-16
# kgsynnet:知識グラフを用いた新しいエンティティシノニム発見フレームワーク

KGSynNet: A Novel Entity Synonyms Discovery Framework with Knowledge Graph ( http://arxiv.org/abs/2103.08893v1 )

ライセンス: Link先を確認
Yiying Yang, Xi Yin, Haiqin Yang, Xingjian Fei, Hao Peng, Kaijie Zhou, Kunfeng Lai, and Jianping Shen(参考訳) エンティティ同義語の発見は、エンティティ平均アプリケーションにとって不可欠である。 しかし、既存の研究はいくつかの重大な問題に悩まされている:(1) 入力参照は語彙外(OOV)であり、エンティティの異なる意味空間から来ているかもしれない; (2) 参照とエンティティ間の接続は、表面マッチングによって隠蔽され、確立できない; (3) 長い尾効果のため、一部のエンティティはほとんど現れない。 これらの課題に取り組むため,我々は知識グラフを容易化し,新しい概念同義語発見フレームワークである \emph{kgsynnet} を提案する。 具体的には,大規模なドメイン固有コーパスを用いた参照やエンティティのサブワード埋め込みを事前訓練し,共同TransC-TransEモデルを用いてエンティティの知識埋め込みを学習する。 より重要なことは、エンティティの包括的な表現を得るために、特定の設計の 'emph{fusion gate} を用いて、エンティティの知識情報をそれらの意味的特徴に適応的に吸収する。 我々は知識グラフの活用におけるemph{kgsynnet}の有効性を実証するために広範な実験を行う。 実験の結果,emph{kgsynnet}は,オフライン評価におけるhis@3の観点で14.7\%,質問応答システムのエンティティリンクモジュール上でのオンラインa/bテストの正のフィードバック率で8.3\%,芸術的手法を14.7\%改善した。

Entity synonyms discovery is crucial for entity-leveraging applications. However, existing studies suffer from several critical issues: (1) the input mentions may be out-of-vocabulary (OOV) and may come from a different semantic space of the entities; (2) the connection between mentions and entities may be hidden and cannot be established by surface matching; and (3) some entities rarely appear due to the long-tail effect. To tackle these challenges, we facilitate knowledge graphs and propose a novel entity synonyms discovery framework, named \emph{KGSynNet}. Specifically, we pre-train subword embeddings for mentions and entities using a large-scale domain-specific corpus while learning the knowledge embeddings of entities via a joint TransC-TransE model. More importantly, to obtain a comprehensive representation of entities, we employ a specifically designed \emph{fusion gate} to adaptively absorb the entities' knowledge information into their semantic features. We conduct extensive experiments to demonstrate the effectiveness of our \emph{KGSynNet} in leveraging the knowledge graph. The experimental results show that the \emph{KGSynNet} improves the state-of-the-art methods by 14.7\% in terms of hits@3 in the offline evaluation and outperforms the BERT model by 8.3\% in the positive feedback rate of an online A/B test on the entity linking module of a question answering system.
翻訳日:2021-03-17 13:38:19 公開日:2021-03-16
# 視覚言語モデルのゼロショット言語間伝達のための多言語マルチモーダル事前学習

Multilingual Multimodal Pre-training for Zero-Shot Cross-Lingual Transfer of Vision-Language Models ( http://arxiv.org/abs/2103.08849v1 )

ライセンス: Link先を確認
Po-Yao Huang, Mandela Patrick, Junjie Hu, Graham Neubig, Florian Metze and Alexander Hauptmann(参考訳) 本稿では,視覚言語モデルのゼロショット言語間伝達について検討する。 具体的には,多言語間テキスト対ビデオ検索に着目し,文脈化多言語マルチモーダル埋め込みを学習するトランスフォーマティブモデルを提案する。 ゼロショット設定では,非英語文で多言語テキストビデオモデルに問い合わせると,性能が著しく低下することを示す。 この問題に対処するために,多言語マルチモーダル事前学習戦略を導入し,事前学習のための新しい多言語指導ビデオデータセット(multihowto100m)を収集する。 VTT実験により,アノテーションを付加せずに非英語での動画検索が大幅に改善された。 さらに,多言語アノテーションが利用可能であれば,vtt と vatex の多言語テキスト対ビデオ検索や multi30k の多言語テキスト対画像検索において,最近のベースラインを大きく上回っている。 私たちのモデルとMulti-HowTo100Mはhttp://github.com/berniebear/Mutli-HT100Mで利用可能です。

This paper studies zero-shot cross-lingual transfer of vision-language models. Specifically, we focus on multilingual text-to-video search and propose a Transformer-based model that learns contextualized multilingual multimodal embeddings. Under a zero-shot setting, we empirically demonstrate that performance degrades significantly when we query the multilingual text-video model with non-English sentences. To address this problem, we introduce a multilingual multimodal pre-training strategy, and collect a new multilingual instructional video dataset (MultiHowTo100M) for pre-training. Experiments on VTT show that our method significantly improves video search in non-English languages without additional annotations. Furthermore, when multilingual annotations are available, our method outperforms recent baselines by a large margin in multilingual text-to-video search on VTT and VATEX; as well as in multilingual text-to-image search on Multi30K. Our model and Multi-HowTo100M is available at http://github.com/berniebear/Mutli-HT100M.
翻訳日:2021-03-17 13:37:51 公開日:2021-03-16
# ワンショットで見る超高分解能クロスドメイン顔ミニチュア

Super-Resolving Cross-Domain Face Miniatures by Peeking at One-Shot Exemplar ( http://arxiv.org/abs/2103.08863v1 )

ライセンス: Link先を確認
Peike Li, Xin Yu, Yi Yang(参考訳) 従来の顔超解像法では、通常、低解像度(LR)画像のテストはトレーニング画像と同じ領域にあると仮定する。 異なる照明条件と撮像ハードウェアのため、トレーニングとテストの間のドメインギャップは多くの現実世界のシナリオで必然的に発生する。 これらの領域ギャップを無視すると、下面超解像(FSR)の性能が低下する。 しかし、訓練されたFSRモデルをターゲット領域に効率的に効率的に転送する方法は研究されていない。 この問題に対処するため,ドメイン対応ピラミッド型顔超解像ネットワークDAP-FSRを開発した。 DAP-FSRは、ターゲット領域における高分解能(HR)と高分解能(LR)のみを活用することにより、ターゲット領域からLR面を超解する最初の試みである。 具体的には、DAP-FSRはまずエンコーダを用いて、入力LR面のマルチスケール潜在表現を抽出する。 対象ドメインの例が1つしかないことを考慮し、対象ドメインの顔とソースドメインの潜在表現を混合して対象ドメインデータを拡張し、その混合表現をDAP-FSRのデコーダに供給することを提案する。 デコーダは、ターゲットドメインイメージスタイルに似た新しい顔画像を生成する。 生成されたHRフェイスは、ドメインギャップを減らすためにデコーダの最適化に使用される。 遅延表現とデコーダを反復的に更新することにより、DAP-FSRはターゲット領域に適応し、真正かつ高品質なHR面を実現する。 新たに構築した3つのベンチマークに関する広範囲な実験により,dap-fsrの有効性と優れた性能が得られた。

Conventional face super-resolution methods usually assume testing low-resolution (LR) images lie in the same domain as the training ones. Due to different lighting conditions and imaging hardware, domain gaps between training and testing images inevitably occur in many real-world scenarios. Neglecting those domain gaps would lead to inferior face super-resolution (FSR) performance. However, how to transfer a trained FSR model to a target domain efficiently and effectively has not been investigated. To tackle this problem, we develop a Domain-Aware Pyramid-based Face Super-Resolution network, named DAP-FSR network. Our DAP-FSR is the first attempt to super-resolve LR faces from a target domain by exploiting only a pair of high-resolution (HR) and LR exemplar in the target domain. To be specific, our DAP-FSR firstly employs its encoder to extract the multi-scale latent representations of the input LR face. Considering only one target domain example is available, we propose to augment the target domain data by mixing the latent representations of the target domain face and source domain ones, and then feed the mixed representations to the decoder of our DAP-FSR. The decoder will generate new face images resembling the target domain image style. The generated HR faces in turn are used to optimize our decoder to reduce the domain gap. By iteratively updating the latent representations and our decoder, our DAP-FSR will be adapted to the target domain, thus achieving authentic and high-quality upsampled HR faces. Extensive experiments on three newly constructed benchmarks validate the effectiveness and superior performance of our DAP-FSR compared to the state-of-the-art.
翻訳日:2021-03-17 13:37:33 公開日:2021-03-16
# 野生のバランス顔におけるバイアスのバランスとプライバシーの保護

Balancing Biases and Preserving Privacy on Balanced Faces in the Wild ( http://arxiv.org/abs/2103.09118v1 )

ライセンス: Link先を確認
Joseph P Robinson and Can Qin and Yann Henon and Samson Timoner and Yun Fu(参考訳) FRに使用されるSOTA CNNには人口統計バイアスがある。 我々のBFWデータセットは、民族と性別のサブグループ間のバイアスを測定するプロキシとして機能し、サブグループごとのFRパフォーマンスを特徴付けることができます。 サンプルペアが真か偽かを決定するために1つのスコアしきい値を使用する場合、性能が最適でないことを示す。 さらに、実際のパフォーマンス評価は、報告されたサブグループ間で大きく異なる。 したがって、特定のエラー率の主張は、検証データと一致する集団に対してのみ当てはまる。 我々は,SOTAディープネットを用いて抽出した顔符号化の領域適応学習方式を用いて,不均衡な性能を緩和する。 このテクニックはパフォーマンスのバランスを取るだけでなく、全体的なパフォーマンスも向上します。 提案手法の利点は, 顔特徴におけるアイデンティティ情報を保存しつつ, 下位次元特徴における人口統計学的知識を除去できることである。 人口統計知識の除去は、将来の潜在的なバイアスが意思決定に注入されるのを防ぐ。 さらに、この削除によってプライバシーの懸念が満たされる。 硬いサンプルで定性的に機能する理由を探る。 また,サブグループ分類器は,提案するエンコーディングから学習できないことを定量的に示す。

There are demographic biases in the SOTA CNN used for FR. Our BFW dataset serves as a proxy to measure bias across ethnicity and gender subgroups, allowing us to characterize FR performances per subgroup. We show performances are non-optimal when a single score threshold is used to determine whether sample pairs are genuine or imposter. Furthermore, actual performance ratings vary greatly from the reported across subgroups. Thus, claims of specific error rates only hold true for populations matching that of the validation data. We mitigate the imbalanced performances using a novel domain adaptation learning scheme on the facial encodings extracted using SOTA deep nets. Not only does this technique balance performance, but it also boosts the overall performance. A benefit of the proposed is to preserve identity information in facial features while removing demographic knowledge in the lower dimensional features. The removal of demographic knowledge prevents future potential biases from being injected into decision-making. Additionally, privacy concerns are satisfied by this removal. We explore why this works qualitatively with hard samples. We also show quantitatively that subgroup classifiers can no longer learn from the encodings mapped by the proposed.
翻訳日:2021-03-17 13:37:04 公開日:2021-03-16
# マルチストリームトランスを用いた縦断医療データからのオピオイド使用障害予測

Predicting Opioid Use Disorder from Longitudinal Healthcare Data using Multi-stream Transformer ( http://arxiv.org/abs/2103.08800v1 )

ライセンス: Link先を確認
Sajjad Fouladvand, Jeffery Talbert, Linda P. Dwoskin, Heather Bush, Amy Lynn Meadows, Lars E. Peterson, Ramakanth Kavuluru, Jin Chen(参考訳) オピオイド使用障害(opioid use disorder、oud)は、医療、職場の生産性、犯罪において年間数十億ドルの費用がかかる公衆衛生危機である。 医療における多くの現実の問題に対処するために、縦断的な医療データを分析することが重要である。 そこで本研究では,実世界の縦断医療データを活用したマルチストリームトランスフォーマーモデルであるmupodを提案する。 MUPODは、医薬品や診断など、複数のタイプの医療データストリームを同時に分析するように設計されている。 長期の腰痛に悩まされた392,492例のデータから,従来のモデルよりも有意に優れた成績を示し,近年のディープラーニングモデルを開発した。

Opioid Use Disorder (OUD) is a public health crisis costing the US billions of dollars annually in healthcare, lost workplace productivity, and crime. Analyzing longitudinal healthcare data is critical in addressing many real-world problems in healthcare. Leveraging the real-world longitudinal healthcare data, we propose a novel multi-stream transformer model called MUPOD for OUD prediction. MUPOD is designed to simultaneously analyze multiple types of healthcare data streams, such as medications and diagnoses, by finding the attentions within and across these data streams. Our model tested on the data from 392,492 patients with long-term back pain problems showed significantly better performance than the traditional models and recently developed deep learning models.
翻訳日:2021-03-17 13:36:37 公開日:2021-03-16
# トライアージによる差別的学習

Differentiable Learning Under Triage ( http://arxiv.org/abs/2103.08902v1 )

ライセンス: Link先を確認
Nastaran Okati, Abir De, Manuel Gomez-Rodriguez(参考訳) 複数の証拠が、予測モデルがアルゴリズム的トリアージの恩恵を受ける可能性を示唆している。 アルゴリズム的トリアージでは、予測モデルはすべてのインスタンスを予測せず、その一部を人間の専門家に否定する。 しかし,アルゴリズムトリアージによる予測精度と人間専門家との相互作用はよく理解されていない。 本研究では,予測モデルがアルゴリズム的トリアージの恩恵を受ける状況下での形式的特徴付けから始める。 そうすることで、完全自動化のためにトレーニングされたモデルが、トリアージ下では最適でないことも示します。 そして、任意のモデルと所望のトリアージレベルが与えられた場合、最適なトリアージポリシーは、モデルと人間のエラーとの差をインスタンス単位のレベルで閾値にすることで、トリアージ決定を決定論的に導出する決定論的しきい値ルールであることを示す。 これらの結果をもとに,トリアージポリシのシーケンスと性能向上の予測モデルを見出すことを保証した,実用的な勾配に基づくアルゴリズムを提案する。 コンテントモデレーションと科学的発見という2つの重要な応用から得られた合成および実データを用いて、様々な教師付き学習タスクを実験した結果、我々の理論的結果が示され、勾配に基づくアルゴリズムによって提供されるモデルとトリアージポリシーが、いくつかの競合ベースラインによって提供されるものよりも優れていることが示されている。

Multiple lines of evidence suggest that predictive models may benefit from algorithmic triage. Under algorithmic triage, a predictive model does not predict all instances but instead defers some of them to human experts. However, the interplay between the prediction accuracy of the model and the human experts under algorithmic triage is not well understood. In this work, we start by formally characterizing under which circumstances a predictive model may benefit from algorithmic triage. In doing so, we also demonstrate that models trained for full automation may be suboptimal under triage. Then, given any model and desired level of triage, we show that the optimal triage policy is a deterministic threshold rule in which triage decisions are derived deterministically by thresholding the difference between the model and human errors on a per-instance level. Building upon these results, we introduce a practical gradient-based algorithm that is guaranteed to find a sequence of triage policies and predictive models of increasing performance. Experiments on a wide variety of supervised learning tasks using synthetic and real data from two important applications -- content moderation and scientific discovery -- illustrate our theoretical results and show that the models and triage policies provided by our gradient-based algorithm outperform those provided by several competitive baselines.
翻訳日:2021-03-17 13:36:25 公開日:2021-03-16
# ドメイン外Few-Shot学習における事前学習モデルの再検討

Repurposing Pretrained Models for Robust Out-of-domain Few-Shot Learning ( http://arxiv.org/abs/2103.09027v1 )

ライセンス: Link先を確認
Namyeong Kwon, Hwidong Na, Gabriel Huang, Simon Lacoste-Julien(参考訳) モデル非依存型メタラーニング(MAML)は、数ショット学習の一般的な方法であるが、メタトレーニングセットにアクセス可能であると仮定する。 実際には、データプライバシの懸念、知的財産の問題、あるいは単にコンピューティングリソースの欠如のため、メタトレーニングセットのトレーニングは必ずしも選択肢ではないかもしれない。 本稿では,事前学習されたmamlチェックポイントを再利用して,新たな少数ショット分類課題を解決するという新しい課題について考察する。 潜在的分布ミスマッチのため、元のMAMLステップはもはや最適ではないかもしれない。 そこで我々は,メタテストの代替手法を提案し,MAMLグラデーションステップと逆行訓練と不確実性に基づくステップサイズ適応を組み合わせた。 提案手法は,SGDとAdamオプティマイザの両方を用いて,同一ドメインとクロスドメインのベンチマーク上での"バニラ"MAMLの性能を向上し,ベースステップサイズの選択に対するロバスト性の向上を示す。

Model-agnostic meta-learning (MAML) is a popular method for few-shot learning but assumes that we have access to the meta-training set. In practice, training on the meta-training set may not always be an option due to data privacy concerns, intellectual property issues, or merely lack of computing resources. In this paper, we consider the novel problem of repurposing pretrained MAML checkpoints to solve new few-shot classification tasks. Because of the potential distribution mismatch, the original MAML steps may no longer be optimal. Therefore we propose an alternative meta-testing procedure and combine MAML gradient steps with adversarial training and uncertainty-based stepsize adaptation. Our method outperforms "vanilla" MAML on same-domain and cross-domains benchmarks using both SGD and Adam optimizers and shows improved robustness to the choice of base stepsize.
翻訳日:2021-03-17 13:35:33 公開日:2021-03-16
# 分散ディープラーニングのための学習勾配圧縮

Learned Gradient Compression for Distributed Deep Learning ( http://arxiv.org/abs/2103.08870v1 )

ライセンス: Link先を確認
Lusine Abrahamyan, Yiming Chen, Giannis Bekoulis and Nikos Deligiannis(参考訳) 高次元データを含む大規模データセット上でディープニューラルネットワークをトレーニングするには、大量の計算が必要である。 この問題の解決策はデータ並列分散トレーニング(Data-parallel Distributed Training)であり、モデルが複数の計算ノードに複製され、データの異なるチャンクにアクセスする。 しかしこのアプローチは、各イテレーションでノード間で共有する必要がある計算された勾配のため、高い通信速度とレイテンシを必要とする。 この問題は、ノード間の無線通信がある場合(すなわち)、より顕著になる。 ネットワーク帯域幅が限られているため) この問題に対処するために、勾配のスパース化、量子化、エントロピー符号化など様々な圧縮法が提案されている。 既存の方法はノード内の情報冗長性、すなわち各ノードの勾配を独立に圧縮する。 対照的に,ノード間の勾配は相関しており,このノード間冗長性を利用して圧縮効率を向上させる手法を提案する。 ノード通信プロトコル(パラメータサーバまたはring-allreduce)により、我々は学習勾配圧縮(lgc)を考案したlgcアプローチの2つのインスタンスを提案する。 我々のメソッドはオートエンコーダ(つまり)を利用する。 分散トレーニングの最初の段階でトレーニングされた)分散ノードの勾配に存在する共通情報をキャプチャする。 我々は,様々な畳み込みニューラルネットワーク(resnet50,resnet101,pspnet)と複数のデータセット(imagenet,cifar10,camvid)を用いて,画像分類と意味セグメンテーションタスクに関するlgc手法をテストした。 cifar10の画像分類のためにトレーニングされたresnet101モデルは、精度93.57%に達し、非圧縮勾配のベースライン分散トレーニングよりも0.18%低い。

Training deep neural networks on large datasets containing high-dimensional data requires a large amount of computation. A solution to this problem is data-parallel distributed training, where a model is replicated into several computational nodes that have access to different chunks of the data. This approach, however, entails high communication rates and latency because of the computed gradients that need to be shared among nodes at every iteration. The problem becomes more pronounced in the case that there is wireless communication between the nodes (i.e. due to the limited network bandwidth). To address this problem, various compression methods have been proposed including sparsification, quantization, and entropy encoding of the gradients. Existing methods leverage the intra-node information redundancy, that is, they compress gradients at each node independently. In contrast, we advocate that the gradients across the nodes are correlated and propose methods to leverage this inter-node redundancy to improve compression efficiency. Depending on the node communication protocol (parameter server or ring-allreduce), we propose two instances of the LGC approach that we coin Learned Gradient Compression (LGC). Our methods exploit an autoencoder (i.e. trained during the first stages of the distributed training) to capture the common information that exists in the gradients of the distributed nodes. We have tested our LGC methods on the image classification and semantic segmentation tasks using different convolutional neural networks (ResNet50, ResNet101, PSPNet) and multiple datasets (ImageNet, Cifar10, CamVid). The ResNet101 model trained for image classification on Cifar10 achieved an accuracy of 93.57%, which is lower than the baseline distributed training with uncompressed gradients only by 0.18%.
翻訳日:2021-03-17 13:35:17 公開日:2021-03-16
# ボランティア型パラダイムを用いた分散ディープラーニング

Distributed Deep Learning Using Volunteer Computing-Like Paradigm ( http://arxiv.org/abs/2103.08894v1 )

ライセンス: Link先を確認
Medha Atre and Birendra Jha and Ashwini Rao(参考訳) 画像分類,感情分析,音声認識などの商用応用におけるディープラーニング(DL)の利用が増加している。 多数のパラメータと/または大きなデータセットでDLモデルをトレーニングする場合、トレーニングのコストとスピードは禁じられる可能性がある。 トレーニングジョブをサブタスクに分割して複数のノード上で実行する分散DLトレーニングソリューションは、トレーニング時間を短縮することができる。 しかし、クラスタコンピューティングシステム向けに主に構築された現在のソリューションのコストは依然として問題となる可能性がある。 クラスタコンピューティングシステムとは対照的に、Volunteer Computing(VC)システムはコンピューティングのコストを下げることができるが、VCシステム上で動作するアプリケーションは、フォールトトレランス、可変ネットワークレイテンシ、計算ノードの不均一性を扱う必要があり、現在のソリューションはそうするように設計されていない。 我々は、データ並列アプローチを用いて、VCシステム上でDLトレーニングを実行できる分散ソリューションを設計する。 本稿では,VCシステムに適した非同期SGD方式VC-ASGDを提案する。 信頼できないボランティアデバイスを使用することでコストを下げる従来のVCシステムとは対照的に、商用クラウドプラットフォーム上でプリエンプティブルコンピューティングインスタンスを活用することでコストを下げる。 アプリケーションにフォールトトレラントを要求するプリエンプティブルなインスタンスを使用することで、コストを70~90%削減し、データセキュリティを改善します。

Use of Deep Learning (DL) in commercial applications such as image classification, sentiment analysis and speech recognition is increasing. When training DL models with large number of parameters and/or large datasets, cost and speed of training can become prohibitive. Distributed DL training solutions that split a training job into subtasks and execute them over multiple nodes can decrease training time. However, the cost of current solutions, built predominantly for cluster computing systems, can still be an issue. In contrast to cluster computing systems, Volunteer Computing (VC) systems can lower the cost of computing, but applications running on VC systems have to handle fault tolerance, variable network latency and heterogeneity of compute nodes, and the current solutions are not designed to do so. We design a distributed solution that can run DL training on a VC system by using a data parallel approach. We implement a novel asynchronous SGD scheme called VC-ASGD suited for VC systems. In contrast to traditional VC systems that lower cost by using untrustworthy volunteer devices, we lower cost by leveraging preemptible computing instances on commercial cloud platforms. By using preemptible instances that require applications to be fault tolerant, we lower cost by 70-90% and improve data security.
翻訳日:2021-03-17 13:34:45 公開日:2021-03-16
# 作業記憶を用いたマルチモーダル認知のための認知アーキテクチャ

Cognitive architecture aided by working-memory for self-supervised multi-modal humans recognition ( http://arxiv.org/abs/2103.09072v1 )

ライセンス: Link先を確認
Jonas Gonzalez-Billandon, Giulia Belgiovine, Alessandra Sciutti, Giulio Sandini, Francesco Rea(参考訳) 人間のパートナーを認識する能力は、パーソナライズされた長期的な人間とロボットのインタラクションを構築するための重要な社会的スキルである。 顔と声は、人工知能が個人を確実に認識できるように、2つの重要な情報源を構成する。 ディープラーニングネットワークは最先端の結果を達成し,そのような課題に対処するための適切なツールであることが実証された。 しかし、これらのネットワークがトレーニングセットに含まれない異なる、前例のないシナリオに適用されると、パフォーマンスが低下する可能性がある。 例えば、常に変化する現実的な環境におけるロボットプラットフォームでは、常に新しい感覚的証拠が取得されるため、それらのモデルの性能は低下する。 1つの解決策は、ロボットに自己スーパービジョンで直接の感覚データから学習させることである。 これにより、現実的でインタラクティブなコンテキストで収集されたデータの固有の可変性に対処することができる。 本研究では,空間的作業記憶機構と低レベルの知覚プロセスを統合する認知的アーキテクチャを提案する。 このアーキテクチャは、ロボットの感覚体験を、人間の認識に適した構造化データセットに自律的に整理する。 本研究は,本アーキテクチャの有効性を実証し,ロボットを学習プロセスにおいてより自律的にすることを目的とした,有望なソリューションであることを示す。

The ability to recognize human partners is an important social skill to build personalized and long-term human-robot interactions, especially in scenarios like education, care-giving, and rehabilitation. Faces and voices constitute two important sources of information to enable artificial systems to reliably recognize individuals. Deep learning networks have achieved state-of-the-art results and demonstrated to be suitable tools to address such a task. However, when those networks are applied to different and unprecedented scenarios not included in the training set, they can suffer a drop in performance. For example, with robotic platforms in ever-changing and realistic environments, where always new sensory evidence is acquired, the performance of those models degrades. One solution is to make robots learn from their first-hand sensory data with self-supervision. This allows coping with the inherent variability of the data gathered in realistic and interactive contexts. To this aim, we propose a cognitive architecture integrating low-level perceptual processes with a spatial working memory mechanism. The architecture autonomously organizes the robot's sensory experience into a structured dataset suitable for human recognition. Our results demonstrate the effectiveness of our architecture and show that it is a promising solution in the quest of making robots more autonomous in their learning process.
翻訳日:2021-03-17 13:34:24 公開日:2021-03-16
# スイッチング制御ゲームを用いたリワードの形状学習

Learning to Shape Rewards using a Game of Switching Controls ( http://arxiv.org/abs/2103.09159v1 )

ライセンス: Link先を確認
David Mguni, Jianhong Wang, Taher Jafferjee, Nicolas Perez-Nieves, Wenbin Song, Yaodong Yang, Feifei Tong, Hui Chen, Jiangcheng Zhu, Yali Du, Jun Wang(参考訳) リワードシェーピング(Reward shaping, RL)は、スパースと非形式的報酬の問題を克服する強力な手法である。 しかし、RSは手動で設計したシェーピング・リワード関数に頼っている。 また、自律学習の目標とは逆のドメイン知識を必要とする。 本稿では,2つのエージェント間の新しい確率ゲームにおいて,シェーピング・リワード機能を構築する自動RSフレームワークを提案する。 あるエージェントは、どの状態に成形報酬と最適な大きさを加えるかを学習し、もう一方のエージェントは、形状の報酬を使用してタスクの最適ポリシーを学ぶ。 我々は,既存のRLアルゴリズムを簡単に適用可能なフレームワークが,タスクに適合した整形・逆戻り関数の構築を学習し,与えられたタスクに対するより高い実行ポリシーへの収束を保証することを理論的に証明した。 本稿では,Cartpoleの最先端RSアルゴリズムと,Gravitar,Solaris,Super Marioの挑戦型コンソールゲームに対して,提案手法の優れた性能を示す。

Reward shaping (RS) is a powerful method in reinforcement learning (RL) for overcoming the problem of sparse and uninformative rewards. However, RS relies on manually engineered shaping-reward functions whose construction is typically time-consuming and error-prone. It also requires domain knowledge which runs contrary to the goal of autonomous learning. In this paper, we introduce an automated RS framework in which the shaping-reward function is constructed in a novel stochastic game between two agents. One agent learns both which states to add shaping rewards and their optimal magnitudes and the other agent learns the optimal policy for the task using the shaped rewards. We prove theoretically that our framework, which easily adopts existing RL algorithms, learns to construct a shaping-reward function that is tailored to the task and ensures convergence to higher performing policies for the given task. We demonstrate the superior performance of our method against state-of-the-art RS algorithms in Cartpole and the challenging console games Gravitar, Solaris and Super Mario.
翻訳日:2021-03-17 13:34:06 公開日:2021-03-16
# 流れに基づく異常音検出のための自己教師付き密度推定

Flow-based Self-supervised Density Estimation for Anomalous Sound Detection ( http://arxiv.org/abs/2103.08801v1 )

ライセンス: Link先を確認
Kota Dohi, Takashi Endo, Harsh Purohit, Ryo Tanabe, Yohei Kawaguchi(参考訳) 機械音監視システムを開発するために,異常音を検出する手法を提案する。 正規化フローを用いた高精度推定は教師なし異常検出に有望な手法であるが,データの平滑性に影響されるため,分散検出に失敗する可能性がある。 検出性能を向上させるために,対象機音に対して高い確率を割り当て,同一機の他の機音に対して低い確率を割り当てるようにモデルを訓練する。 これにより,モデルが自己教師付き分類に基づくアプローチを取り入れられることを実証する。 DCASE 2020 Challenge Task2データセットを用いて行った実験によると、提案手法はマズード自己回帰流(MAF)を用いて平均4.6%改善し、Glowを用いた場合の5.8%改善した。

To develop a machine sound monitoring system, a method for detecting anomalous sound is proposed. Exact likelihood estimation using Normalizing Flows is a promising technique for unsupervised anomaly detection, but it can fail at out-of-distribution detection since the likelihood is affected by the smoothness of the data. To improve the detection performance, we train the model to assign higher likelihood to target machine sounds and lower likelihood to sounds from other machines of the same machine type. We demonstrate that this enables the model to incorporate a self-supervised classification-based approach. Experiments conducted using the DCASE 2020 Challenge Task2 dataset showed that the proposed method improves the AUC by 4.6% on average when using Masked Autoregressive Flow (MAF) and by 5.8% when using Glow, which is a significant improvement over the previous method.
翻訳日:2021-03-17 13:33:48 公開日:2021-03-16
# GANを用いたデジタル病理における教師なし異常検出

Unsupervised anomaly detection in digital pathology using GANs ( http://arxiv.org/abs/2103.08945v1 )

ライセンス: Link先を確認
Milda Pocevi\v{c}i\=ut\.e, Gabriel Eilertsen, Claes Lundstr\"om(参考訳) 機械学習(ML)アルゴリズムは、トレーニングデータで表される分布に最適化される。 外れたデータに対しては、信頼すべきでないものの、同じ信頼性で予測を提供することが多い。 臨床実践においてMLベースのデジタル病理ソリューションを展開するためには,異常データを検出する効果的な方法が不可欠である。 本稿では,GAN(Generative Adversarial Network)に基づく病理組織データにおける異常検出のための新しい教師なし学習手法を提案する。 医用画像に用いられている既存のGAN法と比較して,本手法は病理データの性能を大幅に改善する。 以上の結果より, 病理組織像は従来手法よりかなり複雑であったことが示唆された。 この複雑さは、より高度なGANアーキテクチャだけでなく、再構成された画像の品質を捉えるための適切な異常メトリックも必要である。

Machine learning (ML) algorithms are optimized for the distribution represented by the training data. For outlier data, they often deliver predictions with equal confidence, even though these should not be trusted. In order to deploy ML-based digital pathology solutions in clinical practice, effective methods for detecting anomalous data are crucial to avoid incorrect decisions in the outlier scenario. We propose a new unsupervised learning approach for anomaly detection in histopathology data based on generative adversarial networks (GANs). Compared to the existing GAN-based methods that have been used in medical imaging, the proposed approach improves significantly on performance for pathology data. Our results indicate that histopathology imagery is substantially more complex than the data targeted by the previous methods. This complexity requires not only a more advanced GAN architecture but also an appropriate anomaly metric to capture the quality of the reconstructed images.
翻訳日:2021-03-17 13:33:08 公開日:2021-03-16
# LightningDOT: リアルタイム画像テキスト検索のための事前トレーニング型ビジュアルセマンティック埋め込み

LightningDOT: Pre-training Visual-Semantic Embeddings for Real-Time Image-Text Retrieval ( http://arxiv.org/abs/2103.08784v1 )

ライセンス: Link先を確認
Siqi Sun, Yen-Chun Chen, Linjie Li, Shuohang Wang, Yuwei Fang, Jingjing Liu(参考訳) マルチモーダル・プレトレーニングは視覚・言語研究に大きな進歩をもたらした。 これらの大規模事前訓練モデルは成功したが、トランスフォーマーアーキテクチャにおけるクロスモーダルな注意による計算コストの増大により、予測速度の低下に悩まされた。 現実のアプリケーションに適用すると、そのようなレイテンシと計算は、事前学習されたモデルの実用性を著しく阻害する。 本稿では,V+Lアプリケーションの最も成熟したシナリオである画像テキスト検索(ITR)について検討する。 精度を犠牲にすることなく、IMRの推論時間を何千回も高速化する簡易かつ高効率なLightningDOTを提案する。 lightningdotは、3つの新しい学習目標を事前学習し、特徴インデックスをオフラインで抽出し、検索プロセスを大幅に高速化するインスタントドット製品マッチングを採用することで、時間を要するクロスモーダルな注意を取り除きます。 実際、LightningDOTはFlickr30k、COCO、Multi30Kといった複数のIRRベンチマークにまたがって、1000倍の計算時間を消費する既存のトレーニング済みモデルを上回っている。 コードと事前トレーニングのチェックポイントはhttps://github.com/intersun/LightningDOT.comで公開されている。

Multimodal pre-training has propelled great advancement in vision-and-language research. These large-scale pre-trained models, although successful, fatefully suffer from slow inference speed due to enormous computation cost mainly from cross-modal attention in Transformer architecture. When applied to real-life applications, such latency and computation demand severely deter the practical use of pre-trained models. In this paper, we study Image-text retrieval (ITR), the most mature scenario of V+L application, which has been widely studied even prior to the emergence of recent pre-trained models. We propose a simple yet highly effective approach, LightningDOT that accelerates the inference time of ITR by thousands of times, without sacrificing accuracy. LightningDOT removes the time-consuming cross-modal attention by pre-training on three novel learning objectives, extracting feature indexes offline, and employing instant dot-product matching with further re-ranking, which significantly speeds up retrieval process. In fact, LightningDOT achieves new state of the art across multiple ITR benchmarks such as Flickr30k, COCO and Multi30K, outperforming existing pre-trained models that consume 1000x magnitude of computational hours. Code and pre-training checkpoints are available at https://github.com/intersun/LightningDOT.
翻訳日:2021-03-17 13:32:37 公開日:2021-03-16
# 自然言語理解のためのロバストな最適化と蒸留訓練

Robustly Optimized and Distilled Training for Natural Language Understanding ( http://arxiv.org/abs/2103.08809v1 )

ライセンス: Link先を確認
Haytham ElFadeel and Stan Peshterliev(参考訳) 本稿では,トランスフォーマー言語モデルのための拡張ユニバーサル言語表現を学ぶための第2の事前学習ステップとして,マルチタスク学習(mtl)について検討する。 我々は、MTL拡張表現をいくつかの自然言語理解タスクで使用し、性能と一般化を改善した。 さらに、知識蒸留(KD)をMTLに組み込んで、パフォーマンスをさらに向上させ、複数の教師から効果的に学習するKD変異を考案する。 MTLとKDを組み合わせることで、ロバスト最適化・蒸留(ROaD)モデリングフレームワークを提案する。 我々はELECTRAモデルとともにROaDを用いて,機械読解と自然言語推論の最先端結果を得る。

In this paper, we explore multi-task learning (MTL) as a second pretraining step to learn enhanced universal language representation for transformer language models. We use the MTL enhanced representation across several natural language understanding tasks to improve performance and generalization. Moreover, we incorporate knowledge distillation (KD) in MTL to further boost performance and devise a KD variant that learns effectively from multiple teachers. By combining MTL and KD, we propose Robustly Optimized and Distilled (ROaD) modeling framework. We use ROaD together with the ELECTRA model to obtain state-of-the-art results for machine reading comprehension and natural language inference.
翻訳日:2021-03-17 13:32:14 公開日:2021-03-16
# マルチモーダル機械翻訳におけるGumbel-Attention

Gumbel-Attention for Multi-modal Machine Translation ( http://arxiv.org/abs/2103.08862v1 )

ライセンス: Link先を確認
Pengbo Liu, Hailong Cao, Tiejun Zhao(参考訳) マルチモーダル機械翻訳(MMT)は視覚情報を導入して翻訳品質を向上させる。 しかし、既存のMTモデルは、画像がテキストに関係のない情報をもたらし、モデルに大きなノイズを与え、翻訳品質に影響を与えるという問題を無視する。 本稿では,画像特徴のテキスト関連部分を選択するマルチモーダル機械翻訳のためのGumbel-Attentionを提案する。 具体的には, 先行手法と異なり, まず, 画像情報の選択と, 画像特徴の無駄な部分を自動削除に微分可能な手法を用いる。 Gumbel-Attentionと画像特徴のスコア行列を介して、画像認識テキスト表現を生成する。 そして,マルチモーダルエンコーダを用いて,テキスト表現と画像認識テキスト表現を独立に符号化する。 最後に、エンコーダの最終出力はマルチモーダルゲート融合によって得られる。 実験とケース分析により,本手法はテキストに関連する画像の特徴を保ち,残りの部分はMTモデルがより良い翻訳を生成するのに役立つことが示された。

Multi-modal machine translation (MMT) improves translation quality by introducing visual information. However, the existing MMT model ignores the problem that the image will bring information irrelevant to the text, causing much noise to the model and affecting the translation quality. In this paper, we propose a novel Gumbel-Attention for multi-modal machine translation, which selects the text-related parts of the image features. Specifically, different from the previous attention-based method, we first use a differentiable method to select the image information and automatically remove the useless parts of the image features. Through the score matrix of Gumbel-Attention and image features, the image-aware text representation is generated. And then, we independently encode the text representation and the image-aware text representation with the multi-modal encoder. Finally, the final output of the encoder is obtained through multi-modal gated fusion. Experiments and case analysis proves that our method retains the image features related to the text, and the remaining parts help the MMT model generates better translations.
翻訳日:2021-03-17 13:32:02 公開日:2021-03-16
# 英語拡張ユニバーサル依存におけるコーディネート構成:分析と計算モデル

Coordinate Constructions in English Enhanced Universal Dependencies: Analysis and Computational Modeling ( http://arxiv.org/abs/2103.08955v1 )

ライセンス: Link先を確認
Stefan Gr\"unewald, Prisca Piccirilli, Annemarie Friedrich(参考訳) 本稿では,接続ヘッドから他の接続部への依存リンクが伝播する拡張ユニバーサル依存(UD)における座標構成の表現について述べる。 拡張UDのための英語ツリーバンクは、コア引数のみを伝播するヒューリスティックなルールベースのコンバータを使用して、金の基本依存関係から作成されている。 セマンティックの観点からどのリンクを伝播すべきかを決定することを目的として,手作業で編集した構文グラフの大規模データセットを作成する。 そこで本研究では,元のデータから系統的誤りを同定し,随伴関係を広めることを提案する。 我々は,この意味的アノテーションタスクに対して,高いアノテータ間合意を観察する。 新たに手作業で検証したデータセットを用いて、ルールベースと(部分的には新規な)機械学習による英語の共用伝搬の第一原理的比較を行う。 学習伝播ルールは,ハンドデザインのヒューリスティックルールよりも効果的であることを示す。 自動解析を使用する場合、ニューラルネットワークパーザベースのエッジ予測器は、基本層ツリーパーサプラスコンバータを使用して、現在主流となっているパイプラインを上回っています。

In this paper, we address the representation of coordinate constructions in Enhanced Universal Dependencies (UD), where relevant dependency links are propagated from conjunction heads to other conjuncts. English treebanks for enhanced UD have been created from gold basic dependencies using a heuristic rule-based converter, which propagates only core arguments. With the aim of determining which set of links should be propagated from a semantic perspective, we create a large-scale dataset of manually edited syntax graphs. We identify several systematic errors in the original data, and propose to also propagate adjuncts. We observe high inter-annotator agreement for this semantic annotation task. Using our new manually verified dataset, we perform the first principled comparison of rule-based and (partially novel) machine-learning based methods for conjunction propagation for English. We show that learning propagation rules is more effective than hand-designing heuristic rules. When using automatic parses, our neural graph-parser based edge predictor outperforms the currently predominant pipelinesusing a basic-layer tree parser plus converters.
翻訳日:2021-03-17 13:31:47 公開日:2021-03-16
# AMR-to-text生成のための事前学習言語モデルにおける構造適応器

Structural Adapters in Pretrained Language Models for AMR-to-text Generation ( http://arxiv.org/abs/2103.09120v1 )

ライセンス: Link先を確認
Leonardo F. R. Ribeiro, Yue Zhang, Iryna Gurevych(参考訳) グラフ構造データからのテキスト生成に関する以前の研究は、事前学習された言語モデル(plm)に依存しており、グラフ構造を明示的に考慮するのではなく、グラフ線形化ヒューリスティックスを利用している。 PLMのグラフ構造を効率的に符号化することは、自然言語で事前訓練されたため困難であり、構造化されたデータをモデル化することは、分布的知識を破滅的に忘れてしまう可能性がある。 本稿では,グラフ構造をPLMにエンコードするアダプタであるStructAdaptを提案する。 以前の作業とは対照的に、StructAdaptはグラフ接続性に基づいてノード間の相互作用を効果的にモデル化する。 このようにして、グラフの位相構造を維持しながら破滅的な忘れを避ける。 本研究では,2つのAMR-to-textデータセットに対して,PLMパラメータの5.1%のトレーニングを行い,グラフ構造をアダプタを用いてPLMに明示的に符号化する利点を実証的に示す。

Previous work on text generation from graph-structured data relies on pretrained language models (PLMs) and utilizes graph linearization heuristics rather than explicitly considering the graph structure. Efficiently encoding the graph structure in PLMs is challenging because they were pretrained on natural language, and modeling structured data may lead to catastrophic forgetting of distributional knowledge. In this paper, we propose StructAdapt, an adapter method to encode graph structure into PLMs. Contrary to prior work, StructAdapt effectively models interactions among the nodes based on the graph connectivity, only training graph structure-aware adapter parameters. In this way, we avoid catastrophic forgetting while maintaining the topological structure of the graph. We empirically show the benefits of explicitly encoding graph structure into PLMs using adapters and achieve state-of-the-art results on two AMR-to-text datasets, training only 5.1% of the PLM parameters.
翻訳日:2021-03-17 13:31:30 公開日:2021-03-16
# 2型糖尿病管理領域における臨床ガイドラインの継続的適用に対するコンプライアンス自動評価のための双方向手法の評価

Evaluation of a Bi-Directional Methodology for Automated Assessment of Compliance to Continuous Application of Clinical Guidelines, in the Type 2 Diabetes-Management Domain ( http://arxiv.org/abs/2103.09031v1 )

ライセンス: Link先を確認
Avner Hatsek, Irit Hochberg, Deeb Daoud Naccache, Aya Biderman, and Yuval Shahar(参考訳) ガイドラインから患者の縦断的データへの双方向検索に基づいて,エビデンスに基づく臨床ガイドラインの継続的適用に対するコンプライアンスを評価する新たな方法論を以前に導入したDiscovErrシステムについて検討した。 2型糖尿病患者10人のうち5.23年を平均して1584件の取引に関するシステムコメントを2人の糖尿病専門家と1人の高齢者の患者と比較した。 専門家は自身のコメントを提供した後、それぞれのDis DiscovErrシステムコメントの正確さ(精度)と重要性を評価した。 システムの完全性(リコールまたはカバレッジ)は、専門家によるコメントと比較することで計算された。 このシステムは279のコメントを出した。 専門家は181件のコメントを出した。 システムの完全性は、少なくとも2人の専門家によるコメントと比較して91%、そして3人によるコメントに比べて98%であった。 172のコメントが専門家によって正確性と重要性について評価され、114の薬物関連コメントと165の監視関連コメントのランダムな35%が評価された。 このシステムの正当性は、双方の糖尿病専門家が正当と判断したコメントと比較して81%、糖尿病専門家が正当と判断したコメントは91%であった。 89%が糖尿病の専門家で、8%が1人の専門家で、3%が2人の専門家で重要でないと判断された。 3人の専門家(すべての専門家のコメントと検証されたシステムコメント)の完全性スコアは75%、60%、そして55%であり、専門家の正確性スコア(大多数に比較)はそれぞれ99%、91%、そして88%であった。 結論: DiscovErr のようなシステムは,継続的ガイドラインベースのケアの品質を評価することができる。

We evaluated the DiscovErr system, in which we had previously implemented a new methodology for assessment of compliance to continuous application of evidence-based clinical guidelines, based on a bidirectional search from the guideline objectives to the patient's longitudinal data, and vice versa. We compared the system comments on 1584 transactions regarding the management, over a mean of 5.23 years, of 10 randomly selected Type 2 diabetes patients, to those of two diabetes experts and a senior family practitioner. After providing their own comments, the experts assessed both the correctness (precision) and the importance of each of the DiscovErr system comments. The completeness (recall or coverage) of the system was computed by comparing its comments to those made by the experts. The system made 279 comments. The experts made 181 unique comments. The completeness of the system was 91% compared to comments made by at least two experts, and 98% when compared to comments made by all three. 172 comments were evaluated by the experts for correctness and importance: All 114 medication-related comments, and a random 35% of the 165 monitoring-related comments. The system's correctness was 81% compared to comments judged as correct by both diabetes experts, and 91% compared to comments judged as correct by a diabetes expert and at least as partially correct by the other. 89% of the comments were judged as important by both diabetes experts, 8% were judged as important by one expert, 3% were judged as less important by both experts. The completeness scores of the three experts (compared to the comments of all experts plus the validated system comments) were 75%, 60%, and 55%; the experts' correctness scores (compared to their majority) were respectively 99%, 91%, and 88%. Conclusion: Systems such as DiscovErr can assess the quality of continuous guideline-based care.
翻訳日:2021-03-17 13:30:57 公開日:2021-03-16
# 三元ハッシュ

Ternary Hashing ( http://arxiv.org/abs/2103.09173v1 )

ライセンス: Link先を確認
Kam Woh Ng, Chang Liu, Lixin Fan, Yilun Jin, Ce Ju, Tianyu Zhang, Chee Seng Chan, Qiang Yang(参考訳) 本稿では,ハッシュ法を学習するための新しい3次ハッシュ符号化を提案する。 学習/エンコーディングとテスト/検索の両方の3次ハミング距離(thd)を計算するために、2種類の公理的3次論理、kleene logic と {\l}ukasiewicz logicが採用されている。 提案手法は,cifar10,nus-wide,imagenet100のデータセットで示されるように,検索平均精度 (map) を1\%から5.9\%に一貫性を持たせたバイナリハッシュ手法と比較した。

This paper proposes a novel ternary hash encoding for learning to hash methods, which provides a principled more efficient coding scheme with performances better than those of the state-of-the-art binary hashing counterparts. Two kinds of axiomatic ternary logic, Kleene logic and {\L}ukasiewicz logic are adopted to calculate the Ternary Hamming Distance (THD) for both the learning/encoding and testing/querying phases. Our work demonstrates that, with an efficient implementation of ternary logic on standard binary machines, the proposed ternary hashing is compared favorably to the binary hashing methods with consistent improvements of retrieval mean average precision (mAP) ranging from 1\% to 5.9\% as shown in CIFAR10, NUS-WIDE and ImageNet100 datasets.
翻訳日:2021-03-17 13:30:21 公開日:2021-03-16
# track to detection and segment: a online multi-object tracker

Track to Detect and Segment: An Online Multi-Object Tracker ( http://arxiv.org/abs/2103.08808v1 )

ライセンス: Link先を確認
Jialian Wu, Jiale Cao, Liangchen Song, Yu Wang, Ming Yang, Junsong Yuan(参考訳) ほとんどのオンラインマルチオブジェクトトラッカーは、トラッキングからの入力なしで、ニューラルネットでオブジェクト検出スタンドアロンを実行する。 本稿では,新しいオンライン共同検出・追跡モデルであるtrades(track to detection and segment)を提案する。 TraDeSは、現在のオブジェクトの検出とセグメンテーションを改善するために、以前のオブジェクト機能を伝播するために使用されるコストボリュームによってオブジェクト追跡オフセットを推論する。 TraDeSの有効性と優位性は、MOT(2Dトラッキング)、nuScenes(3Dトラッキング)、MOTS、Youtube-VIS(インスタンスセグメンテーショントラッキング)の4つのデータセットに示されている。 プロジェクトページ: https://jialianwu.com/projects/TraDeS.html

Most online multi-object trackers perform object detection stand-alone in a neural net without any input from tracking. In this paper, we present a new online joint detection and tracking model, TraDeS (TRAck to DEtect and Segment), exploiting tracking clues to assist detection end-to-end. TraDeS infers object tracking offset by a cost volume, which is used to propagate previous object features for improving current object detection and segmentation. Effectiveness and superiority of TraDeS are shown on 4 datasets, including MOT (2D tracking), nuScenes (3D tracking), MOTS and Youtube-VIS (instance segmentation tracking). Project page: https://jialianwu.com/projects/TraDeS.html.
翻訳日:2021-03-17 13:29:45 公開日:2021-03-16
# Adversarial YOLO: 対向パッチ検出による人的検出パッチ攻撃の防御

Adversarial YOLO: Defense Human Detection Patch Attacks via Detecting Adversarial Patches ( http://arxiv.org/abs/2103.08860v1 )

ライセンス: Link先を確認
Nan Ji, YanFei Feng, Haidong Xie, Xueshuang Xiang and Naijin Liu(参考訳) 対象検出システムのセキュリティは、特に対向するパッチ攻撃に対して、注目を集めている。 パッチ攻撃はオブジェクト上の制限領域のピクセルを変更するため、物理的世界では、特に人間の検出システムを攻撃するために、容易に実装できる。 パッチ攻撃に対する既存の防御は、主に画像分類問題に適用され、人間の検出攻撃に対する抵抗が困難である。 本稿では,この重要な問題に対して,Ad-YOLO と呼ばれる YOLO 検出システム上で,効率的かつ効果的なプラグイン防御コンポーネントを提案する。 主なアイデアは、無視できる推論インクリメントを持つyoloアーキテクチャにパッチクラスを追加することだ。 したがって、Ad-YOLOは興味のある対象と敵のパッチの両方を直接検出することが期待される。 我々の知る限り、我々のアプローチは人間の検出攻撃に対する最初の防衛戦略である。 YOLOv2ベースラインにおけるAd-YOLOの性能について検討する。 ad-yoloのバラエティパッチ検出能力を向上させるために,まず,inria-patchと命名するinriaデータセットに基づくパッチデータセットを開発するために,敵のトレーニングプロセスを使用する。 次に、Pascal VOC、Inria、Inria-Patchデータセットを組み合わせてAd-YOLOをトレーニングする。 ad-yolo は voc 2007 テストセットで 0.70\%$ のマップを少し下げて 80.31\%$ ap を達成し、ホワイトボックスのパッチ攻撃に対して yolov2 の 3.93\%$ ap を大きく上回っている。 さらに、YOLOv2と比較して、物理世界攻撃に直面する結果も、Ad-YOLOの優れた一般化能力を示すために含まれている。

The security of object detection systems has attracted increasing attention, especially when facing adversarial patch attacks. Since patch attacks change the pixels in a restricted area on objects, they are easy to implement in the physical world, especially for attacking human detection systems. The existing defenses against patch attacks are mostly applied for image classification problems and have difficulty resisting human detection attacks. Towards this critical issue, we propose an efficient and effective plug-in defense component on the YOLO detection system, which we name Ad-YOLO. The main idea is to add a patch class on the YOLO architecture, which has a negligible inference increment. Thus, Ad-YOLO is expected to directly detect both the objects of interest and adversarial patches. To the best of our knowledge, our approach is the first defense strategy against human detection attacks. We investigate Ad-YOLO's performance on the YOLOv2 baseline. To improve the ability of Ad-YOLO to detect variety patches, we first use an adversarial training process to develop a patch dataset based on the Inria dataset, which we name Inria-Patch. Then, we train Ad-YOLO by a combination of Pascal VOC, Inria, and Inria-Patch datasets. With a slight drop of $0.70\%$ mAP on VOC 2007 test set, Ad-YOLO achieves $80.31\%$ AP of persons, which highly outperforms $33.93\%$ AP for YOLOv2 when facing white-box patch attacks. Furthermore, compared with YOLOv2, the results facing a physical-world attack are also included to demonstrate Ad-YOLO's excellent generalization ability.
翻訳日:2021-03-17 13:29:31 公開日:2021-03-16
# 弱・半スーパービジョンセマンティックセマンティックセグメンテーションに対する逆操作属性

Anti-Adversarially Manipulated Attributions for Weakly and Semi-Supervised Semantic Segmentation ( http://arxiv.org/abs/2103.08896v1 )

ライセンス: Link先を確認
Jungbeom Lee, Eunji Kim, Sungroh Yoon(参考訳) 弱い教師付きセマンティックセグメンテーションは、分類器からピクセルレベルのローカライゼーションを生成するが、ターゲットオブジェクトの小さな識別領域に焦点を絞る可能性が高い。 AdvCAMは、分類スコアを増やすために操作される画像の属性マップである。 この操作は、対向攻撃で使用されるものと反対方向の画素勾配に沿って画像を摂動させる対向的な方法で実現される。 当初は差別的ではないと見なされ、その後の分類に関与し、ターゲットオブジェクトのより多くの領域を連続的に識別する帰属マップを作成する。 さらに,対象対象と無関係な領域の不正な帰属を抑制し,すでに高いスコアを持つ領域の帰属を制限する新たな正規化手順を導入する。 PASCAL VOC 2012 テスト画像では,弱いセマンティックセグメンテーションと半教師ありセマンティックセグメンテーションのための mIoUs 68.0 と 76.9 をそれぞれ達成した。

Weakly supervised semantic segmentation produces a pixel-level localization from a classifier, but it is likely to restrict its focus to a small discriminative region of the target object. AdvCAM is an attribution map of an image that is manipulated to increase the classification score. This manipulation is realized in an anti-adversarial manner, which perturbs the images along pixel gradients in the opposite direction from those used in an adversarial attack. It forces regions initially considered not to be discriminative to become involved in subsequent classifications, and produces attribution maps that successively identify more regions of the target object. In addition, we introduce a new regularization procedure that inhibits the incorrect attribution of regions unrelated to the target object and limits the attributions of the regions that already have high scores. On PASCAL VOC 2012 test images, we achieve mIoUs of 68.0 and 76.9 for weakly and semi-supervised semantic segmentation respectively, which represent a new state-of-the-art.
翻訳日:2021-03-17 13:29:04 公開日:2021-03-16
# BBAM: 弱教師付きセマンティックおよびインスタンスセグメンテーションのためのボックス属性マップ

BBAM: Bounding Box Attribution Map for Weakly Supervised Semantic and Instance Segmentation ( http://arxiv.org/abs/2103.08907v1 )

ライセンス: Link先を確認
Jungbeom Lee, Jihun Yi, Chaehun Shin, Sungroh Yoon(参考訳) バウンディングボックスアノテーションを用いた弱い教師付きセグメンテーション手法は、オブジェクトを含む各ボックスからピクセルレベルのマスクを取得することに焦点を当てている。 既存のメソッドは通常、クラスに依存しないマスクジェネレータに依存し、イメージに固有の低レベル情報を操作する。 本研究では,対象検出器が生成する画像の最小領域を画像全体とほぼ同程度に求めることにより,訓練対象検出器の挙動から得られる高次情報を利用する。 これらの領域は、バウンディングボックス属性マップ(BBAM)を構成し、そのバウンディングボックス内の対象物を識別し、弱教師付きセマンティクスとインスタンスセグメンテーションのための擬似基底として機能する。 このアプローチは、PASCAL VOCとMS COCOベンチマークの両方において、弱い教師付きセマンティクスとインスタンスセグメンテーションにおいて、最近の同等の技術よりも大幅に優れている。 さらに,本手法の詳細な解析を行い,BBAMの挙動についてより深い知見を提供する。

Weakly supervised segmentation methods using bounding box annotations focus on obtaining a pixel-level mask from each box containing an object. Existing methods typically depend on a class-agnostic mask generator, which operates on the low-level information intrinsic to an image. In this work, we utilize higher-level information from the behavior of a trained object detector, by seeking the smallest areas of the image from which the object detector produces almost the same result as it does from the whole image. These areas constitute a bounding-box attribution map (BBAM), which identifies the target object in its bounding box and thus serves as pseudo ground-truth for weakly supervised semantic and instance segmentation. This approach significantly outperforms recent comparable techniques on both the PASCAL VOC and MS COCO benchmarks in weakly supervised semantic and instance segmentation. In addition, we provide a detailed analysis of our method, offering deeper insight into the behavior of the BBAM.
翻訳日:2021-03-17 13:28:45 公開日:2021-03-16
# 調和物体検出のための局所化と分類の変調

Modulating Localization and Classification for Harmonized Object Detection ( http://arxiv.org/abs/2103.08958v1 )

ライセンス: Link先を確認
Taiheng Zhang, Qiaoyong Zhong, Shiliang Pu, Di Xie(参考訳) オブジェクト検出には2つのサブタスクがある。 イメージ内のオブジェクトをローカライズし、それらをさまざまなカテゴリに分類する。 既存のCNNベースの検出器では、局所化と分類が広範囲に分散していることに気付き、性能が低下する。 本研究では,この2つのタスクを変調する相互学習フレームワークを提案する。 特に,2つのタスクは,新たな相互ラベル付け戦略によって互いに学習することを余儀なくされる。 さらに, 簡易かつ効果的なIoU再構成方式を導入し, 分岐の低減を図る。 さらに,検出性能と相関する発散度を定量化するために,スピアマン相関に基づく計量を定義する。 提案手法は汎用的であり,FCOSやRetinaNetなどの既存の検出器に容易に注入できる。 我々はCOCOデータセットのベースライン検出器よりも大きな性能向上を達成した。

Object detection involves two sub-tasks, i.e. localizing objects in an image and classifying them into various categories. For existing CNN-based detectors, we notice the widespread divergence between localization and classification, which leads to degradation in performance. In this work, we propose a mutual learning framework to modulate the two tasks. In particular, the two tasks are forced to learn from each other with a novel mutual labeling strategy. Besides, we introduce a simple yet effective IoU rescoring scheme, which further reduces the divergence. Moreover, we define a Spearman rank correlation-based metric to quantify the divergence, which correlates well with the detection performance. The proposed approach is general-purpose and can be easily injected into existing detectors such as FCOS and RetinaNet. We achieve a significant performance gain over the baseline detectors on the COCO dataset.
翻訳日:2021-03-17 13:28:27 公開日:2021-03-16
# サンプル効率設定における半教師付き学習

Hebbian Semi-Supervised Learning in a Sample Efficiency Setting ( http://arxiv.org/abs/2103.09002v1 )

ライセンス: Link先を確認
Gabriele Lagani, Fabrizio Falchi, Claudio Gennaro, Giuseppe Amato(参考訳) 我々は,Deep Convolutional Neural Networks (DCNN) において,Hebbianの学習と勾配勾配の学習を併用した半教師付きトレーニング戦略により,サンプル効率の問題に取り組むことを提案する: 内部層(畳み込みと完全連結の両方)は,Hebbianの学習に基づく教師なしアプローチを用いて事前訓練され,最後に完全に接続された層(分類層)はStochastic Gradient Descent (SGD) を用いている。 実際、Hebbian Learningは教師なしの学習方法であるため、その可能性は、ラベル付き例なしでDCNNの内部層をトレーニングする可能性にある。 最後の完全接続層のみがラベル付きサンプルでトレーニングされる必要がある。 サンプル効率の異なる各種オブジェクト認識データセットの実験を行い、半教師付き(内部層はHebbian、最終層はSGD)アプローチとエンドツーエンドの教師付きバックプロパゲーショントレーニングを比較した。 その結果, 使用可能なラベル付きサンプルの数が低い状況では, ほぼすべてのケースにおいて, 半監督的アプローチが完全なバックプロパゲーションを上回っていることがわかった。

We propose to address the issue of sample efficiency, in Deep Convolutional Neural Networks (DCNN), with a semisupervised training strategy that combines Hebbian learning with gradient descent: all internal layers (both convolutional and fully connected) are pre-trained using an unsupervised approach based on Hebbian learning, and the last fully connected layer (the classification layer) is using Stochastic Gradient Descent (SGD). In fact, as Hebbian learning is an unsupervised learning method, its potential lies in the possibility of training the internal layers of a DCNN without labeled examples. Only the final fully connected layer has to be trained with labeled examples. We performed experiments on various object recognition datasets, in different regimes of sample efficiency, comparing our semi-supervised (Hebbian for internal layers + SGD for the final fully layer) approach with end-to-end supervised backpropagation training. The results show that, in regimes where the number of available labeled samples is low, our semi-supervised approach outperforms full backpropagation in almost all the cases.
翻訳日:2021-03-17 13:28:15 公開日:2021-03-16
# PC-HMR:2次元画像/ビデオからの3次元メッシュ復元のためのポスキャリブレーション

PC-HMR: Pose Calibration for 3D Human Mesh Recovery from 2D Images/Videos ( http://arxiv.org/abs/2103.09009v1 )

ライセンス: Link先を確認
Tianyu Luan, Yali Wang, Junhao Zhang, Zhe Wang, Zhipeng Zhou, Yu Qiao(参考訳) エンド・ツー・エンドのHuman Mesh Recovery (HMR) アプローチは3次元体再構築に成功している。 しかし、ほとんどのhmrベースのフレームワークは、画像やビデオからメッシュパラメータを直接学習することで人体を再構築し、視覚データにおける3d人間のポーズの明確なガイダンスを欠いている。 その結果、生成されたメッシュはしばしば、複雑なアクティビティの誤ったポーズを示す。 この問題に対処するために,人間のメッシュのキャリブレーションに3Dポーズを活用することを提案する。 具体的には,新しいポーズキャリブレーションフレームワークであるserial pc-hmrとparallel pc-hmrを開発した。 高度な3Dポーズ推定器とHMRを連続的または並列的に結合することにより、これらの2つのフレームワークは、簡潔なポーズキャリブレーションモジュールのガイダンスにより、人間のメッシュを効果的に補正することができる。 さらに, キャリブレーションモジュールは非剛性ポーズ変換により設計されているため, PC-HMRフレームワークは骨長の変動に柔軟に対応することができ, キャリブレーションメッシュのずれを軽減できる。 最後に、我々のフレームワークは、データ駆動学習と幾何学的モデリングの汎用的で補完的な統合に基づいている。 プラグアンドプレイモジュールを使用すると、イメージ/ビデオベースのヒューマンメッシュリカバリに効率よく適応できる。 さらに、テストフェーズで追加の3dポーズアノテーションを必要とせず、実際に推論の困難を発生させる。 我々は一般的なベンチマーク(Human3.6M, 3DPW, SURREAL)について広範な実験を行い、PC-HMRフレームワークがSOTA結果を達成する。

The end-to-end Human Mesh Recovery (HMR) approach has been successfully used for 3D body reconstruction. However, most HMR-based frameworks reconstruct human body by directly learning mesh parameters from images or videos, while lacking explicit guidance of 3D human pose in visual data. As a result, the generated mesh often exhibits incorrect pose for complex activities. To tackle this problem, we propose to exploit 3D pose to calibrate human mesh. Specifically, we develop two novel Pose Calibration frameworks, i.e., Serial PC-HMR and Parallel PC-HMR. By coupling advanced 3D pose estimators and HMR in a serial or parallel manner, these two frameworks can effectively correct human mesh with guidance of a concise pose calibration module. Furthermore, since the calibration module is designed via non-rigid pose transformation, our PC-HMR frameworks can flexibly tackle bone length variations to alleviate misplacement in the calibrated mesh. Finally, our frameworks are based on generic and complementary integration of data-driven learning and geometrical modeling. Via plug-and-play modules, they can be efficiently adapted for both image/video-based human mesh recovery. Additionally, they have no requirement of extra 3D pose annotations in the testing phase, which releases inference difficulties in practice. We perform extensive experiments on the popular bench-marks, i.e., Human3.6M, 3DPW and SURREAL, where our PC-HMR frameworks achieve the SOTA results.
翻訳日:2021-03-17 13:27:55 公開日:2021-03-16
# 映像に基づく人物再識別のためのディエンスインタラクション学習

Dense Interaction Learning for Video-based Person Re-identification ( http://arxiv.org/abs/2103.09013v1 )

ライセンス: Link先を確認
Tianyu He, Xin Jin, Xu Shen, Jianqiang Huang, Zhibo Chen, Xian-Sheng Hua(参考訳) ビデオベースの人物再識別(re-ID)は、同じ人物をビデオクリップ間でマッチングすることを目的としている。 構造的相互作用を構築しながら、マルチスケールのきめ細かい特徴を効果的に活用することが、その成功の鍵となる。 本稿では,cnnベースと注意ベースの両方のアーキテクチャの利点を生かして,ビデオベースの人物再特定問題に取り組むためのハイブリッドフレームワークであるdenseilを提案する。 denseilはcnnエンコーダとトランスデコーダを含んでいる。 CNNエンコーダは、フレーム間の空間的・時間的相互作用を意図的にモデル化するように設計されたトランスフォーマーデコーダに対して、識別的空間的特徴を効率的に抽出する。 バニラトランスとは違って、トランスフォーマーデコーダは中間粒度CNN機能に密着させ、ビデオクリップ毎にマルチスケールの時空間特徴表現を自然に生成する。 さらに、時空間入力における位置関係を調べるために、Transformer DecoderにSTEP-Emb(Spatio-TEmporal Positional Embedding)を導入する。 我々の実験は、複数の標準ビデオベースのre-IDデータセットにおける最先端の手法を一貫して大幅に上回っている。

Video-based person re-identification (re-ID) aims at matching the same person across video clips. Efficiently exploiting multi-scale fine-grained features while building the structural interaction among them is pivotal for its success. In this paper, we propose a hybrid framework, Dense Interaction Learning (DenseIL), that takes the principal advantages of both CNN-based and Attention-based architectures to tackle video-based person re-ID difficulties. DenseIL contains a CNN Encoder and a Transformer Decoder. The CNN Encoder is responsible for efficiently extracting discriminative spatial features while the Transformer Decoder is designed to deliberately model spatial-temporal inherent interaction across frames. Different from the vanilla Transformer, we additionally let the Transformer Decoder densely attends to intermediate fine-grained CNN features and that naturally yields multi-scale spatial-temporal feature representation for each video clip. Moreover, we introduce Spatio-TEmporal Positional Embedding (STEP-Emb) into the Transformer Decoder to investigate the positional relation among the spatial-temporal inputs. Our experiments consistently and significantly outperform all the state-of-the-art methods on multiple standard video-based re-ID datasets.
翻訳日:2021-03-17 13:27:31 公開日:2021-03-16
# querydet:高分解能小型オブジェクト検出を高速化するカスケードスパースクエリ

QueryDet: Cascaded Sparse Query for Accelerating High-Resolution Small Object Detection ( http://arxiv.org/abs/2103.09136v1 )

ライセンス: Link先を確認
Chenhongyi Yang, Zehao Huang and Naiyan Wang(参考訳) ディープラーニングを用いた汎用物体検出は,ここ数年で大成功を収めてきたが,小型物体の検出性能と効率性は十分とは程遠い。 小型物体検出を促進する最も一般的かつ効果的な方法は、高解像度画像や特徴地図を使用することである。 しかし,画像や特徴のサイズが大きくなるにつれて計算コストが正方形に大きくなるため,どちらの手法もコストのかかる計算を誘導する。 2つの世界を最大限に活用するために,特徴ピラミドに基づくオブジェクト検出器の推論速度を高速化する新しいクエリ機構を用いたQueryDetを提案する。 まず、小さなオブジェクトの粗い位置を低解像度の機能で予測し、その後、粗い位置によってあまり誘導されない高分解能機能を使用して、正確な検出結果を計算する。 このようにして,高分解能特徴マップの利点を享受できるだけでなく,背景領域の無駄な計算を回避できる。 一般的なCOCOデータセットでは,検出mAPを1.0倍,mAPを2.0倍に改善し,高分解能推論速度を平均3.0倍に向上する。 より小さなオブジェクトを含むVisDroneデータセットでは、平均2.3倍の高分解能加速を達成しながら、新しい最先端技術を作成する。 https://github.com/chenhongyiyang/querydet-pytorch

While general object detection with deep learning has achieved great success in the past few years, the performance and efficiency of detecting small objects are far from satisfactory. The most common and effective way to promote small object detection is to use high-resolution images or feature maps. However, both approaches induce costly computation since the computational cost grows squarely as the size of images and features increases. To get the best of two worlds, we propose QueryDet that uses a novel query mechanism to accelerate the inference speed of feature-pyramid based object detectors. The pipeline composes two steps: it first predicts the coarse locations of small objects on low-resolution features and then computes the accurate detection results using high-resolution features sparsely guided by those coarse positions. In this way, we can not only harvest the benefit of high-resolution feature maps but also avoid useless computation for the background area. On the popular COCO dataset, the proposed method improves the detection mAP by 1.0 and mAP-small by 2.0, and the high-resolution inference speed is improved to 3.0x on average. On VisDrone dataset, which contains more small objects, we create a new state-of-the-art while gaining a 2.3x high-resolution acceleration on average. Code is available at: https://github.com/ChenhongyiYang/QueryDet-PyTorch
翻訳日:2021-03-17 13:27:10 公開日:2021-03-16
# 正方形平面マーカーを用いたマルチビューカメラポーズ推定と物体追跡

Simultaneous Multi-View Camera Pose Estimation and Object Tracking with Square Planar Markers ( http://arxiv.org/abs/2103.09141v1 )

ライセンス: Link先を確認
Hamid Sarmadi, Rafael Mu\~noz-Salinas, M.A. Berb\'is, R. Medina-Carnicer(参考訳) 物体追跡は、医学における拡張現実のような多くのアプリケーションにおいて重要な側面である。 手術器具の追跡)またはロボット工学。 四角い角からポーズを推定できるため、四角い平面マーカーは追跡のための一般的なツールになっている。 1つのマーカーと1台のカメラを使用すると作業領域がかなり制限されるが、オブジェクトにアタッチされた複数のマーカーを使用することで相対位置を推定する必要がある。 同様に、複数のカメラを使用するには、余分なパラメータを推定する必要がある。 本稿では,上記の問題を同時に解く新しい手法を提案する。 複数のカメラから記録された平面マーカーの剛体集合を示すビデオシーケンスから,提案手法は,マーカーの3次元構成,カメラの外部パラメータ,および各フレームにおけるマーカーとカメラの相対的なポーズを自動的に取得することができる。 本実験は,低解像度カメラを用いたパラメータ推定において,高精度な結果が得られることを示す。 パラメータが得られたら、計算コストを低くして、オブジェクトのトラッキングをリアルタイムで行うことができる。 提案手法は,オブジェクト追跡のためのコスト効率の高いソリューションの開発における一歩である。

Object tracking is a key aspect in many applications such as augmented reality in medicine (e.g. tracking a surgical instrument) or robotics. Squared planar markers have become popular tools for tracking since their pose can be estimated from their four corners. While using a single marker and a single camera limits the working area considerably, using multiple markers attached to an object requires estimating their relative position, which is not trivial, for high accuracy tracking. Likewise, using multiple cameras requires estimating their extrinsic parameters, also a tedious process that must be repeated whenever a camera is moved. This work proposes a novel method to simultaneously solve the above-mentioned problems. From a video sequence showing a rigid set of planar markers recorded from multiple cameras, the proposed method is able to automatically obtain the three-dimensional configuration of the markers, the extrinsic parameters of the cameras, and the relative pose between the markers and the cameras at each frame. Our experiments show that our approach can obtain highly accurate results for estimating these parameters using low resolution cameras. Once the parameters are obtained, tracking of the object can be done in real time with a low computational cost. The proposed method is a step forward in the development of cost-effective solutions for object tracking.
翻訳日:2021-03-17 13:26:46 公開日:2021-03-16
# 敵対的運転:エンドツーエンドの自動運転システムを攻撃する

Adversarial Driving: Attacking End-to-End Autonomous Driving Systems ( http://arxiv.org/abs/2103.09151v1 )

ライセンス: Link先を確認
Han Wu, Wenjie Ruan(参考訳) ディープニューラルネットワークの研究が進むにつれて、ディープ畳み込みネットワークは自動運転タスクで実現可能になる。 運転タスクの自動化にエンドツーエンドモデルを採用するという新たなトレンドが生まれている。 しかし、以前の研究では、ディープニューラルネットワークは分類タスクにおける敵の攻撃に弱いことが明らかにされている。 自動運転のような回帰タスクでは、これらの攻撃の影響は不確かである。 本研究では、エンドツーエンドの自動運転システムに対する2つのホワイトボックス攻撃を考案する。 駆動モデルは、画像を入力として、操舵角度を出力する。 我々の攻撃は、入力画像を変更するだけで自律運転システムの動作を操作できる。 両方の攻撃の実装は、CPU上でリアルタイムのパフォーマンスを達成することができる。 このデモは、安全クリティカルシステムにおけるエンドツーエンドモデルの適用に対する懸念を高めることを目的としている。

As the research in deep neural networks advances, deep convolutional networks become feasible for automated driving tasks. There is an emerging trend of employing end-to-end models in the automation of driving tasks. However, previous research unveils that deep neural networks are vulnerable to adversarial attacks in classification tasks. While for regression tasks such as autonomous driving, the effect of these attacks remains uncertain. In this research, we devise two white-box targeted attacks against end-to-end autonomous driving systems. The driving model takes an image as input and outputs the steering angle. Our attacks can manipulate the behaviour of the autonomous driving system only by changing the input image. The implementation of both attacks can achieve real-time performance on CPUs. This demo aims to raise concerns over applications of end-to-end models in safety-critical systems.
翻訳日:2021-03-17 13:26:27 公開日:2021-03-16
# 概念テキスト領域ネットワーク:認知にインスパイアされた正確なシーンテキスト検出

Conceptual Text Region Network: Cognition-Inspired Accurate Scene Text Detection ( http://arxiv.org/abs/2103.09179v1 )

ライセンス: Link先を確認
Chenwei Cui, Liangfu Lu, Zhiyuan Tan, Amir Hussain(参考訳) セグメンテーションに基づく手法は、任意の形のテキストインスタンスを記述する際の優位性から、シーンテキストの検出に広く用いられている。 しかしながら,1) 現在のラベル生成技術は経験的であり, 理論的なサポートが欠如しているため, 詳細なラベル設計が避けられ, その結果, ほとんどの手法は不安定で意図的なチューニングを必要とするテキストカーネルセグメンテーションに大きく依存している。 これらの課題に対処するために,我々は,概念的テキスト領域ネットワーク(ctrnet)という,人間の認知に触発されたフレームワークを提案する。 このフレームワークは、優れた数学的特性を継承する認知ベースのツールのクラスである概念テキスト領域(ctrs)を使用し、洗練されたラベル設計を可能にする。 CTRNetのもうひとつのコンポーネントは、CTRの助けを借りて、テキストカーネルセグメンテーションの必要性を完全に省略する推論パイプラインである。 従来のセグメンテーション法と比較して,本手法は解釈可能なだけでなく,精度も高い。 CTRNetはベンチマークCTW1500, Total-Text, MSRA-TD500, ICDAR 2015データセットで最先端のパフォーマンスを実現し, 最大2.0%の性能向上を実現している。 我々の知る限りでは、CTRNetは4つのベンチマークで85.0%以上のF測定を達成した最初の検出モデルの一つであり、顕著な一貫性と安定性を備えている。

Segmentation-based methods are widely used for scene text detection due to their superiority in describing arbitrary-shaped text instances. However, two major problems still exist: 1) current label generation techniques are mostly empirical and lack theoretical support, discouraging elaborate label design; 2) as a result, most methods rely heavily on text kernel segmentation which is unstable and requires deliberate tuning. To address these challenges, we propose a human cognition-inspired framework, termed, Conceptual Text Region Network (CTRNet). The framework utilizes Conceptual Text Regions (CTRs), which is a class of cognition-based tools inheriting good mathematical properties, allowing for sophisticated label design. Another component of CTRNet is an inference pipeline that, with the help of CTRs, completely omits the need for text kernel segmentation. Compared with previous segmentation-based methods, our approach is not only more interpretable but also more accurate. Experimental results show that CTRNet achieves state-of-the-art performance on benchmark CTW1500, Total-Text, MSRA-TD500, and ICDAR 2015 datasets, yielding performance gains of up to 2.0%. Notably, to the best of our knowledge, CTRNet is among the first detection models to achieve F-measures higher than 85.0% on all four of the benchmarks, with remarkable consistency and stability.
翻訳日:2021-03-17 13:26:17 公開日:2021-03-16
# back to the feature: ピクセルからポーズまでロバストなカメラのローカライズを学ぶ

Back to the Feature: Learning Robust Camera Localization from Pixels to Pose ( http://arxiv.org/abs/2103.09213v1 )

ライセンス: Link先を確認
Paul-Edouard Sarlin, Ajaykumar Unagar, M{\aa}ns Larsson, Hugo Germain, Carl Toft, Viktor Larsson, Marc Pollefeys, Vincent Lepetit, Lars Hammarstrand, Fredrik Kahl, Torsten Sattler(参考訳) 既知のシーンでのカメラポーズ推定は、最近複数の学習アルゴリズムが取り組んだ3dジオメトリタスクである。 入力画像からのポーズや3dポイントなど、多くのレグレッシブな幾何学的量。 これは、新しい視点への一般化に失敗するか、モデルパラメータを特定のシーンに結び付ける。 より深いネットワークは、頑健で不変な視覚的特徴を学習することに集中すべきであり、幾何学的推定は原理化されたアルゴリズムに委ねるべきである。 画像と3Dモデルから正確な6-DoFポーズを推定するシーン非依存ニューラルネットワークPixLocを導入する。 このアプローチは,マルチスケールの深層機能の直接アライメントに基づいて,距離学習としてカメラのローカライズを行う。 PixLocは、ピクセルからエンドツーエンドのトレーニングによって強力なデータを学習し、モデルパラメータとシーン幾何学を分離することで、新しいシーンに例外的な一般化を示す。 このシステムは、粗いポーズの先行を与えられた大きな環境においてローカライズすることができるが、キーポイントを共同で精製し、オーバーヘッドを少なくすることでスパース特徴マッチングの精度を向上させることができる。 コードはhttps://github.com/cvg/pixloc.comで公開されている。

Camera pose estimation in known scenes is a 3D geometry task recently tackled by multiple learning algorithms. Many regress precise geometric quantities, like poses or 3D points, from an input image. This either fails to generalize to new viewpoints or ties the model parameters to a specific scene. In this paper, we go Back to the Feature: we argue that deep networks should focus on learning robust and invariant visual features, while the geometric estimation should be left to principled algorithms. We introduce PixLoc, a scene-agnostic neural network that estimates an accurate 6-DoF pose from an image and a 3D model. Our approach is based on the direct alignment of multiscale deep features, casting camera localization as metric learning. PixLoc learns strong data priors by end-to-end training from pixels to pose and exhibits exceptional generalization to new scenes by separating model parameters and scene geometry. The system can localize in large environments given coarse pose priors but also improve the accuracy of sparse feature matching by jointly refining keypoints and poses with little overhead. The code will be publicly available at https://github.com/cvg/pixloc.
翻訳日:2021-03-17 13:25:53 公開日:2021-03-16
# GraphSMOTE: グラフニューラルネットワークを用いたグラフ上の不均衡ノード分類

GraphSMOTE: Imbalanced Node Classification on Graphs with Graph Neural Networks ( http://arxiv.org/abs/2103.08826v1 )

ライセンス: Link先を確認
Tianxiang Zhao, Xiang Zhang, Suhang Wang(参考訳) ノード分類はグラフ学習において重要な研究トピックである。 グラフニューラルネットワーク(GNN)はノード分類の最先端性能を達成した。 しかし、既存のGNNは、異なるクラスのノードサンプルが平衡している問題に対処する。 この場合、GNN分類器を直接訓練すると、これらの少数クラスのサンプルが不足し、結果として準最適性能が得られる。 したがって、不均衡ノード分類のためのGNNの開発は非常に重要である。 しかし、これに関する作業は限られている。 そこで我々は,従来の非バランスな学習手法を,GNN分類を容易にするために不バランスなノード分類タスクに拡張する。 特に、最も効果的で安定であることが判明したため、合成的マイノリティオーバーサンプリングアルゴリズムを採用することを選んだ。 このタスクは非自明であり、以前の合成マイノリティの過剰サンプリングアルゴリズムは、グラフの学習に不可欠である新しく合成されたサンプルの関連情報を提供しない。 さらに、ノード属性は高次元である。 元の入力領域のオーバーサンプリングはドメイン外のサンプルを生成し、分類器の精度を損なう可能性がある。 本稿では,ノード間の類似性をエンコードするために埋め込み空間を構築する新しいフレームワークであるgraphsmoteを提案する。 この空間で新しいサンプルが合成され、真正性が保証される。 さらに、エッジジェネレータを同時にトレーニングして関係情報をモデル化し、それらの新しいサンプルに提供する。 このフレームワークは汎用的で、容易に異なるバリエーションに拡張できる。 提案するフレームワークは3つの異なるデータセットを用いて評価され、すべてのベースラインを大きなマージンで上回る。

Node classification is an important research topic in graph learning. Graph neural networks (GNNs) have achieved state-of-the-art performance of node classification. However, existing GNNs address the problem where node samples for different classes are balanced; while for many real-world scenarios, some classes may have much fewer instances than others. Directly training a GNN classifier in this case would under-represent samples from those minority classes and result in sub-optimal performance. Therefore, it is very important to develop GNNs for imbalanced node classification. However, the work on this is rather limited. Hence, we seek to extend previous imbalanced learning techniques for i.i.d data to the imbalanced node classification task to facilitate GNN classifiers. In particular, we choose to adopt synthetic minority over-sampling algorithms, as they are found to be the most effective and stable. This task is non-trivial, as previous synthetic minority over-sampling algorithms fail to provide relation information for newly synthesized samples, which is vital for learning on graphs. Moreover, node attributes are high-dimensional. Directly over-sampling in the original input domain could generates out-of-domain samples, which may impair the accuracy of the classifier. We propose a novel framework, GraphSMOTE, in which an embedding space is constructed to encode the similarity among the nodes. New samples are synthesize in this space to assure genuineness. In addition, an edge generator is trained simultaneously to model the relation information, and provide it for those new samples. This framework is general and can be easily extended into different variations. The proposed framework is evaluated using three different datasets, and it outperforms all baselines with a large margin.
翻訳日:2021-03-17 13:25:03 公開日:2021-03-16
# 半教師付きグラフ-グラフ変換

Semi-Supervised Graph-to-Graph Translation ( http://arxiv.org/abs/2103.08827v1 )

ライセンス: Link先を確認
Tianxiang Zhao, Xianfeng Tang, Xiang Zhang, Suhang Wang(参考訳) グラフ翻訳は、非常に有望な研究方向であり、多種多様な実世界応用がある。 グラフは関係と相互作用を表現する自然な構造であり、その翻訳は異なるシナリオにおける関係の本質的な意味の変化をエンコードすることができる。 しかし、その大きな可能性にもかかわらず、今のところグラフ翻訳の利用は限られている。 重要な理由のひとつは、高品質なペアデータセットがないことだ。 例えば、人々の共有音楽の好みを表すグラフや、共同購入行動を表すグラフを簡単に構築できますが、うまくペアリングされたデータセットを得るにはずっとコストがかかります。 そこで本研究では,半教師付きシナリオにおけるグラフ翻訳モデルを提案する。 グラフ変換は、リンクトポロジーとノード属性の形式で意味を変化させるが、組み合わせの性質と相互依存性のため、キャプチャが難しいため、このタスクは自明ではない。 さらに,グラフの構成の自由度が高いため,訓練されたモデルの一般化能力を保証することは困難である。 これらの困難は、未汚染のサンプルを搾取するためのより厳しい要件を課している。 そこで我々は,意味遷移をモデル化するために,変換を明示的に行う双対表現空間を構築することを提案する。 特別なエンコーダ/デコーダ構造が設計され、補助的な相互情報損失も非ペア/ペアの例のアライメントを強制するために採用される。 提案手法を3つの異なるデータセットで評価する。

Graph translation is very promising research direction and has a wide range of potential real-world applications. Graph is a natural structure for representing relationship and interactions, and its translation can encode the intrinsic semantic changes of relationships in different scenarios. However, despite its seemingly wide possibilities, usage of graph translation so far is still quite limited. One important reason is the lack of high-quality paired dataset. For example, we can easily build graphs representing peoples' shared music tastes and those representing co-purchase behavior, but a well paired dataset is much more expensive to obtain. Therefore, in this work, we seek to provide a graph translation model in the semi-supervised scenario. This task is non-trivial, because graph translation involves changing the semantics in the form of link topology and node attributes, which is difficult to capture due to the combinatory nature and inter-dependencies. Furthermore, due to the high order of freedom in graph's composition, it is difficult to assure the generalization ability of trained models. These difficulties impose a tighter requirement for the exploitation of unpaired samples. Addressing them, we propose to construct a dual representation space, where transformation is performed explicitly to model the semantic transitions. Special encoder/decoder structures are designed, and auxiliary mutual information loss is also adopted to enforce the alignment of unpaired/paired examples. We evaluate the proposed method in three different datasets.
翻訳日:2021-03-17 13:24:39 公開日:2021-03-16
# 最大期待損失最小化による拡張サンプルの重み付け

Reweighting Augmented Samples by Minimizing the Maximal Expected Loss ( http://arxiv.org/abs/2103.08933v1 )

ライセンス: Link先を確認
Mingyang Yi, Lu Hou, Lifeng Shang, Xin Jiang, Qun Liu, Zhi-Ming Ma(参考訳) データ拡張は、ディープニューラルネットワークの一般化を改善する効果的なテクニックである。 しかし、従来のデータ拡張手法では、モデルに対する個々の影響を考慮せずに、通常、拡張サンプルを等しく扱う。 これを解決するために、同じトレーニング例からの強化サンプルに対して、異なる重みを割り当てることを提案する。 我々は,拡張標本の任意の重み付け損失に対する上限となる最大期待損失を構成する。 この最大損失(MMEL)を最小限に抑え、より単純で解釈可能な閉形式解を得る: 大きな損失値を持つ増分サンプル(例えば、より難しい例)により多くの注意を払うべきである。 この最大損失を最小限にすることで、モデルは任意の再重み付け戦略の下でうまく機能する。 提案手法は, 一般に任意のデータ拡張法上に適用可能である。 トークンレベルのデータ拡張による自然言語理解タスクと、ランダムな作物や水平フリップといった一般的な画像拡張技術を用いた画像分類タスクの両方で実験を行った。 実験の結果,提案手法はモデルの一般化性能を向上させることがわかった。

Data augmentation is an effective technique to improve the generalization of deep neural networks. However, previous data augmentation methods usually treat the augmented samples equally without considering their individual impacts on the model. To address this, for the augmented samples from the same training example, we propose to assign different weights to them. We construct the maximal expected loss which is the supremum over any reweighted loss on augmented samples. Inspired by adversarial training, we minimize this maximal expected loss (MMEL) and obtain a simple and interpretable closed-form solution: more attention should be paid to augmented samples with large loss values (i.e., harder examples). Minimizing this maximal expected loss enables the model to perform well under any reweighting strategy. The proposed method can generally be applied on top of any data augmentation methods. Experiments are conducted on both natural language understanding tasks with token-level data augmentation, and image classification tasks with commonly-used image augmentation techniques like random crop and horizontal flip. Empirical results show that the proposed method improves the generalization performance of the model.
翻訳日:2021-03-17 13:24:17 公開日:2021-03-16
# TLSAN:次世代勧告のための長期的・短期的注意ネットワーク

TLSAN: Time-aware Long- and Short-term Attention Network for Next-item Recommendation ( http://arxiv.org/abs/2103.08971v1 )

ライセンス: Link先を確認
Jianqing Zhang (1), Dongjing Wang (1), Dongjin Yu (1) ((1) School of Computer Science and Technology, Hangzhou Dianzi University, China)(参考訳) 近年、ディープニューラルネットワークは、ユーザの好みを捕捉・モデル化する効果のために、リコメンデータシステムに広く応用されている。 特に、ディープラーニングにおける注意機構により、様々な特徴を適応的に組み込むことができる。 具体的には,次の項目推薦タスクについて,1) ユーザの時系列行動記録を時間的位置で集計する(時間的集約),2) ユーザが「時間的集約」現象(個人的時間的集約)に関連するパーソナライズされた嗜好を持つ,3) ユーザの短期的関心が次の項目予測/勧告において重要な役割を果たす,という3つの観察結果を得た。 本稿では,上記の観察に対処すべく,tlsan(time-aware long-term-term attention network)を提案する。 具体的には、TLSANは2つの主要コンポーネントから構成される。 まず、TLSANは「個人化された時間集約」をモデル化し、訓練可能な個人化された時間位置の埋め込みを通じて、長期的行動におけるカテゴリー対応の相関を学習する。 第2に,ユーザの長期的および短期的嗜好を効果的に捉えて正確な推薦を行うために,長期的および短期的特徴的注意層を提案する。 特に注意機構により、TLSANはユーザの好みを適応的に利用することができ、その長期的・短期的な利用により、疎結合データを扱う能力が向上する。 さまざまな分野(サイズも異なる)のAmazonデータセット上で大規模な実験が行われ、その結果、TLSANはユーザの好みのキャプチャと、時間に敏感な次の項目推奨の両方において、最先端のベースラインを上回っていることが示された。

Recently, deep neural networks are widely applied in recommender systems for their effectiveness in capturing/modeling users' preferences. Especially, the attention mechanism in deep learning enables recommender systems to incorporate various features in an adaptive way. Specifically, as for the next item recommendation task, we have the following three observations: 1) users' sequential behavior records aggregate at time positions ("time-aggregation"), 2) users have personalized taste that is related to the "time-aggregation" phenomenon ("personalized time-aggregation"), and 3) users' short-term interests play an important role in the next item prediction/recommendation. In this paper, we propose a new Time-aware Long- and Short-term Attention Network (TLSAN) to address those observations mentioned above. Specifically, TLSAN consists of two main components. Firstly, TLSAN models "personalized time-aggregation" and learn user-specific temporal taste via trainable personalized time position embeddings with category-aware correlations in long-term behaviors. Secondly, long- and short-term feature-wise attention layers are proposed to effectively capture users' long- and short-term preferences for accurate recommendation. Especially, the attention mechanism enables TLSAN to utilize users' preferences in an adaptive way, and its usage in long- and short-term layers enhances TLSAN's ability of dealing with sparse interaction data. Extensive experiments are conducted on Amazon datasets from different fields (also with different size), and the results show that TLSAN outperforms state-of-the-art baselines in both capturing users' preferences and performing time-sensitive next-item recommendation.
翻訳日:2021-03-17 13:23:46 公開日:2021-03-16
# 複数環境地図の全体構造を用いた部分的観測による地図完成

Map completion from partial observation using the global structure of multiple environmental maps ( http://arxiv.org/abs/2103.09071v1 )

ライセンス: Link先を確認
Yuki Katsumata, Akinori Kanechika, Akira Taniguchi, Lotfi El Hafi, Yoshinobu Hagiwara, Tadahiro Taniguchi(参考訳) 様々な屋内環境の空間構造を事前知識として利用することで、ロボットはより効率的に地図を構築することができる。 自律移動ロボットは通常、新しく訪れた環境における到達可能な領域を理解するためにSLAM法を併用する。 しかし,従来のマッピング手法はセンサ観測と制御信号のみを考慮し,現在の環境マップを推定することで制限される。 本稿では,深層ニューラルネットワークを応用した確率的生成モデルに基づく新しいSLAM法であるマップ補完ネットワークを用いたSLAM(MCN-SLAM)を提案する。 これらのマップ補完ネットワークは主に、既存の地図データの大域的構造を抽出するGAN(Generative Adversarial Network)の枠組みで訓練されている。 本研究では,提案手法が従来のSLAM法よりも1.3倍の環境マップを推定できることを示す。

Using the spatial structure of various indoor environments as prior knowledge, the robot would construct the map more efficiently. Autonomous mobile robots generally apply simultaneous localization and mapping (SLAM) methods to understand the reachable area in newly visited environments. However, conventional mapping approaches are limited by only considering sensor observation and control signals to estimate the current environment map. This paper proposes a novel SLAM method, map completion network-based SLAM (MCN-SLAM), based on a probabilistic generative model incorporating deep neural networks for map completion. These map completion networks are primarily trained in the framework of generative adversarial networks (GANs) to extract the global structure of large amounts of existing map data. We show in experiments that the proposed method can estimate the environment map 1.3 times better than the previous SLAM methods in the situation of partial observation.
翻訳日:2021-03-17 13:23:10 公開日:2021-03-16
# 新型コロナウイルス感染予防のためのコンピュータビジョンシステム

A Computer Vision System to Help Prevent the Transmission of COVID-19 ( http://arxiv.org/abs/2103.08773v1 )

ライセンス: Link先を確認
Fevziye Irem Eyiokur, Haz{\i}m Kemal Ekenel, Alexander Waibel(参考訳) 新型コロナウイルスのパンデミックは世界中の日常生活に影響を及ぼす。 新型コロナウイルスの感染拡大を回避し、世界中の日常生活の正常を回復するため、保健機関は社交距離、マスク着用、接触面の回避を推奨している。 これらの保護策に基づき,新型ウイルスの感染防止を目的とした深層学習型コンピュータビジョンシステムを開発した。 具体的には,顔のマスク検出,対面インタラクション検出,社会的距離測定を行う。 これらの目的のために,実世界における顔マスクの使用状況と対面インタラクションを表す画像を収集し,注釈を付けた。 2つの異なる顔データセット,unconstrained face mask dataset (ufmd) とunconstrained face hand dataset (ufhd) を示した。 提案したモデルを独自のデータセットでトレーニングし、ターゲットデータセットに適応することなく、私たちのデータセットと既存のデータセットの両方で評価しました。 また,人間間の社会的距離を追跡するための距離測定モジュールを提案した。 実験の結果,UFMDとUFHDは現実世界の多様性をよく表していることがわかった。 提案システムは, 実世界のシナリオにおいて, 顔マスクの使用状況や対面インタラクションを検出するために, トレーニングデータの外部からデータを見ることができず, 社会的距離を追跡する場合の良好な性能を実現するために, 非常に高い性能と一般化能力を実現した。 UFMDとUFHDのデータセットはhttps://github.com/iremeyiokur/COVID-19-Preventions-Control-Systemで公開される。

The COVID-19 pandemic affects every area of daily life globally. To avoid the spread of coronavirus and retrieve the daily normal worldwide, health organizations advise social distancing, wearing face mask, and avoiding touching face. Based on these recommended protective measures, we developed a deep learning-based computer vision system to help prevent the transmission of COVID-19. Specifically, the developed system performs face mask detection, face-hand interaction detection, and measures social distance. For these purposes, we collected and annotated images that represent face mask usage and face-hand interaction in the real world. We presented two different face datasets, namely Unconstrained Face Mask Dataset (UFMD) and Unconstrained Face Hand Dataset (UFHD). We trained the proposed models on our own datasets and evaluated them on both our datasets and already existing datasets in the literature without performing any adaptation on these target datasets. Besides, we proposed a distance measurement module to track social distance between people. Experimental results indicate that UFMD and UFHD represent the real-world's diversity well. The proposed system achieved very high performance and generalization capacity in a real-world scenario for unseen data from outside the training data to detect face mask usage and face-hand interaction, and satisfactory performance in the case of tracking social distance. Presented UFMD and UFHD datasets will be available at https://github.com/iremeyiokur/COVID-19-Preventions-Control-System.
翻訳日:2021-03-17 13:22:45 公開日:2021-03-16
# エレベーターボタンのセグメンテーションと文字認識をベンチマークするための大規模データセット

A Large-Scale Dataset for Benchmarking Elevator Button Segmentation and Character Recognition ( http://arxiv.org/abs/2103.09030v1 )

ライセンス: Link先を確認
Jianbang Liu, Yuqi Fang, Delong Zhu, Nachuan Ma, Jin Pan, Max Q.-H. Meng(参考訳) 最近、人間の活動はCOVID-19によって非常に制限されています。 フロア間ナビゲーションを行うロボットは、人間の作業員に代えてサービス作業を行うことができるため、多くの一般の注目を集めている。 しかし、現在のロボットは人力支援かエレベーターの修理に依存しており、完全に自律的な床間ナビゲーションはまだ利用できない。 床間ナビゲーションの第1ステップとして、エレベーターボタンのセグメンテーションと認識が重要な位置を占める。 そこで本研究では,35,100個のボタンラベルを有する3,718枚のパネル画像を含む大規模公開エレベータパネルデータセットをリリースし,自律エレベータ操作におけるより強力なアルゴリズムを実現する。 データセットとともに、ボタンのセグメンテーションと認識のためのディープラーニングベースの実装もリリースされ、コミュニティの将来のメソッドをベンチマークする。 データセットは \url{https://github.com/zhudelong/elevator_button_recognition で利用可能になる。

Human activities are hugely restricted by COVID-19, recently. Robots that can conduct inter-floor navigation attract much public attention, since they can substitute human workers to conduct the service work. However, current robots either depend on human assistance or elevator retrofitting, and fully autonomous inter-floor navigation is still not available. As the very first step of inter-floor navigation, elevator button segmentation and recognition hold an important position. Therefore, we release the first large-scale publicly available elevator panel dataset in this work, containing 3,718 panel images with 35,100 button labels, to facilitate more powerful algorithms on autonomous elevator operation. Together with the dataset, a number of deep learning based implementations for button segmentation and recognition are also released to benchmark future methods in the community. The dataset will be available at \url{https://github.com/zhudelong/elevator_button_recognition
翻訳日:2021-03-17 13:22:19 公開日:2021-03-16
# 医用画像分割のための正規化型可逆残像ネットワーク

Invertible Residual Network with Regularization for Effective Medical Image Segmentation ( http://arxiv.org/abs/2103.09042v1 )

ライセンス: Link先を確認
Kashu Yamazaki, Vidhiwar Singh Rathour, T.Hoang Ngan Le(参考訳) 深層畳み込みニューラルネットワーク(Deep Convolutional Neural Networks, CNN) Residual Networks (ResNets) は多くのコンピュータビジョンタスクでうまく使われているが、3次元の医療データにスケールすることは困難である。 3d畳み込みニューラルネットワーク(cnns)のトレーニングでは、メモリがボトルネックになることが多い。 近年、インバーチブルニューラルネットワークは、バックプロパゲーションを行うために、中間的アクティベーションをメモリに格納することなく出力から入力を取り出すことができる可逆関数のおかげで、バックプロパゲーションでニューラルネットワークをトレーニングする際のアクティベーションメモリフットプリントを大幅に削減するために応用されている。 多くの成功したネットワークアーキテクチャの中で、3d unetは体積医学のセグメンテーションの標準アーキテクチャとして確立されている。 そこで我々は,非可逆ネットワークのベースラインとして3D Unetを選択し,それを可逆残差ネットワークで拡張する。 本稿では, 部分可逆残差ネットワーク (部分可逆残差ネットワーク) と完全可逆残差ネットワーク (完全可逆残差ネットワーク) の2つのバージョンを提案する。 部分インヴルでは、インバータブル残差層は加法結合と呼ばれる技法で定義され、フルインヴルルでは、逆アップサンプリングとダウンサンプリングの操作の両方がスクイージング(ピクセルシャッフルとして知られる)に基づいて学習される。 さらに、トレーニングデータが少ないため、過剰フィッティング問題を回避するために、変動オートエンコーダ(vae)ブランチを追加して入力ボリュームデータ自体を再構築する。 この結果から,部分可逆ネットワークをボリュームセグメンテーションの中心として用いることにより,メモリオーバヘッドを削減できるだけでなく,非可逆的3d unetと同等なセグメンテーション性能を実現することができた。 iSeg 2019やBraTS 2020など,さまざまなボリュームデータセット上で提案するネットワークを実証した。

Deep Convolutional Neural Networks (CNNs) i.e. Residual Networks (ResNets) have been used successfully for many computer vision tasks, but are difficult to scale to 3D volumetric medical data. Memory is increasingly often the bottleneck when training 3D Convolutional Neural Networks (CNNs). Recently, invertible neural networks have been applied to significantly reduce activation memory footprint when training neural networks with backpropagation thanks to the invertible functions that allow retrieving its input from its output without storing intermediate activations in memory to perform the backpropagation. Among many successful network architectures, 3D Unet has been established as a standard architecture for volumetric medical segmentation. Thus, we choose 3D Unet as a baseline for a non-invertible network and we then extend it with the invertible residual network. In this paper, we proposed two versions of the invertible Residual Network, namely Partially Invertible Residual Network (Partially-InvRes) and Fully Invertible Residual Network (Fully-InvRes). In Partially-InvRes, the invertible residual layer is defined by a technique called additive coupling whereas in Fully-InvRes, both invertible upsampling and downsampling operations are learned based on squeezing (known as pixel shuffle). Furthermore, to avoid the overfitting problem because of less training data, a variational auto-encoder (VAE) branch is added to reconstruct the input volumetric data itself. Our results indicate that by using partially/fully invertible networks as the central workhorse in volumetric segmentation, we not only reduce memory overhead but also achieve compatible segmentation performance compared against the non-invertible 3D Unet. We have demonstrated the proposed networks on various volumetric datasets such as iSeg 2019 and BraTS 2020.
翻訳日:2021-03-17 13:22:06 公開日:2021-03-16
# タイムウインドウを用いたマルチロボットルーティング:列生成アプローチ

Multi-Robot Routing with Time Windows: A Column Generation Approach ( http://arxiv.org/abs/2103.08835v1 )

ライセンス: Link先を確認
Naveed Haghani, Jiaoyang Li, Sven Koenig, Gautam Kunapuli, Claudio Contardo, Amelia Regan, Julian Yarkony(参考訳) 倉庫でタスクを実行するロボットは、輸送と物流に自動運転車を広く採用する最初の例である。 これらの作業の効率は、実際に広く変化する可能性があるが、サプライチェーンの成功の重要な要因である。 本研究では,倉庫内でピッキング作業を行うロボット群を協調させ,問題やロボット特有の制約を尊重しながら,時間内に達成した純利益を最大化する問題を考える。 本稿では, 倉庫床の要素が所定の時間窓で拾い上げ, 届けられる商品である重み付け組立問題として, 問題を定式化する。 我々は、ロボットが衝突してはならないという制約を課し、各アイテムが少なくとも1つのロボットによって拾われて配送されるようにし、いつでも活動するロボットの数は利用可能な総数を超えないようにする。 経路の集合は入力の大きさが指数関数的であるので、列生成による整数線形プログラムの最適化を攻撃し、そこでは、基本資源制約された最短経路問題の解決に費用がかかる。 我々は,時間内インクリメントの考慮を回避する効率的な最適化手法を提案する。 また,価格帯を効率的に解くことができるヒューリスティック価格アルゴリズムを提案する。 これはそれ自体が重要な問題であるが、これらの問題を解決することで得られた洞察は、他の時間制限された車両ルーティング問題に新たな進歩をもたらす可能性がある。

Robots performing tasks in warehouses provide the first example of wide-spread adoption of autonomous vehicles in transportation and logistics. The efficiency of these operations, which can vary widely in practice, are a key factor in the success of supply chains. In this work we consider the problem of coordinating a fleet of robots performing picking operations in a warehouse so as to maximize the net profit achieved within a time period while respecting problem- and robot-specific constraints. We formulate the problem as a weighted set packing problem where the elements in consideration are items on the warehouse floor that can be picked up and delivered within specified time windows. We enforce the constraint that robots must not collide, that each item is picked up and delivered by at most one robot, and that the number of robots active at any time does not exceed the total number available. Since the set of routes is exponential in the size of the input, we attack optimization of the resulting integer linear program using column generation, where pricing amounts to solving an elementary resource-constrained shortest-path problem. We propose an efficient optimization scheme that avoids consideration of every increment within the time windows. We also propose a heuristic pricing algorithm that can efficiently solve the pricing subproblem. While this itself is an important problem, the insights gained from solving these problems effectively can lead to new advances in other time-widow constrained vehicle routing problems.
翻訳日:2021-03-17 13:21:08 公開日:2021-03-16
# ソーシャルレコメンデーションのためのデュアルサイドディープコンテキスト制御

Dual Side Deep Context-aware Modulation for Social Recommendation ( http://arxiv.org/abs/2103.08976v1 )

ライセンス: Link先を確認
Bairan Fu and Wenming Zhang and Guangneng Hu and Xinyu Dai and Shujian Huang and Jiajun Chen(参考訳) ソーシャルレコメンデーションは、オンラインソーシャルネットワーキングプラットフォームからソーシャル関係を活用することで、レコメンデーションのパフォーマンスを向上させるのに有効である。 ユーザ間の社会的関係は、候補アイテムに対するユーザの関心をモデル化するための友人の情報を提供し、潜在的な消費者(アイテムアトラクション)に露出するアイテムを支援する。 第一に、既存のメソッドは通常、候補アイテムにのみコンテキスト化された友人の情報を収集し、この浅いコンテキスト認識集約は、限られた友人の情報に悩まされる。 第2に、アイテムアトラクションにおいて、過去の消費者がターゲットユーザと類似した消費習慣を持っている場合、ターゲットユーザにとってより魅力的なものとなるが、既存の手法のほとんどは、関連性を高めたコンテキスト対応アイテムアトラクションを無視している。 そこで我々はdicer (dual side deep context-aware modulation for socialrecommendation) を提案する。 具体的には、まず、社会的関係と協調関係をモデル化する新しいグラフニューラルネットワークを提案し、高次関係の上に、友人の情報とアイテムのアトラクションを捉えるために、双方向のコンテキスト認識変調を導入する。 2つの実世界のデータセットにおける実験結果は,提案モデルの有効性を示し,双対文脈認識変調の動作を理解するためのさらなる実験を行った。

Social recommendation is effective in improving the recommendation performance by leveraging social relations from online social networking platforms. Social relations among users provide friends' information for modeling users' interest in candidate items and help items expose to potential consumers (i.e., item attraction). However, there are two issues haven't been well-studied: Firstly, for the user interests, existing methods typically aggregate friends' information contextualized on the candidate item only, and this shallow context-aware aggregation makes them suffer from the limited friends' information. Secondly, for the item attraction, if the item's past consumers are the friends of or have a similar consumption habit to the targeted user, the item may be more attractive to the targeted user, but most existing methods neglect the relation enhanced context-aware item attraction. To address the above issues, we proposed DICER (Dual Side Deep Context-aware Modulation for SocialRecommendation). Specifically, we first proposed a novel graph neural network to model the social relation and collaborative relation, and on top of high-order relations, a dual side deep context-aware modulation is introduced to capture the friends' information and item attraction. Empirical results on two real-world datasets show the effectiveness of the proposed model and further experiments are conducted to help understand how the dual context-aware modulation works.
翻訳日:2021-03-17 13:20:45 公開日:2021-03-16
# ナレッジグラフを活用した新しい論文推薦法:研究初心者に向けて

A Novel Paper Recommendation Method Empowered by Knowledge Graph: for Research Beginners ( http://arxiv.org/abs/2103.08819v1 )

ライセンス: Link先を確認
Bangchao Wang (1 and 2), Ziyang Weng (1), Yanping Wang (3) ((1) School of Mathematics and Computer Science, Wuhan Textile University, Wuhan, China, (2) School of Computer Science, Wuhan University, Wuhan, China, (3) School of Information Management, Wuhan University, Wuhan, China)(参考訳) 異なる学術データベースから論文を検索することは、研究初心者がクロスドメイン技術ソリューションを得るために最もよく使われる方法である。 しかし、従来の検索手法では、異なるドメインにおける知識の不均一性を考慮せず、検索の下位層を構築しておらず、対象とするソリューションやソリューションの特性記述テキストに制限されないため、通常は非効率であり、時には役に立たない。 この問題を軽減するために, 利用者の要求をより正確に表現するだけでなく, 知識をより表現しやすい「マスタースレーブ」ドメイン知識グラフを導入することにより, 新たな論文推薦手法を提案する。 具体的には、コールドスタート問題に制限されず、チャレンジ指向の手法である。 提案手法の合理性と有用性を明らかにするため、2つのクロスドメインと3つの異なる学術データベースを選択した。 実験の結果,提案手法を用いた研究初心者によるクロスドメインシナリオにおける新たな技術論文の取得が可能となった。 さらに, 初期段階における研究初心者のための新たな研究パラダイムを提案する。

Searching for papers from different academic databases is the most commonly used method by research beginners to obtain cross-domain technical solutions. However, it is usually inefficient and sometimes even useless because traditional search methods neither consider knowledge heterogeneity in different domains nor build the bottom layer of search, including but not limited to the characteristic description text of target solutions and solutions to be excluded. To alleviate this problem, a novel paper recommendation method is proposed herein by introducing "master-slave" domain knowledge graphs, which not only help users express their requirements more accurately but also helps the recommendation system better express knowledge. Specifically, it is not restricted by the cold start problem and is a challenge-oriented method. To identify the rationality and usefulness of the proposed method, we selected two cross-domains and three different academic databases for verification. The experimental results demonstrate the feasibility of obtaining new technical papers in the cross-domain scenario by research beginners using the proposed method. Further, a new research paradigm for research beginners in the early stages is proposed herein.
翻訳日:2021-03-17 13:20:01 公開日:2021-03-16
# てんかんおよび失読不確かさの最小化による解釈可能な非現実的説明の生成

Generating Interpretable Counterfactual Explanations By Implicit Minimisation of Epistemic and Aleatoric Uncertainties ( http://arxiv.org/abs/2103.08951v1 )

ライセンス: Link先を確認
Lisa Schut, Oscar Key, Rory McGrath, Luca Costabello, Bogdan Sacaleanu, Medb Corcoran and Yarin Gal(参考訳) 対実的説明(CE)は、機械学習の分類器が特別な決定を下す理由を示す実用的なツールである。 CEが有用であるためには,ユーザが容易に解釈できることが重要である。 解釈可能なcesを生成する既存の方法は、複雑なデータセットには適さない補助生成モデルに依存しており、エンジニアリングのオーバーヘッドを負う。 本稿では,分類器の予測不確実性を利用して,補助モデルのないホワイトボックス設定で解釈可能なCEを生成する簡易かつ高速な手法を提案する。 実験の結果,提案アルゴリズムは既存の手法よりも,より解釈可能なCEを生成することがわかった。 さらに,本手法は,医療領域など安全クリティカルな応用において重要と思われるceの不確かさを推定することを可能にする。

Counterfactual explanations (CEs) are a practical tool for demonstrating why machine learning classifiers make particular decisions. For CEs to be useful, it is important that they are easy for users to interpret. Existing methods for generating interpretable CEs rely on auxiliary generative models, which may not be suitable for complex datasets, and incur engineering overhead. We introduce a simple and fast method for generating interpretable CEs in a white-box setting without an auxiliary model, by using the predictive uncertainty of the classifier. Our experiments show that our proposed algorithm generates more interpretable CEs, according to IM1 scores, than existing methods. Additionally, our approach allows us to estimate the uncertainty of a CE, which may be important in safety-critical applications, such as those in the medical domain.
翻訳日:2021-03-17 13:19:43 公開日:2021-03-16
# SoK:プライバシ保護型協調木モデル学習

SoK: Privacy-Preserving Collaborative Tree-based Model Learning ( http://arxiv.org/abs/2103.08987v1 )

ライセンス: Link先を確認
Sylvain Chatel, Apostolos Pyrgelis, Juan Ramon Troncoso-Pastoriza, Jean-Pierre Hubaux(参考訳) ツリーベースのモデルは、正確性、解釈性、単純さのため、データマイニングの最も効率的な機械学習技術の一つである。 最近の直交的なニーズは、協力的なプライバシ保護ソリューションのためのデータとプライバシ保護の要求を増やしている。 本研究では,木ベースモデルの分散およびプライバシ保全トレーニングに関する文献を調査し,その知識を学習アルゴリズム,協調モデル,保護機構,脅威モデルという4つの軸に基づいて体系化する。 これを用いてこれらの作業の長所と短所を特定し、分散ツリーベースモデル学習で発生した情報漏洩を分析するフレームワークを初めて提供する。

Tree-based models are among the most efficient machine learning techniques for data mining nowadays due to their accuracy, interpretability, and simplicity. The recent orthogonal needs for more data and privacy protection call for collaborative privacy-preserving solutions. In this work, we survey the literature on distributed and privacy-preserving training of tree-based models and we systematize its knowledge based on four axes: the learning algorithm, the collaborative model, the protection mechanism, and the threat model. We use this to identify the strengths and limitations of these works and provide for the first time a framework analyzing the information leakage occurring in distributed tree-based model learning.
翻訳日:2021-03-17 13:19:30 公開日:2021-03-16
# ロボット組み立てのための行動木計画と学習の融合

Combining Planning and Learning of Behavior Trees for Robotic Assembly ( http://arxiv.org/abs/2103.09036v1 )

ライセンス: Link先を確認
Jonathan Styrud, Matteo Iovino, Mikael Norrl\"of, M{\aa}rten Bj\"orkman and Christian Smith(参考訳) 産業用ロボットは、制御された環境で非常に複雑なタスクを解決できるが、現代のアプリケーションでは予測不能な環境でもロボットを操作できる必要がある。 ロボティクスにおけるリアクティブポリシアーキテクチャは行動木が主流ですが、他のアーキテクチャと同様、プログラミング時間は依然としてコストと柔軟性を制限します。 ポリシを自動的に生成するアルゴリズムには、自動化された計画と機械学習の2つの大きなブランチがある。 本研究では,遺伝的プログラミングアルゴリズムを用いて行動木を生成する手法を提案し,これら2つの枝を組み合わせ,自動プランナーの結果を集団に挿入する手法を提案する。 実験の結果, 計画と学習を組み合わせる手法は, 様々なロボット組立問題に対して良好に動作し, 両者を別々に比較できることがわかった。 また,このような高レベルな行動木学習は,さらなる学習をすることなく実システムへ移行できることを示した。

Industrial robots can solve very complex tasks in controlled environments, but modern applications require robots able to operate in unpredictable surroundings as well. An increasingly popular reactive policy architecture in robotics is Behavior Trees but as with other architectures, programming time still drives cost and limits flexibility. There are two main branches of algorithms to generate policies automatically, automated planning and machine learning, both with their own drawbacks. We propose a method for generating Behavior Trees using a Genetic Programming algorithm and combining the two branches by taking the result of an automated planner and inserting it into the population. Experimental results confirm that the proposed method of combining planning and learning performs well on a variety of robotic assembly problems and outperforms both of the base methods used separately. We also show that this type of high level learning of Behavior Trees can be transferred to a real system without further training.
翻訳日:2021-03-17 13:19:20 公開日:2021-03-16
# reconresnet:アンサンプされたデカルトおよびラジアルデータのmr画像再構成のための正規化残差学習

ReconResNet: Regularised Residual Learning for MR Image Reconstruction of Undersampled Cartesian and Radial Data ( http://arxiv.org/abs/2103.09203v1 )

ライセンス: Link先を確認
Soumick Chatterjee, Mario Breitkopf, Chompunuch Sarasaen, Hadya Yassin, Georg Rose, Andreas N\"urnberger and Oliver Speck(参考訳) MRIは本質的に遅いプロセスであり、高解像度画像の長時間のスキャンに繋がる。 データの一部(アンダーサンプリング)を無視して取得速度を上げることができる。 これにより、解像度の低下や画像アーティファクトの導入など、画質の低下につながる。 本研究の目的は,高度にアンサンプされたカルテシアンまたはラジアルMRの取得を,圧縮センシングのような従来の技術に比べて高解像度で再現することである。 近年では、ディープラーニングが研究の非常に重要な領域として現れ、逆問題(例えば、逆問題)を解く大きな可能性を示している。 mr画像再構成。 本稿では,ネットワークバックボーンとしてResNetの正規化バージョンを改良し,アンダーサンプル画像からアーティファクトを除去する,深層学習に基づくMR画像再構成フレームワークを提案する。 様々なアンダーサンプリングパターンに対するこのフレームワークの性能もテストされており、トレーニング中に混合しても様々なサンプリングパターンを処理するのに頑健であり、高いssim(加速係数 3.5 の 0.990$\pm$0.006 が最も高い)という観点で、完全なサンプル再構成と比較しながら、非常に高品質な再構築が行われることが観察されている。 提案手法は, カルテシアン (0.968$\pm$0.005) とラジアル (0.962$\pm$0.012) のデータに対して 20 の加速係数に対しても, 正常に再構成可能であることが示されている。 さらに,健常者を対象にトレーニングを行いながら,再建中の脳病理を保存できることが示されている。

MRI is an inherently slow process, which leads to long scan time for high-resolution imaging. The speed of acquisition can be increased by ignoring parts of the data (undersampling). Consequently, this leads to the degradation of image quality, such as loss of resolution or introduction of image artefacts. This work aims to reconstruct highly undersampled Cartesian or radial MR acquisitions, with better resolution and with less to no artefact compared to conventional techniques like compressed sensing. In recent times, deep learning has emerged as a very important area of research and has shown immense potential in solving inverse problems, e.g. MR image reconstruction. In this paper, a deep learning based MR image reconstruction framework is proposed, which includes a modified regularised version of ResNet as the network backbone to remove artefacts from the undersampled image, followed by data consistency steps that fusions the network output with the data already available from undersampled k-space in order to further improve reconstruction quality. The performance of this framework for various undersampling patterns has also been tested, and it has been observed that the framework is robust to deal with various sampling patterns, even when mixed together while training, and results in very high quality reconstruction, in terms of high SSIM (highest being 0.990$\pm$0.006 for acceleration factor of 3.5), while being compared with the fully sampled reconstruction. It has been shown that the proposed framework can successfully reconstruct even for an acceleration factor of 20 for Cartesian (0.968$\pm$0.005) and 17 for radially (0.962$\pm$0.012) sampled data. Furthermore, it has been shown that the framework preserves brain pathology during reconstruction while being trained on healthy subjects.
翻訳日:2021-03-17 13:18:47 公開日:2021-03-16
# 並列時間アルゴリズムをエミュレートする並列ニューラルネットワーク

Parareal Neural Networks Emulating a Parallel-in-time Algorithm ( http://arxiv.org/abs/2103.08802v1 )

ライセンス: Link先を確認
Chang-Ock Lee, Youngkyu Lee, and Jongho Park(参考訳) ディープニューラルネットワーク(DNN)が深まるにつれて、トレーニング時間が増加する。 この観点から、マルチGPU並列コンピューティングは、DNNのトレーニングを加速する重要なツールとなっている。 本稿では,与えられたdnnから複数のgpuを同時に利用できる並列ニューラルネットワークを構築するための新しい手法を提案する。 DNNの層は時間依存問題の時間ステップとして解釈でき、パラリアルと呼ばれる並列時間アルゴリズムをエミュレートすることで並列化できる。 パラリアルアルゴリズムは、並列に実装できる微細構造と、その微細構造に適切な近似を与える粗い構造とから構成される。 これをエミュレートすることで、DNNの層は破れ、適切な粗いネットワークで接続された並列構造を形成する。 本稿では,VGG-16とResNet-1001に適用した提案手法の高速化と精度保存結果について報告する。

As deep neural networks (DNNs) become deeper, the training time increases. In this perspective, multi-GPU parallel computing has become a key tool in accelerating the training of DNNs. In this paper, we introduce a novel methodology to construct a parallel neural network that can utilize multiple GPUs simultaneously from a given DNN. We observe that layers of DNN can be interpreted as the time step of a time-dependent problem and can be parallelized by emulating a parallel-in-time algorithm called parareal. The parareal algorithm consists of fine structures which can be implemented in parallel and a coarse structure which gives suitable approximations to the fine structures. By emulating it, the layers of DNN are torn to form a parallel structure which is connected using a suitable coarse network. We report accelerated and accuracy-preserved results of the proposed methodology applied to VGG-16 and ResNet-1001 on several datasets.
翻訳日:2021-03-17 13:18:13 公開日:2021-03-16
# 確率的宇宙飛行キャンペーン設計のための階層的強化学習フレームワーク

Hierarchical Reinforcement Learning Framework for Stochastic Spaceflight Campaign Design ( http://arxiv.org/abs/2103.08981v1 )

ライセンス: Link先を確認
Yuji Takubo, Hao Chen, and Koki Ho(参考訳) 本稿では,多ミッション宇宙飛行計画のための階層的強化学習アーキテクチャを,車両設計,インフラ配置計画,宇宙輸送スケジューリングなど不確実性の下で開発する。 この問題は高次元の設計空間を伴い、特に不確実性が存在する場合には困難である。 この課題に対処するために開発されたフレームワークは、強化学習(RL)とネットワークベースの混合整数線形プログラミング(MILP)を備えた階層構造を持ち、前者はキャンペーンレベルの決定(例えば、キャンペーン全体で使用される車両の設計、キャンペーンの各ミッションに割り当てられた目的地要求)を最適化し、後者は詳細なミッションレベルの決定(例えば、どの場所からどこに打ち上げるか)を最適化する。 本フレームワークは,不確実な資源利用(ISRU)性能を事例として,月面探査の一連のシナリオに適用した。 この研究の主な価値は、急速に成長しているrl研究と既存のmilpベースの宇宙ロジスティクス手法を統合することである。 私たちは、このユニークなフレームワークが、宇宙ミッション設計のための人工知能の新たな研究方向性の足掛かりになることを期待しています。

This paper develops a hierarchical reinforcement learning architecture for multi-mission spaceflight campaign design under uncertainty, including vehicle design, infrastructure deployment planning, and space transportation scheduling. This problem involves a high-dimensional design space and is challenging especially with uncertainty present. To tackle this challenge, the developed framework has a hierarchical structure with reinforcement learning (RL) and network-based mixed-integer linear programming (MILP), where the former optimizes campaign-level decisions (e.g., design of the vehicle used throughout the campaign, destination demand assigned to each mission in the campaign), whereas the latter optimizes the detailed mission-level decisions (e.g., when to launch what from where to where). The framework is applied to a set of human lunar exploration campaign scenarios with uncertain in-situ resource utilization (ISRU) performance as a case study. The main value of this work is its integration of the rapidly growing RL research and the existing MILP-based space logistics methods through a hierarchical framework to handle the otherwise intractable complexity of space mission design under uncertainty. We expect this unique framework to be a critical steppingstone for the emerging research direction of artificial intelligence for space mission design.
翻訳日:2021-03-17 13:18:00 公開日:2021-03-16
# HPCワークロードのインテリジェントコロケーション

Intelligent colocation of HPC workloads ( http://arxiv.org/abs/2103.09019v1 )

ライセンス: Link先を確認
Felippe V. Zacarias (1, 2 and 3), Vinicius Petrucci (1 and 5), Rajiv Nishtala (4), Paul Carpenter (3) and Daniel Moss\'e (5) ((1) Universidade Federal da Bahia, (2) Universitat Polit\`ecnica de Catalunya, (3) Barcelona Supercomputing Center, (4) Coop, Norway/Norwegian University of Science and Technology, Norway, (5) University of Pittsburgh)(参考訳) 多くのHPCアプリケーションは、共有キャッシュ、命令実行ユニット、I/O、メモリ帯域のボトルネックに悩まされている。 開発者やランタイムシステムにとって、すべての重要なリソースが単一のアプリケーションによって完全に悪用されることを保証するのは難しいため、hpcシステムの利用を増やすための魅力的なテクニックは、複数のアプリケーションを同じサーバに配置することである。 しかし、アプリケーションが重要なリソースを共有する場合、共有リソースの競合はアプリケーションのパフォーマンスを低下させる可能性がある。 本稿では,まず,ハードウェア性能カウンタに基づくコロケーションアプリケーションの性能劣化をモデル化し,そのモデルを利用してコロケーションアプリケーションの最適混合を決定することにより,サーバ効率を向上できることを示す。 本稿では,(1)ハードウェアカウンタに基づくコロケーションアプリケーションの性能低下を予測するための新しい機械学習モデル,(2)既存のリソースマネージャにデプロイされたインテリジェントスケジューリングスキームにより,パフォーマンス低下を最小限に抑えるアプリケーション共スケジュールを可能にすること,などを提案する。 その結果,従来のジョブマネージャが採用する標準的なポリシーと比較して7% (avg) と12% (max) のパフォーマンス改善を達成できた。

Many HPC applications suffer from a bottleneck in the shared caches, instruction execution units, I/O or memory bandwidth, even though the remaining resources may be underutilized. It is hard for developers and runtime systems to ensure that all critical resources are fully exploited by a single application, so an attractive technique for increasing HPC system utilization is to colocate multiple applications on the same server. When applications share critical resources, however, contention on shared resources may lead to reduced application performance. In this paper, we show that server efficiency can be improved by first modeling the expected performance degradation of colocated applications based on measured hardware performance counters, and then exploiting the model to determine an optimized mix of colocated applications. This paper presents a new intelligent resource manager and makes the following contributions: (1) a new machine learning model to predict the performance degradation of colocated applications based on hardware counters and (2) an intelligent scheduling scheme deployed on an existing resource manager to enable application co-scheduling with minimum performance degradation. Our results show that our approach achieves performance improvements of 7% (avg) and 12% (max) compared to the standard policy commonly used by existing job managers.
翻訳日:2021-03-17 13:17:38 公開日:2021-03-16
# (参考訳) OkwuGb\'e: FonとIgboのエンドツーエンド音声認識

OkwuGb\'e: End-to-End Speech Recognition for Fon and Igbo ( http://arxiv.org/abs/2103.07762v2 )

ライセンス: CC BY 4.0
Bonaventure F. P. Dossou and Chris C. Emezue(参考訳) 言語は人間のコミュニケーションには本質的に必須である。 書き言葉か話し言葉かにかかわらず、同じ地域の人々と異なる地域の人々の間での理解が保証される。 NLP研究に低リソース言語を取り入れることへの認識と努力が高まり、近年、アフリカ言語は機械翻訳やその他のNLPのテキストベースの分野の研究の中心となっている。 しかし、いまだにアフリカの言語の音声認識に匹敵する研究は少ない。 興味深いことに、nlpに影響を及ぼすアフリカ語の特徴、例えばダイアクリティカルや声調の複合性は、言語の主要な根源であり、注意深い音声解釈は、テキストベースのnlpのためのアフリカの言語の言語的複雑さに対処するためのより直感的な方法をもたらす可能性があることを示唆している。 OkwuGb\'eは、アフリカの低リソース言語のための音声認識システムを構築するためのステップである。 Fon と Igbo をケーススタディとして,各言語の包括的言語分析を行い,両言語間のエンドツーエンド,ディープニューラルネットワークに基づく音声認識モデルの作成について述べる。 本稿では,Fon の最先端 ASR モデルと Igbo のベンチマーク ASR モデルについて述べる。 我々の言語分析(FonとIgbo)は、他のアフリカの低リソース言語のための音声認識モデルの作成に関する貴重な洞察とガイダンスを提供し、FonとIgboの今後のNLP研究をガイドする。 FonとIgboモデルのソースコードが公開されている。

Language is inherent and compulsory for human communication. Whether expressed in a written or spoken way, it ensures understanding between people of the same and different regions. With the growing awareness and effort to include more low-resourced languages in NLP research, African languages have recently been a major subject of research in machine translation, and other text-based areas of NLP. However, there is still very little comparable research in speech recognition for African languages. Interestingly, some of the unique properties of African languages affecting NLP, like their diacritical and tonal complexities, have a major root in their speech, suggesting that careful speech interpretation could provide more intuition on how to deal with the linguistic complexities of African languages for text-based NLP. OkwuGb\'e is a step towards building speech recognition systems for African low-resourced languages. Using Fon and Igbo as our case study, we conduct a comprehensive linguistic analysis of each language and describe the creation of end-to-end, deep neural network-based speech recognition models for both languages. We present a state-of-art ASR model for Fon, as well as benchmark ASR model results for Igbo. Our linguistic analyses (for Fon and Igbo) provide valuable insights and guidance into the creation of speech recognition models for other African low-resourced languages, as well as guide future NLP research for Fon and Igbo. The Fon and Igbo models source code have been made publicly available.
翻訳日:2021-03-17 12:53:45 公開日:2021-03-16
# (参考訳) ゼロショットクロスリンガルインテント予測とスロットフィリングのための多言語コードスイッチング

Multilingual Code-Switching for Zero-Shot Cross-Lingual Intent Prediction and Slot Filling ( http://arxiv.org/abs/2103.07792v2 )

ライセンス: CC BY 4.0
Jitin Krishnan, Antonios Anastasopoulos, Hemant Purohit, and Huzefa Rangwala(参考訳) テキストからユーザ意図を予測し、対応するスロットを検出することは、自然言語理解(NLU)における2つの重要な問題である。 ゼロショット学習の文脈では、このタスクは通常、mBERTのような事前訓練された多言語変換器の表現を使用するか、または、ソースデータを既知のターゲット言語に翻訳し、微調整することでアプローチされる。 私たちの研究は、トレーニング中にターゲット言語が不明な特定のシナリオに焦点を当てています。 そこで本研究では, ダウンストリームタスクを微調整する際に, トランスフォーマの言語中立性を高めるために, ランダム翻訳による多言語コードスイッチを用いた単言語データ拡張手法を提案する。 この方法は、世界中の異なる言語家族とのコードスイッチングがターゲット言語のパフォーマンスにどのように影響するかという、新しい洞察の発見にも役立ちます。 MultiATIS++のベンチマークデータセットの実験では、インテントタスクの精度が+4.2%向上し、スロットタスクの+1.8%向上した。 また,ハイチ大震災時に収集された英語とハイチクレオール語のスロット充満に関する新しい人間注釈ツイートデータセットを用いて,危機情報学の手法を適用した。

Predicting user intent and detecting the corresponding slots from text are two key problems in Natural Language Understanding (NLU). In the context of zero-shot learning, this task is typically approached by either using representations from pre-trained multilingual transformers such as mBERT, or by machine translating the source data into the known target language and then fine-tuning. Our work focuses on a particular scenario where the target language is unknown during training. To this goal, we propose a novel method to augment the monolingual source data using multilingual code-switching via random translations to enhance a transformer's language neutrality when fine-tuning it for a downstream task. This method also helps discover novel insights on how code-switching with different language families around the world impact the performance on the target language. Experiments on the benchmark dataset of MultiATIS++ yielded an average improvement of +4.2% in accuracy for intent task and +1.8% in F1 for slot task using our method over the state-of-the-art across 8 different languages. Furthermore, we present an application of our method for crisis informatics using a new human-annotated tweet dataset of slot filling in English and Haitian Creole, collected during Haiti earthquake disaster.
翻訳日:2021-03-17 12:28:25 公開日:2021-03-16
# (参考訳) MLベースのシステムのためのソフトウェアアーキテクチャ - 既存のものと、その先にあるもの

Software Architecture for ML-based Systems: What Exists and What Lies Ahead ( http://arxiv.org/abs/2103.07950v2 )

ライセンス: CC BY 4.0
Henry Muccini and Karthik Vaidhyanathan(参考訳) 機械学習(ML)の利用の増加と、現代のソフトウェアアーキテクチャの課題が組み合わさって、MLベースのシステムのためのソフトウェアアーキテクチャ、MLベースのソフトウェアシステムを開発するためのアーキテクチャ技術開発に焦点を当てたソフトウェアアーキテクチャのためのソフトウェアアーキテクチャ、そして、従来のソフトウェアシステムを構築するためのML技術の開発に焦点を当てたソフトウェアアーキテクチャのためのMLの2つの広い研究領域が生まれた。 本研究では、MLベースのソフトウェアシステムを設計する現在のシナリオに存在するさまざまなアーキテクチャプラクティスを強調することを目的として、スペクトルの以前の側面に焦点を当てる。 MLベースのソフトウェアシステムを設計するための標準的なプラクティスセットをより適切に定義するために、MLとソフトウェア実践者の双方の注意を必要とするソフトウェアアーキテクチャの4つの重要な領域を特定します。 これらの領域は、イタリア最大の博物館のひとつでキュー処理の課題を解決するために、MLベースのソフトウェアシステムを設計した経験を踏まえたものです。

The increasing usage of machine learning (ML) coupled with the software architectural challenges of the modern era has resulted in two broad research areas: i) software architecture for ML-based systems, which focuses on developing architectural techniques for better developing ML-based software systems, and ii) ML for software architectures, which focuses on developing ML techniques to better architect traditional software systems. In this work, we focus on the former side of the spectrum with a goal to highlight the different architecting practices that exist in the current scenario for architecting ML-based software systems. We identify four key areas of software architecture that need the attention of both the ML and software practitioners to better define a standard set of practices for architecting ML-based software systems. We base these areas in light of our experience in architecting an ML-based software system for solving queuing challenges in one of the largest museums in Italy.
翻訳日:2021-03-17 11:53:02 公開日:2021-03-16
# (参考訳) S$^*$:マルチゴール経路探索のためのヒューリスティック情報に基づく近似フレームワーク

S$^*$: A Heuristic Information-Based Approximation Framework for Multi-Goal Path Finding ( http://arxiv.org/abs/2103.08155v2 )

ライセンス: CC BY 4.0
Kenny Chour, Sivakumar Rathinam, Ramamoorthi Ravi(参考訳) 移動セールスマン問題に対する一方向および双方向のヒューリスティック探索のアイデアと近似アルゴリズムを組み合わせて,2近似保証を提供する多方向経路探索(mgpf)問題の新たな枠組みを開発する。 mgpfは、特定の目標セット内の各ノードがその経路に沿って少なくとも1回訪問されるように、原点から目的地までの最小コストのパスを見つけることを目指している。 本稿では,拡張ノード数と実行時間の観点から,従来の代替フレームワークと比較して,フレームワークの利点を数値的に示す。

We combine ideas from uni-directional and bi-directional heuristic search, and approximation algorithms for the Traveling Salesman Problem, to develop a novel framework for a Multi-Goal Path Finding (MGPF) problem that provides a 2-approximation guarantee. MGPF aims to find a least-cost path from an origin to a destination such that each node in a given set of goals is visited at least once along the path. We present numerical results to illustrate the advantages of our framework over conventional alternates in terms of the number of expanded nodes and run time.
翻訳日:2021-03-17 11:34:21 公開日:2021-03-16
# 乗算活性化雑音を持つニューラルネットワークのサンプリング不要変分推定

Sampling-free Variational Inference for Neural Networks with Multiplicative Activation Noise ( http://arxiv.org/abs/2103.08497v2 )

ライセンス: Link先を確認
Jannik Schmitt and Stefan Roth(参考訳) ニューラルネットワークを安全クリティカルな領域に導入するには、その予測を信頼できるかどうかを知ることが重要です。 ベイズニューラルネットワーク(BNN)は、後部重み分布に対する平均的な予測によって不確実性の推定を提供する。 BNNの変分推定法は, トラクタブル分布とトラクタブル分布とを近似するが, トレーニングや推論において, 変分分布のサンプリングに大きく依存する。 最近のサンプリングフリーアプローチは代替手段を提供するが、かなりのパラメーターオーバーヘッドをもたらす。 本稿では,多乗的ガウスアクティベーションノイズによる分布に依存するサンプリング不要な変分推定のための後方近似のより効率的なパラメータ化を提案する。 これにより、パラメータ効率とサンプリング不要な変分推論の利点を組み合わせることができる。 提案手法は,イメージネットを含む大規模画像分類タスクに対して,標準回帰問題に対する競合的な結果をもたらす。

To adopt neural networks in safety critical domains, knowing whether we can trust their predictions is crucial. Bayesian neural networks (BNNs) provide uncertainty estimates by averaging predictions with respect to the posterior weight distribution. Variational inference methods for BNNs approximate the intractable weight posterior with a tractable distribution, yet mostly rely on sampling from the variational distribution during training and inference. Recent sampling-free approaches offer an alternative, but incur a significant parameter overhead. We here propose a more efficient parameterization of the posterior approximation for sampling-free variational inference that relies on the distribution induced by multiplicative Gaussian activation noise. This allows us to combine parameter efficiency with the benefits of sampling-free variational inference. Our approach yields competitive results for standard regression problems and scales well to large-scale image classification tasks including ImageNet.
翻訳日:2021-03-17 11:17:49 公開日:2021-03-16
# 特徴依存ラベルノイズによる学習の進歩的アプローチ

Learning with Feature-Dependent Label Noise: A Progressive Approach ( http://arxiv.org/abs/2103.07756v2 )

ライセンス: Link先を確認
Yikai Zhang, Songzhu Zheng, Pengxiang Wu, Mayank Goswami, Chao Chen(参考訳) ラベルノイズは、現実世界の大規模データセットで頻繁に観測される。 ノイズは様々な理由で導入され、不均一で特徴に依存している。 ノイズラベルを扱う既存のアプローチのほとんどは、理想的な機能非依存のノイズを仮定するか、理論的保証なしにヒューリスティックであるかの2つのカテゴリに分類される。 本稿では,一般的なi.i.d.よりもはるかに一般的な特徴依存ラベルノイズの新たなファミリーを対象とする。 ノイズをラベル付けし、幅広いノイズパターンを包含する。 本稿では,この一般ノイズファミリーに着目し,ラベルを反復的に修正し,モデルを洗練するプログレッシブラベル補正アルゴリズムを提案する。 我々は、様々な(未知)ノイズパターンに対して、この戦略で訓練された分類器がベイズ分類器と一致するように収束することを示す理論的保証を提供する。 実験では,sotaベースラインを上回り,様々なノイズタイプやレベルに対して頑健である。

Label noise is frequently observed in real-world large-scale datasets. The noise is introduced due to a variety of reasons; it is heterogeneous and feature-dependent. Most existing approaches to handling noisy labels fall into two categories: they either assume an ideal feature-independent noise, or remain heuristic without theoretical guarantees. In this paper, we propose to target a new family of feature-dependent label noise, which is much more general than commonly used i.i.d. label noise and encompasses a broad spectrum of noise patterns. Focusing on this general noise family, we propose a progressive label correction algorithm that iteratively corrects labels and refines the model. We provide theoretical guarantees showing that for a wide variety of (unknown) noise patterns, a classifier trained with this strategy converges to be consistent with the Bayes classifier. In experiments, our method outperforms SOTA baselines and is robust to various noise types and levels.
翻訳日:2021-03-17 11:17:34 公開日:2021-03-16
# 解釈可能な深層強化学習のための記号規則の学習

Learning Symbolic Rules for Interpretable Deep Reinforcement Learning ( http://arxiv.org/abs/2103.08228v2 )

ライセンス: Link先を確認
Zhihao Ma, Yuzheng Zhuang, Paul Weng, Hankz Hankui Zhuo, Dong Li, Wulong Liu, Jianye Hao(参考訳) 近年の深部強化学習(DRL)の進歩は,ニューラルネットワークの利用によるところが大きい。 しかし、このブラックボックスアプローチは、学習したポリシーを人間の理解可能な方法で説明できない。 この課題に対処し、透明性を向上させるために、DRLにシンボリックロジックを導入し、ニューラルシンボリック強化学習フレームワークを提案する。 このフレームワークは推論と学習モジュールの受精を特徴とし、事前に象徴的な知識を持つエンドツーエンドの学習を可能にする。 さらに、推論モジュールによって学習された論理規則を記号規則空間に抽出することにより、解釈可能性を達成する。 実験結果から,我々のフレームワークは,最先端のアプローチと比較して,より優れた解釈性を持つことがわかった。

Recent progress in deep reinforcement learning (DRL) can be largely attributed to the use of neural networks. However, this black-box approach fails to explain the learned policy in a human understandable way. To address this challenge and improve the transparency, we propose a Neural Symbolic Reinforcement Learning framework by introducing symbolic logic into DRL. This framework features a fertilization of reasoning and learning modules, enabling end-to-end learning with prior symbolic knowledge. Moreover, interpretability is achieved by extracting the logical rules learned by the reasoning module in a symbolic rule space. The experimental results show that our framework has better interpretability, along with competing performance in comparison to state-of-the-art approaches.
翻訳日:2021-03-17 11:17:19 公開日:2021-03-16
# Refer-it-in-RGBD:RGBD画像における3次元視覚グラウンドのボトムアップアプローチ

Refer-it-in-RGBD: A Bottom-up Approach for 3D Visual Grounding in RGBD Images ( http://arxiv.org/abs/2103.07894v2 )

ライセンス: Link先を確認
Haolin Liu, Anran Lin, Xiaoguang Han, Lei Yang, Yizhou Yu, Shuguang Cui(参考訳) RGBD画像における接地参照表現は新たな分野である。 本稿では,参照する物体が閉塞により部分的にスキャンされる場合が多い単視点rgbd画像における3次元視覚グランド化の新たな課題を提案する。 3Dシーンに接地するためのオブジェクト提案を直接生成する従来の作業とは対照的に,コンテキスト認識情報を段階的に集約するボトムアップ手法を提案し,部分幾何学による課題に効果的に対処する。 我々のアプローチは、まず言語と視覚機能をボトムレベルに融合させ、rgbdイメージ内の関連領域を粗くローカライズするヒートマップを生成する。 次に、ヒートマップに基づく適応的特徴学習を行い、他のビジオ言語融合とオブジェクトレベルのマッチングを行い、最後に参照したオブジェクトを接地する。 提案手法は,ScanReferデータセットから抽出したRGBD画像と新たに収集したSUNReferデータセットとを比較して評価する。 実験により,本手法は両方のデータセットにおいて従来手法よりも大きな差(11.2%,15.6%Acc@0.5)を示した。

Grounding referring expressions in RGBD image has been an emerging field. We present a novel task of 3D visual grounding in single-view RGBD image where the referred objects are often only partially scanned due to occlusion. In contrast to previous works that directly generate object proposals for grounding in the 3D scenes, we propose a bottom-up approach to gradually aggregate context-aware information, effectively addressing the challenge posed by the partial geometry. Our approach first fuses the language and the visual features at the bottom level to generate a heatmap that coarsely localizes the relevant regions in the RGBD image. Then our approach conducts an adaptive feature learning based on the heatmap and performs the object-level matching with another visio-linguistic fusion to finally ground the referred object. We evaluate the proposed method by comparing to the state-of-the-art methods on both the RGBD images extracted from the ScanRefer dataset and our newly collected SUNRefer dataset. Experiments show that our method outperforms the previous methods by a large margin (by 11.2% and 15.6% Acc@0.5) on both datasets.
翻訳日:2021-03-17 11:17:09 公開日:2021-03-16
# Modular Interactive Video Object Segmentation: Interaction-to-Mask, Propagation and difference-Aware Fusion

Modular Interactive Video Object Segmentation: Interaction-to-Mask, Propagation and Difference-Aware Fusion ( http://arxiv.org/abs/2103.07941v2 )

ライセンス: Link先を確認
Ho Kei Cheng, Yu-Wing Tai, Chi-Keung Tang(参考訳) マスク間相互作用とマスク伝搬を分離し,より高い一般化性と性能を実現するモジュール型対話型VOS(MiVOS)フレームワークを提案する。 個別にトレーニングされたインタラクションモジュールは,ユーザインタラクションをオブジェクトマスクに変換して,時空間メモリを読み取るための新しいトップ-k$フィルタ戦略を用いて,伝搬モジュールによって時間的に伝搬する。 ユーザの意図を効果的に考慮した新たな差分認識モジュールを提案し、時空メモリを用いて、対象フレームにアライメントされた各インタラクションの前後に適切にマスクを融合する方法を学習する。 我々は,DAVISにおけるユーザインタラクションの異なる形態(例えば,スクリブル,クリック)で定性的かつ定量的に評価し,フレームインタラクションを少なくしながら,現在の最先端アルゴリズムよりも優れていることを示す。 我々は,4.8Mフレームの画素精度を向上した大規模な合成VOSデータセットを,ソースコードに付随して提供し,今後の研究を促進する。

We present Modular interactive VOS (MiVOS) framework which decouples interaction-to-mask and mask propagation, allowing for higher generalizability and better performance. Trained separately, the interaction module converts user interactions to an object mask, which is then temporally propagated by our propagation module using a novel top-$k$ filtering strategy in reading the space-time memory. To effectively take the user's intent into account, a novel difference-aware module is proposed to learn how to properly fuse the masks before and after each interaction, which are aligned with the target frames by employing the space-time memory. We evaluate our method both qualitatively and quantitatively with different forms of user interactions (e.g., scribbles, clicks) on DAVIS to show that our method outperforms current state-of-the-art algorithms while requiring fewer frame interactions, with the additional advantage in generalizing to different types of user interactions. We contribute a large-scale synthetic VOS dataset with pixel-accurate segmentation of 4.8M frames to accompany our source codes to facilitate future research.
翻訳日:2021-03-17 11:16:49 公開日:2021-03-16
# TransFG: 微粒化認識のためのトランスフォーマーアーキテクチャ

TransFG: A Transformer Architecture for Fine-grained Recognition ( http://arxiv.org/abs/2103.07976v2 )

ライセンス: Link先を確認
Ju He, Jieneng Chen, Shuai Liu, Adam Kortylewski, Cheng Yang, Yutong Bai, Changhu Wang, Alan Yuille(参考訳) サブカテゴリからオブジェクトを認識することを目的とした細粒度視覚分類(FGVC)は、本質的に微妙なクラス間差のため非常に難しい課題である。 近年の研究では、最も差別的な画像領域の特定に焦点をあて、ネットワークの微妙なばらつきを捉える能力を改善するためにそれらに依存している。 これらの作業の多くは、バックボーンネットワークを再利用して、選択した領域の特徴を抽出することで実現している。 しかし、この戦略は必然的にパイプラインを複雑化し、提案された領域をオブジェクトの大部分を含むようプッシュする。 近年,視覚変換器 (ViT) は従来の分類課題において高い性能を示した。 トランスの自己アテンション機構は、すべてのパッチトークンを分類トークンにリンクする。 注意リンクの強さはトークンの重要性の指標として直感的に考えることができる。 そこで本研究では,トランスフォーマーの全ての生の注意重みを注意マップに統合し,ネットワークを効果的かつ正確に識別可能な画像パッチを選定し,それらの関係を計算するトランスフォーマーベースのフレームワークであるtransfgを提案する。 対照的な損失は、類似するサブクラスの特徴表現間の距離をさらに拡大するために適用される。 我々は、cub-200-2011、stanford cars、stanford dogs、nabirds、inat2017の5つの人気のあるきめ細かいベンチマーク実験を行い、transfgの価値を実証した。 モデルの理解を深めるための定性的な結果が提示される。

Fine-grained visual classification (FGVC) which aims at recognizing objects from subcategories is a very challenging task due to the inherently subtle inter-class differences. Recent works mainly tackle this problem by focusing on how to locate the most discriminative image regions and rely on them to improve the capability of networks to capture subtle variances. Most of these works achieve this by re-using the backbone network to extract features of selected regions. However, this strategy inevitably complicates the pipeline and pushes the proposed regions to contain most parts of the objects. Recently, vision transformer (ViT) shows its strong performance in the traditional classification task. The self-attention mechanism of the transformer links every patch token to the classification token. The strength of the attention link can be intuitively considered as an indicator of the importance of tokens. In this work, we propose a novel transformer-based framework TransFG where we integrate all raw attention weights of the transformer into an attention map for guiding the network to effectively and accurately select discriminative image patches and compute their relations. A contrastive loss is applied to further enlarge the distance between feature representations of similar sub-classes. We demonstrate the value of TransFG by conducting experiments on five popular fine-grained benchmarks: CUB-200-2011, Stanford Cars, Stanford Dogs, NABirds and iNat2017 where we achieve state-of-the-art performance. Qualitative results are presented for better understanding of our model.
翻訳日:2021-03-17 11:16:26 公開日:2021-03-16
# 回転座標の高速なグローバル最適回転平均化

Rotation Coordinate Descent for Fast Globally Optimal Rotation Averaging ( http://arxiv.org/abs/2103.08292v2 )

ライセンス: Link先を確認
\'Alvaro Parra, Shin-Fang Chng, Tat-Jun Chin, Anders Eriksson, Ian Reid(参考訳) 測定値の雑音レベルに関する穏やかな条件下では、回転平均化は強い双対性を満たすため、半有限計画法(SDP)緩和による大域的解が得られる。 しかし、SDPの一般的な解法は、適度な大きさの回転平均化の場合でさえ、実際にはかなり遅いため、特殊化アルゴリズムの開発は不可欠である。 本稿では,回転座標降下(RCD)と呼ばれる大域的最適性を実現する高速アルゴリズムを提案する。 半定値行列を行ごと更新することでSDPを解くブロック座標降下(BCD)とは異なり、RCDは繰り返しを通して全ての有効な回転を直接維持・更新する。 これにより、大きな密度の半定義行列を格納する必要がなくなる。 アルゴリズムの収束を数学的に証明し、様々な問題構成に関する最先端のグローバル手法よりも優れた効率を実証的に示す。 有効なローテーションを維持することで、さらなるスピードアップのために局所最適化ルーチンを組み込むことも容易になる。 さらに,本アルゴリズムは実装が容易であり,デモプログラムの補足資料も参照する。

Under mild conditions on the noise level of the measurements, rotation averaging satisfies strong duality, which enables global solutions to be obtained via semidefinite programming (SDP) relaxation. However, generic solvers for SDP are rather slow in practice, even on rotation averaging instances of moderate size, thus developing specialised algorithms is vital. In this paper, we present a fast algorithm that achieves global optimality called rotation coordinate descent (RCD). Unlike block coordinate descent (BCD) which solves SDP by updating the semidefinite matrix in a row-by-row fashion, RCD directly maintains and updates all valid rotations throughout the iterations. This obviates the need to store a large dense semidefinite matrix. We mathematically prove the convergence of our algorithm and empirically show its superior efficiency over state-of-the-art global methods on a variety of problem configurations. Maintaining valid rotations also facilitates incorporating local optimisation routines for further speed-ups. Moreover, our algorithm is simple to implement; see supplementary material for a demonstration program.
翻訳日:2021-03-17 11:16:01 公開日:2021-03-16
# 連続学習のための特徴共分散のNull空間における学習ネットワーク

Training Networks in Null Space of Feature Covariance for Continual Learning ( http://arxiv.org/abs/2103.07113v2 )

ライセンス: Link先を確認
Shipeng Wang, Xiaorong Li, Jian Sun, Zongben Xu(参考訳) 連続学習の設定では、ネットワークは一連のタスクで訓練され、破滅的な忘れ込みに悩まされる。 連続学習におけるネットワークの可塑性と安定性のバランスをとるため,本論文では,ネットワークパラメータを逐次最適化するadam-nsclと呼ばれる新しいネットワーク学習アルゴリズムを提案する。 まず,連続学習におけるネットワーク安定性と可塑性を両立させる2つの数学的条件を提案する。 これらに基づいて、Adamにより候補パラメータ更新を生成するネットワークトレーニングプロセスにおいて、候補パラメータ更新をすべての前のタスクの近似ヌル空間に投影することで、シーケンシャルタスクのためのネットワークトレーニングが簡単に実現できる。 近似ヌル空間は、各線形層に対する前のタスクの全ての入力特徴の非中心共分散行列に特異値分解を適用することで導出することができる。 効率のために、各タスクを学習した後、非中心共分散行列を漸進的に計算することができる。 また,各線形層における近似ヌル空間の合理性を実験的に検証する。 我々は,CIFAR-100とTinyImageNetのベンチマークデータセットを用いた連続学習のためのトレーニングネットワークにアプローチを適用し,提案手法が最先端の連続学習手法よりも優れているか,あるいは適合しているかを示唆した。

In the setting of continual learning, a network is trained on a sequence of tasks, and suffers from catastrophic forgetting. To balance plasticity and stability of network in continual learning, in this paper, we propose a novel network training algorithm called Adam-NSCL, which sequentially optimizes network parameters in the null space of previous tasks. We first propose two mathematical conditions respectively for achieving network stability and plasticity in continual learning. Based on them, the network training for sequential tasks can be simply achieved by projecting the candidate parameter update into the approximate null space of all previous tasks in the network training process, where the candidate parameter update can be generated by Adam. The approximate null space can be derived by applying singular value decomposition to the uncentered covariance matrix of all input features of previous tasks for each linear layer. For efficiency, the uncentered covariance matrix can be incrementally computed after learning each task. We also empirically verify the rationality of the approximate null space at each linear layer. We apply our approach to training networks for continual learning on benchmark datasets of CIFAR-100 and TinyImageNet, and the results suggest that the proposed approach outperforms or matches the state-ot-the-art continual learning approaches.
翻訳日:2021-03-17 11:15:45 公開日:2021-03-16
# オンラインDouble Oracle

Online Double Oracle ( http://arxiv.org/abs/2103.07780v2 )

ライセンス: Link先を確認
Le Cong Dinh, Yaodong Yang, Zheng Tian, Nicolas Perez Nieves, Oliver Slumbers, David Henry Mguni, Haitham Bou Ammar, Jun Wang(参考訳) アクションスペースが制限的に大きい戦略的ゲームを解くことは、経済学、コンピュータサイエンス、人工知能において、未解決のトピックである。 本稿では,2プレイヤーゼロサムゲームにおいて,純粋戦略の数が巨大あるいは無限であるような新たな学習アルゴリズムを提案する。 具体的には,オンライン学習のノンレグレット分析とゲーム理論のダブルオラクル手法を組み合わせる。 我々の方法 -- \emph{Online Double Oracle (ODO)} -- は、ゲームのサイズではなく、ナッシュ平衡の支持サイズに線形に依存する \emph{ Effective Strategy set} のサイズであるセルフプレイ設定において、$\mathcal{O}(\sqrt{T k \log(k)})$の後悔境界を達成する。 純粋戦略が3.936$のLeduc Pokerを含む数種類の現実世界ゲームにおいて、我々の手法は、Nash平衡への収束率と戦略的敵に対する平均ペイオフの両方において、非regretアルゴリズムと二重オラクル手法を大きなマージンで上回ります。

Solving strategic games whose action space is prohibitively large is a critical yet under-explored topic in economics, computer science and artificial intelligence. This paper proposes new learning algorithms in two-player zero-sum games where the number of pure strategies is huge or even infinite. Specifically, we combine no-regret analysis from online learning with double oracle methods from game theory. Our method -- \emph{Online Double Oracle (ODO)} -- achieves the regret bound of $\mathcal{O}(\sqrt{T k \log(k)})$ in self-play setting where $k$ is NOT the size of the game, but rather the size of \emph{effective strategy set} that is linearly dependent on the support size of the Nash equilibrium. On tens of different real-world games, including Leduc Poker that contains $3^{936}$ pure strategies, our methods outperform no-regret algorithms and double oracle methods by a large margin, both in convergence rate to Nash equilibrium and average payoff against strategic adversary.
翻訳日:2021-03-17 11:15:24 公開日:2021-03-16
# 1000対1:概念符号化のためのセマンティック事前モデリング

Thousand to One: Semantic Prior Modeling for Conceptual Coding ( http://arxiv.org/abs/2103.07131v2 )

ライセンス: Link先を確認
Jianhui Chang, Zhenghui Zhao, Lingbo Yang, Chuanmin Jia, Jian Zhang, Siwei Ma(参考訳) 概念符号化は近年,自然画像を圧縮のための非絡み合った概念表現に符号化する,新たな研究トピックとなっている。 しかし,速度制約や復元品質の総合的な考慮が欠如しているため,既存手法の圧縮性能は相変わらず最適である。 そこで本研究では, エントロピー推定とテクスチャ合成のための統一された事前表現として, セマンティックな深部表現を利用する, 極低ビットレート画像圧縮のための, モデリングに基づく概念符号化手法を提案する。 具体的には, 構造的ガイダンスとして意味セグメンテーションマップを用い, テクスチャの細粒度分布モデルを提供し, より詳細な構成と, 高レベルの視覚タスクの柔軟性を高める。 さらに、空間的に独立なセマンティック先行のチャネル間相関をさらに活用するために、チャネル間エントロピーモデルを提案し、より正確なエントロピー推定を行う。 提案手法は,視覚処理および解析タスクに対して高い視覚的再構成品質と汎用性を保ちながら,超高1000倍圧縮比を実現する。

Conceptual coding has been an emerging research topic recently, which encodes natural images into disentangled conceptual representations for compression. However, the compression performance of the existing methods is still sub-optimal due to the lack of comprehensive consideration of rate constraint and reconstruction quality. To this end, we propose a novel end-to-end semantic prior modeling-based conceptual coding scheme towards extremely low bitrate image compression, which leverages semantic-wise deep representations as a unified prior for entropy estimation and texture synthesis. Specifically, we employ semantic segmentation maps as structural guidance for extracting deep semantic prior, which provides fine-grained texture distribution modeling for better detail construction and higher flexibility in subsequent high-level vision tasks. Moreover, a cross-channel entropy model is proposed to further exploit the inter-channel correlation of the spatially independent semantic prior, leading to more accurate entropy estimation for rate-constrained training. The proposed scheme achieves an ultra-high 1000x compression ratio, while still enjoying high visual reconstruction quality and versatility towards visual processing and analysis tasks.
翻訳日:2021-03-17 11:15:03 公開日:2021-03-16
# TinyOL: マイクロコントローラのオンライン学習を備えたTinyML

TinyOL: TinyML with Online-Learning on Microcontrollers ( http://arxiv.org/abs/2103.08295v2 )

ライセンス: Link先を確認
Haoyu Ren, Darko Anicic and Thomas Runkler(参考訳) TinyML(Tiny Machine Learning)は、全普及型マイクロコントローラ(MCU)のためのディープラーニングの民主化を目指す、急速に成長している研究分野である。 TinyMLは電力、メモリ、計算の制約に悩まされ、ここ数年で大幅な進歩を遂げている。 しかし、現在のTinyMLソリューションはバッチ/オフライン設定に基づいており、MCUでのニューラルネットワークの推論のみをサポートする。 ニューラルネットワークは、まず、強力なマシン上の大量の事前コンパイルデータを使用してトレーニングされ、次にMCUにフラッシュされる。 これにより、静的モデル、新しいデータへの適応が難しく、さまざまなシナリオの調整が不可能になり、IoT(Internet of Things)の柔軟性を損なうことになる。 そこで本稿では,ストリーミングデータのインクリメンタル・オン・デバイス・トレーニングを実現するtinyml(tinyml with online-learning)という新しいシステムを提案する。 TinyOLはオンライン学習の概念に基づいており、制約付きIoTデバイスに適している。 オートエンコーダニューラルネットワークを用いて,教師なし,教師なしのセットアップでtinyolを実験した。 最後に,提案手法の性能を報告し,その有効性と実現可能性を示す。

Tiny machine learning (TinyML) is a fast-growing research area committed to democratizing deep learning for all-pervasive microcontrollers (MCUs). Challenged by the constraints on power, memory, and computation, TinyML has achieved significant advancement in the last few years. However, the current TinyML solutions are based on batch/offline settings and support only the neural network's inference on MCUs. The neural network is first trained using a large amount of pre-collected data on a powerful machine and then flashed to MCUs. This results in a static model, hard to adapt to new data, and impossible to adjust for different scenarios, which impedes the flexibility of the Internet of Things (IoT). To address these problems, we propose a novel system called TinyOL (TinyML with Online-Learning), which enables incremental on-device training on streaming data. TinyOL is based on the concept of online learning and is suitable for constrained IoT devices. We experiment TinyOL under supervised and unsupervised setups using an autoencoder neural network. Finally, we report the performance of the proposed solution and show its effectiveness and feasibility.
翻訳日:2021-03-17 11:14:40 公開日:2021-03-16
# 自己機能規則化:教師モデルのない自己機能蒸留

Self-Feature Regularization: Self-Feature Distillation Without Teacher Models ( http://arxiv.org/abs/2103.07350v2 )

ライセンス: Link先を確認
Wenxuan Fan, Zhenyan Hou(参考訳) 知識蒸留(英: knowledge distillation)は、知識を大きなモデルから小さなモデルに移す過程である。 この過程において、小モデルは、大模型の一般化能力を学び、大模型のそれに近い性能を維持する。 知識蒸留は、モデルの知識を移行し、モデルの展開を促進し、推論を高速化する訓練手段を提供する。 しかし、従来の蒸留法では、まだ計算と記憶のオーバーヘッドをもたらす事前訓練された教師モデルが必要である。 本稿では,深層の特徴を用いて浅層における特徴学習を監督し,より意味的な情報を保持する,セルフ・フィーチャー・レギュライゼーション(sfr)と呼ばれる新しい汎用学習フレームワークを提案する。 具体的には,まずEMD-l2損失を局所的な特徴に合わせるために利用し,チャネル次元においてより集中的に特徴を蒸留するための多対一のアプローチを提案する。 次に、出力層で動的ラベル平滑化を用い、よりよい性能を得る。 さらに,提案手法の有効性を示す実験を行った。

Knowledge distillation is the process of transferring the knowledge from a large model to a small model. In this process, the small model learns the generalization ability of the large model and retains the performance close to that of the large model. Knowledge distillation provides a training means to migrate the knowledge of models, facilitating model deployment and speeding up inference. However, previous distillation methods require pre-trained teacher models, which still bring computational and storage overheads. In this paper, a novel general training framework called Self-Feature Regularization~(SFR) is proposed, which uses features in the deep layers to supervise feature learning in the shallow layers, retains more semantic information. Specifically, we firstly use EMD-l2 loss to match local features and a many-to-one approach to distill features more intensively in the channel dimension. Then dynamic label smoothing is used in the output layer to achieve better performance. Experiments further show the effectiveness of our proposed framework.
翻訳日:2021-03-17 11:14:23 公開日:2021-03-16