このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210330となっている論文です。

PDF登録状況(公開日: 20210330)

TitleAuthorsAbstract論文公表日・翻訳日
# ニューロモルフィック量子コンピューティング

Neuromorphic quantum computing ( http://arxiv.org/abs/2005.01533v2 )

ライセンス: Link先を確認
Christian Pehle, Christof Wetterich(参考訳) 我々はニューロモーフィックコンピューティングが量子演算を実行できることを提案する。 活動状態またはサイレント状態のスパイキングニューロンは、イジングスピンの2つの状態に接続されている。 量子密度行列は、イジングスピンの期待値と相関から構成される。 量子計算へのステップとして、量子ゲートをニューラルネットワークのダイナミクスのパラメータの変化として学習できる2量子ビットシステムを示す。 我々の確率計算の提案は、遷移確率に基づくマルコフ連鎖を超えたものである。 古典的な確率分布の制約は、システムのある部分から他の部分への変化を、絡み合った量子系と同様に関連付ける。

We propose that neuromorphic computing can perform quantum operations. Spiking neurons in the active or silent states are connected to the two states of Ising spins. A quantum density matrix is constructed from the expectation values and correlations of the Ising spins. As a step towards quantum computation we show for a two qubit system that quantum gates can be learned as a change of parameters for neural network dynamics. Our proposal for probabilistic computing goes beyond Markov chains, which are based on transition probabilities. Constraints on classical probability distributions relate changes made in one part of the system to other parts, similar to entangled quantum systems.
翻訳日:2023-05-21 05:14:13 公開日:2021-03-30
# 開量子系への干渉的アプローチと非マルコフ力学

Interferometric Approach to Open Quantum Systems and Non-Markovian Dynamics ( http://arxiv.org/abs/2008.02826v2 )

ライセンス: Link先を確認
O. Siltanen, T. Kuusela, J. Piilo(参考訳) 我々は,オープンシステム干渉計の概念を導入して,オープン量子システムのダイナミクスと干渉とを組み合わせる。 光子の偏光(開放系)と周波数(環境)が相互作用するマッハ・ツェンダー干渉計の単一光子を考えることにより、干渉計の経路方向偏光の運動がマルコフ的であり、関節力学が非マルコフ的特徴を示すことを示す。 干渉計の外側と干渉のため、オープンシステムは、非マルコフ的メモリ効果を表示する1つのパスのみ、それらを個別に表示する2つのパス、あるいは全く現れないという、異なる選択肢を持つリッチな動的特徴を表示する。 また,光子経路の測定は,干渉計内外で行われるかによって,非マルコフ記憶効果を発生または破壊することができることを示した。 さらに、干渉計の外側の非マルコビアン性を調べることで干渉計内部の光路差を調べることができる。 この枠組みと干渉により,システムと環境の相互作用自体が誇張のみを含むとしても,オープンシステムダイナミクスに散逸的な特徴を導入することが可能となる。 一般に、実験結果は、オープン・システム・ダイナミクスの制御や量子物理学の基礎研究のための未研究の道である。

We combine the dynamics of open quantum systems with interferometry and interference introducing the concept of open system interferometer. By considering a single photon in a Mach-Zehnder interferometer, where the polarization (open system) and frequency (environment) of the photon interact, we theoretically show how inside the interferometer path-wise polarization dephasing dynamics is Markovian while the joint dynamics displays non-Markovian features. Outside the interferometer and due to interference, the open system displays rich dynamical features with distinct alternatives: Only one path displaying non-Markovian memory effects, both paths individually displaying them, or no memory effects appearing at all. Our results also illustrate that measuring the photon's path can either create or destroy non-Markovian memory effects depending on whether the measurement takes place in or outside the interferometer. Moreover, the scheme allows to probe the optical path difference inside the interferometer by studying non-Markovianity outside the interferometer. With our framework and interference, it is also possible to introduce dissipative features for the open system dynamics even though the system-environment interaction itself contains only dephasing. In general, the results open so far unexplored avenues to control open system dynamics and for fundamental studies of quantum physics.
翻訳日:2023-05-06 23:49:07 公開日:2021-03-30
# グレイコードによるハミルトニアン符号化の改善

Improving Hamiltonian encodings with the Gray code ( http://arxiv.org/abs/2008.05012v3 )

ライセンス: Link先を確認
Olivia Di Matteo, Anna McCoy, Peter Gysbers, Takayuki Miyagi, R. M. Woloshyn, Petr Navr\'atil(参考訳) 現在の量子ハードウェアの限界のため、利用可能なリソースを最大限に活用するアルゴリズムを設計することが特に重要である。 量子コンピュータ上で量子多体系をシミュレートするとき、多体ハミルトニアンを量子ビットハミルトニアンに変換する簡単なエンコーディングは、n$-qubitシステムの利用可能な基底状態のn$を使用するが、2^n$は理論上利用可能である。 我々は、基本状態全体を使用する効率的なエンコーディングを探索し、そこでハミルトニアン内の項をグレー符号順の基底状態で動作するハミルトニアンを持つキュービット演算子にマッピングする。 このエンコーディングは、シミュレートされた変分量子固有解器(VQE)を用いた重陽子の基底状態エネルギーを求める一般的な研究問題に適用される。 標準的な"ワンホット"エンコーディングと比較され、様々なトレードオフが分析される。 VQE溶液のエネルギー分布は, 測定数の増加にもかかわらず, 模擬ハードウェアノイズの存在下においても, ワンホット符号化により得られるものよりも分散が小さい。 qubitsの削減とより詳細な変分 ansatz により、現在のマシンでより大きな問題のエンコーディングが可能になる。 このエンコーディングは、同じシステムの時間発展をシミュレートする改善も示しており、深さが小さく、ゲート数のほぼ半分になる進化演算子の回路を、1つのホットエンコーディングと比較して生成する。

Due to the limitations of present-day quantum hardware, it is especially critical to design algorithms that make the best possible use of available resources. When simulating quantum many-body systems on a quantum computer, straightforward encodings that transform many-body Hamiltonians into qubit Hamiltonians use $N$ of the available basis states of an $N$-qubit system, whereas $2^N$ are in theory available. We explore an efficient encoding that uses the entire set of basis states, where terms in the Hamiltonian are mapped to qubit operators with a Hamiltonian that acts on the basis states in Gray code order. This encoding is applied to the commonly-studied problem of finding the ground state energy of a deuteron with a simulated variational quantum eigensolver (VQE). It is compared to a standard "one-hot" encoding, and various trade-offs that arise are analyzed. The energy distribution of VQE solutions has smaller variance than the one obtained by the one-hot encoding even in the presence of simulated hardware noise, despite an increase in the number of measurements. The reduced number of qubits and a shorter-depth variational ansatz enables the encoding of larger problems on current-generation machines. This encoding also demonstrates improvements for simulating time evolution of the same system, producing circuits for the evolution operators with reduced depth and roughly half the number of gates compared to a one-hot encoding.
翻訳日:2023-05-06 13:40:58 公開日:2021-03-30
# ガウスパルスを用いた広帯域$\Lambda$型量子メモリの最適化

Optimization of Broadband $\Lambda$-type Quantum Memory Using Gaussian Pulses ( http://arxiv.org/abs/2008.13638v4 )

ライセンス: Link先を確認
Kai Shinbrough, Benjamin Hunt, Virginia O. Lorenz(参考訳) 光量子メモリ-フォトニック量子状態を保存し、オンデマンドで取得する能力--は、新興の量子技術とフォトニック量子情報プロトコルにとって必須のリソースである。 高速かつ高効率なブロードバンド運用を実現することは,これらのアプリケーションを実現する上で重要な課題である。 本研究では,すべての光学場の時間的エンベロープがガウス的でなければならないという制約を伴って,$\lambda$-type レベル系のアンサンブルとの共振相互作用に基づく多種の光量子メモリプロトコルの最適化を行い,実験の複雑さを低減した。 重なり合う信号と制御フィールドには、メモリ効率を最適化する独自のブロードバンドパルス時間が存在し、この最適化された効率はプロトコル非依存のバウンダリに近くなることを示す。 さらに、制御フィールドの時間遅延とパルス持続時間を最適化し、この効率の飽和を幅広いパルス持続時間にわたって証明し、量子メモリ相互作用の基礎物理学を明確にする。

Optical quantum memory--the ability to store photonic quantum states and retrieve them on demand--is an essential resource for emerging quantum technologies and photonic quantum information protocols. Simultaneously achieving high efficiency and high-speed, broadband operation is an important task necessary for enabling these applications. In this work, we investigate the optimization of a large class of optical quantum memory protocols based on resonant interaction with ensembles of $\Lambda$-type level systems with the restriction that the temporal envelope of all optical fields must be Gaussian, which reduces experimental complexity. We show that for overlapping signal and control fields there exists a unique and broadband pulse duration that optimizes the memory efficiency, and that this optimized efficiency can be close to the protocol-independent bound. We further optimize over the control field temporal delay and pulse duration, demonstrating saturation of this efficiency bound over a broad range of pulse durations while clarifying the underlying physics of the quantum memory interaction.
翻訳日:2023-05-04 05:33:35 公開日:2021-03-30
# ユニタリテンソルネットワーク回路の最適化手法

Optimization schemes for unitary tensor-network circuit ( http://arxiv.org/abs/2009.02606v3 )

ライセンス: Link先を確認
Reza Haghshenas(参考訳) 本稿では,ネットワーク構造が異なるユニタリテンソルネットワーク回路の変動最適化について述べる。 このアンザッツは, 十分に開発された多スケールエンタングルメント正規化アルゴリズムの一般化と, 有効線探索による共役勾配法に基づく。 本稿では,強乱磁場とテンソルネットワーク$qr$-decompositionにおけるハイゼンベルクモデルを用いて,異なるネットワーク構造のベンチマーク計算を行う。

We discuss the variational optimization of a unitary tensor-network circuit with different network structures. The ansatz is performed based on a generalization of well-developed multi-scale entanglement renormalization algorithm and also the conjugate-gradient method with an effective line search. We present the benchmarking calculations for different network structures by studying the Heisenberg model in a strongly disordered magnetic field and a tensor-network $QR$-decomposition.
翻訳日:2023-05-03 18:42:10 公開日:2021-03-30
# 周期離散連続観測は連続でも離散でもない

Periodic discretized continuous observables are neither continuous nor discrete ( http://arxiv.org/abs/2009.05062v2 )

ライセンス: Link先を確認
Thais L. Silva, {\L}ukasz Rudnicki, Daniel S. Tasca, Stephen P. Walborn(参考訳) 非局所性や文脈性のような量子力学の基本的特徴のほとんどは、離散的な有限次元系に現れる。 しかし、これらの特性を利用する多くの量子情報タスクは、連続変数系に直接適応することはできない。 これらの量子的特徴にアクセスするために、連続量子変数はそれらの異なる値を結合することで離散化することができ、結果として有限個の「$d$」の結果を持つ観測可能となる。 直接測定はそれらの明らかな離散的な性質を確実に証明するが、ここでは相互不偏性( mutual unbiasedness)として知られる量子物理学の健全な特徴を用いて、粗い粒度の観測物が連続的でも離散的でもないことを意味する。 d$ によって、オブザーバブルは離散的または連続的な動作のいずれかを再現することができる。 これらの結果を説明するために, 連続変数系において, 相互に偏りのない4つの測定値が存在し, 互いに偏りのない連続変数の観測量を上回ることを確認する光学実験において, これらの測定値の構成の例を示す。

Most of the fundamental characteristics of quantum mechanics, such as non-locality and contextuality, are manifest in discrete, finite-dimensional systems. However, many quantum information tasks that exploit these properties cannot be directly adapted to continuous-variable systems. To access these quantum features, continuous quantum variables can be made discrete by binning together their different values, resulting in observables with a finite number "$d$" of outcomes. While direct measurement indeed confirms their manifestly discrete character, here we employ a salient feature of quantum physics known as mutual unbiasedness to show that such coarse-grained observables are in a sense neither continuous nor discrete. Depending on $d$, the observables can reproduce either the discrete or the continuous behavior, or neither. To illustrate these results, we present an example for the construction of such measurements and employ it in an optical experiment confirming the existence of four mutually unbiased measurements with $d = 3$ outcomes in a continuous variable system, surpassing the number of mutually unbiased continuous variable observables.
翻訳日:2023-05-03 00:38:38 公開日:2021-03-30
# su(2)変換による従来型および非慣習型非断熱幾何量子ゲートの実装

Implementing conventional and unconventional nonadiabatic geometric quantum gates via SU(2) transformations ( http://arxiv.org/abs/2010.02064v2 )

ライセンス: Link先を確認
Jian-jian Cheng and Lin Zhang(参考訳) 幾何学的量子計算のために時間依存ハミルトニアンを逆数に設計するための単純だが汎用的なプロトコルを提案する。 su(2)変換を利用することで、制御パラメータの設計の自由度を高めてゲート操作の高速化目標を達成する。 本プロトコルは, ダイヤモンド窒素空洞中心系におけるマイクロ波パルスを制御することにより, 所望の進化経路を持つ従来の非古典的量子ゲートを実現する。 逆設計のハミルトニアンは、より経済的な発展時間で幾何学的ゲートを満たし、さらに環境騒音がゲート忠実度に与える影響を減少させることができる。

We propose a simple but versatile protocol to engineer time-dependent Hamiltonians inversely for geometric quantum computation. By utilizing SU(2) transformation, a speedup goal on gate operation is achieved with more freedom to design the control parameters. As an application, this protocol enables the conventional and unconventional nonadiabatic geometric quantum gates with desired evolution paths by controlling the microwave pulses in the diamond nitrogen-vacancy center system. We show that the inversely designed Hamiltonian can fulfill the geometric gate with more economical evolution time and further reduces the influence of the environment noise on gate fidelity.
翻訳日:2023-04-29 22:36:25 公開日:2021-03-30
# 超伝導回路で実装した光子-インスタントンコライダー

Photon-instanton collider implemented by a superconducting circuit ( http://arxiv.org/abs/2010.02630v3 )

ライセンス: Link先を確認
Amir Burshtein, Roman Kuzmin, Vladimir E. Manucharyan, Moshe Goldstein(参考訳) 時空局在量子場トンネル現象であるインスタントンは、結合した凝縮物質と高エネルギー系においてユビキタスである。 しかし、従来の粒子との衝突による直接観測は不可能である。 回路量子力学の最近の進歩、特にトランスモン量子ビットの高インピーダンス伝送線へのガルバニックカップリングの実現は、単一マイクロ波光子と即時(位相スリップ)の非弾性衝突の観測を可能にしていることを示す。 我々は、他の量子場理論の文脈で有用であるはずの光子-インスタントン断面積を計算するフォーマリズムを開発する。 特に,非弾性散乱確率は,従来のジョセフソン質的非調和性の影響を大きく超え,秩序不均一値に達することを示す。

Instantons, spacetime-localized quantum field tunneling events, are ubiquitous in correlated condensed matter and high energy systems. However, their direct observation through collisions with conventional particles has not been considered possible. We show how recent advances in circuit quantum electrodynamics, specifically, the realization of galvanic coupling of a transmon qubit to a high-impedance transmission line, allows the observation of inelastic collisions of single microwave photons with instantons (phase slips). We develop a formalism for calculating the photon-instanton cross section, which should be useful in other quantum field theoretical contexts. In particular, we show that the inelastic scattering probability can significantly exceed the effect of conventional Josephson quartic anharmonicity, and reach order-unity values.
翻訳日:2023-04-29 20:24:07 公開日:2021-03-30
# 単線鉄道における鉄道派遣と競合管理最適化への量子コンピューティングアプローチ

Quantum computing approach to railway dispatching and conflict management optimization on single-track railway lines ( http://arxiv.org/abs/2010.08227v3 )

ライセンス: Link先を確認
Krzysztof Domino, M\'aty\'as Koniorczyk, Krzysztof Krawiec, Konrad Ja{\l}owiecki, Bart{\l}omiej Gardas(参考訳) 本研究では,単線鉄道における遅延と競合管理という,実用的な鉄道派遣問題を考える。 本稿では,すでに遅れている列車がセグメントに到着したことによる列車の発送結果の問題点について検討する。 この問題は計算が難しく、しばしばタイムリーに解く必要がある。 本稿では,量子アニーリング技術(quantum annealing technology)と相性のある,問題の二次的非拘束型二分最適化(qubo)モデルを提案する。 モデルのインスタンスは、現在の量子アニール上で実行できる。 概念実証として,d波量子アニーラを用いたポーランド鉄道網から選択した実生活問題を解決する。 参考として,コミュニティに関連するもの(線形整数プログラミング)や,qubo問題を解くためのテンソルネットワークに基づく洗練されたアルゴリズムなど,古典的手法で計算された解を提供する。

In this work, we consider a practical railway dispatching problem: delay and conflict management on a single-track railway line. We examine the issue of train dispatching consequences caused by the arrival of an already delayed train to the segment being considered. This problem is computationally hard and often needs to be solved timely. Here, we introduce a quadratic unconstrained binary optimization (QUBO) model of the problem in question, compatible with the emerging quantum annealing technology. The model's instances can be executed on present-day quantum annealers. As a proof-of-concept, we solve selected real-life problems from the Polish railway network using D-Wave quantum annealers. As a reference, we also provide solutions calculated with classical methods, including those relevant to the community (linear integer programming) and a sophisticated algorithm based on tensor networks for solving QUBO problems.
翻訳日:2023-04-28 22:12:10 公開日:2021-03-30
# 確率論的理論と量子理論の再構築 (Les Houches 2019 講演ノート)

Probabilistic Theories and Reconstructions of Quantum Theory (Les Houches 2019 lecture notes) ( http://arxiv.org/abs/2011.01286v4 )

ライセンス: Link先を確認
Markus P. Mueller(参考訳) これらの講義ノートは、一般化確率論(GPT)の枠組みの基礎と、簡単な操作原理から量子論(QT)の再構築のスケッチを提供する。 量子よりも物理がより一般的であることを示す直感を構築するために、超強非局所性と高次干渉という、qtを超える2つの想像可能な現象を提示する。 次に、GPTの枠組みを紹介し、量子的および古典的確率論の両方を一般化する。 最後に、トモグラフィー局所性、連続可逆性、サブスペース公理の原理からQTの再構築を要約します。 特に、なぜ量子ビットがブロッホ球によって記述されるのか、なぜ3次元なのか、そしてどのようにしてQTの通常の表現の複素数と作用素を得るのかを示す。

These lecture notes provide a basic introduction to the framework of generalized probabilistic theories (GPTs) and a sketch of a reconstruction of quantum theory (QT) from simple operational principles. To build some intuition for how physics could be even more general than quantum, I present two conceivable phenomena beyond QT: superstrong nonlocality and higher-order interference. Then I introduce the framework of GPTs, generalizing both quantum and classical probability theory. Finally, I summarize a reconstruction of QT from the principles of Tomographic Locality, Continuous Reversibility, and the Subspace Axiom. In particular, I show why a quantum bit is described by a Bloch ball, why it is three-dimensional, and how one obtains the complex numbers and operators of the usual representation of QT.
翻訳日:2023-04-26 01:33:04 公開日:2021-03-30
# 周期駆動非エルミート的Su-Schrieffer-Heeger模型の位相的側面

Topological aspects of periodically driven non-Hermitian Su-Schrieffer-Heeger model ( http://arxiv.org/abs/2011.06947v2 )

ライセンス: Link先を確認
Vivek M. Vyas and Dibyendu Roy(参考訳) 周期的外部ポテンシャルによって駆動されるSu-Schrieffer-Heegerモデルの非エルミート一般化について検討し,そのトポロジ的特徴について検討した。 双正則幾何位相は位相指標として機能し、ゼロモードの存在/存在をうまく捉えている。 このモデルは、自明かつ非自明な絶縁体相と、位相的に非自明なM${\"o}$bius金属相を示す。 このモデルでは、駆動磁場振幅が位相相転移を引き起こす制御パラメータであることが示されている。 系は非自明な絶縁体相とは別の金属相においてゼロモードを表示するが、絶縁相に見られるような金属零モードは堅牢ではない。 さらに、ゼロモードのエネルギーは非自明な絶縁相と比較してM${\"o}$bius金属相における二量体数の関数としてゆっくりとゼロに収束する。

A non-Hermitian generalization of the Su-Schrieffer-Heeger model driven by a periodic external potential is investigated, and its topological features are explored. We find that the bi-orthonormal geometric phase acts as a topological index, well capturing the presence/absence of the zero modes. The model is observed to display trivial and non-trivial insulator phases and a topologically non-trivial M${\"o}$bius metallic phase. The driving field amplitude is shown to be a control parameter causing topological phase transitions in this model. While the system displays zero modes in the metallic phase apart from the non-trivial insulator phase, the metallic zero modes are not robust, as the ones found in the insulating phase. We further find that zero modes' energy converges slowly to zero as a function of the number of dimers in the M${\"o}$bius metallic phase compared to the non-trivial insulating phase.
翻訳日:2023-04-24 05:28:39 公開日:2021-03-30
# 光子の重力デコヒーレンス

Gravitational decoherence of photons ( http://arxiv.org/abs/2011.08270v2 )

ライセンス: Link先を確認
Michalis Lagouvardos, Charis Anastopoulos(参考訳) 重力デコヒーレンスのモデルは、光子を含む超相対論的系には一般的に適用されない。 その結果、重力デコヒーレンスの量子光学的テストはほとんど開発されていない。 本稿では,anastopoulos と hu (arxiv:1305.5231) の重力デコヒーレンスモデルを光子に一般化する。 このモデルでは、デコヒーレンス(decoherence)は確率的重力摂動の浴槽に由来する。 我々は電磁場(EM)の一般状態に対するマスター方程式を導出し、唯一の自由パラメータは重力変動の雑音温度$\Theta$である。 近未来の実験でアクセス可能な、長いベースラインによる干渉実験は、原則として$\theta$の強い制約をもたらす。

Models of gravitational decoherence are not commonly applied to ultra-relativistic systems, including photons. As a result, few quantum optical tests of gravitational decoherence have been developed. In this paper, we generalize the gravitational decoherence model of Anastopoulos and Hu (arXiv:1305.5231) to photons. In this model, decoherence originates from a bath of stochastic gravitational perturbations, possibly of fundamental origin. We derive a master equation for general states of the electromagnetic (EM) field; the only free parameter is a noise temperature $\Theta$ of the gravitational fluctuations. We find that interference experiments with long baselines, accessible in near-future experiments, can, in principle, lead to strong constraints in $\Theta$.
翻訳日:2023-04-23 23:23:07 公開日:2021-03-30
# 物理のない量子物理学

Quantum Physics without the Physics ( http://arxiv.org/abs/2012.03865v2 )

ライセンス: Link先を確認
N. Anders Petersson, Fortino Garcia, Daniel E. A. Appelo, Stefanie G\"unther, Younsoo Choi and Ryan Vogt(参考訳) 本報告は、物理学の知識を前提にせず、量子物理学の基本理論と一般的な用語を説明する。 論文を読んでいる間に、応用数学者のグループによって書かれた。 対象とする聴衆は、応用数学者、コンピュータ科学者、あるいは量子物理学の理解を深めたい人から成り立っている。 読者は線型代数、微分方程式、およびある程度ヒルベルト空間の理論の基本的な概念に精通していると仮定する。 資料の大部分はNielsenとChuangによる本や、Lidarによるオープン量子システムに関する講義ノートに見ることができる。 もう一つの優れたオンライン情報ソースはwikipediaだが、量子物理学に関する記事の多くは物理学のしっかりした理解を前提としている。

This report explains the basic theory and common terminology of quantum physics without assuming any knowledge of physics. It was written by a group of applied mathematicians while they were reading up on the subject. The intended audience consists of applied mathematicians, computer scientists, or anyone else who wants to improve their understanding of quantum physics. We assume that the reader is familiar with fundamental concepts of linear algebra, differential equations, and to some extent the theory of Hilbert spaces. Most of the material can be found in the book by Nielsen and Chuang and in the lecture notes on open quantum systems by Lidar. Another excellent online source of information is Wikipedia, even though most of its articles on quantum physics assume a solid understanding of physics.
翻訳日:2023-04-21 20:55:31 公開日:2021-03-30
# 暗共鳴変調分光における誤差信号周波数シフトの強度非線形性とその低減へのアプローチ

Intensity nonlinearity of the error-signal frequency shift in the modulation spectroscopy of dark resonances and approaches to its reduction ( http://arxiv.org/abs/2012.13731v2 )

ライセンス: Link先を確認
E. A. Tsygankov, S. V. Petropavlovsky, M. I. Vaskovskaya, D. S. Chuchelov, S. A. Zibrov, V. V. Vassiliev, V. L. Velichansky, and V. P. Yakovlev(参考訳) その結果,コヒーレント集団トラップ共鳴に対応する誤差信号周波数は,その強度の変化に敏感ではないが,光場に乱れない「0-0$」遷移の周波数からずれることが判明した。 非対称多色光学場と相互作用する二重の$\Lambda$-systemを考えると、この効果は誤差信号周波数シフトの強度非線形性に起因する。 Ar-N$_2$バッファーガス原子セルにおける$^{87}$Rb原子を用いた実験は、変位値が異なるパラメータに依存することを示す。 この効果が時計の周波数安定性と再現性に及ぼす影響について考察した。

We have found that the error-signal frequency corresponding to the coherent population trapping resonance can be displaced from that of "$0-0$" transition unperturbed by the optical field, although the frequency is not sensitive to changes in its intensity. We consider the double $\Lambda$-system of levels interacting with the asymmetric polychromatic optical field to demonstrate that this effect arises due to intensity nonlinearity of the error-signal frequency shift. The experiment with $^{87}$Rb atoms in Ar-N$_2$ buffer gas atomic cell shows how the displacement value depends on different parameters. The possible influence of the effect on the clocks' frequency stability and reproducibility are discussed.
翻訳日:2023-04-19 05:54:15 公開日:2021-03-30
# 量子カスケードレーザーにおける光子駆動輸送の密度行列モデル

Density-matrix model for photon-driven transport in quantum cascade lasers ( http://arxiv.org/abs/2012.14491v2 )

ライセンス: Link先を確認
S. Soleimanikahnoj, M. L. King, and I. Knezevic(参考訳) 量子カスケードレーザーにおける光子支援(pa)電子輸送を研究するための時間依存密度行列モデルを開発した。 任意の場振幅に対して、光学場の存在下での密度行列に対するマルコフ方程式の運動を解く。 レベル拡大項は微視的ハミルトニアンから現れ、関連するアプローチでしばしば用いられる経験的パラメータの必要性に取って代わる。 対角線構造を持つ量子カスケードレーザーにおいて、光子共鳴は、上層と下層の間の大きな空間的分離から生じる影響であるラシングしきい値の前後の電子力学に顕著な影響を持つことを示す。 PAトンネルを含むことにより、計算された電流密度と出力パワーは実験とよく一致している。

We developed a time-dependent density-matrix model to study photon-assisted (PA) electron transport in quantum cascade lasers. The Markovian equation of motion for the density matrix in the presence of an optical field is solved for an arbitrary field amplitude. Level-broadening terms emerge from microscopic Hamiltonians and supplant the need for empirical parameters that are often employed in related approaches. We show that, in quantum cascade lasers with diagonal design, photon resonances have a pronounced impact on electron dynamics around and above the lasing threshold, an effect that stems from the large spatial separation between the upper and lower lasing states. With the inclusion of PA tunneling, the calculated current density and output power are in good agreement with experiment.
翻訳日:2023-04-19 01:29:35 公開日:2021-03-30
# chi(2)マイクロ共振器における光子-光子ポーラリトン

Photon-photon polaritons in chi(2) microresonators ( http://arxiv.org/abs/2102.08977v2 )

ライセンス: Link先を確認
D.V. Skryabin, V.V. Pankratov, A. Villois, D.N. Puzyrev(参考訳) 我々は、ポンプ周囲のサイドバンドと第2高調波の間の結合速度が減衰率を超え、強い結合状態(SC)を示唆する条件下で、$\chi^{(2)}=非線形性を持つ高Qマイクロ共振器を考える。 和装共鳴法を用いて, パラメトリックゲインに寄与する非エルミート部分に対して, サイドバンドダイナミクスを駆動する操作者のエルミート部分を支配することを証明した。 これにより、ポラリトン準粒子のクロスエリアの概念を導入し、その有効質量を$\chi^{(2)}$ ring-microresonatorの文脈で定義することができる。 さらに、ポーラリトンを用いて、弱いプローブ場に対する共振器のスペクトル応答の変化を予測し、素共振器共鳴の分裂、交差の回避、ラビダイナミクスを明らかにする。 ポラリトン基底はまた、異なる順序のサイドバンドを生成するためにパラメトリックしきい値の離散列を導出することができる。

We consider a high-Q microresonator with $\chi^{(2)}$ nonlinearity under conditions when the coupling rates between the sidebands around the pump and second harmonic exceed the damping rates, implying the strong coupling regime (SC). Using the dressed-resonator approach we demonstrate that this regime leads to the dominance of the Hermitian part of the operator driving the side-band dynamics over its non-Hermitian part responsible for the parametric gain. This has allowed us to introduce and apply the cross-area concept of the polariton quasi-particles and define their effective masses in the context of $\chi^{(2)}$ ring-microresonators. We further use polaritons to predict the modified spectral response of the resonator to a weak probe field, and to reveal splitting of the bare-resonator resonances, avoided crossings, and Rabi dynamics. Polariton basis also allows deriving a discrete sequence of the parametric thresholds for the generation of sidebands of different orders.
翻訳日:2023-04-10 23:45:42 公開日:2021-03-30
# 超伝導量子ビットの非ガウス交絡状態のメトロロジカルキャラクタリゼーション

Metrological characterisation of non-Gaussian entangled states of superconducting qubits ( http://arxiv.org/abs/2103.11434v2 )

ライセンス: Link先を確認
Kai Xu, Yu-Ran Zhang, Zheng-Hang Sun, Hekang Li, Pengtao Song, Zhongcheng Xiang, Kaixuan Huang, Hao Li, Yun-Hao Shi, Chi-Tong Chen, Xiaohui Song, Dongning Zheng, Franco Nori, H. Wang and Heng Fan(参考訳) マルチパーティの絡み合った状態は、量子情報処理と量子メートル法の両方にとって重要な資源である。 特に、非ゲージの絡み合った状態は、ガウス状態よりも精度測定の感度が高いと予測される。 メロジカル感度に基づいて、従来の線形ラムゼースクイーズパラメータ(RSP)はガウスの絡み合った原子状態を効率的に特徴づけるが、高感度非ガウス状態のより広いクラスでは失敗する。 これらの複雑な非ガウスの絡み合った状態は非線形スケズパラメータ(NLSP)によって分類することができ、非線形観測可能量に対するRSPの一般化としてフィッシャー情報を介して同定される。 しかし、NLSPは実験的に測定されたことはない。 本稿では,19量子ビットプログラム可能な超伝導プロセッサを用いて,非線形動力学中に発生する多粒子絡み合い状態の特性について述べる。 まず、10量子ビットを選択し、複数の異なる方向の集合スピン作用素の単発読み出しによりRSPとNLSPを測定する。 そして、すべての19量子ビットの時間進化状態のフィッシャー情報を抽出することにより、標準量子限界上の9.89$^{+0.28}_{-0.29}$ dBの質量論的なゲインを観測し、量子増強相感度に対する高レベルの多粒子絡み合いを示す。 高忠実なフルコントロールとアドレス付きシングルショット読み出しの恩恵を受け、量子ビットを相互接続した超伝導プロセッサは、量子エンハンスメトロロジーに有用な非ガウシアン絡み状態のエンジニアリングとベンチマークのための理想的なプラットフォームを提供する。

Multipartite entangled states are significant resources for both quantum information processing and quantum metrology. In particular, non-Gaussian entangled states are predicted to achieve a higher sensitivity of precision measurements than Gaussian states. On the basis of metrological sensitivity, the conventional linear Ramsey squeezing parameter (RSP) efficiently characterises the Gaussian entangled atomic states but fails for much wider classes of highly sensitive non-Gaussian states. These complex non-Gaussian entangled states can be classified by the nonlinear squeezing parameter (NLSP), as a generalisation of the RSP with respect to nonlinear observables, and identified via the Fisher information. However, the NLSP has never been measured experimentally. Using a 19-qubit programmable superconducting processor, here we report the characterisation of multiparticle entangled states generated during its nonlinear dynamics. First, selecting 10 qubits, we measure the RSP and the NLSP by single-shot readouts of collective spin operators in several different directions. Then, by extracting the Fisher information of the time-evolved state of all 19 qubits, we observe a large metrological gain of 9.89$^{+0.28}_{-0.29}$ dB over the standard quantum limit, indicating a high level of multiparticle entanglement for quantum-enhanced phase sensitivity. Benefiting from high-fidelity full controls and addressable single-shot readouts, the superconducting processor with interconnected qubits provides an ideal platform for engineering and benchmarking non-Gaussian entangled states that are useful for quantum-enhanced metrology.
翻訳日:2023-04-07 06:33:27 公開日:2021-03-30
# スマートグリッドにおける偽データ攻撃に対するサイバー防衛戦略の分類

A Taxonomy of Cyber Defence Strategies Against False Data Attacks in Smart Grid ( http://arxiv.org/abs/2103.16085v1 )

ライセンス: Link先を確認
Haftu Tasew Reda, Adnan Anwar, Abdun Naser Mahmood, and Zahir Tari(参考訳) スマートグリッドとして知られる現代の電力網は、孤立して中央制御された電力システムを、通信の革命とIoTデバイスの急速な普及の恩恵を受ける、高速で大規模に接続されたサイバー物理システムに急速に転換した。 膨大な数のサイバー物理的エンティティのシナジーにより、グローバルエネルギーの課題の増大に対処する上で、Smart Gridはずっと効果的で持続可能なものになる一方で、データ完全性、機密性、可用性の侵害をもたらす多くの脆弱性ももたらした。 偽データ注入(False Data Injection, FDI)は、最も重要なサイバー攻撃の1つで、研究と産業の両方に焦点を当てている。 そこで本稿では,スマートグリッドインフラにおけるFDI攻撃の防御対策の最近の進歩を概観する。 関連する文献は、Smart Gridサイバーセキュリティに対する理論的および実践的重要性の観点から評価され、比較される。 結論として、既存の偽データ攻撃検出研究の技術的な限界が特定され、今後の研究の方向性が示唆される。

Modern electric power grid, known as the Smart Grid, has fast transformed the isolated and centrally controlled power system to a fast and massively connected cyber-physical system that benefits from the revolutions happening in the communications and the fast adoption of Internet of Things devices. While the synergy of a vast number of cyber-physical entities has allowed the Smart Grid to be much more effective and sustainable in meeting the growing global energy challenges, it has also brought with it a large number of vulnerabilities resulting in breaches of data integrity, confidentiality and availability. False data injection (FDI) appears to be among the most critical cyberattacks and has been a focal point interest for both research and industry. To this end, this paper presents a comprehensive review in the recent advances of the defence countermeasures of the FDI attacks in the Smart Grid infrastructure. Relevant existing literature are evaluated and compared in terms of their theoretical and practical significance to the Smart Grid cybersecurity. In conclusion, a range of technical limitations of existing false data attack detection researches are identified, and a number of future research directions are recommended.
翻訳日:2023-04-06 03:53:27 公開日:2021-03-30
# 幾何学的空間曲線からの動的補正ゲート

Dynamically corrected gates from geometric space curves ( http://arxiv.org/abs/2103.16015v1 )

ライセンス: Link先を確認
Edwin Barnes, Fernando A. Calderon-Vargas, Wenzheng Dong, Bikun Li, Junkai Zeng, Fei Zhuang(参考訳) 量子情報技術は、量子システムに対する高精度な制御を要求する。 これを達成するには、ノイズやその他の悪影響があるにもかかわらず、うまく機能する制御技術が必要である。 本稿では,量子進化と幾何学的空間曲線の密接な関係を用いて,演算中に誤差を動的に補正する制御場を設計する一般的な手法について検討する。 このアプローチは、所定のタスクを達成する制御フィールドのグローバルソリューション空間へのアクセスを提供し、様々なアプリケーションで実験的に実行可能なゲート操作の設計を容易にする。

Quantum information technologies demand highly accurate control over quantum systems. Achieving this requires control techniques that perform well despite the presence of decohering noise and other adverse effects. Here, we review a general technique for designing control fields that dynamically correct errors while performing operations using a close relationship between quantum evolution and geometric space curves. This approach provides access to the global solution space of control fields that accomplish a given task, facilitating the design of experimentally feasible gate operations for a wide variety of applications.
翻訳日:2023-04-06 03:53:09 公開日:2021-03-30
# 単一イオン大型発振器の生成

Generation of a single ion large oscillator ( http://arxiv.org/abs/2103.16308v1 )

ライセンス: Link先を確認
Ryoichi Saito, Takashi Mukaiyama(参考訳) 16.9~{\rm \mu m}$という大きな振動振幅を持つ捕獲イオン発振器の生成を実証する。 イオントラップ電極へのオフセット電圧の適用は、5nsの時間スケールでトラップ中心の変位を実現するのに役立った。 イオンの蛍光ダイナミクスを変位後に解析し,振動振幅を推定した。 達成されたトラップ変位は、前回の作業で達成されたものよりも1桁大きい。 したがって、この結果は単一の捕捉イオンを用いたジャイロスコープの実現に向けての重要なステップである。

We demonstrate the generation of a trapped ion oscillator having large oscillation amplitude of $16.9~{\rm \mu m}$. Applying an offset voltage to the ion trap electrode helped achieve a displacement of the trap center within the time scale of 5 ns. The fluorescence dynamics of the ion were analyzed after the displacement to estimate the oscillation amplitude. The realized trap displacement is one order magnitude larger than that achieved in the previous work. Thus, this result is an important step toward the realization of a gyroscope using a single trapped ion.
翻訳日:2023-04-06 03:51:42 公開日:2021-03-30
# ボソニック浴に結合した多数の相互作用スピンの量子相転移:静的および動的性質

Quantum Phase Transition of Many Interacting Spins Coupled to a Bosonic Bath: static and dynamical properties ( http://arxiv.org/abs/2103.16222v1 )

ライセンス: Link先を確認
G. De Filippis, A. de Candia, A. S. Mishchenko, L. M. Cangemi, A. Nocera, P. A. Mishchenko, M. Sassetti, R. Fazio, N. Nagaosa and V. Cataudella(参考訳) worldline と diagrammatic quantum monte carlo technique, matrix product state, and a variational approach \`a la feynman を用いて、n$ スピンの量子系の平衡特性と緩和特性について検討し、強度 $j$ で反強磁性的に相互作用し、強度 $\alpha$ のボソニック発振器の一般的な浴と結合した。 オオミック系では、ベレンツィンスキー-Thouless-Kosterlitz量子相転移が起こる。 J=0$ の場合、$\alpha$ の臨界値は 1/N$ の増加により漸近的に減少するが、$J$ は$N$ で事実上独立であることが判明し、スピン位相コヒーレンスを大きな$N$ にも保持する$\alpha$ の有限範囲の値を特定することができる。 次に, 行列積状態シミュレーション, 森形式論, 変分的アプローチ \'a la feynman を併用することにより, 緩和の特長, 特に近藤効果を想起する温度に非単調な依存性を示す。 観測された量子相転移に対しては、固体中の金属-絶縁体転移の基準も確立する。

By using worldline and diagrammatic quantum Monte Carlo techniques, matrix product state and a variational approach \`a la Feynman, we investigate the equilibrium properties and relaxation features of a quantum system of $N$ spins antiferromagnetically interacting with each other, with strength $J$, and coupled to a common bath of bosonic oscillators, with strength $\alpha$. We show that, in the Ohmic regime, a Beretzinski-Thouless-Kosterlitz quantum phase transition occurs. While for $J=0$ the critical value of $\alpha$ decreases asymptotically with $1/N$ by increasing $N$, for nonvanishing $J$ it turns out to be practically independent on $N$, allowing to identify a finite range of values of $\alpha$ where spin phase coherence is preserved also for large $N$. Then, by using matrix product state simulations, and the Mori formalism and the variational approach \`a la Feynman jointly, we unveil the features of the relaxation, that, in particular, exhibits a non monotonic dependence on the temperature reminiscent of the Kondo effect. For the observed quantum phase transition we also establish a criterion analogous to that of the metal-insulator transition in solids.
翻訳日:2023-04-06 03:51:07 公開日:2021-03-30
# 超反応:エネルギーゆらぎの存在下での分子偏光子による反応速度の集合的増強

Superreaction: the collective enhancement of a reaction rate by molecular polaritons in the presence of energy fluctuations ( http://arxiv.org/abs/2103.16166v1 )

ライセンス: Link先を確認
Nguyen Thanh Phuc(参考訳) 最近の実験では、分子電子または振動励起と光学キャビティとの間の強い結合によって形成される光と物質のハイブリッド状態である分子分極が、分子系の物理的および化学的性質を実質的に変更できることが示されている。 ここでは, ポラロン脱カップリングの効果, すなわち, ポラリトンに対する環境影響の抑制と合わせて, 分子分極の集合的特性を利用することにより, 共振器に結合したドナー系において, 電荷の集合的増強や励起-エネルギー移動反応速度の超反応が実現可能であることを示す。 この効果は過放射現象と類似している。 偏光子はキャビティに結合した全ての分子の励起の重畳状態であるため、分子系のエネルギー変動に起因するデコヒーレンスの影響に弱い。 その結果、強い光-物質相互作用がなければ、系が偏光子状態から始まるとしても、反応速度は分子の数が増えるにつれて著しく低下する。 光-物質相互作用をオンにすることで、系の動的挙動は劇的に変化し、反応速度はスーパー反応で期待される分子の数とともに増加する。 基礎となるメカニズムは、光-物質相互作用がより強くなるにつれて、異なるドナー間の量子コヒーレンスの強化であることが示されている。

Recent experiments have demonstrated that molecular polaritons, hybrid states of light and matter formed by the strong coupling between molecular electronic or vibrational excitations and an optical cavity, can substantially modify the physical and chemical properties of molecular systems. Here, we show that, by exploiting the collective character of molecular polaritons in conjunction with the effect of polaron decoupling, i.e., the suppression of environmental influence on the polariton, a superreaction can be realized, involving a collective enhancement of charge or excitation-energy transfer reaction rate in a system of donors all coupled to a common acceptor. This effect is analogous to the phenomenon of superradiation. Since the polariton is a superposition state of excitations of all the molecules coupled to the cavity, it is vulnerable to the effect of decoherence caused by energy fluctuations in molecular systems. Consequently, in the absence of a strong light-matter interaction, the reaction rate decreases significantly as the number of molecules increases, even if the system starts from the polariton state. By turning on the light-matter interaction, the dynamic behavior of the system changes dramatically, and the reaction rate increases with the number of molecules, as expected for a superreaction. The underlying mechanism is shown to be the enhancement of quantum coherence between different donors as the light-matter interaction becomes stronger.
翻訳日:2023-04-06 03:50:26 公開日:2021-03-30
# 量子重ね合わせによる全部分グラフの特徴をコードするグラフカーネル

Graph kernels encoding features of all subgraphs by quantum superposition ( http://arxiv.org/abs/2103.16093v1 )

ライセンス: Link先を確認
Kaito Kishi, Takahiko Satoh, Rudy Raymond, Naoki Yamamoto, Yasubumi Sakakibara(参考訳) グラフカーネルは、グラフ間の類似性を測定するためにバイオインフォマティクスやネットワークアプリケーションでよく使用されるため、効率的なグラフ分類器を構築するために用いられる。 これまで多くのグラフカーネルが開発されてきたが、我々の知る限り、類似性を測定するために全てのグラフを考慮に入れているグラフカーネルは存在しない。 量子重ね合わせのパワーを十分に活用し、すべての部分グラフを特徴にエンコードすることにより、すべての部分グラフを考慮したグラフ類似度を測定するために量子コンピュータを適用する新しいグラフカーネルを提案する。 量子カーネルの構築のために、量子状態に符号化されたサブグラフのインデックス情報を除去する効率的なプロトコルを開発する。 また、量子コンピュータは、同じベクトルを近似するために使用される古典的なスプリマーよりも、特徴ベクトルを構成するのにクエリの複雑さが小さいことを証明している。 バイオインフォマティクス問題の詳細な数値シミュレーションを行い、多くの場合、提案する量子カーネルが既存のグラフカーネルよりも優れた分類精度を達成することを証明した。

Graph kernels are often used in bioinformatics and network applications to measure the similarity between graphs; therefore, they may be used to construct efficient graph classifiers. Many graph kernels have been developed thus far, but to the best of our knowledge there is no existing graph kernel that considers all subgraphs to measure similarity. We propose a novel graph kernel that applies a quantum computer to measure the graph similarity taking all subgraphs into account by fully exploiting the power of quantum superposition to encode every subgraph into a feature. For the construction of the quantum kernel, we develop an efficient protocol that removes the index information of subgraphs encoded in the quantum state. We also prove that the quantum computer requires less query complexity to construct the feature vector than the classical sampler used to approximate the same vector. A detailed numerical simulation of a bioinformatics problem is presented to demonstrate that, in many cases, the proposed quantum kernel achieves better classification accuracy than existing graph kernels.
翻訳日:2023-04-06 03:49:34 公開日:2021-03-30
# 多体量子干渉の実験的統計的シグネチャ

Experimental statistical signature of many-body quantum interference ( http://arxiv.org/abs/2103.16418v1 )

ライセンス: Link先を確認
Taira Giordani, Fulvio Flamini, Matteo Pompili, Niko Viggianiello, Nicol\`o Spagnolo, Andrea Crespi, Roberto Osellame, Nathan Wiebe, Mattia Walschaers, Andreas Buchleitner and Fabio Sciarrino(参考訳) 多粒子干渉は、ボーソンサンプリング実験で最近強調されたように、基本的な量子力学現象や量子情報処理に必須の要素である。 したがって、その存在を実証する信頼性と効率のよい技術を開発することは、量子技術の実践的実装に向けて重要である。 本稿では,マルチモード量子デバイスの出力で統計的シグネチャを利用する最近の効率的なプロトコルを用いて,真の多体量子干渉を実験的に同定する。 集積フォトニック回路における3光子実験の検証に本試験をうまく応用し,その実施に必要な資源を詳細に分析した。 さらに、機械学習の確立した技術に基づいて、これらのツールが、これらのシグネチャを目撃する---未知の-最適な特徴を特定するのにどのように役立つかを示す。 その結果,本手法の有効性と実現性が実証され,大規模実装への採用への道筋が開けた。

Multi-particle interference is an essential ingredient for fundamental quantum mechanics phenomena and for quantum information processing to provide a computational advantage, as recently emphasized by Boson Sampling experiments. Hence, developing a reliable and efficient technique to witness its presence is pivotal towards the practical implementation of quantum technologies. Here we experimentally identify genuine many-body quantum interference via a recent efficient protocol, which exploits statistical signatures at the output of a multimode quantum device. We successfully apply the test to validate three-photon experiments in an integrated photonic circuit, providing an extensive analysis on the resources required to perform it. Moreover, drawing upon established techniques of machine learning, we show how such tools help to identify the - a priori unknown - optimal features to witness these signatures. Our results provide evidence on the efficacy and feasibility of the method, paving the way for its adoption in large-scale implementations.
翻訳日:2023-04-06 03:41:47 公開日:2021-03-30
# 狭い範囲の爪関数についての一考察

A note about claw function with a small range ( http://arxiv.org/abs/2103.16390v1 )

ライセンス: Link先を確認
Andris Ambainis, Kaspars Balodis, J\=anis Iraids(参考訳) 爪検出問題では、$f:D\rightarrow R$と$g:D\rightarrow R$(|D|=n$, $|R|=k$)の2つの関数が与えられ、$f が存在するかどうかを判断する必要がある。 (x)=g (y)$。 この問題の量子クエリの複雑さは、$Omega\left(n^{1/2}k^{1/6}\right)$と$O\left(n^{1/2+\varepsilon}k^{1/4}\right)$の間にある。

In the claw detection problem we are given two functions $f:D\rightarrow R$ and $g:D\rightarrow R$ ($|D|=n$, $|R|=k$), and we have to determine if there is exist $x,y\in D$ such that $f(x)=g(y)$. We show that the quantum query complexity of this problem is between $\Omega\left(n^{1/2}k^{1/6}\right)$ and $O\left(n^{1/2+\varepsilon}k^{1/4}\right)$ when $2\leq k<n$.
翻訳日:2023-04-06 03:41:03 公開日:2021-03-30
# 非可換オブザーバブルの測定結果をどのように推測できるか?

How well can we guess the outcome of measurements of non-commuting observables? ( http://arxiv.org/abs/2103.16338v1 )

ライセンス: Link先を確認
Maryam Khanahmadi, Klaus M{\o}lmer(参考訳) ハイゼンベルクの不確実性の関係によれば、量子系における位置と運動量の測定結果の正確な予測には究極の限界がある。 この限界は、その代わりに過去の測定の未知の値を推測することを目的とした場合、任意に大きい要因によって違反する可能性がある。 単一量子系の実験では、過去の位置と運動量の測定結果の正確な割り当ては、それらの線形結合に関する大きな不確実性を伴うが、一方、補助系との絡み合いは、そのような線形結合の正確な再帰を可能にすることを示す。 最後に、アシラリープローブ粒子による複数直線的位置と運動量観測器の組合せを同時に測定する実験の結果も、公式な下限を伴わずに推算できることを示した。 本稿では,全成分をガウス状態に設定した射影測定と一般化測定の定量的結果を示す。

According to Heisenberg's uncertainty relation, there is an ultimate limit to how precisely we may predict the outcome of position and momentum measurements on a quantum system. We show that this limit may be violated by an arbitrarily large factor if one aims, instead, to guess the unknown value of a past measurement. For experiments on a single quantum system, the precise assignment of past position and momentum measurement outcomes is accompanied by large uncertainty about their linear combinations, while we show that entanglement with an ancillary system permits accurate retrodiction of any such linear combination. Finally, we show that the outcomes of experiments that jointly measure multiple linear combinations of position and momentum observables by means of ancillary probe particles can also be guessed with no formal lower limit. We present quantitative results for projective measurements and for generalized measurements where all components are prepared in Gaussian states.
翻訳日:2023-04-06 03:39:46 公開日:2021-03-30
# wikipedia 言語間の知識伝達の追跡

Tracking Knowledge Propagation Across Wikipedia Languages ( http://arxiv.org/abs/2103.16613v1 )

ライセンス: Link先を確認
Roldolfo Valentim, Giovanni Comarela, Souneil Park and Diego Saez-Trumper(参考訳) 本稿では,wikipediaにおける言語間知識伝達のデータセットを提案する。 このデータセットは、309の言語版と3300万の記事全体をカバーし、Wikipediaのコンセプトの完全な伝播履歴を追跡し、それらの予測モデルの構築に関する研究の追跡を可能にする。 この目的のために、ウィキペディアの全ての記事は、それらがカバーする概念に従って言語に依存しない方法で整列する。 我々の知る限りでは、このデータセットは、大規模に言語間の完全な伝播を探求する最初のものである。 データセットとともに、伝播の全体的概要と基礎となる構造的要因に関する重要な洞察が、将来の研究を支援するために提供される。 例えば、長いカスケードは珍しいが、4つ以上の言語版に到達した後も伝播は継続する傾向にある。 また,言語版のサイズは伝播速度と関連していることがわかった。 このデータセットはウィキペディアの成長に関する文献に貢献するだけでなく、知識ギャップに対処するための編集勧告、偽情報の検出、文化関係分析などの新しいユースケースも可能にしていると考えている。

In this paper, we present a dataset of inter-language knowledge propagation in Wikipedia. Covering the entire 309 language editions and 33M articles, the dataset aims to track the full propagation history of Wikipedia concepts, and allow follow up research on building predictive models of them. For this purpose, we align all the Wikipedia articles in a language-agnostic manner according to the concept they cover, which results in 13M propagation instances. To the best of our knowledge, this dataset is the first to explore the full inter-language propagation at a large scale. Together with the dataset, a holistic overview of the propagation and key insights about the underlying structural factors are provided to aid future research. For example, we find that although long cascades are unusual, the propagation tends to continue further once it reaches more than four language editions. We also find that the size of language editions is associated with the speed of propagation. We believe the dataset not only contributes to the prior literature on Wikipedia growth but also enables new use cases such as edit recommendation for addressing knowledge gaps, detection of disinformation, and cultural relationship analysis.
翻訳日:2023-04-06 03:33:28 公開日:2021-03-30
# グラフェン磁気バリアにおけるトンネル時間のギャップ調整

Gap-tunable of Tunneling Time in Graphene Magnetic Barrier ( http://arxiv.org/abs/2103.16600v1 )

ライセンス: Link先を確認
Youssef Fattasse, Miloud Mekkaoui, Ahmed Jellal, Abdelhadi Bahaoui(参考訳) グラフェン磁気バリアにおけるディラックフェルミオンのトンネル時間について静電ポテンシャルと質量項を通して検討した。 この後者はスペクトルのエネルギーギャップを生じさせ、そのためシステムのトンネル化に影響を及ぼす。 まず、ディラック方程式の固有スピナーズ解を導出し、次にインシデントに接続し、反射し、送信するビーム波を導出する。 この接続により、対応する位相シフトを取得し、伝送および反射におけるグループ遅延時間を計算することができる。 数値解析の結果,群遅延時間は単一障壁によるトンネルのエネルギーギャップに強く依存していることがわかった。 さらに, 群はエネルギーギャップの臨界値で一意に接近し, 関連する物理パラメータの強さに依存しないことがわかった。

We study the tunneling time of Dirac fermions in graphene magnetic barrier through an electrostatic potential and a mass term. This latter generates an energy gap in the spectrum and therefore affects the proprieties of tunneling of the system. For clarification, we first start by deriving the eigenspinors solutions of Dirac equation and second connect them to the incident, reflected and transmitted beam waves. This connection allows us to obtain the corresponding phases shifts and consequently compute the group delay time in transmission and reflection. Our numerical results show that the group delay time depends strongly on the energy gap in the tunneling process through single barrier. Moreover, we find that the group approaches unity at some critical value of the energy gap and becomes independent to the strengths of involved physical parameters.
翻訳日:2023-04-06 03:32:49 公開日:2021-03-30
# 1次元の低エネルギー相互作用を持つ量子液体と液滴

Quantum liquids and droplets with low-energy interactions in one dimension ( http://arxiv.org/abs/2103.16499v1 )

ライセンス: Link先を確認
Ivan Morera, Bruno Juli\'a-D\'iaz, and Manuel Valiente(参考訳) 普遍的な低エネルギー状態における1次元ボソンの相互作用を考える。 相互作用は、量子ガス、液滴、液体を安定化できる、魅力的で反発的な部品の組み合わせから成り立っている。 特に,弱誘電対相互作用系における有効3体反発の役割について検討した。 その低エネルギー記述は、非零範囲との2体相互作用のみを含むモデルと同値であるとしばしば主張される。 ここでは、ゼロ温度では、統計力学の$S$-matrixの定式化から推測できるように、両理論の状態方程式は、ガス相において、全体の反発に対して低密度で定量的に一致することを示す。 しかし、この合意は量子滴の長距離特性にのみ普遍性が存在する魅力的な状態には存在しない。 理論の性質を調べる解析ツールを開発し,密度行列再正規化群を用いて正確な数値計算を行うことができる。

We consider interacting one-dimensional bosons in the universal low-energy regime. The interactions consist of a combination of attractive and repulsive parts that can stabilize quantum gases, droplets and liquids. In particular, we study the role of effective three-body repulsion, in systems with weak attractive pairwise interactions. Its low-energy description is often argued to be equivalent to a model including only two-body interactions with non-zero range. Here, we show that, at zero temperature, the equations of state in both theories agree quantitatively at low densities for overall repulsion, in the gas phase, as can be inferred from the $S$-matrix formulation of statistical mechanics. However, this agreement is absent in the attractive regime, where universality only occurs in the long-distance properties of quantum droplets. We develop analytical tools to investigate the properties of the theory, and obtain astounding agreement with exact numerical calculations using the density-matrix renormalization group.
翻訳日:2023-04-06 03:32:07 公開日:2021-03-30
# 六方晶窒化ホウ素における単一欠陥の常温光磁気共鳴

Room-temperature optically detected magnetic resonance of single defects in hexagonal boron nitride ( http://arxiv.org/abs/2103.16494v1 )

ライセンス: Link先を確認
Hannah L. Stern, John Jarman, Qiushi Gu, Simone Eizagirre Barker, Noah Mendelson, Dipankar Chugh, Sam Schott, Hoe H. Tan, Henning Sirringhaus, Igor Aharonovich and Mete Atat\"ure(参考訳) 材料中の光学的に対応可能なスピンは、リピータやセンサーのような量子技術の重要なプラットフォームである。 2次元(2d)層状材料におけるそのようなシステムの同定は、デバイスへのより実用的なオンチップ統合を可能にするため、バルク系よりも有利である。 今回我々は,2dヘキサゴナル窒化ホウ素(hBN)の炭素関連欠陥から光学的に検出された磁気共鳴(ODMR)を報告する。 単一欠陥のodmrコントラストは6%程度で、欠陥ごとに正または負の符号を持つ磁場依存性を示す。 この双極性は、これらの欠陥のアンサンブルODMR測定のために最近報告された低コントラストに光を放つことができる。 さらに、ODMRラインシェイプはダブルト共鳴を含み、低ゼロフィールド分裂または超微細結合を示唆する。 この結果は、六方晶窒化ホウ素の室温スピン光子量子界面を実現するための有望な経路を提供する。

Optically addressable spins in materials are important platforms for quantum technologies, such as repeaters and sensors. Identification of such systems in two-dimensional (2d) layered materials offers advantages over their bulk counterparts, as their reduced dimensionality enables more feasible on-chip integration into devices. Here, we report optically detected magnetic resonance (ODMR) from previously identified carbon-related defects in 2d hexagonal boron nitride (hBN). We show that single-defect ODMR contrast can be as strong as 6% and displays a magnetic-field dependence with both positive or negative sign per defect. This bipolarity can shed light into low contrast reported recently for ensemble ODMR measurements for these defects. Further, the ODMR lineshape comprises a doublet resonance, suggesting either low zero-field splitting or hyperfine coupling. Our results offer a promising route towards realising a room-temperature spin-photon quantum interface in hexagonal boron nitride.
翻訳日:2023-04-06 03:31:50 公開日:2021-03-30
# Privacidade Digital como direito do cidadao: o caso dos grupos indigenas do Brasil

Privacidade digital como direito do cidadao: o caso dos grupos indigenas do Brasil ( http://arxiv.org/abs/2103.16455v1 )

ライセンス: Link先を確認
Yasodara Cordova(参考訳) ブラジルの法律は、政府によるデータ収集を通じて、先住民のデジタルプライバシーの権利に影響を与えるものである。 さらに,本論文では,同コミュニティがデータ収集の機能開発に参加することなく,先住民コミュニティからセンシティブなデータを収集する必要性について論じる。 この論文は、先住民コミュニティの情報のデジタル化は植民地のパラダイムに従っており、先住民コミュニティ全体に害を与え、既に不安定な状況が悪化していると主張している。 -o artigo apresenta uma breve revis\~ao da legisla\c{c}\~ao brasileira que impacta os direitos de privacidade digital das comunidades ind\'igenas por meio da coleta de dados governanceamentais al\'em disso, o artigo visa discutir a needcessidade de coletar dados sens\'iveis de comunidades ind\'igenas sem a participa\c{c}\~ao das mesmas comunidades no desenvolvimento dos recursos para a coleta de dados O artigo argumenta que a digitaliza\c{c}\~ao das informa\c{c}\~oes das comunidades ind\'igenas segue um paradigma colonial, prejudicando comunidades ind\'igenas inteiras e agravando sua situa\c{c}\~ao j\'a prec\'aria

The article presents a brief review of the Brazilian legislation that impacts indigenous communities' digital privacy rights through governmental data collection. Furthermore, the article aims to discuss the need to collect sensitive data from indigenous communities without the participation of the same communities in developing the features for the data collection. The article argues that the digitalization of indigenous communities' information follows a colonial paradigm, harming entire indigenous communities and worsening their already precarious situation. -- O artigo apresenta uma breve revis\~ao da legisla\c{c}\~ao brasileira que impacta os direitos de privacidade digital das comunidades ind\'igenas por meio da coleta de dados governamentais. Al\'em disso, o artigo visa discutir a necessidade de coletar dados sens\'iveis de comunidades ind\'igenas sem a participa\c{c}\~ao das mesmas comunidades no desenvolvimento dos recursos para a coleta de dados. O artigo argumenta que a digitaliza\c{c}\~ao das informa\c{c}\~oes das comunidades ind\'igenas segue um paradigma colonial, prejudicando comunidades ind\'igenas inteiras e agravando sua situa\c{c}\~ao j\'a prec\'aria.
翻訳日:2023-04-06 03:31:01 公開日:2021-03-30
# 量子データセンターにおけるエネルギー利用: コンピュータアーキテクチャ、量子ビット性能、サイズ、熱パラメータの影響のスケーリング

Energy use in quantum data centers: Scaling the impact of computer architecture, qubit performance, size, and thermal parameters ( http://arxiv.org/abs/2103.16726v1 )

ライセンス: Link先を確認
Michael James Martin, Caroline Hughes, Gilberto Moreno, Eric B. Jones, David Sickinger, Sreekant Narumanchi, and Ray Grout(参考訳) 量子コンピュータのサイズが大きくなるにつれて、冷却を含む量子データセンターが使用する総エネルギーがより懸念されるようになる。 絶対零に近い温度で動作しなければならない量子コンピュータの冷却要件は、物理量子ビットの数と種類、動作温度、システムのパッケージング効率、低温で動作している回路と室温で動作している回路の分割を含む計算システムパラメータによって決定される。 冷却効率やクライオスタット熱伝達などの熱システムパラメータと組み合わせることで、総エネルギー使用量を決定することができる。 本稿では,第一原理エネルギーモデルを用いて,全エネルギー要求に対するコンピュータアーキテクチャと熱パラメータの影響を報告する。 また, 電力使用量と量子体積は解析的に相関できることを示した。 計算力に対する統合量子システムにおけるエネルギー使用を最小化するためのアプローチが特定される。 その結果、冷却に必要なエネルギーは計算に必要なエネルギーよりも大きく、従来の計算で見られるエネルギー使用パターンとは逆であることがわかった。 持続可能な量子コンピュータを設計するには、冷却要求を最小限に抑える効率的な冷却とシステム設計が必要である。

As quantum computers increase in size, the total energy used by a quantum data center, including the cooling, will become a greater concern. The cooling requirements of quantum computers, which must operate at temperatures near absolute zero, are determined by computing system parameters, including the number and type of physical qubits, the operating temperature, the packaging efficiency of the system, and the split between circuits operating at cryogenic temperatures and those operating at room temperature. When combined with thermal system parameters such as cooling efficiency and cryostat heat transfer, the total energy use can be determined. Using a first-principles energy model, this paper reports the impact of computer architecture and thermal parameters on the overall energy requirements. The results also show that power use and quantum volume can be analytically correlated. Approaches are identified for minimizing energy use in integrated quantum systems relative to computational power. The results show that the energy required for cooling is significantly larger than that required for computation, a reversal from energy usage patterns seen in conventional computing. Designing a sustainable quantum computer will require both efficient cooling and system design that minimizes cooling requirements.
翻訳日:2023-04-06 03:23:11 公開日:2021-03-30
# 低出力超高速ゲートを持つge量子ドットにおけるシュイーズドホールスピン量子ビット

Squeezed hole spin qubits in Ge quantum dots with ultrafast gates at low power ( http://arxiv.org/abs/2103.16724v1 )

ライセンス: Link先を確認
Stefano Bosco and M\'onica Benito and Christoph Adelsberger and Daniel Loss(参考訳) 平面geヘテロ構造におけるホールスピン量子ビットは、スケーラブルな量子コンピュータの最前線プラットフォームの一つである。 これらのシステムでは、スピン軌道相互作用は効率的な全電気量子ビット制御を可能にする。 我々は、これらの相互作用を桁違いに強化し、ghz帯で低消費電力の超高速量子ビット演算を実現する平面デバイスの最小限の設計修正を提案する。 我々のアプローチは、量子ドットを1方向に強く絞り込む非対称ポテンシャルに基づいている。 この閉じ込めによって引き起こされるスピン軌道相互作用は、成長方向やひずみなどのデバイスの顕微鏡的な詳細に依存しず、最先端の量子ビットの要求に応じてオン/オフすることができる。

Hole spin qubits in planar Ge heterostructures are one of the frontrunner platforms for scalable quantum computers. In these systems, the spin-orbit interactions permit efficient all-electric qubit control. We propose a minimal design modification of planar devices that enhances these interactions by orders of magnitude and enables low power ultrafast qubit operations in the GHz range. Our approach is based on an asymmetric potential that strongly squeezes the quantum dot in one direction. This confinement-induced spin-orbit interaction does not rely on microscopic details of the device such as growth direction or strain, and could be turned on and off on demand in state-of-the-art qubits.
翻訳日:2023-04-06 03:22:51 公開日:2021-03-30
# マヨラナゼロモードのハイブリッド光物質ネットワーク

Hybrid light-matter networks of Majorana zero modes ( http://arxiv.org/abs/2103.16679v1 )

ライセンス: Link先を確認
L. C. Contamin, M.R. Delbecq, B. Dou \c{c}ot, A. Cottet and T. Kontos(参考訳) マヨラナゼロモードのようなトポロジカル励起は量子情報を符号化するための有望な経路である。 マヨラナキュービットの位相的に保護されたゲートは、そのブレイディングに基づいて、ある種のネットワークを必要とする。 本稿では,マイクロ波空洞QEDセットアップにおいてマヨラナ物質を光で絡み合わせることで,そのようなネットワークを構築することを提案する。 本手法は、マヨラナナノスケールの全ての回路プラットフォームに共通な光誘起相互作用を利用する。 この効果は、物理的マヨラナモードの1次元鎖における光-物質結合のパラメトリック駆動に由来する。 我々の設定により、フィッティング、ブレイディング、重要なTゲート、読み出し、そして重要なことは物理的Majoranaモードの安定化や修正といった、Majorana量子コンピューティングプラットフォームに必要な基本的な操作がすべて可能になります。

Topological excitations, such as Majorana zero modes, are a promising route for encoding quantum information. Topologically protected gates of Majorana qubits, based on their braiding, will require some form of network. Here, we propose to build such a network by entangling Majorana matter with light in a microwave cavity QED setup. Our scheme exploits a light-induced interaction which is universal to all the Majorana nanoscale circuit platforms. This effect stems from a parametric drive of the light-matter coupling in a one-dimensional chain of physical Majorana modes. Our setup enables all the basic operations needed in a Majorana quantum computing platform such as fusing, braiding, the crucial T-gate, the read-out and, importantly, the stabilization or correction of the physical Majorana modes.
翻訳日:2023-04-06 03:22:41 公開日:2021-03-30
# 真に自然な情報尺度

A genuinely natural information measure ( http://arxiv.org/abs/2103.16662v1 )

ライセンス: Link先を確認
Andreas Winter(参考訳) 情報の理論的測定はシャノンの数学的コミュニケーション理論(英語版)で始まり、現在広く使われている量であるエントロピー(英語版)をビット単位で測定することを提案した。 しかし、同じ論文でシャノンはnatsの連続系の情報を測定することを選んだが、これは二進対数ではなく自然数を使うことによってビットと異なる。 対数基底の選択には自然ではないことを指摘し、任意である。 我々はこの問題を、真に自然な情報尺度を提案して解決し、それをgnatsに委ねる。 gnatは情報理論において多くの利点があり、科学、芸術、日常生活において基礎となる方法論を採用することを提案する。

The theoretical measuring of information was famously initiated by Shannon in his mathematical theory of communication, in which he proposed a now widely used quantity, the entropy, measured in bits. Yet, in the same paper, Shannon also chose to measure the information in continuous systems in nats, which differ from bits by the use of the natural rather than the binary logarithm. We point out that there is nothing natural about the choice of logarithm basis, rather it is arbitrary. We remedy this problematic state of affairs by proposing a genuinely natural measure of information, which we dub gnats. We show that gnats have many advantages in information theory, and propose to adopt the underlying methodology throughout science, arts and everyday life.
翻訳日:2023-04-06 03:22:23 公開日:2021-03-30
# 接触構造の動的量子化

Dynamical Quantization of Contact Structures ( http://arxiv.org/abs/2103.16645v1 )

ライセンス: Link先を確認
Roger Casals, Gabriel Herczeg, Andrew Waldron(参考訳) ヒルベルトトラクタ束に作用する平坦な接続の観点から接触多様体の動的量子化を構築する。 接触形式の選択に依存しないこの接触量子化は、R+-作用に関して同変的に周囲の厳密な接触多様体のリーブ力学を定量化することにより得られることを示す。 接触量子化はさらに、平行部がリーブダイナミクスの識別選択とその量子化を決定する接触トラクタ接続を決定する。 この関係は放物線ジオメトリからのトラクター構造に依存しており、アインシュタイン計量と共形ジオメトリの間の密接な関係を反映している。 最後に、ホルシュタイン・プリマコフ変換が驚くべき外観となる3次元球面上の唯一の密接接触構造の動的量子化を詳細に構築する。

We construct a dynamical quantization for contact manifolds in terms of a flat connection acting on a Hilbert tractor bundle. We show that this contact quantization, which is independent of the choice of contact form, can be obtained by quantizing the Reeb dynamics of an ambient strict contact manifold equivariantly with respect to an R+-action. The contact quantization further determines a certain contact tractor connection whose parallel sections determine a distinguished choice of Reeb dynamics and their quantization. This relationship relies on tractor constructions from parabolic geometries and mirrors the tight relationship between Einstein metrics and conformal geometries. Finally, we construct in detail the dynamical quantization of the unique tight contact structure on the 3-sphere, where the Holstein-Primakoff transformation makes a surprising appearance.
翻訳日:2023-04-06 03:21:38 公開日:2021-03-30
# 組合せゲージ対称性を持つ系におけるZ2位相秩序と一階量子相転移

Z2 topological order and first-order quantum phase transitions in systems with combinatorial gauge symmetry ( http://arxiv.org/abs/2103.16625v1 )

ライセンス: Link先を確認
Kai-Hsin Wu, Zhi-Cheng Yang, Dmitry Green, Anders W. Sandvik, Claudio Chamon(参考訳) 強磁性体と反強磁性体の両方の相互作用を組み合わせた2次元横磁場イジングモデルの一般化について検討した。 正確な対角化と確率級数展開量子モンテカルロ法を用いて、以前の理論的予測と整合した位相相の存在を確認する。 シミュレーションの結果, 従来のZ2格子ゲージモデルとは対照的に, 閉じ込められた位相相と分解された常磁性相の遷移は1次であり, 遷移が標準イジングモデルにマップされ, 連続であることがわかった。 さらに、局所ゲージ対称性を保ちながら、ゲージスピン上の横磁場を強磁性XX相互作用に置き換えることでモデルをさらに一般化する。 Z2トポロジカル相は安定であり、常磁性相は強磁性相に置き換えられている。 トポロジカル-強磁性量子相転移も1次である。 どちらのモデルも、トポロジカル位相の低エネルギースピノンおよびバイソン励起と、一階量子相転移に伴うそれらの回避レベル交差について議論する。

We study a generalization of the two-dimensional transverse-field Ising model, combining both ferromagnetic and antiferromagnetic two-body interactions, that hosts exact global and local Z2 gauge symmetries. Using exact diagonalization and stochastic series expansion quantum Monte Carlo methods, we confirm the existence of the topological phase in line with previous theoretical predictions. Our simulation results show that the transition between the confined topological phase and the deconfined paramagnetic phase is of first-order, in contrast to the conventional Z2 lattice gauge model in which the transition maps onto that of the standard Ising model and is continuous. We further generalize the model by replacing the transverse field on the gauge spins with a ferromagnetic XX interaction while keeping the local gauge symmetry intact. We find that the Z2 topological phase remains stable, while the paramagnetic phase is replaced by a ferromagnetic phase. The topological-ferromagnetic quantum phase transition is also of first-order. For both models, we discuss the low-energy spinon and vison excitations of the topological phase and their avoided level crossings associated with the first-order quantum phase transitions.
翻訳日:2023-04-06 03:21:27 公開日:2021-03-30
# 量子サブハーモニック生成の早期挙動について

On the early-time behavior of quantum subharmonic generation ( http://arxiv.org/abs/2103.16619v1 )

ライセンス: Link先を確認
Yunjin Choi, Boerge Hemmerling, Shan-Wen Tsai, and Allen P. Mills Jr(参考訳) 数年前、 avetissian {\it et al。 } \cite{avetissian 2014,avetissian2015} は、一重項ポジトロニウムボース=アインシュタイン凝縮物からの励起消滅光子の指数的成長速度は、数密度自身ではなく、ポジトロニウム数密度の平方根に比例することを発見した。 場の理論解析により得られたこの驚くべき結果を解明するために、基本物理学は2つの量子振動子間の共振サブハーモニック遷移と同じものであることを指摘した。 このモデルを用いて, avetissian {\it et al によって発見された型の非線形性を示す。 ポジトロニウムに特有のものではなく、実際には非線形結合型量子発振器としてモデル化できる幅広いシステムで遭遇する。

A few years ago Avetissian {\it et al.} \cite{Avetissian2014,Avetissian2015} discovered that the exponential growth rate of the stimulated annihilation photons from a singlet positronium Bose-Einstein condensate should be proportional to the square root of the positronium number density, not to the number density itself. In order to elucidate this surprising result obtained via a field-theoretical analysis, we point out that the basic physics involved is the same as that of resonant subharmonic transitions between two quantum oscillators. Using this model, we show that nonlinearities of the type discovered by Avetissian {\it et al.} are not unique to positronium and in fact will be encountered in a wide range of systems that can be modeled as nonlinearly coupled quantum oscillators.
翻訳日:2023-04-06 03:21:03 公開日:2021-03-30
# 機械学習による固体流体中の超音波導波伝播の予測とその不確実性下での界面

Prediction of Ultrasonic Guided Wave Propagation in Solid-fluid and their Interface under Uncertainty using Machine Learning ( http://arxiv.org/abs/2105.02813v1 )

ライセンス: Link先を確認
Subhayan De, Bhuiyan Shameem Mahmood Ebna Hai, Alireza Doostan, Markus Bause(参考訳) 構造ヘルスモニタリング(shm)システムは、損傷識別に非破壊検査原理を使用する。 SHMの一部として、超音波誘導波(UGW)の伝搬を追跡し、関連する波動パターンの変化を解析する。 これらの変化は、構造的な損傷の位置を特定するのに役立つ。 我々は,構造物の材料および幾何学的特性の不確かさを考慮し,既存研究を推し進める。 本研究で用いられる物理モデルは,流体固体における波動伝播と界面(WpFSI)問題として知られる,音波および弾性波動方程式のモノリシック結合系からなる。 UGWは固体、流体、およびその界面に伝播するので、波信号の変位測定はベンチマークパターンと対比される。 数値解法として,不確実性下での多量体問題に対する本質的複雑性をうまく解決する効率的なアルゴリズムを開発した。 固体流体中のUGW伝播とその界面の不確実性を予測するために,ガウス過程回帰と畳み込みニューラルネットワークを用いた手法を提案する。 まず,音波方程式と弾性波方程式をモノリシックに結合したシステムを用いて,構造内に含まれる不確かさパラメータの異なる実現のためのトレーニング画像を生成する。 次に、これらの画像で訓練されたガウス過程を用いて、畳み込みニューラルネットワークによる伝播波の予測を行い、不確実性の新しい実現のための高品質な波形パターンの画像を生成する。 その結果,提案手法は不確実性が存在する場合のWpFSI問題を正確に予測できることを示した。

Structural health monitoring (SHM) systems use the non-destructive testing principle for damage identification. As part of SHM, the propagation of ultrasonic guided waves (UGWs) is tracked and analyzed for the changes in the associated wave pattern. These changes help identify the location of a structural damage, if any. We advance existing research by accounting for uncertainty in the material and geometric properties of a structure. The physics model used in this study comprises of a monolithically coupled system of acoustic and elastic wave equations, known as the wave propagation in fluid-solid and their interface (WpFSI) problem. As the UGWs propagate in the solid, fluid, and their interface, the wave signal displacement measurements are contrasted against the benchmark pattern. For the numerical solution, we develop an efficient algorithm that successfully addresses the inherent complexity of solving the multiphysics problem under uncertainty. We present a procedure that uses Gaussian process regression and convolutional neural network for predicting the UGW propagation in a solid-fluid and their interface under uncertainty. First, a set of training images for different realizations of the uncertain parameters of the inclusion inside the structure is generated using a monolithically-coupled system of acoustic and elastic wave equations. Next, Gaussian processes trained with these images are used for predicting the propagated wave with convolutional neural networks for further enhancement to produce high-quality images of the wave patterns for new realizations of the uncertainty. The results indicate that the proposed approach provides an accurate prediction for the WpFSI problem in the presence of uncertainty.
翻訳日:2023-04-06 03:14:56 公開日:2021-03-30
# NaijaNER : ナイジェリア語5言語に対する総合的なエンティティ認識

NaijaNER : Comprehensive Named Entity Recognition for 5 Nigerian Languages ( http://arxiv.org/abs/2105.00810v1 )

ライセンス: Link先を確認
Wuraola Fisayo Oyewusi, Olubayo Adekanmbi, Ifeoma Okoh, Vitus Onuigwe, Mary Idera Salami, Opeyemi Osakuade, Sharon Ibejih, Usman Abdullahi Musa(参考訳) 名前付きエンティティ認識(ner)の一般的な応用のほとんどは、英語や他の高可用性言語である。 本研究では,ナイジェリア語5言語(ナイジェリア語,ナイジェリア語,ピジン語,イグボ語,ヨルバ語,ハウサ語)の固有認識について述べる。 これらの言語は低リソースと見なされており、オープンソースで利用可能な自然言語処理作業はほとんど行われていない。 この研究では、個々のNERモデルをトレーニングし、各言語でメトリクスを記録する。 また、5つの言語のいずれかで名前付きエンティティ認識(NER)を処理できる統合モデルも開発しました。 組み合わせモデルは、それぞれの言語で名前付きエンティティ認識(NER)に対してうまく機能し、特定の言語の注釈付きデータに特化して訓練された個々のNERモデルと比較してパフォーマンスが良い。 本研究の目的は,ナイジェリアの一覧言語に対して,名前付きエンティティ認識を用いた情報抽出をどのように最適化できるか,本番環境への展開の容易さ,モデルの再利用性について学ぶことにある。 このプロジェクトで開発されたモデルはgithub https://git.io/jy0kkとインタラクティブなwebアプリhttps://nigner.herokuapp.com/で入手できる。

Most of the common applications of Named Entity Recognition (NER) is on English and other highly available languages. In this work, we present our findings on Named Entity Recognition for 5 Nigerian Languages (Nigerian English, Nigerian Pidgin English, Igbo, Yoruba and Hausa). These languages are considered low-resourced, and very little openly available Natural Language Processing work has been done in most of them. In this work, individual NER models were trained and metrics recorded for each of the languages. We also worked on a combined model that can handle Named Entity Recognition (NER) for any of the five languages. The combined model works well for Named Entity Recognition(NER) on each of the languages and with better performance compared to individual NER models trained specifically on annotated data for the specific language. The aim of this work is to share our learning on how information extraction using Named Entity Recognition can be optimized for the listed Nigerian Languages for inclusion, ease of deployment in production and reusability of models. Models developed during this project are available on GitHub https://git.io/JY0kk and an interactive web app https://nigner.herokuapp.com/.
翻訳日:2023-04-06 03:14:28 公開日:2021-03-30
# エネルギー効率の良いフェデレーションエッジ学習のための閾値に基づくデータ排除手法

Threshold-Based Data Exclusion Approach for Energy-Efficient Federated Edge Learning ( http://arxiv.org/abs/2104.05509v1 )

ライセンス: Link先を確認
Abdullatif Albaseer, Mohamed Abdallah, Ala Al-Fuqaha, and Aiman Erbad(参考訳) Federated Edge Learning (FEEL) は次世代無線ネットワークにおいて有望な分散学習技術である。 feelはユーザのプライバシを守り、通信コストを削減し、ネットワークエッジで発生する膨大なデータを活用することで、エッジデバイスの前例のない能力を活用して、共有グローバルモデルをトレーニングする。 しかし、FEELは、モデルトレーニングラウンド中に消費される電力により、エネルギー制約された参加機器の寿命を大幅に短縮する可能性がある。 本稿では,FEELラウンドにおける計算と通信エネルギーの消費を最小化するための新しい手法を提案する。 まず、所定のしきい値確率に基づいてモデルの品質を高めるサンプルのみをインテリジェントに選択する改良されたローカルトレーニングアルゴリズムを提案する。 そして、労働者のエネルギー予算、利用可能な帯域幅、チャネル状態、ビームフォーミング、ローカルCPU速度を考慮して、最適な局所計算時間と全エネルギー消費を最小化する最適な送信時間を得るために、共同エネルギー最小化および資源配分最適化問題として定式化する。 その後,感覚のロバスト性を保証する定式化問題に対する扱いやすい解法を提案する。 シミュレーションの結果,本手法は,局所消費エネルギーを最大79%削減し,ベースラインFEELアルゴリズムを著しく上回ることがわかった。

Federated edge learning (FEEL) is a promising distributed learning technique for next-generation wireless networks. FEEL preserves the user's privacy, reduces the communication costs, and exploits the unprecedented capabilities of edge devices to train a shared global model by leveraging a massive amount of data generated at the network edge. However, FEEL might significantly shorten energy-constrained participating devices' lifetime due to the power consumed during the model training round. This paper proposes a novel approach that endeavors to minimize computation and communication energy consumption during FEEL rounds to address this issue. First, we introduce a modified local training algorithm that intelligently selects only the samples that enhance the model's quality based on a predetermined threshold probability. Then, the problem is formulated as joint energy minimization and resource allocation optimization problem to obtain the optimal local computation time and the optimal transmission time that minimize the total energy consumption considering the worker's energy budget, available bandwidth, channel states, beamforming, and local CPU speed. After that, we introduce a tractable solution to the formulated problem that ensures the robustness of FEEL. Our simulation results show that our solution substantially outperforms the baseline FEEL algorithm as it reduces the local consumed energy by up to 79%.
翻訳日:2023-04-06 03:14:05 公開日:2021-03-30
# 人工知能とデータ駆動技術の設計への新たな参加的アプローチ

Towards a New Participatory Approach for Designing Artificial Intelligence and Data-Driven Technologies ( http://arxiv.org/abs/2104.04072v1 )

ライセンス: Link先を確認
Soaad Hossain, Syed Ishtiaque Ahmed(参考訳) 人工知能(AI)の技術的、倫理的な問題が多く、辺縁化コミュニティが関与しているため、辺縁化された人々で使われる設計手法がAI技術の設計に移行可能であることへの関心が高まっている。 参加型デザイン(Participatory Design, PD)は、社会開発、政策、IT、その他の問題やソリューションの設計において、疎外されたコミュニティでしばしば使用されるデザイン手法である。 しかし、現在のPDには問題があり、AI技術を含む技術設計に適用される際の懸念が持ち上がっている。 本稿では,AI技術の設計におけるPDの利用を論じ,私たちがアジャイル参加型設計と呼ぶ新しいPDを紹介し,提案する。これはAIやデータ駆動技術の設計に使用できるだけでなく,現在のPDとその技術設計における使用に関する問題を克服する。

With there being many technical and ethical issues with artificial intelligence (AI) that involve marginalized communities, there is a growing interest for design methods used with marginalized people that may be transferable to the design of AI technologies. Participatory design (PD) is a design method that is often used with marginalized communities for the design of social development, policy, IT and other matters and solutions. However, there are issues with the current PD, raising concerns when it is applied to the design of technologies, including AI technologies. This paper argues for the use of PD for the design of AI technologies, and introduces and proposes a new PD, which we call agile participatory design, that not only can could be used for the design of AI and data-driven technologies, but also overcomes issues surrounding current PD and its use in the design of such technologies.
翻訳日:2023-04-06 03:13:43 公開日:2021-03-30
# サイバーセキュリティの知識をネイティブレンズで拡大する

Expanding Cybersecurity Knowledge Through an Indigenous Lens: A First Look ( http://arxiv.org/abs/2104.04071v1 )

ライセンス: Link先を確認
Farrah Huntinghawk, Candace Richard, Sarah Plosker, Gautam Srivastava(参考訳) 植民地化と先住民教育は現在アカデミアにあるカナダのコンテンツの最前線にある。 過去数十年で、情報共有の方法に大きな変化が見られた。 特に、我々は電子的に共有されたコンテンツの時代に移行し、カナダではこのコンテンツが文化的に重要かつ関連性が高いと期待されている。 本稿では,西マニトバ地域のファースト・ネイションズ・コミュニティと現在進行中のコミュニティ・エンゲージメント・イニシアティブについて論じる。 このイニシアチブには、サイバーセキュリティのトピックに焦点を当てた知識共有活動が含まれており、一般の聴衆を対象としている。 教育プロジェクトに関するこの最初の考察は、概念分析と計画段階に焦点を当てています。 さまざまなグループを対象とした1時間に及ぶワークショップ(これらの公開ワークショップは、技術系から技術系まで、幅広い参加者を含む可能性がある)で実施するために、cybersecurity 101"ミニカーリキュラムを開発しています。 ワークショッププログラムには学習評価ツールが組み込まれている。 我々は,この話題との関連性と個人的つながりを確信する情報的・促進的パンフレット,ポスター,レッスンプラン,フィードバックアンケートを作成し,現地住民のアクセシビリティのギャップを埋めるとともに,肯定的かつ相互的な関係の構築に努めた。 私たちの方法論は、コミュニティのニーズと優先順位の観点から主題にアプローチすることです。 それゆえ、活動はそれぞれのコミュニティに合うように調整されている。

Decolonization and Indigenous education are at the forefront of Canadian content currently in Academia. Over the last few decades, we have seen some major changes in the way in which we share information. In particular, we have moved into an age of electronically-shared content, and there is an increasing expectation in Canada that this content is both culturally significant and relevant. In this paper, we discuss an ongoing community engagement initiative with First Nations communities in the Western Manitoba region. The initiative involves knowledge-sharing activities that focus on the topic of cybersecurity, and are aimed at a public audience. This initial look into our educational project focuses on the conceptual analysis and planning stage. We are developing a "Cybersecurity 101" mini-curriculum, to be implemented over several one-hour long workshops aimed at diverse groups (these public workshops may include a wide range of participants, from tech-adverse to tech-savvy). Learning assessment tools have been built in to the workshop program. We have created informational and promotional pamphlets, posters, lesson plans, and feedback questionnaires which we believe instill relevance and personal connection to this topic, helping to bridge gaps in accessibility for Indigenous communities while striving to build positive, reciprocal relationships. Our methodology is to approach the subject from a community needs and priorities perspective. Activities are therefore being tailored to fit each community.
翻訳日:2023-04-06 03:13:28 公開日:2021-03-30
# 眼科応用のための実世界マルチモーダル縦断データI-ODA

I-ODA, Real-World Multi-modal Longitudinal Data for OphthalmicApplications ( http://arxiv.org/abs/2104.02609v1 )

ライセンス: Link先を確認
Nooshin Mojab, Vahid Noroozi, Abdullah Aleem, Manoj P. Nallabothula, Joseph Baker, Dimitri T. Azar, Mark Rosenblatt, RV Paul Chan, Darvin Yi, Philip S. Yu, Joelle A. Hallak(参考訳) 臨床現実世界の設定から得られるデータは、品質、マシンタイプ、設定、ソースのばらつきによって特徴づけられる。 医療コンピュータビジョンの主な目的の1つは、臨床翻訳を可能にする実世界のデータに基づいて人工知能(AI)ベースのアルゴリズムを開発し、検証することである。 しかし、医療、特に眼科におけるAIベースのアプリケーションの増加にもかかわらず、臨床現場への翻訳は依然として困難である。 適切な多様な実世界のデータへの限られたアクセスは、翻訳可能なアルゴリズムの開発と検証を阻害する。 本稿では,眼科領域における最先端コンピュータビジョンの進歩と,異なる臨床領域におけるAIベースのアプリケーションの翻訳能力の向上を目的として,新しい多モード長手眼画像データセットであるイリノイ眼科データベースアトラス(I-ODA)を提案する。 本稿では,複数のソースから画像の収集,注釈,匿名化を行うためのインフラを提示し,実世界の振り返りデータの複雑さとその限界を実証する。 I-ODAには12の画像モダリティが含まれており、12年間にイリノイ大学シカゴ校眼科学科の33,876人の眼科医の合計3,668,649枚の眼科画像が含まれている。

Data from clinical real-world settings is characterized by variability in quality, machine-type, setting, and source. One of the primary goals of medical computer vision is to develop and validate artificial intelligence (AI) based algorithms on real-world data enabling clinical translations. However, despite the exponential growth in AI based applications in healthcare, specifically in ophthalmology, translations to clinical settings remain challenging. Limited access to adequate and diverse real-world data inhibits the development and validation of translatable algorithms. In this paper, we present a new multi-modal longitudinal ophthalmic imaging dataset, the Illinois Ophthalmic Database Atlas (I-ODA), with the goal of advancing state-of-the-art computer vision applications in ophthalmology, and improving upon the translatable capacity of AI based applications across different clinical settings. We present the infrastructure employed to collect, annotate, and anonymize images from multiple sources, demonstrating the complexity of real-world retrospective data and its limitations. I-ODA includes 12 imaging modalities with a total of 3,668,649 ophthalmic images of 33,876 individuals from the Department of Ophthalmology and Visual Sciences at the Illinois Eye and Ear Infirmary of the University of Illinois Chicago (UIC) over the course of 12 years.
翻訳日:2023-04-06 03:12:52 公開日:2021-03-30
# NILMにおける低サンプリングレート対応のためのデータ拡張

Data augmentation for dealing with low sampling rates in NILM ( http://arxiv.org/abs/2104.02055v1 )

ライセンス: Link先を確認
Tai Le Quy, Sergej Zerr, Eirini Ntoutsi and Wolfgang Nejdl(参考訳) データはNILMアルゴリズムの性能を評価する上で重要な役割を果たしている。 NILMアルゴリズムの最高の性能は、高品質な評価データによって達成される。 しかし、既存の現実世界のデータセットの多くは、サンプリング品質が低く、しばしばギャップがあり、記録期間のデータが不足している。 その結果、NILMアルゴリズムはデバイスをほとんど認識できず、消費電力を適切に見積もることができる。 これらのエネルギー分解法の性能向上に向けた重要なステップは、データセットの品質向上である。 本稿では, 低サンプリング率データのサンプリング率を向上させるために, いくつかの手法を用いて実験を行った。 その結果,低周波データの増大は,高Fスコア測定により家電の消費を推定するNILMアルゴリズムを支持できることがわかった。

Data have an important role in evaluating the performance of NILM algorithms. The best performance of NILM algorithms is achieved with high-quality evaluation data. However, many existing real-world data sets come with a low sampling quality, and often with gaps, lacking data for some recording periods. As a result, in such data, NILM algorithms can hardly recognize devices and estimate their power consumption properly. An important step towards improving the performance of these energy disaggregation methods is to improve the quality of the data sets. In this paper, we carry out experiments using several methods to increase the sampling rate of low sampling rate data. Our results show that augmentation of low-frequency data can support the considered NILM algorithms in estimating appliances' consumption with a higher F-score measurement.
翻訳日:2023-04-06 03:12:29 公開日:2021-03-30
# バイパルタイト量子状態におけるスクワッドエンタングルメントとコンカレンスとのトレードオフ

Trade-off between Squashed Entanglement and Concurrence in Bipartite Quantum States ( http://arxiv.org/abs/2103.17075v1 )

ライセンス: Link先を確認
Kapil K. Sharma and Suprabhat Sinha(参考訳) 本稿では,2つの異なるハミルトニアンの下で,ワーナー状態と最大絡み合った混合状態(MEMS)における赤道絡み合いとコンカレンス対策のユニタリダイナミクスについて検討する。 本研究の目的は2つの折りたたみである。 研究の第1部はハイゼンベルク・ハミルトニアンの下での力学、第2部は第一ハミルトニアンの拡張である双線型双四次ハミルトニアンの下で扱う。 両部において, 密接な絡み合いと合流点の動的トレードオフとバランス点について検討する。 調査中, コンカレンス測定により, ヴェルナー州でハイゼンベルク・ハミルトニアン (Heisenberg Hamiltonian) との絡み合い死 (ESD) の結果も得られた。 第2部では,バイリニア双二次ハミルトニアンの特殊結果について検討し,両状態の絡み合いや共起を妨げず,両状態のロバストな特性を示す。

In this article we investigate the unitary dynamics of squashed entanglement and concurrence measures in Werner state and maximally entangled mixed states (MEMS) under two different Hamiltonians. The aim of the present study is two fold. The first part of the study deals with the dynamics under Heisenberg Hamiltonian and the second part deals under bi-linear bi-quadratic Hamiltonian which is the extension of first Hamiltonian. In both the parts we investigate the dynamical trade off and balancing points for squashed entanglement and concurrence. During the study, we also found the results of entanglement sudden death (ESD) with Heisenberg Hamiltonian in Werner state under concurrence measure. In second part, we investigate the special result for bi-linear bi-quadratic Hamiltonian; it does not disturb squashed entanglement and concurrence in both the states and exhibit the robust character for both of the states.
翻訳日:2023-04-06 03:12:18 公開日:2021-03-30
# 量子エンタングルメントによる重力の間接検出

Indirect detection of gravitons through quantum entanglement ( http://arxiv.org/abs/2103.17053v1 )

ライセンス: Link先を確認
Sugumi Kanno, Jiro Soda, Junsei Tokuda(参考訳) 等腕干渉計の端に吊るされた2つのマクロミラー間の絡み合いが、ブレムスシュトラルングを介して重力波のノイズによって破壊される実験を提案する。 ノイズの相関関数を計算することにより、デコヒーレンス汎関数からデコヒーレンス時間を求める。 その結果,40kmの腕と40kgの鏡では,圧縮状態における重力のノイズによるデコヒーレンス時間は約20秒であることがわかった。 解析の結果,量子エンタングルメントのデコヒーレンス時間の観測は間接的に重力を検出できる可能性が示唆された。 この間接的な重力の検出は、量子重力の強い証拠となる。

We propose an experiment that the entanglement between two macroscopic mirrors suspended at the end of an equal-arm interferometer is destroyed by the noise of gravitons through bremsstrahlung. By calculating the correlation function of the noise, we obtain the decoherence time from the decoherence functional. We estimate that the decoherence time induced by the noise of gravitons in squeezed states stemming from inflation is approximately 20 seconds for 40 km long arms and 40 kg mirrors. Our analysis shows that observation of the decoherence time of quantum entanglement has the potential to detect gravitons indirectly. This indirect detection of gravitons would give strong evidence of quantum gravity.
翻訳日:2023-04-06 03:12:00 公開日:2021-03-30
# 非逐次データに対する教師付き学習:正準多進分解アプローチ

Supervised Learning for Non-Sequential Data: A Canonical Polyadic Decomposition Approach ( http://arxiv.org/abs/2001.10109v3 )

ライセンス: Link先を確認
Alexandros Haliassos, Kriton Konstantinidis, Danilo P. Mandic(参考訳) 特徴的相互作用の効率的なモデリングは、特徴(変数)固有の順序の欠如を特徴とする、非順序的タスクに対する教師あり学習の基盤となる。 それぞれの順序の相互作用のパラメータを学習する残酷な力のアプローチは、指数計算とメモリコスト(次元の計算)によって得られる。 この問題を緩和するために、モデルパラメータをテンソルとして暗黙的に表現することが提案されており、その順序は特徴数に等しい。 しかし、ttおよびテンソル環や階層的タッカーのような他のテンソルネットワーク(tns)は、それらのインデックスの順序(したがって特徴)に敏感である。 特徴順序に対する所望の不変性を確立するために,標準多進分解(cpd)による重みテンソルの表現と,適切な正規化と初期化スキームを含む関連する推論・学習アルゴリズムの導入を提案する。 提案するcpベースの予測器は,sparseデータを用いた他のtnベースの予測器を有意に上回り,密集した非系列タスクでは同等の性能を示した。 さらに,表現性を高めるために,任意の高次元特徴ベクトルへの特徴マッピングを可能にするフレームワークを一般化する。 これは特徴ベクトル正規化と相まって、完全連結ニューラルネットワークのようなモデルにマッチする密集した非シーケンスタスクのパフォーマンスを劇的に改善することが示されている。

Efficient modelling of feature interactions underpins supervised learning for non-sequential tasks, characterized by a lack of inherent ordering of features (variables). The brute force approach of learning a parameter for each interaction of every order comes at an exponential computational and memory cost (Curse of Dimensionality). To alleviate this issue, it has been proposed to implicitly represent the model parameters as a tensor, the order of which is equal to the number of features; for efficiency, it can be further factorized into a compact Tensor Train (TT) format. However, both TT and other Tensor Networks (TNs), such as Tensor Ring and Hierarchical Tucker, are sensitive to the ordering of their indices (and hence to the features). To establish the desired invariance to feature ordering, we propose to represent the weight tensor through the Canonical Polyadic (CP) Decomposition (CPD), and introduce the associated inference and learning algorithms, including suitable regularization and initialization schemes. It is demonstrated that the proposed CP-based predictor significantly outperforms other TN-based predictors on sparse data while exhibiting comparable performance on dense non-sequential tasks. Furthermore, for enhanced expressiveness, we generalize the framework to allow feature mapping to arbitrarily high-dimensional feature vectors. In conjunction with feature vector normalization, this is shown to yield dramatic improvements in performance for dense non-sequential tasks, matching models such as fully-connected neural networks.
翻訳日:2023-01-06 07:51:04 公開日:2021-03-30
# 表現を学習し, 証明可能な, 数少ない学習

Few-Shot Learning via Learning the Representation, Provably ( http://arxiv.org/abs/2002.09434v2 )

ライセンス: Link先を確認
Simon S. Du, Wei Hu, Sham M. Kakade, Jason D. Lee, Qi Lei(参考訳) 本稿では,1タスクあたり$n_1$のデータを持つ$t$ソースタスクを使用して表現を学習し,$n_2 (\ll n_1)$データしか存在しない対象タスクのサンプル複雑性を低減する,表現学習による少数ショット学習について検討する。 具体的には、ソースとターゲットの間に良い \emph{common representation} が存在するような設定に焦点を合わせ、サンプルサイズの削減がどの程度可能かを理解することを目的とする。 まず、この共通表現が低次元であるような設定を研究し、より速いレートで $o\left(\frac{\mathcal{c}\left(\phi\right)}{n_1t} + \frac{k}{n_2}\right)$; ここで、$\phi$ は表現関数クラス、$\mathcal{c}\left(\phi\right)$ はその複雑性測度であり、$k$ はその表現の次元である。 線型表現関数に特化すると、このレートは$O\left(\frac{dk}{n_1T} + \frac{k}{n_2}\right)$となる。 この結果は、i.d.タスクの仮定の下で$\Omega(\frac{1}{T})$バリアをバイパスし、ソースタスクからのすべての$n_1T$サンプルが、表現学習のために一緒に \emph{pooled} とすることができる。 次に,共通表現が高次元でキャパシティ制約のある設定を考える(例:ノルム)。ここでは,高次元線形回帰とニューラルネットワーク学習の両方において,表現学習の利点を再度示す。 その結果、表現学習はソースタスクから得られるすべての$n_1T$サンプルをフル活用できることを示した。

This paper studies few-shot learning via representation learning, where one uses $T$ source tasks with $n_1$ data per task to learn a representation in order to reduce the sample complexity of a target task for which there is only $n_2 (\ll n_1)$ data. Specifically, we focus on the setting where there exists a good \emph{common representation} between source and target, and our goal is to understand how much of a sample size reduction is possible. First, we study the setting where this common representation is low-dimensional and provide a fast rate of $O\left(\frac{\mathcal{C}\left(\Phi\right)}{n_1T} + \frac{k}{n_2}\right)$; here, $\Phi$ is the representation function class, $\mathcal{C}\left(\Phi\right)$ is its complexity measure, and $k$ is the dimension of the representation. When specialized to linear representation functions, this rate becomes $O\left(\frac{dk}{n_1T} + \frac{k}{n_2}\right)$ where $d (\gg k)$ is the ambient input dimension, which is a substantial improvement over the rate without using representation learning, i.e. over the rate of $O\left(\frac{d}{n_2}\right)$. This result bypasses the $\Omega(\frac{1}{T})$ barrier under the i.i.d. task assumption, and can capture the desired property that all $n_1T$ samples from source tasks can be \emph{pooled} together for representation learning. Next, we consider the setting where the common representation may be high-dimensional but is capacity-constrained (say in norm); here, we again demonstrate the advantage of representation learning in both high-dimensional linear regression and neural network learning. Our results demonstrate representation learning can fully utilize all $n_1T$ samples from source tasks.
翻訳日:2022-12-30 01:11:48 公開日:2021-03-30
# 特徴正規化とデータ拡張について

On Feature Normalization and Data Augmentation ( http://arxiv.org/abs/2002.11102v3 )

ライセンス: Link先を確認
Boyi Li and Felix Wu and Ser-Nam Lim and Serge Belongie and Kilian Q. Weinberger(参考訳) 遅延特徴のモーメント(平均偏差と標準偏差)は、画像認識モデルのトレーニング時にノイズとして除去され、安定性を高め、トレーニング時間を短縮する。 しかし、画像生成の分野では、モーメントがより中心的な役割を果たす。 サンプルの正規化と位置の正規化から抽出したモーメントは、画像のスタイルや形状情報を大まかに捉えることができる。 廃棄される代わりに、これらの瞬間は生成プロセスに役立ちます。 本稿では、モデルが認識モデルにもモーメント情報を利用するように促す暗黙のデータ拡張手法であるモーメント交換を提案する。 具体的には、あるトレーニングイメージの学習した特徴のモーメントを、別のトレーニングイメージのモーメントに置き換え、ターゲットラベルを補間し、モデルに正規化された特徴に加えて、モーメントからトレーニング信号の抽出を強制する。 我々のアプローチは高速で、機能空間で完全に動作し、以前の方法と異なる信号が混在しているため、既存の拡張アプローチと効果的に組み合わせることができる。 高い競争力を持つベースラインネットワークの一般化能力を向上させるために,いくつかの評価ベンチマークデータセットで有効性を示す。

The moments (a.k.a., mean and standard deviation) of latent features are often removed as noise when training image recognition models, to increase stability and reduce training time. However, in the field of image generation, the moments play a much more central role. Studies have shown that the moments extracted from instance normalization and positional normalization can roughly capture style and shape information of an image. Instead of being discarded, these moments are instrumental to the generation process. In this paper we propose Moment Exchange, an implicit data augmentation method that encourages the model to utilize the moment information also for recognition models. Specifically, we replace the moments of the learned features of one training image by those of another, and also interpolate the target labels -- forcing the model to extract training signal from the moments in addition to the normalized features. As our approach is fast, operates entirely in feature space, and mixes different signals than prior methods, one can effectively combine it with existing augmentation approaches. We demonstrate its efficacy across several recognition benchmark data sets where it improves the generalization capability of highly competitive baseline networks with remarkable consistency.
翻訳日:2022-12-28 20:18:27 公開日:2021-03-30
# 未知情報を用いた生成ODEモデリング

Generative ODE Modeling with Known Unknowns ( http://arxiv.org/abs/2003.10775v2 )

ライセンス: Link先を確認
Ori Linial, Neta Ravid, Danny Eytan, Uri Shalit(参考訳) いくつかの重要な応用において、ドメイン知識は通常の微分方程式(ODE)の体系によって符号化される。 心臓血管系とその関連する変数(心拍数、心臓収縮性、出力、血管抵抗)のような重要な生理機能のダイナミクスは、ODEの既知のシステムによって概ね説明できる。 通常、ODE変数のいくつかは直接観察される(心拍数や血圧など)が、一部の変数は観察されない(心臓収縮性、出力、血管抵抗)。 我々はそれらの存在と機能的ダイナミクスは知っているが、直接測定することはできず、観測されたすべての測定値にそれらを結びつける関数も知らない。 医学、特に心臓血管系では、これらの既知の未知を推定することは非常に貴重であり、治療の標的として機能する。 このシナリオでは、観測された各時系列を生成するODEのパラメータを学習し、ODE変数と観測結果の将来を概説したい。 本稿では,GOKU-net(Goku-net for Generative ODE Modeling with Known Unknowns)と呼ばれる,既知のODE関数を組み込んだ変分オートエンコーダを用いてこの問題に対処する。 まず,長さや質量が不明な単振り子と二重振り子のビデオを用いて本手法を検証し,心血管系のモデルに適用する。 既知の未知のパラメータをモデル化することで,臨床的に有意義なシステムパラメータの発見に成功し,補間精度が向上し,より小さなトレーニングセットを用いた学習が可能になる。

In several crucial applications, domain knowledge is encoded by a system of ordinary differential equations (ODE), often stemming from underlying physical and biological processes. A motivating example is intensive care unit patients: the dynamics of vital physiological functions, such as the cardiovascular system with its associated variables (heart rate, cardiac contractility and output and vascular resistance) can be approximately described by a known system of ODEs. Typically, some of the ODE variables are directly observed (heart rate and blood pressure for example) while some are unobserved (cardiac contractility, output and vascular resistance), and in addition many other variables are observed but not modeled by the ODE, for example body temperature. Importantly, the unobserved ODE variables are known-unknowns: We know they exist and their functional dynamics, but cannot measure them directly, nor do we know the function tying them to all observed measurements. As is often the case in medicine, and specifically the cardiovascular system, estimating these known-unknowns is highly valuable and they serve as targets for therapeutic manipulations. Under this scenario we wish to learn the parameters of the ODE generating each observed time-series, and extrapolate the future of the ODE variables and the observations. We address this task with a variational autoencoder incorporating the known ODE function, called GOKU-net for Generative ODE modeling with Known Unknowns. We first validate our method on videos of single and double pendulums with unknown length or mass; we then apply it to a model of the cardiovascular system. We show that modeling the known-unknowns allows us to successfully discover clinically meaningful unobserved system parameters, leads to much better extrapolation, and enables learning using much smaller training sets.
翻訳日:2022-12-20 08:24:14 公開日:2021-03-30
# マルチスケール露光補正の学習

Learning Multi-Scale Photo Exposure Correction ( http://arxiv.org/abs/2003.11596v3 )

ライセンス: Link先を確認
Mahmoud Afifi, Konstantinos G. Derpanis, Bj\"orn Ommer, Michael S. Brown(参考訳) 露出を間違えた写真を撮影することは、カメラベースの画像の誤りの主な原因である。 露光問題は以下のどちらかに分類される。 (i)カメラの露出が長すぎる露光が過度に露光され、画像領域が明るく洗い流されたり、 (ii)露光が短すぎ、暗黒領域が生じた。 露出不足と露出過剰は、画像のコントラストと視覚的魅力を大幅に低下させる。 先行研究は主に露出度の低い画像や一般的な画像エンハンスメントに焦点を当てている。 対照的に,提案手法は写真の過度な露出誤差と過度な露出誤差の両方を対象とする。 露光補正問題を2つの主問題として定式化する。 (i)色調の強化及び (ii)詳細強化。 そこで本研究では,各サブプロブレムを個別に扱うことで,エンドツーエンドでトレーニング可能な粗大なディープニューラルネットワーク(DNN)モデルを提案する。 我々のソリューションの重要な側面は、24,000以上の画像からなる新しいデータセットで、最も広い範囲の露光値と対応する適切な露光画像を示すことである。 提案手法は,未露出画像に対する既存の最先端手法と同等の結果を得るとともに,露出過誤による画像の大幅な改善を実現する。

Capturing photographs with wrong exposures remains a major source of errors in camera-based imaging. Exposure problems are categorized as either: (i) overexposed, where the camera exposure was too long, resulting in bright and washed-out image regions, or (ii) underexposed, where the exposure was too short, resulting in dark regions. Both under- and overexposure greatly reduce the contrast and visual appeal of an image. Prior work mainly focuses on underexposed images or general image enhancement. In contrast, our proposed method targets both over- and underexposure errors in photographs. We formulate the exposure correction problem as two main sub-problems: (i) color enhancement and (ii) detail enhancement. Accordingly, we propose a coarse-to-fine deep neural network (DNN) model, trainable in an end-to-end manner, that addresses each sub-problem separately. A key aspect of our solution is a new dataset of over 24,000 images exhibiting the broadest range of exposure values to date with a corresponding properly exposed image. Our method achieves results on par with existing state-of-the-art methods on underexposed images and yields significant improvements for images suffering from overexposure errors.
翻訳日:2022-12-20 03:49:51 公開日:2021-03-30
# 位相遷移のトポロジカルパーシスタンスマシン

Topological Persistence Machine of Phase Transitions ( http://arxiv.org/abs/2004.03169v3 )

ライセンス: Link先を確認
Quoc Hoan Tran, Mark Chen, and Yoshihiko Hasegawa(参考訳) データ駆動アプローチを用いた相転移の研究は、特にシステムの事前知識がほとんどない場合は困難である。 Topological data analysis is an emerging framework for characterizing the shape of data and has recently achieved success in detecting structural transitions in material science, such as the glass--liquid transition. However, data obtained from physical states may not have explicit shapes as structural materials. We thus propose a general framework, termed "topological persistence machine," to construct the shape of data from correlations in states, so that we can subsequently decipher phase transitions via qualitative changes in the shape. Our framework enables an effective and unified approach in phase transition analysis. We demonstrate the efficacy of the approach in detecting the Berezinskii--Kosterlitz--Thouless phase transition in the classical XY model and quantum phase transitions in the transverse Ising and Bose--Hubbard models. 興味深いことに、これらのフェーズ遷移は従来の手法を使って分析することが非常に難しいことが証明されているが、フェーズの事前の知識を必要とせずに、私たちのフレームワークを通じて特徴付けることができる。 このアプローチは広く適用され、実験的な物理システムのフェーズを探索するための実用的な洞察を提供するものと期待されている。

The study of phase transitions using data-driven approaches is challenging, especially when little prior knowledge of the system is available. Topological data analysis is an emerging framework for characterizing the shape of data and has recently achieved success in detecting structural transitions in material science, such as the glass--liquid transition. However, data obtained from physical states may not have explicit shapes as structural materials. We thus propose a general framework, termed "topological persistence machine," to construct the shape of data from correlations in states, so that we can subsequently decipher phase transitions via qualitative changes in the shape. Our framework enables an effective and unified approach in phase transition analysis. We demonstrate the efficacy of the approach in detecting the Berezinskii--Kosterlitz--Thouless phase transition in the classical XY model and quantum phase transitions in the transverse Ising and Bose--Hubbard models. Interestingly, while these phase transitions have proven to be notoriously difficult to analyze using traditional methods, they can be characterized through our framework without requiring prior knowledge of the phases. Our approach is thus expected to be widely applicable and will provide practical insights for exploring the phases of experimental physical systems.
翻訳日:2022-12-16 00:59:57 公開日:2021-03-30
# 閾値付き適応検証:グラフ回復のためのグラフィカルラッソのチューニング

Thresholded Adaptive Validation: Tuning the Graphical Lasso for Graph Recovery ( http://arxiv.org/abs/2005.00466v2 )

ライセンス: Link先を確認
Mike Laszkiewicz, Asja Fischer, Johannes Lederer(参考訳) 多くの機械学習アルゴリズムは正規化最適化問題として定式化されているが、その性能は各アプリケーションに対して調整が必要な正規化パラメータに依存している。 本稿では,正規化最適化問題に対する一般的なキャリブレーションスキームを提案し,ガウスのグラフィカルモデリング手法であるgraphical lassoに適用する。 このスキームは理論的保証を備えており、グラフリカバリを改善するしきい値パイプラインを動機付けている。 さらに,正規化経路上の1行の探索を必要とする場合,校正方式は再サンプリングに基づく競合方式よりも計算効率が高い。 最後に,本手法が他の手法のグラフリカバリを大幅に改善できることをシミュレーションで示す。

Many Machine Learning algorithms are formulated as regularized optimization problems, but their performance hinges on a regularization parameter that needs to be calibrated to each application at hand. In this paper, we propose a general calibration scheme for regularized optimization problems and apply it to the graphical lasso, which is a method for Gaussian graphical modeling. The scheme is equipped with theoretical guarantees and motivates a thresholding pipeline that can improve graph recovery. Moreover, requiring at most one line search over the regularization path, the calibration scheme is computationally more efficient than competing schemes that are based on resampling. Finally, we show in simulations that our approach can improve on the graph recovery of other approaches considerably.
翻訳日:2022-12-07 23:17:40 公開日:2021-03-30
# 小説の要約におけるコンテンツ選択の検討

Exploring Content Selection in Summarization of Novel Chapters ( http://arxiv.org/abs/2005.01840v3 )

ライセンス: Link先を確認
Faisal Ladhak and Bryan Li and Yaser Al-Onaizan and Kathleen McKeown(参考訳) オンライン学習ガイドから要約/チャプタペアを用いて新しい章の要約を生成する新しい要約タスクを提案する。 これは、章の長さと要約に見られる極端なパラフレージングと一般化を考えると、ニュース要約タスクよりも難しいタスクである。 我々は,抽出要約の金標準集合の作成を必要とする抽出要約に焦点をあてる。 そこで本研究では,参照要約文を章文と整合させて金抽出を行い,異なるアライメント手法で実験する手法を提案する。 本実験は,自動メトリクスとクラウドソースピラミッド解析により,タスクの事前アライメントアプローチよりも大幅に改善されたことを示す。 当社のデータ収集スクリプトは、https://github.com/manestay/novel-chapter-datasetで利用可能です。

We present a new summarization task, generating summaries of novel chapters using summary/chapter pairs from online study guides. This is a harder task than the news summarization task, given the chapter length as well as the extreme paraphrasing and generalization found in the summaries. We focus on extractive summarization, which requires the creation of a gold-standard set of extractive summaries. We present a new metric for aligning reference summary sentences with chapter sentences to create gold extracts and also experiment with different alignment methods. Our experiments demonstrate significant improvement over prior alignment approaches for our task as shown through automatic metrics and a crowd-sourced pyramid analysis. We make our data collection scripts available at https://github.com/manestay/novel-chapter-dataset .
翻訳日:2022-12-07 00:54:46 公開日:2021-03-30
# グループ同変生成逆ネットワーク

Group Equivariant Generative Adversarial Networks ( http://arxiv.org/abs/2005.01683v2 )

ライセンス: Link先を確認
Neel Dey, Antong Chen, Soheil Ghafurian(参考訳) 近年の対向視覚合成の進歩は、実像と偽像の変換を自己監督的に取り入れ、安定性と知覚的忠実度を高めている。 しかし、これらのアプローチは典型的にはganの目的における追加の正規化子による画像拡張を伴い、望ましいタスクではなく変換等価性を近似するために貴重なネットワーク能力を使う。 本研究では,グループ同変畳み込みネットワークを通じて,帰納対称性をネットワークアーキテクチャに明示的に組み込む。 グループ畳み込みはより少ないサンプルで表現力が高く、ジェネレータと判別器の間の勾配フィードバックが向上する。 群等価性は, 正規化器, アーキテクチャ, 損失関数をまたいだGANトレーニングの手法とシームレスに統合可能であることを示す。 我々は,対称画像データセットにまたがる限られたデータ構造の生成を改善することで,条件合成のための手法の有用性を実証する。

Recent improvements in generative adversarial visual synthesis incorporate real and fake image transformation in a self-supervised setting, leading to increased stability and perceptual fidelity. However, these approaches typically involve image augmentations via additional regularizers in the GAN objective and thus spend valuable network capacity towards approximating transformation equivariance instead of their desired task. In this work, we explicitly incorporate inductive symmetry priors into the network architectures via group-equivariant convolutional networks. Group-convolutions have higher expressive power with fewer samples and lead to better gradient feedback between generator and discriminator. We show that group-equivariance integrates seamlessly with recent techniques for GAN training across regularizers, architectures, and loss functions. We demonstrate the utility of our methods for conditional synthesis by improving generation in the limited data regime across symmetric imaging datasets and even find benefits for natural images with preferred orientation.
翻訳日:2022-12-07 00:38:40 公開日:2021-03-30
# 教師なし表現の原型的コントラスト学習

Prototypical Contrastive Learning of Unsupervised Representations ( http://arxiv.org/abs/2005.04966v5 )

ライセンス: Link先を確認
Junnan Li, Pan Zhou, Caiming Xiong, Steven C.H. Hoi(参考訳) 本稿では,インスタンス単位のコントラスト学習の基本的制約に対処する,教師なし表現学習手法であるPrototypeal Contrastive Learning (PCL)を提案する。 PCLは、インスタンス識別のタスクの低レベル機能だけでなく、学習した埋め込み空間にデータのセマンティック構造を暗黙的にエンコードする。 具体的には,プロトタイプを潜伏変数として導入し,期待最大化フレームワークにおけるネットワークパラメータの最大値推定を支援する。 我々は、クラスタリングとMステップによるプロトタイプの分布を見つけると同時に、コントラスト学習によるネットワークの最適化を行う。 本研究では,コントラスト学習のための情報損失の一般化版であるprotonce lossを提案する。 pclは、低リソース転送学習を大幅に改善した複数のベンチマークで、最先端のインスタンス間コントラスト学習手法を上回っている。 コードと事前訓練されたモデルはhttps://github.com/salesforce/PCL.comで入手できる。

This paper presents Prototypical Contrastive Learning (PCL), an unsupervised representation learning method that addresses the fundamental limitations of instance-wise contrastive learning. PCL not only learns low-level features for the task of instance discrimination, but more importantly, it implicitly encodes semantic structures of the data into the learned embedding space. Specifically, we introduce prototypes as latent variables to help find the maximum-likelihood estimation of the network parameters in an Expectation-Maximization framework. We iteratively perform E-step as finding the distribution of prototypes via clustering and M-step as optimizing the network via contrastive learning. We propose ProtoNCE loss, a generalized version of the InfoNCE loss for contrastive learning, which encourages representations to be closer to their assigned prototypes. PCL outperforms state-of-the-art instance-wise contrastive learning methods on multiple benchmarks with substantial improvement in low-resource transfer learning. Code and pretrained models are available at https://github.com/salesforce/PCL.
翻訳日:2022-12-04 19:45:42 公開日:2021-03-30
# FBNetV3:Predictor Pretrainingを用いた共同アーキテクチャレシピ検索

FBNetV3: Joint Architecture-Recipe Search using Predictor Pretraining ( http://arxiv.org/abs/2006.02049v3 )

ライセンス: Link先を確認
Xiaoliang Dai, Alvin Wan, Peizhao Zhang, Bichen Wu, Zijian He, Zhen Wei, Kan Chen, Yuandong Tian, Matthew Yu, Peter Vajda, Joseph E. Gonzalez(参考訳) neural architecture search (nas)は最先端のニューラルネットワークを生み出し、手作業で設計したニューラルネットワークよりも優れています。 しかし、従来のNASメソッドは、優れたアーキテクチャとレシピの組み合わせを見越して、1組のトレーニングハイパーパラメータ(すなわち、トレーニングのレシピ)でアーキテクチャを探索する。 これを解決するために,ニューラルアーキテクチャ・レシピ検索(NARS)を提案する。 (a)建築及び (b)それに対応するトレーニングレシピを同時に行う。 NARSは、アーキテクチャとトレーニングのレシピを共同でスコアする精度予測器を使用し、サンプルの選択とランキングの両方を導く。 さらに,拡張された探索空間を補償するために,"フリー"なアーキテクチャ統計(例えばフロップ数)を利用して予測者の事前学習を行い,そのサンプル効率と予測信頼性を大幅に向上した。 制約付き反復最適化を用いて予測器をトレーニングした後、CPU分で高速な進化的探索を実行し、FBNetV3と呼ばれる様々なリソース制約に対するアーキテクチャとレシピのペアを生成する。 FBNetV3は最先端のコンパクトニューラルネットワークのファミリーを構成しており、自動と手動で設計された競合より優れている。 例えば、FBNetV3はImageNet上のEfficientNetとResNeStの精度を最大2.0xと7.1倍のFLOPで一致させる。 さらにfbnetv3では、下流のオブジェクト検出タスクのパフォーマンスが大幅に向上し、18%のフロップと34%のパラメータでmapが改善された。

Neural Architecture Search (NAS) yields state-of-the-art neural networks that outperform their best manually-designed counterparts. However, previous NAS methods search for architectures under one set of training hyper-parameters (i.e., a training recipe), overlooking superior architecture-recipe combinations. To address this, we present Neural Architecture-Recipe Search (NARS) to search both (a) architectures and (b) their corresponding training recipes, simultaneously. NARS utilizes an accuracy predictor that scores architecture and training recipes jointly, guiding both sample selection and ranking. Furthermore, to compensate for the enlarged search space, we leverage "free" architecture statistics (e.g., FLOP count) to pretrain the predictor, significantly improving its sample efficiency and prediction reliability. After training the predictor via constrained iterative optimization, we run fast evolutionary searches in just CPU minutes to generate architecture-recipe pairs for a variety of resource constraints, called FBNetV3. FBNetV3 makes up a family of state-of-the-art compact neural networks that outperform both automatically and manually-designed competitors. For example, FBNetV3 matches both EfficientNet and ResNeSt accuracy on ImageNet with up to 2.0x and 7.1x fewer FLOPs, respectively. Furthermore, FBNetV3 yields significant performance gains for downstream object detection tasks, improving mAP despite 18% fewer FLOPs and 34% fewer parameters than EfficientNet-based equivalents.
翻訳日:2022-11-25 17:10:57 公開日:2021-03-30
# 逆アフィンサブスペース埋め込みによる画像のプライバシー保護

Privacy-Preserving Image Features via Adversarial Affine Subspace Embeddings ( http://arxiv.org/abs/2006.06634v3 )

ライセンス: Link先を確認
Mihai Dusmanu, Johannes L. Sch\"onberger, Sudipta N. Sinha, Marc Pollefeys(参考訳) 多くのコンピュータビジョンシステムは、画像処理とストレージのために画像機能をクラウドにアップロードする必要がある。 これらの特徴を活用して、元の画像の外観を再構築することで、シーンや被写体に関する機密情報を復元することができる。 このプライバシー問題に対処するため、我々は新しいプライバシー保護機能表現を提案する。 私たちの仕事の核となる考え方は、元のフィーチャと逆のフィーチャサンプルを含むアフィン部分空間にそれを埋め込むことで、各機能記述子から制約を外すことです。 サブスペース間距離の概念に基づいて、プライバシ保存表現上の特徴マッチングを有効にする。 本手法の有効性を実験的に実証し,その高い実用的妥当性を,顔認証と同様に視覚定位とマッピングの応用に適用する。 従来の特徴と比較すると,敵が個人情報を回収するのは極めて困難である。

Many computer vision systems require users to upload image features to the cloud for processing and storage. These features can be exploited to recover sensitive information about the scene or subjects, e.g., by reconstructing the appearance of the original image. To address this privacy concern, we propose a new privacy-preserving feature representation. The core idea of our work is to drop constraints from each feature descriptor by embedding it within an affine subspace containing the original feature as well as adversarial feature samples. Feature matching on the privacy-preserving representation is enabled based on the notion of subspace-to-subspace distance. We experimentally demonstrate the effectiveness of our method and its high practical relevance for the applications of visual localization and mapping as well as face authentication. Compared to the original features, our approach makes it significantly more difficult for an adversary to recover private information.
翻訳日:2022-11-22 14:06:55 公開日:2021-03-30
# カーネル密度推定を用いたタスク非依存分布検出

Task-agnostic Out-of-Distribution Detection Using Kernel Density Estimation ( http://arxiv.org/abs/2006.10712v4 )

ライセンス: Link先を確認
Ertunc Erdil, Krishna Chaitanya, Neerav Karani, Ender Konukoglu(参考訳) 近年、ディープニューラルネットワーク(DNN)でOOD(out-of-distribution)検出を成功させる方法が提案されている。 これまでのところ、高精度な手法の範囲は画像レベルの分類タスクに限られている。 しかし、分類以外の一般的な適用方法に対する試みは、同様の性能を得られなかった。 本稿では,OOD検出法を提案することで,この制限に対処する。 トレーニングデータセット上でカーネル密度推定(KDE)を行うことにより,事前学習DNNの中間特性の確率密度関数(pdfs)を推定する。 特徴写像へのKDEの直接適用は、その高次元性によって妨げられるため、1つの高次元モデルではなく、一組の低次元化KDEモデルを用いる。 テスト時には,試験試料のpdfを評価し,その試料がOODであることを示す信頼スコアを生成する。 KDEの使用により、基礎となる機能 pdfs に関する仮定を単純化する必要がなくなり、提案手法はタスクに依存しない。 OOD検出のためのベンチマークデータセットを用いて分類タスクの広範な実験を行う。 また,脳MRIデータセットを用いた医療画像分割タスクの実験を行った。 その結果,提案手法は分類タスクとセグメンテーションタスクの両方において高いOOD検出性能を一貫して達成し,ほぼすべてのケースにおいて最先端の手法を改良することを示した。 コードは \url{https://github.com/eerdil/task_agnostic_ood} で利用可能である。

In the recent years, researchers proposed a number of successful methods to perform out-of-distribution (OOD) detection in deep neural networks (DNNs). So far the scope of the highly accurate methods has been limited to image level classification tasks. However, attempts for generally applicable methods beyond classification did not attain similar performance. In this paper, we address this limitation by proposing a simple yet effective task-agnostic OOD detection method. We estimate the probability density functions (pdfs) of intermediate features of a pre-trained DNN by performing kernel density estimation (KDE) on the training dataset. As direct application of KDE to feature maps is hindered by their high dimensionality, we use a set of lower-dimensional marginalized KDE models instead of a single high-dimensional one. At test time, we evaluate the pdfs on a test sample and produce a confidence score that indicates the sample is OOD. The use of KDE eliminates the need for making simplifying assumptions about the underlying feature pdfs and makes the proposed method task-agnostic. We perform extensive experiments on classification tasks using benchmark datasets for OOD detection. Additionally, we perform experiments on medical image segmentation tasks using brain MRI datasets. The results demonstrate that the proposed method consistently achieves high OOD detection performance in both classification and segmentation tasks and improves state-of-the-art in almost all cases. Code is available at \url{https://github.com/eerdil/task_agnostic_ood}
翻訳日:2022-11-19 13:14:05 公開日:2021-03-30
# BRUL\`E: Barycenter-regularized unsupervised Landmark extract

BRUL\`E: Barycenter-Regularized Unsupervised Landmark Extraction ( http://arxiv.org/abs/2006.11643v3 )

ライセンス: Link先を確認
Iaroslav Bespalov, Nazar Buzun, Dmitry V. Dylov(参考訳) 画像特徴の教師なし検索は、アノテーションが欠けている、あるいは不足している多くのコンピュータビジョンタスクにとって不可欠である。 本研究では,画像中のランドマークを非教師付きで検出し,人間の顔キーポイント抽出の一般的なタスクで検証する手法を提案する。 提案手法は,非意味情報を捨てたまま,潜在空間における所望のランドマークを自動エンコードするという考え方に基づいている。 解釈可能な潜在空間表現(所望のキーポイントのみを含むボトルネック)は、新しい2段階正則化アプローチによって達成される。 第1正則化ステップは、所定のランドマークの集合からある平均値(ワッサースタイン距離によるバリセンタ)への移動距離を評価する。 第2の正則化ステップは、初期画像および符号化されたランドマークにランダムな幾何学的変形を同期させて、バリセンタからの偏差を制御する。 本稿では,300-W,CelebA,MAFLデータセットを用いた教師なしおよび半教師なしのトレーニングシナリオにおけるアプローチの有効性を示す。 提案した正規化パラダイムはオーバーフィッティングを防止し、検出品質は最先端の顔モデルを超えて改善されることを示す。

Unsupervised retrieval of image features is vital for many computer vision tasks where the annotation is missing or scarce. In this work, we propose a new unsupervised approach to detect the landmarks in images, validating it on the popular task of human face key-points extraction. The method is based on the idea of auto-encoding the wanted landmarks in the latent space while discarding the non-essential information (and effectively preserving the interpretability). The interpretable latent space representation (the bottleneck containing nothing but the wanted key-points) is achieved by a new two-step regularization approach. The first regularization step evaluates transport distance from a given set of landmarks to some average value (the barycenter by Wasserstein distance). The second regularization step controls deviations from the barycenter by applying random geometric deformations synchronously to the initial image and to the encoded landmarks. We demonstrate the effectiveness of the approach both in unsupervised and semi-supervised training scenarios using 300-W, CelebA, and MAFL datasets. The proposed regularization paradigm is shown to prevent overfitting, and the detection quality is shown to improve beyond the state-of-the-art face models.
翻訳日:2022-11-18 22:55:36 公開日:2021-03-30
# 航空画像解釈のためのベンチマークデータセット作成について:レビュー,ガイダンス,数百万AID

On Creating Benchmark Dataset for Aerial Image Interpretation: Reviews, Guidances and Million-AID ( http://arxiv.org/abs/2006.12485v2 )

ライセンス: Link先を確認
Yang Long, Gui-Song Xia, Shengyang Li, Wen Yang, Michael Ying Yang, Xiao Xiang Zhu, Liangpei Zhang, Deren Li(参考訳) 過去数年間、リモートセンシング(RS)画像解釈とその幅広い応用に大きな進歩が見られた。 RS画像がこれまで以上にアクセスしやすくなってきたため、これらの画像の自動解釈に対する需要が高まっている。 この文脈では、ベンチマークデータセットはインテリジェントな解釈アルゴリズムの開発とテストのための必須条件となる。 本稿では、rs画像解釈研究コミュニティにおける既存のベンチマークデータセットをレビューした後、rs画像解釈に適したベンチマークデータセットを効率的に作成する方法の問題について議論する。 具体的には、まず、文献計測によるRS画像解釈のためのインテリジェントアルゴリズムを開発する際の課題を分析する。 次に、効率的な方法でベンチマークデータセットを作成するための一般的なガイダンスを示す。 提案するガイダンスに従って、rsイメージシーン分類の100万インスタンスを含む、新しい大規模ベンチマークデータセットであるm million-aid(リンク)という、rsイメージデータセットの構築例も提供します。 RS画像アノテーションにおけるいくつかの課題と視点を最終的に議論し、ベンチマークデータセット構築の研究を促進する。 この論文は、特にデータ駆動型の研究のために、大規模で実用的な画像データセットを構築するための全体的な視点をrsコミュニティに提供することを望んでいる。

The past years have witnessed great progress on remote sensing (RS) image interpretation and its wide applications. With RS images becoming more accessible than ever before, there is an increasing demand for the automatic interpretation of these images. In this context, the benchmark datasets serve as essential prerequisites for developing and testing intelligent interpretation algorithms. After reviewing existing benchmark datasets in the research community of RS image interpretation, this article discusses the problem of how to efficiently prepare a suitable benchmark dataset for RS image interpretation. Specifically, we first analyze the current challenges of developing intelligent algorithms for RS image interpretation with bibliometric investigations. We then present the general guidances on creating benchmark datasets in efficient manners. Following the presented guidances, we also provide an example on building RS image dataset, i.e., Million-AID, a new large-scale benchmark dataset containing a million instances for RS image scene classification. Several challenges and perspectives in RS image annotation are finally discussed to facilitate the research in benchmark dataset construction. We do hope this paper will provide the RS community an overall perspective on constructing large-scale and practical image datasets for further research, especially data-driven ones.
翻訳日:2022-11-18 06:32:46 公開日:2021-03-30
# Q-NET: ニューラルネットワークの低次元積分のためのネットワーク

Q-NET: A Network for Low-Dimensional Integrals of Neural Proxies ( http://arxiv.org/abs/2006.14396v2 )

ライセンス: Link先を確認
Kartic Subr(参考訳) 多くの応用は多次元関数の積分の計算を必要とする。 一般的な一般的な手順は、関数の複数の評価を平均することで積分を推定することである。 関数の評価は、しばしばコストのかかる計算を必要とする。 真関数に対する \emph{proxy} または surrogate の使用は、繰り返し評価が必要な場合に有用である。 その積分が解析的に知られ、実質的に計算できるのであれば、プロキシはさらに有用である。 積分を推定する必要のある関数のプロキシとして,汎用的で単純な人工ニューラルネットワーク(sgmoidal universal approximators)の使用を提案する。 入力領域の 'emph{any subset of dimensions' 上で正確な積分を計算するために、訓練されたプロキシのパラメータを操作する、Q-NETと呼ばれる固定ネットワークのファミリーを設計する。 積分が再計算される入力空間への変換をインテグレードやプロキシの再トレーニングをすることなく特定する。 本稿では, 逆レンダリング, 手続き雑音の発生, 可視化, シミュレーションなどの応用において, この手法の利点を浮き彫りにする。 提案するプロキシは, 次元が低い(<10$D), 積分の推定をサンプリング戦略から切り離す必要がある, スパースで適応的なサンプリングを使用する, 限界関数を関数形式で知る必要がある, あるいは強力なシングルインストラクション多重データ/スレッド(SIMD/SIMT)パイプラインが計算に利用可能である,といった状況で魅力的なものだ。

Many applications require the calculation of integrals of multidimensional functions. A general and popular procedure is to estimate integrals by averaging multiple evaluations of the function. Often, each evaluation of the function entails costly computations. The use of a \emph{proxy} or surrogate for the true function is useful if repeated evaluations are necessary. The proxy is even more useful if its integral is known analytically and can be calculated practically. We propose the use of a versatile yet simple class of artificial neural networks -- sigmoidal universal approximators -- as a proxy for functions whose integrals need to be estimated. We design a family of fixed networks, which we call Q-NETs, that operate on parameters of a trained proxy to calculate exact integrals over \emph{any subset of dimensions} of the input domain. We identify transformations to the input space for which integrals may be recalculated without resampling the integrand or retraining the proxy. We highlight the benefits of this scheme for a few applications such as inverse rendering, generation of procedural noise, visualization and simulation. The proposed proxy is appealing in the following contexts: the dimensionality is low ($<10$D); the estimation of integrals needs to be decoupled from the sampling strategy; sparse, adaptive sampling is used; marginal functions need to be known in functional form; or when powerful Single Instruction Multiple Data/Thread (SIMD/SIMT) pipelines are available for computation.
翻訳日:2022-11-17 02:38:07 公開日:2021-03-30
# 逐次意思決定のための「what-if」説明の学習

Learning "What-if" Explanations for Sequential Decision-Making ( http://arxiv.org/abs/2007.13531v3 )

ライセンス: Link先を確認
Ioana Bica, Daniel Jarrett, Alihan H\"uy\"uk, Mihaela van der Schaar(参考訳) 実世界の意思決定の解釈可能なパラメータ化を構築することは、実証された行動、すなわち専門家による観察と行動の軌跡に基づいて、異なる機関における政策のイントロスペクションと監査に不可欠である。 本稿では,「もしも」成果に対して,その選好の観点で報酬関数をモデル化することで,専門家の判断を学習するための説明を提案する。 専門家の行動に関連するこれらの費用対効果のトレードオフを学習するために, バッチ逆強化学習に統合する。 これは、報酬関数を定義し、専門家の振る舞いを説明するための原則化された方法を提供すると同時に、実世界の意思決定の制約を満たす。 さらに、異なる行動の効果を推定することにより、カウンターファクトリーはバッチ設定における政策評価の非政治的な性質に容易に対応でき、専門家の政策が現在の状態ではなく観測履歴に依存するような状況に自然に適応することができる。 実地および模擬医療環境における実証実験を通じて, 行動の正確かつ解釈可能な記述を回復するためのバッチ, 対実逆強化学習アプローチの有効性を強調した。

Building interpretable parameterizations of real-world decision-making on the basis of demonstrated behavior -- i.e. trajectories of observations and actions made by an expert maximizing some unknown reward function -- is essential for introspecting and auditing policies in different institutions. In this paper, we propose learning explanations of expert decisions by modeling their reward function in terms of preferences with respect to "what if" outcomes: Given the current history of observations, what would happen if we took a particular action? To learn these cost-benefit tradeoffs associated with the expert's actions, we integrate counterfactual reasoning into batch inverse reinforcement learning. This offers a principled way of defining reward functions and explaining expert behavior, and also satisfies the constraints of real-world decision-making -- where active experimentation is often impossible (e.g. in healthcare). Additionally, by estimating the effects of different actions, counterfactuals readily tackle the off-policy nature of policy evaluation in the batch setting, and can naturally accommodate settings where the expert policies depend on histories of observations rather than just current states. Through illustrative experiments in both real and simulated medical environments, we highlight the effectiveness of our batch, counterfactual inverse reinforcement learning approach in recovering accurate and interpretable descriptions of behavior.
翻訳日:2022-11-14 12:58:50 公開日:2021-03-30
# GRAF:3次元画像合成のための生成放射場

GRAF: Generative Radiance Fields for 3D-Aware Image Synthesis ( http://arxiv.org/abs/2007.02442v4 )

ライセンス: Link先を確認
Katja Schwarz, Yiyi Liao, Michael Niemeyer, Andreas Geiger(参考訳) 2次元生成逆数ネットワークは高分解能な画像合成を実現しているが、3次元世界と画像形成過程の理解がほとんどない。 したがって、カメラの視点やオブジェクトのポーズを正確に制御することはできない。 この問題に対処するために、最近のいくつかのアプローチでは、中間ボクセルベースの表現と微分可能なレンダリングを併用している。 しかし、既存の方法では、カメラとシーンの特性が混ざり合っている場合、例えば、オブジェクトの同一性は視点によって異なる可能性がある。 本稿では,1つのシーンの新規な視点合成に最近成功している放射場生成モデルを提案する。 ボクセルをベースとした表現とは対照的に、放射場は3次元空間の粗い離散化に制限されず、カメラとシーンの特性を分解し、再構成の曖昧さを優雅に劣化させる。 マルチスケールのパッチベース判別器を導入し,非姿勢の2次元画像からモデルを訓練しながら高解像度画像の合成を実演する。 我々は、いくつかの挑戦的な合成および実世界のデータセットに対するアプローチを体系的に分析する。 実験の結果,放射場は生成画像合成の強力な表現であり,高忠実度でレンダリングする3次元一貫したモデルが得られた。

While 2D generative adversarial networks have enabled high-resolution image synthesis, they largely lack an understanding of the 3D world and the image formation process. Thus, they do not provide precise control over camera viewpoint or object pose. To address this problem, several recent approaches leverage intermediate voxel-based representations in combination with differentiable rendering. However, existing methods either produce low image resolution or fall short in disentangling camera and scene properties, e.g., the object identity may vary with the viewpoint. In this paper, we propose a generative model for radiance fields which have recently proven successful for novel view synthesis of a single scene. In contrast to voxel-based representations, radiance fields are not confined to a coarse discretization of the 3D space, yet allow for disentangling camera and scene properties while degrading gracefully in the presence of reconstruction ambiguity. By introducing a multi-scale patch-based discriminator, we demonstrate synthesis of high-resolution images while training our model from unposed 2D images alone. We systematically analyze our approach on several challenging synthetic and real-world datasets. Our experiments reveal that radiance fields are a powerful representation for generative image synthesis, leading to 3D consistent models that render with high fidelity.
翻訳日:2022-11-13 08:20:15 公開日:2021-03-30
# リパラメータ化によるメタラーニング対称性

Meta-Learning Symmetries by Reparameterization ( http://arxiv.org/abs/2007.02933v3 )

ライセンス: Link先を確認
Allan Zhou, Tom Knowles, Chelsea Finn(参考訳) 成功したディープラーニングアーキテクチャの多くは、パラメータを保存し一般化を改善するために、ある変換に同値である: 最も有名なのは、畳み込み層は入力のシフトに同値である。 このアプローチは、実践者がタスクの対称性を知っていて、対応する同値のアーキテクチャを手動で構築できる場合にのみ有効である。 私たちの目標は、独自のタスク固有のアーキテクチャを設計することなく、データから等価性を学ぶためのアプローチです。 データから対応するパラメータ共有パターンを学習し、等価性をネットワークに学習し、符号化する手法を提案する。 本手法は,任意の有限群対称性変換に対して等分散誘導パラメータ共有を表現できる。 本実験は,画像処理タスクで使用される共通変換に等価性をエンコードして自動的に学習できることを示唆する。 実験コードはhttps://github.com/AllanYangZhou/metalearning-symmetriesで公開しています。

Many successful deep learning architectures are equivariant to certain transformations in order to conserve parameters and improve generalization: most famously, convolution layers are equivariant to shifts of the input. This approach only works when practitioners know the symmetries of the task and can manually construct an architecture with the corresponding equivariances. Our goal is an approach for learning equivariances from data, without needing to design custom task-specific architectures. We present a method for learning and encoding equivariances into networks by learning corresponding parameter sharing patterns from data. Our method can provably represent equivariance-inducing parameter sharing for any finite group of symmetry transformations. Our experiments suggest that it can automatically learn to encode equivariances to common transformations used in image processing tasks. We provide our experiment code at https://github.com/AllanYangZhou/metalearning-symmetries.
翻訳日:2022-11-13 01:41:40 公開日:2021-03-30
# Complete & Label: LiDARポイントクラウドのセマンティックセグメンテーションに対するドメイン適応アプローチ

Complete & Label: A Domain Adaptation Approach to Semantic Segmentation of LiDAR Point Clouds ( http://arxiv.org/abs/2007.08488v2 )

ライセンス: Link先を確認
Li Yi, Boqing Gong, Thomas Funkhouser(参考訳) 本稿では3次元点雲のセマンティックラベリングのための教師なし領域適応問題について検討し,特に異なるLiDARセンサによって誘導される領域差に着目した。 スパース3d点雲が3d表面からサンプリングされるという観測に基づいて,基礎面の復元に完全かつラベル付きアプローチを採り,セグメンテーションネットワークに渡す。 具体的には,スパースVoxel Completion Network (SVCN) を設計し,スパース点雲の3次元面を完成させる。 セマンティックラベルとは異なり、SVCNのトレーニングペアを得るには手動ラベリングを必要としない。 また,表面を事前にモデル化するために,局所逆学習も導入する。 回収された3d表面は、セマンティクスラベルが異なるlidarセンサー間で転送できる正準ドメインとして機能する。 lidarデータのクロスドメインセマンティクスラベリングに関する新しいベンチマークによる実験とアブレーションの研究は、提案手法が従来のドメイン適応法よりも8.2-36.6%優れた性能を提供することを示している。

We study an unsupervised domain adaptation problem for the semantic labeling of 3D point clouds, with a particular focus on domain discrepancies induced by different LiDAR sensors. Based on the observation that sparse 3D point clouds are sampled from 3D surfaces, we take a Complete and Label approach to recover the underlying surfaces before passing them to a segmentation network. Specifically, we design a Sparse Voxel Completion Network (SVCN) to complete the 3D surfaces of a sparse point cloud. Unlike semantic labels, to obtain training pairs for SVCN requires no manual labeling. We also introduce local adversarial learning to model the surface prior. The recovered 3D surfaces serve as a canonical domain, from which semantic labels can transfer across different LiDAR sensors. Experiments and ablation studies with our new benchmark for cross-domain semantic labeling of LiDAR data show that the proposed approach provides 8.2-36.6% better performance than previous domain adaptation methods.
翻訳日:2022-11-09 22:31:29 公開日:2021-03-30
# 独立および非独立分散要素を持つ特徴ベクトルの教師付き分類について

On Supervised Classification of Feature Vectors with Independent and Non-Identically Distributed Elements ( http://arxiv.org/abs/2008.00190v2 )

ライセンス: Link先を確認
Farzad Shahrivari and Nikola Zlatanov(参考訳) 本稿では,互いに独立だが非同一の分散要素を持つ特徴ベクトルを分類する問題について検討する。 まず、この問題の重要性を示す。 次に,分類器を提案し,その誤差確率の解析上界を導出する。 ラベル毎に1つのトレーニング特徴ベクトルしか持たない場合でも,特徴ベクトルの長さが大きくなるにつれて誤差確率がゼロになることを示す。 したがって,この重要な問題に対して,少なくとも1つの漸近的最適分類器が存在することを示す。 最後に,提案した分類器の性能が,トレーニングデータの数が小さく,特徴ベクトルの長さが十分高い場合に,従来の分類アルゴリズムより優れていることを示す数値例を示す。

In this paper, we investigate the problem of classifying feature vectors with mutually independent but non-identically distributed elements. First, we show the importance of this problem. Next, we propose a classifier and derive an analytical upper bound on its error probability. We show that the error probability goes to zero as the length of the feature vectors grows, even when there is only one training feature vector per label available. Thereby, we show that for this important problem at least one asymptotically optimal classifier exists. Finally, we provide numerical examples where we show that the performance of the proposed classifier outperforms conventional classification algorithms when the number of training data is small and the length of the feature vectors is sufficiently high.
翻訳日:2022-11-04 01:11:52 公開日:2021-03-30
# TREND:転送可能性に基づくロバストアンサンブル設計

TREND: Transferability based Robust ENsemble Design ( http://arxiv.org/abs/2008.01524v2 )

ライセンス: Link先を確認
Deepak Ravikumar, Sangamesh Kodge, Isha Garg, Kaushik Roy(参考訳) ディープラーニングモデルは、多くの分野で最先端のパフォーマンスを保っているが、敵の例に対する脆弱性は、実践的な環境でのユビキタスなデプロイに脅威をもたらす。 さらに、ある分類器で生成された逆入力は、類似したデータで訓練された他の分類器に転送されることが示されており、たとえモデルパラメータが敵に明らかにされていなくても攻撃を可能にする。 トランスファービリティーのこの性質はまだ体系的に研究されておらず、ニューラルネットワークの強靭性や逆入力に対する理解の欠如につながっている。 本研究では,ネットワークアーキテクチャ,初期化,オプティマイザ,インプット,ウェイト,アクティベーションの量子化が対向サンプルの転送性に及ぼす影響について検討する。 また,異なる攻撃が伝達性に及ぼす影響についても検討した。 実験の結果,入力量子化やソースとターゲット間のアーキテクチャミスマッチによってトランスファービリティが著しく損なわれ,初期化の影響を受けないことがわかったが,オプティマイザの選択が重要であることがわかった。 重みとアクティベーションの量子化モデルの両方において、トランスファビリティはアーキテクチャに依存します。 伝達可能性の定量化のために,簡単な計量を用いて,逆ロバスト性を改善したアンサンブルを構築する手法の設計におけるメトリックの有用性を実証する。 アンサンブルを攻撃するとき、単一のアンサンブルメンバーモデルによって「段階的な支配」が既存の攻撃を阻害するのを観察します。 これに対抗するため、我々は新たな最先端のアンサンブル攻撃を提案する。 提案手法と既存の攻撃手法を比較し,その有効性を示す。 最後に, 慎重に選択された多様なネットワークからなるアンサンブルは, 単一のネットワークで実現可能なものよりも, 敵対的頑健性が向上することを示す。

Deep Learning models hold state-of-the-art performance in many fields, but their vulnerability to adversarial examples poses threat to their ubiquitous deployment in practical settings. Additionally, adversarial inputs generated on one classifier have been shown to transfer to other classifiers trained on similar data, which makes the attacks possible even if model parameters are not revealed to the adversary. This property of transferability has not yet been systematically studied, leading to a gap in our understanding of robustness of neural networks to adversarial inputs. In this work, we study the effect of network architecture, initialization, optimizer, input, weight and activation quantization on transferability of adversarial samples. We also study the effect of different attacks on transferability. Our experiments reveal that transferability is significantly hampered by input quantization and architectural mismatch between source and target, is unaffected by initialization but the choice of optimizer turns out to be critical. We observe that transferability is architecture-dependent for both weight and activation quantized models. To quantify transferability, we use simple metric and demonstrate the utility of the metric in designing a methodology to build ensembles with improved adversarial robustness. When attacking ensembles we observe that "gradient domination" by a single ensemble member model hampers existing attacks. To combat this we propose a new state-of-the-art ensemble attack. We compare the proposed attack with existing attack techniques to show its effectiveness. Finally, we show that an ensemble consisting of carefully chosen diverse networks achieves better adversarial robustness than would otherwise be possible with a single network.
翻訳日:2022-11-02 23:29:44 公開日:2021-03-30
# 部分線形デノイザを用いた教師なし画像復元

Unsupervised Image Restoration Using Partially Linear Denoisers ( http://arxiv.org/abs/2008.06164v2 )

ライセンス: Link先を確認
Rihuan Ke and Carola-Bibiane Sch\"onlieb(参考訳) ディープニューラルネットワークに基づく手法は、様々な画像復元問題の最先端技術である。 標準教師付き学習フレームワークでは、復元モデルの出力と基底真理との間の距離を最小限に抑えるために、ノイズの測定とクリーン画像対が必要となる。 しかし、地上の真実のイメージはしばしば、現実世界のアプリケーションで入手するために利用できないか、非常に高価である。 非線形画像依存写像、線形ノイズ依存項、および少ない残差項の和として分解可能な構造的デノイザのクラスを提案することにより、この問題を回避する。 その結果,ノイズの平均と既知のばらつきがゼロである条件下で,ノイズ画像のみを訓練できることがわかった。 しかし、ノイズの正確な分布は分かっていない。 本稿では,画像のデノライゼーション手法の優位性を示し,その拡張をブラインドデブロリングなどの他の修復問題に拡張し,根拠真理が得られないことを示す。 本手法は,最近の非教師なし,自己教師なしのディープデノイジングモデルよりも優れており,トレーニングにクリーンな画像を必要としない。 ブラインドデブラリング問題に対しては、画像毎に1つのノイズとぼやけた観察のみを使用して、ベンチマークデータセットで完全に教師付きのものから遠くない品質に到達する。

Deep neural network based methods are the state of the art in various image restoration problems. Standard supervised learning frameworks require a set of noisy measurement and clean image pairs for which a distance between the output of the restoration model and the ground truth, clean images is minimized. The ground truth images, however, are often unavailable or very expensive to acquire in real-world applications. We circumvent this problem by proposing a class of structured denoisers that can be decomposed as the sum of a nonlinear image-dependent mapping, a linear noise-dependent term and a small residual term. We show that these denoisers can be trained with only noisy images under the condition that the noise has zero mean and known variance. The exact distribution of the noise, however, is not assumed to be known. We show the superiority of our approach for image denoising, and demonstrate its extension to solving other restoration problems such as blind deblurring where the ground truth is not available. Our method outperforms some recent unsupervised and self-supervised deep denoising models that do not require clean images for their training. For blind deblurring problems, the method, using only one noisy and blurry observation per image, reaches a quality not far away from its fully supervised counterparts on a benchmark dataset.
翻訳日:2022-10-30 17:10:57 公開日:2021-03-30
# PointNetLKが再訪

PointNetLK Revisited ( http://arxiv.org/abs/2008.09527v2 )

ライセンス: Link先を確認
Xueqian Li, Jhony Kaesemodel Pontes, Simon Lucey(参考訳) 本稿では,最近の学習に基づくポイントクラウド登録手法の一般化について述べる。 それらの成功にもかかわらず、これらのアプローチは、未確認のオブジェクトカテゴリ、異なる複雑なシーン、未知の深度センサーなど、トレーニングセットでよく表現されていない不一致条件に適用した場合、性能が低下する傾向にある。 このような状況下では、より優れた一般化能力を持つ古典的非学習法(イテレーティブ・クローゼスト・ポイントなど)に頼る方がよいことがしばしばある。 ポイント対応の予測とアライメントの決定論的ステップに学習を使用するハイブリッド学習法は、いくつかの反響を与えたが、それでも一般化能力には制限がある。 我々は、最近のイノベーションであるPointNetLKを再考し、分析的ヤコビアンを組み込むことによって、学習フレームワークの本質的な忠実さの利点を享受しながら、顕著な一般化特性を示すことができることを示した。 提案手法は,ミスマッチした条件下での最先端だけでなく,トレーニングセットに近い実世界のテストデータを操作する場合の現在の学習手法と競合する結果も得る。

We address the generalization ability of recent learning-based point cloud registration methods. Despite their success, these approaches tend to have poor performance when applied to mismatched conditions that are not well-represented in the training set, such as unseen object categories, different complex scenes, or unknown depth sensors. In these circumstances, it has often been better to rely on classical non-learning methods (e.g., Iterative Closest Point), which have better generalization ability. Hybrid learning methods, that use learning for predicting point correspondences and then a deterministic step for alignment, have offered some respite, but are still limited in their generalization abilities. We revisit a recent innovation -- PointNetLK -- and show that the inclusion of an analytical Jacobian can exhibit remarkable generalization properties while reaping the inherent fidelity benefits of a learning framework. Our approach not only outperforms the state-of-the-art in mismatched conditions but also produces results competitive with current learning methods when operating on real-world test data close to the training set.
翻訳日:2022-10-26 21:56:16 公開日:2021-03-30
# 分散シュタイン変分勾配降下による一般化ベイズ学習

Federated Generalized Bayesian Learning via Distributed Stein Variational Gradient Descent ( http://arxiv.org/abs/2009.06419v6 )

ライセンス: Link先を確認
Rahif Kassab and Osvaldo Simeone(参考訳) 本稿では,混合学習のための非パラメトリック一般化ベイズ推定フレームワークである分散スタイン変分勾配降下(dsvgd)について述べる。 DSVGDは、多数の非ランダムと相互作用する粒子を中央サーバに保持し、モデル全体の後部の現在の繰り返しを表現する。 粒子は反復的にダウンロードされ、エージェントの1人によって更新され、グローバルな自由エネルギーを最小化することを目的としている。 粒子数を変化させることで、DSVGDは粒子間通信負荷と通信ラウンド数との柔軟なトレードオフを可能にする。 DSVGDは、頻繁かつベイズ的なフェデレートされた学習戦略をベンチマークし、エージェントの数に関して精度とスケーラビリティの観点から1回に1台のデバイスをスケジューリングすると同時に、十分に校正され、信頼できる予測を提供する。

This paper introduces Distributed Stein Variational Gradient Descent (DSVGD), a non-parametric generalized Bayesian inference framework for federated learning. DSVGD maintains a number of non-random and interacting particles at a central server to represent the current iterate of the model global posterior. The particles are iteratively downloaded and updated by one of the agents with the end goal of minimizing the global free energy. By varying the number of particles, DSVGD enables a flexible trade-off between per-iteration communication load and number of communication rounds. DSVGD is shown to compare favorably to benchmark frequentist and Bayesian federated learning strategies, also scheduling a single device per iteration, in terms of accuracy and scalability with respect to the number of agents, while also providing well-calibrated, and hence trustworthy, predictions.
翻訳日:2022-10-19 21:26:21 公開日:2021-03-30
# MSTREAM:マルチアスペクトストリームにおける高速異常検出

MSTREAM: Fast Anomaly Detection in Multi-Aspect Streams ( http://arxiv.org/abs/2009.08451v4 )

ライセンス: Link先を確認
Siddharth Bhatia, Arjit Jain, Pan Li, Ritesh Kumar, Bryan Hooi(参考訳) マルチアスペクトデータセットのエントリ列、すなわち複数の次元を持つエントリが与えられた場合、教師なしの方法で異常なアクティビティをどうやって検出できるのか? 例えば、侵入検知設定では、既存の作業は動的グラフストリームの異常なイベントやエッジを検知しようとしますが、これによって各エントリの付加的な属性を考慮に入れられません。 本研究の目的は,mstreamと呼ばれる,異常な集団異常を動的に検出可能なストリーミングマルチアスペクトデータ異常検出フレームワークを定義することである。 MSTREAM には以下の特性がある。 (a)分類属性と数値属性の両方を含むマルチアスペクトデータの異常を検出する。 (b)オンラインなので、各レコードを一定時間及び一定メモリで処理する。 (c)データの複数の側面間の相関を捉えることができる。 MSTREAMはKDDCUP99、CICIDS-DoS、UNSW-NB 15、CICIDS-DDoSデータセットで評価され、最先端のベースラインを上回っている。

Given a stream of entries in a multi-aspect data setting i.e., entries having multiple dimensions, how can we detect anomalous activities in an unsupervised manner? For example, in the intrusion detection setting, existing work seeks to detect anomalous events or edges in dynamic graph streams, but this does not allow us to take into account additional attributes of each entry. Our work aims to define a streaming multi-aspect data anomaly detection framework, termed MSTREAM which can detect unusual group anomalies as they occur, in a dynamic manner. MSTREAM has the following properties: (a) it detects anomalies in multi-aspect data including both categorical and numeric attributes; (b) it is online, thus processing each record in constant time and constant memory; (c) it can capture the correlation between multiple aspects of the data. MSTREAM is evaluated over the KDDCUP99, CICIDS-DoS, UNSW-NB 15 and CICIDS-DDoS datasets, and outperforms state-of-the-art baselines.
翻訳日:2022-10-17 08:09:24 公開日:2021-03-30
# DiffWave:音声合成のためのヴァーサタイル拡散モデル

DiffWave: A Versatile Diffusion Model for Audio Synthesis ( http://arxiv.org/abs/2009.09761v3 )

ライセンス: Link先を確認
Zhifeng Kong, Wei Ping, Jiaji Huang, Kexin Zhao, Bryan Catanzaro(参考訳) 本研究では,条件付きおよび無条件波形生成のための汎用拡散確率モデルdiffwaveを提案する。 モデルは非自己回帰的であり、ホワイトノイズ信号をマルコフ連鎖を通じて一定の数ステップの合成によって構造化波形に変換する。 データ確率の変動境界の変種を最適化して効率的に訓練する。 DiffWaveは、メルスペクトログラムに基づくニューラルヴォコーディング、クラス条件生成、無条件生成など、様々な波形生成タスクで高忠実なオーディオを生成する。 我々は,DiffWaveが音声品質(MOS:4.44対4.43)において強いWaveNetボコーダと一致することを示した。 特に,音声品質やサンプルの多様性の観点から,難解な無条件生成課題において,自己回帰型およびgan型波形モデルに有意に優れる。

In this work, we propose DiffWave, a versatile diffusion probabilistic model for conditional and unconditional waveform generation. The model is non-autoregressive, and converts the white noise signal into structured waveform through a Markov chain with a constant number of steps at synthesis. It is efficiently trained by optimizing a variant of variational bound on the data likelihood. DiffWave produces high-fidelity audios in different waveform generation tasks, including neural vocoding conditioned on mel spectrogram, class-conditional generation, and unconditional generation. We demonstrate that DiffWave matches a strong WaveNet vocoder in terms of speech quality (MOS: 4.44 versus 4.43), while synthesizing orders of magnitude faster. In particular, it significantly outperforms autoregressive and GAN-based waveform models in the challenging unconditional generation task in terms of audio quality and sample diversity from various automatic and human evaluations.
翻訳日:2022-10-16 03:56:33 公開日:2021-03-30
# Hypernetworksによる連続モデルに基づく強化学習

Continual Model-Based Reinforcement Learning with Hypernetworks ( http://arxiv.org/abs/2009.11997v2 )

ライセンス: Link先を確認
Yizhou Huang, Kevin Xie, Homanga Bharadhwaj and Florian Shkurti(参考訳) モデルベース強化学習(MBRL)とモデル予測制御(MPC)の効果的な計画は、学習力学モデルの精度に依存する。 MBRLとMPCの多くの例では、このモデルは定常であると仮定され、環境相互作用の初期から収集された状態遷移経験に基づいてスクラッチから定期的に再訓練される。 これは、動的モデルのトレーニングに必要な時間、および計画実行の間の一時停止が、収集されたエクスペリエンスのサイズとともに線形に増加することを意味します。 我々は、これは生涯にわたるロボット学習には遅すぎると論じ、タスク条件のハイパーネットワークを用いて、遭遇したダイナミクスを連続的に学習する手法であるHyperCRLを提案する。 Our method has three main attributes: first, it includes dynamics learning sessions that do not revisit training data from previous tasks, so it only needs to store the most recent fixed-size portion of the state transition experience; second, it uses fixed-capacity hypernetworks to represent non-stationary and task-aware dynamics; third, it outperforms existing continual learning alternatives that rely on fixed-capacity networks, and does competitively with baselines that remember an ever increasing coreset of past experience. ロボットの移動や操作のシナリオにおいて,HyperCRLは連続モデルに基づく強化学習に有効であることを示す。 ビデオ付きプロジェクトのwebサイトは、このリンクhttps://rvl.cs.toronto.edu/blog/2020/hypercrlです。

Effective planning in model-based reinforcement learning (MBRL) and model-predictive control (MPC) relies on the accuracy of the learned dynamics model. In many instances of MBRL and MPC, this model is assumed to be stationary and is periodically re-trained from scratch on state transition experience collected from the beginning of environment interactions. This implies that the time required to train the dynamics model - and the pause required between plan executions - grows linearly with the size of the collected experience. We argue that this is too slow for lifelong robot learning and propose HyperCRL, a method that continually learns the encountered dynamics in a sequence of tasks using task-conditional hypernetworks. Our method has three main attributes: first, it includes dynamics learning sessions that do not revisit training data from previous tasks, so it only needs to store the most recent fixed-size portion of the state transition experience; second, it uses fixed-capacity hypernetworks to represent non-stationary and task-aware dynamics; third, it outperforms existing continual learning alternatives that rely on fixed-capacity networks, and does competitively with baselines that remember an ever increasing coreset of past experience. We show that HyperCRL is effective in continual model-based reinforcement learning in robot locomotion and manipulation scenarios, such as tasks involving pushing and door opening. Our project website with videos is at this link https://rvl.cs.toronto.edu/blog/2020/hypercrl
翻訳日:2022-10-14 22:40:55 公開日:2021-03-30
# 負相関極端学習マシンのグローバル収束

Global convergence of Negative Correlation Extreme Learning Machine ( http://arxiv.org/abs/2009.14695v2 )

ライセンス: Link先を確認
Carlos Perales-Gonz\'alez(参考訳) ELM(Extreme Learning Machine)の文献で導入されたアンサンブルアプローチは主に、トレーニングデータが多種多様な基礎学習者を設定するのに十分不均一であるという前提のもと、データサンプリング手順に依存する手法に由来する。 この仮定を克服するため,NCELM(Negative correlation Extreme Learning Machine)と呼ばれる負相関学習(NCL)フレームワークに基づくELMアンサンブル手法を提案した。 このモデルは2段階で動作する。 一 隠された層にランダムな重みを持つ基礎学習者として異なるEMMを生成すること。 二 各EMM最小化問題において、アンサンブル予測の情報を有するNCLペナルティ項を導入し、基礎学習者を更新する。 iii) 第2段階は、アンサンブルが収束するまで反復される。 このnclアンサンブル法は、複数のベンチマークデータセットを用いた実験的研究によって検証されたが、この収束条件に関する情報は得られなかった。 本稿では,NCELMのグローバル収束を保証するために十分な条件を数学的に提示する。 各反復におけるアンサンブルの更新は縮約写像関数として定義され、バナッハの定理により、アンサンブルの大域収束が証明される。

Ensemble approaches introduced in the Extreme Learning Machine (ELM) literature mainly come from methods that relies on data sampling procedures, under the assumption that the training data are heterogeneously enough to set up diverse base learners. To overcome this assumption, it was proposed an ELM ensemble method based on the Negative Correlation Learning (NCL) framework, called Negative Correlation Extreme Learning Machine (NCELM). This model works in two stages: i) different ELMs are generated as base learners with random weights in the hidden layer, and ii) a NCL penalty term with the information of the ensemble prediction is introduced in each ELM minimization problem, updating the base learners, iii) second step is iterated until the ensemble converges. Although this NCL ensemble method was validated by an experimental study with multiple benchmark datasets, no information was given on the conditions about this convergence. This paper mathematically presents the sufficient conditions to guarantee the global convergence of NCELM. The update of the ensemble in each iteration is defined as a contraction mapping function, and through Banach theorem, global convergence of the ensemble is proved.
翻訳日:2022-10-12 22:16:20 公開日:2021-03-30
# クロージャ構造によるデータトポロジの発見。 理論的・実践的側面

Discovery data topology with the closure structure. Theoretical and practical aspects ( http://arxiv.org/abs/2010.02628v3 )

ライセンス: Link先を確認
Tatiana Makhalova, Aleksey Buzmakov, Sergei O. Kuznetsov and Amedeo Napoli(参考訳) 本稿では,パターンマイニング,特にアイテムセットマイニングについて再検討し,興味深く有意義な関連ルールや各アイテムセットを教師なしの方法で検索することで,バイナリデータセットの分析を可能にする。 パターンの集合に基づくデータセットの要約は、データセットに対する一般的かつ満足なビューを提供しないが、データセットの本質的な内容を取得するために、クローズドアイテムセットとそれらの最小生成物に基づく簡潔な表現(クロージャ構造)を導入する。 クロージャ構造により、データセット全体のトポロジとデータ固有の複雑さを理解することができる。 本稿では,このデータトポロジの研究に適した形式的概念解析の観点から,クロージャ構造の形式化を提案する。 本稿では,GDPMアルゴリズムを用いて理論的結果と実用的な結果を示す。 GDPMは、複雑性レベルの観点からデータセットのトポロジの特徴を返却し、アイテムセットの多様性と分布を強調するため、その機能においてかなりユニークなものである。 最後に、GDPMが実際にどのように使われるか、出力から何を期待できるかを示す一連の実験がある。

In this paper, we are revisiting pattern mining and especially itemset mining, which allows one to analyze binary datasets in searching for interesting and meaningful association rules and respective itemsets in an unsupervised way. While a summarization of a dataset based on a set of patterns does not provide a general and satisfying view over a dataset, we introduce a concise representation -- the closure structure -- based on closed itemsets and their minimum generators, for capturing the intrinsic content of a dataset. The closure structure allows one to understand the topology of the dataset in the whole and the inherent complexity of the data. We propose a formalization of the closure structure in terms of Formal Concept Analysis, which is well adapted to study this data topology. We present and demonstrate theoretical results, and as well, practical results using the GDPM algorithm. GDPM is rather unique in its functionality as it returns a characterization of the topology of a dataset in terms of complexity levels, highlighting the diversity and the distribution of the itemsets. Finally, a series of experiments shows how GDPM can be practically used and what can be expected from the output.
翻訳日:2022-10-10 07:50:33 公開日:2021-03-30
# ノルム境界における対人訓練の限界を明らかにする

Uncovering the Limits of Adversarial Training against Norm-Bounded Adversarial Examples ( http://arxiv.org/abs/2010.03593v3 )

ライセンス: Link先を確認
Sven Gowal, Chongli Qin, Jonathan Uesato, Timothy Mann, Pushmeet Kohli(参考訳) adversarial trainingとその変種は、堅牢なディープニューラルネットワークを学ぶためのデファクトスタンダードになっている。 本稿では,その限界を明らかにするために,敵対的訓練に関する景観を考察する。 異なるトレーニング損失,モデルサイズ,アクティベーション関数,(擬似ラベルによる)ラベルなしデータの追加,および他の要因が敵対的ロバスト性に及ぼす影響を体系的に検討した。 我々は、より大きなモデル、Swish/SiLUアクティベーションとモデルウェイト平均化を組み合わせることで、最先端の成果をはるかに超えるロバストモデルをトレーニングできることを発見した。 CIFAR-10 と CIFAR-100 は,それぞれ$\ell_\infty$ と $\ell_2$ の標準有界摂動に対して 8/255$ と $128/255$ に対して大きく改善されている。 追加のラベルのないデータで設定すると、cifar-10(以前の技術では+6.35%)で$\ell_\infty$の摂動に対して65.88%の精度で攻撃できる。 追加データなしでは57.20%(+3.46%)の精度が得られる。 以上の結果の汎用性を検証し,さらに修正を加えることなく,cifar-10で$\ell_2$摂動に対して80.53% (+7.62%),cifar-100で$28/255$,$\ell_\infty$摂動に対して36.88% (+8.46%) の精度を得た。 すべてのモデルはhttps://github.com/deepmind/deepmind-research/tree/master/adversarial_robustnessで利用可能だ。

Adversarial training and its variants have become de facto standards for learning robust deep neural networks. In this paper, we explore the landscape around adversarial training in a bid to uncover its limits. We systematically study the effect of different training losses, model sizes, activation functions, the addition of unlabeled data (through pseudo-labeling) and other factors on adversarial robustness. We discover that it is possible to train robust models that go well beyond state-of-the-art results by combining larger models, Swish/SiLU activations and model weight averaging. We demonstrate large improvements on CIFAR-10 and CIFAR-100 against $\ell_\infty$ and $\ell_2$ norm-bounded perturbations of size $8/255$ and $128/255$, respectively. In the setting with additional unlabeled data, we obtain an accuracy under attack of 65.88% against $\ell_\infty$ perturbations of size $8/255$ on CIFAR-10 (+6.35% with respect to prior art). Without additional data, we obtain an accuracy under attack of 57.20% (+3.46%). To test the generality of our findings and without any additional modifications, we obtain an accuracy under attack of 80.53% (+7.62%) against $\ell_2$ perturbations of size $128/255$ on CIFAR-10, and of 36.88% (+8.46%) against $\ell_\infty$ perturbations of size $8/255$ on CIFAR-100. All models are available at https://github.com/deepmind/deepmind-research/tree/master/adversarial_robustness.
翻訳日:2022-10-09 21:52:38 公開日:2021-03-30
# 高容量エキスパートバイナリネットワーク

High-Capacity Expert Binary Networks ( http://arxiv.org/abs/2010.03558v2 )

ライセンス: Link先を確認
Adrian Bulat and Brais Martinez and Georgios Tzimiropoulos(参考訳) ネットワークバイナリ化は、効率的な深層モデルを作成するための、有望なハードウェア対応の方向性である。 その記憶力と計算能力の利点にもかかわらず、バイナリモデルと実数値モデルの間の精度の差を減少させることは、未解決の困難な研究課題である。 この目的のために、私たちは以下の3つの貢献をします。 a) モデル容量を増やすために,入力特徴を条件とした時間に1つのデータ固有エキスパートバイナリフィルタを選択することを学習し,最初に条件付きコンピューティングをバイナリネットワークに仕立て上げるエキスパートバイナリ畳み込みを提案する。 b) 表現能力を高めるため,二元ネットワークにおける固有情報のボトルネックに対処するために,二元演算を同一予算内に維持する効率的な幅拡大機構を導入することを提案する。 c) ネットワーク設計を改善するために, 望ましい特性を持つネットワークトポロジの集合を提示する, 原則付きバイナリネットワーク成長機構を提案する。 全体として,提案手法は先行処理を改良し,計算コストの増大を伴わず,$\sim6 \%$を画期的な$\sim 71\%$に到達した。 コードは$\href{https://www.adrianbulat.com/binary-networks}{here}$である。

Network binarization is a promising hardware-aware direction for creating efficient deep models. Despite its memory and computational advantages, reducing the accuracy gap between binary models and their real-valued counterparts remains an unsolved challenging research problem. To this end, we make the following 3 contributions: (a) To increase model capacity, we propose Expert Binary Convolution, which, for the first time, tailors conditional computing to binary networks by learning to select one data-specific expert binary filter at a time conditioned on input features. (b) To increase representation capacity, we propose to address the inherent information bottleneck in binary networks by introducing an efficient width expansion mechanism which keeps the binary operations within the same budget. (c) To improve network design, we propose a principled binary network growth mechanism that unveils a set of network topologies of favorable properties. Overall, our method improves upon prior work, with no increase in computational cost, by $\sim6 \%$, reaching a groundbreaking $\sim 71\%$ on ImageNet classification. Code will be made available $\href{https://www.adrianbulat.com/binary-networks}{here}$.
翻訳日:2022-10-09 21:51:20 公開日:2021-03-30
# Olympus: ノイズの多い最適化と実験計画のためのベンチマークフレームワーク

Olympus: a benchmarking framework for noisy optimization and experiment planning ( http://arxiv.org/abs/2010.04153v2 )

ライセンス: Link先を確認
Florian H\"ase and Matteo Aldeghi and Riley J. Hickman and Lo\"ic M. Roch and Melodie Christensen and Elena Liles and Jason E. Hein and Al\'an Aspuru-Guzik(参考訳) 科学、工学、経済学にまたがる研究課題はしばしば最適化タスクとして定式化される。 化学と材料科学において、実験室のデジタル化と自動化の最近の成長は、最適化誘導の自律的発見とクローズドループ実験への関心を喚起している。 市販の最適化アルゴリズムに基づく実験計画戦略は、最小限の試行数で望ましい実験目標を達成するために、完全に自律的な研究プラットフォームに採用することができる。 しかしながら、科学的発見タスクに最も適した実験計画戦略は、事前不明であり、異なる戦略の厳密な比較は、非常に時間と資源の要求である。 最適化アルゴリズムは一般に低次元合成関数でベンチマークされるため、その性能が化学や材料科学で遭遇するノイズの多い高次元の実験課題にどのように変換されるかは不明である。 我々は,確率的ディープラーニングモデルを用いてエミュレートされた現実的な実験に対して,最適化アルゴリズムをベンチマークするための一貫した,使いやすいフレームワークを提供するソフトウェアパッケージであるOlympusを紹介する。 Olympusには、化学と材料科学から実験的に派生したベンチマークセットのコレクションと、ユーザフレンドリーなpythonインターフェースを通じて容易にアクセス可能な実験計画戦略のスイートが含まれている。 さらに、olympusはカスタムアルゴリズムとユーザ定義データセットの統合、テスト、共有を促進する。 要約すると、olympusは現実的な実験シナリオにおけるベンチマーク最適化アルゴリズムに関連する障壁を緩和し、データ共有を促進し、実験計画戦略の性能を評価するための標準フレームワークを作成する。

Research challenges encountered across science, engineering, and economics can frequently be formulated as optimization tasks. In chemistry and materials science, recent growth in laboratory digitization and automation has sparked interest in optimization-guided autonomous discovery and closed-loop experimentation. Experiment planning strategies based on off-the-shelf optimization algorithms can be employed in fully autonomous research platforms to achieve desired experimentation goals with the minimum number of trials. However, the experiment planning strategy that is most suitable to a scientific discovery task is a priori unknown while rigorous comparisons of different strategies are highly time and resource demanding. As optimization algorithms are typically benchmarked on low-dimensional synthetic functions, it is unclear how their performance would translate to noisy, higher-dimensional experimental tasks encountered in chemistry and materials science. We introduce Olympus, a software package that provides a consistent and easy-to-use framework for benchmarking optimization algorithms against realistic experiments emulated via probabilistic deep-learning models. Olympus includes a collection of experimentally derived benchmark sets from chemistry and materials science and a suite of experiment planning strategies that can be easily accessed via a user-friendly python interface. Furthermore, Olympus facilitates the integration, testing, and sharing of custom algorithms and user-defined datasets. In brief, Olympus mitigates the barriers associated with benchmarking optimization algorithms on realistic experimental scenarios, promoting data sharing and the creation of a standard framework for evaluating the performance of experiment planning strategies
翻訳日:2022-10-09 11:49:45 公開日:2021-03-30
# 形状テクスチュアデバイアスニューラルネットワークトレーニング

Shape-Texture Debiased Neural Network Training ( http://arxiv.org/abs/2010.05981v2 )

ライセンス: Link先を確認
Yingwei Li, Qihang Yu, Mingxing Tan, Jieru Mei, Peng Tang, Wei Shen, Alan Yuille, Cihang Xie(参考訳) 形状とテクスチャは、物体を認識するための2つの顕著で相補的な手がかりである。 それでも、畳み込みニューラルネットワークはしばしば、トレーニングデータセットによってテクスチャまたは形状に偏っている。 我々のアブレーションは、このようなバイアスがモデル性能を低下させることを示している。 この観察により,形状・テクスチュア・デバイアス学習のための簡単なアルゴリズムを開発した。 表現学習において,モデルが単一キューにのみ参加することを防止するため,コンフリクト形状とテクスチャ情報(チンパンジー形状のイメージだがレモンテクスチャも含む)でトレーニングデータを増強し,かつ,それに対応する形状とテクスチャの監督を同時に行う。 実験により,複数の画像認識ベンチマークにおけるモデル性能向上と対向ロバスト性の向上が得られた。 例えば、ImageNetでトレーニングすることで、ResNet-152がImageNet(+1.2%)、ImageNet-A(+5.2%)、ImageNet-C(+8.3%)、Stylized-ImageNet(+11.1%)の大幅な改善を実現し、ImageNetのFGSM敵攻撃者(+14.4%)に対する防御に役立っている。 我々の手法は、他の高度なデータ拡張戦略、例えば、Mixup、CutMixと互換性があると主張している。 コードはここで入手できる。 https://github.com/liyingwei/shapetexturedebiasedtraining。

Shape and texture are two prominent and complementary cues for recognizing objects. Nonetheless, Convolutional Neural Networks are often biased towards either texture or shape, depending on the training dataset. Our ablation shows that such bias degenerates model performance. Motivated by this observation, we develop a simple algorithm for shape-texture debiased learning. To prevent models from exclusively attending on a single cue in representation learning, we augment training data with images with conflicting shape and texture information (eg, an image of chimpanzee shape but with lemon texture) and, most importantly, provide the corresponding supervisions from shape and texture simultaneously. Experiments show that our method successfully improves model performance on several image recognition benchmarks and adversarial robustness. For example, by training on ImageNet, it helps ResNet-152 achieve substantial improvements on ImageNet (+1.2%), ImageNet-A (+5.2%), ImageNet-C (+8.3%) and Stylized-ImageNet (+11.1%), and on defending against FGSM adversarial attacker on ImageNet (+14.4%). Our method also claims to be compatible with other advanced data augmentation strategies, eg, Mixup, and CutMix. The code is available here: https://github.com/LiYingwei/ShapeTextureDebiasedTraining.
翻訳日:2022-10-08 07:24:59 公開日:2021-03-30
# 自己教師付きタスクによる表表現の改善

Learning Better Representation for Tables by Self-Supervised Tasks ( http://arxiv.org/abs/2010.07606v3 )

ライセンス: Link先を確認
Liang Li, Can Ma, Yinliang Yue, Linjun Shou and Dayong Hu(参考訳) テーブルからテキストへの生成は、自然テキストを自動的に生成することで、テーブル内の重要な情報を便利に取得することを目的としている。 表からテキストへのニューラルモデルは目覚ましい進歩を遂げているが、いくつかの問題がまだ見過ごされている。 第一に、多くの表に記録されている値は、実際は数値である。 既存のアプローチではこれらを特別な扱いはせず、自然言語のテキストではこれらを言葉とみなしている。 第二に、トレーニングデータセットのターゲットテキストには、入力テーブルに冗長な情報や事実が存在しない場合がある。 これらは、コンテンツの選択と計画と補助監督に基づくいくつかの方法に誤った監督信号を与える可能性がある。 これらの問題を解決するために,数順序と有意順序という2つの自己教師型タスクを提案し,テーブル表現の学習を支援する。 前者は列次元に取り組み、数値のサイズ特性を表表現に組み込むのに役立つ。 後者は行の次元に作用し、意味を認識するテーブル表現を学ぶのに役立つ。 nba game statistic と関連するニュースからなる,広く使用されているデータセット rotowire 上で本手法をテストした。 実験結果から,これら2つの自己教師型タスクで訓練したモデルは,文脈選択や計画のモデル化を伴わずとも,より健全で適切に構成された事実を含むテキストを生成することができた。 そして、自動メトリクスで最先端のパフォーマンスを達成する。

Table-to-text generation aims at automatically generating natural text to help people to conveniently obtain the important information in tables. Although neural models for table-to-text have achieved remarkable progress, some problems still overlooked. The first is that the values recorded in many tables are mostly numbers in practice. The existing approaches do not do special treatment for these, and still regard these as words in natural language text. Secondly, the target texts in training dataset may contain redundant information or facts do not exist in the input tables. These may give wrong supervision signals to some methods based on content selection and planning and auxiliary supervision. To solve these problems, we propose two self-supervised tasks, Number Ordering and Significance Ordering, to help to learn better table representation. The former works on the column dimension to help to incorporate the size property of numbers into table representation. The latter acts on row dimension and help to learn a significance-aware table representation. We test our methods on the widely used dataset ROTOWIRE which consists of NBA game statistic and related news. The experimental results demonstrate that the model trained together with these two self-supervised tasks can generate text that contains more salient and well-organized facts, even without modeling context selection and planning. And we achieve the state-of-the-art performance on automatic metrics.
翻訳日:2022-10-07 03:52:01 公開日:2021-03-30
# Vid-ODE:ニューラル正規微分方程式を用いた連続時間ビデオ生成

Vid-ODE: Continuous-Time Video Generation with Neural Ordinary Differential Equation ( http://arxiv.org/abs/2010.08188v2 )

ライセンス: Link先を確認
Sunghyun Park, Kangyeol Kim, Junsoo Lee, Jaegul Choo, Joonseok Lee, Sookyung Kim, Edward Choi(参考訳) ビデオ生成モデルは、しばしば固定フレームレートの仮定の下で動作し、フレキシブルフレームレートの処理(例えば、ビデオのよりダイナミックな部分のフレームレートの増加や、失われたビデオフレームの処理など)に関して、最適以下のパフォーマンスをもたらす。 既存の映像生成モデルの任意の時間ステップを扱う能力の制限を解消するために,ニューラルode(vid-ode)とピクセルレベルの映像処理技術を組み合わせた連続時間映像生成を提案する。 最近提案されたニューラルODEの畳み込みバージョンであるODE-ConvGRUをエンコーダとして使用することで、連続時間ダイナミクスを学習できるため、Vid-ODEはフレキシブルフレームレートの入力ビデオの時空間ダイナミクスを学習できる。 デコーダは学習されたダイナミックス関数を統合し、任意の時間ステップでビデオフレームを合成し、ピクセルレベルの合成技術を用いて個々のフレームのシャープさを維持する。 実世界の4つのビデオデータセットに対する広範な実験により、提案したVid-ODEは、トレーニングされた時間範囲(補間)と範囲を超えて、様々なビデオ生成環境下で最先端のアプローチよりも優れていることを確認した。 私たちの知る限りでは、Vid-ODEは実世界のビデオを使って連続的なビデオ生成を成功させる最初の作品です。

Video generation models often operate under the assumption of fixed frame rates, which leads to suboptimal performance when it comes to handling flexible frame rates (e.g., increasing the frame rate of the more dynamic portion of the video as well as handling missing video frames). To resolve the restricted nature of existing video generation models' ability to handle arbitrary timesteps, we propose continuous-time video generation by combining neural ODE (Vid-ODE) with pixel-level video processing techniques. Using ODE-ConvGRU as an encoder, a convolutional version of the recently proposed neural ODE, which enables us to learn continuous-time dynamics, Vid-ODE can learn the spatio-temporal dynamics of input videos of flexible frame rates. The decoder integrates the learned dynamics function to synthesize video frames at any given timesteps, where the pixel-level composition technique is used to maintain the sharpness of individual frames. With extensive experiments on four real-world video datasets, we verify that the proposed Vid-ODE outperforms state-of-the-art approaches under various video generation settings, both within the trained time range (interpolation) and beyond the range (extrapolation). To the best of our knowledge, Vid-ODE is the first work successfully performing continuous-time video generation using real-world videos.
翻訳日:2022-10-06 21:25:11 公開日:2021-03-30
# PseudoSeg: セマンティックセグメンテーションのための擬似ラベルの設計

PseudoSeg: Designing Pseudo Labels for Semantic Segmentation ( http://arxiv.org/abs/2010.09713v2 )

ライセンス: Link先を確認
Yuliang Zou, Zizhao Zhang, Han Zhang, Chun-Liang Li, Xiao Bian, Jia-Bin Huang, Tomas Pfister(参考訳) 半教師付き学習(SSL)の最近の進歩は、一貫性の正規化と擬似ラベルの組み合わせによって、低データ体制における画像分類精度を効果的に向上できることを実証している。 分類と比較すると、セマンティックセグメンテーションタスクはより集中的なラベリングコストを必要とする。 このように、これらのタスクはデータ効率のトレーニング手法の恩恵を受ける。 しかし、セグメンテーションにおける構造化出力は、既存のSSL戦略を適用するのに特別な困難(擬似ラベルや拡張の設計など)をもたらす。 そこで本研究では,無ラベルデータや弱ラベルデータを用いてトレーニングを行うための構造的擬似ラベルを生成するための擬似ラベルの簡易かつ新規な再設計を提案する。 提案する疑似ラベル戦略は,一段階一貫性トレーニングフレームワークに適用するネットワーク構造非依存である。 提案手法の有効性を,低データと高データの両方において示す。 幅広い実験により、多種多様なソースと強力なデータ拡張が、セグメンテーションのための一貫性トレーニングに不可欠であることを示す。 ソースコードはhttps://github.com/googleinterns/wssで入手できる。

Recent advances in semi-supervised learning (SSL) demonstrate that a combination of consistency regularization and pseudo-labeling can effectively improve image classification accuracy in the low-data regime. Compared to classification, semantic segmentation tasks require much more intensive labeling costs. Thus, these tasks greatly benefit from data-efficient training methods. However, structured outputs in segmentation render particular difficulties (e.g., designing pseudo-labeling and augmentation) to apply existing SSL strategies. To address this problem, we present a simple and novel re-design of pseudo-labeling to generate well-calibrated structured pseudo labels for training with unlabeled or weakly-labeled data. Our proposed pseudo-labeling strategy is network structure agnostic to apply in a one-stage consistency training framework. We demonstrate the effectiveness of the proposed pseudo-labeling strategy in both low-data and high-data regimes. Extensive experiments have validated that pseudo labels generated from wisely fusing diverse sources and strong data augmentation are crucial to consistency training for segmentation. The source code is available at https://github.com/googleinterns/wss.
翻訳日:2022-10-05 22:14:56 公開日:2021-03-30
# 暗黙モデルに対する神経近似統計量

Neural Approximate Sufficient Statistics for Implicit Models ( http://arxiv.org/abs/2010.10079v2 )

ライセンス: Link先を確認
Yanzhi Chen, Dinghuai Zhang, Michael Gutmann, Aaron Courville, Zhanxing Zhu(参考訳) 確率関数の評価が難解である暗黙的生成モデルの要約統計を自動的に構築する方法の基本的問題を考えるが、モデルからデータをサンプリングすることは可能である。 このアイデアは、ディープニューラルネットワークの助けを借りて、データの表現を最大化する相互情報として、十分な統計を構築するというタスクを組み込むことである。 infomaxの学習手順は、密度や密度比を見積もる必要はない。 従来のベイズ近似計算と最近のニューラル・サイエンス法の両方にアプローチを適用し,様々なタスクにおける性能を向上する。

We consider the fundamental problem of how to automatically construct summary statistics for implicit generative models where the evaluation of the likelihood function is intractable, but sampling data from the model is possible. The idea is to frame the task of constructing sufficient statistics as learning mutual information maximizing representations of the data with the help of deep neural networks. The infomax learning procedure does not need to estimate any density or density ratio. We apply our approach to both traditional approximate Bayesian computation and recent neural likelihood methods, boosting their performance on a range of tasks.
翻訳日:2022-10-05 05:45:38 公開日:2021-03-30
# 生体認証の公平性:生体認証システムを評価するメリットの図

Fairness in Biometrics: a figure of merit to assess biometric verification systems ( http://arxiv.org/abs/2011.02395v2 )

ライセンス: Link先を確認
Tiago de Freitas Pereira and S\'ebastien Marcel(参考訳) 機械学習ベースの(ml)システムは、私たちの日常生活のいくつかのインスタンスに影響を与える無数のシナリオにおいて、過去10年間から主にデプロイされています。 このような膨大な応用によって、少数民族の社会的影響により、公平さの側面が注目を浴び始めます。 本研究では,バイオメトリックスにおける公平性について論じる。 まず,複数の生体認証システム,いわゆるfairness discrepancy rate(fdr)間の公平性の評価と比較が可能なメリットの第一図を紹介する。 2つの合成生体認証システムのユースケースを紹介し、公平で不公平な行動の極端な場合におけるこの効果の可能性を実証する。 第2に、顔バイオメトリックスを用いたユースケースを提示し、性別と人種の人口動態を探索する3つの公開データセットを使用して、この新たな評価指標と比較する。

Machine learning-based (ML) systems are being largely deployed since the last decade in a myriad of scenarios impacting several instances in our daily lives. With this vast sort of applications, aspects of fairness start to rise in the spotlight due to the social impact that this can get in minorities. In this work aspects of fairness in biometrics are addressed. First, we introduce the first figure of merit that is able to evaluate and compare fairness aspects between multiple biometric verification systems, the so-called Fairness Discrepancy Rate (FDR). A use case with two synthetic biometric systems is introduced and demonstrates the potential of this figure of merit in extreme cases of fair and unfair behavior. Second, a use case using face biometrics is presented where several systems are evaluated compared with this new figure of merit using three public datasets exploring gender and race demographics.
翻訳日:2022-09-29 22:32:54 公開日:2021-03-30
# きめ細かいユーザの注意によるテキストから画像への生成

Text-to-Image Generation Grounded by Fine-Grained User Attention ( http://arxiv.org/abs/2011.03775v2 )

ライセンス: Link先を確認
Jing Yu Koh, Jason Baldridge, Honglak Lee, Yinfei Yang(参考訳) ローカライズド・ナラティブ(localized narratives)は、マウスのトレースと組み合わせられた画像の詳細な自然言語記述を持つデータセットで、フレーズの微妙な視覚的接地を提供する。 本稿では、このグラウンド化を利用して画像を生成するシーケンシャルモデルであるTReCSを提案する。 TReCSは記述を使用してセグメンテーションマスクを検索し、マウスのトレースと整列したオブジェクトラベルを予測する。 これらのアライメントはマスクの選択と位置決めに使用され、完全にカバーされたセグメンテーションキャンバスを生成する。 この多段階の検索ベースのアプローチは、自動測定と人的評価の両方において、既存のテキスト対画像生成モデルよりも優れています。

Localized Narratives is a dataset with detailed natural language descriptions of images paired with mouse traces that provide a sparse, fine-grained visual grounding for phrases. We propose TReCS, a sequential model that exploits this grounding to generate images. TReCS uses descriptions to retrieve segmentation masks and predict object labels aligned with mouse traces. These alignments are used to select and position masks to generate a fully covered segmentation canvas; the final image is produced by a segmentation-to-image generator using this canvas. This multi-step, retrieval-based approach outperforms existing direct text-to-image generation models on both automatic metrics and human evaluations: overall, its generated images are more photo-realistic and better match descriptions.
翻訳日:2022-09-28 22:16:19 公開日:2021-03-30
# ROIAL:Exoskeleton Gait Preference Landscapesを特徴付ける興味あるアクティブラーニング領域

ROIAL: Region of Interest Active Learning for Characterizing Exoskeleton Gait Preference Landscapes ( http://arxiv.org/abs/2011.04812v2 )

ライセンス: Link先を確認
Kejun Li, Maegan Tucker, Erdem B{\i}y{\i}k, Ellen Novoseller, Joel W. Burdick, Yanan Sui, Dorsa Sadigh, Yisong Yue, Aaron D. Ames(参考訳) どのような種類の外骨格歩行がユーザにとって快適であるかを特徴付け、より一般的な歩行の科学を理解するには、ユーザのユーティリティランドスケープを回復する必要がある。 歩行軌跡は多くの歩行パラメータで定義されており、人間の試行からのデータ収集は高価であり、ユーザーの安全と快適性を確保する必要がある。 本研究は,各ユーザの基礎となるユーティリティ機能を安全と快適性を保証する領域上で積極的に学習する,関心領域アクティブラーニング(roial)フレームワークを提案する。 ROIALは、絶対的な数値スコアよりも信頼性の高いフィードバックメカニズムである順序と選好のフィードバックから学習する。 このアルゴリズムの性能は,低体外骨格内を歩く3人の障害のない被験者に対して,シミュレーションと実験の両方で評価される。 ROIALは、4つのエクソスケルトン歩行パラメータにまたがる各エクソスケルトン利用者のユーティリティランドスケープを予測するベイズ後部学習を行う。 このアルゴリズムは、ユーザの歩行嗜好の共通点と相違点の両方を発見し、最も影響の大きい歩行パラメータを特定する。 これらの結果は, 限られた人間実験から, 歩行可能な景観を回復する可能性を示す。

Characterizing what types of exoskeleton gaits are comfortable for users, and understanding the science of walking more generally, require recovering a user's utility landscape. Learning these landscapes is challenging, as walking trajectories are defined by numerous gait parameters, data collection from human trials is expensive, and user safety and comfort must be ensured. This work proposes the Region of Interest Active Learning (ROIAL) framework, which actively learns each user's underlying utility function over a region of interest that ensures safety and comfort. ROIAL learns from ordinal and preference feedback, which are more reliable feedback mechanisms than absolute numerical scores. The algorithm's performance is evaluated both in simulation and experimentally for three non-disabled subjects walking inside of a lower-body exoskeleton. ROIAL learns Bayesian posteriors that predict each exoskeleton user's utility landscape across four exoskeleton gait parameters. The algorithm discovers both commonalities and discrepancies across users' gait preferences and identifies the gait parameters that most influenced user feedback. These results demonstrate the feasibility of recovering gait utility landscapes from limited human trials.
翻訳日:2022-09-28 02:45:09 公開日:2021-03-30
# 確率的逆ダイナミクス学習のための変分無限混合

A Variational Infinite Mixture for Probabilistic Inverse Dynamics Learning ( http://arxiv.org/abs/2011.05217v3 )

ライセンス: Link先を確認
Hany Abdulsamad, Peter Nickl, Pascal Klink, Jan Peters(参考訳) 制御とロボティクスのアプリケーションにおける確率的回帰技術は、データ駆動適応性、計算効率、高次元へのスケーラビリティ、データ内の異なるモダリティを扱う能力の異なる基準を満たす必要がある。 古典的な回帰器は通常これらの性質のサブセットのみを満たす。 本研究では、ベイズ的非パラメトリック混合に関する基礎研究を拡張し、確率的局所多項式モデルの無限混合に対する効率的な変分ベイズ推論手法を導出する。 我々は,データ駆動型複雑性適応,高速予測,不連続関数とヘテロセダスティックノイズに対処する能力を組み合わせたモデルの有用性を強調した。 我々は,この手法を大規模実数逆ダイナミクスデータセットで評価し,無限混合式が古典的局所学習法と競合し,ヒューリスティックスに頼らずにデータに基づく成分数に適応することでモデルの複雑さを正則化することを示した。 さらに,本手法の実用性を示すために,Barrett-WAMマニピュレータのオンライン逆ダイナミクス制御に学習モデルを用い,軌道追跡性能を著しく改善した。

Probabilistic regression techniques in control and robotics applications have to fulfill different criteria of data-driven adaptability, computational efficiency, scalability to high dimensions, and the capacity to deal with different modalities in the data. Classical regressors usually fulfill only a subset of these properties. In this work, we extend seminal work on Bayesian nonparametric mixtures and derive an efficient variational Bayes inference technique for infinite mixtures of probabilistic local polynomial models with well-calibrated certainty quantification. We highlight the model's power in combining data-driven complexity adaptation, fast prediction and the ability to deal with discontinuous functions and heteroscedastic noise. We benchmark this technique on a range of large real inverse dynamics datasets, showing that the infinite mixture formulation is competitive with classical Local Learning methods and regularizes model complexity by adapting the number of components based on data and without relying on heuristics. Moreover, to showcase the practicality of the approach, we use the learned models for online inverse dynamics control of a Barrett-WAM manipulator, significantly improving the trajectory tracking performance.
翻訳日:2022-09-27 08:25:09 公開日:2021-03-30
# CDT:説明可能な強化学習のためのカスケード決定木

CDT: Cascading Decision Trees for Explainable Reinforcement Learning ( http://arxiv.org/abs/2011.07553v2 )

ライセンス: Link先を確認
Zihan Ding, Pablo Hernandez-Leal, Gavin Weiguang Ding, Changjian Li, Ruitong Huang(参考訳) 深層強化学習(DRL)は近年,様々な分野で大きな進歩を遂げている。 しかしながら、RLエージェントのポリシーを説明することは、ニューラルネットワークの決定を説明するのが複雑である、いくつかの要因があるため、依然としてオープンな問題である。 最近、ある研究グループが決定木に基づくモデルを使って説明可能なポリシーを学習している。 soft decision tree (sdts) と discretized differentiable decision tree (ddts) は、優れたパフォーマンスを達成し、説明可能なポリシーを持つことの利点を共有している。 本研究では,木に基づく説明可能なRLの性能と説明可能性の両面でさらに改善する。 提案するcascading decision tree (cdts) は,より豊かな表現性を実現するために,決定経路に表現学習を適用する。 実験結果から,CDTをポリシ関数近似器として,あるいはブラックボックスポリシーを説明する模擬学習者として使用する場合,CDTはSDTよりも簡潔で説明可能なモデルで,より優れたパフォーマンスを実現することができることがわかった。 第2の貢献として,本研究は,木ベースの説明可能なモデルを用いた模倣学習によるブラックボックスポリシの説明の限界を明らかにする。

Deep Reinforcement Learning (DRL) has recently achieved significant advances in various domains. However, explaining the policy of RL agents still remains an open problem due to several factors, one being the complexity of explaining neural networks decisions. Recently, a group of works have used decision-tree-based models to learn explainable policies. Soft decision trees (SDTs) and discretized differentiable decision trees (DDTs) have been demonstrated to achieve both good performance and share the benefit of having explainable policies. In this work, we further improve the results for tree-based explainable RL in both performance and explainability. Our proposal, Cascading Decision Trees (CDTs) apply representation learning on the decision path to allow richer expressivity. Empirical results show that in both situations, where CDTs are used as policy function approximators or as imitation learners to explain black-box policies, CDTs can achieve better performances with more succinct and explainable models than SDTs. As a second contribution our study reveals limitations of explaining black-box policies via imitation learning with tree-based explainable models, due to its inherent instability.
翻訳日:2022-09-25 07:31:17 公開日:2021-03-30
# 点からの重なりのない楕円のロバスト検出と画像の円形目標抽出と点雲のシリンダ検出への応用

Robust Detection of Non-overlapping Ellipses from Points with Applications to Circular Target Extraction in Images and Cylinder Detection in Point Clouds ( http://arxiv.org/abs/2011.13849v3 )

ライセンス: Link先を確認
Reza Maalek and Derek Lichti(参考訳) この原稿は、エッジポイントから重複しない楕円を自動的に検出する新しい方法のコレクションを提供する。 新たな展開は次の通りである。 (i)ロバストなモンテカルロ系楕円体が2次元(2D)点に外接点の存在下で適合すること。 (II)2次元エッジ点からの非重なり合う楕円の検出、及び (iii)三次元点雲からのシリンダーの抽出 提案手法は, 4つの実験セットの設計を通じて, シミュレーションおよび実世界のデータセットを用いて, 既存の最先端手法と徹底的に比較した。 提案したロバスト楕円検出は、シミュレーションと実世界の両方のデータセットにおいて、四つの信頼性の高いロバストな手法よりも優れていることがわかった。 提案手法は実画像上でのF値の99.3%をFornaciari,Patraucean,PanagiotakisのF値の42.4%,65.6%,59.2%と比較した。 提案するシリンダー抽出法により,実世界の2つの点雲中の全ての検出可能な機械管を,実験室条件と建設現場条件下で同定した。 本研究は,点雲から画像やパイプから円ターゲットを自動的に抽出する手法の適用を期待するものである。

This manuscript provides a collection of new methods for the automated detection of non-overlapping ellipses from edge points. The methods introduce new developments in: (i) robust Monte Carlo-based ellipse fitting to 2-dimensional (2D) points in the presence of outliers; (ii) detection of non-overlapping ellipse from 2D edge points; and (iii) extraction of cylinder from 3D point clouds. The proposed methods were thoroughly compared with established state-of-the-art methods, using simulated and real-world datasets, through the design of four sets of original experiments. It was found that the proposed robust ellipse detection was superior to four reliable robust methods, including the popular least median of squares, in both simulated and real-world datasets. The proposed process for detecting non-overlapping ellipses achieved F-measure of 99.3% on real images, compared to F-measures of 42.4%, 65.6%, and 59.2%, obtained using the methods of Fornaciari, Patraucean, and Panagiotakis, respectively. The proposed cylinder extraction method identified all detectable mechanical pipes in two real-world point clouds, obtained under laboratory, and industrial construction site conditions. The results of this investigation show promise for the application of the proposed methods for automatic extraction of circular targets from images and pipes from point clouds.
翻訳日:2022-09-23 20:50:38 公開日:2021-03-30
# 真のシフト不変畳み込みニューラルネットワーク

Truly shift-invariant convolutional neural networks ( http://arxiv.org/abs/2011.14214v4 )

ライセンス: Link先を確認
Anadi Chaman (1), Ivan Dokmani\'c (2) ((1) University of Illinois at Urbana-Champaign, (2) University of Basel)(参考訳) 畳み込み層とプール層の使用により、畳み込みニューラルネットワークは長い間シフト不変であると考えられていた。 しかし、最近の研究では、CNNの出力は入力の小さなシフトで大幅に変化しうることが示されている: ダウンサンプリング(ストライド)層の存在に起因する問題である。 既存のソリューションはデータ拡張かアンチエイリアスに依存しており、どちらも制限があり、どちらも完全なシフト不変性を実現していない。 さらに、これらの手法から得られる利得は、トレーニング中に見えない画像パターンにまで拡張されない。 これらの課題に対処するために,適応型多相サンプリング(APS)を提案する。これは畳み込みニューラルネットワークが,精度を損なうことなく,シフト下での分類性能の100%整合性を達成できる単純なサブサンプリング方式である。 APSでは、ネットワークはトレーニング前のシフトに完全整合性を示し、畳み込みニューラルネットワークを真にシフト不変にする最初のアプローチとなる。

Thanks to the use of convolution and pooling layers, convolutional neural networks were for a long time thought to be shift-invariant. However, recent works have shown that the output of a CNN can change significantly with small shifts in input: a problem caused by the presence of downsampling (stride) layers. The existing solutions rely either on data augmentation or on anti-aliasing, both of which have limitations and neither of which enables perfect shift invariance. Additionally, the gains obtained from these methods do not extend to image patterns not seen during training. To address these challenges, we propose adaptive polyphase sampling (APS), a simple sub-sampling scheme that allows convolutional neural networks to achieve 100% consistency in classification performance under shifts, without any loss in accuracy. With APS, the networks exhibit perfect consistency to shifts even before training, making it the first approach that makes convolutional neural networks truly shift-invariant.
翻訳日:2022-09-19 19:13:13 公開日:2021-03-30
# オンライン物体検出における動きのぼかし処理の改善

Improved Handling of Motion Blur in Online Object Detection ( http://arxiv.org/abs/2011.14448v2 )

ライセンス: Link先を確認
Mohamed Sayed, Gabriel Brostow(参考訳) 私たちは、現実世界で動作するオンラインビジョンシステムに対して、特定の種類のオブジェクトを検出したいと考えています。 オブジェクト検出はすでに非常に難しいです。 車や携帯のカメラから画像がぼやけていると、さらに難しくなります。 既存の取り組みのほとんどは、シャープなイメージに焦点を絞って、真実に簡単にラベルを付けるか、あるいは多くの一般的な汚職の1つとして動きのぼかしを扱いました。 代わりに、私たちは特に、感情誘発ぼかしの詳細に焦点を当てます。 鮮明な画像とぼやけた画像のパフォーマンスのギャップを、それぞれ異なる潜在的な原因をターゲットとする5つの治療法のクラスを探索する。 例えば、まず画像をデブラリングすると人間の解釈性が変わるが、現時点では部分的にオブジェクト検出が改善されているだけである。 他の4つのリメディエーションは、マルチスケールテクスチャ、分散テスト、ラベル生成、ぼかしタイプによるコンディショニングに対応している。 驚いたことに、カスタムラベル生成は空間的曖昧さを解消することを目的としており、他のすべてのものよりも先に、オブジェクト検出を著しく改善している。 また, 分類の結果とは対照的に, 動きのぼやけという異常なカテゴリーにモデルを適用することで, 顕著な向上が見られる。 本研究では,coco画像と実世界のぼかしデータセットを用いて,異なる治療法を実験的に検証し,相互交配し,検出率の高い簡便で実用的なモデルを構築した。

We wish to detect specific categories of objects, for online vision systems that will run in the real world. Object detection is already very challenging. It is even harder when the images are blurred, from the camera being in a car or a hand-held phone. Most existing efforts either focused on sharp images, with easy to label ground truth, or they have treated motion blur as one of many generic corruptions. Instead, we focus especially on the details of egomotion induced blur. We explore five classes of remedies, where each targets different potential causes for the performance gap between sharp and blurred images. For example, first deblurring an image changes its human interpretability, but at present, only partly improves object detection. The other four classes of remedies address multi-scale texture, out-of-distribution testing, label generation, and conditioning by blur-type. Surprisingly, we discover that custom label generation aimed at resolving spatial ambiguity, ahead of all others, markedly improves object detection. Also, in contrast to findings from classification, we see a noteworthy boost by conditioning our model on bespoke categories of motion blur. We validate and cross-breed the different remedies experimentally on blurred COCO images and real-world blur datasets, producing an easy and practical favorite model with superior detection rates.
翻訳日:2021-06-07 09:01:01 公開日:2021-03-30
# 時間的行動定位のためのビデオ自己stitching graph network

Video Self-Stitching Graph Network for Temporal Action Localization ( http://arxiv.org/abs/2011.14598v3 )

ライセンス: Link先を確認
Chen Zhao, Ali Thabet, Bernard Ghanem(参考訳) ビデオにおける時間的行動ローカライゼーション(TAL)は、特に行動時間スケールの大きな変化のために難しい課題である。 ショートアクションは通常、データの主要な割合を占めるが、現在のすべてのメソッドで最低パフォーマンスを持つ。 本稿では,ショートアクションの課題に直面し,VSGN(Video Self-Stitching Graph Network)と呼ばれるマルチレベルクロススケールソリューションを提案する。 VSGNには、ビデオセルフスティッチ(VSS)とクロススケールグラフピラミッドネットワーク(xGPN)の2つの重要なコンポーネントがあります。 VSSでは、ビデオの短い時間に焦点を合わせ、時間次元に沿って拡大し、より大きなスケールを得る。 1つの入力シーケンスで元のクリップと拡大したクリップを縫い合わせることで、両方のスケールの相補的な特性を生かした。 xGPNコンポーネントはさらに、クロススケールグラフネットワークのピラミッドによるクロススケール相関を利用しており、それぞれが複数のスケールから同じスケールの機能を集約するハイブリッドモジュールを含んでいる。 我々のVSGNは、特徴表現を強化するだけでなく、短いアクションとより短いトレーニングサンプルのためのよりポジティブなアンカーを生成する。 実験によると、VSGNは明らかにショートアクションのローカライズ性能を改善し、THUMOS-14とActivityNet-v1.3の全体的なパフォーマンスを達成する。

Temporal action localization (TAL) in videos is a challenging task, especially due to the large variation in action temporal scales. Short actions usually occupy the major proportion in the data, but have the lowest performance with all current methods. In this paper, we confront the challenge of short actions and propose a multi-level cross-scale solution dubbed as video self-stitching graph network (VSGN). We have two key components in VSGN: video self-stitching (VSS) and cross-scale graph pyramid network (xGPN). In VSS, we focus on a short period of a video and magnify it along the temporal dimension to obtain a larger scale. We stitch the original clip and its magnified counterpart in one input sequence to take advantage of the complementary properties of both scales. The xGPN component further exploits the cross-scale correlations by a pyramid of cross-scale graph networks, each containing a hybrid module to aggregate features from across scales as well as within the same scale. Our VSGN not only enhances the feature representations, but also generates more positive anchors for short actions and more short training samples. Experiments demonstrate that VSGN obviously improves the localization performance of short actions as well as achieving the state-of-the-art overall performance on THUMOS-14 and ActivityNet-v1.3.
翻訳日:2021-06-06 14:48:36 公開日:2021-03-30
# just ask: 何百万ものナレーションビデオの質問に答える学習

Just Ask: Learning to Answer Questions from Millions of Narrated Videos ( http://arxiv.org/abs/2012.00451v2 )

ライセンス: Link先を確認
Antoine Yang, Antoine Miech, Josef Sivic, Ivan Laptev, Cordelia Schmid(参考訳) 最近のビジュアル質問応答の方法は、大規模な注釈付きデータセットに依存している。 しかし、ビデオに対する質問や回答のマニュアルアノテーションは面倒で高価であり、スケーラビリティを損なう。 本稿では,手動アノテーションを回避し,自動クロスモーダル監視によるビデオ質問応答のための大規模トレーニングデータセットを作成することを提案する。 テキストデータに基づいて学習した質問生成トランスを活用し,書き起こされたビデオナレーションから質問応答ペアを生成する。 ナレーションされたビデオがあれば、howtovqa69mデータセットを69mのビデオクェリアンワートリプレットで自動的に生成します。 本データセットにおける多様な回答のオープンな語彙を扱うために,ビデオ検索マルチモーダル変換器と応答変換器との対比損失に基づくトレーニング手順を提案する。 ゼロショットビデオQAタスクを導入し、特に稀な回答に対して優れた結果を示す。 さらに,MSRVTT-QA,MSVD-QA,ActivityNet-QA,How2QAにおいて,技術状況を大幅に上回る方法を示す。 最後に、詳細な評価のために、言語バイアスの低減と高品質な冗長なマニュアルアノテーションを備えた新しいVideoQAデータセットを導入します。 私たちのコードとデータセットはhttps://antoyang.github.io/just-ask.htmlで公開されます。

Recent methods for visual question answering rely on large-scale annotated datasets. Manual annotation of questions and answers for videos, however, is tedious, expensive and prevents scalability. In this work, we propose to avoid manual annotation and generate a large-scale training dataset for video question answering making use of automatic cross-modal supervision. We leverage a question generation transformer trained on text data and use it to generate question-answer pairs from transcribed video narrations. Given narrated videos, we then automatically generate the HowToVQA69M dataset with 69M video-question-answer triplets. To handle the open vocabulary of diverse answers in this dataset, we propose a training procedure based on a contrastive loss between a video-question multi-modal transformer and an answer transformer. We introduce the zero-shot VideoQA task and show excellent results, in particular for rare answers. Furthermore, we demonstrate our method to significantly outperform the state of the art on MSRVTT-QA, MSVD-QA, ActivityNet-QA and How2QA. Finally, for a detailed evaluation we introduce a new VideoQA dataset with reduced language biases and high-quality redundant manual annotations. Our code and datasets will be made publicly available at https://antoyang.github.io/just-ask.html.
翻訳日:2021-05-30 20:12:32 公開日:2021-03-30
# DeFMO:高速移動物体の劣化と形状回復

DeFMO: Deblurring and Shape Recovery of Fast Moving Objects ( http://arxiv.org/abs/2012.00595v3 )

ライセンス: Link先を確認
Denys Rozumnyi, Martin R. Oswald, Vittorio Ferrari, Jiri Matas, Marc Pollefeys(参考訳) 高速で動く物体は、カメラで撮影すると著しくぼやけているように見える。 物体が複雑な形状やテクスチャを持つ場合、特にぼやけた外観は曖昧である。 このような場合、古典的な方法や人間でさえ、物体の外観や動きを回復できない。 本研究では,1枚の画像の背景を推定して,物体の外観と位置を,高速カメラで捉えたかのように一連のサブフレームで出力する手法を提案する。 時間分解能)。 提案した生成モデルは、ぼやけた物体の画像を潜在空間表現に埋め込み、背景を乱し、シャープな外観を描画する。 画像形成モデルに触発されて、性能を高め、優れた一般化能力を示す新しい自己教師付き損失関数を設計する。 提案したDeFMO法は複雑な合成データセットに基づいて訓練されるが,複数のデータセットの実際のデータに対して良好に動作する。 DeFMOは芸術の状態を上回り、高品質の時間超解像フレームを生成する。

Objects moving at high speed appear significantly blurred when captured with cameras. The blurry appearance is especially ambiguous when the object has complex shape or texture. In such cases, classical methods, or even humans, are unable to recover the object's appearance and motion. We propose a method that, given a single image with its estimated background, outputs the object's appearance and position in a series of sub-frames as if captured by a high-speed camera (i.e. temporal super-resolution). The proposed generative model embeds an image of the blurred object into a latent space representation, disentangles the background, and renders the sharp appearance. Inspired by the image formation model, we design novel self-supervised loss function terms that boost performance and show good generalization capabilities. The proposed DeFMO method is trained on a complex synthetic dataset, yet it performs well on real-world data from several datasets. DeFMO outperforms the state of the art and generates high-quality temporal super-resolution frames.
翻訳日:2021-05-30 19:35:46 公開日:2021-03-30
# (参考訳) データ中毒に対するランダム化スムースな防御はいかにロバストか?

How Robust are Randomized Smoothing based Defenses to Data Poisoning? ( http://arxiv.org/abs/2012.01274v2 )

ライセンス: CC BY 4.0
Akshay Mehra, Bhavya Kailkhura, Pin-Yu Chen, Jihun Hamm(参考訳) 確実なロバストな分類器の予測は、ある点の近傍で一定であり、保証付きテスト時間攻撃に対して耐性がある。 そこで本研究では,強固な機械学習モデルに対する既知の脅威として,高度に認証された対向ロバスト性を達成する上でのトレーニングデータ品質の重要性を強調する。 具体的には,認証可能なロバスト分類器のロバスト性保証を低下させる,新しい二段階最適化に基づくデータ中毒攻撃を提案する。 ターゲットポイントの小さなセットで被毒モデルの精度を低下させる他の中毒攻撃とは異なり、この攻撃はデータセット内のターゲットクラス全体の平均認定半径(acr)を減少させる。 さらに,本攻撃は,ガウスデータ強化,MACER\cite{zhai2020macer},SmoothAdv\cite{salman2019provably}などの最先端の堅牢性トレーニング手法を用いて,スクラッチからモデルのトレーニングを行う場合においても有効である。 攻撃を検知しにくくするため, 知覚不能な歪みを有する清浄ラベル中毒点を用いる。 提案手法の有効性は、MNISTおよびCIFAR10データセットを汚染し、前述のトレーニング手法を用いて深層ニューラルネットワークを訓練し、ランダムな平滑化でロバスト性を証明することによって評価する。 生成した毒物データに基づいてトレーニングされたモデルのためのターゲットクラスのacrは、30\%以上削減できる。 さらに、有毒データは異なるトレーニング方法と異なるアーキテクチャのモデルで訓練されたモデルに転送可能である。

Predictions of certifiably robust classifiers remain constant in a neighborhood of a point, making them resilient to test-time attacks with a guarantee. In this work, we present a previously unrecognized threat to robust machine learning models that highlights the importance of training-data quality in achieving high certified adversarial robustness. Specifically, we propose a novel bilevel optimization-based data poisoning attack that degrades the robustness guarantees of certifiably robust classifiers. Unlike other poisoning attacks that reduce the accuracy of the poisoned models on a small set of target points, our attack reduces the average certified radius (ACR) of an entire target class in the dataset. Moreover, our attack is effective even when the victim trains the models from scratch using state-of-the-art robust training methods such as Gaussian data augmentation\cite{cohen2019certified}, MACER\cite{zhai2020macer}, and SmoothAdv\cite{salman2019provably} that achieve high certified adversarial robustness. To make the attack harder to detect, we use clean-label poisoning points with imperceptible distortions. The effectiveness of the proposed method is evaluated by poisoning MNIST and CIFAR10 datasets and training deep neural networks using previously mentioned training methods and certifying the robustness with randomized smoothing. The ACR of the target class, for models trained on generated poison data, can be reduced by more than 30\%. Moreover, the poisoned data is transferable to models trained with different training methods and models with different architectures.
翻訳日:2021-05-30 08:17:13 公開日:2021-03-30
# 不平衡活性化分布を用いたバイナリニューラルネットワークの精度向上

Improving Accuracy of Binary Neural Networks using Unbalanced Activation Distribution ( http://arxiv.org/abs/2012.00938v2 )

ライセンス: Link先を確認
Hyungjun Kim, Jihoon Park, Changhun Lee, Jae-Joon Kim(参考訳) ニューラルネットワークモデルのバイナリ化は、モバイルデバイスなどのリソース制約のある環境にディープニューラルネットワークモデルをデプロイするための有望な方法の1つであると考えられている。 しかしながら、BNN(Binary Neural Networks)は、完全精度のモデルと比較して精度の低下に悩まされる傾向にある。 BNNの精度を向上させるためにいくつかの手法が提案された。 アプローチのひとつとして、バイナリアクティベーションの情報量が最大になるように、バイナリアクティベーションの分散をバランスさせることがある。 従来の研究とは対照的に、広範に分析した結果、不均衡な活性化分布はBNNの精度を実際に向上させることができると論じている。 また,バイナリアクティベーション関数のしきい値を調整することで,バイナリアクティベーションの不均衡分布が生じ,BNNモデルの精度が向上することを示す。 実験の結果,従来のbnnモデル(例)の精度が向上した。 XNOR-NetとBi-Real-Net)は、バイナリアクティベーション関数のしきい値のシフトを、他の変更を必要とせずに簡単に行うことで改善することができる。

Binarization of neural network models is considered as one of the promising methods to deploy deep neural network models on resource-constrained environments such as mobile devices. However, Binary Neural Networks (BNNs) tend to suffer from severe accuracy degradation compared to the full-precision counterpart model. Several techniques were proposed to improve the accuracy of BNNs. One of the approaches is to balance the distribution of binary activations so that the amount of information in the binary activations becomes maximum. Based on extensive analysis, in stark contrast to previous work, we argue that unbalanced activation distribution can actually improve the accuracy of BNNs. We also show that adjusting the threshold values of binary activation functions results in the unbalanced distribution of the binary activation, which increases the accuracy of BNN models. Experimental results show that the accuracy of previous BNN models (e.g. XNOR-Net and Bi-Real-Net) can be improved by simply shifting the threshold values of binary activation functions without requiring any other modification.
翻訳日:2021-05-25 04:10:18 公開日:2021-03-30
# (参考訳) AugSplicing:ストリーミングテンソルにおける同期動作検出

AugSplicing: Synchronized Behavior Detection in Streaming Tensors ( http://arxiv.org/abs/2012.02006v5 )

ライセンス: CC BY 4.0
Jiabao Zhang, Shenghua Liu, Wenting Hou, Siddharth Bhatia, Huawei Shen, Wenjian Yu, Xueqi Cheng(参考訳) ロックステップにアプリケーションをインストールしてアンインストールするモバイルデバイスなど,タイムスタンプ付きのタプルストリームで同期動作を追跡して,app storeのランクを上げるには,どうすればよいのでしょう? このようなタプルをストリーミングテンソルのエントリとしてモデル化し、時間とともにそのモードの属性サイズを拡大します。 同期行動は、密度の高いブロック(すなわち、密度の高いブロック)を形成する傾向がある。 このようなテンソルでは、異常な行動や興味深いコミュニティを示唆する。 しかし、既存の密ブロック検出手法は静的テンソルに基づくか、あるいはストリーミング環境で効率的なアルゴリズムを欠いている。 そこで,本研究では,新しいタプルで先行検出をインクリメンタルにスプライシングし,トラッキング時間毎にすべての履歴データを再実行しないようにすることで,上位の高密度ブロックを検出する高速ストリーミングアルゴリズムであるAugSplicingを提案する。 AugSplicingはアルゴリズムを導くスプライシング条件に基づいている(Section 4)。 現状の手法と比較して,本手法は,(1)実世界のアプリケーションのインストール時の不正行為を検知し,キャンパスWi-Fiデータに興味深い特徴を持つ同期した学生群を見つけること,(2)密ブロック検出のためのスプライシング理論に頑健なこと,(3)既存のストリーミングアルゴリズムよりも高速で高速なストリーミングを実現すること,などが有効である。

How can we track synchronized behavior in a stream of time-stamped tuples, such as mobile devices installing and uninstalling applications in the lockstep, to boost their ranks in the app store? We model such tuples as entries in a streaming tensor, which augments attribute sizes in its modes over time. Synchronized behavior tends to form dense blocks (i.e. subtensors) in such a tensor, signaling anomalous behavior, or interesting communities. However, existing dense block detection methods are either based on a static tensor, or lack an efficient algorithm in a streaming setting. Therefore, we propose a fast streaming algorithm, AugSplicing, which can detect the top dense blocks by incrementally splicing the previous detection with the incoming ones in new tuples, avoiding re-runs over all the history data at every tracking time step. AugSplicing is based on a splicing condition that guides the algorithm (Section 4). Compared to the state-of-the-art methods, our method is (1) effective to detect fraudulent behavior in installing data of real-world apps and find a synchronized group of students with interesting features in campus Wi-Fi data; (2) robust with splicing theory for dense block detection; (3) streaming and faster than the existing streaming algorithm, with closely comparable accuracy.
翻訳日:2021-05-23 21:27:59 公開日:2021-03-30
# CoCosNet v2: 画像翻訳のための完全解対応学習

CoCosNet v2: Full-Resolution Correspondence Learning for Image Translation ( http://arxiv.org/abs/2012.02047v2 )

ライセンス: Link先を確認
Xingran Zhou, Bo Zhang, Ting Zhang, Pan Zhang, Jianmin Bao, Dong Chen, Zhongfei Zhang, Fang Wen(参考訳) 本稿では,画像翻訳を支援するクロスドメイン画像の完全対応学習について述べる。 我々は,粗いレベルからの対応を用いて細かなレベルを導く階層的戦略を採用する。 各階層では、近隣からのマッチングを反復的に活用するPatchMatchを介して、効率よく対応を計算できる。 各PatchMatchイテレーションにおいて、ConvGRUモジュールは、より大きなコンテキストのマッチングだけでなく、過去の推定値も考慮して、現在の対応を洗練するために使用される。 提案したCoCosNet v2は、GRU支援のPatchMatchアプローチであり、完全に微分可能で、非常に効率的である。 画像翻訳と共同で訓練すると、教師なしの方法で完全な意味対応が確立され、結果として、模範的な画像翻訳が容易になる。 多様な翻訳タスクの実験により、CoCosNet v2は高解像度画像の生成において最先端の文献よりもかなり優れた性能を示した。

We present the full-resolution correspondence learning for cross-domain images, which aids image translation. We adopt a hierarchical strategy that uses the correspondence from coarse level to guide the fine levels. At each hierarchy, the correspondence can be efficiently computed via PatchMatch that iteratively leverages the matchings from the neighborhood. Within each PatchMatch iteration, the ConvGRU module is employed to refine the current correspondence considering not only the matchings of larger context but also the historic estimates. The proposed CoCosNet v2, a GRU-assisted PatchMatch approach, is fully differentiable and highly efficient. When jointly trained with image translation, full-resolution semantic correspondence can be established in an unsupervised manner, which in turn facilitates the exemplar-based image translation. Experiments on diverse translation tasks show that CoCosNet v2 performs considerably better than state-of-the-art literature on producing high-resolution images.
翻訳日:2021-05-23 14:53:46 公開日:2021-03-30
# (参考訳) なぜ、なぜ、どのようにして人工知能チップを開発するのか

The Why, What and How of Artificial General Intelligence Chip Development ( http://arxiv.org/abs/2012.06338v2 )

ライセンス: CC BY-SA 4.0
Alex James(参考訳) AIチップは、低消費電力と低コストでニューラルネットワークを実装することに集中している。 インテリジェントなセンシング、自動化、エッジコンピューティングアプリケーションは、AIチップの市場ドライバとなっている。 ますます、AIチップソリューションの一般化、パフォーマンス、堅牢性、スケーラビリティは、人間のような知能能力と比較される。 このようなアプリケーション固有のAIチップから汎用インテリジェンスへ移行するための要件は、いくつかの要因を考慮する必要がある。 本稿では,人工知能(agi)システムの構築において理解される知能の一般化について概説した,この学際的な研究分野の概要について述べる。 この研究は、AIチップ技術の最新技術のリスト、エッジAI実装の分類、AGIチップ開発のためのファンネル設計フローを提示する。 最後に、AGIチップの構築に必要な設計上の考慮事項を、テストと検証の方法とともにリストアップする。

The AI chips increasingly focus on implementing neural computing at low power and cost. The intelligent sensing, automation, and edge computing applications have been the market drivers for AI chips. Increasingly, the generalisation, performance, robustness, and scalability of the AI chip solutions are compared with human-like intelligence abilities. Such a requirement to transit from application-specific to general intelligence AI chip must consider several factors. This paper provides an overview of this cross-disciplinary field of study, elaborating on the generalisation of intelligence as understood in building artificial general intelligence (AGI) systems. This work presents a listing of emerging AI chip technologies, classification of edge AI implementations, and the funnel design flow for AGI chip development. Finally, the design consideration required for building an AGI chip is listed along with the methods for testing and validating it.
翻訳日:2021-05-17 11:15:44 公開日:2021-03-30
# (参考訳) 視覚・言語事前学習モデルのロバスト性について

A Closer Look at the Robustness of Vision-and-Language Pre-trained Models ( http://arxiv.org/abs/2012.08673v2 )

ライセンス: CC BY 4.0
Linjie Li, Zhe Gan, Jingjing Liu(参考訳) ViLBERTやUNITERのような大規模事前学習型マルチモーダルトランスフォーマーは、視覚言語(V+L)研究の最先端を新たなレベルへと押し上げた。 標準的なタスクで素晴らしいパフォーマンスを達成することはできるが、これらの事前訓練されたモデルがどれほど堅牢かはいまだに不明だ。 本研究では,既存のv+l仕様モデルについて,(i)言語的変動,(ii)論理的推論,(iii)視覚コンテンツ操作,(iv)回答分布シフトの4種類以上の徹底的な評価を行う。 興味深いことに、標準モデルの微調整により、事前訓練されたv+lモデルは、多くのタスク固有の最先端メソッドよりも堅牢性が向上している。 モデルロバスト性をさらに高めるために,マルチモーダル適応雑音生成器を組込み空間で学習し,事前学習したV+Lモデルを騙す汎用的で効率的な手法であるMangoを提案する。 特定のタイプのロバスト性に注目した以前の研究とは異なり、mangoはタスク非依存であり、ロバスト性の幅広い側面を評価するために設計された多種多様なタスクよりも、事前訓練されたモデルの普遍的なパフォーマンス向上を可能にする。 総合的な実験によると、Mangoは9つの堅牢性ベンチマークのうち7つで、既存の手法をかなり上回っている。 V+Lのロバスト性に関する最初の包括的な研究として、この研究は事前訓練されたモデルのロバスト性をより鋭い焦点に置き、将来の研究の新たな方向性を示す。

Large-scale pre-trained multimodal transformers, such as ViLBERT and UNITER, have propelled the state of the art in vision-and-language (V+L) research to a new level. Although achieving impressive performance on standard tasks, to date, it still remains unclear how robust these pre-trained models are. To investigate, we conduct a host of thorough evaluations on existing pre-trained models over 4 different types of V+L specific model robustness: (i) Linguistic Variation; (ii) Logical Reasoning; (iii) Visual Content Manipulation; and (iv) Answer Distribution Shift. Interestingly, by standard model finetuning, pre-trained V+L models already exhibit better robustness than many task-specific state-of-the-art methods. To further enhance model robustness, we propose Mango, a generic and efficient approach that learns a Multimodal Adversarial Noise GeneratOr in the embedding space to fool pre-trained V+L models. Differing from previous studies focused on one specific type of robustness, Mango is task-agnostic, and enables universal performance lift for pre-trained models over diverse tasks designed to evaluate broad aspects of robustness. Comprehensive experiments demonstrate that Mango achieves new state of the art on 7 out of 9 robustness benchmarks, surpassing existing methods by a significant margin. As the first comprehensive study on V+L robustness, this work puts robustness of pre-trained models into sharper focus, pointing new directions for future study.
翻訳日:2021-05-07 06:43:54 公開日:2021-03-30
# AdjointBackMap: 共役演算子を用いたCNN層からの効果的な決定超曲面の再構築

AdjointBackMap: Reconstructing Effective Decision Hypersurfaces from CNN Layers Using Adjoint Operators ( http://arxiv.org/abs/2012.09020v2 )

ライセンス: Link先を確認
Qing Wan, Yoonsuck Choe(参考訳) 畳み込みニューラルネットワーク(CNN)の内部動作を説明する効果的な方法はいくつかある。 しかし、一般的には、CNNによって実行される関数の逆数を見つけることは、誤った問題である。 本稿では,CNNの任意の単位(第1畳み込み層を除く)を与えられた随伴演算子に基づく再構成手法を提案する。 以上の結果から, 原画像に乗じれば, ユニットの正確な出力値に近い値が得られることが示唆された。 CNNユニットの判定面が入力にほとんど条件付けられていることが分かり、このことがCNNを効果的に欺く理由を説明できるかもしれない。

There are several effective methods in explaining the inner workings of convolutional neural networks (CNNs). However, in general, finding the inverse of the function performed by CNNs as a whole is an ill-posed problem. In this paper, we propose a method based on adjoint operators to reconstruct, given an arbitrary unit in the CNN (except for the first convolutional layer), its effective hypersurface in the input space that replicates that unit's decision surface conditioned on a particular input image. Our results show that the hypersurface reconstructed this way, when multiplied by the original input image, would give nearly the exact output value of that unit. We find that the CNN unit's decision surface is largely conditioned on the input, and this may explain why adversarial inputs can effectively deceive CNNs.
翻訳日:2021-05-03 03:12:55 公開日:2021-03-30
# スケーラブルフィンガープリントを用いた生成モデルの責任開示

Responsible Disclosure of Generative Models Using Scalable Fingerprinting ( http://arxiv.org/abs/2012.08726v4 )

ライセンス: Link先を確認
Ning Yu, Vladislav Skripniuk, Dingfan Chen, Larry Davis, Mario Fritz(参考訳) 過去6年間で、深層生成モデルは定性的に新しいレベルのパフォーマンスを達成している。 生成されたデータは、不可能ではないにせよ、実際のデータと区別することが困難になっている。 この技術の恩恵を受けるユースケースはたくさんあるが、この新技術がセンサーを悪用し、深いフェイクを生成し、大規模に誤った情報を可能にすることには、強い懸念がある。 残念ながら、現在のディープフェイク検出方法は、現実とフェイクのギャップが閉まっているため、持続可能ではない。 対照的に、我々の研究は、このような最先端の生成モデルについて責任ある開示を可能にし、研究者や企業がモデルに指紋を付けることができ、指紋を含む生成されたサンプルを正確に検出し、ソースに関連付けることができる。 本手法は,異なる指紋を持つ多数のモデル群を効率的かつスケーラブルに生成することにより,これを実現する。 推奨操作ポイントは128ビットの指紋を使用し、原則として10^{36}$の識別可能なモデルが生成される。 実験の結果, 本手法はフィンガープリンティング機構の重要な特性を満たし, ディープフェイクの検出と帰属に有効であることがわかった。

Over the past six years, deep generative models have achieved a qualitatively new level of performance. Generated data has become difficult, if not impossible, to be distinguished from real data. While there are plenty of use cases that benefit from this technology, there are also strong concerns on how this new technology can be misused to spoof sensors, generate deep fakes, and enable misinformation at scale. Unfortunately, current deep fake detection methods are not sustainable, as the gap between real and fake continues to close. In contrast, our work enables a responsible disclosure of such state-of-the-art generative models, that allows researchers and companies to fingerprint their models, so that the generated samples containing a fingerprint can be accurately detected and attributed to a source. Our technique achieves this by an efficient and scalable ad-hoc generation of a large population of models with distinct fingerprints. Our recommended operation point uses a 128-bit fingerprint which in principle results in more than $10^{36}$ identifiable models. Experiments show that our method fulfills key properties of a fingerprinting mechanism and achieves effectiveness in deep fake detection and attribution.
翻訳日:2021-05-03 03:02:15 公開日:2021-03-30
# 教師なし人物の再識別のための共同生成学習とコントラスト学習

Joint Generative and Contrastive Learning for Unsupervised Person Re-identification ( http://arxiv.org/abs/2012.09071v2 )

ライセンス: Link先を確認
Hao Chen, Yaohui Wang, Benoit Lagadec, Antitza Dantcheva, Francois Bremond(参考訳) 最近の自己指導型コントラスト学習は、入力の異なる視点(変換されたバージョン)から不変性を学ぶことによって、教師なしの人物再識別(ReID)に効果的なアプローチを提供する。 本稿では,GAN(Generative Adversarial Network)とコントラスト学習モジュールを1つのジョイントトレーニングフレームワークに統合する。 GANは、コントラスト学習のためのオンラインデータ拡張を提供するが、コントラスト学習モジュールは、生成のためのビュー不変の機能を学ぶ。 本研究では,メッシュベースのビュージェネレータを提案する。 具体的には、メッシュプロジェクションは、人の新しいビューを生成するためのリファレンスとして機能する。 さらに,オリジナルビューと生成ビューの対比学習を容易にするビュー不変損失を提案する。 ドメイン適応を含む従来のGANベースの教師なしReIDメソッドから逸脱し、ラベル付きソースデータセットに頼らず、メソッドをより柔軟にします。 広範な実験結果から,本手法は,複数の大規模reidダセットにおいて,完全に教師なしかつ教師なしのドメイン適応設定の両方において,最先端の手法を大幅に上回っていることがわかった。

Recent self-supervised contrastive learning provides an effective approach for unsupervised person re-identification (ReID) by learning invariance from different views (transformed versions) of an input. In this paper, we incorporate a Generative Adversarial Network (GAN) and a contrastive learning module into one joint training framework. While the GAN provides online data augmentation for contrastive learning, the contrastive module learns view-invariant features for generation. In this context, we propose a mesh-based view generator. Specifically, mesh projections serve as references towards generating novel views of a person. In addition, we propose a view-invariant loss to facilitate contrastive learning between original and generated views. Deviating from previous GAN-based unsupervised ReID methods involving domain adaptation, we do not rely on a labeled source dataset, which makes our method more flexible. Extensive experimental results show that our method significantly outperforms state-of-the-art methods under both, fully unsupervised and unsupervised domain adaptive settings on several large scale ReID datsets.
翻訳日:2021-05-03 02:55:11 公開日:2021-03-30
# (参考訳) Minimax Active Learning

Minimax Active Learning ( http://arxiv.org/abs/2012.10467v2 )

ライセンス: CC BY 4.0
Sayna Ebrahimi, William Gan, Dian Chen, Giscard Biamby, Kamyar Salahi, Michael Laielli, Shizhan Zhu, Trevor Darrell(参考訳) アクティブラーニングは、人間のアノテーションによってラベル付けされる最も代表的なサンプルを問合せすることで、ラベル効率のよいアルゴリズムを開発することを目的としている。 現在のアクティブラーニング技術は、最も不確実なサンプルを選択するためにモデルの不確実性に頼るか、クラスタリングを使うか、最も多様なラベルのないサンプルを選択するために再構築する。 不確実性に基づく戦略は外れやすいが、サンプルの多様性にのみ依存することは、メインタスクで利用可能な情報を捉えない。 本研究では,不確実性と多様性を両立させる半教師付きミニマックスエントロピーに基づく能動学習アルゴリズムを開発した。 本モデルはエントロピー最小化特徴量符号化ネットワークとエントロピー最大化分類層からなる。 このミニマックス定式化はラベル付き/ラベルなしデータ間の分布ギャップを低減し、判別器はラベル付き/ラベルなしデータを識別するために同時に訓練される。 分類器がラベルなしと予測した分類器からの最も高いエントロピーサンプルをラベル付けとして選択する。 画像分類やセマンティクスセグメンテーションベンチマークデータセットの手法を評価し,最先端手法よりも優れた性能を示す。

Active learning aims to develop label-efficient algorithms by querying the most representative samples to be labeled by a human annotator. Current active learning techniques either rely on model uncertainty to select the most uncertain samples or use clustering or reconstruction to choose the most diverse set of unlabeled examples. While uncertainty-based strategies are susceptible to outliers, solely relying on sample diversity does not capture the information available on the main task. In this work, we develop a semi-supervised minimax entropy-based active learning algorithm that leverages both uncertainty and diversity in an adversarial manner. Our model consists of an entropy minimizing feature encoding network followed by an entropy maximizing classification layer. This minimax formulation reduces the distribution gap between the labeled/unlabeled data, while a discriminator is simultaneously trained to distinguish the labeled/unlabeled data. The highest entropy samples from the classifier that the discriminator predicts as unlabeled are selected for labeling. We evaluate our method on various image classification and semantic segmentation benchmark datasets and show superior performance over the state-of-the-art methods.
翻訳日:2021-05-01 20:16:54 公開日:2021-03-30
# 進化的価値学習を用いた汎用ゴールタスクのためのヒューマンロボット協調の形成

Forming Human-Robot Cooperation for Tasks with General Goal using Evolutionary Value Learning ( http://arxiv.org/abs/2012.10773v3 )

ライセンス: Link先を確認
Lingfeng Tao, Michael Bowman, Jiucai Zhang, Xiaoli Zhang(参考訳) ヒューマン・ロボット・コラボレーティブ(hrc)では、ロボットは人間と協力してタスクを遂行する。 既存のアプローチでは、人間が協力中に特定の目標を持っていると仮定し、ロボットはそれを推論し行動する。 しかし、現実の環境では、人間は通常、協調の開始時に一般的な目標(例えば、運動計画における一般的な方向または領域)しか持たず、協調中に特定の目標(例えば、正確な位置)に明確化する必要がある。 仕様プロセスはインタラクティブで動的であり、環境やパートナーの行動に依存する。 目標特定プロセスを考慮しないロボットは、人間のパートナーにフラストレーションを引き起こし、合意に達する時間を延長し、チームのパフォーマンスを妥協または失敗させる可能性がある。 本稿では,多変量ベイズ推定法を用いてhrcにおける目標特定プロセスのダイナミクスをモデル化する進化的価値学習(evl)手法を提案する。 EVLは、目標仕様と協調形成のプロセスを積極的に強化することができる。 これにより、ロボットは人間が目標を特定するのを同時に支援し、深層強化学習(drl)方式で協調政策を学ぶことができる。 実際の人間との動的ボールバランスタスクでは、EVLを装備したロボットは、目標仕様プロセスの高速化とチームパフォーマンスの向上により、既存の手法よりも優れる。

In Human-Robot Cooperation (HRC), the robot cooperates with humans to accomplish the task together. Existing approaches assume the human has a specific goal during the cooperation, and the robot infers and acts toward it. However, in real-world environments, a human usually only has a general goal (e.g., general direction or area in motion planning) at the beginning of the cooperation, which needs to be clarified to a specific goal (e.g., an exact position) during cooperation. The specification process is interactive and dynamic, which depends on the environment and the partners' behavior. The robot that does not consider the goal specification process may cause frustration to the human partner, elongate the time to come to an agreement, and compromise or fail team performance. We present the Evolutionary Value Learning (EVL) approach, which uses a State-based Multivariate Bayesian Inference method to model the dynamics of the goal specification process in HRC. EVL can actively enhance the process of goal specification and cooperation formation. This enables the robot to simultaneously help the human specify the goal and learn a cooperative policy in a Deep Reinforcement Learning (DRL) manner. In a dynamic ball balancing task with real human subjects, the robot equipped with EVL outperforms existing methods with faster goal specification processes and better team performance.
翻訳日:2021-05-01 11:08:58 公開日:2021-03-30
# (参考訳) スマートフォンを用いた機械式建設管の自動デジタル文書化と進捗報告

Towards Automatic Digital Documentation and Progress Reporting of Mechanical Construction Pipes using Smartphones ( http://arxiv.org/abs/2012.10958v2 )

ライセンス: CC BY 4.0
Reza Maalek, Derek Lichti, and Shahrokh Maalek(参考訳) 本書は,スマートフォンを用いた建設プロジェクトにおける機械管の自動デジタル文書化と進捗報告のための新しい枠組みを提案する。 所望の画像重なりを達成するためにビデオフレームレートを最適化し、3次元再構成のためのメートル法スケールを定義し、点雲からパイプを抽出し、計画された量枠radiiに従ってパイプを分類する新しい手法を提案した。 提案手法の有効性を実験室(6本の管)と施工現場(58本の管)の両方で評価した。 提案手法により, メートル以下の管径推定精度が得られた。 実験室およびフィールド実験の結果,画像の増大により点雲の品質,管分類品質,管半径/長さの推定が向上した。 その結果,少なくとも95%の画像重なりを用いた建設現場で,管の分類F値,半径推定精度,長さ推定率96.4%,5.4mm,5.0%の誤差を達成できた。

This manuscript presents a new framework towards automated digital documentation and progress reporting of mechanical pipes in building construction projects, using smartphones. New methods were proposed to optimize video frame rate to achieve a desired image overlap; define metric scale for 3D reconstruction; extract pipes from point clouds; and classify pipes according to their planned bill of quantity radii. The effectiveness of the proposed methods in both laboratory (six pipes) and construction site (58 pipes) conditions was evaluated. It was observed that the proposed metric scale definition achieved sub-millimeter pipe radius estimation accuracy. Both laboratory and field experiments revealed that increasing the defined image overlap improved point cloud quality, pipe classification quality, and pipe radius/length estimation. Overall, it was found possible to achieve pipe classification F-measure, radius estimation accuracy, and length estimation percent error of 96.4%, 5.4mm, and 5.0%, respectively, on construction sites using at least 95% image overlap.
翻訳日:2021-05-01 06:57:21 公開日:2021-03-30
# 事例依存ラベル雑音による学習の2次的アプローチ

A Second-Order Approach to Learning with Instance-Dependent Label Noise ( http://arxiv.org/abs/2012.11854v2 )

ライセンス: Link先を確認
Zhaowei Zhu, Tongliang Liu, Yang Liu(参考訳) ラベルノイズの存在は、しばしばディープニューラルネットワークのトレーニングを誤解させる。 近年の文献では、ラベルのノイズレートは真のラベルクラスによってのみ決定されると考えられており、ヒューマンアノテートされたラベルのエラーはタスクの難易度に依存しやすいため、インスタンスに依存したラベルのノイズが設定される。 まず、不均一なインスタンス依存ラベルノイズが、非均一な方法で高いノイズ率で実例を効果的に重み付けし、不均衡を引き起こすという証拠を提供し、クラス依存ラベルノイズの直接適用の戦略を疑わしいものにする。 次に,最近のピアロス[24]に基づいて,インスタンス依存雑音率とベイズ最適ラベルの間で定義された複数の共分散項を推定する2次アプローチの可能性を提案・検討する。 この二階統計が誘導不均衡をうまく捉えていることを示す。 さらに,推定された第2次統計の助けを借りて,インスタンス依存ラベル雑音下での分類器の予測リスクが,クラス依存ラベルノイズのみを持つ新たな問題と同値となる新たな損失関数を同定する。 この事実により、よりよく検討された設定を扱うために、既存のソリューションを適用できます。 我々は,これらの2次統計を,基底的真理ラベルや雑音率の事前知識を使わずに,効率的に推定する手法を提案する。 合成インスタンス依存ラベルノイズによるcifar10とcifar100の実験と実世界のラベルノイズを用いたwears1mの検証を行った。 実装はhttps://github.com/UCSC-REAL/CALで公開しています。

The presence of label noise often misleads the training of deep neural networks. Departing from the recent literature which largely assumes the label noise rate is only determined by the true label class, the errors in human-annotated labels are more likely to be dependent on the difficulty levels of tasks, resulting in settings with instance-dependent label noise. We first provide evidences that the heterogeneous instance-dependent label noise is effectively down-weighting the examples with higher noise rates in a non-uniform way and thus causes imbalances, rendering the strategy of directly applying methods for class-dependent label noise questionable. Built on a recent work peer loss [24], we then propose and study the potentials of a second-order approach that leverages the estimation of several covariance terms defined between the instance-dependent noise rates and the Bayes optimal label. We show that this set of second-order statistics successfully captures the induced imbalances. We further proceed to show that with the help of the estimated second-order statistics, we identify a new loss function whose expected risk of a classifier under instance-dependent label noise is equivalent to a new problem with only class-dependent label noise. This fact allows us to apply existing solutions to handle this better-studied setting. We provide an efficient procedure to estimate these second-order statistics without accessing either ground truth labels or prior knowledge of the noise rates. Experiments on CIFAR10 and CIFAR100 with synthetic instance-dependent label noise and Clothing1M with real-world human label noise verify our approach. Our implementation is available at https://github.com/UCSC-REAL/CAL.
翻訳日:2021-04-26 07:44:24 公開日:2021-03-30
# (参考訳) 深達度学習によるMRIにおける脊髄腫瘍の多型化

Multiclass Spinal Cord Tumor Segmentation on MRI with Deep Learning ( http://arxiv.org/abs/2012.12820v4 )

ライセンス: CC BY 4.0
Andreanne Lemay, Charley Gros, Zhizheng Zhuo, Jie Zhang, Yunyun Duan, Julien Cohen-Adad, Yaou Liu(参考訳) 脊髄腫瘍は神経障害と死亡を引き起こす。 腫瘍、浮腫、空洞の形態計測的定量化(大きさ、位置、増殖率)が得られれば、監視および治療計画が改善される。 このような定量化は、これらの構造を3つの異なるクラスに分割する必要がある。 しかし、3次元構造の手動セグメンテーションは時間と手間がかかり、自動化手法の開発を動機付ける。 ここでは,脊髄腫瘍セグメント化作業に適応したモデルを調整する。 ガドリニウム強調T1強調MRIとT2強調MRIを用いて, 頚部, 胸部, 腰椎を被覆した343例から得られた。 このデータセットは、astrocytomas、ependymomas、hemangioblastomaの3つの最も一般的な髄内脊髄腫瘍タイプを含んでいる。 提案されたアプローチは、腫瘍を2段階のプロセスで分割する u-net ベースのモデルによるカスケードアーキテクチャである。 モデルはまず脊髄を発見し、境界ボックス座標を生成する。 この出力に従って画像が収穫されるため、視野が小さくなり、クラス不均衡が軽減される。 その後腫瘍は分断される。 腫瘍,空洞,浮腫のセグメンテーションはDiceスコアの76.7$\pm$ 1.5%に達し,腫瘍のセグメンテーションはDiceスコアの61.8$\pm$ 4.0%に達した。 真の陽性率は腫瘍,浮腫,空洞の87%以上であった。 我々の知る限りでは、これが脊髄腫瘍セグメンテーションのための最初の完全自動深層学習モデルである。 マルチクラスセグメンテーションパイプラインはSpinal Cord Toolbox(https://spinalcordtoolbox.com/)で利用できる。 通常のコンピュータ上で、数秒でカスタムデータで実行することができる。

Spinal cord tumors lead to neurological morbidity and mortality. Being able to obtain morphometric quantification (size, location, growth rate) of the tumor, edema, and cavity can result in improved monitoring and treatment planning. Such quantification requires the segmentation of these structures into three separate classes. However, manual segmentation of 3-dimensional structures is time-consuming and tedious, motivating the development of automated methods. Here, we tailor a model adapted to the spinal cord tumor segmentation task. Data were obtained from 343 patients using gadolinium-enhanced T1-weighted and T2-weighted MRI scans with cervical, thoracic, and/or lumbar coverage. The dataset includes the three most common intramedullary spinal cord tumor types: astrocytomas, ependymomas, and hemangioblastomas. The proposed approach is a cascaded architecture with U-Net-based models that segments tumors in a two-stage process: locate and label. The model first finds the spinal cord and generates bounding box coordinates. The images are cropped according to this output, leading to a reduced field of view, which mitigates class imbalance. The tumor is then segmented. The segmentation of the tumor, cavity, and edema (as a single class) reached 76.7 $\pm$ 1.5% of Dice score and the segmentation of tumors alone reached 61.8 $\pm$ 4.0% Dice score. The true positive detection rate was above 87% for tumor, edema, and cavity. To the best of our knowledge, this is the first fully automatic deep learning model for spinal cord tumor segmentation. The multiclass segmentation pipeline is available in the Spinal Cord Toolbox (https://spinalcordtoolbox.com/). It can be run with custom data on a regular computer within seconds.
翻訳日:2021-04-25 21:20:50 公開日:2021-03-30
# whu-hi: uavによる高空間分解能ハイパースペクトラル(h2)ハイパースペクトラル画像分類のためのベンチマークデータセット

WHU-Hi: UAV-borne hyperspectral with high spatial resolution (H2) benchmark datasets for hyperspectral image classification ( http://arxiv.org/abs/2012.13920v2 )

ライセンス: Link先を確認
Xin Hu, Yanfei Zhong, Chang Luo, Xinyu Wang(参考訳) 分類はハイパースペクトル画像処理と応用の重要な側面である。 現在、研究者は主にベンチマークデータセットとして、古典的な空中分光画像を使用している。 しかし,既存のデータセットには,(1)低空間分解能,(2)低ラベル画素比,(3)低サブクラス差の3つのボトルネックがある。 本稿では,武漢uavによるハイパースペクトラル画像(whu-hi)データセットという,ハイパースペクトラル画像分類のためのベンチマークデータセットを構築した。 高いスペクトル分解能(nmレベル)と非常に高い空間分解能(cmレベル)を持つwhu-hiデータセットは、ここではh2 imagerと呼ぶ。 さらに、whu-hiデータセットは、より高いピクセルラベリング比とより細かいサブクラスを持つ。 WHU-Hiデータセットをベンチマークし、実験結果から、WHU-Hiは挑戦的なデータセットであることが示された。 WHU-Hiデータセットが将来の研究を加速するための強力なベンチマークになることを願っている。

Classification is an important aspect of hyperspectral images processing and application. At present, the researchers mostly use the classic airborne hyperspectral imagery as the benchmark dataset. However, existing datasets suffer from three bottlenecks: (1) low spatial resolution; (2) low labeled pixels proportion; (3) low degree of subclasses distinction. In this paper, a new benchmark dataset named the Wuhan UAV-borne hyperspectral image (WHU-Hi) dataset was built for hyperspectral image classification. The WHU-Hi dataset with a high spectral resolution (nm level) and a very high spatial resolution (cm level), which we refer to here as H2 imager. Besides, the WHU-Hi dataset has a higher pixel labeling ratio and finer subclasses. Some start-of-art hyperspectral image classification methods benchmarked the WHU-Hi dataset, and the experimental results show that WHU-Hi is a challenging dataset. We hope WHU-Hi dataset can become a strong benchmark to accelerate future research.
翻訳日:2021-04-24 20:08:48 公開日:2021-03-30
# (参考訳) 変圧器を用いたシーケンス・ツー・シーケンスの観点からの意味セグメンテーション再考

Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspective with Transformers ( http://arxiv.org/abs/2012.15840v2 )

ライセンス: CC BY 4.0
Sixiao Zheng, Jiachen Lu, Hengshuang Zhao, Xiatian Zhu, Zekun Luo, Yabiao Wang, Yanwei Fu, Jianfeng Feng, Tao Xiang, Philip H.S. Torr, Li Zhang(参考訳) 最近のセマンティックセグメンテーション手法では、エンコーダ-デコーダアーキテクチャを備えた完全畳み込みネットワーク(FCN)を採用している。 エンコーダは空間分解能を徐々に減らし、より大きな受容場を持つ抽象的・意味的な視覚概念を学習する。 コンテキストモデリングはセグメンテーションに欠かせないため、最新の取り組みは、拡張/アトラスな畳み込みまたは注意モジュール挿入を通じて、受容領域の拡大に焦点を当てている。 しかし、エンコーダ-デコーダベースのFCNアーキテクチャは変わっていない。 本稿では,セマンティックセグメンテーションをシーケンス・ツー・シーケンス予測タスクとして扱うことで,新たな視点を提供する。 具体的には、イメージをパッチのシーケンスとしてエンコードするために、純粋なトランス(畳み込みや分解能低下なしに)をデプロイします。 トランスのすべての層でモデル化されたグローバルコンテキストにより、このエンコーダは、SETR(SEgmentation TRansformer)と呼ばれる強力なセグメンテーションモデルを提供する単純なデコーダと組み合わせることができる。 大規模な実験により、SETRはADE20K(50.28% mIoU)、Pascal Context(55.83% mIoU)、およびCityscapes(英語版)の競争結果の新たな状態を達成することが示された。 特に,競争の激しい ade20k テストサーバのリーダボードにおいて,提出当日に最初のポジションを得る。

Most recent semantic segmentation methods adopt a fully-convolutional network (FCN) with an encoder-decoder architecture. The encoder progressively reduces the spatial resolution and learns more abstract/semantic visual concepts with larger receptive fields. Since context modeling is critical for segmentation, the latest efforts have been focused on increasing the receptive field, through either dilated/atrous convolutions or inserting attention modules. However, the encoder-decoder based FCN architecture remains unchanged. In this paper, we aim to provide an alternative perspective by treating semantic segmentation as a sequence-to-sequence prediction task. Specifically, we deploy a pure transformer (ie, without convolution and resolution reduction) to encode an image as a sequence of patches. With the global context modeled in every layer of the transformer, this encoder can be combined with a simple decoder to provide a powerful segmentation model, termed SEgmentation TRansformer (SETR). Extensive experiments show that SETR achieves new state of the art on ADE20K (50.28% mIoU), Pascal Context (55.83% mIoU) and competitive results on Cityscapes. Particularly, we achieve the first position in the highly competitive ADE20K test server leaderboard on the day of submission.
翻訳日:2021-04-17 20:24:54 公開日:2021-03-30
# ディープラーニング時代のステレオマッチングの信頼性について:定量的評価

On the confidence of stereo matching in a deep-learning era: a quantitative evaluation ( http://arxiv.org/abs/2101.00431v3 )

ライセンス: Link先を確認
Matteo Poggi, Seungryong Kim, Fabio Tosi, Sunok Kim, Filippo Aleotti, Dongbo Min, Kwanghoon Sohn, Stefano Mattoccia(参考訳) ステレオマッチングは、2つの同期画像と修正画像に一致するピクセルの差を見出すことにより、密度深度マップを推定する最も一般的な手法の1つである。 より正確なアルゴリズムの開発とともに、研究コミュニティは信頼性を推定する優れた戦略を見つけることに注力した。 信頼度 推定格差マップ この情報は、間違った一致をナビゲートし、異なる戦略に従って様々なステレオアルゴリズムの全体的な効果を改善するための強力な手がかりであることが証明されている。 本稿では,ステレオマッチングにおける信頼度推定の分野における10年以上の発展を概観する。 我々は,手作りの手法から最新の最先端の学習手法まで,既存の信頼度尺度とその変種を幅広く議論し,評価する。 本研究では,異なるステレオアルゴリズムのプールに適用した場合と,最先端のディープステレオネットワークと組み合わせる場合とで,各測定値の異なる挙動について検討する。 5つの異なる標準データセットで実施した実験では、分野の概要を概観し、特に学習に基づく戦略の強みと限界を強調した。

Stereo matching is one of the most popular techniques to estimate dense depth maps by finding the disparity between matching pixels on two, synchronized and rectified images. Alongside with the development of more accurate algorithms, the research community focused on finding good strategies to estimate the reliability, i.e. the confidence, of estimated disparity maps. This information proves to be a powerful cue to naively find wrong matches as well as to improve the overall effectiveness of a variety of stereo algorithms according to different strategies. In this paper, we review more than ten years of developments in the field of confidence estimation for stereo matching. We extensively discuss and evaluate existing confidence measures and their variants, from hand-crafted ones to the most recent, state-of-the-art learning based methods. We study the different behaviors of each measure when applied to a pool of different stereo algorithms and, for the first time in literature, when paired with a state-of-the-art deep stereo network. Our experiments, carried out on five different standard datasets, provide a comprehensive overview of the field, highlighting in particular both strengths and limitations of learning-based strategies.
翻訳日:2021-04-13 07:17:30 公開日:2021-03-30
# テキスト対画像生成のためのクロスモーダルコントラスト学習

Cross-Modal Contrastive Learning for Text-to-Image Generation ( http://arxiv.org/abs/2101.04702v3 )

ライセンス: Link先を確認
Han Zhang, Jing Yu Koh, Jason Baldridge, Honglak Lee, Yinfei Yang(参考訳) テキスト・ツー・イメージ合成システムの出力は、条件付きテキスト記述に対して、セマンティックな忠実度の高いコヒーレントでクリアでフォトリアリスティックなシーンでなければならない。 XMC-GAN(Cross-Modal Contrastive Generative Adversarial Network)は,画像とテキスト間の相互情報を最大化する。 これは、モダリティ間およびモダリティ内対応をキャプチャする複数の対照的な損失によって行われる。 XMC-GANは、強いテキストイメージ対応を強制する注目の自己変調ジェネレータと、コントラスト学習のための特徴エンコーダと同様に、批評家として機能するコントラスト識別器を使用する。 XMC-GANの出力の品質は、3つの挑戦的なデータセットで示すように、以前のモデルから大きく向上している。 MS-COCOでは、XMC-GANは24.70から9.33までの最先端のFIDを改善するだけでなく、画像品質は77.3で、画像テキストアライメントは74.1である。 XMC-GANはまた、挑戦的なLocalized Narrativesデータセット(より長い詳細記述を持つ)に一般化し、最先端のFIDを48.70から14.12に改善した。 最後に、挑戦的なOpen Imagesデータに基づいてXMC-GANをトレーニングし、評価し、26.91の強力なベンチマークFIDスコアを確立する。

The output of text-to-image synthesis systems should be coherent, clear, photo-realistic scenes with high semantic fidelity to their conditioned text descriptions. Our Cross-Modal Contrastive Generative Adversarial Network (XMC-GAN) addresses this challenge by maximizing the mutual information between image and text. It does this via multiple contrastive losses which capture inter-modality and intra-modality correspondences. XMC-GAN uses an attentional self-modulation generator, which enforces strong text-image correspondence, and a contrastive discriminator, which acts as a critic as well as a feature encoder for contrastive learning. The quality of XMC-GAN's output is a major step up from previous models, as we show on three challenging datasets. On MS-COCO, not only does XMC-GAN improve state-of-the-art FID from 24.70 to 9.33, but--more importantly--people prefer XMC-GAN by 77.3 for image quality and 74.1 for image-text alignment, compared to three other recent models. XMC-GAN also generalizes to the challenging Localized Narratives dataset (which has longer, more detailed descriptions), improving state-of-the-art FID from 48.70 to 14.12. Lastly, we train and evaluate XMC-GAN on the challenging Open Images data, establishing a strong benchmark FID score of 26.91.
翻訳日:2021-04-04 01:43:09 公開日:2021-03-30
# (参考訳) Bフレーム符号化のためのニューラルPフレームコーデックの拡張

Extending Neural P-frame Codecs for B-frame Coding ( http://arxiv.org/abs/2104.00531v1 )

ライセンス: CC BY 4.0
Reza Pourreza and Taco S Cohen(参考訳) ほとんどのニューラルビデオコーデックはPフレーム符号化(過去のフレームから各フレームを予測する)に対処するが、本稿ではBフレーム圧縮(過去の参照フレームと将来の参照フレームの両方を用いて予測する)に対処する。 我々のBフレームソリューションは既存のPフレーム方式に基づいている。 これにより、既存のニューラルコーデックにBフレーム符号化機能を容易に追加することができる。 Bフレーム符号化の基本的な考え方は、2つの参照フレームを補間して単一の参照フレームを生成し、既存のPフレームコーデックと組み合わせて入力Bフレームを符号化することである。 本研究は,従来のpフレームコーデックと比較して,補間フレームがpフレームコーデックの参照としてはるかに優れていることを示す。 その結果,提案手法を既存のpフレームコーデックと組み合わせると,pフレームコーデックと比較して,uvgデータセットのビットレートが28.5%削減できることがわかった。

While most neural video codecs address P-frame coding (predicting each frame from past ones), in this paper we address B-frame compression (predicting frames using both past and future reference frames). Our B-frame solution is based on the existing P-frame methods. As a result, B-frame coding capability can easily be added to an existing neural codec. The basic idea of our B-frame coding method is to interpolate the two reference frames to generate a single reference frame and then use it together with an existing P-frame codec to encode the input B-frame. Our studies show that the interpolated frame is a much better reference for the P-frame codec compared to using the previous frame as is usually done. Our results show that using the proposed method with an existing P-frame codec can lead to 28.5%saving in bit-rate on the UVG dataset compared to the P-frame codec while generating the same video quality.
翻訳日:2021-04-03 11:13:45 公開日:2021-03-30
# 警察ゾーン設計のためのデータ駆動最適化

Data-Driven Optimization for Police Zone Design ( http://arxiv.org/abs/2104.00535v1 )

ライセンス: Link先を確認
Shixiang Zhu, He Wang, Yao Xie(参考訳) 都市環境における警察パトロールゾーンの再設計のためのデータ駆動型最適化フレームワークを提案する。 目的は、警察の作業負荷を地理的にバランスさせ、緊急呼び出しに対する応答時間を短縮することである。 我々は,警察事故報告,人口統計調査,交通データなど複数のデータソースを統合することで,警察緊急対応のための確率モデルを開発する。 この確率モデルを用いて,混合整数線形計画を用いたゾーン再設計計画を最適化する。 提案した設計は,2019年3月にアトランタ警察署が実施した。 ゾーン再設計前後のデータを分析した結果, 優先度の高い911コールに対する応答時間を5.8\%削減し, 異なるゾーン間の警察作業負荷の不均衡を43\%削減した。

We present a data-driven optimization framework for redesigning police patrol zones in an urban environment. The objectives are to rebalance police workload among geographical areas and to reduce response time to emergency calls. We develop a stochastic model for police emergency response by integrating multiple data sources, including police incidents reports, demographic surveys, and traffic data. Using this stochastic model, we optimize zone redesign plans using mixed-integer linear programming. Our proposed design was implemented by the Atlanta Police Department in March 2019. By analyzing data before and after the zone redesign, we show that the new design has reduced the response time to high priority 911 calls by 5.8\% and the imbalance of police workload among different zones by 43\%.
翻訳日:2021-04-02 13:21:03 公開日:2021-03-30
# (参考訳) picie: クラスタリングにおける不変性と等価性を用いた教師なし意味セグメンテーション

PiCIE: Unsupervised Semantic Segmentation using Invariance and Equivariance in Clustering ( http://arxiv.org/abs/2103.17070v1 )

ライセンス: CC BY 4.0
Jang Hyun Cho, Utkarsh Mall, Kavita Bala, Bharath Hariharan(参考訳) クラスタリングによるアノテーションのないセマンティックセグメンテーションのための新しいフレームワークを提案する。 オフザシェルフクラスタリング手法は、キュレート、シングルラベル、オブジェクト中心の画像に限られるが、実際のデータは、主に未修正、複数ラベル、シーン中心である。 画像からピクセルへのクラスタリングを拡張し、各画像内の異なるインスタンスに別々のクラスタメンバシップを割り当てる。 しかし、ピクセル単位での類似性のみに依存するため、高レベルな意味概念や低レベルの視覚的手がかりへの過剰な適合を学ばない。 本稿では,インダクティブバイアスとして幾何学的一貫性を組み込む手法を提案する。 新たな学習目標によって,フレームワークは高度な意味概念を学習することができる。 我々の手法であるPiCIE (Pixel-level feature Clustering using Invariance and Equivariance) は,ハイパーパラメータチューニングやタスク固有の前処理を使わずに,物と物の両方を分割できる最初の方法である。 提案手法はCOCOおよび都市景観における既存のベースラインを+17.5Accで上回る。 4.5mIoU。 また,PiCIEが標準教師付きトレーニングのより優れた初期化を提供することを示す。 コードはhttps://github.com/janghyuncho/picieで入手できる。

We present a new framework for semantic segmentation without annotations via clustering. Off-the-shelf clustering methods are limited to curated, single-label, and object-centric images yet real-world data are dominantly uncurated, multi-label, and scene-centric. We extend clustering from images to pixels and assign separate cluster membership to different instances within each image. However, solely relying on pixel-wise feature similarity fails to learn high-level semantic concepts and overfits to low-level visual cues. We propose a method to incorporate geometric consistency as an inductive bias to learn invariance and equivariance for photometric and geometric variations. With our novel learning objective, our framework can learn high-level semantic concepts. Our method, PiCIE (Pixel-level feature Clustering using Invariance and Equivariance), is the first method capable of segmenting both things and stuff categories without any hyperparameter tuning or task-specific pre-processing. Our method largely outperforms existing baselines on COCO and Cityscapes with +17.5 Acc. and +4.5 mIoU. We show that PiCIE gives a better initialization for standard supervised training. The code is available at https://github.com/janghyuncho/PiCIE.
翻訳日:2021-04-02 09:46:12 公開日:2021-03-30
# (参考訳) 人工知能を使ってビスケットの星に光を当てるjaffa cake

Using Artificial Intelligence to Shed Light on the Star of Biscuits: The Jaffa Cake ( http://arxiv.org/abs/2103.16575v1 )

ライセンス: CC BY-SA 4.0
H. F. Stevance(参考訳) ブレグジット前、イギリスの家族の間で議論の最も大きな原因の1つは、ジャッファ・ケーキの性質に関する問題であった。 それらのサイズとホスト環境(ビスケット通路)は、彼ら自身でビスケットにするべきだと主張する者もいる。 物理的性質(例えば)を考える人もいる。 固くなるより柔らかくする)は、実際にはケーキであることを示唆している。 最終的にこの議論をrestに移すために、トランジェントなイベントを分類するテクノロジを再利用します。 伝統的なケーキやビスケットのレシピ100個に2つの分類器(ランダムフォレストとサポートベクターマシン)を訓練した。 分類器の精度は95%、精度は91%です。 そして最後に、アルゴリズムに2つのJaffa Cakeレシピを与え、Jaffa Cakesが間違いなくケーキであることを見つける。 最後に、Jaffa Cakesがビスケットであると信じる理由に関する新しい理論を提案する。

Before Brexit, one of the greatest causes of arguments amongst British families was the question of the nature of Jaffa Cakes. Some argue that their size and host environment (the biscuit aisle) should make them a biscuit in their own right. Others consider that their physical properties (e.g. they harden rather than soften on becoming stale) suggest that they are in fact cake. In order to finally put this debate to rest, we re-purpose technologies used to classify transient events. We train two classifiers (a Random Forest and a Support Vector Machine) on 100 recipes of traditional cakes and biscuits. Our classifiers have 95 percent and 91 percent accuracy respectively. Finally we feed two Jaffa Cake recipes to the algorithms and find that Jaffa Cakes are, without a doubt, cakes. Finally, we suggest a new theory as to why some believe Jaffa Cakes are biscuits.
翻訳日:2021-04-02 09:43:48 公開日:2021-03-30
# (参考訳) 季節コントラスト:未確認リモートセンシングデータからの教師なし事前学習

Seasonal Contrast: Unsupervised Pre-Training from Uncurated Remote Sensing Data ( http://arxiv.org/abs/2103.16607v1 )

ライセンス: CC BY 4.0
Oscar Ma\~nas, Alexandre Lacoste, Xavier Giro-i-Nieto, David Vazquez, Pau Rodriguez(参考訳) リモートセンシングと自動地球モニタリングは、防災、土地利用監視、気候変動対策といった世界的な課題を解決する鍵となる。 膨大な量のリモートセンシングデータが存在するが、ほとんどはラベルが付けられておらず、教師付き学習アルゴリズムにはアクセスできない。 トランスファーラーニングアプローチは、ディープラーニングアルゴリズムのデータ要求を減らすことができる。 しかし,これらの手法の多くはImageNet上で事前学習されており,ドメインギャップのため,リモートセンシング画像への一般化は保証されていない。 本研究では,リモートセンシング表現の事前学習にラベルなしデータを活用する効果的なパイプラインである季節コントラスト(seco)を提案する。 secoパイプラインは2つの部分からなる。 まず、異なるタイムスタンプで複数の地球からの画像を含む大規模な、ラベルなし、未修正のリモートセンシングデータセットを収集する。 第二に、時間と位置の不変性を利用して移動可能な表現を学習する自己教師付きアルゴリズムである。 我々は、SeCoでトレーニングされたモデルが、ImageNetが事前訓練したモデルや、複数の下流タスクにおける最先端の自己教師型学習方法よりも優れたパフォーマンスを達成することを実証的に示す。 SeCoのデータセットとモデルは公開され、転送学習を容易にし、リモートセンシングアプリケーションの急速な進歩を可能にする。

Remote sensing and automatic earth monitoring are key to solve global-scale challenges such as disaster prevention, land use monitoring, or tackling climate change. Although there exist vast amounts of remote sensing data, most of it remains unlabeled and thus inaccessible for supervised learning algorithms. Transfer learning approaches can reduce the data requirements of deep learning algorithms. However, most of these methods are pre-trained on ImageNet and their generalization to remote sensing imagery is not guaranteed due to the domain gap. In this work, we propose Seasonal Contrast (SeCo), an effective pipeline to leverage unlabeled data for in-domain pre-training of re-mote sensing representations. The SeCo pipeline is com-posed of two parts. First, a principled procedure to gather large-scale, unlabeled and uncurated remote sensing datasets containing images from multiple Earth locations at different timestamps. Second, a self-supervised algorithm that takes advantage of time and position invariance to learn transferable representations for re-mote sensing applications. We empirically show that models trained with SeCo achieve better performance than their ImageNet pre-trained counterparts and state-of-the-art self-supervised learning methods on multiple downstream tasks. The datasets and models in SeCo will be made public to facilitate transfer learning and enable rapid progress in re-mote sensing applications.
翻訳日:2021-04-02 09:38:25 公開日:2021-03-30
# (参考訳) COCOベンチマークによるベイズ最適化の再検討

Revisiting Bayesian Optimization in the light of the COCO benchmark ( http://arxiv.org/abs/2103.16649v1 )

ライセンス: CC BY 4.0
Rodolphe Le Riche, Victor Picheny(参考訳) ベイズ最適化(BO)アルゴリズムは数値的にコストのかかる関数を最適化するのに非常に効率的であると考えられている。 しかし、BOは広範に異なる代替品と比較されることが少なく、主に狭い問題の集合(多次元、低次元の関数)でテストされており、それらが実際に最先端のパフォーマンスを達成するか(あるいはその場合)を評価することは困難である。 さらに、これらのアルゴリズムの設計におけるいくつかの側面は、現在のプラクティスから生じる明確な推奨なしに実装によって異なり、これらの設計選択の多くは、権威あるテストキャンペーンによって証明されない。 本稿では,共通かつあまり一般的ではない設計選択のbo(gaussian process based)の性能への影響について,大規模な調査を行う。 実験は、確立したCOCO(Comparing Continuous Optimizers)ソフトウェアで実施される。 その結果,小額な初期予算,二次的な傾向,買収基準の高品質な最適化が一貫した進展をもたらすことがわかった。 gp平均を時々取得として使用することは、無視できる追加改善に寄与する。 ウォーピングはパフォーマンスを劣化させる。 mat\'ern 5/2 カーネルは良い既定値であるが、不規則関数の指数核によって超えられる可能性がある。 全体として、最高のEGO変種は、マルチモーダル関数の次元が5以下である場合、最先端のアルゴリズムよりも競争力があるか改善されている。 この研究のために開発されたコードは、RパッケージDiceOptimの新バージョン(v2.1.1)をCRANで利用可能にしている。 関数群による実験の構造は、ベイズ最適化に関する将来の研究の優先事項を定義することができる。

It is commonly believed that Bayesian optimization (BO) algorithms are highly efficient for optimizing numerically costly functions. However, BO is not often compared to widely different alternatives, and is mostly tested on narrow sets of problems (multimodal, low-dimensional functions), which makes it difficult to assess where (or if) they actually achieve state-of-the-art performance. Moreover, several aspects in the design of these algorithms vary across implementations without a clear recommendation emerging from current practices, and many of these design choices are not substantiated by authoritative test campaigns. This article reports a large investigation about the effects on the performance of (Gaussian process based) BO of common and less common design choices. The experiments are carried out with the established COCO (COmparing Continuous Optimizers) software. It is found that a small initial budget, a quadratic trend, high-quality optimization of the acquisition criterion bring consistent progress. Using the GP mean as an occasional acquisition contributes to a negligible additional improvement. Warping degrades performance. The Mat\'ern 5/2 kernel is a good default but it may be surpassed by the exponential kernel on irregular functions. Overall, the best EGO variants are competitive or improve over state-of-the-art algorithms in dimensions less or equal to 5 for multimodal functions. The code developed for this study makes the new version (v2.1.1) of the R package DiceOptim available on CRAN. The structure of the experiments by function groups allows to define priorities for future research on Bayesian optimization.
翻訳日:2021-04-02 09:23:31 公開日:2021-03-30
# (参考訳) 離散時間パラメータ推定のための新しいアルゴリズム

A New Algorithm for Discrete-Time Parameter Estimation ( http://arxiv.org/abs/2103.16653v1 )

ライセンス: CC BY 4.0
Yingnan Cui, Joseph E. Gaudio and Anuradha M. Annaswamy(参考訳) 時間変化植物のクラスをパラメータ推定するための離散時間適応アルゴリズムを提案する。 主な貢献は、パラメータ推定の調整に時間変化の利得行列を含めることである。 時間変化のある未知パラメータが存在する場合、パラメータ推定誤差は、持続的な励起条件下でのコンパクトな集合に一様収束し、未知パラメータの時間変化に比例するコンパクトな集合のサイズを示す。 有限励起条件下では、収束は漸近的で非一様である。

We propose a new discrete-time adaptive algorithm for parameter estimation of a class of time-varying plants. The main contribution is the inclusion of a time-varying gain matrix in the adjustment of the parameter estimates. We show that in the presence of time-varying unknown parameters, the parameter estimation error converges uniformly to a compact set under conditions of persistent excitation, with the size of the compact set proportional to the time-variation of the unknown parameters. Under conditions of finite excitation, the convergence is asymptotic and non-uniform.
翻訳日:2021-04-02 09:21:23 公開日:2021-03-30
# (参考訳) ニューロイメージングにおける深層学習--パワーとI型エラー制御を用いた多変量アプローチと議論可能な一般化能力

Deep Learning in current Neuroimaging: a multivariate approach with power and type I error control but arguable generalization ability ( http://arxiv.org/abs/2103.16685v1 )

ライセンス: CC BY 4.0
Carmen Jim\'enez-Mesa, Javier Ram\'irez, John Suckling, Jonathan V\"oglein, Johannes Levin, Juan Manuel G\'orriz, Alzheimer's Disease Neuroimaging Initiative ADNI, Dominantly Inherited Alzheimer Network DIAN(参考訳) 深層/機械学習技術による神経画像の識別分析は通常検証技術でテストされるが、関連する統計学的意義は計算の複雑さのためにほとんど未発達のままである。 本研究では,ディープラーニングアーキテクチャを用いた分類の統計的意義を推定する非パラメトリックフレームワークを提案する。 特に、オートエンコーダ (AE) とサポートベクターマシン (SVM) の組み合わせは、 (i) 正規制御 (NC) の 1 条件内設計 (i) および (ii) NC のアルツハイマー病 (AD) 患者と対照的な 2 条件間設計 (例えば、マルチクラス解析の拡張も含む) に適用される。 クロスバリデーション(cv)とアッパーバウンド補正(rub)による再置換を検証法として,ラベル置換テストに基づくランダム効果推定を提案する。 これにより、偽陽性と分類器オーバーフィットの両方を検出でき、またテストの統計的パワーを推定できる。 The Alzheimer's Disease Neuroimaging Initiative (ADNI) データセット、Dominantly Inherited Alzheimer Network (DIAN) データセット、MCI予測データセットを用いて、いくつかの実験を行った。 その結果,CV法とRUB法では,有意値に近い偽陽性率と許容可能な統計的パワーが得られた(クロスバリデーションでは低い)。 CVを用いた訓練と試験精度の大きな分離が観察され, 特に一条件設計で観察された。 これは、トレーニングに適合するモデルはテストセットに関して情報提供されないため、一般化能力が低いことを意味する。 CVテストセットに類似した結果が得られるRUBを適用して解法として提案するが、全セットを考慮し、1イテレーションあたりの計算コストを低く抑える。

Discriminative analysis in neuroimaging by means of deep/machine learning techniques is usually tested with validation techniques, whereas the associated statistical significance remains largely under-developed due to their computational complexity. In this work, a non-parametric framework is proposed that estimates the statistical significance of classifications using deep learning architectures. In particular, a combination of autoencoders (AE) and support vector machines (SVM) is applied to: (i) a one-condition, within-group designs often of normal controls (NC) and; (ii) a two-condition, between-group designs which contrast, for example, Alzheimer's disease (AD) patients with NC (the extension to multi-class analyses is also included). A random-effects inference based on a label permutation test is proposed in both studies using cross-validation (CV) and resubstitution with upper bound correction (RUB) as validation methods. This allows both false positives and classifier overfitting to be detected as well as estimating the statistical power of the test. Several experiments were carried out using the Alzheimer's Disease Neuroimaging Initiative (ADNI) dataset, the Dominantly Inherited Alzheimer Network (DIAN) dataset, and a MCI prediction dataset. We found in the permutation test that CV and RUB methods offer a false positive rate close to the significance level and an acceptable statistical power (although lower using cross-validation). A large separation between training and test accuracies using CV was observed, especially in one-condition designs. This implies a low generalization ability as the model fitted in training is not informative with respect to the test set. We propose as solution by applying RUB, whereby similar results are obtained to those of the CV test set, but considering the whole set and with a lower computational cost per iteration.
翻訳日:2021-04-02 09:04:26 公開日:2021-03-30
# (参考訳) 統一単眼深度予測と完了のためのスパース補助ネットワーク

Sparse Auxiliary Networks for Unified Monocular Depth Prediction and Completion ( http://arxiv.org/abs/2103.16690v1 )

ライセンス: CC BY 4.0
Vitor Guizilini, Rares Ambrus, Wolfram Burgard, Adrien Gaidon(参考訳) コスト効率のよいセンサで得られたデータからシーン形状を推定することは、ロボットや自動運転車にとって鍵となる。 本稿では,1枚のRGB画像から高密度の深度を推定する問題について,低コストな能動深度センサを用いて任意のスパース測定を行った。 提案するSparse Auxiliary Networks (SANs) は,RGB画像とスパースポイントクラウドの両方を推論時に利用できるかによって,深度予測と完了の両タスクをモノデプスネットワークで実行できる新しいモジュールである。 まず,画像と深度マップの符号化段階をスパース畳み込みを用いて分離し,有効な深度マップ画素のみを処理する。 第2に、この情報を利用可能な場合、深度予測ネットワークのスキップ接続に注入し、その機能を増強する。 1つの室内(nyuv2)と2つの屋外(kittiとddad)ベンチマークの広範な実験分析を通じて,提案するsanアーキテクチャが両タスクを同時に学習できると同時に,奥行き予測の新たな状態を実現することを実証した。

Estimating scene geometry from data obtained with cost-effective sensors is key for robots and self-driving cars. In this paper, we study the problem of predicting dense depth from a single RGB image (monodepth) with optional sparse measurements from low-cost active depth sensors. We introduce Sparse Auxiliary Networks (SANs), a new module enabling monodepth networks to perform both the tasks of depth prediction and completion, depending on whether only RGB images or also sparse point clouds are available at inference time. First, we decouple the image and depth map encoding stages using sparse convolutions to process only the valid depth map pixels. Second, we inject this information, when available, into the skip connections of the depth prediction network, augmenting its features. Through extensive experimental analysis on one indoor (NYUv2) and two outdoor (KITTI and DDAD) benchmarks, we demonstrate that our proposed SAN architecture is able to simultaneously learn both tasks, while achieving a new state of the art in depth prediction by a significant margin.
翻訳日:2021-04-02 08:30:35 公開日:2021-03-30
# (参考訳) セマンティックセグメンテーションのための幾何学的教師なしドメイン適応

Geometric Unsupervised Domain Adaptation for Semantic Segmentation ( http://arxiv.org/abs/2103.16694v1 )

ライセンス: CC BY 4.0
Vitor Guizilini, Jie Li, Rares Ambrus, Adrien Gaidon(参考訳) シミュレータは、セマンティクスセグメンテーションのようなラベル付きタスクを完璧に管理することで、大量のラベル付き合成データを効率的に生成することができる。 しかし、実際のパフォーマンスを著しく損なうようなドメインギャップを導入する。 本稿では,このギャップを埋め,非教師なし領域適応(UDA)を改善するために,自己教師付き単眼深度推定をプロキシタスクとして用いることを提案する。 我々の幾何学的非教師なし領域適応法 (guda) は, 合成意味論的監督と実世界の幾何学的制約を組み合わせたマルチタスクの目的を通して, ドメイン不変表現を学習する。 GUDAは、3つのベンチマークでセマンティックセグメンテーションを行うためのUDAの新たな最先端技術を確立している。 さらに,本手法は合成データの質や量によく対応し,深度予測も改善することを示した。

Simulators can efficiently generate large amounts of labeled synthetic data with perfect supervision for hard-to-label tasks like semantic segmentation. However, they introduce a domain gap that severely hurts real-world performance. We propose to use self-supervised monocular depth estimation as a proxy task to bridge this gap and improve sim-to-real unsupervised domain adaptation (UDA). Our Geometric Unsupervised Domain Adaptation method (GUDA) learns a domain-invariant representation via a multi-task objective combining synthetic semantic supervision with real-world geometric constraints on videos. GUDA establishes a new state of the art in UDA for semantic segmentation on three benchmarks, outperforming methods that use domain adversarial learning, self-training, or other self-supervised proxy tasks. Furthermore, we show that our method scales well with the quality and quantity of synthetic data while also improving depth prediction.
翻訳日:2021-04-02 08:15:15 公開日:2021-03-30
# (参考訳) cnnを用いた心運動抽出法によるシネmriを用いた変形性心室心筋モデルの作成

CNN-based Cardiac Motion Extraction to Generate Deformable Geometric Left Ventricle Myocardial Models from Cine MRI ( http://arxiv.org/abs/2103.16695v1 )

ライセンス: CC BY 4.0
Roshan Reddy Upendra, Brian Jamison Wentz, Richard Simon, Suzanne M. Shontz, Cristian A. Linte(参考訳) 患者特異的左室モデル(LV)は、診断と治療計画の改善のために様々な臨床シナリオで使用される可能性がある。 Cine heartc magnetic resonance (MR) imagingは、LV心筋の患者固有の幾何学的モデルを再構成するための高解像度画像を提供する。 深層学習の出現に伴い, 心臓MRI画像からの心臓室の正確なセグメンテーション, 多数の画像データセット上での心臓運動推定のための画像登録のための教師なし学習が達成される。 本稿では,ACDC(Automated Cardiac Diagnosis Challenge)データセットを用いて,心臓MRI画像から患者特異的なLV心筋形状モデルを開発するための深い傾きに基づくフレームワークを提案する。 我々は,voxelmorph-based convolutional neural network (cnn) から推定される変形場を用いて,エンドダイアストール(ed)フレームの等表面メッシュと体積メッシュを心周期の次のフレームに伝播させる。 心臓の各相におけるセグメント化モデルに対するCNNベースの伝搬モデルと,他の非剛性画像登録技術を用いて伝播するモデルを評価する。

Patient-specific left ventricle (LV) myocardial models have the potential to be used in a variety of clinical scenarios for improved diagnosis and treatment plans. Cine cardiac magnetic resonance (MR) imaging provides high resolution images to reconstruct patient-specific geometric models of the LV myocardium. With the advent of deep learning, accurate segmentation of cardiac chambers from cine cardiac MR images and unsupervised learning for image registration for cardiac motion estimation on a large number of image datasets is attainable. Here, we propose a deep leaning-based framework for the development of patient-specific geometric models of LV myocardium from cine cardiac MR images, using the Automated Cardiac Diagnosis Challenge (ACDC) dataset. We use the deformation field estimated from the VoxelMorph-based convolutional neural network (CNN) to propagate the isosurface mesh and volume mesh of the end-diastole (ED) frame to the subsequent frames of the cardiac cycle. We assess the CNN-based propagated models against segmented models at each cardiac phase, as well as models propagated using another traditional nonrigid image registration technique.
翻訳日:2021-04-02 07:33:32 公開日:2021-03-30
# (参考訳) 樹木, 森林, ニワトリ, 卵: ランダム林における樹冠形成の時期と理由

Trees, Forests, Chickens, and Eggs: When and Why to Prune Trees in a Random Forest ( http://arxiv.org/abs/2103.16700v1 )

ライセンス: CC BY 4.0
Siyu Zhou and Lucas Mentch(参考訳) 優れた棚から外れた予測者としての長年の評判から、無作為な森林は依然として応用統計学者やデータ科学者にとって選択肢のモデルとなっている。 しかし、近年まで広く使われているにもかかわらず、彼らの内面的な作業についてはほとんど知られていなかった。 最近になって、補間に基づく仮説と正規化に基づく仮説が2つ出現した。 この研究は、正規化フレームワークを利用して、アンサンブル内の個々の木を刈り取るべきかどうかという数十年前の疑問を再検討することで後者を支持する。 ランダムな森林のデフォルト構造は、ほとんどの一般的なソフトウェアパッケージにおいて、ほぼ全深度木を用いるという事実にもかかわらず、ここでは、木深度が手順全体にわたって自然な正規化の形式と見なされるべきであることを示す強力な証拠を提供する。 特に,データ中の信号-雑音比が低い場合,浅葉の無作為林が有利であることが示唆された。 また,本論文では,ランダム林における「二重降下」という新たな概念を,u-統計に平行して描くことで批判し,ランダム林の精度の明らかなジャンプは補間よりも単純な平均化の結果であると主張する。

Due to their long-standing reputation as excellent off-the-shelf predictors, random forests continue remain a go-to model of choice for applied statisticians and data scientists. Despite their widespread use, however, until recently, little was known about their inner-workings and about which aspects of the procedure were driving their success. Very recently, two competing hypotheses have emerged -- one based on interpolation and the other based on regularization. This work argues in favor of the latter by utilizing the regularization framework to reexamine the decades-old question of whether individual trees in an ensemble ought to be pruned. Despite the fact that default constructions of random forests use near full depth trees in most popular software packages, here we provide strong evidence that tree depth should be seen as a natural form of regularization across the entire procedure. In particular, our work suggests that random forests with shallow trees are advantageous when the signal-to-noise ratio in the data is low. In building up this argument, we also critique the newly popular notion of "double descent" in random forests by drawing parallels to U-statistics and arguing that the noticeable jumps in random forest accuracy are the result of simple averaging rather than interpolation.
翻訳日:2021-04-02 07:24:58 公開日:2021-03-30
# (参考訳) エッジ分類相互作用ネットワークによる荷電粒子追跡

Charged particle tracking via edge-classifying interaction networks ( http://arxiv.org/abs/2103.16701v1 )

ライセンス: CC BY 4.0
Gage DeZoort, Savannah Thais, Isobel Ojalvo, Peter Elmer, Vesal Razavimaleki, Javier Duarte, Markus Atkinson, Mark Neubauer(参考訳) 近年の研究では、グラフニューラルネットワーク(GNN)のような幾何学的深層学習手法が、HEPの様々な再構成問題に対処するのに適していることが示されている。 特に、トラッカーイベントは、ヒットをノードとして、トラックセグメントをエッジとして識別することで、グラフとして自然に表現される。 本研究では, HL-LHCで期待される高ピーク条件下での荷電粒子追跡問題に対して, 物理動機付き相互作用ネットワーク(IN) GNNを適用した。 グラフ構築,エッジ分類,トラック構築といった,GNNに基づくトラッキングの各段階における一連の測定によって,INの優れたエッジ分類精度と追跡効率を実証する。 提案したINアーキテクチャは,従来研究されていたGNNトラッキングアーキテクチャよりも大幅に小さく,制約のある計算環境においてGNNベースのトラッキングを実現する上で重要なサイズ削減である。 さらに、INは行列演算の集合として容易に表現され、不均一な計算資源による加速の候補となる。

Recent work has demonstrated that geometric deep learning methods such as graph neural networks (GNNs) are well-suited to address a variety of reconstruction problems in HEP. In particular, tracker events are naturally represented as graphs by identifying hits as nodes and track segments as edges; given a set of hypothesized edges, edge-classifying GNNs predict which correspond to real track segments. In this work, we adapt the physics-motivated interaction network (IN) GNN to the problem of charged-particle tracking in the high-pileup conditions expected at the HL-LHC. We demonstrate the IN's excellent edge-classification accuracy and tracking efficiency through a suite of measurements at each stage of GNN-based tracking: graph construction, edge classification, and track building. The proposed IN architecture is substantially smaller than previously studied GNN tracking architectures, a reduction in size critical for enabling GNN-based tracking in constrained computing environments. Furthermore, the IN is easily expressed as a set of matrix operations, making it a promising candidate for acceleration via heterogeneous computing resources.
翻訳日:2021-04-02 07:06:48 公開日:2021-03-30
# (参考訳) DynOcc: ダイナミックオクルージョンキューからシングルビューの深さを学ぶ

DynOcc: Learning Single-View Depth from Dynamic Occlusion Cues ( http://arxiv.org/abs/2103.16706v1 )

ライセンス: CC BY 4.0
Yifan Wang, Linjie Luo, Xiaohui Shen, Xing Mei(参考訳) 近年,大規模かつ多種多様な深度データセットにより,一視点深度推定が大幅に進歩している。 しかし、これらのデータセットは特定のアプリケーションドメイン(例)に限定されている。 ハードウェアの制約や3D再構成の技術的制限による、屋内、自律運転)または静的な現場。 本稿では,ダイナミック・イン・ザ・ワイルドシーンからなる第1深度データセットDynOccを紹介する。 提案手法は, 動的シーンにおけるオクルージョン手がかりを利用して, 選択されたビデオフレームの点間の深さ関係を推定する。 正確な閉塞検出と深度順序推定を実現するため,新しい閉塞境界検出法,フィルタリング法,薄型化法,および頑健な前景/背景分類法を用いる。 DynOccのデータセットには、さまざまなビデオの91Kフレームのうち2200万の深さペアが含まれています。 我々のデータセットを用いて、重み付きヒト不一致率(WHDR)の測定結果を得た。 また、DynOccでトレーニングした推定深度マップは、よりシャープな深度境界を維持することができることを示した。

Recently, significant progress has been made in single-view depth estimation thanks to increasingly large and diverse depth datasets. However, these datasets are largely limited to specific application domains (e.g. indoor, autonomous driving) or static in-the-wild scenes due to hardware constraints or technical limitations of 3D reconstruction. In this paper, we introduce the first depth dataset DynOcc consisting of dynamic in-the-wild scenes. Our approach leverages the occlusion cues in these dynamic scenes to infer depth relationships between points of selected video frames. To achieve accurate occlusion detection and depth order estimation, we employ a novel occlusion boundary detection, filtering and thinning scheme followed by a robust foreground/background classification method. In total our DynOcc dataset contains 22M depth pairs out of 91K frames from a diverse set of videos. Using our dataset we achieved state-of-the-art results measured in weighted human disagreement rate (WHDR). We also show that the inferred depth maps trained with DynOcc can preserve sharper depth boundaries.
翻訳日:2021-04-02 06:39:09 公開日:2021-03-30
# (参考訳) 潜在性単調注意変種の研究

A study of latent monotonic attention variants ( http://arxiv.org/abs/2103.16710v1 )

ライセンス: CC BY 4.0
Albert Zeyer, Ralf Schl\"uter, Hermann Ney(参考訳) エンドツーエンドモデルは音声認識の最先端のパフォーマンスに達するが、グローバルソフトアテンションはモノトニックではないため、収束問題、不安定性、悪質な一般化、オンラインストリーミングでは使用できず、計算にも非効率である。 モノトニック性は、これらすべてを修正する可能性がある。 単調性を導入するためのアドホックな解やヒューリスティックはいくつかあるが、これまでの文献では原則的な導入はまれである。 本稿では,音声の位置やセグメント境界を表す新しい潜在変数を導入することにより,単調性を導入する数学的にクリーンな解を提案する。 我々は,複数の単調潜在モデルと我々のグローバルなソフトアテンションベースライン(ハードアテンションモデル,ローカルウィンドウドソフトアテンションモデル,セグメンダルソフトアテンションモデルなど)を比較した。 モノトニックモデルがグローバルソフトアテンションモデルと同等の性能を持つことを示すことができる。 私たちはスイッチボード300hで実験を行います。 トレーニングの詳細を慎重に説明し、コードと設定をリリースします。

End-to-end models reach state-of-the-art performance for speech recognition, but global soft attention is not monotonic, which might lead to convergence problems, to instability, to bad generalisation, cannot be used for online streaming, and is also inefficient in calculation. Monotonicity can potentially fix all of this. There are several ad-hoc solutions or heuristics to introduce monotonicity, but a principled introduction is rarely found in literature so far. In this paper, we present a mathematically clean solution to introduce monotonicity, by introducing a new latent variable which represents the audio position or segment boundaries. We compare several monotonic latent models to our global soft attention baseline such as a hard attention model, a local windowed soft attention model, and a segmental soft attention model. We can show that our monotonic models perform as good as the global soft attention model. We perform our experiments on Switchboard 300h. We carefully outline the details of our training and release our code and configs.
翻訳日:2021-04-02 06:26:47 公開日:2021-03-30
# (参考訳) BASE Layers: 大きなスパースモデルのトレーニングを簡単にする

BASE Layers: Simplifying Training of Large, Sparse Models ( http://arxiv.org/abs/2103.16716v1 )

ライセンス: CC BY 4.0
Mike Lewis, Shruti Bhosale, Tim Dettmers, Naman Goyal, Luke Zettlemoyer(参考訳) 我々は,既存の高容量スパース層を大幅に単純化した,大規模言語モデルのエキスパート層(BASE)のバランスのとれた割り当てを導入する。 スパース層は、モデルのパラメータのごく一部しか含まない専門のエキスパートモジュールに各トークンをルーティングすることで、トレーニングと推論の効率を劇的に改善することができる。 しかし、利用可能な専門家をフル活用するバランスの取れたルーティング関数を学ぶことは困難である。 対照的に、私たちはトークン対エキスパート割り当てを線形割り当て問題として定式化し、各専門家が等しいトークン数を受け取る最適な割り当てを可能にする。 この最適割り当て方式は、バランスの取れた計算負荷を保証することで効率を向上し、新しいハイパーパラメータや補助的な損失を不要にすることでトレーニングを簡素化する。 コードはhttps://github.com/pytorch/fairseq/で公開される。

We introduce a new balanced assignment of experts (BASE) layer for large language models that greatly simplifies existing high capacity sparse layers. Sparse layers can dramatically improve the efficiency of training and inference by routing each token to specialized expert modules that contain only a small fraction of the model parameters. However, it can be difficult to learn balanced routing functions that make full use of the available experts; existing approaches typically use routing heuristics or auxiliary expert-balancing loss functions. In contrast, we formulate token-to-expert allocation as a linear assignment problem, allowing an optimal assignment in which each expert receives an equal number of tokens. This optimal assignment scheme improves efficiency by guaranteeing balanced compute loads, and also simplifies training by not requiring any new hyperparameters or auxiliary losses. Code is publicly released at https://github.com/pytorch/fairseq/
翻訳日:2021-04-02 06:08:42 公開日:2021-03-30
# ビッグデータを用いたハイブリッド機械学習アルゴリズムを用いたテキスト分類

Text Classification Using Hybrid Machine Learning Algorithms on Big Data ( http://arxiv.org/abs/2103.16624v1 )

ライセンス: Link先を確認
D.C. Asogwa, S.O. Anigbogu, I.E. Onyenwe, F.A. Sani(参考訳) 近年,データ量,速度,多様性,妥当性(4Vs)の面でビッグデータに寄与する,さまざまなオンラインプラットフォームを起源とする前例のないデータ成長がある。 構造化されていないビッグデータの性質を考えると、意味のある情報を抽出する分析を行うことは、ビッグデータ分析にとって現在大きな課題です。 構造化されていないテキストデータの収集と分析により、意思決定者はソーシャルメディアプラットフォーム上でコメントや投稿のエスカレーションを研究することができる。 したがって、デジタルメディアプラットフォームからの非構造化データセットのノイズと信頼性を克服するために、自動的なビッグデータ分析が必要となる。 しかし、現在の機械学習アルゴリズムは、トレーニングサンプルから学習した既知の特性に基づく分類/予測精度に注目したパフォーマンス駆動である。 大規模なデータセットでの学習タスクでは、ほとんどの機械学習モデルは高い計算コストを必要とすることが知られており、結果として計算の複雑さをもたらす。 本研究では,2つの教師付き機械学習アルゴリズムをテキストマイニング手法と組み合わせて,Na\\"ive Bayesとサポートベクタマシン(SVM)からなるハイブリッドモデルを生成する。 これは、得られた結果の効率と正確性を向上し、計算コストと複雑さを低減することである。 このシステムはまた、共通の関心を持つ人々のグループがコメントやメッセージを共有し、これらのコメントを法的または違法に自動的に分類するオープンプラットフォームも提供する。 これにより、ユーザ間の会話の質が向上する。 ハイブリッドモデルはWEKAツールとJavaプログラミング言語を使って開発された。 その結果、ハイブリッドモデルはそれぞれ61.45%と69.21%のna\"ive bayesとsvmモデルに対して96.76%の精度を示した。

Recently, there are unprecedented data growth originating from different online platforms which contribute to big data in terms of volume, velocity, variety and veracity (4Vs). Given this nature of big data which is unstructured, performing analytics to extract meaningful information is currently a great challenge to big data analytics. Collecting and analyzing unstructured textual data allows decision makers to study the escalation of comments/posts on our social media platforms. Hence, there is need for automatic big data analysis to overcome the noise and the non-reliability of these unstructured dataset from the digital media platforms. However, current machine learning algorithms used are performance driven focusing on the classification/prediction accuracy based on known properties learned from the training samples. With the learning task in a large dataset, most machine learning models are known to require high computational cost which eventually leads to computational complexity. In this work, two supervised machine learning algorithms are combined with text mining techniques to produce a hybrid model which consists of Na\"ive Bayes and support vector machines (SVM). This is to increase the efficiency and accuracy of the results obtained and also to reduce the computational cost and complexity. The system also provides an open platform where a group of persons with a common interest can share their comments/messages and these comments classified automatically as legal or illegal. This improves the quality of conversation among users. The hybrid model was developed using WEKA tools and Java programming language. The result shows that the hybrid model gave 96.76% accuracy as against the 61.45% and 69.21% of the Na\"ive Bayes and SVM models respectively.
翻訳日:2021-04-01 14:51:09 公開日:2021-03-30
# 深部ニューラルネットワークの学習における爆発的不変性

Exploiting Invariance in Training Deep Neural Networks ( http://arxiv.org/abs/2103.16634v1 )

ライセンス: Link先を確認
Chengxi Ye, Xiong Zhou, Tristan McKinney, Yanfeng Liu, Qinggang Zhou, Fedor Zhdanov(参考訳) 動物視覚システムにおける2つの基本的なメカニズムに着想を得て、深層ニューラルネットワークのトレーニングにおいて不変性を課す特徴変換技術を導入する。 結果として得られるアルゴリズムはパラメータチューニングを少なくし、初期学習率1.0でうまくトレーニングし、異なるタスクに簡単に一般化する。 様々な状況で生成された類似のサンプルを整合させるために,データ内の局所統計値とスケール不変性を強制する。 収束を加速するために、勾配降下解が基底変化の下で不変であるべきバッチから抽出した大域統計値を用いてGL(n)-不変性を強制する。 ImageNet、MS COCO、Cityscapesのデータセットでテストした結果、提案手法はトレーニングのイテレーションを少なくし、すべてのベースラインを大きなマージンで越え、小さなバッチサイズトレーニングと大規模なバッチサイズトレーニングの両方にシームレスに取り組み、画像分類、オブジェクト検出、セマンティックセグメンテーションといった異なるコンピュータビジョンタスクに適用します。

Inspired by two basic mechanisms in animal visual systems, we introduce a feature transform technique that imposes invariance properties in the training of deep neural networks. The resulting algorithm requires less parameter tuning, trains well with an initial learning rate 1.0, and easily generalizes to different tasks. We enforce scale invariance with local statistics in the data to align similar samples generated in diverse situations. To accelerate convergence, we enforce a GL(n)-invariance property with global statistics extracted from a batch that the gradient descent solution should remain invariant under basis change. Tested on ImageNet, MS COCO, and Cityscapes datasets, our proposed technique requires fewer iterations to train, surpasses all baselines by a large margin, seamlessly works on both small and large batch size training, and applies to different computer vision tasks of image classification, object detection, and semantic segmentation.
翻訳日:2021-04-01 14:49:46 公開日:2021-03-30
# ポイントクラウドモデルのロバスト性認定

Robustness Certification for Point Cloud Models ( http://arxiv.org/abs/2103.16652v1 )

ライセンス: Link先を確認
Tobias Lorenz, Anian Ruoss, Mislav Balunovi\'c, Gagandeep Singh, Martin Vechev(参考訳) 自律運転のような安全クリティカルなアプリケーションにおける深部3Dポイントクラウドモデルの使用は、セマンティックトランスフォーメーションへのこれらのモデルの堅牢性を証明する必要性を規定している。 幅広いセマンティック3D変換を処理するポイントクラウドモデルに適したスケーラブルな検証器を必要とするため、技術的には難しい。 本研究では,この課題に対処し,ポイントクラウドモデルの堅牢性を証明する最初の検証器である3DCertifyを導入する。 3dcertify は、2つの重要な洞察に基づいている: (i) 任意の微分可能変換に適用可能な一階テイラー近似に基づく一般的な緩和、(ii) ポイントワイズアクティベーション(例えば relu や sigmoid)よりも複雑であるが、ポイントクラウドモデルで一般的に使われるグローバル特徴プーリングの正確な緩和。 分類作業と部分分割作業の両方に対して,広範囲な3次元変換(回転,ねじれなど)を広範囲に評価することにより,3DCertifyの有効性を実証する。 例えば、95.7%の点雲に対して$\pm60^\circ$で回転に対するロバスト性を証明でき、最大プール緩和は15.6%まで向上する。

The use of deep 3D point cloud models in safety-critical applications, such as autonomous driving, dictates the need to certify the robustness of these models to semantic transformations. This is technically challenging as it requires a scalable verifier tailored to point cloud models that handles a wide range of semantic 3D transformations. In this work, we address this challenge and introduce 3DCertify, the first verifier able to certify robustness of point cloud models. 3DCertify is based on two key insights: (i) a generic relaxation based on first-order Taylor approximations, applicable to any differentiable transformation, and (ii) a precise relaxation for global feature pooling, which is more complex than pointwise activations (e.g., ReLU or sigmoid) but commonly employed in point cloud models. We demonstrate the effectiveness of 3DCertify by performing an extensive evaluation on a wide range of 3D transformations (e.g., rotation, twisting) for both classification and part segmentation tasks. For example, we can certify robustness against rotations by $\pm60^\circ$ for 95.7% of point clouds, and our max pool relaxation increases certification by up to 15.6%.
翻訳日:2021-04-01 14:49:26 公開日:2021-03-30
# 連続的重量バランス

Continuous Weight Balancing ( http://arxiv.org/abs/2103.16591v1 )

ライセンス: Link先を確認
Daniel J. Wu, Avoy Datta(参考訳) 高度に不均衡あるいは歪んだ特徴を有する問題に対して,試料重みを簡易に選択する手法を提案する。 重み付けされた重みを見つけるために回帰ラベルを鼻で識別する代わりに、より原理的なアプローチを採り、推定源と特定対象分布の間の伝達関数からサンプル重みを導出する。 本手法は回帰処理と分類処理の両方において非重み付きモデルと離散重み付きモデルの両方に優れる。 我々はまた、この手法の実装(https://github.com/Daniel-Wu/Continuous-Weight-Balancing)を科学コミュニティにオープンソース化しました。

We propose a simple method by which to choose sample weights for problems with highly imbalanced or skewed traits. Rather than naively discretizing regression labels to find binned weights, we take a more principled approach -- we derive sample weights from the transfer function between an estimated source and specified target distributions. Our method outperforms both unweighted and discretely-weighted models on both regression and classification tasks. We also open-source our implementation of this method (https://github.com/Daniel-Wu/Continuous-Weight-Balancing) to the scientific community.
翻訳日:2021-04-01 14:46:25 公開日:2021-03-30
# ディープオフポリティ評価のためのベンチマーク

Benchmarks for Deep Off-Policy Evaluation ( http://arxiv.org/abs/2103.16596v1 )

ライセンス: Link先を確認
Justin Fu, Mohammad Norouzi, Ofir Nachum, George Tucker, Ziyu Wang, Alexander Novikov, Mengjiao Yang, Michael R. Zhang, Yutian Chen, Aviral Kumar, Cosmin Paduraru, Sergey Levine, Tom Le Paine(参考訳) オフ政治評価(OPE)は、意思決定のための複雑なポリシーの評価と選択の両方に、大規模なオフラインデータセットを活用することを約束している。 オフラインで学ぶ能力は、オンラインデータ収集が高価で潜在的に危険なプロセスである医療、レコメンデーションシステム、ロボティクスなど、多くの現実世界のドメインで特に重要である。 オンラインインタラクションを必要とせず、正確にハイパフォーマンスなポリシーを評価および選択できることは、これらのアプリケーションの安全性、時間、コストに大きな利益をもたらす可能性がある。 近年、多くのOPE手法が提案されているが、現在では総合的かつ統一的なベンチマークが欠如しており、評価タスクの欠如によりアルゴリズムの進歩の測定が困難になっているため、論文の比較は困難である。 このギャップに対処するために,我々は,既存のオフラインデータセットと連携して,オフライン評価のベンチマークに使用できるポリシーの集合を提案する。 我々のタスクは、多岐にわたる高次元連続制御問題を含み、幅広いデータセットの選択とポリシーの選択を行う。 私たちのベンチマークの目的は、既存のOPEメソッドの限界に挑戦し、テストするために設計された一連の原則から動機付けられた、標準化された進捗測定を提供することです。 我々は最先端のアルゴリズムの評価を行い、この領域における将来の研究を促進するために、我々のデータとコードへのオープンソースアクセスを提供する。

Off-policy evaluation (OPE) holds the promise of being able to leverage large, offline datasets for both evaluating and selecting complex policies for decision making. The ability to learn offline is particularly important in many real-world domains, such as in healthcare, recommender systems, or robotics, where online data collection is an expensive and potentially dangerous process. Being able to accurately evaluate and select high-performing policies without requiring online interaction could yield significant benefits in safety, time, and cost for these applications. While many OPE methods have been proposed in recent years, comparing results between papers is difficult because currently there is a lack of a comprehensive and unified benchmark, and measuring algorithmic progress has been challenging due to the lack of difficult evaluation tasks. In order to address this gap, we present a collection of policies that in conjunction with existing offline datasets can be used for benchmarking off-policy evaluation. Our tasks include a range of challenging high-dimensional continuous control problems, with wide selections of datasets and policies for performing policy selection. The goal of our benchmark is to provide a standardized measure of progress that is motivated from a set of principles designed to challenge and test the limits of existing OPE methods. We perform an evaluation of state-of-the-art algorithms and provide open-source access to our data and code to foster future research in this area.
翻訳日:2021-04-01 14:46:10 公開日:2021-03-30
# 個人的公正に対する統計的推測

Statistical inference for individual fairness ( http://arxiv.org/abs/2103.16714v1 )

ライセンス: Link先を確認
Subha Maity, Songkai Xue, Mikhail Yurochkin, Yuekai Sun(参考訳) 機械学習(ml)モデルに依存して、より連続的な意思決定を行うため、好ましくない歴史的バイアス(例えば、性別や人種的バイアス)を持続あるいは悪化させるmlモデルの問題は、大衆の注目を集めている。 本稿では,MLモデルにおける個々人の公平性の違反を検出する問題に焦点をあてる。 我々は,MLモデルの敵攻撃に対する感受性を測るものとして問題を定式化し,敵のコスト関数に対する一連の推論ツールを開発する。 このツールにより、監査人は統計的に先導された方法でMLモデルの個別の公正さを評価することができる:類似した個人間の最悪のパフォーマンス差に対する信頼区間と、(漸近的な)非カバー/タイプIエラー率制御によるモデルフェアネスのテスト仮説を形成する。 実世界のケーススタディにおけるツールの有用性を実証する。

As we rely on machine learning (ML) models to make more consequential decisions, the issue of ML models perpetuating or even exacerbating undesirable historical biases (e.g., gender and racial biases) has come to the fore of the public's attention. In this paper, we focus on the problem of detecting violations of individual fairness in ML models. We formalize the problem as measuring the susceptibility of ML models against a form of adversarial attack and develop a suite of inference tools for the adversarial cost function. The tools allow auditors to assess the individual fairness of ML models in a statistically-principled way: form confidence intervals for the worst-case performance differential between similar individuals and test hypotheses of model fairness with (asymptotic) non-coverage/Type I error rate control. We demonstrate the utility of our tools in a real-world case study.
翻訳日:2021-04-01 14:45:47 公開日:2021-03-30
# simple: similar pseudo label exploitation for semi-supervised classification

SimPLE: Similar Pseudo Label Exploitation for Semi-Supervised Classification ( http://arxiv.org/abs/2103.16725v1 )

ライセンス: Link先を確認
Zijian Hu, Zhengyu Yang, Xuefeng Hu, Ram Nevatia(参考訳) 一般的な分類タスクの状況は、トレーニングに利用可能な大量のデータを持っているが、クラスラベルでアノテートされるのはごく一部である。 半教師付きトレーニングの目標は、ラベル付きデータだけでなく、大量のラベル付きデータからの情報を活用することで、分類精度を向上させることである。 最近の研究は、異なるラベル付きデータとラベルなしデータの一貫性の制約を探求することで、大幅に改善されている。 そこで本研究では, 相互に類似する信頼度の高い非ラベルデータ間の関係に焦点をあてた新しい教師なし目標を提案する。 新たに提案されたペア損失は、一定のしきい値を超える類似度を持つ高信頼擬似ラベル間の統計的距離を最小化する。 The Pair Loss with the MixMatch family, we proposed SimPLE algorithm showed significant performance gains than previous algorithm on CIFAR-100 and Mini-ImageNet, is on the state-of-the-art method on CIFAR-10 and SVHN。 さらに、SimPLEは、ImageNetやDomainNet-Realで事前トレーニングされた重みによってモデルが初期化されるトランスファー学習設定において、最先端の手法よりも優れている。 コードはgithub.com/zijian-hu/SimPLEで入手できる。

A common classification task situation is where one has a large amount of data available for training, but only a small portion is annotated with class labels. The goal of semi-supervised training, in this context, is to improve classification accuracy by leverage information not only from labeled data but also from a large amount of unlabeled data. Recent works have developed significant improvements by exploring the consistency constrain between differently augmented labeled and unlabeled data. Following this path, we propose a novel unsupervised objective that focuses on the less studied relationship between the high confidence unlabeled data that are similar to each other. The new proposed Pair Loss minimizes the statistical distance between high confidence pseudo labels with similarity above a certain threshold. Combining the Pair Loss with the techniques developed by the MixMatch family, our proposed SimPLE algorithm shows significant performance gains over previous algorithms on CIFAR-100 and Mini-ImageNet, and is on par with the state-of-the-art methods on CIFAR-10 and SVHN. Furthermore, SimPLE also outperforms the state-of-the-art methods in the transfer learning setting, where models are initialized by the weights pre-trained on ImageNet or DomainNet-Real. The code is available at github.com/zijian-hu/SimPLE.
翻訳日:2021-04-01 14:45:31 公開日:2021-03-30
# HAD-Net: コントラスト後画像のないTumourセグメンテーション改善のための階層型対数知識蒸留ネットワーク

HAD-Net: A Hierarchical Adversarial Knowledge Distillation Network for Improved Enhanced Tumour Segmentation Without Post-Contrast Images ( http://arxiv.org/abs/2103.16617v1 )

ライセンス: Link先を確認
Saverio Vadacchino, Raghav Mehta, Nazanin Mohammadi Sepahvand, Brennan Nichyporuk, James J. Clark, and Tal Arbel(参考訳) MRIから腫瘍や病変を切除することは、多くの臨床的文脈で新しい疾患活動を検出するのに重要である。 しかし、正確なセグメンテーションには、造影剤(例えばガドリニウム)を注射した後に取得した医用画像(例えば、T1ポストコントラストMRI)を含めることが必要である。 過去数年間、モダリティ非依存のセグメンテーションネットワークが開発されてきたが、病理セグメンテーションの強化という文脈では限られた成功を収めている。 そこで本研究では,すべてのmriシーケンスにアクセス可能な教師セグメンテーションネットワークで,階層的敵意トレーニングを通じて学生ネットワークを指導し,推論中に重要な画像が存在しない場合に提示される大きなドメインシフトを克服する,新しいオフライン・アドバーサル・ナレッジ・蒸留(kd)手法であるhad-netを提案する。 特に,コントラスト後画像へのアクセスが不可能な場合,腫瘍セグメンテーションの高度化という課題に対してHAD-Netを適用した。 提案したネットワークはBraTS 2019脳腫瘍セグメンテーションデータセットでトレーニングおよびテストされており、(a)最近のモダリティ非依存セグメンテーション手法(U-HeMIS, U-HVED),(b)KD-Netがこの問題に適応し、(c)事前訓練された学生ネットワークと(d)ネットワークの非階層バージョン(AD-Net)を用いて、腫瘍(ET)の強化のためのDiceスコアの観点から、16%から26%のパフォーマンス改善を実現している。 ネットワークはまた、腫瘍コア(TC)Diceスコアの改善も示す。 最後に、ネットワークは、BraTs 2019の不確実性課題メトリクスに基づいて、腫瘍セグメンテーションを強化するための不確実性定量化の観点から、ベースラインの学生ネットワークとAD-Netの両方を上回っている。 私たちのコードは、https://github.com/SaverioVad/HAD_Netで公開されています。

Segmentation of enhancing tumours or lesions from MRI is important for detecting new disease activity in many clinical contexts. However, accurate segmentation requires the inclusion of medical images (e.g., T1 post contrast MRI) acquired after injecting patients with a contrast agent (e.g., Gadolinium), a process no longer thought to be safe. Although a number of modality-agnostic segmentation networks have been developed over the past few years, they have been met with limited success in the context of enhancing pathology segmentation. In this work, we present HAD-Net, a novel offline adversarial knowledge distillation (KD) technique, whereby a pre-trained teacher segmentation network, with access to all MRI sequences, teaches a student network, via hierarchical adversarial training, to better overcome the large domain shift presented when crucial images are absent during inference. In particular, we apply HAD-Net to the challenging task of enhancing tumour segmentation when access to post-contrast imaging is not available. The proposed network is trained and tested on the BraTS 2019 brain tumour segmentation challenge dataset, where it achieves performance improvements in the ranges of 16% - 26% over (a) recent modality-agnostic segmentation methods (U-HeMIS, U-HVED), (b) KD-Net adapted to this problem, (c) the pre-trained student network and (d) a non-hierarchical version of the network (AD-Net), in terms of Dice scores for enhancing tumour (ET). The network also shows improvements in tumour core (TC) Dice scores. Finally, the network outperforms both the baseline student network and AD-Net in terms of uncertainty quantification for enhancing tumour segmentation based on the BraTs 2019 uncertainty challenge metrics. Our code is publicly available at: https://github.com/SaverioVad/HAD_Net
翻訳日:2021-04-01 14:41:43 公開日:2021-03-30
# 治療分類のための単セル表現のコントラスト学習

Contrastive Learning of Single-Cell Phenotypic Representations for Treatment Classification ( http://arxiv.org/abs/2103.16670v1 )

ライセンス: Link先を確認
Alexis Perakis, Ali Gorji, Samriddhi Jain, Krishna Chaitanya, Simone Rizza, Ender Konukoglu(参考訳) 顕微鏡画像に基づく細胞表現型を識別するためのロバスト表現の学習は、薬物の発見に重要である。 薬物開発の取り組みは、一般的に数千の細胞画像を分析して治療の可能性を見極める。 初期の研究は、これらの画像から手作業による機能の作成や、完全にまたは弱い教師付きフレームワークでディープニューラルネットワークを使ってその機能を学ぶことに焦点を当てていた。 どちらも事前の知識やラベル付きデータセットが必要です。 したがって、その後の研究はこれらの表現を学ぶために生成モデルに基づく教師なしのアプローチを提案する。 近年,自己教師付きコントラスト損失に基づく手法で学習した表現は,従来の教師なし手法と比較して,様々な撮像課題において最先端の成果を得られている。 本研究では,コントラスト学習フレームワークを活用し,単一セル蛍光顕微鏡画像から適切な表現を学習し,反応機構の分類を行う。 提案手法は, 注釈付きBBBC021データセットを用いて評価し, NSC, NCSB, ドロップの計測結果を得た。 NCSBの精度は10%向上し,NSC-NSCBは11%低下した。 さらに, 教師なしアプローチと教師なしアプローチのパフォーマンスは, 教師なしアプローチと相関する。 さらに、従来の手法とは異なり、後処理なしでも、我々のフレームワークは良好に動作します。 これにより、コントラスト学習で頑健な細胞表現を学習することができると結論付ける。

Learning robust representations to discriminate cell phenotypes based on microscopy images is important for drug discovery. Drug development efforts typically analyse thousands of cell images to screen for potential treatments. Early works focus on creating hand-engineered features from these images or learn such features with deep neural networks in a fully or weakly-supervised framework. Both require prior knowledge or labelled datasets. Therefore, subsequent works propose unsupervised approaches based on generative models to learn these representations. Recently, representations learned with self-supervised contrastive loss-based methods have yielded state-of-the-art results on various imaging tasks compared to earlier unsupervised approaches. In this work, we leverage a contrastive learning framework to learn appropriate representations from single-cell fluorescent microscopy images for the task of Mechanism-of-Action classification. The proposed work is evaluated on the annotated BBBC021 dataset, and we obtain state-of-the-art results in NSC, NCSB and drop metrics for an unsupervised approach. We observe an improvement of 10% in NCSB accuracy and 11% in NSC-NSCB drop over the previously best unsupervised method. Moreover, the performance of our unsupervised approach ties with the best supervised approach. Additionally, we observe that our framework performs well even without post-processing, unlike earlier methods. With this, we conclude that one can learn robust cell representations with contrastive learning.
翻訳日:2021-04-01 14:41:06 公開日:2021-03-30
# デモからロバストフィードバックポリシーを学ぶ

Learning Robust Feedback Policies from Demonstrations ( http://arxiv.org/abs/2103.16629v1 )

ライセンス: Link先を確認
Abed AlRahman Al Makdah and Vishaal Krishnan and Fabio Pasqualetti(参考訳) 本研究では,閉ループ性能の証明可能な保証と,有界(逆)摂動に対する堅牢性を示すフィードバック制御ポリシを学習するための新しいフレームワークを提案し,分析する。 これらのポリシーは、タスクやコスト関数、システムダイナミクスに関する事前知識のない専門家によるデモンストレーションから学習される。 擬似学習や逆強化学習における既存のアルゴリズムとは対照的に,リプシッツ制約による損失最小化方式を用いて,信頼性の高いロバスト性を持つ制御ポリシを学習する。 我々は,学習制御ポリシの下で閉ループシステムの堅牢な安定性を確立し,その後悔の上限を導出し,エキスパートポリシに対する閉ループ性能の準最適性の境界を定めている。 また, 状態測定における有界(逆)摂動下での閉ループ性能の劣化に対するロバスト性も導出する。 結論として,公称クローズドループ性能と敵対的ロバスト性との根本的なトレードオフが存在することを示唆し,公称クローズドループ性能の改善は,敵対的摂動に対するロバストネスを犠牲にしてのみ行うことができることを示唆した。 分析結果を検証し,ロバストなフィードバックポリシ学習フレームワークの有効性を実証する。

In this work we propose and analyze a new framework to learn feedback control policies that exhibit provable guarantees on the closed-loop performance and robustness to bounded (adversarial) perturbations. These policies are learned from expert demonstrations without any prior knowledge of the task, its cost function, and system dynamics. In contrast to the existing algorithms in imitation learning and inverse reinforcement learning, we use a Lipschitz-constrained loss minimization scheme to learn control policies with certified robustness. We establish robust stability of the closed-loop system under the learned control policy and derive an upper bound on its regret, which bounds the sub-optimality of the closed-loop performance with respect to the expert policy. We also derive a robustness bound for the deterioration of the closed-loop performance under bounded (adversarial) perturbations on the state measurements. Ultimately, our results suggest the existence of an underlying tradeoff between nominal closed-loop performance and adversarial robustness, and that improvements in nominal closed-loop performance can only be made at the expense of robustness to adversarial perturbations. Numerical results validate our analysis and demonstrate the effectiveness of our robust feedback policy learning framework.
翻訳日:2021-04-01 14:40:05 公開日:2021-03-30
# 生成テキストのモーフォシンタクティブな良質性の評価

Evaluating the Morphosyntactic Well-formedness of Generated Texts ( http://arxiv.org/abs/2103.16590v1 )

ライセンス: Link先を確認
Adithya Pratapa, Antonios Anastasopoulos, Shruti Rijhwani, Aditi Chaudhary, David R. Mortensen, Graham Neubig, Yulia Tsvetkov(参考訳) テキスト生成システムは自然言語処理アプリケーションではユビキタスである。 しかし、これらのシステムの評価は、特に多言語環境では依然として困難である。 本稿では,L'AMBREについて,その係り受け解析と形態素合成規則を用いてテキストの形態素的健全性を評価する指標を提案する。 依存性ツリーバンクから直接morphosyntaxを統治する様々なルールを自動的に抽出する方法を提案する。 テキスト生成システムからのノイズ出力に対処するために,ロバストなパーサを訓練するための簡易な手法を提案する。 形態的に豊かな言語に翻訳するシステムのダイアクロニックスタディを通じて,機械翻訳作業におけるメトリックの有効性を示す。

Text generation systems are ubiquitous in natural language processing applications. However, evaluation of these systems remains a challenge, especially in multilingual settings. In this paper, we propose L'AMBRE -- a metric to evaluate the morphosyntactic well-formedness of text using its dependency parse and morphosyntactic rules of the language. We present a way to automatically extract various rules governing morphosyntax directly from dependency treebanks. To tackle the noisy outputs from text generation systems, we propose a simple methodology to train robust parsers. We show the effectiveness of our metric on the task of machine translation through a diachronic study of systems translating into morphologically-rich languages.
翻訳日:2021-04-01 14:39:34 公開日:2021-03-30
# アフリカ言語における辞書と並列データセットの協調構築--最初の評価

Collaborative construction of lexicographic and parallel datasets for African languages: first assessment ( http://arxiv.org/abs/2103.16712v1 )

ライセンス: Link先を確認
Elvis Mboning Tchiaze(参考訳) 自然言語処理(nlp)、自然言語理解(nlu)、人工知能の研究を行うためのアフリカ言語におけるリソース不足に直面し、ntealan associationの研究チームは、アフリカ言語における辞書データの共同構築のためのオープンソースプラットフォームを構築することの目的を設定した。 本稿では,アフリカNLPツールに有用なレキシコグラフィー資源を2年間共同で構築した最初の報告を紹介する。

Faced with a considerable lack of resources in African languages to carry out work in Natural Language Processing (NLP), Natural Language Understanding (NLU) and artificial intelligence, the research teams of NTeALan association has set itself the objective of building open-source platforms for the collaborative construction of lexicographic data in African languages. In this article, we present our first reports after 2 years of collaborative construction of lexicographic resources useful for African NLP tools.
翻訳日:2021-04-01 14:39:23 公開日:2021-03-30
# AO*, Proof Number Search と Minimax Search について

On AO*, Proof Number Search and Minimax Search ( http://arxiv.org/abs/2103.16692v1 )

ライセンス: Link先を確認
Chao Gao(参考訳) 本稿では,AO*,対戦型ゲーム探索アルゴリズム,例えば証明数探索とミニマックス探索の相互接続について論じる。 前者は一般および/またはグラフモデルの文脈で開発され、後者は主にゲームツリーで示され、時には木を使ってモデル化される。 したがって、これらのアルゴリズムがどの程度関連し、どのように接続されているかを調べる価値がある。 本稿では,これらの探索パラダイム間の相互関係を解明する。 一般化された証明数探索は任意のAND/ORグラフを解くためのAO*のより情報的な代替と見なすことができるし、ミニマックス原理も双対ヒューリスティックスを使うように拡張されるかもしれない。

We discuss the interconnections between AO*, adversarial game-searching algorithms, e.g., proof number search and minimax search. The former was developed in the context of a general AND/OR graph model, while the latter were mostly presented in game-trees which are sometimes modeled using AND/OR trees. It is thus worth investigating to what extent these algorithms are related and how they are connected. In this paper, we explicate the interconnections between these search paradigms. We argue that generalized proof number search might be regarded as a more informed replacement of AO* for solving arbitrary AND/OR graphs, and the minimax principle might also extended to use dual heuristics.
翻訳日:2021-04-01 14:38:37 公開日:2021-03-30
# 意味関係ネットワークを用いた確率論的アナロジマッピング

Probabilistic Analogical Mapping with Semantic Relation Networks ( http://arxiv.org/abs/2103.16704v1 )

ライセンス: Link先を確認
Hongjing Lu, Nicholas Ichien, Keith J. Holyoak(参考訳) ドメイン間の類似を柔軟に推論する人間の能力は、概念と概念のマッピングとアナログ間の関係を識別するメカニズムに依存する。 本稿では,個々の概念の分散表現と概念間の関係から構築した意味関係ネットワークに基づく,アナログマッピングの新しい計算モデルを提案する。 1,329人の被験者による新しいアナロジー実験と4つの古典的な研究で人間のパフォーマンスの比較を行い、このモデルが大人と子供の両方のアナロジーマッピングに関わる幅広い現象の原因であることを示した。 キーとなる洞察は、個々の概念と関係のリッチな意味表現と、同型写像を優先する一般的な先入観とが組み合わさって、人間のような類推的マッピングをもたらすことである。

The human ability to flexibly reason with cross-domain analogies depends on mechanisms for identifying relations between concepts and for mapping concepts and their relations across analogs. We present a new computational model of analogical mapping, based on semantic relation networks constructed from distributed representations of individual concepts and of relations between concepts. Through comparisons with human performance in a new analogy experiment with 1,329 participants, as well as in four classic studies, we demonstrate that the model accounts for a broad range of phenomena involving analogical mapping by both adults and children. The key insight is that rich semantic representations of individual concepts and relations, coupled with a generic prior favoring isomorphic mappings, yield human-like analogical mapping.
翻訳日:2021-04-01 14:38:23 公開日:2021-03-30
# 連続学習のための整流化に基づく知識保持

Rectification-based Knowledge Retention for Continual Learning ( http://arxiv.org/abs/2103.16597v1 )

ライセンス: Link先を確認
Pravendra Singh, Pratik Mazumder, Piyush Rai, Vinay P. Namboodiri(参考訳) ディープラーニングモデルは、漸進的な学習環境で訓練された場合、破滅的な忘れに苦しむ。 そこで本研究では,新しいタスクをインクリメンタルに学習するための新しい手法を提案する。 タスクインクリメンタル学習問題は、テストセットが列車セットの一部ではないクラス、すなわちタスクインクリメンタルに一般化されたゼロショット学習問題を含む場合、さらに困難になる。 我々の手法は、ゼロショットと非ゼロショットタスクインクリメンタルな学習設定の両方で利用できる。 提案手法では, 重み補正とアフィン変換を用いて, モデルが順次現れる異なるタスクに適応する。 具体的には,前回のタスクから学習した重みを「再現」することで,ネットワーク重みを新しいタスクに適応させる。 非常に少ないパラメータでこれらの重み補正を学習する。 さらに,新たなタスクに適応するために,ネットワークが生成する出力に対するアフィン変換も学習する。 ゼロショットタスクと非ゼロショットタスクのインクリメンタル学習設定の両方で、複数のデータセットで実験を行い、我々のアプローチが最先端の結果を達成することを実証的に示す。 具体的には、CIFAR-100データセットにおいて、最先端の非ゼロショットタスクインクリメンタル学習法を5%以上上回ります。 また,AWA1データセットとCUBデータセットの絶対マージンが6.91%,CUBデータセットが6.33%と,最先端タスクの増分型ゼロショット学習法よりも有意に優れていた。 我々は様々なアブレーション研究を用いてアプローチを検証する。

Deep learning models suffer from catastrophic forgetting when trained in an incremental learning setting. In this work, we propose a novel approach to address the task incremental learning problem, which involves training a model on new tasks that arrive in an incremental manner. The task incremental learning problem becomes even more challenging when the test set contains classes that are not part of the train set, i.e., a task incremental generalized zero-shot learning problem. Our approach can be used in both the zero-shot and non zero-shot task incremental learning settings. Our proposed method uses weight rectifications and affine transformations in order to adapt the model to different tasks that arrive sequentially. Specifically, we adapt the network weights to work for new tasks by "rectifying" the weights learned from the previous task. We learn these weight rectifications using very few parameters. We additionally learn affine transformations on the outputs generated by the network in order to better adapt them for the new task. We perform experiments on several datasets in both zero-shot and non zero-shot task incremental learning settings and empirically show that our approach achieves state-of-the-art results. Specifically, our approach outperforms the state-of-the-art non zero-shot task incremental learning method by over 5% on the CIFAR-100 dataset. Our approach also significantly outperforms the state-of-the-art task incremental generalized zero-shot learning method by absolute margins of 6.91% and 6.33% for the AWA1 and CUB datasets, respectively. We validate our approach using various ablation studies.
翻訳日:2021-04-01 14:38:09 公開日:2021-03-30
# 線形符号化顔面意味論の教師なし解離

Unsupervised Disentanglement of Linear-Encoded Facial Semantics ( http://arxiv.org/abs/2103.16605v1 )

ライセンス: Link先を確認
Yutong Zheng, Yu-Kai Huang, Ran Tao, Zhiqiang Shen and Marios Savvides(参考訳) 本稿では,外部監視を伴わずに,線形符号化された顔のセマンティクスをStyleGANから切り離す手法を提案する。 この手法は線形回帰とスパース表現学習の概念から導かれ、非絡み合った潜在表現も容易に解釈できる。 まず,スタイルガンを安定3次元変形可能な顔面再建法と結合し,単一視点のgan世代を複数のセマンティクスに分解する。 潜在表現は、解釈可能な顔意味論をキャプチャするために抽出される。 本研究は,意味ある顔のセマンティクスを解消するためのラベルの除去を可能にする。 また、不整合表現に沿った導出外挿がデータ増大に役立ち、不整合データの扱いに光を当てることを示した。 最後に,学習した局所的な表情表現の分析を行い,その意味情報がエンコードされていることを示す。 全体的な教師なしの設計は、野生での表現学習に柔軟性をもたらす。

We propose a method to disentangle linear-encoded facial semantics from StyleGAN without external supervision. The method derives from linear regression and sparse representation learning concepts to make the disentangled latent representations easily interpreted as well. We start by coupling StyleGAN with a stabilized 3D deformable facial reconstruction method to decompose single-view GAN generations into multiple semantics. Latent representations are then extracted to capture interpretable facial semantics. In this work, we make it possible to get rid of labels for disentangling meaningful facial semantics. Also, we demonstrate that the guided extrapolation along the disentangled representations can help with data augmentation, which sheds light on handling unbalanced data. Finally, we provide an analysis of our learned localized facial representations and illustrate that the semantic information is encoded, which surprisingly complies with human intuition. The overall unsupervised design brings more flexibility to representation learning in the wild.
翻訳日:2021-04-01 14:37:46 公開日:2021-03-30
# DAP:弱スーパービジョンによる検知・認識事前学習

DAP: Detection-Aware Pre-training with Weak Supervision ( http://arxiv.org/abs/2103.16651v1 )

ライセンス: Link先を確認
Yuanyi Zhong, Jianfeng Wang, Lijuan Wang, Jian Peng, Yu-Xiong Wang, Lei Zhang(参考訳) 本稿では,事前学習のための弱いラベル付き分類型データセット(例: imagenet)のみを活用するが,対象検出タスクに特化して調整する,dap( detection-aware pre-training)アプローチを提案する。 位置関連トレーニングタスクを含まない画像分類ベースの事前トレーニング(例えば、ImageNet)とは対照的に、クラスアクティベーションマップに基づく弱い教師付きオブジェクトローカライゼーション手法により、分類データセットを検出データセットに変換して検出器を直接事前トレーニングし、事前トレーニングされたモデルの位置認識と境界ボックスの予測を可能にする。 VOCやCOCOなどの下流検出タスクにおいて,サンプル効率と収束速度の両面で,DAPが従来の事前学習よりも優れていることを示す。 特に,ダウンストリームタスクの例数が少ない場合には,検出精度を大きなマージンで向上させる。

This paper presents a detection-aware pre-training (DAP) approach, which leverages only weakly-labeled classification-style datasets (e.g., ImageNet) for pre-training, but is specifically tailored to benefit object detection tasks. In contrast to the widely used image classification-based pre-training (e.g., on ImageNet), which does not include any location-related training tasks, we transform a classification dataset into a detection dataset through a weakly supervised object localization method based on Class Activation Maps to directly pre-train a detector, making the pre-trained model location-aware and capable of predicting bounding boxes. We show that DAP can outperform the traditional classification pre-training in terms of both sample efficiency and convergence speed in downstream detection tasks including VOC and COCO. In particular, DAP boosts the detection accuracy by a large margin when the number of examples in the downstream task is small.
翻訳日:2021-04-01 14:37:31 公開日:2021-03-30
# カテゴリー非依存型形状補完のデノイズとコントラスト

Denoise and Contrast for Category Agnostic Shape Completion ( http://arxiv.org/abs/2103.16671v1 )

ライセンス: Link先を確認
Antonio Alliegro, Diego Valsesia, Giulia Fracastoro, Enrico Magli, Tatiana Tommasi(参考訳) 本稿では,自己スーパービジョンのパワーを生かして3dポイントのクラウド補完を行い,不足部分と周囲のコンテキスト領域を推定する深層学習モデルを提案する。 ローカルおよびグローバル情報は、複合埋め込みにエンコードされる。 denoising pretextタスクは、ネットワークに必要なローカルなヒントを提供し、高レベルのセマンティクスから分離し、複数のクラスで自然に共有する。 一方、対照的な学習は、異なる欠落部分を持つ同一形状の変種間の一致を最大化することにより、その形状のグローバルな外観を捉えた表現を生成する。 複合埋め込みは、選択されたプリテキストタスクからカテゴリに依存しないプロパティを継承する。 既存のアプローチと異なり、これはトレーニング時に見つからない新しいカテゴリに完了プロパティをより一般化することを可能にする。 さらに, 得られた結合表現を復号化しながら, 既知領域に注意を払い, このフレームを補助目的として再構築することにより, 再構成した欠落部分を部分的な形状にブレンドする。 シェープネットデータセットの広範囲な実験と詳細なアブレーションにより,新たな技術結果が得られた場合,各部分の有効性を示す。 定量的・定性的分析により, 分類や形状対称性の優先順位や, 敵対的訓練手順に頼らずに, 新たなカテゴリーにどのように取り組むことができるかを確認した。

In this paper, we present a deep learning model that exploits the power of self-supervision to perform 3D point cloud completion, estimating the missing part and a context region around it. Local and global information are encoded in a combined embedding. A denoising pretext task provides the network with the needed local cues, decoupled from the high-level semantics and naturally shared over multiple classes. On the other hand, contrastive learning maximizes the agreement between variants of the same shape with different missing portions, thus producing a representation which captures the global appearance of the shape. The combined embedding inherits category-agnostic properties from the chosen pretext tasks. Differently from existing approaches, this allows to better generalize the completion properties to new categories unseen at training time. Moreover, while decoding the obtained joint representation, we better blend the reconstructed missing part with the partial shape by paying attention to its known surrounding region and reconstructing this frame as auxiliary objective. Our extensive experiments and detailed ablation on the ShapeNet dataset show the effectiveness of each part of the method with new state of the art results. Our quantitative and qualitative analysis confirms how our approach is able to work on novel categories without relying neither on classification and shape symmetry priors, nor on adversarial training procedures.
翻訳日:2021-04-01 14:37:13 公開日:2021-03-30
# Few-Shotオブジェクト検出のためのコンテキスト認識アグリゲーションを用いたDense Relation Distillation

Dense Relation Distillation with Context-aware Aggregation for Few-Shot Object Detection ( http://arxiv.org/abs/2103.17115v1 )

ライセンス: Link先を確認
Hanzhe Hu, Shuai Bai, Aoxue Li, Jinshi Cui, Liwei Wang(参考訳) オブジェクト検出のための従来のディープラーニングベースの手法は、トレーニングのための大量の境界ボックスアノテーションを必要とするため、そのような高品質な注釈付きデータを得るのにコストがかかる。 少数の注釈付き例で新しいクラスに適応することを学ぶ、少数ショットオブジェクト検出は、ノベルオブジェクトの細かな特徴をほんの数データだけで簡単に見過ごせるため、非常に難しい。 本研究は,注釈付き新規オブジェクトの特徴をフル活用し,クエリオブジェクトのきめ細かい特徴を捉えることを目的として,DCNet(Context-aware Aggregation)を用いたDense Relation Distillationを提案する。 メタラーニングベースのフレームワーク上に構築されたDense Relation Distillationモジュールは、サポート機能とクエリ機能が密にマッチし、フィードフォワード形式ですべての空間位置をカバーする、完全に活用するサポート機能をターゲットにしている。 ガイダンス情報の豊富な使用は、外観の変化や閉塞といった共通の課題を扱う能力をモデル化する。 さらに、スケール認識機能をよりよくキャプチャするために、コンテキスト認識アグリゲーションモジュールは、より包括的な機能表現のために、さまざまなスケールの機能を適応的に利用します。 実験の結果,提案手法はPASCAL VOCおよびMS COCOデータセットの最先端結果が得られることがわかった。 コードはhttps://github.com/hzhupku/dcnetで入手できる。

Conventional deep learning based methods for object detection require a large amount of bounding box annotations for training, which is expensive to obtain such high quality annotated data. Few-shot object detection, which learns to adapt to novel classes with only a few annotated examples, is very challenging since the fine-grained feature of novel object can be easily overlooked with only a few data available. In this work, aiming to fully exploit features of annotated novel object and capture fine-grained features of query object, we propose Dense Relation Distillation with Context-aware Aggregation (DCNet) to tackle the few-shot detection problem. Built on the meta-learning based framework, Dense Relation Distillation module targets at fully exploiting support features, where support features and query feature are densely matched, covering all spatial locations in a feed-forward fashion. The abundant usage of the guidance information endows model the capability to handle common challenges such as appearance changes and occlusions. Moreover, to better capture scale-aware features, Context-aware Aggregation module adaptively harnesses features from different scales for a more comprehensive feature representation. Extensive experiments illustrate that our proposed approach achieves state-of-the-art results on PASCAL VOC and MS COCO datasets. Code will be made available at https://github.com/hzhupku/DCNet.
翻訳日:2021-04-01 14:30:21 公開日:2021-03-30
# グラフ分類のためのパラメータ化ハイパーコンプレックスグラフニューラルネットワーク

Parameterized Hypercomplex Graph Neural Networks for Graph Classification ( http://arxiv.org/abs/2103.16584v1 )

ライセンス: Link先を確認
Tuan Le, Marco Bertolini, Frank No\'e, Djork-Arn\'e Clevert(参考訳) ハイパーコンプレックス(hc)空間における表現学習の最近の進歩にもかかわらず、この主題はグラフの文脈においていまだに非常に未解明である。 重み付け機構を本質的に組み込んだ効果的な表現学習を実現するために,いくつかの文脈で見出された複素数および四元数代数に動機づけられたグラフニューラルネットワークを開発した。 特に、提案したモデルのクラスでは、代数自身を特定する乗法則は、トレーニング中にデータから推測される。 固定モデルアーキテクチャを前提として,提案モデルに正規化効果が組み込まれ,過度に適合するリスクが軽減されることを示す。 また,固定モデルキャパシティにおいて,提案手法が対応する実形式GNNよりも優れており,HC埋め込みの表現性の向上が確認できることを示す。 最後に、提案した超複素GNNを、いくつかのオープングラフベンチマークデータセットでテストし、我々のモデルが70より少ないパラメータでメモリフットプリントを消費しながら、最先端のパフォーマンスに達することを示す。 私たちの実装はhttps://github.com/bayer-science-for-a-better-life/phc-gnnで利用可能です。

Despite recent advances in representation learning in hypercomplex (HC) space, this subject is still vastly unexplored in the context of graphs. Motivated by the complex and quaternion algebras, which have been found in several contexts to enable effective representation learning that inherently incorporates a weight-sharing mechanism, we develop graph neural networks that leverage the properties of hypercomplex feature transformation. In particular, in our proposed class of models, the multiplication rule specifying the algebra itself is inferred from the data during training. Given a fixed model architecture, we present empirical evidence that our proposed model incorporates a regularization effect, alleviating the risk of overfitting. We also show that for fixed model capacity, our proposed method outperforms its corresponding real-formulated GNN, providing additional confirmation for the enhanced expressivity of HC embeddings. Finally, we test our proposed hypercomplex GNN on several open graph benchmark datasets and show that our models reach state-of-the-art performance while consuming a much lower memory footprint with 70& fewer parameters. Our implementations are available at https://github.com/bayer-science-for-a-better-life/phc-gnn.
翻訳日:2021-04-01 14:27:44 公開日:2021-03-30
# 資源制約付きオンデバイス歩行同定のための二元化ニューラルネットワーク

Binarized Neural Networks for Resource-Constrained On-Device Gait Identification ( http://arxiv.org/abs/2103.16609v1 )

ライセンス: Link先を確認
Daniel J. Wu, Avoy Datta and Vinay Prabhu(参考訳) 歩行分析によるユーザ認証は、差別的ニューラルネットワークの有望な応用である。特に、歩行加速度計の主要な情報源であるポケット内携帯電話の普及によりである。 しかし、従来の機械学習モデルは、多くの場合、大きすぎて計算コストが高く、低リソースのモバイルデバイスで推論を可能にする。 本稿では、二項化ニューラルネットワークが堅牢な判別器として機能し、許容レベルの精度を維持しつつ、メモリ要求を劇的に低減し、オンデバイス推論を可能にすることを提案する。 この目的のために我々は,Padova Gaitデータセットの最先端とほぼ一致し,メモリオーバーヘッドの1/32しか持たない,コンパクトなCNNであるBiPedalNetを提案する。

User authentication through gait analysis is a promising application of discriminative neural networks -- particularly due to the ubiquity of the primary sources of gait accelerometry, in-pocket cellphones. However, conventional machine learning models are often too large and computationally expensive to enable inference on low-resource mobile devices. We propose that binarized neural networks can act as robust discriminators, maintaining both an acceptable level of accuracy while also dramatically decreasing memory requirements, thereby enabling on-device inference. To this end, we propose BiPedalNet, a compact CNN that nearly matches the state-of-the-art on the Padova gait dataset, with only 1/32 of the memory overhead.
翻訳日:2021-04-01 14:27:24 公開日:2021-03-30
# 低資源音声対インテントアプリケーションのための事前学習

Pre-training for low resource speech-to-intent applications ( http://arxiv.org/abs/2103.16674v1 )

ライセンス: Link先を確認
Pu Wang, Hugo Van hamme(参考訳) 音声コマンドをエージェントの所望のタスク行動にマッピングする音声入力エージェント(S2I)の設計は,異なるユーザの文法的・語彙的嗜好の多様さから困難である。 本稿では,ユーザが学習したS2Iシステムについて論じる。 ユーザ学習システムは、ユーザの音声入力から、アクションデモでスクラッチから学習し、ユーザの意図の定式化方法とその調音習慣と完全に一致することを保証する。 主な問題は、ユーザの努力によるトレーニングデータの不足である。 この設定における既存の最先端のアプローチは、非負行列分解(NMF)とカプセルネットワークに基づいている。 本稿では, エンド・ツー・エンドのASRシステムのエンコーダと, 従来のNMF/カプセル・ネットワークベースのユーザ・トレーディング・デコーダを組み合わせ, 事前学習手法がNMFとカプセル・ネットワークのトレーニングデータ要求を低減できるかどうかを検討する。 実験の結果,プレトレーニングされたASR-NMFフレームワークは他のモデルよりも優れており,各種のコマンド・アンド・コントロール(C&C)アプリケーションによる事前トレーニングの制限についても検討した。

Designing a speech-to-intent (S2I) agent which maps the users' spoken commands to the agents' desired task actions can be challenging due to the diverse grammatical and lexical preference of different users. As a remedy, we discuss a user-taught S2I system in this paper. The user-taught system learns from scratch from the users' spoken input with action demonstration, which ensure it is fully matched to the users' way of formulating intents and their articulation habits. The main issue is the scarce training data due to the user effort involved. Existing state-of-art approaches in this setting are based on non-negative matrix factorization (NMF) and capsule networks. In this paper we combine the encoder of an end-to-end ASR system with the prior NMF/capsule network-based user-taught decoder, and investigate whether pre-training methodology can reduce training data requirements for the NMF and capsule network. Experimental results show the pre-trained ASR-NMF framework significantly outperforms other models, and also, we discuss limitations of pre-training with different types of command-and-control(C&C) applications.
翻訳日:2021-04-01 14:25:36 公開日:2021-03-30
# mask-tof: 飛行中の画素補正のためのマイクロレンズマスクの学習

Mask-ToF: Learning Microlens Masks for Flying Pixel Correction in Time-of-Flight Imaging ( http://arxiv.org/abs/2103.16693v1 )

ライセンス: Link先を確認
Ilya Chugunov, Seung-Hwan Baek, Qiang Fu, Wolfgang Heidrich, Felix Heide(参考訳) 本研究では,飛行時間(ToF)深度キャプチャにおけるフライングピクセル(FP)の削減手法であるMask-ToFを紹介する。 FPは、被写体と背景の両方からの光の経路が開口部上で統合される、奥行きの辺りで発生する広汎な人工物である。 この光はセンサーピクセルで混合され、誤った深度推定が生成され、下流の3D視覚タスクに悪影響を及ぼす可能性がある。 Mask-ToFはこれらのFPのソースから始まり、マイクロレンズレベルのオクルージョンマスクを学習し、各センサーのピクセルごとにカスタム形状のサブアパーチャを効果的に生成する。 これにより、画素単位のフォアグラウンドと背景光混合物の選択を変調し、シーン幾何情報をtof測定に直接エンコードする。 我々は,畳み込みニューラルネットワークを共同で訓練し,この情報を復号化し,高忠実度かつ低fp深度の再構成を行う,微分可能なtofシミュレータを開発した。 模擬光電界データセット上でマスクtofの有効性を検証し,実験実験による検証を行った。 そこで本研究では,学習振幅マスクを試作し,高分解能tofセンサに仮想配置する光中継システムを設計する。 Mask-ToFは、再トレーニングせずに実データに対してうまく一般化し、FP数を半減する。

We introduce Mask-ToF, a method to reduce flying pixels (FP) in time-of-flight (ToF) depth captures. FPs are pervasive artifacts which occur around depth edges, where light paths from both an object and its background are integrated over the aperture. This light mixes at a sensor pixel to produce erroneous depth estimates, which can adversely affect downstream 3D vision tasks. Mask-ToF starts at the source of these FPs, learning a microlens-level occlusion mask which effectively creates a custom-shaped sub-aperture for each sensor pixel. This modulates the selection of foreground and background light mixtures on a per-pixel basis and thereby encodes scene geometric information directly into the ToF measurements. We develop a differentiable ToF simulator to jointly train a convolutional neural network to decode this information and produce high-fidelity, low-FP depth reconstructions. We test the effectiveness of Mask-ToF on a simulated light field dataset and validate the method with an experimental prototype. To this end, we manufacture the learned amplitude mask and design an optical relay system to virtually place it on a high-resolution ToF sensor. We find that Mask-ToF generalizes well to real data without retraining, cutting FP counts in half.
翻訳日:2021-04-01 14:23:57 公開日:2021-03-30
# 多相回折スペクトルの解釈を自動化する確率論的深層学習手法

A probabilistic deep learning approach to automate the interpretation of multi-phase diffraction spectra ( http://arxiv.org/abs/2103.16664v1 )

ライセンス: Link先を確認
Nathan J. Szymanski, Christopher J. Bartel, Yan Zeng, Qingsong Tu, Gerbrand Ceder(参考訳) 無機材料の自動合成とキャラクタリゼーションには、X線回折スペクトルの自動的かつ正確な分析が必要である。 本研究では,複雑な多相混合を同定する確率的ディープラーニングアルゴリズムを設計した。 このアルゴリズムの核心には、シミュレーション回折スペクトルに基づいて訓練されたアンサンブル畳み込みニューラルネットワークがあり、これは実験的なサンプル作成と合成の間に生じる人工物を説明するために、物理インフォームの摂動で体系的に拡張されている。 オフストイキメトリーに関連する大きな摂動も、仮説的な固体溶液でトレーニングセットを補足することで捉えられる。 素材の混合物を含むスペクトルを、ニューラルネットワークの確率的性質を利用した新しい分岐アルゴリズムを用いて分析し、疑わしい混合物を探索し、予測の信頼性を最大化する位相のセットを同定する。 本モデルはシミュレーションおよび実験的に測定された回折スペクトルに基づいてベンチマークを行い,プロファイルマッチングと深層学習に基づく従来報告した手法よりも精度が高かった。 ここで示したアルゴリズムは、無機材料の高スループットかつ自律的な発見を容易にするために、実験ワークフローに統合される可能性がある。

Autonomous synthesis and characterization of inorganic materials requires the automatic and accurate analysis of X-ray diffraction spectra. For this task, we designed a probabilistic deep learning algorithm to identify complex multi-phase mixtures. At the core of this algorithm lies an ensemble convolutional neural network trained on simulated diffraction spectra, which are systematically augmented with physics-informed perturbations to account for artifacts that can arise during experimental sample preparation and synthesis. Larger perturbations associated with off-stoichiometry are also captured by supplementing the training set with hypothetical solid solutions. Spectra containing mixtures of materials are analyzed with a newly developed branching algorithm that utilizes the probabilistic nature of the neural network to explore suspected mixtures and identify the set of phases that maximize confidence in the prediction. Our model is benchmarked on simulated and experimentally measured diffraction spectra, showing exceptional performance with accuracies exceeding those given by previously reported methods based on profile matching and deep learning. We envision that the algorithm presented here may be integrated in experimental workflows to facilitate the high-throughput and autonomous discovery of inorganic materials.
翻訳日:2021-04-01 14:19:58 公開日:2021-03-30
# 制御変数を用いた多元因果推論

Multi-Source Causal Inference Using Control Variates ( http://arxiv.org/abs/2103.16689v1 )

ライセンス: Link先を確認
Wenshuo Guo, Serena Wang, Peng Ding, Yixin Wang, Michael I. Jordan(参考訳) 機械学習の多くの領域は、大規模で多様なデータセットの可用性の増大から恩恵を受けているが、因果効果の識別性を保証するための強い仮定を考えると、因果推論の利点は限られている。 例えば、多くの大きな観察データセット(例えば、疫学におけるケースコントロール研究、レコメンデーションシステムにおけるクリックスルーデータ)は、結果に対する選択バイアスに悩まされており、平均的な治療効果(ate)は特定できない。 本研究では,データソースから因果効果を推定する一般的なアルゴリズムを提案する。 主要なアイデアは、ATEが識別できないデータセットを使用して、制御変数を構築することである。 理論的には、これはATE推定の分散を減少させる。 このフレームワークを,結果選択バイアス下の観測データからの推論に適用し,ateの一貫した推定が得られる補助的な小さなデータセットへのアクセスを仮定する。 2つのデータセットからオッズ比の推定値の差を計算して制御変数を構築する。 実データを用いたシミュレーションと2つのケーススタディにより、この制御変数はATE推定のばらつきを著しく低減できることを示した。

While many areas of machine learning have benefited from the increasing availability of large and varied datasets, the benefit to causal inference has been limited given the strong assumptions needed to ensure identifiability of causal effects; these are often not satisfied in real-world datasets. For example, many large observational datasets (e.g., case-control studies in epidemiology, click-through data in recommender systems) suffer from selection bias on the outcome, which makes the average treatment effect (ATE) unidentifiable. We propose a general algorithm to estimate causal effects from \emph{multiple} data sources, where the ATE may be identifiable only in some datasets but not others. The key idea is to construct control variates using the datasets in which the ATE is not identifiable. We show theoretically that this reduces the variance of the ATE estimate. We apply this framework to inference from observational data under an outcome selection bias, assuming access to an auxiliary small dataset from which we can obtain a consistent estimate of the ATE. We construct a control variate by taking the difference of the odds ratio estimates from the two datasets. Across simulations and two case studies with real data, we show that this control variate can significantly reduce the variance of the ATE estimate.
翻訳日:2021-04-01 14:19:39 公開日:2021-03-30
# (参考訳) 明示的な負サンプリングを伴わない自己教師付きグラフニューラルネットワーク

Self-supervised Graph Neural Networks without explicit negative sampling ( http://arxiv.org/abs/2103.14958v2 )

ライセンス: CC BY 4.0
Zekarias T. Kefato and Sarunas Girdzijauskas(参考訳) 実世界のデータはラベル付けされていないか、わずかしかラベル付けされていない。 手動でデータをラベリングするのは、非常に高価で厄介な作業です。 これにより、半教師付き/教師付き技術と同等の結果が得られるほど強力な教師なし学習技術が要求される。 対照的な自己指導型学習は強力な方向として現れており、場合によっては指導型技術よりも優れている。 本研究では,明示的なコントラスト項に依存しない,新しいコントラスト型自己教師付きグラフニューラルネットワーク (gnn) であるselfgnnを提案する。 性能を犠牲にすることなく、暗黙の対照的な項を導入するバッチ正規化を利用する。 さらに,データ拡張がコントラスト学習の鍵となるため,グラフに4つの機能拡張(fa)技術を導入する。 グラフトポロジカル・アジュメンテーション(TA)は一般的に用いられているが, 実験の結果, FAはTAと同程度の性能を示した。 さらに、FA は TA とは異なり計算オーバーヘッドを伴わず、O(N^3) の時間複雑性、N 個のノードを持つことが多い。 公開されている7つの実世界のデータに対する実証的な評価は、SelfGNNは強力で、SOTAが監督するGNNに匹敵する性能を示し、常にSOTAが監督するGNNよりも優れていることを示している。 ソースコードはhttps://github.com/zekarias-tilahun/SelfGNNで公開されている。

Real world data is mostly unlabeled or only few instances are labeled. Manually labeling data is a very expensive and daunting task. This calls for unsupervised learning techniques that are powerful enough to achieve comparable results as semi-supervised/supervised techniques. Contrastive self-supervised learning has emerged as a powerful direction, in some cases outperforming supervised techniques. In this study, we propose, SelfGNN, a novel contrastive self-supervised graph neural network (GNN) without relying on explicit contrastive terms. We leverage Batch Normalization, which introduces implicit contrastive terms, without sacrificing performance. Furthermore, as data augmentation is key in contrastive learning, we introduce four feature augmentation (FA) techniques for graphs. Though graph topological augmentation (TA) is commonly used, our empirical findings show that FA perform as good as TA. Moreover, FA incurs no computational overhead, unlike TA, which often has O(N^3) time complexity, N-number of nodes. Our empirical evaluation on seven publicly available real-world data shows that, SelfGNN is powerful and leads to a performance comparable with SOTA supervised GNNs and always better than SOTA semi-supervised and unsupervised GNNs. The source code is available at https://github.com/zekarias-tilahun/SelfGNN.
翻訳日:2021-04-01 13:51:07 公開日:2021-03-30
# (参考訳) 内視鏡手術におけるYOLACT++による医療機器のリアルタイムおよび堅牢なインスタンスセグメンテーションの評価

Assessing YOLACT++ for real time and robust instance segmentation of medical instruments in endoscopic procedures ( http://arxiv.org/abs/2103.15997v1 )

ライセンス: CC BY 4.0
Juan Carlos Angeles Ceron, Leonardo Chang, Gilberto Ochoa-Ruiz and Sharib Ali(参考訳) 腹腔鏡下手術器具の画像追跡は, 手術支援と患者安全性の向上により, 外科手術やロボット支援手術において重要な役割を担っている。 robust medical instrument segmentation (robust-mis) challengeのようなコンピュータビジョンコンテストは、このような目的のために堅牢なモデルの開発を奨励し、大規模で多様で注釈付きのデータセットを提供する。 これまでの医療機器のセグメント化のような既存のモデルのほとんどは、2段階の検出器に基づいており、堅牢な結果を提供するが、ほとんどの場合5フレーム/秒(fps)のリアルタイムに近い。 しかし, 本手法を臨床応用するためには, 精度の高いリアルタイム能力が必要である。 本稿では,ROBUST-MISデータセットの精度を向上した楽器のリアルタイムインスタンス分割を可能にするYOLACTアーキテクチャへのアテンション機構の追加を提案する。 提案手法は,2019 ROBUST-MIS チャレンジの勝者に対して,実時間性能 (37 fps) を達成しながら, 0.313 MI_DSC と 0.338 MI_NSD を得た。

Image-based tracking of laparoscopic instruments plays a fundamental role in computer and robotic-assisted surgeries by aiding surgeons and increasing patient safety. Computer vision contests, such as the Robust Medical Instrument Segmentation (ROBUST-MIS) Challenge, seek to encourage the development of robust models for such purposes, providing large, diverse, and annotated datasets. To date, most of the existing models for instance segmentation of medical instruments were based on two-stage detectors, which provide robust results but are nowhere near to the real-time (5 frames-per-second (fps)at most). However, in order for the method to be clinically applicable, real-time capability is utmost required along with high accuracy. In this paper, we propose the addition of attention mechanisms to the YOLACT architecture that allows real-time instance segmentation of instrument with improved accuracy on the ROBUST-MIS dataset. Our proposed approach achieves competitive performance compared to the winner ofthe 2019 ROBUST-MIS challenge in terms of robustness scores,obtaining 0.313 MI_DSC and 0.338 MI_NSD, while achieving real-time performance (37 fps)
翻訳日:2021-04-01 04:50:25 公開日:2021-03-30
# (参考訳) Production Machine Learning Pipelines:実証分析と最適化の機会

Production Machine Learning Pipelines: Empirical Analysis and Optimization Opportunities ( http://arxiv.org/abs/2103.16007v1 )

ライセンス: CC BY 4.0
Doris Xin, Hui Miao, Aditya Parameswaran, Neoklis Polyzotis(参考訳) 機械学習(ML)は現在、さまざまな組織でデータ駆動アプリケーションを動かしている。 研究におけるMLの従来の認識とは異なり、ML生産パイプラインは複雑で、多くのインターロック分析コンポーネントがトレーニングを超えており、そのサブ部分は重複するデータのサブセットで複数回実行されることが多い。 しかしながら、これらのパイプラインの寿命、アーキテクチャ、頻度、複雑さに関する定量的な証拠が欠如しており、データ管理研究がより効率的、効果的、堅牢、再現性を高めるためにどのように使われるかを理解することができる。 そのために、本番MLの基盤となる複雑さと課題を理解するために、4ヶ月以上にわたってトレーニングされた45万以上のモデルからなる、Googleの3000のプロダクションMLパイプラインの成果グラフを分析した。 分析の結果,様々な粒度の産業用MLパイプラインの特徴,構成要素,およびトポロジーが明らかになった。 その過程で、これらのMLパイプラインで繰り返し実行されるコンポーネントを表現および推論するための特殊なデータモデルを導入し、それをモデルグラフレットと呼ぶ。 従来のデータ管理のアイデアを活用して、最適化のための豊富な機会を特定します。 モデル配置のケイデンスを妥協することなく, モデル配置に変換されない無駄な計算を識別し, 刈り取ることにより, 無駄な計算コストを50%削減できることを示す。

Machine learning (ML) is now commonplace, powering data-driven applications in various organizations. Unlike the traditional perception of ML in research, ML production pipelines are complex, with many interlocking analytical components beyond training, whose sub-parts are often run multiple times on overlapping subsets of data. However, there is a lack of quantitative evidence regarding the lifespan, architecture, frequency, and complexity of these pipelines to understand how data management research can be used to make them more efficient, effective, robust, and reproducible. To that end, we analyze the provenance graphs of 3000 production ML pipelines at Google, comprising over 450,000 models trained, spanning a period of over four months, in an effort to understand the complexity and challenges underlying production ML. Our analysis reveals the characteristics, components, and topologies of typical industry-strength ML pipelines at various granularities. Along the way, we introduce a specialized data model for representing and reasoning about repeatedly run components in these ML pipelines, which we call model graphlets. We identify several rich opportunities for optimization, leveraging traditional data management ideas. We show how targeting even one of these opportunities, i.e., identifying and pruning wasted computation that does not translate to model deployment, can reduce wasted computation cost by 50% without compromising the model deployment cadence.
翻訳日:2021-04-01 04:44:16 公開日:2021-03-30
# (参考訳) データサブサンプリングによる測光赤方偏移のスケーラブルな統計的推定

Scalable Statistical Inference of Photometric Redshift via Data Subsampling ( http://arxiv.org/abs/2103.16041v1 )

ライセンス: CC BY 4.0
Arindam Fadikar and Stefan M. Wild(参考訳) ビッグデータを扱うことは、従来の統計モデルにおいて大きなボトルネックとなっている。 したがって、正確な点予測が主なターゲットである場合、機械学習モデルはより大きな問題に対して統計モデルよりも好まれる。 しかし、完全な確率的統計モデルは、モデル予測に関連する不確かさを定量化するために、しばしば他のモデルを上回る。 我々は,入力空間における不均衡を考慮に入れたデータの部分集合から学習した統計モデルのアンサンブルからの不確実性を組み合わせた,データ駆動型統計モデリングフレームワークを開発する。 天体が観測する多変量色情報から赤方偏移の分布 -- 遠方銀河の観測におけるストレッチ効果 -- を推算することを目的とした宇宙論における測光的赤方偏移推定問題に関する本手法を実証する。 提案手法は,バランスの取れたパーティショニング,グラフベースのデータサブサンプリング,およびガウス過程モデルのアンサンブルのトレーニングを行う。

Handling big data has largely been a major bottleneck in traditional statistical models. Consequently, when accurate point prediction is the primary target, machine learning models are often preferred over their statistical counterparts for bigger problems. But full probabilistic statistical models often outperform other models in quantifying uncertainties associated with model predictions. We develop a data-driven statistical modeling framework that combines the uncertainties from an ensemble of statistical models learned on smaller subsets of data carefully chosen to account for imbalances in the input space. We demonstrate this method on a photometric redshift estimation problem in cosmology, which seeks to infer a distribution of the redshift -- the stretching effect in observing far-away galaxies -- given multivariate color information observed for an object in the sky. Our proposed method performs balanced partitioning, graph-based data subsampling across the partitions, and training of an ensemble of Gaussian process models.
翻訳日:2021-04-01 04:14:58 公開日:2021-03-30
# (参考訳) ランク付け型インスタンス選択による耐雑音深度学習

Noise-resistant Deep Metric Learning with Ranking-based Instance Selection ( http://arxiv.org/abs/2103.16047v1 )

ライセンス: CC BY 4.0
Chang Liu and Han Yu and Boyang Li and Zhiqi Shen and Zhanning Gao and Peiran Ren and Xuansong Xie and Lizhen Cui and Chunyan Miao(参考訳) 実世界のデータにノイズラベルが存在することは、ディープラーニングモデルの性能に悪影響を及ぼす。 分類タスクにおけるノイズラベルの堅牢性向上に多くの研究努力が注がれているが、ディープメトリックラーニング(DML)におけるノイズラベルの問題はまだ未解決である。 本稿では,確率的ランク付けに基づくメモリを用いたインスタンス選択(PRISM)と呼ばれるDMLの耐雑音性トレーニング手法を提案する。 PRISMは、ニューラルネットワークの以前のバージョンで抽出された画像特徴との平均的類似性を使用して、ミニバッチ内のノイズデータを識別する。 これらの機能はメモリバンクに格納され、取得される。 メモリバンクが生み出す高い計算コストを緩和するために,個々のデータポイントをクラスセンタに置き換える高速化手法を提案する。 PRISMは、合成ラベルノイズと実世界のラベルノイズの両方で既存の12のアプローチと比較して、Precision@1で最大6.06%の優れた性能を示す。

The existence of noisy labels in real-world data negatively impacts the performance of deep learning models. Although much research effort has been devoted to improving robustness to noisy labels in classification tasks, the problem of noisy labels in deep metric learning (DML) remains open. In this paper, we propose a noise-resistant training technique for DML, which we name Probabilistic Ranking-based Instance Selection with Memory (PRISM). PRISM identifies noisy data in a minibatch using average similarity against image features extracted by several previous versions of the neural network. These features are stored in and retrieved from a memory bank. To alleviate the high computational cost brought by the memory bank, we introduce an acceleration method that replaces individual data points with the class centers. In extensive comparisons with 12 existing approaches under both synthetic and real-world label noise, PRISM demonstrates superior performance of up to 6.06% in Precision@1.
翻訳日:2021-04-01 03:15:54 公開日:2021-03-30
# (参考訳) 3D-MAN:オブジェクト検出のための3次元多フレームアテンションネットワーク

3D-MAN: 3D Multi-frame Attention Network for Object Detection ( http://arxiv.org/abs/2103.16054v1 )

ライセンス: CC BY 4.0
Zetong Yang, Yin Zhou, Zhifeng Chen, Jiquan Ngiam(参考訳) 3dオブジェクト検出は、自動運転とロボティクスにおいて重要なモジュールである。 しかし、既存の手法の多くは、単一のフレームを使用して3d検出することに集中しており、複数のフレームからの情報を十分に活用していない。 本稿では,複数の視点から機能を効果的に集約し,Waymo Open Dataset上での最先端のパフォーマンスを実現する3D-MANを提案する。 3D-MANは最初、箱の提案を作るために新しい高速単フレーム検出器を使用した。 ボックスの提案とその機能マップは、メモリバンクに格納される。 メモリバンクに格納された時間的特徴を抽出・集約するために,アテンションネットワークを用いた多視点アライメントおよびアグリゲーションモジュールを設計する。 これはシーンの異なる視点から来る機能を効果的に組み合わせます。 大規模な複雑なWaymo Open Datasetに対する我々のアプローチの有効性を実証し、公開シングルフレームおよびマルチフレーム手法と比較して最先端の結果を得る。

3D object detection is an important module in autonomous driving and robotics. However, many existing methods focus on using single frames to perform 3D detection, and do not fully utilize information from multiple frames. In this paper, we present 3D-MAN: a 3D multi-frame attention network that effectively aggregates features from multiple perspectives and achieves state-of-the-art performance on Waymo Open Dataset. 3D-MAN first uses a novel fast single-frame detector to produce box proposals. The box proposals and their corresponding feature maps are then stored in a memory bank. We design a multi-view alignment and aggregation module, using attention networks, to extract and aggregate the temporal features stored in the memory bank. This effectively combines the features coming from different perspectives of the scene. We demonstrate the effectiveness of our approach on the large-scale complex Waymo Open Dataset, achieving state-of-the-art results compared to published single-frame and multi-frame methods.
翻訳日:2021-04-01 03:13:24 公開日:2021-03-30
# (参考訳) 分類器の集合を用いた非構造化ITサービスデスクチケットの分類

Classifying the Unstructured IT Service Desk Tickets Using Ensemble of Classifiers ( http://arxiv.org/abs/2103.15822v1 )

ライセンス: CC BY 4.0
Ramya C, Paramesh S.P, Dr. Shreedhara K S(参考訳) ITサービスデスクのチケットを手動で分類することで、チケットを間違った解決グループにルーティングすることができる。 ITサービスデスクチケットの不正な割り当ては、チケットの再割り当て、不要なリソース利用、解決時間の遅延につながる。 従来の機械学習アルゴリズムは、itサービスデスクチケットの自動分類に使用できる。 サービスデスク切符分類モデルは、歴史的非構造化切符記述と対応するラベルをマイニングすることで訓練することができる。 このモデルを使用して、チケット記述に基づいて新しいサービスデスクチケットを分類することができる。 従来の分類器システムの性能は、様々な分類技法を用いてさらに向上することができる。 本稿では,チケット分類システムの精度を高めるために,異なるモデルからの予測を組み合わせるために,最も一般的な3つのアンサンブル手法であるバッギング,ブースティング,投票アンサンブルを提案する。 各種性能指標を用いて、アンサンブル分類器システムの性能を個々のベース分類器に対してチェックする。 分類器のアンサンブルは対応する基底分類器と比較すると良好であった。 このような自動チケット分類システムを構築する利点は、ユーザインターフェースの簡素化、解決時間の短縮、生産性の向上、顧客満足度の向上、ビジネスの成長である。 大企業ITインフラからの実世界のサービスデスクチケットデータは、我々の研究目的に利用されています。

Manual classification of IT service desk tickets may result in routing of the tickets to the wrong resolution group. Incorrect assignment of IT service desk tickets leads to reassignment of tickets, unnecessary resource utilization and delays the resolution time. Traditional machine learning algorithms can be used to automatically classify the IT service desk tickets. Service desk ticket classifier models can be trained by mining the historical unstructured ticket description and the corresponding label. The model can then be used to classify the new service desk ticket based on the ticket description. The performance of the traditional classifier systems can be further improved by using various ensemble of classification techniques. This paper brings out the three most popular ensemble methods ie, Bagging, Boosting and Voting ensemble for combining the predictions from different models to further improve the accuracy of the ticket classifier system. The performance of the ensemble classifier system is checked against the individual base classifiers using various performance metrics. Ensemble of classifiers performed well in comparison with the corresponding base classifiers. The advantages of building such an automated ticket classifier systems are simplified user interface, faster resolution time, improved productivity, customer satisfaction and growth in business. The real world service desk ticket data from a large enterprise IT infrastructure is used for our research purpose.
翻訳日:2021-04-01 03:00:11 公開日:2021-03-30
# (参考訳) 野生の鑑識と対面する

Face Forensics in the Wild ( http://arxiv.org/abs/2103.16076v1 )

ライセンス: CC BY 4.0
Tianfei Zhou, Wenguan Wang, Zhiyuan Liang, Jianbing Shen(参考訳) 既存の公開ベンチマークでは、顔偽造検出技術は大きな成功を収めている。 しかし、少数のサブセットしか操作されていないシーンで多くの人が活躍するマルチパーソンビデオで使用される場合、そのパフォーマンスは満足できないままである。 ffiw-10kという,1万の高品質の偽造ビデオからなり,各フレームに平均3人の顔を持つ,新しい大規模データセットを構築した。 操作手順は完全に自動化され、ドメイン敵の品質評価ネットワークによって制御されます。 さらに,多人数顔偽造検出の課題に取り組むための新しいアルゴリズムを提案する。 ビデオレベルのラベルのみによって監督され、アルゴリズムは複数のインスタンス学習を探索し、改ざんされた顔に自動的に出席するように学習する。 提案アルゴリズムは,FFIW-10K上での偽分類とローカライゼーションの両方の代表的な手法よりも優れ,既存のベンチマークで高い一般化能力を示す。 私たちのデータセットと研究が、コミュニティがこの新しい分野をより深く探求するのに役立つことを願っています。

On existing public benchmarks, face forgery detection techniques have achieved great success. However, when used in multi-person videos, which often contain many people active in the scene with only a small subset having been manipulated, their performance remains far from being satisfactory. To take face forgery detection to a new level, we construct a novel large-scale dataset, called FFIW-10K, which comprises 10,000 high-quality forgery videos, with an average of three human faces in each frame. The manipulation procedure is fully automatic, controlled by a domain-adversarial quality assessment network, making our dataset highly scalable with low human cost. In addition, we propose a novel algorithm to tackle the task of multi-person face forgery detection. Supervised by only video-level label, the algorithm explores multiple instance learning and learns to automatically attend to tampered faces. Our algorithm outperforms representative approaches for both forgery classification and localization on FFIW-10K, and also shows high generalization ability on existing benchmarks. We hope that our dataset and study will help the community to explore this new field in more depth.
翻訳日:2021-04-01 02:51:05 公開日:2021-03-30
# (参考訳) DeepWORD: 自律運転におけるオーナー・メンバー関係検出のためのGCNに基づくアプローチ

DeepWORD: A GCN-based Approach for Owner-Member Relationship Detection in Autonomous Driving ( http://arxiv.org/abs/2103.16099v1 )

ライセンス: CC BY 4.0
Zizhang Wu, Man Wang, Jason Wang, Wenkai Zhang, Muqing Fang, Tianhao Xu(参考訳) 車輪と車両の所有者とメンバーの関係は、特に組込み環境での車両の3D認識に大きく貢献している点に注意が必要だ。 しかし,上記の関係予測には2つの課題がある。i)iouに基づく従来のヒューリスティックな手法では,オクルージョンにおける交通渋滞のシナリオにほとんど対処できない。 二 車両搭載システムの効率的な適用ソリューションを確立することは困難である。 そこで本研究では,グラフ畳み込みネットワーク(gcn)を設計することにより,新しい関係予測手法であるdeepwordを提案する。 具体的には,局所相関を持つ特徴マップをノードの入力として活用し,情報豊かさを向上させる。 さらに,事前推定偏差を動的に補正するグラフアテンションネットワーク(GAT)を導入する。 さらに,大規模なベンチマークとして,WORDと呼ばれる注釈付きオーナシップデータセットを構築した。 実験により,本手法が最先端の精度と実時間を実現することを示す。

It's worth noting that the owner-member relationship between wheels and vehicles has an significant contribution to the 3D perception of vehicles, especially in the embedded environment. However, there are currently two main challenges about the above relationship prediction: i) The traditional heuristic methods based on IoU can hardly deal with the traffic jam scenarios for the occlusion. ii) It is difficult to establish an efficient applicable solution for the vehicle-mounted system. To address these issues, we propose an innovative relationship prediction method, namely DeepWORD, by designing a graph convolution network (GCN). Specifically, we utilize the feature maps with local correlation as the input of nodes to improve the information richness. Besides, we introduce the graph attention network (GAT) to dynamically amend the prior estimation deviation. Furthermore, we establish an annotated owner-member relationship dataset called WORD as a large-scale benchmark, which will be available soon. The experiments demonstrate that our solution achieves state-of-the-art accuracy and real-time in practice.
翻訳日:2021-04-01 02:32:31 公開日:2021-03-30
# (参考訳) XRJL-HKUST at SemEval-2021 Task 4: WordNet-Enhanced Dual Multi-head Co-Attention for Reading Comprehension of Abstract Meaning

XRJL-HKUST at SemEval-2021 Task 4: WordNet-Enhanced Dual Multi-head Co-Attention for Reading Comprehension of Abstract Meaning ( http://arxiv.org/abs/2103.16102v1 )

ライセンス: CC BY 4.0
Yuxin Jiang, Ziyi Shou, Qijun Wang, Hao Wu and Fangzhen Lin(参考訳) 本稿では,SemEval 2021 Task 4: Reading Comprehension of Abstract Meaningについて述べる。 本システムでは,エンコーダとして大規模な事前学習型言語モデルと,現行の最先端モデルDUMAに倣って,パスと質問応答ペアの関係を強化するための二重多頭部協調層を用いる。 主な違いは、再考プロセスをシミュレートするために並列に計算する代わりに、パスクエストと質問パスアテンションモジュールを積み重ねることである。 モデルの性能を改善するために、レイヤの正規化モジュールも追加します。 さらに、抽象概念に関する既知の知識を取り入れるために、wordnetから候補回答の定義を取得し、追加の入力としてモデルに与えます。 本システムは,WordNet-enhanced DUal Multi-head Co-Attention (WN-DUMA) と呼ばれ,それぞれ86.67%,89.99%の精度を達成している。

This paper presents our submitted system to SemEval 2021 Task 4: Reading Comprehension of Abstract Meaning. Our system uses a large pre-trained language model as the encoder and an additional dual multi-head co-attention layer to strengthen the relationship between passages and question-answer pairs, following the current state-of-the-art model DUMA. The main difference is that we stack the passage-question and question-passage attention modules instead of calculating parallelly to simulate re-considering process. We also add a layer normalization module to improve the performance of our model. Furthermore, to incorporate our known knowledge about abstract concepts, we retrieve the definitions of candidate answers from WordNet and feed them to the model as extra inputs. Our system, called WordNet-enhanced DUal Multi-head Co-Attention (WN-DUMA), achieves 86.67% and 89.99% accuracy on the official blind test set of subtask 1 and subtask 2 respectively.
翻訳日:2021-04-01 02:23:14 公開日:2021-03-30
# (参考訳) 局所協調型オートエンコーダ

Local Collaborative Autoencoders ( http://arxiv.org/abs/2103.16103v1 )

ライセンス: CC BY 4.0
Minjin Choi, Yoonki Jeong, Joonseok Lee, and Jongwuk Lee(参考訳) 複雑なユーザとイテムのインタラクションは、高品質なレコメンデーション結果を得るために適切に対処する必要があるため、トップNレコメンデーションは難しい問題である。 ローカル潜在因子アプローチは、複数のローカルモデルで、異なるサブコミュニティで多様なユーザー好みをキャプチャするためにうまく使われてきた。 しかし、以前の研究では、局所的なモデルの可能性を十分に研究しておらず、多くの小規模でコヒーレントなサブコミュニティを特定することができなかった。 本稿では、一般化された局所潜在因子フレームワークであるLocal Collaborative Autoencoders(LOCA)を提案する。 特に、locaは訓練と推論の段階で異なる近隣範囲を採用する。 さらにlocaは、新しいサブコミュニティ発見手法を使用して、ローカルモデルの結合範囲を最大化し、多数の多様なローカルモデルを使用する。 ベースモデルとしてオートエンコーダを採用することで、LOCAはサブコミュニティ内の意味のあるユーザとイテムの相互作用を表す潜在非線形パターンをキャプチャする。 実験の結果,LOCAは複数の公開ベンチマークで2.99~4.70%,NDCGは1.02~7.95%,最先端モデルでは2.99~7.95%,スケーラビリティに優れていた。

Top-N recommendation is a challenging problem because complex and sparse user-item interactions should be adequately addressed to achieve high-quality recommendation results. The local latent factor approach has been successfully used with multiple local models to capture diverse user preferences with different sub-communities. However, previous studies have not fully explored the potential of local models, and failed to identify many small and coherent sub-communities. In this paper, we present Local Collaborative Autoencoders (LOCA), a generalized local latent factor framework. Specifically, LOCA adopts different neighborhood ranges at the training and inference stages. Besides, LOCA uses a novel sub-community discovery method, maximizing the coverage of a union of local models and employing a large number of diverse local models. By adopting autoencoders as the base model, LOCA captures latent non-linear patterns representing meaningful user-item interactions within sub-communities. Our experimental results demonstrate that LOCA is scalable and outperforms state-of-the-art models on several public benchmarks, by 2.99~4.70% in Recall and 1.02~7.95% in NDCG, respectively.
翻訳日:2021-04-01 02:16:19 公開日:2021-03-30
# (参考訳) 食品加工におけるディープラーニングと機械学習:調査

Deep Learning and Machine Vision for Food Processing: A Survey ( http://arxiv.org/abs/2103.16106v1 )

ライセンス: CC BY 4.0
Lili Zhu, Petros Spachos, Erica Pensini, and Konstantinos Plataniotis(参考訳) 食品の品質と安全性は、人間の健康、社会発展、安定の基礎にあるため、社会全体にとって重要な問題である。 食品の品質と安全性の確保は複雑なプロセスであり、栽培、収穫、貯蔵から準備と消費に至るまで、食品加工のあらゆる段階を考慮する必要がある。 しかし、これらのプロセスはしばしば労働集約的です。 現在、機械ビジョンの開発は、食品加工の効率を向上させるために研究者や産業を大いに助けることができる。 その結果、機械ビジョンは食品加工のあらゆる面で広く利用されてきた。 同時に、画像処理はマシンビジョンの重要な構成要素である。 画像処理は、機械学習とディープラーニングモデルを利用して、食品の種類と品質を効果的に識別することができる。 その後、マシンビジョンシステムにおけるフォローアップ設計は、食品のグレーディング、欠陥箇所や異物の位置の検出、不純物除去などのタスクに対処することができる。 本稿では,従来の機械学習および深層学習手法の概要と,食品加工分野に適用可能な機械ビジョン技術について述べる。 我々は,現在のアプローチと課題,今後のトレンドを紹介する。

The quality and safety of food is an important issue to the whole society, since it is at the basis of human health, social development and stability. Ensuring food quality and safety is a complex process, and all stages of food processing must be considered, from cultivating, harvesting and storage to preparation and consumption. However, these processes are often labour-intensive. Nowadays, the development of machine vision can greatly assist researchers and industries in improving the efficiency of food processing. As a result, machine vision has been widely used in all aspects of food processing. At the same time, image processing is an important component of machine vision. Image processing can take advantage of machine learning and deep learning models to effectively identify the type and quality of food. Subsequently, follow-up design in the machine vision system can address tasks such as food grading, detecting locations of defective spots or foreign objects, and removing impurities. In this paper, we provide an overview on the traditional machine learning and deep learning methods, as well as the machine vision techniques that can be applied to the field of food processing. We present the current approaches and challenges, and the future trends.
翻訳日:2021-04-01 02:00:25 公開日:2021-03-30
# (参考訳) 再分析データを用いた熱帯サイクロンの降水位置と時期の予測

Predicting Landfall's Location and Time of a Tropical Cyclone Using Reanalysis Data ( http://arxiv.org/abs/2103.16108v1 )

ライセンス: CC BY 4.0
Sandeep Kumar, Koushik Biswas, Ashish Kumar Pandey(参考訳) 熱帯低気圧の降水は、海洋沿岸を渡った後に陸地を移動する際に起こる。 地すべりの特徴を場所や時間的に把握することが重要であり、予防策を適宜講じるためには時間的に前進することが重要である。 本稿では,コンボリューショナルニューラルネットワークとロング短期記憶ネットワークを組み合わせた深層学習モデルを構築し,世界の6つの海盆における熱帯サイクロンの着地位置と時刻を高精度に予測する。 欧州中距離気象予報センター(ECMWF)が管理する高分解能空間解析データERA5を用いた。 このモデルは熱帯のサイクロンの進行中に9時間15時間、あるいは21時間のデータを必要とし、緯度や経度、時間といった面から地すべりの位置を予測する。 21時間のデータでは、66.18から158.92kmの範囲での上陸位置の予測と6つの海盆で4.71から8.20時間の範囲での上陸時刻の予測に絶対誤差が与えられる。 このモデルはわずか30分から45分で訓練でき(海盆に基づく)、着陸地点と時刻を数秒で予測できるため、リアルタイムの予測に適している。

Landfall of a tropical cyclone is the event when it moves over the land after crossing the coast of the ocean. It is important to know the characteristics of the landfall in terms of location and time, well advance in time to take preventive measures timely. In this article, we develop a deep learning model based on the combination of a Convolutional Neural network and a Long Short-Term memory network to predict the landfall's location and time of a tropical cyclone in six ocean basins of the world with high accuracy. We have used high-resolution spacial reanalysis data, ERA5, maintained by European Center for Medium-Range Weather Forecasting (ECMWF). The model takes any 9 hours, 15 hours, or 21 hours of data, during the progress of a tropical cyclone and predicts its landfall's location in terms of latitude and longitude and time in hours. For 21 hours of data, we achieve mean absolute error for landfall's location prediction in the range of 66.18 - 158.92 kilometers and for landfall's time prediction in the range of 4.71 - 8.20 hours across all six ocean basins. The model can be trained in just 30 to 45 minutes (based on ocean basin) and can predict the landfall's location and time in a few seconds, which makes it suitable for real time prediction.
翻訳日:2021-04-01 01:59:25 公開日:2021-03-30
# (参考訳) Kaleido-BERT:ファシオンドメインでのビジョンランゲージ事前トレーニング

Kaleido-BERT: Vision-Language Pre-training on Fashion Domain ( http://arxiv.org/abs/2103.16110v1 )

ライセンス: CC BY 4.0
Mingchen Zhuge, Dehong Gao, Deng-Ping Fan, Linbo Jin, Ben Chen, Haoming Zhou, Minghui Qiu and Ling Shao(参考訳) 本稿では, トランスフォーマーからのファッション・モダリティ表現のための新しいカレイド戦略を導入する, Kaleido-BERT (VL) 事前学習モデルを提案する。 近年のVLモデルのランダムマスキング戦略とは対照的に,画像とテクスチャのセマンティクスに焦点を合わせるためにアライメント誘導マスキングを設計する。 この目的のために、異なるスケールのパッチで自己教師付きVL事前トレーニングを行うために、回転、ジグソー、カモフラージュ、グレーツーカラー、ブランクツーカラーの5つの新しいタスクを実行する。 Kaleido-BERTは概念的にはシンプルで、既存のBERTフレームワークへの拡張が容易で、テキスト検索(R@1: 4.03%の絶対改善)、画像検索(R@1: 7.13%のabs imv)を含む4つのダウンストリームタスクで、新しい最先端の結果が得られる。 9%),カテゴリー認識 (ACC: 3.28% abs imv。 およびファッションキャプション(Bleu4:1.2 abs imv.)。 我々は,Keleido-BERTの多岐にわたるe-commerical Webサイト上での効率性を検証し,実世界のアプリケーションにおいてその可能性を示す。

We present a new vision-language (VL) pre-training model dubbed Kaleido-BERT, which introduces a novel kaleido strategy for fashion cross-modality representations from transformers. In contrast to random masking strategy of recent VL models, we design alignment guided masking to jointly focus more on image-text semantic relations. To this end, we carry out five novel tasks, i.e., rotation, jigsaw, camouflage, grey-to-color, and blank-to-color for self-supervised VL pre-training at patches of different scale. Kaleido-BERT is conceptually simple and easy to extend to the existing BERT framework, it attains new state-of-the-art results by large margins on four downstream tasks, including text retrieval (R@1: 4.03% absolute improvement), image retrieval (R@1: 7.13% abs imv.), category recognition (ACC: 3.28% abs imv.), and fashion captioning (Bleu4: 1.2 abs imv.). We validate the efficiency of Kaleido-BERT on a wide range of e-commerical websites, demonstrating its broader potential in real-world applications.
翻訳日:2021-04-01 01:46:26 公開日:2021-03-30
# (参考訳) 大規模DNNモデルに対する同型暗号化推論の実現

Enabling Homomorphically Encrypted Inference for Large DNN Models ( http://arxiv.org/abs/2103.16139v1 )

ライセンス: CC BY 4.0
Guillermo Lloret-Talavera, Marc Jorda, Harald Servat, Fabian Boemer, Chetan Chauhan, Shigeki Tomishima, Nilesh N. Shah, Antonio J. Pe\~na(参考訳) ここ数年で機械学習サービスが急増し、データのプライバシーに関する懸念が高まった。 ホモモルフィック暗号化(HE)は暗号化データを用いた推論を可能にするが、100x--10,000倍のメモリとランタイムオーバーヘッドを発生させる。 HEを使用したセキュアなディープニューラルネットワーク(DNN)推論は現在、コンピューティングとメモリリソースによって制限されており、小さなモデルを評価するために数百ギガバイトのDRAMを必要とするフレームワークがある。 本稿では,これらの制約を克服するために,dramと永続メモリを組み合わせたハイブリッドメモリシステムの実現可能性について検討する。 特に、最近リリースされたIntel Optane PMem技術とIntel HE-Transformer nGraphを探索し、MobileNetV2(最大の変種)やResNet-50といった大規模なニューラルネットワークを文献で初めて動作させる。 本稿では,ハードウェアとソフトウェア構成の異なる実行効率の詳細な分析を行う。 以上の結果から, HEを用いたDNN推論は, このメモリ構成に親しみやすいアクセスパターンに依存し, 効率的な実行を実現する。

The proliferation of machine learning services in the last few years has raised data privacy concerns. Homomorphic encryption (HE) enables inference using encrypted data but it incurs 100x--10,000x memory and runtime overheads. Secure deep neural network (DNN) inference using HE is currently limited by computing and memory resources, with frameworks requiring hundreds of gigabytes of DRAM to evaluate small models. To overcome these limitations, in this paper we explore the feasibility of leveraging hybrid memory systems comprised of DRAM and persistent memory. In particular, we explore the recently-released Intel Optane PMem technology and the Intel HE-Transformer nGraph to run large neural networks such as MobileNetV2 (in its largest variant) and ResNet-50 for the first time in the literature. We present an in-depth analysis of the efficiency of the executions with different hardware and software configurations. Our results conclude that DNN inference using HE incurs on friendly access patterns for this memory configuration, yielding efficient executions.
翻訳日:2021-04-01 01:23:37 公開日:2021-03-30
# (参考訳) 画像生成・翻訳におけるコンテンツスタイルの絡み合いに対する対角的注意とスタイルベースGAN

Diagonal Attention and Style-based GAN for Content-Style Disentanglement in Image Generation and Translation ( http://arxiv.org/abs/2103.16146v1 )

ライセンス: CC BY 4.0
Gihyun Kwon, Jong Chul Ye(参考訳) 画像生成モデルにおける重要な研究テーマの1つは、空間的内容とスタイルを分離して制御することである。 スタイルガンはランダムノイズからコンテンツ特徴ベクトルを生成することができるが、結果として生じる空間コンテンツ制御は、主に小さな空間的変動を意図しており、グローバルコンテンツとスタイルの不連続は決して完全ではない。 本稿では,正規化と注意の数学的理解から着想を得た新しい階層的適応対角的空間的注意(dat)層を提案する。 DAT と AdaIN を用いることで,空間内容やスタイルの粗大かつ細大な展開を可能にする。 また,マルチドメイン画像翻訳タスクからの翻訳画像の内容やスタイルを柔軟に制御できるように,ganインバージョンフレームワークに容易に組み込むことができる。 様々なデータセットを用いて,提案手法が既存のモデルを不等角性スコアで上回るだけでなく,生成画像の空間的特徴をより柔軟に制御できることを確認した。

One of the important research topics in image generative models is to disentangle the spatial contents and styles for their separate control. Although StyleGAN can generate content feature vectors from random noises, the resulting spatial content control is primarily intended for minor spatial variations, and the disentanglement of global content and styles is by no means complete. Inspired by a mathematical understanding of normalization and attention, here we present a novel hierarchical adaptive Diagonal spatial ATtention (DAT) layers to separately manipulate the spatial contents from styles in a hierarchical manner. Using DAT and AdaIN, our method enables coarse-to-fine level disentanglement of spatial contents and styles. In addition, our generator can be easily integrated into the GAN inversion framework so that the content and style of translated images from multi-domain image translation tasks can be flexibly controlled. By using various datasets, we confirm that the proposed method not only outperforms the existing models in disentanglement scores, but also provides more flexible control over spatial features in the generated images.
翻訳日:2021-04-01 01:03:27 公開日:2021-03-30
# (参考訳) クラス認識型ロバストな物体検出学習

Class-Aware Robust Adversarial Training for Object Detection ( http://arxiv.org/abs/2103.16148v1 )

ライセンス: CC BY 4.0
Pin-Chun Chen, Bo-Han Kung, and Jun-Cheng Chen(参考訳) オブジェクト検出は、現実世界のアプリケーションが多い重要なコンピュータビジョンタスクであり、敵攻撃に対する堅牢性を高める方法が重要な問題となっている。 しかし,従来の防御手法の多くは分類タスクに焦点をあて,対象検出タスクの文脈での分析はほとんど行わなかった。 本稿では,この問題に対処するために,オブジェクト検出タスクのための,新しいクラス対応頑健な対人訓練パラダイムを提案する。 与えられた画像に対して,提案手法は,各オブジェクトの損失を最大化することにより,画像内のすべての被写体を同時に攻撃するために,普遍的な逆摂動を生成する。 一方、オブジェクト数で全体の損失を正規化する代わりに、提案手法はクラス単位の損失に総損失を分解し、クラスに対するオブジェクト数を用いて各クラス損失を正規化する。 クラス重み付け損失に基づく敵の訓練は,各クラスの影響のバランスをとるだけでなく,従来の防御手法と比較して,訓練対象クラスの敵の堅牢性を効果的かつ均一に改善する。 さらに,近年の高速対向訓練の開発により,従来の対向訓練よりも高速に学習でき,同等の性能を保ちながら,提案アルゴリズムの高速版を提供する。 PASCAL-VOCおよびMS-COCOデータセットに対する広範囲な実験により,提案手法がオブジェクト検出モデルの堅牢性を効果的に向上することを示す。

Object detection is an important computer vision task with plenty of real-world applications; therefore, how to enhance its robustness against adversarial attacks has emerged as a crucial issue. However, most of the previous defense methods focused on the classification task and had few analysis in the context of the object detection task. In this work, to address the issue, we present a novel class-aware robust adversarial training paradigm for the object detection task. For a given image, the proposed approach generates an universal adversarial perturbation to simultaneously attack all the occurred objects in the image through jointly maximizing the respective loss for each object. Meanwhile, instead of normalizing the total loss with the number of objects, the proposed approach decomposes the total loss into class-wise losses and normalizes each class loss using the number of objects for the class. The adversarial training based on the class weighted loss can not only balances the influence of each class but also effectively and evenly improves the adversarial robustness of trained models for all the object classes as compared with the previous defense methods. Furthermore, with the recent development of fast adversarial training, we provide a fast version of the proposed algorithm which can be trained faster than the traditional adversarial training while keeping comparable performance. With extensive experiments on the challenging PASCAL-VOC and MS-COCO datasets, the evaluation results demonstrate that the proposed defense methods can effectively enhance the robustness of the object detection models.
翻訳日:2021-04-01 00:44:21 公開日:2021-03-30
# (参考訳) 確率分布の縮約と帰納的否定

Contracting and Involutive Negations of Probability Distributions ( http://arxiv.org/abs/2103.16176v1 )

ライセンス: CC BY 4.0
Ildar Batyrshin(参考訳) ヤガーが導入した確率分布 (pd) の否定という概念を12の論文で検討している。 通常、そのような否定は確率値の集合上で定義された関数によってポイント・バイ・ポイントで生成される。 近年,yager negator は pd に依存しない線形ネゲータの定義において重要な役割を果たすことが示されている。 ここでは、線形ネガレータによって生成されるpdの多重否定列が、最大エントロピーを持つ一様分布に収束することを証明する。 pd非依存ネゲータは非帰納的であり,非自明な線型ネゲータは厳密に収縮的であることを示す。 最後に,確率分布の帰納的否定を生成するpd依存ネゲータのクラスに,インボリューティブネゲータを導入する。

A dozen papers have considered the concept of negation of probability distributions (pd) introduced by Yager. Usually, such negations are generated point-by-point by functions defined on a set of probability values and called here negators. Recently it was shown that Yager negator plays a crucial role in the definition of pd-independent linear negators: any linear negator is a function of Yager negator. Here, we prove that the sequence of multiple negations of pd generated by a linear negator converges to the uniform distribution with maximal entropy. We show that any pd-independent negator is non-involutive, and any non-trivial linear negator is strictly contracting. Finally, we introduce an involutive negator in the class of pd-dependent negators that generates an involutive negation of probability distributions.
翻訳日:2021-04-01 00:27:45 公開日:2021-03-30
# (参考訳) learnable graph matching: 複数のオブジェクト追跡のためのディープラーニングによるグラフ分割

Learnable Graph Matching: Incorporating Graph Partitioning with Deep Feature Learning for Multiple Object Tracking ( http://arxiv.org/abs/2103.16178v1 )

ライセンス: CC BY 4.0
Jiawei He, Zehao Huang, Naiyan Wang, Zhaoxiang Zhang(参考訳) フレーム間のデータアソシエーションは、Multiple Object Tracking(MOT)タスクの中核にある。 この問題は、通常、従来のグラフベースの最適化によって解決される。 1) 既存の手法では,トラックレット間のコンテキスト情報やフレーム内検出がほとんど無視されているため,厳密な閉塞などの困難なケースではトラッカーの生存が困難である。 2) エンド・ツー・エンドのアソシエーション手法はディープニューラルネットワークのデータフィッティングパワーのみに依存するが,最適化に基づくアソシエーション手法の利点をほとんど活用しない。 3)グラフに基づく最適化手法は,主に独立したニューラルネットワークを用いて特徴を抽出し,トレーニングと推論の矛盾をもたらす。 そこで本稿では,これらの問題に対処する新しい学習可能なグラフマッチング手法を提案する。 簡単に言えば、トラックレットとフレーム内検出の関係を一般的な非方向グラフとしてモデル化する。 その後、関連問題は、トラックレットグラフと検出グラフの間の一般的なグラフマッチングとなる。 さらに、最適化をエンドツーエンドに微分可能にするために、元のグラフマッチングを連続二次プログラミングに緩和し、そのトレーニングを暗黙関数定理の助けを借りてディープグラフネットワークに組み込む。 最後に,提案手法であるGMTrackerは,いくつかの標準MOTデータセット上で最先端のパフォーマンスを実現する。 私たちのコードはhttps://github.com/jiaweihe1996/GMTrackerで公開されます。

Data association across frames is at the core of Multiple Object Tracking (MOT) task. This problem is usually solved by a traditional graph-based optimization or directly learned via deep learning. Despite their popularity, we find some points worth studying in current paradigm: 1) Existing methods mostly ignore the context information among tracklets and intra-frame detections, which makes the tracker hard to survive in challenging cases like severe occlusion. 2) The end-to-end association methods solely rely on the data fitting power of deep neural networks, while they hardly utilize the advantage of optimization-based assignment methods. 3) The graph-based optimization methods mostly utilize a separate neural network to extract features, which brings the inconsistency between training and inference. Therefore, in this paper we propose a novel learnable graph matching method to address these issues. Briefly speaking, we model the relationships between tracklets and the intra-frame detections as a general undirected graph. Then the association problem turns into a general graph matching between tracklet graph and detection graph. Furthermore, to make the optimization end-to-end differentiable, we relax the original graph matching into continuous quadratic programming and then incorporate the training of it into a deep graph network with the help of the implicit function theorem. Lastly, our method GMTracker, achieves state-of-the-art performance on several standard MOT datasets. Our code will be available at https://github.com/jiaweihe1996/GMTracker .
翻訳日:2021-04-01 00:13:49 公開日:2021-03-30
# (参考訳) 熱帯サイクロンの降水強度, 位置, 時間予測

Prediction of Landfall Intensity, Location, and Time of a Tropical Cyclone ( http://arxiv.org/abs/2103.16180v1 )

ライセンス: CC BY 4.0
Sandeep Kumar, Koushik Biswas, Ashish Kumar Pandey(参考訳) 熱帯性サイクロンの降雨の強度、位置、時刻の予測は、時間的・高精度に進んでおり、人的・物質的損失を著しく低減することができる。 本稿では,北インド洋に起源を持つ熱帯サイクロンの降着地における強度(最大持続面風速),位置(緯度,経度),時間(観測時間)を予測するために,長期記憶に基づくリカレントニューラルネットワークモデルを開発した。 このモデルは、サイクロンの時系列として、その位置、圧力、海面温度、および一定時間(12時間から36時間)の強度からなるサイクロンの最高のトラックデータを入力し、高い精度で予測を提供する。 例えば、サイクロンの24時間データを用いて、降水強度、時間、緯度、経度を平均絶対誤差4.24ノット、4.5時間、0.24度、0.37度と予測し、着陸地点から51.7kmの距離誤差を与える。 さらに,Bulbul,Fani,Gajaの3つの破壊的サイクロンに対するモデルの有効性を確認し,テストデータセットよりも優れた結果を得た。

The prediction of the intensity, location and time of the landfall of a tropical cyclone well advance in time and with high accuracy can reduce human and material loss immensely. In this article, we develop a Long Short-Term memory based Recurrent Neural network model to predict intensity (in terms of maximum sustained surface wind speed), location (latitude and longitude), and time (in hours after the observation period) of the landfall of a tropical cyclone which originates in the North Indian ocean. The model takes as input the best track data of cyclone consisting of its location, pressure, sea surface temperature, and intensity for certain hours (from 12 to 36 hours) anytime during the course of the cyclone as a time series and then provide predictions with high accuracy. For example, using 24 hours data of a cyclone anytime during its course, the model provides state-of-the-art results by predicting landfall intensity, time, latitude, and longitude with a mean absolute error of 4.24 knots, 4.5 hours, 0.24 degree, and 0.37 degree respectively, which resulted in a distance error of 51.7 kilometers from the landfall location. We further check the efficacy of the model on three recent devastating cyclones Bulbul, Fani, and Gaja, and achieved better results than the test dataset.
翻訳日:2021-03-31 23:40:56 公開日:2021-03-30
# (参考訳) 再流行する街路シーン

Repopulating Street Scenes ( http://arxiv.org/abs/2103.16183v1 )

ライセンス: CC BY 4.0
Yifan Wang, Andrew Liu, Richard Tucker, Jiajun Wu, Brian L. Curless, Steven M. Seitz, Noah Snavely(参考訳) そこで本稿では,歩行者や車両などの物体を配置・非人口化・再人口化することにより,街頭シーンの画像を自動的に再構成する枠組みを提案する。 この手法の応用例としては、プライバシーを高めるために画像の匿名化、自律運転のような認識タスクのためのデータ拡張、早朝の空き道など特定の環境を達成するためのシーンの構築などがある。 技術レベルでは,(1)物体の画像をクリアする手法,(2)太陽の方向を1つの画像から推定する手法,(3)風景の幾何学と照明を尊重する場面で物体を構成する方法,の3つの主要な貢献がある。 各コンポーネントは、ストリートシーンの短い画像バーストを創造的に利用することで、最小限の真実のアノテーションでデータから学習される。 様々なストリートシーンで説得力のある結果を示し、潜在的な応用例を示す。

We present a framework for automatically reconfiguring images of street scenes by populating, depopulating, or repopulating them with objects such as pedestrians or vehicles. Applications of this method include anonymizing images to enhance privacy, generating data augmentations for perception tasks like autonomous driving, and composing scenes to achieve a certain ambiance, such as empty streets in the early morning. At a technical level, our work has three primary contributions: (1) a method for clearing images of objects, (2) a method for estimating sun direction from a single image, and (3) a way to compose objects in scenes that respects scene geometry and illumination. Each component is learned from data with minimal ground truth annotations, by making creative use of large-numbers of short image bursts of street scenes. We demonstrate convincing results on a range of street scenes and illustrate potential applications.
翻訳日:2021-03-31 23:26:14 公開日:2021-03-30
# (参考訳) 翻訳過程における自動修正 -- マルチタスク学習による対話機械翻訳の改善

Auto Correcting in the Process of Translation -- Multi-task Learning Improves Dialogue Machine Translation ( http://arxiv.org/abs/2103.16189v1 )

ライセンス: CC BY 4.0
Tao Wang, Chengqi Zhao, Mingxuan Wang, Lei Li, Deyi Xiong(参考訳) 対話文の自動翻訳は多くの実生活シナリオにおいて必要不可欠である。 しかし、既存のニューラルマシン翻訳は満足のいく結果をもたらす。 本稿では,対話コーパスを深く分析し,代名詞のドロップ(\droppro),句句のドロップ(\droppun),タイポ(\typo)の3つの主要な課題を要約する。 これらの課題に対応するために,欠落と型を識別し,文脈を利用して対話発話を翻訳する共同学習手法を提案する。 そこで本研究では,300の対話から1,931の中国語と英語の並列発話を用いた手動注釈付きデータセットを提案する。 提案手法は,ベースライン上での3.2BLEUの翻訳品質を向上させる。 また、省略代名詞の回収率は26.09%から47.16%に上昇する。 コードとデータセットはhttps://github.com/rgwt123/DialogueMTで公開します。

Automatic translation of dialogue texts is a much needed demand in many real life scenarios. However, the currently existing neural machine translation delivers unsatisfying results. In this paper, we conduct a deep analysis of a dialogue corpus and summarize three major issues on dialogue translation, including pronoun dropping (\droppro), punctuation dropping (\droppun), and typos (\typo). In response to these challenges, we propose a joint learning method to identify omission and typo, and utilize context to translate dialogue utterances. To properly evaluate the performance, we propose a manually annotated dataset with 1,931 Chinese-English parallel utterances from 300 dialogues as a benchmark testbed for dialogue translation. Our experiments show that the proposed method improves translation quality by 3.2 BLEU over the baselines. It also elevates the recovery rate of omitted pronouns from 26.09% to 47.16%. We will publish the code and dataset publicly at https://github.com/rgwt123/DialogueMT.
翻訳日:2021-03-31 23:12:30 公開日:2021-03-30
# (参考訳) ディープラーニングによる製品検査手法の概要

Product Inspection Methodology via Deep Learning: An Overview ( http://arxiv.org/abs/2103.16198v1 )

ライセンス: CC BY 4.0
Tae-Hyun Kim, Hye-Rin Kim, Yeong-Jun Cho(参考訳) 本研究では,ディープラーニング技術に基づく製品品質検査のためのフレームワークを提案する。 まず,製品検査システムに適用可能な深層学習モデルをいくつか分類する。 また,深層学習に基づく検査システム構築のための全ステップを詳細に解説する。 次に,ディープラーニングモデルを製品検査システムに効率的にリンクする接続方式について述べる。 最後に,製品検査システムの深層学習モデルを維持・拡張する有効な手法を提案する。 提案手法によりシステムの保守性と安定性が良好である。 提案手法はすべて統一されたフレームワークに統合され,提案手法の詳細な説明を提供する。 提案システムの有効性を検証するため,様々なテストシナリオにおける手法の性能を比較し,分析した。

In this work, we present a framework for product quality inspection based on deep learning techniques. First, we categorize several deep learning models that can be applied to product inspection systems. Also we explain entire steps for building a deep learning-based inspection system in great detail. Second, we address connection schemes that efficiently link the deep learning models to the product inspection systems. Finally, we propose an effective method that can maintain and enhance the deep learning models of the product inspection system. It has good system maintenance and stability due to the proposed methods. All the proposed methods are integrated in a unified framework and we provide detailed explanations of each proposed method. In order to verify the effectiveness of the proposed system, we compared and analyzed the performance of methods in various test scenarios.
翻訳日:2021-03-31 23:02:01 公開日:2021-03-30
# (参考訳) MT3:自己監督型テストタイム適応のためのメタテストタイムトレーニング

MT3: Meta Test-Time Training for Self-Supervised Test-Time Adaption ( http://arxiv.org/abs/2103.16201v1 )

ライセンス: CC BY 4.0
Alexander Bartler, Andre B\"uhler, Felix Wiewel, Mario D\"obler and Bin Yang(参考訳) ディープラーニングにおける未解決の問題は、トレーニング後にネットワークパラメータを普通に修正することによって課される、テスト時のドメインシフトに対処するニューラルネットワークの能力である。 提案手法であるメタテストタイムトレーニング(MT3)は,このパラダイムを破り,テスト時の適応を可能にする。 メタラーニング、自己スーパービジョン、テストタイムトレーニングを組み合わせて、目に見えないテスト分布に適応することを学びます。 自己教師付き損失を最小限に抑えることで,タスク固有のモデルパラメータを学習する。 メタモデルは、異なるタスク固有のモデルへの適応がそれらのタスクでより高いパフォーマンスをもたらすように最適化されます。 テスト時間の間、単一のラベルのないイメージはメタモデルパラメータを適応するのに十分です。 これは、自己教師付き損失成分のみを最小化することで、画像の予測がより良くなる。 この手法はcifar-10による画像分類ベンチマークの最先端結果を大幅に改善する。 私たちの実装はGitHubで利用可能です。

An unresolved problem in Deep Learning is the ability of neural networks to cope with domain shifts during test-time, imposed by commonly fixing network parameters after training. Our proposed method Meta Test-Time Training (MT3), however, breaks this paradigm and enables adaption at test-time. We combine meta-learning, self-supervision and test-time training to learn to adapt to unseen test distributions. By minimizing the self-supervised loss, we learn task-specific model parameters for different tasks. A meta-model is optimized such that its adaption to the different task-specific models leads to higher performance on those tasks. During test-time a single unlabeled image is sufficient to adapt the meta-model parameters. This is achieved by minimizing only the self-supervised loss component resulting in a better prediction for that image. Our approach significantly improves the state-of-the-art results on the CIFAR-10-Corrupted image classification benchmark. Our implementation is available on GitHub.
翻訳日:2021-03-31 22:45:53 公開日:2021-03-30
# (参考訳) シーケンスラベリングのための局所文脈非線形CRF

Locally-Contextual Nonlinear CRFs for Sequence Labeling ( http://arxiv.org/abs/2103.16210v1 )

ライセンス: CC BY 4.0
Harshil Shah, Tim Xiao, David Barber(参考訳) 線形鎖条件付きランダムフィールド (CRF) と文脈語埋め込みを組み合わせることで, シーケンシャルラベリングタスクにおける技術性能が向上した。 これらのタスクの多くにおいて、隣接する単語のアイデンティティは、与えられた単語のラベルを予測する際に最も有用な文脈情報であることが多い。 しかしながら、コンテキスト埋め込みは通常、タスクに依存しない方法でトレーニングされる。 これは、近隣の単語に関する情報をエンコードできるが、保証されないことを意味する。 したがって、埋め込みから直接情報を抽出するためにシーケンスラベリングアーキテクチャを設計することは有益である。 シーケンスラベリングのための局所コンテキスト非線形CRFを提案する。 提案手法は,単語のラベルを予測する際に隣接する埋め込みからの情報を直接組み込んで,深層ニューラルネットワークを用いてポテンシャル関数をパラメータ化する。 我々のモデルは線形鎖CRFの代替として機能し、アブレーション研究において一貫して優れています。 様々なタスクにおいて、我々の結果は最も優れたメソッドと競合する。 特に,CoNLL 2000におけるチャンキングに関する先行技術よりも優れており,OntoNotes 5.0 のエンティティ認識も優れている。

Linear chain conditional random fields (CRFs) combined with contextual word embeddings have achieved state of the art performance on sequence labeling tasks. In many of these tasks, the identity of the neighboring words is often the most useful contextual information when predicting the label of a given word. However, contextual embeddings are usually trained in a task-agnostic manner. This means that although they may encode information about the neighboring words, it is not guaranteed. It can therefore be beneficial to design the sequence labeling architecture to directly extract this information from the embeddings. We propose locally-contextual nonlinear CRFs for sequence labeling. Our approach directly incorporates information from the neighboring embeddings when predicting the label for a given word, and parametrizes the potential functions using deep neural networks. Our model serves as a drop-in replacement for the linear chain CRF, consistently outperforming it in our ablation study. On a variety of tasks, our results are competitive with those of the best published methods. In particular, we outperform the previous state of the art on chunking on CoNLL 2000 and named entity recognition on OntoNotes 5.0 English.
翻訳日:2021-03-31 22:32:13 公開日:2021-03-30
# (参考訳) iVPF:効率的な損失圧縮のための数値的非可逆体積保存流

iVPF: Numerical Invertible Volume Preserving Flow for Efficient Lossless Compression ( http://arxiv.org/abs/2103.16211v1 )

ライセンス: CC BY 4.0
Shifeng Zhang, Chen Zhang, Ning Kang and Li Zhenguo(参考訳) 近年急速に成長するビッグデータを格納するのは簡単ではなく、高性能なロスレス圧縮技術を必要とする。 確率に基づく生成モデルはロスレス圧縮での成功を目撃しており、フローベースのモデルは、単射写像による正確なデータ可能性最適化を可能にするのが望ましい。 しかし、一般的な連続フローは符号化スキームの離散性と矛盾しており、1)性能を低下させるフローモデルに厳密な制約を課すか、2)多数の単射写像誤差をコーディングし効率を低下させる。 本稿では,ロスレス圧縮のためのボリューム保存フローを調査し,誤差のない単射写像が可能であることを示す。 一般的な体積保存流から導かれる数値的非可逆体積保存流(iVPF)を提案する。 フローモデルに新しい計算アルゴリズムを導入することで、正確な単射写像は数値誤差なしに実現される。 また,iVPFに基づく無損失圧縮アルゴリズムを提案する。 様々なデータセットの実験により、iVPFに基づくアルゴリズムは、軽量圧縮アルゴリズムよりも最先端圧縮比を達成することが示された。

It is nontrivial to store rapidly growing big data nowadays, which demands high-performance lossless compression techniques. Likelihood-based generative models have witnessed their success on lossless compression, where flow based models are desirable in allowing exact data likelihood optimisation with bijective mappings. However, common continuous flows are in contradiction with the discreteness of coding schemes, which requires either 1) imposing strict constraints on flow models that degrades the performance or 2) coding numerous bijective mapping errors which reduces the efficiency. In this paper, we investigate volume preserving flows for lossless compression and show that a bijective mapping without error is possible. We propose Numerical Invertible Volume Preserving Flow (iVPF) which is derived from the general volume preserving flows. By introducing novel computation algorithms on flow models, an exact bijective mapping is achieved without any numerical error. We also propose a lossless compression algorithm based on iVPF. Experiments on various datasets show that the algorithm based on iVPF achieves state-of-the-art compression ratio over lightweight compression algorithms.
翻訳日:2021-03-31 22:16:39 公開日:2021-03-30
# (参考訳) 2チャンネル脳波信号を用いた睡眠段階スコーリングのための畳み込みニューラルネットワーク

Convolutional Neural Networks for Sleep Stage Scoring on a Two-Channel EEG Signal ( http://arxiv.org/abs/2103.16215v1 )

ライセンス: CC BY 4.0
Enrique Fernandez-Blanco, Daniel Rivero, Alejandro Pazos(参考訳) 睡眠障害は世界中で主要な病気の1つになっている。 この問題に対処するために、専門家が使用する基本的なツールは、睡眠中に記録された異なる信号の集合であるポリソムノグラムである。 録音後、専門家は標準ガイドラインの1つに従って異なるシグナルを採点しなければならない。 このプロセスは手動で実行され、非常に時間がかかり、アノテーションエラーを起こしやすい。 そのため、長年にわたり専門家を支援するために多くのアプローチが検討されてきた。 本稿では、畳み込みニューラルネットワークに基づくアプローチを示し、入力として複数の信号を使用することの利便性を決定するために、詳細な比較を行う。 さらに、このモデルはアンサンブルモデルの一部であり、二重信号モデルでは識別できない単一信号処理から有用な情報を抽出できるかどうかを確認するためにも使用された。 この問題のベンチマークとして最も一般的に使用されるデータセットであるExpended Sleep-EDFと呼ばれる、よく知られたデータセットを使用してテストが行われた。 検査は、患者に対する一対一のクロスバリデーションで実施され、トレーニングとテストの間に汚染がないことが保証された。 その結果得られた提案は、以前公開されたものよりも小さなネットワークだが、同じデータセット上の以前のモデルの結果を克服する。 最も良い結果は92.67\%の精度で、コーエンのカッパの値は人間の専門家と比べて0.84以上である。

Sleeping problems have become one of the major diseases all over the world. To tackle this issue, the basic tool used by specialists is the Polysomnogram, which is a collection of different signals recorded during sleep. After its recording, the specialists have to score the different signals according to one of the standard guidelines. This process is carried out manually, which can be highly time-consuming and very prone to annotation errors. Therefore, over the years, many approaches have been explored in an attempt to support the specialists in this task. In this paper, an approach based on convolutional neural networks is presented, where an in-depth comparison is performed in order to determine the convenience of using more than one signal simultaneously as input. Additionally, the models were also used as parts of an ensemble model to check whether any useful information can be extracted from signal processing a single signal at a time which the dual-signal model cannot identify. Tests have been performed by using a well-known dataset called expanded sleep-EDF, which is the most commonly used dataset as the benchmark for this problem. The tests were carried out with a leave-one-out cross-validation over the patients, which ensures that there is no possible contamination between training and testing. The resulting proposal is a network smaller than previously published ones, but which overcomes the results of any previous models on the same dataset. The best result shows an accuracy of 92.67\% and a Cohen's Kappa value over 0.84 compared to human experts.
翻訳日:2021-03-31 21:51:54 公開日:2021-03-30
# (参考訳) cuConv: CNN推論のための畳み込みのCUDA実装

cuConv: A CUDA Implementation of Convolution for CNN Inference ( http://arxiv.org/abs/2103.16234v1 )

ライセンス: CC BY 4.0
Marc Jord\`a, Pedro Valero-Lara, Antonio J. Pe\~na(参考訳) 畳み込み(convolutions)は、畳み込みニューラルネットワーク(cnns)に基づくディープラーニングアプリケーションのコアオペレーションである。 現在のGPUアーキテクチャは、ディープCNNのトレーニングとデプロイに非常に効率的であるため、この目的のために運用に主に使用されている。 しかし、最先端の実装では、一般的に使用されるネットワーク構成の効率が低下している。 本稿では,CNN推論のためのGPUによる畳み込み処理の実装を提案する。 提案手法は, cuDNNにおける畳み込みの最適実装に関して, 最大2.29倍の高速化を達成し, 既存のアプローチにおける関連領域を網羅した, 一連の共通CNN前方伝播畳み込み構成において, 顕著な性能向上をもたらすことを示す。

Convolutions are the core operation of deep learning applications based on Convolutional Neural Networks (CNNs). Current GPU architectures are highly efficient for training and deploying deep CNNs, and hence, these are largely used in production for this purpose. State-of-the-art implementations, however, present a lack of efficiency for some commonly used network configurations. In this paper we propose a GPU-based implementation of the convolution operation for CNN inference that favors coalesced accesses, without requiring prior data transformations. Our experiments demonstrate that our proposal yields notable performance improvements in a range of common CNN forward propagation convolution configurations, with speedups of up to 2.29x with respect to the best implementation of convolution in cuDNN, hence covering a relevant region in currently existing approaches.
翻訳日:2021-03-31 21:37:07 公開日:2021-03-30
# (参考訳) セグメンテーションの不確実性は有効か?

Is segmentation uncertainty useful? ( http://arxiv.org/abs/2103.16265v1 )

ライセンス: CC BY 4.0
Steffen Czolbe, Kasra Arnavaz, Oswin Krause, Aasa Feragen(参考訳) 確率的画像セグメンテーションは、セグメンテーション問題の予測信頼度と固有の曖昧さを変化させる。 異なる確率的セグメンテーションモデルは、セグメンテーションの不確かさとあいまいさの異なる側面を捉えるように設計されているが、これらのモデリングの違いは不確実性の応用の文脈ではほとんど議論されない。 セグメンテーションの不確実性,すなわちセグメンテーション品質の評価とアクティブラーニングの2つの一般的なユースケースを検討する。 確率的セグメンテーションのための4つの確立された戦略を検討し,それらのモデリング能力について検討し,これら2つのタスクにおける性能について検討した。 すべてのモデルと両方のタスクにおいて、戻り不確実性はセグメンテーションエラーと正の相関を示すが、アクティブラーニングには役に立たない。

Probabilistic image segmentation encodes varying prediction confidence and inherent ambiguity in the segmentation problem. While different probabilistic segmentation models are designed to capture different aspects of segmentation uncertainty and ambiguity, these modelling differences are rarely discussed in the context of applications of uncertainty. We consider two common use cases of segmentation uncertainty, namely assessment of segmentation quality and active learning. We consider four established strategies for probabilistic segmentation, discuss their modelling capabilities, and investigate their performance in these two tasks. We find that for all models and both tasks, returned uncertainty correlates positively with segmentation error, but does not prove to be useful for active learning.
翻訳日:2021-03-31 21:19:59 公開日:2021-03-30
# (参考訳) Locate then Segment:イメージセグメントを参照するための強力なパイプライン

Locate then Segment: A Strong Pipeline for Referring Image Segmentation ( http://arxiv.org/abs/2103.16284v1 )

ライセンス: CC BY 4.0
Ya Jing, Tao Kong, Wei Wang, Liang Wang, Lei Li, Tieniu Tan(参考訳) 参照画像分割は、自然言語表現で参照されるオブジェクトを分割することを目的としている。 従来の手法では、視覚言語的特徴を融合させて最終セグメンテーションマスクを直接生成するために、参照インスタンスのローカライゼーション情報を明示的にモデル化することなく、暗黙的かつ反復的な特徴相互作用機構を設計することに注力する。 これらの問題に対処するため、我々はこのタスクを別の視点から、"locate-then-segment" (lts) スキームに分離して見る。 言語表現が与えられた場合、人々はまず対応する対象の画像領域に注意を向け、そのコンテキストに基づいてオブジェクトに関する細かいセグメンテーションマスクを生成する。 ltsはまず、視覚的特徴とテキスト的特徴の両方を抽出・融合し、クロスモーダル表現を取得し、その後、視覚-テクスト的特徴にクロスモデルインタラクションを適用して、参照された対象と位置を事前に特定し、最終的に軽量セグメンテーションネットワークでセグメンテーション結果を生成する。 私たちのLTSはシンプルですが、驚くほど効果的です。 3つの一般的なベンチマークデータセットでは、LTSは従来の最先端のメソッド全てを大きなマージン(RefCOCO+では+3.2%、RefCOCOgでは+3.4%)で上回っている。 さらに,本モデルでは,対象を明示的に位置決めすることで解釈可能であり,可視化実験によっても証明できる。 このフレームワークは画像セグメンテーションの強力なベースラインとして機能することを約束しています。

Referring image segmentation aims to segment the objects referred by a natural language expression. Previous methods usually focus on designing an implicit and recurrent feature interaction mechanism to fuse the visual-linguistic features to directly generate the final segmentation mask without explicitly modeling the localization information of the referent instances. To tackle these problems, we view this task from another perspective by decoupling it into a "Locate-Then-Segment" (LTS) scheme. Given a language expression, people generally first perform attention to the corresponding target image regions, then generate a fine segmentation mask about the object based on its context. The LTS first extracts and fuses both visual and textual features to get a cross-modal representation, then applies a cross-model interaction on the visual-textual features to locate the referred object with position prior, and finally generates the segmentation result with a light-weight segmentation network. Our LTS is simple but surprisingly effective. On three popular benchmark datasets, the LTS outperforms all the previous state-of-the-art methods by a large margin (e.g., +3.2% on RefCOCO+ and +3.4% on RefCOCOg). In addition, our model is more interpretable with explicitly locating the object, which is also proved by visualization experiments. We believe this framework is promising to serve as a strong baseline for referring image segmentation.
翻訳日:2021-03-31 21:08:49 公開日:2021-03-30
# (参考訳) トランジットと疾患血液サンプルの識別のための単体テスト画像ベース自動機械学習システム

Single Test Image-Based Automated Machine Learning System for Distinguishing between Trait and Diseased Blood Samples ( http://arxiv.org/abs/2103.16285v1 )

ライセンス: CC BY 4.0
Sahar A. Nasser, Debjani Paul, and Suyash P. Awate(参考訳) そこで我々は, 携帯型顕微鏡の画質不良画像の病原細胞疾患の完全自動診断のための機械学習手法を提案する。 本手法は, 異常検体と異常検体のみを区別することに限定された従来の方法と異なり, 病型, 形質(キャリア), 正常検体とを区別することができる。 この手法の斬新さは、フィールドで直接キャプチャされた挑戦的な画像と特徴と病気のサンプルを区別することにある。 提案手法はセグメンテーション部と分類部との2つの部分を含む。 ランダムフォレストアルゴリズムを用いて,携帯電話型顕微鏡で取得した難解な画像を分割する。 次に、ランダムフォレスト(rf)とサポートベクターマシン(svm)に基づいて2つの分類器を訓練し、分類を行う。 その結果, 研究室で撮影された画像だけでなく, 現場で取得された画像に対しても, どちらの分類器も優れた性能を示した。

We introduce a machine learning-based method for fully automated diagnosis of sickle cell disease of poor-quality unstained images of a mobile microscope. Our method is capable of distinguishing between diseased, trait (carrier), and normal samples unlike the previous methods that are limited to distinguishing the normal from the abnormal samples only. The novelty of this method comes from distinguishing the trait and the diseased samples from challenging images that have been captured directly in the field. The proposed approach contains two parts, the segmentation part followed by the classification part. We use a random forest algorithm to segment such challenging images acquitted through a mobile phone-based microscope. Then, we train two classifiers based on a random forest (RF) and a support vector machine (SVM) for classification. The results show superior performances of both of the classifiers not only for images which have been captured in the lab, but also for the ones which have been acquired in the field itself.
翻訳日:2021-03-31 20:56:29 公開日:2021-03-30
# (参考訳) 事前学習型変換器を用いた知識グラフ認識デコーディングによる接地対話システム

Grounding Dialogue Systems via Knowledge Graph Aware Decoding with Pre-trained Transformers ( http://arxiv.org/abs/2103.16289v1 )

ライセンス: CC BY 4.0
Debanjan Chaudhuri, Md Rashad Al Hasan Rony, Jens Lehmann(参考訳) 目標と非目標指向の対話システムにおける知識基盤応答の生成は重要な研究課題である。 知識グラフ(KG)は現実世界の抽象化と見なすことができ、対話システムが知識に基づく応答を生成するのに役立つ可能性がある。 しかし、エンドツーエンドで対話生成プロセスにkgsを統合するのは簡単な作業です。 本稿では,マルチタスクのエンドツーエンド設定において,KGの要素を用いて応答を学習するBERTモデルをトレーニングすることにより,KGを応答生成プロセスに統合するアーキテクチャを提案する。 KGのkホップ部分グラフは、グラフラプラシアンのトレーニングと推論の間にモデルに組み込まれている。 経験的評価は、ゴール指向とゴール指向の対話の両方において、他の最先端モデルと比較して、モデルがより良い知識基盤(エンティティf1スコアによる測定)を達成することを示唆する。

Generating knowledge grounded responses in both goal and non-goal oriented dialogue systems is an important research challenge. Knowledge Graphs (KG) can be viewed as an abstraction of the real world, which can potentially facilitate a dialogue system to produce knowledge grounded responses. However, integrating KGs into the dialogue generation process in an end-to-end manner is a non-trivial task. This paper proposes a novel architecture for integrating KGs into the response generation process by training a BERT model that learns to answer using the elements of the KG (entities and relations) in a multi-task, end-to-end setting. The k-hop subgraph of the KG is incorporated into the model during training and inference using Graph Laplacian. Empirical evaluation suggests that the model achieves better knowledge groundedness (measured via Entity F1 score) compared to other state-of-the-art models for both goal and non-goal oriented dialogues.
翻訳日:2021-03-31 20:49:26 公開日:2021-03-30
# (参考訳) IoTにおけるネットワーク侵入検出のためのエッジTPUの探索

Exploring Edge TPU for Network Intrusion Detection in IoT ( http://arxiv.org/abs/2103.16295v1 )

ライセンス: CC BY 4.0
Seyedehfaezeh Hosseininoorbin, Siamak Layeghy, Mohanad Sarhan, Raja Jurdak, Marius Portmann(参考訳) 本稿では、ディープラーニングアプローチに基づいて、IoTのエッジに実用的なネットワーク侵入検知システム(NIDS)を実装するためのGoogleのEdge TPUについて検討する。 IoTエッジのための機械学習ベースのNIDSを探索する関連研究は相当数あるが、彼らは一般的に、必要な計算とエネルギーリソースの問題を考慮していない。 本稿では,IoTのエッジにおける深層学習に基づくNIDSの探索,特に計算とエネルギー効率について述べる。 特に、GoogleのEdge TPUをハードウェアプラットフォームとして研究し、計算(推論)時間、エネルギー効率、トラフィック分類性能の3つの重要な指標について考察する。 これら3つのメトリクスを調べるために、2つの主要なディープニューラルネットワークアーキテクチャの様々なスケールドモデルサイズが使用される。 Edge TPUベースの実装の性能は、エネルギー効率の良い組み込みCPU(ARM Cortex A53)と比較される。 実験の結果,CPUがEdge TPUを小型モデルで大幅に上回っていることなど,予期せぬ結果が得られた。

This paper explores Google's Edge TPU for implementing a practical network intrusion detection system (NIDS) at the edge of IoT, based on a deep learning approach. While there are a significant number of related works that explore machine learning based NIDS for the IoT edge, they generally do not consider the issue of the required computational and energy resources. The focus of this paper is the exploration of deep learning-based NIDS at the edge of IoT, and in particular the computational and energy efficiency. In particular, the paper studies Google's Edge TPU as a hardware platform, and considers the following three key metrics: computation (inference) time, energy efficiency and the traffic classification performance. Various scaled model sizes of two major deep neural network architectures are used to investigate these three metrics. The performance of the Edge TPU-based implementation is compared with that of an energy efficient embedded CPU (ARM Cortex A53). Our experimental evaluation shows some unexpected results, such as the fact that the CPU significantly outperforms the Edge TPU for small model sizes.
翻訳日:2021-03-31 20:36:13 公開日:2021-03-30
# (参考訳) 視覚トランスフォーマーの空間次元再考

Rethinking Spatial Dimensions of Vision Transformers ( http://arxiv.org/abs/2103.16302v1 )

ライセンス: CC BY-SA 4.0
Byeongho Heo, Sangdoo Yun, Dongyoon Han, Sanghyuk Chun, Junsuk Choe, Seong Joon Oh(参考訳) Vision Transformer (ViT)は、言語処理からコンピュータビジョンタスクまでのトランスフォーマーの応用範囲を、既存の畳み込みニューラルネットワーク(CNN)に対する代替アーキテクチャとして拡張する。 トランスフォーマーベースのアーキテクチャはコンピュータビジョンモデリングに革新的であるため、効果的なアーキテクチャに向けた設計規約はまだ研究されていない。 cnnの成功した設計原理から,空間次元変換の役割とトランスフォーマーアーキテクチャの有効性について検討する。 我々は,CNNの次元減少原理に特に参加し,深さが大きくなるにつれて,従来のCNNはチャネル次元を増大させ,空間次元を減少させる。 このような空間次元の縮小がトランスアーキテクチャにも有益であることを実証的に示し、オリジナルの ViT モデルに基づく新しいPooling-based Vision Transformer (PiT) を提案する。 モデル性能の向上とViTに対する一般化性能をPiTが実現していることを示す。 広範な実験を通じて,画像分類や物体検出,ロバスト性評価など,いくつかのタスクにおいてpitがベースラインを上回ることを示す。 ソースコードとimagenetモデルはhttps://github.com/naver-ai/pitで入手できる。

Vision Transformer (ViT) extends the application range of transformers from language processing to computer vision tasks as being an alternative architecture against the existing convolutional neural networks (CNN). Since the transformer-based architecture has been innovative for computer vision modeling, the design convention towards an effective architecture has been less studied yet. From the successful design principles of CNN, we investigate the role of the spatial dimension conversion and its effectiveness on the transformer-based architecture. We particularly attend the dimension reduction principle of CNNs; as the depth increases, a conventional CNN increases channel dimension and decreases spatial dimensions. We empirically show that such a spatial dimension reduction is beneficial to a transformer architecture as well, and propose a novel Pooling-based Vision Transformer (PiT) upon the original ViT model. We show that PiT achieves the improved model capability and generalization performance against ViT. Throughout the extensive experiments, we further show PiT outperforms the baseline on several tasks such as image classification, object detection and robustness evaluation. Source codes and ImageNet models are available at https://github.com/naver-ai/pit
翻訳日:2021-03-31 20:29:39 公開日:2021-03-30
# (参考訳) がん患者サブグループにおける表現型と遺伝的特徴の融合

Leveraging a Joint of Phenotypic and Genetic Features on Cancer Patient Subgrouping ( http://arxiv.org/abs/2103.16316v1 )

ライセンス: CC BY 4.0
David Oniani, Chen Wang, Yiqing Zhao, Andrew Wen, Hongfang Liu, Feichen Shen(参考訳) がんは毎年何百万人もの死者を負っている。 がん医学における重要な進歩はあったが、がん治療を改善するために多くの課題が解決されている。 適切ながん患者層化は適切な治療計画を選択するための必須条件であり、がん患者は異種遺伝子組換えと表現型の違いが知られている。 本研究では,マヨクリニック電子健康記録(ehrs)から抽出可能な深部表現型特徴と,がん患者集団の遺伝子検査結果を基に,癌患者サブグループ化のための表現型特徴と遺伝子特徴の結合を利用したシステムを開発した。 ワークフローは、機能前処理、がん患者分類、癌患者クラスタリングの3つの部分に分かれている。 機能前処理のステップでは、最も関連する機能を保ちながらフィルタリングを行いました。 がん患者の分類において, 患者特徴マトリックスの構築には合同分類の特徴を用い, ランダムフォレスト (rf), 決定木 (dt), サポートベクターマシン (svm), ナイーブベイズ (nb), ロジスティック回帰 (lr), 多層パーセプトロン (mlp), 勾配ブースティング (gb), 畳み込みニューラルネットワーク (cnn), フィードフォワードニューラルネットワーク (fnn) の9つの異なる機械学習モデルを適用した。 最後に, がん患者クラスタリングの段階において, 関節埋め込み機能と患者機能関連性を活用して, 非方向性特徴グラフを構築し, 癌特徴ノード埋め込みを訓練した。

Cancer is responsible for millions of deaths worldwide every year. Although significant progress has been achieved in cancer medicine, many issues remain to be addressed for improving cancer therapy. Appropriate cancer patient stratification is the prerequisite for selecting appropriate treatment plan, as cancer patients are of known heterogeneous genetic make-ups and phenotypic differences. In this study, built upon deep phenotypic characterizations extractable from Mayo Clinic electronic health records (EHRs) and genetic test reports for a collection of cancer patients, we developed a system leveraging a joint of phenotypic and genetic features for cancer patient subgrouping. The workflow is roughly divided into three parts: feature preprocessing, cancer patient classification, and cancer patient clustering based. In feature preprocessing step, we performed filtering, retaining the most relevant features. In cancer patient classification, we utilized joint categorical features to build a patient-feature matrix and applied nine different machine learning models, Random Forests (RF), Decision Tree (DT), Support Vector Machine (SVM), Naive Bayes (NB), Logistic Regression (LR), Multilayer Perceptron (MLP), Gradient Boosting (GB), Convolutional Neural Network (CNN), and Feedforward Neural Network (FNN), for classification purposes. Finally, in the cancer patient clustering step, we leveraged joint embeddings features and patient-feature associations to build an undirected feature graph and then trained the cancer feature node embeddings.
翻訳日:2021-03-31 20:15:40 公開日:2021-03-30
# (参考訳) モデルコンセンサス,説明可能性,自信学習によるimagenetデータセットの自動クリーンアップ

Automated Cleanup of the ImageNet Dataset by Model Consensus, Explainability and Confident Learning ( http://arxiv.org/abs/2103.16324v1 )

ライセンス: CC BY 4.0
Csaba Kert\'esz(参考訳) ILSVRC12 ImageNetでトレーニングされた畳み込みニューラルネットワーク(CNN)は、汎用分類器、特徴抽出器、転送学習のベースモデルとして様々なアプリケーションのバックボーンである。 本稿では,モデルのコンセンサス,説明可能性,自信のある学習に基づく自動ヒューリスティックスについて述べる。 これらのトレーニングと検証セットの変更を経て、ImageNet-Cleanは、SqueezeNetとEfficientNet-B0モデルのモデルパフォーマンスを2-2.4 %改善した。 結果は、より大きな画像コーパスと半教師付き学習の重要性を支持するが、学生に誤りや偏見を伝達しないように、元のデータセットを修正しなければならない。 さらに、ポートレートおよびランドスケープオリエンテーションにおけるワイドスクリーン入力解像度のトレーニング効果について述べる。 トレーニングされたモデルとスクリプトはgithubで公開されている(https://github.com/kecsap/imagenet-clean)。

The convolutional neural networks (CNNs) trained on ILSVRC12 ImageNet were the backbone of various applications as a generic classifier, a feature extractor or a base model for transfer learning. This paper describes automated heuristics based on model consensus, explainability and confident learning to correct labeling mistakes and remove ambiguous images from this dataset. After making these changes on the training and validation sets, the ImageNet-Clean improves the model performance by 2-2.4 % for SqueezeNet and EfficientNet-B0 models. The results support the importance of larger image corpora and semi-supervised learning, but the original datasets must be fixed to avoid transmitting their mistakes and biases to the student learner. Further contributions describe the training impacts of widescreen input resolutions in portrait and landscape orientations. The trained models and scripts are published on Github (https://github.com/kecsap/imagenet-clean) to clean up ImageNet and ImageNetV2 datasets for reproducible research.
翻訳日:2021-03-31 20:01:59 公開日:2021-03-30
# (参考訳) E-GraphSAGE: グラフニューラルネットワークによる侵入検知システム

E-GraphSAGE: A Graph Neural Network based Intrusion Detection System ( http://arxiv.org/abs/2103.16329v1 )

ライセンス: CC BY 4.0
Wai Weng Lo, Siamak Layeghy, Mohanad Sarhan, Marcus Gallagher, Marius Portmann(参考訳) 本稿では,グラフニューラルネットワーク(GNN)に基づく新しいネットワーク侵入検知システム(NIDS)を提案する。 GNNはディープニューラルネットワークの比較的新しいサブフィールドであり、グラフベースのデータ固有の構造を活用するユニークな能力を持っている。 NIDSのトレーニングと評価データは一般的にフローレコードとして表現され、グラフ形式で自然に表現できる。 これにより,ネットワーク侵入検出を目的としたGNNの探索の可能性とモチベーションが確立され,本論文の焦点となる。 e-graphsage,提案する新しいアプローチは確立されたgraphsageモデルに基づいているが,エッジ分類のエッジ機能をサポートするために必要な修正を提供し,ネットワークフローを良性クラスと攻撃クラスに分類する。 最近の6つのNIDSベンチマークデータセットに基づく広範な実験的評価は、最先端のNIDSと比較して、E-GraphSAGEベースのNIDSの優れた性能を示している。

This paper presents a new network intrusion detection system (NIDS) based on Graph Neural Networks (GNNs). GNNs are a relatively new sub-field of deep neural networks, which have the unique ability to leverage the inherent structure of graph-based data. Training and evaluation data for NIDSs are typically represented as flow records, which can naturally be represented in a graph format. This establishes the potential and motivation for exploring GNNs for the purpose of network intrusion detection, which is the focus of this paper. E-GraphSAGE, our proposed new approach is based on the established GraphSAGE model, but provides the necessary modifications in order to support edge features for edge classification, and hence the classification of network flows into benign and attack classes. An extensive experimental evaluation based on six recent NIDS benchmark datasets shows the excellent performance of our E-GraphSAGE based NIDS in comparison with the state-of-the-art.
翻訳日:2021-03-31 19:43:16 公開日:2021-03-30
# (参考訳) グラフニューラルネットワークを用いた信号処理の変分モデル

Variational models for signal processing with Graph Neural Networks ( http://arxiv.org/abs/2103.16337v1 )

ライセンス: CC BY 4.0
Amitoz Azad, Julien Rabin, and Abderrahim Elmoataz(参考訳) 本稿では,ニューラルネットワークを用いた点雲の信号処理について述べる。 現在、画像処理とコンピュータビジョンの最先端技術は、大データセット上の深い畳み込みニューラルネットワークのトレーニングに基づいている。 Graph Neural Networks (GNN) によるポイントクラウド処理のケースでもあるが、ShapeNetのようなラベル付きデータセットに対する教師あり学習を用いた分類やセグメンテーションといった高度なタスクに焦点が当てられている。 しかし、そのようなデータセットはターゲットのアプリケーションに依存するため、構築には時間がかかります。 本研究では,教師なし学習のためのグラフ上での信号処理におけるGNNの変分モデルの利用について検討する。 まず,GNNの特定の例であるMPN(Message Passing Networks)としてグラフ上の信号の変分に基づくアルゴリズムを定式化できることを示し,標準勾配に基づく機械学習アルゴリズムと比較して計算効率が良くなった。 次に,逆問題を直接最適化するか,変分に基づくMPNによるモデル蒸留により,フィードフォワードGNNの教師なし学習について検討する。 キーワード:グラフ処理。 ニューラルネットワーク。 全変種。 変分法。 メッセージパッシングネットワーク。 教師なし学習

This paper is devoted to signal processing on point-clouds by means of neural networks. Nowadays, state-of-the-art in image processing and computer vision is mostly based on training deep convolutional neural networks on large datasets. While it is also the case for the processing of point-clouds with Graph Neural Networks (GNN), the focus has been largely given to high-level tasks such as classification and segmentation using supervised learning on labeled datasets such as ShapeNet. Yet, such datasets are scarce and time-consuming to build depending on the target application. In this work, we investigate the use of variational models for such GNN to process signals on graphs for unsupervised learning.Our contributions are two-fold. We first show that some existing variational-based algorithms for signals on graphs can be formulated as Message Passing Networks (MPN), a particular instance of GNN, making them computationally efficient in practice when compared to standard gradient-based machine learning algorithms. Secondly, we investigate the unsupervised learning of feed-forward GNN, either by direct optimization of an inverse problem or by model distillation from variational-based MPN. Keywords:Graph Processing. Neural Network. Total Variation. Variational Methods. Message Passing Network. Unsupervised learning
翻訳日:2021-03-31 19:26:00 公開日:2021-03-30
# (参考訳) ニューラルネットワークを用いた固体構造物の波による損傷検出

Wave based damage detection in solid structures using artificial neural networks ( http://arxiv.org/abs/2103.16339v1 )

ライセンス: CC BY 4.0
Frank Wuttke, Hao Lyu, Amir S. Sattari and Zarghaam H. Rizvi(参考訳) 構造的損傷の特定は、現代経済においてますます重要な役割を担っており、インフラの監視が公共利用を維持するための最後のアプローチであることが多い。 従来の監視方法は専門の技術者を必要とし、主に時間を要する。 本研究は、ニューラルネットワークがトレーニングプロセスに基づいて構造特性の初期または変更を認識する能力について検討する。 ここでは、波動場パターン認識のための畳み込みニューラルネットワーク(CNN)、より具体的には波動場変化認識について述べる。 CNNモデルは、構造物内の亀裂発生後の伝播波場の変化を特定するために使用される。 本稿では, 動的格子モデルに基づいて, き裂検出精度を向上するために, 実装手法と必要な訓練手順について述べる。 モデルのトレーニングはまだ時間がかかるが,提案手法は従来型のモニタリング手法において,新たな亀裂検出や構造的健康モニタリング手法となる可能性が大きい。

The identification of structural damages takes a more and more important role within the modern economy, where often the monitoring of an infrastructure is the last approach to keep it under public use. Conventional monitoring methods require specialized engineers and are mainly time consuming. This research paper considers the ability of neural networks to recognize the initial or alteration of structural properties based on the training processes. The presented work here is based on Convolutional Neural Networks (CNN) for wave field pattern recognition, or more specifically the wave field change recognition. The CNN model is used to identify the change within propagating wave fields after a crack initiation within the structure. The paper describes the implemented method and the required training procedure to get a successful crack detection accuracy, where the training data are based on the dynamic lattice model. Although the training of the model is still time consuming, the proposed new method has an enormous potential to become a new crack detection or structural health monitoring approach within the conventional monitoring methods.
翻訳日:2021-03-31 19:13:01 公開日:2021-03-30
# (参考訳) 歴史的慣性:長い時系列予測のための無視されるが強力なベースライン

Historical Inertia: An Ignored but Powerful Baseline for Long Sequence Time-series Forecasting ( http://arxiv.org/abs/2103.16349v1 )

ライセンス: CC BY 4.0
Yue Cui, Jiandong Xie and Kai Zheng(参考訳) LSTF(Long sequence time-series forecasting)はその広範囲のアプリケーションで人気が高まっている。 予測の有効性と効率を高めるために優れたモデルが提案されているが、時系列の最も自然で基本的な時間的特性である履歴慣性(HI)を無視または過小評価することは無謀である。 本稿では,4つの公開実単語データセットに対する履歴慣性の影響を実験的に評価する。 その結果, HIを直接出力として採用しても, 最先端の作業よりも73%の相対的な改善が達成できた。

Long sequence time-series forecasting (LSTF) has become increasingly popular for its wide range of applications. Though superior models have been proposed to enhance the prediction effectiveness and efficiency, it is reckless to ignore or underestimate one of the most natural and basic temporal properties of time-series, the historical inertia (HI), which refers to the most recent data-points in the input time series. In this paper, we experimentally evaluate the power of historical inertia on four public real-word datasets. The results demonstrate that up to 73% relative improvement over state-of-the-art works can be achieved even by adopting HI directly as output.
翻訳日:2021-03-31 18:54:38 公開日:2021-03-30
# (参考訳) 弾性探索空間を用いた微分可能ネットワーク適応

Differentiable Network Adaption with Elastic Search Space ( http://arxiv.org/abs/2103.16350v1 )

ライセンス: CC BY 4.0
Shaopeng Guo, Yujie Wang, Kun Yuan, Quanquan Li(参考訳) 本稿では,ネットワークの幅と深さを異なる方法で調整することで,既存のネットワークを特定の計算予算に適応させることができる,微分可能ネットワーク適応(DNA)と呼ばれる新しいネットワーク適応手法を提案する。 勾配に基づく最適化により、dnaは以前のヒューリスティックな方法よりも、幅と深さの自動最適化を実現することができる。 さらに,最適化プロセス中に柔軟に凝縮あるいは拡張できる新しい弾性探索空間を提案し,双方向に幅と深さのネットワーク最適化を可能にした。 DNAにより、幅と深さの両次元を凝縮して拡張することで、ネットワークアーキテクチャの最適化に成功した。 ImageNetの大規模な実験では、DNAが既存のネットワークに適応して、異なる目的の計算要求を満たすことができ、従来の方法よりも優れた性能を発揮できることを示した。 さらにdnaは、efficiantnetやmobilenet-v3といった最先端のニューラルネットワーク検索手法によって得られた高精度ネットワークのパフォーマンスをさらに向上させることができる。

In this paper we propose a novel network adaption method called Differentiable Network Adaption (DNA), which can adapt an existing network to a specific computation budget by adjusting the width and depth in a differentiable manner. The gradient-based optimization allows DNA to achieve an automatic optimization of width and depth rather than previous heuristic methods that heavily rely on human priors. Moreover, we propose a new elastic search space that can flexibly condense or expand during the optimization process, allowing the network optimization of width and depth in a bi-direction manner. By DNA, we successfully achieve network architecture optimization by condensing and expanding in both width and depth dimensions. Extensive experiments on ImageNet demonstrate that DNA can adapt the existing network to meet different targeted computation requirements with better performance than previous methods. What's more, DNA can further improve the performance of high-accuracy networks obtained by state-of-the-art neural architecture search methods such as EfficientNet and MobileNet-v3.
翻訳日:2021-03-31 18:49:11 公開日:2021-03-30
# (参考訳) リアルタイム・エゴセントリックバーチャルリアリティのためのニューラルネットワークフィールド

Foveated Neural Radiance Fields for Real-Time and Egocentric Virtual Reality ( http://arxiv.org/abs/2103.16365v1 )

ライセンス: CC BY 4.0
Nianchen Deng and Zhenyi He and Jiannan Ye and Praneeth Chakravarthula and Xubo Yang and Qi Sun(参考訳) 従来の高品質な3dグラフィックは、レンダリングに大量の詳細なシーンデータを必要とする。 この要求は計算効率とローカルストレージ資源を損なう。 具体的には、将来のウェアラブルおよびポータブルバーチャルおよび拡張現実(VR/AR)ディスプレイについて、より重要になる。 この問題に対処する最近のアプローチには、リモートレンダリング/ストリーミングと3Dアセットのニューラル表現がある。 これらのアプローチは、分散コンピューティングや大規模データの圧縮によって、従来のローカルストレージレンダリングパイプラインを再定義した。 しかし、これらの方法は通常、大きな没入型仮想シーンを現実的に可視化するために高いレイテンシや低品質に苦しめられ、特にゲームやデザインのようなvrアプリケーションでは、さらに高い解像度とリフレッシュレートの要求がある。 将来の携帯型・低記憶型・省エネ型VRプラットフォームを目指して,我々は初めて視線を呈する3Dニューラル表現とビュー合成法を提案する。 視覚と立体視力の人間の心理物理学を3次元風景のエゴセントリックな神経表現に取り入れる。 さらに、人間の知覚と神経シーン合成を相互に橋渡ししながら、レイテンシ/パフォーマンスと視覚品質を共同で最適化し、知覚的に高品質な没入的相互作用を実現する。 客観的解析と主観的研究の両方が,局所記憶量と合成遅延を著しく削減する(データサイズと計算時間の両方を最大99%削減する)と同時に,完全局所記憶および高画質画像と同一の知覚的品質の高忠実性レンダリングを同時に提示する手法の有効性を実証した。

Traditional high-quality 3D graphics requires large volumes of fine-detailed scene data for rendering. This demand compromises computational efficiency and local storage resources. Specifically, it becomes more concerning for future wearable and portable virtual and augmented reality (VR/AR) displays. Recent approaches to combat this problem include remote rendering/streaming and neural representations of 3D assets. These approaches have redefined the traditional local storage-rendering pipeline by distributed computing or compression of large data. However, these methods typically suffer from high latency or low quality for practical visualization of large immersive virtual scenes, notably with extra high resolution and refresh rate requirements for VR applications such as gaming and design. Tailored for the future portable, low-storage, and energy-efficient VR platforms, we present the first gaze-contingent 3D neural representation and view synthesis method. We incorporate the human psychophysics of visual- and stereo-acuity into an egocentric neural representation of 3D scenery. Furthermore, we jointly optimize the latency/performance and visual quality, while mutually bridging human perception and neural scene synthesis, to achieve perceptually high-quality immersive interaction. Both objective analysis and subjective study demonstrate the effectiveness of our approach in significantly reducing local storage volume and synthesis latency (up to 99% reduction in both data size and computational time), while simultaneously presenting high-fidelity rendering, with perceptual quality identical to that of fully locally stored and rendered high-quality imagery.
翻訳日:2021-03-31 18:29:25 公開日:2021-03-30
# (参考訳) 分散アライメント:ロングテール視覚認識のための統一フレームワーク

Distribution Alignment: A Unified Framework for Long-tail Visual Recognition ( http://arxiv.org/abs/2103.16370v1 )

ライセンス: CC BY 4.0
Songyang Zhang, Zeming Li, Shipeng Yan, Xuming He, Jian Sun(参考訳) 近年のディープニューラルネットワークの成功にもかかわらず、視覚認識タスクのロングテールクラス分布を効果的にモデル化することは依然として困難である。 この問題に対処するため,まず2段階学習フレームワークの性能ボトルネックをアブレーティブスタディを用いて検討する。 この発見に動機づけられて,ロングテール視覚認識のための統一分布アライメント戦略を提案する。 具体的には,各データポイントの分類スコアを調整可能な適応キャリブレーション関数を開発した。 次に,2段階学習における一般化された再重み付け手法を導入し,視覚認識タスクの多様なシナリオに対して,柔軟で統一されたソリューションを提供する。 画像分類,セマンティックセグメンテーション,オブジェクト検出,インスタンスセグメンテーションの4つのタスクについて,広範囲にわたる実験により検証を行った。 提案手法は, 4つの認識タスクすべてにおいて, 単純で統一されたフレームワークを用いて最先端の結果を得る。 コードとモデルは、https://github.com/Megvii-BaseDetection/DisAlignで公開されます。

Despite the recent success of deep neural networks, it remains challenging to effectively model the long-tail class distribution in visual recognition tasks. To address this problem, we first investigate the performance bottleneck of the two-stage learning framework via ablative study. Motivated by our discovery, we propose a unified distribution alignment strategy for long-tail visual recognition. Specifically, we develop an adaptive calibration function that enables us to adjust the classification scores for each data point. We then introduce a generalized re-weight method in the two-stage learning to balance the class prior, which provides a flexible and unified solution to diverse scenarios in visual recognition tasks. We validate our method by extensive experiments on four tasks, including image classification, semantic segmentation, object detection, and instance segmentation. Our approach achieves the state-of-the-art results across all four recognition tasks with a simple and unified framework. The code and models will be made publicly available at: https://github.com/Megvii-BaseDetection/DisAlign
翻訳日:2021-03-31 18:09:57 公開日:2021-03-30
# (参考訳) エンドツーエンド制約付き最適化学習:調査

End-to-End Constrained Optimization Learning: A Survey ( http://arxiv.org/abs/2103.16378v1 )

ライセンス: CC BY 4.0
James Kotary, Ferdinando Fioretto, Pascal Van Hentenryck, Bryan Wilder(参考訳) 本稿では,機械学習を活用した制約付き最適化問題の解法について検討する。 組合せソルバと最適化メソッドを機械学習アーキテクチャに統合する作業の調査に重点を置いている。 これらのアプローチは、組合せ問題の高速で近似的な解を予測し、構造的論理推論を可能にするために、新しいハイブリッド機械学習と最適化手法を開発することを約束している。 本稿では,この新興領域における最近の進歩に関する概念的考察を紹介する。

This paper surveys the recent attempts at leveraging machine learning to solve constrained optimization problems. It focuses on surveying the work on integrating combinatorial solvers and optimization methods with machine learning architectures. These approaches hold the promise to develop new hybrid machine learning and optimization methods to predict fast, approximate, solutions to combinatorial problems and to enable structural logical inference. This paper presents a conceptual review of the recent advancements in this emerging area.
翻訳日:2021-03-31 17:45:19 公開日:2021-03-30
# (参考訳) オンライン2次元テキストとしてのELMo埋め込み表現

Representing ELMo embeddings as two-dimensional text online ( http://arxiv.org/abs/2103.16414v1 )

ライセンス: CC BY 4.0
Andrey Kutuzov and Elizaveta Kuzmenko(参考訳) 本稿では,Web上の単語埋め込みモデルを提供するWebVectorsツールキットの新たな追加について述べる。 新しいELMoVizモジュールは、特にELMoモデルにおいて、コンテキスト化された埋め込みアーキテクチャのサポートを追加する。 提供された可視化は、語彙代名詞を示すことによって「二次元テキスト」のメタファーに従う:入力文の単語と文脈的に最もよく似た単語。 このシステムでは、トークンの埋め込みが推測されるELMo層を変更することができる。 また、クエリワードとその語彙代用語(すなわち、周波数階層と音声の一部)に関するコーパス情報を伝達する。 このモジュールはwebvectors toolkitの他の部分とよく統合されており、静的埋め込みモデルにおける単語表現への語彙ハイパーリンクを提供する。 2つのwebサービスはすでに、ロシア語、ノルウェー語、英語向けに事前訓練されたelmoモデルで、新しい機能を実装している。

We describe a new addition to the WebVectors toolkit which is used to serve word embedding models over the Web. The new ELMoViz module adds support for contextualized embedding architectures, in particular for ELMo models. The provided visualizations follow the metaphor of `two-dimensional text' by showing lexical substitutes: words which are most semantically similar in context to the words of the input sentence. The system allows the user to change the ELMo layers from which token embeddings are inferred. It also conveys corpus information about the query words and their lexical substitutes (namely their frequency tiers and parts of speech). The module is well integrated into the rest of the WebVectors toolkit, providing lexical hyperlinks to word representations in static embedding models. Two web services have already implemented the new functionality with pre-trained ELMo models for Russian, Norwegian and English.
翻訳日:2021-03-31 17:27:23 公開日:2021-03-30
# (参考訳) Chatbotをインターロケータシューズに組み込む - 意図に反応するChatbotを学習するためのフレームワーク

Put Chatbot into Its Interlocutor's Shoes: New Framework to Learn Chatbot Responding with Intention ( http://arxiv.org/abs/2103.16429v1 )

ライセンス: CC BY-SA 4.0
Hsuan Su, Jiun-Hao Jhan, Fan-yun Sun, Sauray Sahay, Hung-yi Lee(参考訳) チャットボットの文学の多くは、チャットボットの流動性とコヒーレンスを改善することに焦点を当てており、チャットボットをより人間らしくすることに注力している。 しかし、人間とチャットボットを本当に区別するものは、ほとんどない -- 人間は、反応が対話者に与える影響を本質的に理解し、対話者の気分を改善するために楽観的な視点を提案するなど、しばしば反応する。 本稿では,人間のような意図を持つチャットボットを訓練するための革新的な枠組みを提案する。 我々のフレームワークには、人間の役割を担う案内チャットボットとインターロケータモデルが含まれている。 案内チャットボットは、意図を割り当て、その意図に合致した応答、例えば、長い応答、喜びの応答、特定の単語による応答など、対話者に応答を促すことを学ぶ。 3つの実験的な設定を用いてフレームワークを検証し、柔軟性と性能の利点を示すために、4つの異なるメトリクスでガイドボットを評価する。 さらに,人間評価の結果は,特定の程度にヒトの反応に影響を与える指導的チャットボットの有効性を十分に裏付けるものである。 コードは一般公開される予定だ。

Most chatbot literature focuses on improving the fluency and coherence of a chatbot, is dedicated to making chatbots more human-like. However, very little work delves into what really separates humans from chatbots -- humans intrinsically understand the effect their responses have on the interlocutor and often respond with an intention such as proposing an optimistic view to make the interlocutor feel better. This paper proposes an innovative framework to train chatbots to possess human-like intentions. Our framework includes a guiding chatbot and an interlocutor model that plays the role of humans. The guiding chatbot is assigned an intention and learns to induce the interlocutor to reply with responses matching the intention, for example, long responses, joyful responses, responses with specific words, etc. We examine our framework using three experimental setups and evaluate the guiding chatbot with four different metrics to demonstrate flexibility and performance advantages. Additionally, human evaluation results sufficiently substantiate the guiding chatbot's effectiveness in influencing humans' responses to a certain extent. Code will be made available to the public.
翻訳日:2021-03-31 17:20:03 公開日:2021-03-30
# (参考訳) ロボット協調環境におけるユーザプロファイル駆動型大規模マルチエージェント学習

User profile-driven large-scale multi-agent learning from demonstration in federated human-robot collaborative environments ( http://arxiv.org/abs/2103.16434v1 )

ライセンス: CC BY 4.0
Georgios Th. Papadopoulos, Asterios Leonidis, Margherita Antona, Constantine Stephanidis(参考訳) learning from demonstration(lfd)は、人間の教師からロボットにスキルを効率的に移すための主要なパラダイムとして確立されている。 この文脈において、フェデレーション・ラーニング(fl)の概念化は、近年、多エージェント学習や長期的な自律性といった重要な課題にロバストに対処すべく、大規模な人間とロボットの協調環境を開発するために導入された。 現在の研究では、Deep Learning(DL)ベースのフォーマリズムを採用して、展示された人間の行動のきめ細かい表現を提供する新しいユーザープロファイルの定式化を設計し、統合することにより、後者のスキームをさらに拡張・拡張する。 特に、a) ユーザ属性(例えば、)を含む重要な情報ソースの階層的に整理されたセットが検討される。 人口統計、人格化、教育などです ) b) ユーザ状態(例えば、) 疲労検知、ストレス検出、感情認識など c)心理生理的測定(例) 視線、電磁気活動、心拍数など 関連データ。 次に、モデリングステップとして、ニューラルネットワークアーキテクチャを適切に定義したlong short-term memory(lstm)とstacked autoencoderの組み合わせを用いる。 総合的な設計手法により、(フィードバック取得セッション中に観察されたように)人間の行動の短期的および長期的分析/解釈を可能とし、同一および異なる人間教師からの情報を集約する場合に、収集されたフィードバックサンプルの重要性を適応的に調整する。

Learning from Demonstration (LfD) has been established as the dominant paradigm for efficiently transferring skills from human teachers to robots. In this context, the Federated Learning (FL) conceptualization has very recently been introduced for developing large-scale human-robot collaborative environments, targeting to robustly address, among others, the critical challenges of multi-agent learning and long-term autonomy. In the current work, the latter scheme is further extended and enhanced, by designing and integrating a novel user profile formulation for providing a fine-grained representation of the exhibited human behavior, adopting a Deep Learning (DL)-based formalism. In particular, a hierarchically organized set of key information sources is considered, including: a) User attributes (e.g. demographic, anthropomorphic, educational, etc.), b) User state (e.g. fatigue detection, stress detection, emotion recognition, etc.) and c) Psychophysiological measurements (e.g. gaze, electrodermal activity, heart rate, etc.) related data. Then, a combination of Long Short-Term Memory (LSTM) and stacked autoencoders, with appropriately defined neural network architectures, is employed for the modelling step. The overall designed scheme enables both short- and long-term analysis/interpretation of the human behavior (as observed during the feedback capturing sessions), so as to adaptively adjust the importance of the collected feedback samples when aggregating information originating from the same and different human teachers, respectively.
翻訳日:2021-03-31 17:06:50 公開日:2021-03-30
# (参考訳) SIMstack: 順序のないオブジェクトスタックのための生成形状とインスタンスモデル

SIMstack: A Generative Shape and Instance Model for Unordered Object Stacks ( http://arxiv.org/abs/2103.16442v1 )

ライセンス: CC BY 4.0
Zoe Landgraf, Raluca Scona, Tristan Laidlow, Stephen James, Stefan Leutenegger, Andrew J. Davison(参考訳) 単一ビューから3次元形状とインスタンスを推定することにより、包括的スキャンやマルチビュー融合を必要とせずに、環境に関する情報を素早く取得できる。 複合シーン(オブジェクトスタックなど)に対するこのタスクの解決は難しい: 隠蔽された領域は、形があいまいであるだけでなく、インスタンスのセグメンテーションにおいても、複数の分解が有効である。 物理シミュレーションでは, 隠蔽領域の分解や形状を制約し, 物理シミュレーションで構築したシーンから学習した潜伏空間が, 隠蔽領域の形状や事例の予測に先立って有効であると仮定する。 この目的のために我々は,物理シミュレーションで積み重ねられたオブジェクトのデータセット上でトレーニングされた,奥行き条件付き変分オートエンコーダ(vae)であるsimstackを提案する。 インスタンスセグメンテーションを中心投票タスクとして定式化し、クラスに依存しない検出を可能にし、シーン内のオブジェクトの最大数を設定する必要がない。 テスト時には,学習した潜伏空間から隠蔽領域の提案を確率的にサンプリングし,単一の深度ビューから3次元形状とインスタンスセグメンテーションを生成する。 本手法は,ロボットに部分的に観察されたシーンを素早く直感的に推論する能力を与えるための実用的応用である。 単一深度ビューから未知の物体を正確に(非破壊的に)把握するための応用を実証する。

By estimating 3D shape and instances from a single view, we can capture information about an environment quickly, without the need for comprehensive scanning and multi-view fusion. Solving this task for composite scenes (such as object stacks) is challenging: occluded areas are not only ambiguous in shape but also in instance segmentation; multiple decompositions could be valid. We observe that physics constrains decomposition as well as shape in occluded regions and hypothesise that a latent space learned from scenes built under physics simulation can serve as a prior to better predict shape and instances in occluded regions. To this end we propose SIMstack, a depth-conditioned Variational Auto-Encoder (VAE), trained on a dataset of objects stacked under physics simulation. We formulate instance segmentation as a centre voting task which allows for class-agnostic detection and doesn't require setting the maximum number of objects in the scene. At test time, our model can generate 3D shape and instance segmentation from a single depth view, probabilistically sampling proposals for the occluded region from the learned latent space. Our method has practical applications in providing robots some of the ability humans have to make rapid intuitive inferences of partially observed scenes. We demonstrate an application for precise (non-disruptive) object grasping of unknown objects from a single depth view.
翻訳日:2021-03-31 16:50:37 公開日:2021-03-30
# (参考訳) 最適輸送によるロバスト化条件ポートフォリオ決定

Robustifying Conditional Portfolio Decisions via Optimal Transport ( http://arxiv.org/abs/2103.16451v1 )

ライセンス: CC BY 4.0
Viet Anh Nguyen, Fan Zhang, Jose Blanchet, Erick Delage, Yinyu Ye(参考訳) 本稿では,分散的ロバスト最適化の枠組みを用いて,側面情報,条件推定,ロバスト性を統合するデータ駆動ポートフォリオ選択モデルを提案する。 観測された側情報に基づいて、ポートフォリオマネージャは、最適な輸送曖昧性セットにおける共変回帰確率分布のあらゆる可能性の摂動を考慮して、最悪の条件付きリスク・リターントレードオフを最小化する割り当て問題を解決する。 確率測度における目的関数の非線形性にも拘わらず, 分布的ロバストなポートフォリオ配置を有限次元最適化問題として再構成できることを示した。 もしポートフォリオの決定が平均分散または平均連続値-アット・リスク基準に基づいてなされた場合、その結果の改革は2階または半確定コーンプログラムにさらに単純化される。 米国と中国の株式市場における実証研究は、他のベンチマークに対する統合的枠組みの利点を示しています。

We propose a data-driven portfolio selection model that integrates side information, conditional estimation and robustness using the framework of distributionally robust optimization. Conditioning on the observed side information, the portfolio manager solves an allocation problem that minimizes the worst-case conditional risk-return trade-off, subject to all possible perturbations of the covariate-return probability distribution in an optimal transport ambiguity set. Despite the non-linearity of the objective function in the probability measure, we show that the distributionally robust portfolio allocation with side information problem can be reformulated as a finite-dimensional optimization problem. If portfolio decisions are made based on either the mean-variance or the mean-Conditional Value-at-Risk criterion, the resulting reformulation can be further simplified to second-order or semi-definite cone programs. Empirical studies in the US and Chinese equity markets demonstrate the advantage of our integrative framework against other benchmarks.
翻訳日:2021-03-31 16:32:33 公開日:2021-03-30
# (参考訳) ビデオに基づく人物再識別のための時空間変換器

Spatiotemporal Transformer for Video-based Person Re-identification ( http://arxiv.org/abs/2103.16469v1 )

ライセンス: CC BY 4.0
Tianyu Zhang, Longhui Wei, Lingxi Xie, Zijie Zhuang, Yongfei Zhang, Bo Li, Qi Tian(参考訳) 近年,Transformerモジュールは自然言語処理からコンピュータビジョンへ移植されている。 本論文は,ビデオベースの人物再同定にトランスフォーマーを適用し,トラックレットから識別情報を抽出することを目的としている。 強い学習能力にもかかわらず、バニラトランスフォーマは、多量の注意パラメータと不十分なトレーニングデータのために、過剰フィッティングのリスクが増大していることが示されている。 そこで本研究では,合成ビデオデータの集合上でモデルを事前学習し,知覚拘束時空間トランスフォーマ (stt) モジュールとグローバルトランスフォーマ (gt) モジュールを用いて下流領域に伝達する新しいパイプラインを提案する。 得られたアルゴリズムは,MARS, DukeMTMC-VideoReID, LS-VIDの3つの人気ビデオベース人物識別ベンチマークにおいて, トレーニングデータとテストデータが異なる領域からのものである場合において, 大幅な精度向上を実現する。 より重要なことに、我々の研究は、高度に構造化された視覚データへのトランスフォーマーの適用に光を当てている。

Recently, the Transformer module has been transplanted from natural language processing to computer vision. This paper applies the Transformer to video-based person re-identification, where the key issue is to extract the discriminative information from a tracklet. We show that, despite the strong learning ability, the vanilla Transformer suffers from an increased risk of over-fitting, arguably due to a large number of attention parameters and insufficient training data. To solve this problem, we propose a novel pipeline where the model is pre-trained on a set of synthesized video data and then transferred to the downstream domains with the perception-constrained Spatiotemporal Transformer (STT) module and Global Transformer (GT) module. The derived algorithm achieves significant accuracy gain on three popular video-based person re-identification benchmarks, MARS, DukeMTMC-VideoReID, and LS-VID, especially when the training and testing data are from different domains. More importantly, our research sheds light on the application of the Transformer on highly-structured visual data.
翻訳日:2021-03-31 16:31:18 公開日:2021-03-30
# (参考訳) 深度条件付き動的メッセージ伝搬によるモノクロ3次元物体検出

Depth-conditioned Dynamic Message Propagation for Monocular 3D Object Detection ( http://arxiv.org/abs/2103.16470v1 )

ライセンス: CC BY 4.0
Li Wang, Liang Du, Xiaoqing Ye, Yanwei Fu, Guodong Guo, Xiangyang Xue, Jianfeng Feng, Li Zhang(参考訳) 本研究の目的は,モノクロ3次元物体検出の課題を解決するために,文脈・奥行き認識特徴表現を学習することである。 We make following contributions: (i) rather than appealing to the complicated pseudo-LiDAR based approach, we propose a depth-conditioned dynamic message propagation (DDMP) network to effectively integrate the multi-scale depth information with the image context;(ii) this is achieved by first adaptively sampling context-aware nodes in the image context and then dynamically predicting hybrid depth-dependent filter weights and affinity matrices for propagating information; (iii) by augmenting a center-aware depth encoding (CDE) task, our method successfully alleviates the inaccurate depth prior; (iv) we thoroughly demonstrate the effectiveness of our proposed approach and show state-of-the-art results among the monocular-based approaches on the KITTI benchmark dataset. 特に、提出日(2020年11月16日)には、競争の激しいkitti monocular 3d object detection trackで$1^{st}$をランク付けしました。 コードとモデルは \url{https://github.com/fudan-zvg/DDMP} でリリースされる。

The objective of this paper is to learn context- and depth-aware feature representation to solve the problem of monocular 3D object detection. We make following contributions: (i) rather than appealing to the complicated pseudo-LiDAR based approach, we propose a depth-conditioned dynamic message propagation (DDMP) network to effectively integrate the multi-scale depth information with the image context;(ii) this is achieved by first adaptively sampling context-aware nodes in the image context and then dynamically predicting hybrid depth-dependent filter weights and affinity matrices for propagating information; (iii) by augmenting a center-aware depth encoding (CDE) task, our method successfully alleviates the inaccurate depth prior; (iv) we thoroughly demonstrate the effectiveness of our proposed approach and show state-of-the-art results among the monocular-based approaches on the KITTI benchmark dataset. Particularly, we rank $1^{st}$ in the highly competitive KITTI monocular 3D object detection track on the submission day (November 16th, 2020). Code and models are released at \url{https://github.com/fudan-zvg/DDMP}
翻訳日:2021-03-31 16:17:21 公開日:2021-03-30
# (参考訳) 最適化ノード埋め込みによる多層グラフクラスタリング

Multilayer Graph Clustering with Optimized Node Embedding ( http://arxiv.org/abs/2103.16534v1 )

ライセンス: CC BY 4.0
Mireille El Gheche, Pascal Frossard(参考訳) グラフノードをカテゴリやコミュニティに分割することを目的とした多層グラフクラスタリングに興味があります。 そこで本研究では,与えられた多層グラフの層に対する忠実性項を含む最適化問題と,その埋め込みによって引き起こされる(単層)グラフの正則化を解決し,クラスタリングに優しいグラフノード埋め込みを実現することを提案する。 フィデリティ項は対照的な損失を使い、観測された層を適切に集約して代表埋め込みにする。 正規化は、ばらばらでコミュニティ対応のグラフをプッシュし、「効果的な抵抗」と呼ばれるグラフスパーシフィケーションの尺度と、代表グラフラプラシアン行列の最初の数個の固有値のペナルティ化を基調とし、コミュニティの形成を優先する。 提案する最適化問題は非凸だが完全微分可能であり, 降下勾配法を用いて解くことができる。 実験により,本手法が有意な改善をもたらすことが示された。 最先端多層グラフクラスタリングアルゴリズム。

We are interested in multilayer graph clustering, which aims at dividing the graph nodes into categories or communities. To do so, we propose to learn a clustering-friendly embedding of the graph nodes by solving an optimization problem that involves a fidelity term to the layers of a given multilayer graph, and a regularization on the (single-layer) graph induced by the embedding. The fidelity term uses the contrastive loss to properly aggregate the observed layers into a representative embedding. The regularization pushes for a sparse and community-aware graph, and it is based on a measure of graph sparsification called "effective resistance", coupled with a penalization of the first few eigenvalues of the representative graph Laplacian matrix to favor the formation of communities. The proposed optimization problem is nonconvex but fully differentiable, and thus can be solved via the descent gradient method. Experiments show that our method leads to a significant improvement w.r.t. state-of-the-art multilayer graph clustering algorithms.
翻訳日:2021-03-31 15:58:58 公開日:2021-03-30
# (参考訳) 動的視覚推論による物体と事象の物理概念の接地

Grounding Physical Concepts of Objects and Events Through Dynamic Visual Reasoning ( http://arxiv.org/abs/2103.16564v1 )

ライセンス: CC0 1.0
Zhenfang Chen, Jiayuan Mao, Jiajun Wu, Kwan-Yee Kenneth Wong, Joshua B. Tenenbaum, Chuang Gan(参考訳) 生ビデオにおける動的視覚的推論の問題について検討する。 これは難しい問題であり、現在最先端のモデルでは、しばしば実生活では得られない物理的物体の性質やシミュレーションからの事象を厳密に監視する必要がある。 本稿では,映像と言語から物理オブジェクトとイベントを対象とする統合フレームワークであるdynamic concept learner(dcl)について述べる。 DCLはまず軌道抽出器を採用し、時間とともに各オブジェクトを追跡し、潜在的、オブジェクト中心の特徴ベクトルとして表現する。 このオブジェクト中心表現に基づいて、DCLはグラフネットワークを用いてオブジェクト間の動的相互作用を近似することを学ぶ。 さらに、dclにはセマンティックパーサが組み込まれており、質問をセマンティックプログラムに解析し、最終的にプログラム実行者がプログラムを実行して質問に答え、学習したダイナミクスモデルをレバーする。 トレーニング後、dclはフレーム間のオブジェクトの検出と関連付け、イベント間の因果関係の理解、未来と反事実の予測、これらの抽出したプレゼンテーションをクエリへの応答に活用することができる。 dclは、トレーニングのシミュレーションから地上属性や衝突ラベルを使わずに、挑戦的な因果的ビデオ推論データセットであるclevrerで最先端のパフォーマンスを達成している。 さらに,新たに提案するclevrerから派生したビデオリトライバルおよびイベントローカライズデータセット上でdclをテストし,その強力な一般化能力を示した。

We study the problem of dynamic visual reasoning on raw videos. This is a challenging problem; currently, state-of-the-art models often require dense supervision on physical object properties and events from simulation, which are impractical to obtain in real life. In this paper, we present the Dynamic Concept Learner (DCL), a unified framework that grounds physical objects and events from video and language. DCL first adopts a trajectory extractor to track each object over time and to represent it as a latent, object-centric feature vector. Building upon this object-centric representation, DCL learns to approximate the dynamic interaction among objects using graph networks. DCL further incorporates a semantic parser to parse questions into semantic programs and, finally, a program executor to run the program to answer the question, levering the learned dynamics model. After training, DCL can detect and associate objects across the frames, ground visual properties, and physical events, understand the causal relationship between events, make future and counterfactual predictions, and leverage these extracted presentations for answering queries. DCL achieves state-of-the-art performance on CLEVRER, a challenging causal video reasoning dataset, even without using ground-truth attributes and collision labels from simulations for training. We further test DCL on a newly proposed video-retrieval and event localization dataset derived from CLEVRER, showing its strong generalization capacity.
翻訳日:2021-03-31 15:40:21 公開日:2021-03-30
# 弾性 Lottery Ticket仮説

The Elastic Lottery Ticket Hypothesis ( http://arxiv.org/abs/2103.16547v1 )

ライセンス: Link先を確認
Xiaohan Chen, Yu Cheng, Shuohang Wang, Zhe Gan, Jingjing Liu, Zhangyang Wang(参考訳) Lottery Ticket hypothesisは、トレーニングの初期(または初期段階)において、未成熟のトレーニング可能なサブネットやチケットを特定することに注意を向ける。 多くの努力にもかかわらず、入賞チケットを特定する最も効果的な方法は、計算コストが高く、異なるネットワークごとに徹底的に実行されなければならない反復的マグニチュードベースのプルーニング(imp)である。 自然な疑問として、あるネットワークにある勝利チケットを別のアーキテクチャで別のネットワークに“変換”して、コストの高いimpをやり直すことなく、最初に後者の勝利チケットを得ることができるか、といったことが挙げられます。 この質問に答えることは、効率的な"すべて"の入賞チケットを見つけることだけでなく、理論上、ネットワーク内の本質的にスケーラブルなスパースパターンを明らかにすることにも意味がある。 我々はCIFAR-10とImageNetの広範な実験を行い、同じモデルファミリーの異なるネットワーク(例えばResNets)から得られる当選チケットを微調整する様々な戦略を提案する。 これらの結果に基づき、我々はElastic Lottery Ticket hypothesis (E-LTH): 一つのネットワークに対してレイヤーを慎重に複製(またはドロップ)し、再注文することで、対応する当選チケットを、IMPが直接見つけるようなパフォーマンスを持つ、同じファミリーのより深い(またはより浅い)ネットワークのサブネットワークに拡張(または圧縮)することができる。 また,E-LTHをpruning-at-initializationおよび動的スパーストレーニング法と徹底的に比較し,モデルファミリ,層タイプ,さらにはデータセット全体に対するE-LTHの一般化可能性について議論した。 私たちのコードはhttps://github.com/VITA-Group/ElasticLTHで公開されています。

Lottery Ticket Hypothesis raises keen attention to identifying sparse trainable subnetworks or winning tickets, at the initialization (or early stage) of training, which can be trained in isolation to achieve similar or even better performance compared to the full models. Despite many efforts being made, the most effective method to identify such winning tickets is still Iterative Magnitude-based Pruning (IMP), which is computationally expensive and has to be run thoroughly for every different network. A natural question that comes in is: can we "transform" the winning ticket found in one network to another with a different architecture, yielding a winning ticket for the latter at the beginning, without re-doing the expensive IMP? Answering this question is not only practically relevant for efficient "once-for-all" winning ticket finding, but also theoretically appealing for uncovering inherently scalable sparse patterns in networks. We conduct extensive experiments on CIFAR-10 and ImageNet, and propose a variety of strategies to tweak the winning tickets found from different networks of the same model family (e.g., ResNets). Based on these results, we articulate the Elastic Lottery Ticket Hypothesis (E-LTH): by mindfully replicating (or dropping) and re-ordering layers for one network, its corresponding winning ticket could be stretched (or squeezed) into a subnetwork for another deeper (or shallower) network from the same family, whose performance is nearly as competitive as the latter's winning ticket directly found by IMP. We have also thoroughly compared E-LTH with pruning-at-initialization and dynamic sparse training methods, and discuss the generalizability of E-LTH to different model families, layer types, and even across datasets. Our codes are publicly available at https://github.com/VITA-Group/ElasticLTH.
翻訳日:2021-03-31 15:17:10 公開日:2021-03-30
# 視覚と言語によるナビゲーションの診断:本当に重要なこと

Diagnosing Vision-and-Language Navigation: What Really Matters ( http://arxiv.org/abs/2103.16561v1 )

ライセンス: Link先を確認
Wanrong Zhu, Yuankai Qi, Pradyumna Narayana, Kazoo Sone, Sugato Basu, Xin Eric Wang, Qi Wu, Miguel Eckstein, William Yang Wang(参考訳) 視覚言語ナビゲーション(VLN)は、エージェントが自然言語の指示に従って視覚環境をナビゲートするマルチモーダルタスクである。 複数のセットアップが提案されており、研究者はナビゲーション性能を向上させるために新しいモデルアーキテクチャやトレーニング技術を適用する。 しかし、最近の研究では、室内および屋外のVLNタスクのパフォーマンス改善が遅くなり、エージェントがナビゲーション決定を行うための内部メカニズムが不明確になっている。 私たちの知る限りでは、エージェントがマルチモーダル入力を知覚する方法は十分に研究されておらず、明らかに調査が必要です。 本研究では,ナビゲーション中のエージェントの焦点を明らかにするための一連の診断実験を行う。 その結果,屋内ナビゲーションエージェントは,指示中のオブジェクトトークンと方向トークンの両方を参照していることがわかった。 対照的に、屋外ナビゲーションエージェントは方向トークンに大きく依存しており、オブジェクトトークンの理解が不十分である。 さらに、単に周囲の物体を見つめるのではなく、屋内ナビゲーションエージェントは現在の視点から物体を視認することができる。 視覚と言語間のアライメントに関しては、多くのモデルがオブジェクトトークンを特定の視覚ターゲットにアライメントできると主張しているが、そのようなアライメントの信頼性に疑問を投げかけている。

Vision-and-language navigation (VLN) is a multimodal task where an agent follows natural language instructions and navigates in visual environments. Multiple setups have been proposed, and researchers apply new model architectures or training techniques to boost navigation performance. However, recent studies witness a slow-down in the performance improvements in both indoor and outdoor VLN tasks, and the agents' inner mechanisms for making navigation decisions remain unclear. To the best of our knowledge, the way the agents perceive the multimodal input is under-studied and clearly needs investigations. In this work, we conduct a series of diagnostic experiments to unveil agents' focus during navigation. Results show that indoor navigation agents refer to both object tokens and direction tokens in the instruction when making decisions. In contrast, outdoor navigation agents heavily rely on direction tokens and have a poor understanding of the object tokens. Furthermore, instead of merely staring at surrounding objects, indoor navigation agents can set their sights on objects further from the current viewpoint. When it comes to vision-and-language alignments, many models claim that they are able to align object tokens with certain visual targets, but we cast doubt on the reliability of such alignments.
翻訳日:2021-03-31 15:16:36 公開日:2021-03-30
# SPatchGAN:教師なし画像翻訳のための統計的特徴量に基づく判別器

SPatchGAN: A Statistical Feature Based Discriminator for Unsupervised Image-to-Image Translation ( http://arxiv.org/abs/2103.16219v1 )

ライセンス: Link先を確認
Xuning Shao, Weidong Zhang(参考訳) 教師なし画像画像変換では,個々のパッチではなく,統計的特徴に着目した識別器アーキテクチャを提案する。 ネットワークは、複数のスケールで重要な統計特徴の分布マッチングによって安定化される。 ジェネレータにより多くの制約を課す既存の方法とは異なり、本手法は形状変形を容易にし、非常に単純化されたフレームワークで細部を強化する。 提案手法は, 自撮りアニメ, 男性向け, メガネ除去など, 既存の最先端モデルよりも優れていることを示す。 コードは公開される予定だ。

For unsupervised image-to-image translation, we propose a discriminator architecture which focuses on the statistical features instead of individual patches. The network is stabilized by distribution matching of key statistical features at multiple scales. Unlike the existing methods which impose more and more constraints on the generator, our method facilitates the shape deformation and enhances the fine details with a greatly simplified framework. We show that the proposed method outperforms the existing state-of-the-art models in various challenging applications including selfie-to-anime, male-to-female and glasses removal. The code will be made publicly available.
翻訳日:2021-03-31 15:16:19 公開日:2021-03-30
# モデル-contrastive federated learning

Model-Contrastive Federated Learning ( http://arxiv.org/abs/2103.16257v1 )

ライセンス: Link先を確認
Qinbin Li, Bingsheng He, Dawn Song(参考訳) フェデレーション学習は、複数のパーティが、ローカルデータを通信することなく、機械学習モデルを協調的にトレーニングすることを可能にする。 連合学習における鍵となる課題は、パーティ間でのローカルデータ分散の多様性を扱うことである。 この課題に対処するために多くの研究が提案されているが、深層学習モデルを用いた画像データセットの高性能化には失敗している。 本稿では,moon: model-contrastive federated learningを提案する。 MOONはシンプルで効果的な連合学習フレームワークである。 ムーンの重要な考え方は、モデル表現間の類似性を利用して個々のパーティのローカルトレーニング、すなわちモデルレベルでのコントラスト学習を正すことである。 広範囲にわたる実験の結果,MOONは様々な画像分類タスクにおいて,他の最先端のフェデレーション学習アルゴリズムよりも優れていた。

Federated learning enables multiple parties to collaboratively train a machine learning model without communicating their local data. A key challenge in federated learning is to handle the heterogeneity of local data distribution across parties. Although many studies have been proposed to address this challenge, we find that they fail to achieve high performance in image datasets with deep learning models. In this paper, we propose MOON: model-contrastive federated learning. MOON is a simple and effective federated learning framework. The key idea of MOON is to utilize the similarity between model representations to correct the local training of individual parties, i.e., conducting contrastive learning in model-level. Our extensive experiments show that MOON significantly outperforms the other state-of-the-art federated learning algorithms on various image classification tasks.
翻訳日:2021-03-31 15:16:07 公開日:2021-03-30
# AGQA: 構成時空間推論のためのベンチマーク

AGQA: A Benchmark for Compositional Spatio-Temporal Reasoning ( http://arxiv.org/abs/2103.16002v1 )

ライセンス: Link先を確認
Madeleine Grunde-McLaughlin, Ranjay Krishna, Maneesh Agrawala(参考訳) 視覚イベントは、アクターがオブジェクトと空間的に相互作用する時間的アクションの合成である。 構成時空間事象を推論できるコンピュータビジョンモデルを開発するには、進捗を分析し、欠点を明らかにするベンチマークが必要である。 既存のビデオ質問応答ベンチマークは有用だが、複数のエラー源を1つの精度指標にまとめ、モデルが悪用できる強いバイアスを持つため、モデルの弱点を特定できないことが多い。 本稿では,合成時空間推論のための新しいベンチマークであるAction Genome Question Answering (AGQA)を提案する。 AGQAには、9.6Kドルのビデオ用のアンバランスな質問応答ペアがある。 また、既存のベンチマークよりも桁違いに大きい39万ドルの質問応答対のバランスの取れたサブセットを提供し、回答分布と質問構造の種類のバランスをとることでバイアスを最小限にする。 人間の評価は、質問応答対の86.02 %$を正し、最良のモデルは47.74 %$の精度しか達成していない。 さらに、agqaは複数のトレーニング/テスト分割を導入し、新しい構成への一般化、間接参照、より構成的なステップなど、さまざまな推論能力をテストする。 AGQAを用いて、現代の視覚的推論システムを評価し、最良のモデルが言語バイアスを生かした非視覚的ベースラインよりもわずかに優れた性能を示し、既存のモデルがトレーニング中に見つからない新しい構成に一般化されることを実証した。

Visual events are a composition of temporal actions involving actors spatially interacting with objects. When developing computer vision models that can reason about compositional spatio-temporal events, we need benchmarks that can analyze progress and uncover shortcomings. Existing video question answering benchmarks are useful, but they often conflate multiple sources of error into one accuracy metric and have strong biases that models can exploit, making it difficult to pinpoint model weaknesses. We present Action Genome Question Answering (AGQA), a new benchmark for compositional spatio-temporal reasoning. AGQA contains $192M$ unbalanced question answer pairs for $9.6K$ videos. We also provide a balanced subset of $3.9M$ question answer pairs, $3$ orders of magnitude larger than existing benchmarks, that minimizes bias by balancing the answer distributions and types of question structures. Although human evaluators marked $86.02\%$ of our question-answer pairs as correct, the best model achieves only $47.74\%$ accuracy. In addition, AGQA introduces multiple training/test splits to test for various reasoning abilities, including generalization to novel compositions, to indirect references, and to more compositional steps. Using AGQA, we evaluate modern visual reasoning systems, demonstrating that the best models barely perform better than non-visual baselines exploiting linguistic biases and that none of the existing models generalize to novel compositions unseen during training.
翻訳日:2021-03-31 15:15:34 公開日:2021-03-30
# 単一物体追跡のための動的注意誘導マルチトラジェクトリ解析

Dynamic Attention guided Multi-Trajectory Analysis for Single Object Tracking ( http://arxiv.org/abs/2103.16086v1 )

ライセンス: Link先を確認
Xiao Wang, Zhe Chen, Jin Tang, Bin Luo, Yaowei Wang, Yonghong Tian, Feng Wu(参考訳) 既存のシングルオブジェクトトラッカーのほとんどは、一元的なローカル検索ウィンドウでターゲットを追跡するため、重い閉塞や外見運動といった困難な要因に対して特に脆弱である。 グローバル検索をさらに統合しようとする試みにもかかわらず、局所検索とグローバル検索を協調する一般的なメカニズムは比較的静的であるため、追跡性能を改善するためのサブ最適である。 ローカル検索結果とグローバル検索結果をさらに研究することで、我々は以下の疑問を提起する。 本稿では,動的注意誘導多軌道追跡戦略を考案し,よりダイナミックな手法を提案する。 特に、複数のターゲットテンプレートを含む動的外観モデルを構築し、それぞれが新しいフレーム内のターゲットを特定するのに独自の注意を払っています。 異なる注意を払って,多軌道追跡履歴を構築するために,対象の追跡結果の多様化を図り,さらに多くの候補が真の目標軌道を表現できるようにする。 全シーケンスにまたがって、追跡性能が向上する最善の軌跡を見つけるために、マルチトラック選択ネットワークを導入する。 実験結果から,提案手法は大規模追跡ベンチマークにおいて有意な性能を発揮することが示された。 この論文のプロジェクトページはhttps://sites.google.com/view/mt-track/にある。

Most of the existing single object trackers track the target in a unitary local search window, making them particularly vulnerable to challenging factors such as heavy occlusions and out-of-view movements. Despite the attempts to further incorporate global search, prevailing mechanisms that cooperate local and global search are relatively static, thus are still sub-optimal for improving tracking performance. By further studying the local and global search results, we raise a question: can we allow more dynamics for cooperating both results? In this paper, we propose to introduce more dynamics by devising a dynamic attention-guided multi-trajectory tracking strategy. In particular, we construct dynamic appearance model that contains multiple target templates, each of which provides its own attention for locating the target in the new frame. Guided by different attention, we maintain diversified tracking results for the target to build multi-trajectory tracking history, allowing more candidates to represent the true target trajectory. After spanning the whole sequence, we introduce a multi-trajectory selection network to find the best trajectory that delivers improved tracking performance. Extensive experimental results show that our proposed tracking strategy achieves compelling performance on various large-scale tracking benchmarks. The project page of this paper can be found at https://sites.google.com/view/mt-track/.
翻訳日:2021-03-31 15:15:11 公開日:2021-03-30
# 一般ゼロショット学習のためのコントラスト埋め込み

Contrastive Embedding for Generalized Zero-Shot Learning ( http://arxiv.org/abs/2103.16173v1 )

ライセンス: Link先を確認
Zongyan Han, Zhenyong Fu, Shuo Chen and Jian Yang(参考訳) 汎用ゼロショット学習 (GZSL) は、目に見えるクラスと目に見えないクラスの両方からオブジェクトを認識することを目的としている。 近年,GZSLにおけるデータ不均衡問題を軽減するために,未確認クラスの視覚的特徴の欠如を生かした生成モデルを学習している。 しかし、元の視覚特徴空間は識別情報がないため、GZSL分類に最適である。 この問題に取り組むため,我々は生成モデルと組込みモデルの統合を提案し,ハイブリッドgzslフレームワークを実現した。 ハイブリッドGZSLアプローチは、生成モデルによって生成された実データと合成サンプルの両方を埋め込み空間にマッピングし、最終的なGZSL分類を行う。 具体的には,ハイブリッドGZSLフレームワークのためのコントラスト埋め込み(CE)を提案する。 提案するコントラスト埋め込みはクラス単位の監督だけでなく、インスタンス単位の監督も活用できるが、後者は通常、既存のgzslの研究によって無視される。 CE-GZSLという名前のコントラスト埋め込みによるハイブリッドGZSLフレームワークを5つのベンチマークデータセット上で評価した。 その結果,CEGZSL法は3つのデータセットに対して有意差で最先端の手法より優れていることがわかった。 私たちのコードはhttps://github.com/hanzy1996/ce-gzslで利用可能です。

Generalized zero-shot learning (GZSL) aims to recognize objects from both seen and unseen classes, when only the labeled examples from seen classes are provided. Recent feature generation methods learn a generative model that can synthesize the missing visual features of unseen classes to mitigate the data-imbalance problem in GZSL. However, the original visual feature space is suboptimal for GZSL classification since it lacks discriminative information. To tackle this issue, we propose to integrate the generation model with the embedding model, yielding a hybrid GZSL framework. The hybrid GZSL approach maps both the real and the synthetic samples produced by the generation model into an embedding space, where we perform the final GZSL classification. Specifically, we propose a contrastive embedding (CE) for our hybrid GZSL framework. The proposed contrastive embedding can leverage not only the class-wise supervision but also the instance-wise supervision, where the latter is usually neglected by existing GZSL researches. We evaluate our proposed hybrid GZSL framework with contrastive embedding, named CE-GZSL, on five benchmark datasets. The results show that our CEGZSL method can outperform the state-of-the-arts by a significant margin on three datasets. Our codes are available on https://github.com/Hanzy1996/CE-GZSL.
翻訳日:2021-03-31 15:14:51 公開日:2021-03-30
# クロスドメイン群衆数における自己スーパービジョンの活用

Leveraging Self-Supervision for Cross-Domain Crowd Counting ( http://arxiv.org/abs/2103.16291v1 )

ライセンス: Link先を確認
Weizhe Liu, Nikita Durasov, Pascal Fua(参考訳) 混雑したシーンで人々を数えるための最先端の手法は、群衆密度を推定するためにディープネットワークに依存している。 有効ではあるが、これらのデータ駆動アプローチは、優れたパフォーマンスを達成するために大量のデータアノテーションに依存しており、データアノテーションがコストがかかりすぎるか、十分な速さで取得できない緊急時にこれらのモデルがデプロイされなくなる。 一般的な解決策のひとつは、トレーニングに合成データを使用することだ。 残念なことに、ドメインシフトのため、結果のモデルは実際のイメージにあまり依存しない。 我々は,合成画像と関連ラベル,ラベル付き実画像の両方を訓練することにより,この欠点を解決した。 この目的のために,我々はネットワークに対して,通常の画像から逆さまの実際の画像を認識するようにトレーニングすることで,視点認識の特徴を学習させ,その不確実性を予測して,微調整目的に有用な擬似ラベルを生成できるようにする。 このアルゴリズムは、推論時に余分な計算をせずに、最先端のクロスドメイン群をカウントするアルゴリズムを一貫して上回る。

State-of-the-art methods for counting people in crowded scenes rely on deep networks to estimate crowd density. While effective, these data-driven approaches rely on large amount of data annotation to achieve good performance, which stops these models from being deployed in emergencies during which data annotation is either too costly or cannot be obtained fast enough. One popular solution is to use synthetic data for training. Unfortunately, due to domain shift, the resulting models generalize poorly on real imagery. We remedy this shortcoming by training with both synthetic images, along with their associated labels, and unlabeled real images. To this end, we force our network to learn perspective-aware features by training it to recognize upside-down real images from regular ones and incorporate into it the ability to predict its own uncertainty so that it can generate useful pseudo labels for fine-tuning purposes. This yields an algorithm that consistently outperforms state-of-the-art cross-domain crowd counting ones without any extra computation at inference time.
翻訳日:2021-03-31 15:14:31 公開日:2021-03-30
# 手術映像からのワークフロー認識のための時間記憶関連ネットワーク

Temporal Memory Relation Network for Workflow Recognition from Surgical Video ( http://arxiv.org/abs/2103.16327v1 )

ライセンス: Link先を確認
Yueming Jin, Yonghao Long, Cheng Chen, Zixu Zhao, Qi Dou, Pheng-Ann Heng(参考訳) 自動手術ワークフロー認識は,手術室内でコンテキスト認識型コンピュータ支援システムを開発する上で重要なコンポーネントである。 以前の作品は、短い固定範囲の時間情報で空間的特徴を共同でモデル化するか、視覚的および長期の時間的手がかりを別々に学習した。 本稿では,この特徴を補うために,長距離・多スケールの時空間パターンを関連付ける新たなエンドツーエンド時空間記憶関係ネットワーク(tmrnet)を提案する。 豊富な支援情報を格納するメモリセルとして、長距離メモリバンクを確立する。 設計した時間変化層により,複数スケールの時間のみの畳み込みにより,支援的手がかりがさらに強化される。 時空間特徴の連立学習を邪魔することなく2種類の手がかりを効果的に活用するために,過去と現在を注意深く関連づける非局所銀行事業者を導入する。 この点に関して、当社のTMRNetは、現在の機能を長期の時間的依存を見ることができるとともに、複雑な時間的依存を許容できる。 我々は、M2CAIチャレンジデータセットとCholec80データセットの2つのベンチマークビデオデータセットに対するアプローチを広範囲に検証した。 実験結果から, 最先端の手法を高いマージン(67.0%v.s)で連続的に上回り, 優れた性能を示すことができた。 78.9% の Jaccard on Cholec80 データセット)。

Automatic surgical workflow recognition is a key component for developing context-aware computer-assisted systems in the operating theatre. Previous works either jointly modeled the spatial features with short fixed-range temporal information, or separately learned visual and long temporal cues. In this paper, we propose a novel end-to-end temporal memory relation network (TMRNet) for relating long-range and multi-scale temporal patterns to augment the present features. We establish a long-range memory bank to serve as a memory cell storing the rich supportive information. Through our designed temporal variation layer, the supportive cues are further enhanced by multi-scale temporal-only convolutions. To effectively incorporate the two types of cues without disturbing the joint learning of spatio-temporal features, we introduce a non-local bank operator to attentively relate the past to the present. In this regard, our TMRNet enables the current feature to view the long-range temporal dependency, as well as tolerate complex temporal extents. We have extensively validated our approach on two benchmark surgical video datasets, M2CAI challenge dataset and Cholec80 dataset. Experimental results demonstrate the outstanding performance of our method, consistently exceeding the state-of-the-art methods by a large margin (e.g., 67.0% v.s. 78.9% Jaccard on Cholec80 dataset).
翻訳日:2021-03-31 15:14:13 公開日:2021-03-30
# Web サポートタスクを自動化するためのオープンドメインインストラクション

Grounding Open-Domain Instructions to Automate Web Support Tasks ( http://arxiv.org/abs/2103.16057v1 )

ライセンス: Link先を確認
Nancy Xu, Sam Masling, Michael Du, Giovanni Campagna, Larry Heck, James Landay, Monica S Lam(参考訳) 自然言語命令をweb上で接地して、これまで見つからなかったタスクを実行することで、アクセシビリティと自動化が可能になる。 私たちは、AIエージェントをオープンドメインからトレーニングするためのタスクとデータセットを導入します。 我々はこの問題に対処するためにRAS(Rapid Universal Support Service)を構築します。 russ氏は2つのモデルから成り立っている。 まず、ポインタを持つbert-lstmが命令を thingtalkにパースする。 次に、グラウンドモデルがThingTalkで要求されたWebページ要素のユニークなIDを取得する。 RUSSは対話(例)を通じてユーザと対話する。 アドレスを要求する)、またはweb操作を実行する(例えば、) Web ランタイム内のボタンをクリックします。 トレーニングを強化するために,ThingTalkにマップされた自然言語命令を合成する。 私たちのデータセットはヘルプサイトから80の異なるカスタマーサービス問題で構成されており、合計741のステップバイステップ命令とその対応アクションで構成されています。 RUSSは、単一の命令からエージェントアクションを予測するエンドツーエンドの精度76.7%を達成する。 ThingTalkを使わずに、指示を直接アクションにマップする最先端モデルよりも優れています。 ユーザ調査の結果,RASはWebナビゲーションよりも実際のユーザの方が望ましいことがわかった。

Grounding natural language instructions on the web to perform previously unseen tasks enables accessibility and automation. We introduce a task and dataset to train AI agents from open-domain, step-by-step instructions originally written for people. We build RUSS (Rapid Universal Support Service) to tackle this problem. RUSS consists of two models: First, a BERT-LSTM with pointers parses instructions to ThingTalk, a domain-specific language we design for grounding natural language on the web. Then, a grounding model retrieves the unique IDs of any webpage elements requested in ThingTalk. RUSS may interact with the user through a dialogue (e.g. ask for an address) or execute a web operation (e.g. click a button) inside the web runtime. To augment training, we synthesize natural language instructions mapped to ThingTalk. Our dataset consists of 80 different customer service problems from help websites, with a total of 741 step-by-step instructions and their corresponding actions. RUSS achieves 76.7% end-to-end accuracy predicting agent actions from single instructions. It outperforms state-of-the-art models that directly map instructions to actions without ThingTalk. Our user study shows that RUSS is preferred by actual users over web navigation.
翻訳日:2021-03-31 15:13:38 公開日:2021-03-30
# Afriki: マシン・イン・ザ・ループのAfrikaans Poetry Generation

AfriKI: Machine-in-the-Loop Afrikaans Poetry Generation ( http://arxiv.org/abs/2103.16190v1 )

ライセンス: Link先を確認
Imke van Heerden and Anil Bas(参考訳) 本稿では,Afrikiと呼ばれる生成言語モデルを提案する。 我々のアプローチは、現代フィクションの小さなコーパスに基づいて訓練されたLSTMアーキテクチャに基づいている。 人間の創造性を促進すべく、我々はこのモデルをオーサリングツールとして使用し、Afrikaansの詩生成機を探索する。 私たちの知る限り、アフリカーンス語で創造的なテキスト生成を試みた最初の研究です。

This paper proposes a generative language model called AfriKI. Our approach is based on an LSTM architecture trained on a small corpus of contemporary fiction. With the aim of promoting human creativity, we use the model as an authoring tool to explore machine-in-the-loop Afrikaans poetry generation. To our knowledge, this is the first study to attempt creative text generation in Afrikaans.
翻訳日:2021-03-31 15:13:20 公開日:2021-03-30
# 繰り返しHPOおよびNAS問題の資源効率向上手法

A resource-efficient method for repeated HPO and NAS problems ( http://arxiv.org/abs/2103.16111v1 )

ライセンス: Link先を確認
Giovanni Zappella, David Salinas, C\'edric Archambeau(参考訳) 本研究では,過パラメータとニューラルアーキテクチャ探索(HNAS)の繰り返し問題を考察する。 本稿では,従来のHNAS問題から得られる情報を,計算資源の節約を目的とした逐次的Halvingの拡張を提案する。 提案手法は, 精度を保ちながらコストを大幅に削減し, 負の移動に対して堅牢であることを示す。 提案手法は,HNASにおけるトランスファー学習の新たなベースラインを設定することで,競合するトランスファー学習手法よりもはるかに単純である。

In this work we consider the problem of repeated hyperparameter and neural architecture search (HNAS). We propose an extension of Successive Halving that is able to leverage information gained in previous HNAS problems with the goal of saving computational resources. We empirically demonstrate that our solution is able to drastically decrease costs while maintaining accuracy and being robust to negative transfer. Our method is significantly simpler than competing transfer learning approaches, setting a new baseline for transfer learning in HNAS.
翻訳日:2021-03-31 15:12:59 公開日:2021-03-30
# 画像を超えた深部異常検出のためのニューラルトランスフォーメーション学習

Neural Transformation Learning for Deep Anomaly Detection Beyond Images ( http://arxiv.org/abs/2103.16440v1 )

ライセンス: Link先を確認
Chen Qiu, Timo Pfrommer, Marius Kloft, Stephan Mandt, Maja Rudolph(参考訳) データ変換(例) 回転、反射、収穫)は自己監督学習において重要な役割を果たす。 通常、画像は異なるビューに変換され、これらのビューを含むタスクでトレーニングされたニューラルネットワークは、異常検出を含む下流タスクに有用な特徴表現を生成する。 しかし、画像データ以外の異常検出では、どの変換を使うべきかはよくわからない。 本稿では,学習可能な変換を伴う異常検出のための単純なエンドツーエンド手順を提案する。 重要なアイデアは、変換されたデータを意味空間に埋め込むことであり、変換されたデータは変換されていない形式にまだ似ているが、異なる変換は容易に区別できる。 時系列に関する広範囲な実験により,one-vs.-rest設定において既存の手法を著しく上回っているだけでなく,より困難なn-vs.-rest異常検出タスクにおいても有意な性能を示した。 医療・サイバーセキュリティ領域の表型データセットにおいて,本手法はドメイン固有の変換を学習し,従来よりも正確な異常を検出する。

Data transformations (e.g. rotations, reflections, and cropping) play an important role in self-supervised learning. Typically, images are transformed into different views, and neural networks trained on tasks involving these views produce useful feature representations for downstream tasks, including anomaly detection. However, for anomaly detection beyond image data, it is often unclear which transformations to use. Here we present a simple end-to-end procedure for anomaly detection with learnable transformations. The key idea is to embed the transformed data into a semantic space such that the transformed data still resemble their untransformed form, while different transformations are easily distinguishable. Extensive experiments on time series demonstrate that we significantly outperform existing methods on the one-vs.-rest setting but also on the more challenging n-vs.-rest anomaly-detection task. On tabular datasets from the medical and cyber-security domains, our method learns domain-specific transformations and detects anomalies more accurately than previous work.
翻訳日:2021-03-31 15:12:50 公開日:2021-03-30
# 機械学習技術を用いたスマートフォンからの人間の活動分析と認識

Human Activity Analysis and Recognition from Smartphones using Machine Learning Techniques ( http://arxiv.org/abs/2103.16490v1 )

ライセンス: Link先を確認
Jakaria Rabbi, Md. Tahmid Hasan Fuad, Md. Abdul Awal(参考訳) 人間活動認識(HAR)は、過去数十年で重要な研究トピックであると考えられている。 この目的のために異なるタイプの機械学習モデルが使われており、これは機械による人間の行動分析の一部となっている。 複雑な高次元のウェアラブルセンサーからデータを分析するのは簡単な作業ではありません。 現在、研究者は主にスマートフォンやスマートホームセンサーを使ってデータを収集している。 本稿では,これらのデータを機械学習モデルを用いて分析し,身体的および精神的な健康状態のモニタリングなど,多くの目的で現在広く使用されている人間の活動を認識する。 異なる機械学習モデルを適用し、パフォーマンスを比較する。 ベンチマークモデルとしてロジスティック回帰(lr)を使用して,データセット上での単純性と優れたパフォーマンスを比較した結果,決定木(dt),サポートベクターマシン(svm),ランダムフォレスト(rf),人工ニューラルネットワーク(ann)を採用した。 さらに,グリッド探索により各モデルに最適なパラメータ群を選択する。 UCI Machine Learning RepositoryのHARデータセットを標準データセットとして使用して、モデルのトレーニングとテストを行います。 この分析を通して、Support Vector Machineが他の手法よりもはるかに優れている(平均精度96.33%)ことが分かる。 また,統計的意義試験法を用いて統計的に有意であることを示す。

Human Activity Recognition (HAR) is considered a valuable research topic in the last few decades. Different types of machine learning models are used for this purpose, and this is a part of analyzing human behavior through machines. It is not a trivial task to analyze the data from wearable sensors for complex and high dimensions. Nowadays, researchers mostly use smartphones or smart home sensors to capture these data. In our paper, we analyze these data using machine learning models to recognize human activities, which are now widely used for many purposes such as physical and mental health monitoring. We apply different machine learning models and compare performances. We use Logistic Regression (LR) as the benchmark model for its simplicity and excellent performance on a dataset, and to compare, we take Decision Tree (DT), Support Vector Machine (SVM), Random Forest (RF), and Artificial Neural Network (ANN). Additionally, we select the best set of parameters for each model by grid search. We use the HAR dataset from the UCI Machine Learning Repository as a standard dataset to train and test the models. Throughout the analysis, we can see that the Support Vector Machine performed (average accuracy 96.33%) far better than the other methods. We also prove that the results are statistically significant by employing statistical significance test methods.
翻訳日:2021-03-31 15:12:34 公開日:2021-03-30
# フラットランド・コンペティション2020:MAPFとMARLのグリッドワールドにおける効率的な列車調整

Flatland Competition 2020: MAPF and MARL for Efficient Train Coordination on a Grid World ( http://arxiv.org/abs/2103.16511v1 )

ライセンス: Link先を確認
Florian Laurent, Manuel Schneider, Christian Scheller, Jeremy Watson, Jiaoyang Li, Zhe Chen, Yi Zheng, Shao-Hung Chan, Konstantin Makhnev, Oleg Svidchenko, Vladimir Egorov, Dmitry Ivanov, Aleksei Shpilman, Evgenija Spirovska, Oliver Tanevski, Aleksandar Nikov, Ramon Grunder, David Galevski, Jakov Mitrovski, Guillaume Sartoretti, Zhiyao Luo, Mehul Damani, Nilabha Bhattacharya, Shivam Agarwal, Adrian Egli, Erik Nygren, Sharada Mohanty(参考訳) フラットランド・コンペティションは、車両再スケジュール問題(vrsp)を解決するための新しいアプローチを見つけることを目的とした。 VRSPは、例えば車両の故障などの混乱が発生した場合、交通ネットワークでの旅行のスケジュールと車両の再スケジュールに関するものである。 様々な環境でVRSPを解くことは、何十年にもわたって運用研究(OR)の活発な領域であったが、現代の鉄道網の複雑さは、交通の動的リアルタイムスケジューリングを事実上不可能にしている。 近年,マルチエージェント強化学習(MARL)は,マルチプレイヤーゲームなど,多くのエージェントをコーディネートする必要がある課題に対処することに成功した。 しかし、鉄道ネットワークのような現実の環境で数百人のエージェントの協調は依然として困難であり、競争に使用されるフラットランド環境はこれらの現実のプロパティを簡易にモデル化する。 提案はできるだけ多くの列車(エイジェント)を目標駅にできるだけ短時間で持ち込む必要があった。 最も優れた応募はORカテゴリーであったが、参加者は多くの有望なMARLアプローチを発見した。 集中型学習と分散型学習の両方のアプローチを用いて、トップサブミッションは、木に基づく観察を構築するために環境のグラフ表現を使用した。 さらに、エージェント間のコミュニケーションや優先順位付けなど、異なる調整機構が実装された。 本稿では,コンペティションのセットアップ,コンペティションに対する4つの優れたソリューション,それらの相互比較について述べる。

The Flatland competition aimed at finding novel approaches to solve the vehicle re-scheduling problem (VRSP). The VRSP is concerned with scheduling trips in traffic networks and the re-scheduling of vehicles when disruptions occur, for example the breakdown of a vehicle. While solving the VRSP in various settings has been an active area in operations research (OR) for decades, the ever-growing complexity of modern railway networks makes dynamic real-time scheduling of traffic virtually impossible. Recently, multi-agent reinforcement learning (MARL) has successfully tackled challenging tasks where many agents need to be coordinated, such as multiplayer video games. However, the coordination of hundreds of agents in a real-life setting like a railway network remains challenging and the Flatland environment used for the competition models these real-world properties in a simplified manner. Submissions had to bring as many trains (agents) to their target stations in as little time as possible. While the best submissions were in the OR category, participants found many promising MARL approaches. Using both centralized and decentralized learning based approaches, top submissions used graph representations of the environment to construct tree-based observations. Further, different coordination mechanisms were implemented, such as communication and prioritization between agents. This paper presents the competition setup, four outstanding solutions to the competition, and a cross-comparison between them.
翻訳日:2021-03-31 15:12:12 公開日:2021-03-30
# 帯域フィードバックを用いた確率的非凸最適化

Optimal Stochastic Nonconvex Optimization with Bandit Feedback ( http://arxiv.org/abs/2103.16082v1 )

ライセンス: Link先を確認
Puning Zhao and Lifeng Lai(参考訳) 本稿では,非凸コスト関数に対する連続武装バンディット問題を,一定の平滑性と部分レベル集合仮定の下で解析する。 まず,単純なビン分割法に期待される累積的後悔の上限を導出する。 次に,適応的なビン分割法を提案し,性能を著しく向上させる。 さらに, 最小値下限を導出することにより, 新しい適応法が極小値最適累積残差を局所的に達成することを示す。

In this paper, we analyze the continuous armed bandit problems for nonconvex cost functions under certain smoothness and sublevel set assumptions. We first derive an upper bound on the expected cumulative regret of a simple bin splitting method. We then propose an adaptive bin splitting method, which can significantly improve the performance. Furthermore, a minimax lower bound is derived, which shows that our new adaptive method achieves locally minimax optimal expected cumulative regret.
翻訳日:2021-03-31 15:11:47 公開日:2021-03-30
# 非線形重み付き非巡回グラフとニューラルネットワークの事前推定

Nonlinear Weighted Directed Acyclic Graph and A Priori Estimates for Neural Networks ( http://arxiv.org/abs/2103.16355v1 )

ライセンス: Link先を確認
Yuqing Li, Tao Luo, Chao Ma(参考訳) 深層ニューラルネットワークの構造的利点と一般化能力をよりよく理解するために、まず、完全連結、残留ネットワーク〜(ResNet)および密連結ネットワーク〜(DenseNet)を含むニューラルネットワークモデルの新しいグラフ理論的定式化を提案する。 次に、2層ネットワーク〜\cite{ew2019prioriTwo} と ResNet~\cite{e2019prioriRes} の集団リスクの誤差解析をDenseNetに拡張し、ある穏やかな条件を満たすニューラルネットワークに対して、同様の推定値が得られることを示す。 これらの推定は、トレーニングプロセス以前の情報、特に推定誤差の境界が入力次元から独立しているため、本質的には優先順位である。

In an attempt to better understand structural benefits and generalization power of deep neural networks, we firstly present a novel graph theoretical formulation of neural network models, including fully connected, residual network~(ResNet) and densely connected networks~(DenseNet). Secondly, we extend the error analysis of the population risk for two layer network~\cite{ew2019prioriTwo} and ResNet~\cite{e2019prioriRes} to DenseNet, and show further that for neural networks satisfying certain mild conditions, similar estimates can be obtained. These estimates are a priori in nature since they depend sorely on the information prior to the training process, in particular, the bounds for the estimation errors are independent of the input dimension.
翻訳日:2021-03-31 15:11:41 公開日:2021-03-30
# 単位lp球上のシナプス重みの制約によるスパースニューラルネットワークの訓練

Training Sparse Neural Network by Constraining Synaptic Weight on Unit Lp Sphere ( http://arxiv.org/abs/2103.16013v1 )

ライセンス: Link先を確認
Weipeng Li, Xiaogang Yang, Chuanxiang Li, Ruitao Lu, Xueli Xie(参考訳) スパース深層ニューラルネットワークは、パラメータが少なく計算効率の高い密集したモデルよりもそのアドバンテージを示している。 ここでは, 単位Lp-球面上のシナプス重みを制約することにより, p で空間を柔軟に制御し, ニューラルネットワークの一般化能力を向上させることを実証する。 第一に、単位Lp-球面に制約されたシナプス重みを最適化するために、パラメータ最適化アルゴリズム、Lp-球面勾配勾配(LpSGD)は、理論的に収束することが証明された経験的リスク最小化条件から導かれる。 p がホイヤーのスパース性にどのように影響するかを理解するために、ガンマ分布の仮説に基づくホイヤーのスパース性への期待が与えられ、異なる条件下で様々な p において予測が検証される。 さらに、"semi-pruning"としきい値適応は、トポロジーの進化のために設計され、重要な接続を効果的にスクリーニングし、ニューラルネットワークが初期スパーシティから期待されるスパーシティへと収束する。 このアプローチは、幅広いドメインをカバーするベンチマークデータセットの実験によって検証されます。 そして理論的解析は、制約付き最適化によるスパースニューラルネットワークのトレーニングへの道を開く。

Sparse deep neural networks have shown their advantages over dense models with fewer parameters and higher computational efficiency. Here we demonstrate constraining the synaptic weights on unit Lp-sphere enables the flexibly control of the sparsity with p and improves the generalization ability of neural networks. Firstly, to optimize the synaptic weights constrained on unit Lp-sphere, the parameter optimization algorithm, Lp-spherical gradient descent (LpSGD) is derived from the augmented Empirical Risk Minimization condition, which is theoretically proved to be convergent. To understand the mechanism of how p affects Hoyer's sparsity, the expectation of Hoyer's sparsity under the hypothesis of gamma distribution is given and the predictions are verified at various p under different conditions. In addition, the "semi-pruning" and threshold adaptation are designed for topology evolution to effectively screen out important connections and lead the neural networks converge from the initial sparsity to the expected sparsity. Our approach is validated by experiments on benchmark datasets covering a wide range of domains. And the theoretical analysis pave the way to future works on training sparse neural networks with constrained optimization.
翻訳日:2021-03-31 15:11:10 公開日:2021-03-30
# PointBA: 3D Point Cloudでのバックドア攻撃に向けて

PointBA: Towards Backdoor Attacks in 3D Point Cloud ( http://arxiv.org/abs/2103.16074v1 )

ライセンス: Link先を確認
Xinke Li, Zhiru Chen, Yue Zhao, Zekun Tong, Yabang Zhao, Andrew Lim, Joey Tianyi Zhou(参考訳) 3Dディープラーニングは、安全クリティカルなアプリケーションを含むさまざまなタスクでますます人気を集めています。 しかし、近年、いくつかの研究が3dディープネットのセキュリティ問題を提起している。 これらの作品の多くは逆境攻撃を考慮しているが、バックドア攻撃は3d深層学習システムにとってより深刻な脅威であることは間違いない。 3dのバックドア攻撃を,3dデータとネットワークのユニークな特性を利用する統一フレームワークで提示する。 特に, 毒ラベル攻撃とクリーンラベル攻撃の2つの攻撃アプローチをデザインした。 1つ目は単純かつ効果的で、2つめは特定のデータ検査があると仮定してより洗練されたものです。 攻撃アルゴリズムは,1)空間変換下での3次元深層ネットの脆弱性を実証する最近の3次元逆サンプルの発見,2)最適化手法と新しいタスクを組み込む可能性によってデータの特徴を操作する特徴異角化手法によって,主に動機づけられ,開発された。 広範な実験により、いくつかの3dデータセットとモデルで95%以上の成功率を持つ毒ラベル攻撃の有効性と、約50%の成功率でデータフィルタリングに対するクリーンラベル攻撃の能力が示された。 提案するバックドア攻撃は,3次元深部モデルの堅牢性向上のためのベースラインとして期待できる。

3D deep learning has been increasingly more popular for a variety of tasks including many safety-critical applications. However, recently several works raise the security issues of 3D deep nets. Although most of these works consider adversarial attacks, we identify that backdoor attack is indeed a more serious threat to 3D deep learning systems but remains unexplored. We present the backdoor attacks in 3D with a unified framework that exploits the unique properties of 3D data and networks. In particular, we design two attack approaches: the poison-label attack and the clean-label attack. The first one is straightforward and effective in practice, while the second one is more sophisticated assuming there are certain data inspections. The attack algorithms are mainly motivated and developed by 1) the recent discovery of 3D adversarial samples which demonstrate the vulnerability of 3D deep nets under spatial transformations; 2) the proposed feature disentanglement technique that manipulates the feature of the data through optimization methods and its potential to embed a new task. Extensive experiments show the efficacy of the poison-label attack with over 95% success rate across several 3D datasets and models, and the ability of clean-label attack against data filtering with around 50% success rate. Our proposed backdoor attack in 3D point cloud is expected to perform as a baseline for improving the robustness of 3D deep models.
翻訳日:2021-03-31 15:10:49 公開日:2021-03-30
# FONTNET: デバイス上のフォント理解と予測パイプライン

FONTNET: On-Device Font Understanding and Prediction Pipeline ( http://arxiv.org/abs/2103.16150v1 )

ライセンス: Link先を確認
Rakshith S, Rishabh Khurana, Vibhav Agarwal, Jayesh Rajkumar Vachhani, Guggilla Bhanodai(参考訳) フォントは最もベーシックで中核的なデザインコンセプトの1つです。 多くのユースケースは、スタイル、色、サイズといったフォント属性を維持しながら、画像内のテキストを変更することができるText Customizationのようなフォントの深い理解の恩恵を受けることができる。 現在、テキスト認識ソリューションは、認識されたテキストをラインブレークまたは段落ブレークに基づいてグループ化することができ、フォント属性が知られている場合、複数のテキストブロックを意味のある方法でコンテキストに基づいて結合することができる。 本稿では,画像中のテキストのフォントスタイル,色,大きさの属性を識別するフォント検出エンジンと,問合せフォントの類似フォントを予測するフォント予測エンジンの2つのエンジンを提案する。 まず、画像中のテキストのフォントスタイルを識別するための新しいcnnアーキテクチャを開発しました。 第2に、与えられたクエリフォントの類似フォントを予測するための新しいアルゴリズムを設計した。 第3に,インスタントメッセージングなどのリアルタイムアプリケーションにおいて,プライバシを確保し,レイテンシを改善するエンジンのオンデバイス全体を最適化し,デプロイしました。 両エンジンで30msのオンデバイス推論時間と4.5MBのモデルサイズを実現した。

Fonts are one of the most basic and core design concepts. Numerous use cases can benefit from an in depth understanding of Fonts such as Text Customization which can change text in an image while maintaining the Font attributes like style, color, size. Currently, Text recognition solutions can group recognized text based on line breaks or paragraph breaks, if the Font attributes are known multiple text blocks can be combined based on context in a meaningful manner. In this paper, we propose two engines: Font Detection Engine, which identifies the font style, color and size attributes of text in an image and a Font Prediction Engine, which predicts similar fonts for a query font. Major contributions of this paper are three-fold: First, we developed a novel CNN architecture for identifying font style of text in images. Second, we designed a novel algorithm for predicting similar fonts for a given query font. Third, we have optimized and deployed the entire engine On-Device which ensures privacy and improves latency in real time applications such as instant messaging. We achieve a worst case On-Device inference time of 30ms and a model size of 4.5MB for both the engines.
翻訳日:2021-03-31 15:10:28 公開日:2021-03-30
# ミトコンドリア検出における走査型ドメインギャップの定量化

Quantifying the Scanner-Induced Domain Gap in Mitosis Detection ( http://arxiv.org/abs/2103.16515v1 )

ライセンス: Link先を確認
Marc Aubreville, Christof Bertram, Mitko Veta, Robert Klopfleisch, Nikolas Stathonikos, Katharina Breininger, Natalie ter Hoeve, Francesco Ciompi, and Andreas Maier(参考訳) 病理組織像における有糸分裂像の自動検出は、現代のディープラーニングベースのパイプラインのおかげで大幅に改善されている。 しかし、これらの手法の適用は、実際には実験室間の画像の強いばらつきによって制限されている。 これにより、画像のドメインシフトが発生し、モデルのパフォーマンスが低下する。 この効果においてスキャナ装置が決定的な役割を担っていると仮定し、異なるスライドスキャナを用いて導入したドメインシフトに対する標準ミトーシス検出アプローチの感受性を評価した。 私たちの研究は、ヒト乳癌200例とスキャナー4例を含む、MICCAI-MIDOG Challenge 2021データセットに基づいています。 本研究は, 生物化学的変動ではなく, 純粋に取得装置の選択によるドメインシフトが過小評価されていることを示す。 同じスキャナーの画像でトレーニングされたモデルは平均F1スコアが0.683、他のスキャナーでトレーニングされたモデルは平均F1スコアが0.325であった。 別のマルチドメインミオシスデータセットのトレーニングにより、F1スコアは0.52となった。 これは距離由来の計量をプロキシとして測定したドメインシフトに反映されないことが分かりました。

Automated detection of mitotic figures in histopathology images has seen vast improvements, thanks to modern deep learning-based pipelines. Application of these methods, however, is in practice limited by strong variability of images between labs. This results in a domain shift of the images, which causes a performance drop of the models. Hypothesizing that the scanner device plays a decisive role in this effect, we evaluated the susceptibility of a standard mitosis detection approach to the domain shift introduced by using a different whole slide scanner. Our work is based on the MICCAI-MIDOG challenge 2021 data set, which includes 200 tumor cases of human breast cancer and four scanners. Our work indicates that the domain shift induced not by biochemical variability but purely by the choice of acquisition device is underestimated so far. Models trained on images of the same scanner yielded an average F1 score of 0.683, while models trained on a single other scanner only yielded an average F1 score of 0.325. Training on another multi-domain mitosis dataset led to mean F1 scores of 0.52. We found this not to be reflected by domain-shifts measured as proxy A distance-derived metric.
翻訳日:2021-03-31 15:10:10 公開日:2021-03-30
# 野生の動画からの3dオブジェクトカテゴリの教師なし学習

Unsupervised Learning of 3D Object Categories from Videos in the Wild ( http://arxiv.org/abs/2103.16552v1 )

ライセンス: Link先を確認
Philipp Henzler, Jeremy Reizenstein, Patrick Labatut, Roman Shapovalov, Tobias Ritschel, Andrea Vedaldi, David Novotny(参考訳) 我々のゴールは、与えられたカテゴリのオブジェクトの少数の画像から、それを3Dで再構成するディープネットワークを学習することである。 いくつかの最近の研究は、合成データやキーポイントのような2次元プリミティブの可用性を仮定して、類似した結果を得たが、我々は、実際のデータに挑戦し、手動のアノテーションなしで作業することに興味を持っている。 したがって、多数のオブジェクトインスタンスの複数のビューからモデルを学ぶことに集中する。 私たちは、このクラスのモデルのトレーニングとベンチマークに適した、オブジェクト中心のビデオの大規模なデータセットにコントリビュートします。 メッシュやボクセル,あるいは暗黙のサーフェスを活用する既存のテクニックは,分離されたオブジェクトの再構築に適しており,この困難なデータに失敗することを示す。 最後に,WCR(ワープコンディショニング・レイ・埋め込み)と呼ばれるニューラルニューラルネットワークの設計を提案する。この設計では,物体表面とテクスチャの詳細な暗黙的な表現を得るとともに,学習過程をブートストラップした初期SfM再構成のノイズを補償する。 本評価では,既存のベンチマークと新しいデータセットに基づいて,複数の深い単分子再構成ベースラインの性能向上を示す。

Our goal is to learn a deep network that, given a small number of images of an object of a given category, reconstructs it in 3D. While several recent works have obtained analogous results using synthetic data or assuming the availability of 2D primitives such as keypoints, we are interested in working with challenging real data and with no manual annotations. We thus focus on learning a model from multiple views of a large collection of object instances. We contribute with a new large dataset of object centric videos suitable for training and benchmarking this class of models. We show that existing techniques leveraging meshes, voxels, or implicit surfaces, which work well for reconstructing isolated objects, fail on this challenging data. Finally, we propose a new neural network design, called warp-conditioned ray embedding (WCR), which significantly improves reconstruction while obtaining a detailed implicit representation of the object surface and texture, also compensating for the noise in the initial SfM reconstruction that bootstrapped the learning process. Our evaluation demonstrates performance improvements over several deep monocular reconstruction baselines on existing benchmarks and on our novel dataset.
翻訳日:2021-03-31 15:09:53 公開日:2021-03-30
# 表情学習のための事前学習戦略とデータセット

Pre-training strategies and datasets for facial representation learning ( http://arxiv.org/abs/2103.16554v1 )

ライセンス: Link先を確認
Adrian Bulat and Shiyang Cheng and Jing Yang and Andrew Garbett and Enrique Sanchez and Georgios Tzimiropoulos(参考訳) 普遍的な顔表現を学ぶ最善の方法は何か? 顔分析分野におけるディープラーニングに関する最近の研究は、特定の課題(例えば、)に対する教師あり学習に焦点を当てている。 顔認識、顔のランドマークのローカライゼーションなど しかし、いくつかの顔分析タスクやデータセットに容易に適応できる顔の表現を見つける方法に関する包括的な質問は見落としている。 a) 5つの重要な顔分析タスクからなる顔表現学習のための総合的評価ベンチマークを初めて紹介する。 b) 顔に適用する大規模表現学習の方法として,教師なしと教師なし事前学習の2つを体系的に検討した。 重要なことは、数発の顔学習の場合に焦点をあてることである。 (c) トレーニングデータセットの規模や品質(ラベルなし, ラベルなし, あるいは未修正)を含む重要な特性について検討する。 (d) 結論を導き出すため, 非常に多くの実験を行った。 主な2つの発見は, (1) 完全に管理されていない未処理データに対する教師なし事前訓練は, 一貫性があり, 場合によっては, 考慮されたすべての顔タスクの精度が大幅に向上する。 2)既存の顔画像データセットの多くは冗長性が高いと考えられる。 将来の研究を促進するために、コード、事前訓練されたモデル、データをリリースします。

What is the best way to learn a universal face representation? Recent work on Deep Learning in the area of face analysis has focused on supervised learning for specific tasks of interest (e.g. face recognition, facial landmark localization etc.) but has overlooked the overarching question of how to find a facial representation that can be readily adapted to several facial analysis tasks and datasets. To this end, we make the following 4 contributions: (a) we introduce, for the first time, a comprehensive evaluation benchmark for facial representation learning consisting of 5 important face analysis tasks. (b) We systematically investigate two ways of large-scale representation learning applied to faces: supervised and unsupervised pre-training. Importantly, we focus our evaluations on the case of few-shot facial learning. (c) We investigate important properties of the training datasets including their size and quality (labelled, unlabelled or even uncurated). (d) To draw our conclusions, we conducted a very large number of experiments. Our main two findings are: (1) Unsupervised pre-training on completely in-the-wild, uncurated data provides consistent and, in some cases, significant accuracy improvements for all facial tasks considered. (2) Many existing facial video datasets seem to have a large amount of redundancy. We will release code, pre-trained models and data to facilitate future research.
翻訳日:2021-03-31 15:09:33 公開日:2021-03-30
# パノプティカルマッピングとCADモデルアライメントによるインタラクティブ3次元シーンの再構築

Reconstructing Interactive 3D Scenes by Panoptic Mapping and CAD Model Alignments ( http://arxiv.org/abs/2103.16095v1 )

ライセンス: Link先を確認
Muzhi Han, Zeyu Zhang, Ziyuan Jiao, Xu Xie, Yixin Zhu, Song-Chun Zhu, Hangxin Liu(参考訳) 本稿では,エージェントの視点からシーン復元の問題を再考する:古典的視点は再構成精度に焦点をあてるが,新しい視点では,再構成されたシーンがエージェントと<em{interactions}をシミュレートするための<em{actionable}情報を提供するような,基本的な機能と制約を強調している。 本稿では,rgb-dデータストリームを用いてインタラクティブなシーンを再構成し,(i)3次元ボリュームパノタイプマッピングモジュールによってオブジェクトとレイアウトの意味と形状をキャプチャし,(ii)グラフベースのシーン表現によって整理されたオブジェクト間の物理的共通感覚を推論することにより,オブジェクトのアフォーマンスとコンテクストの関係を捉えることで,この課題を解決する。 重要なことに、この再構成されたシーンは、密集したパノプティクスマップのオブジェクトメッシュを、よりきめ細かなロボットインタラクションのための部分ベースのCADモデルに置き換える。 実験では,<i>Panoptic mapping module</i>が従来の最先端手法より優れており,(ii)オブジェクトのメッシュと最適なCADモデルとの整合,整合,置換を行う高性能な物理的推論手順,(iii)再構成シーンは物理的に可視であり,自然に動作可能な相互作用が可能であること,(iii)手動ラベリングなしではROSベースのシミュレータや複雑なロボットタスクの実行環境にシームレスにインポートされることを示した。

In this paper, we rethink the problem of scene reconstruction from an embodied agent's perspective: While the classic view focuses on the reconstruction accuracy, our new perspective emphasizes the underlying functions and constraints such that the reconstructed scenes provide \em{actionable} information for simulating \em{interactions} with agents. Here, we address this challenging problem by reconstructing an interactive scene using RGB-D data stream, which captures (i) the semantics and geometry of objects and layouts by a 3D volumetric panoptic mapping module, and (ii) object affordance and contextual relations by reasoning over physical common sense among objects, organized by a graph-based scene representation. Crucially, this reconstructed scene replaces the object meshes in the dense panoptic map with part-based articulated CAD models for finer-grained robot interactions. In the experiments, we demonstrate that (i) our panoptic mapping module outperforms previous state-of-the-art methods, (ii) a high-performant physical reasoning procedure that matches, aligns, and replaces objects' meshes with best-fitted CAD models, and (iii) reconstructed scenes are physically plausible and naturally afford actionable interactions; without any manual labeling, they are seamlessly imported to ROS-based simulators and virtual environments for complex robot task executions.
翻訳日:2021-03-31 15:09:16 公開日:2021-03-30
# プログラム合成の幾何学

Geometry of Program Synthesis ( http://arxiv.org/abs/2103.16080v1 )

ライセンス: Link先を確認
James Clift, Daniel Murfet, James Wallbridge(参考訳) チューリング機械の合成に基づく普遍計算の再評価を行う。 これはプログラムを解析多様体の特異点として、あるいは同値に合成問題のベイズ後方の位相として見ることに繋がる。 この新たな視点は、例えば相転移、複雑性、一般化に関して、ニューラルネットワークがサブセットであるプログラム合成の研究の未検討の方向性を明らかにする。 また、簡単な実験のコードによる実装を報告することで、これらの新しい方向性の実証的な基礎を築きます。

We re-evaluate universal computation based on the synthesis of Turing machines. This leads to a view of programs as singularities of analytic varieties or, equivalently, as phases of the Bayesian posterior of a synthesis problem. This new point of view reveals unexplored directions of research in program synthesis, of which neural networks are a subset, for example in relation to phase transitions, complexity and generalisation. We also lay the empirical foundations for these new directions by reporting on our implementation in code of some simple experiments.
翻訳日:2021-03-31 15:08:19 公開日:2021-03-30
# EnergyVis:MLモデルの相互追跡とエネルギー消費の探索

EnergyVis: Interactively Tracking and Exploring Energy Consumption for ML Models ( http://arxiv.org/abs/2103.16435v1 )

ライセンス: Link先を確認
Omar Shaikh, Jon Saad-Falcon, Austin P Wright, Nilaksh Das, Scott Freitas, Omar Isaac Asensio, Duen Horng Chau(参考訳) 機械学習(ML)モデルの出現により、コンピュータビジョンから自然言語まで、さまざまなモデリングタスクにおける最先端(SOTA)のパフォーマンスが改善された。 MLモデルのサイズが大きくなるにつれて、それぞれのエネルギー消費や計算要求も増加する。 しかし、エネルギー消費を追跡、報告、比較する方法は限られている。 本稿では,MLモデルの対話型エネルギー消費トラッカーであるEnergyVisを紹介する。 複数の協調ビューで構成されたEnergyVisは、研究者が主要なエネルギー消費と炭素フットプリントメトリクス(kWhとCO2)にわたるモデルエネルギー消費のインタラクティブな追跡、可視化、比較を可能にする。 EnergyVisは、モデルトレーニング中に過剰なエネルギー使用をインタラクティブに強調し、エネルギー使用を減らすための代替のトレーニングオプションを提供することによって、計算サステナビリティに関する意識を高めることを目的としている。

The advent of larger machine learning (ML) models have improved state-of-the-art (SOTA) performance in various modeling tasks, ranging from computer vision to natural language. As ML models continue increasing in size, so does their respective energy consumption and computational requirements. However, the methods for tracking, reporting, and comparing energy consumption remain limited. We presentEnergyVis, an interactive energy consumption tracker for ML models. Consisting of multiple coordinated views, EnergyVis enables researchers to interactively track, visualize and compare model energy consumption across key energy consumption and carbon footprint metrics (kWh and CO2), helping users explore alternative deployment locations and hardware that may reduce carbon footprints. EnergyVis aims to raise awareness concerning computational sustainability by interactively highlighting excessive energy usage during model training; and by providing alternative training options to reduce energy usage.
翻訳日:2021-03-31 15:08:11 公開日:2021-03-30
# ランダム特徴モデルにおける最小複雑性補間

Minimum complexity interpolation in random features models ( http://arxiv.org/abs/2103.15996v1 )

ライセンス: Link先を確認
Michael Celentano, Theodor Misiakiewicz, Andrea Montanari(参考訳) 多くの魅力的な性質にもかかわらず、カーネルメソッドは次元性の呪いの影響を強く受けている。 例えば、$\mathbb{r}^d$ の内部積核の場合、再生成核ヒルベルト空間(英語版)(rkhs)ノルムは、方向の小さな部分集合(リッジ関数)に強く依存する函数に対して非常に大きい。 それに対応して、そのような関数はカーネルメソッドを使って学習するのは難しい。 この観察は、カーネルメソッドの一般化の研究を動機付けており、RKHSノルムは重み付き$\ell_2$ノルムと等価であり、重み付き函数 $\ell_p$ノルムに置き換えられ、$\mathcal{F}_p$ノルムと呼ばれる。 残念ながら、これらのアプローチのトラクタビリティは不明確である。 カーネルトリックは利用できず、これらのノルムを最小化するには無限次元凸問題を解く必要がある。 本研究では,これらのノルムに対するランダムな特徴の近似について検討し,$p>1$の場合,元の学習問題を近似するために必要なランダムな特徴の数は,サンプルサイズの多項式によって上限づけられていることを示す。 したがって、これらの場合、$\mathcal{f}_p$ ノルムで学習することは扱いやすい。 双対における一様濃度に基づく証明手法を導入し、過度なパラメータ化モデルの研究に広く関心を持つことができる。

Despite their many appealing properties, kernel methods are heavily affected by the curse of dimensionality. For instance, in the case of inner product kernels in $\mathbb{R}^d$, the Reproducing Kernel Hilbert Space (RKHS) norm is often very large for functions that depend strongly on a small subset of directions (ridge functions). Correspondingly, such functions are difficult to learn using kernel methods. This observation has motivated the study of generalizations of kernel methods, whereby the RKHS norm -- which is equivalent to a weighted $\ell_2$ norm -- is replaced by a weighted functional $\ell_p$ norm, which we refer to as $\mathcal{F}_p$ norm. Unfortunately, tractability of these approaches is unclear. The kernel trick is not available and minimizing these norms requires to solve an infinite-dimensional convex problem. We study random features approximations to these norms and show that, for $p>1$, the number of random features required to approximate the original learning problem is upper bounded by a polynomial in the sample size. Hence, learning with $\mathcal{F}_p$ norms is tractable in these cases. We introduce a proof technique based on uniform concentration in the dual, which can be of broader interest in the study of overparametrized models.
翻訳日:2021-03-31 15:07:00 公開日:2021-03-30
# 拡散モデルを用いたシンボリック音楽生成

Symbolic Music Generation with Diffusion Models ( http://arxiv.org/abs/2103.16091v1 )

ライセンス: Link先を確認
Gautam Mittal, Jesse Engel, Curtis Hawthorne, Ian Simon(参考訳) スコアベース生成モデルと拡散確率モデルは、画像やオーディオなどの連続領域で高品質なサンプルを生成することに成功している。 しかし、Langevinにインスパイアされたサンプリング機構により、離散データやシーケンシャルデータへの応用は制限されている。 本研究では、事前学習された変分オートエンコーダの連続潜時空間における離散領域をパラメータ化することにより、逐次データ上で拡散モデルを訓練する手法を提案する。 提案手法は非自己回帰的であり, 逆過程を通じて潜伏埋め込みの列を生成することを学習し, 並列生成を一定数の反復的精錬ステップで実現する。 この手法をシンボリック音楽のモデル化に適用し,同一の連続埋め込み上で動作する自己回帰型言語モデルと比較して,強い無条件生成とポストホック条件付インフィル結果を示す。

Score-based generative models and diffusion probabilistic models have been successful at generating high-quality samples in continuous domains such as images and audio. However, due to their Langevin-inspired sampling mechanisms, their application to discrete and sequential data has been limited. In this work, we present a technique for training diffusion models on sequential data by parameterizing the discrete domain in the continuous latent space of a pre-trained variational autoencoder. Our method is non-autoregressive and learns to generate sequences of latent embeddings through the reverse process and offers parallel generation with a constant number of iterative refinement steps. We apply this technique to modeling symbolic music and show strong unconditional generation and post-hoc conditional infilling results compared to autoregressive language models operating over the same continuous embeddings.
翻訳日:2021-03-31 15:06:38 公開日:2021-03-30
# 高次元スパースデータのための逆ファイルk-meansクラスタリング

Structured Inverted-File k-Means Clustering for High-Dimensional Sparse Data ( http://arxiv.org/abs/2103.16141v1 )

ライセンス: Link先を確認
Kazuo Aoyama and Kazumi Saito(参考訳) 本稿では,大規模かつ高次元スパースデータセットのためのアーキテクチャフレンドリーなk-meansクラスタリングアルゴリズムsivfを提案する。 時間のアルゴリズム効率はしばしば類似度計算のようなコストのかかる演算数によって測定される。 しかし実際には、アルゴリズムが実行されるコンピュータシステムのアーキテクチャにどのように適応するかに大きく依存している。 提案するsivfは,invariant centroid-pair based filter (icp)を用いて,全クラスタにおけるデータオブジェクトとcentroidの類似度計算回数を削減する。 ICP性能を最大化するために、SIVFはパイプラインのハザードを低減するために構成された逆ファイルセットをセントロイドに悪用する。 我々は、SIVFが既存のアルゴリズムよりも高速でメモリ消費の少ない実大規模文書データセットについて実験を行った。 性能解析の結果,SIVFは類似性の少ない計算よりも,キャッシュミス数や分岐予測ミス数の性能劣化係数を抑えることにより,より高速に実現できることがわかった。

This paper presents an architecture-friendly k-means clustering algorithm called SIVF for a large-scale and high-dimensional sparse data set. Algorithm efficiency on time is often measured by the number of costly operations such as similarity calculations. In practice, however, it depends greatly on how the algorithm adapts to an architecture of the computer system which it is executed on. Our proposed SIVF employs invariant centroid-pair based filter (ICP) to decrease the number of similarity calculations between a data object and centroids of all the clusters. To maximize the ICP performance, SIVF exploits for a centroid set an inverted-file that is structured so as to reduce pipeline hazards. We demonstrate in our experiments on real large-scale document data sets that SIVF operates at higher speed and with lower memory consumption than existing algorithms. Our performance analysis reveals that SIVF achieves the higher speed by suppressing performance degradation factors of the number of cache misses and branch mispredictions rather than less similarity calculations.
翻訳日:2021-03-31 15:06:24 公開日:2021-03-30
# 光場再フォーカスのための機械学習手法

Machine learning method for light field refocusing ( http://arxiv.org/abs/2103.16020v1 )

ライセンス: Link先を確認
Eisa Hedayati, Timothy C. Havens, Jeremy P. Bos(参考訳) 光電界イメージングは、撮影後にイメージを再フォーカスする機能を導入した。 現在、再フォーカスする2つの一般的な方法、シフト・アンド・サム法とフーリエスライス法がある。 これらの2つの方法はいずれも、前処理なしで光場をリアルタイムに再フォーカスするものではない。 本稿では,16個の再焦点像を,実時間で再焦点パラメータ \alpha=0.125,0.250,0.375,...,2.0で抽出できる機械学習に基づく再焦点技術を提案する。 RefNetと呼ばれるネットワークを2つの実験でトレーニングしました。 トレーニングデータとしてフーリエスライス法(つまり「地上真実」)を使い、トレーニングデータとしてシフト・アンド・サム法を使用するもの。 どちらの場合も、RefNet法は従来の手法よりも少なくとも134倍高速であるだけでなく、Fourierスライス法やシフト・アンド・サム法よりもRefNetの色予測に優れており、フィールド深度とフォーカス距離性能は類似している。

Light field imaging introduced the capability to refocus an image after capturing. Currently there are two popular methods for refocusing, shift-and-sum and Fourier slice methods. Neither of these two methods can refocus the light field in real-time without any pre-processing. In this paper we introduce a machine learning based refocusing technique that is capable of extracting 16 refocused images with refocusing parameters of \alpha=0.125,0.250,0.375,...,2.0 in real-time. We have trained our network, which is called RefNet, in two experiments. Once using the Fourier slice method as the training -- i.e., "ground truth" -- data and another using the shift-and-sum method as the training data. We showed that in both cases, not only is the RefNet method at least 134x faster than previous approaches, but also the color prediction of RefNet is superior to both Fourier slice and shift-and-sum methods while having similar depth of field and focus distance performance.
翻訳日:2021-03-31 15:06:05 公開日:2021-03-30
# 画像逆問題に対する逆学習反復再構成

Adversarially learned iterative reconstruction for imaging inverse problems ( http://arxiv.org/abs/2103.16151v1 )

ライセンス: Link先を確認
Subhadip Mukherjee, Ozan \"Oktem, and Carola-Bibiane Sch\"onlieb(参考訳) 多くの実践的応用、特に医用画像再構成において、教師あり学習のための接地/測定ペアの大規模なアンサンブルを得ることは不可能である。 したがって、パフォーマンスにおける教師付きアプローチと競合する教師なし学習プロトコルを開発することが不可欠である。 最大相似原理に動機づけられ,不適切な逆問題を解くための教師なし学習フレームワークを提案する。 提案手法では,再構成画像と接地構造画像との画素間距離を求める代わりに,その出力が分布の接地構造と一致する反復的再構成ネットワークを学習する。 トモグラフィーの再構築を応用として, 提案手法は客観的品質対策の観点から, 教師なしアプローチと同等に機能するだけでなく, 教師付きアプローチが苦しむような過度なスムーシングの問題を回避できることを示した。 再建の質の向上は、訓練の複雑さを犠牲にして行われるが、訓練が終わると、再建の時間は監督されるものと同じである。

In numerous practical applications, especially in medical image reconstruction, it is often infeasible to obtain a large ensemble of ground-truth/measurement pairs for supervised learning. Therefore, it is imperative to develop unsupervised learning protocols that are competitive with supervised approaches in performance. Motivated by the maximum-likelihood principle, we propose an unsupervised learning framework for solving ill-posed inverse problems. Instead of seeking pixel-wise proximity between the reconstructed and the ground-truth images, the proposed approach learns an iterative reconstruction network whose output matches the ground-truth in distribution. Considering tomographic reconstruction as an application, we demonstrate that the proposed unsupervised approach not only performs on par with its supervised variant in terms of objective quality measures but also successfully circumvents the issue of over-smoothing that supervised approaches tend to suffer from. The improvement in reconstruction quality comes at the expense of higher training complexity, but, once trained, the reconstruction time remains the same as its supervised counterpart.
翻訳日:2021-03-31 15:05:50 公開日:2021-03-30
# 運動による関節カテゴリの単眼的3次元再構築の学習

Learning monocular 3D reconstruction of articulated categories from motion ( http://arxiv.org/abs/2103.16352v1 )

ライセンス: Link先を確認
Filippos Kokkinos, Iasonas Kokkinos(参考訳) 調音された物体カテゴリの単眼的3次元再構成は,訓練データの欠如と本質的不適切性から困難である。 本研究では, 映像自己監督を用いて, 連続した3次元再構成の整合性を, 動きに基づくサイクルロスによって強制する。 これにより、最適化ベースと学習ベースの3Dメッシュ再構築の両方が大幅に改善される。 さらに,少数の局所的学習可能なハンドルの変位を介して3次元表面を制御する3次元テンプレート変形の解釈モデルについても紹介する。 この操作をメッシュラプラシアン正則化に依存する構造化層として定式化し,エンドツーエンドでトレーニング可能であることを示す。 最後に,ビデオ内のメッシュ変位とカメラを協調的に最適化し,トレーニングおよびテスト時間後処理の精度を高める,サンプル単位の数値最適化手法を提案する。 監視のためにカテゴリ毎に収集されたビデオセットのみに依存するが、複数の明瞭なオブジェクトカテゴリに対して、さまざまな形状、視点、テクスチャを備えた最先端の再構築を得る。

Monocular 3D reconstruction of articulated object categories is challenging due to the lack of training data and the inherent ill-posedness of the problem. In this work we use video self-supervision, forcing the consistency of consecutive 3D reconstructions by a motion-based cycle loss. This largely improves both optimization-based and learning-based 3D mesh reconstruction. We further introduce an interpretable model of 3D template deformations that controls a 3D surface through the displacement of a small number of local, learnable handles. We formulate this operation as a structured layer relying on mesh-laplacian regularization and show that it can be trained in an end-to-end manner. We finally introduce a per-sample numerical optimisation approach that jointly optimises over mesh displacements and cameras within a video, boosting accuracy both for training and also as test time post-processing. While relying exclusively on a small set of videos collected per category for supervision, we obtain state-of-the-art reconstructions with diverse shapes, viewpoints and textures for multiple articulated object categories.
翻訳日:2021-03-31 15:05:31 公開日:2021-03-30
# 医用画像分割におけるランダム森林の役割評価

Assessing the Role of Random Forests in Medical Image Segmentation ( http://arxiv.org/abs/2103.16492v1 )

ライセンス: Link先を確認
Dennis Hartmann, Dominik M\"uller, I\~naki Soto-Rey and Frank Kramer(参考訳) ニューラルネットワークは、GPUを用いた医療画像セグメンテーションの分野で、非常に優れた結果を迅速に得る研究分野である。 gpuなしで良い結果を得るための可能な方法はランダムフォレストである。 この目的のために、2つのランダムな森林アプローチを最先端の深層畳み込みニューラルネットワークと比較した。 phc-c2dh-u373と網膜イメージングデータセットの比較を行った。 評価の結果, 深部畳み込みニュートラルネットワークは最良の結果を得た。 しかし、ランダムな森林アプローチの1つも同様に高い性能を達成した。 以上の結果から,ランダムフォレストアプローチは深層畳み込みニューラルネットワークの優れた代替手段であり,gpuを使わずに医用画像セグメンテーションを利用可能であることが示唆された。

Neural networks represent a field of research that can quickly achieve very good results in the field of medical image segmentation using a GPU. A possible way to achieve good results without GPUs are random forests. For this purpose, two random forest approaches were compared with a state-of-the-art deep convolutional neural network. To make the comparison the PhC-C2DH-U373 and the retinal imaging datasets were used. The evaluation showed that the deep convolutional neutral network achieved the best results. However, one of the random forest approaches also achieved a similar high performance. Our results indicate that random forest approaches are a good alternative to deep convolutional neural networks and, thus, allow the usage of medical image segmentation without a GPU.
翻訳日:2021-03-31 15:05:12 公開日:2021-03-30
# 奥行きと運動:奥行きネットワークと光度制約を用いた内視鏡映像の局所化と再構成

Endo-Depth-and-Motion: Localization and Reconstruction in Endoscopic Videos using Depth Networks and Photometric Constraints ( http://arxiv.org/abs/2103.16525v1 )

ライセンス: Link先を確認
David Recasens, Jos\'e Lamarca, Jos\'e M. F\'acil, J. M. M. Montiel, Javier Civera(参考訳) シーン再構成とボディビデオからのカメラモーションの推定は、いくつかの要因により困難である。 体内の空洞の変形、またはテクスチャの欠如。 本稿では,単眼内視鏡映像から6自由度カメラのポーズと密集した3dシーンモデルを推定するパイプラインであるendo-depth-and-motionを提案する。 提案手法は, 自監督深度ネットワークの最近の進歩を活用して擬似RGBDフレームを生成し, 光度残差を用いてカメラのポーズを追跡し, 登録深度マップを容積表現に融合させる。 公開データセットであるHamlynにおいて,高品質な結果と関連するベースラインとの比較を行った。 将来の比較のために、すべてのモデルとコードもリリースしています。

Estimating a scene reconstruction and the camera motion from in-body videos is challenging due to several factors, e.g. the deformation of in-body cavities or the lack of texture. In this paper we present Endo-Depth-and-Motion, a pipeline that estimates the 6-degrees-of-freedom camera pose and dense 3D scene models from monocular endoscopic videos. Our approach leverages recent advances in self-supervised depth networks to generate pseudo-RGBD frames, then tracks the camera pose using photometric residuals and fuses the registered depth maps in a volumetric representation. We present an extensive experimental evaluation in the public dataset Hamlyn, showing high-quality results and comparisons against relevant baselines. We also release all models and code for future comparisons.
翻訳日:2021-03-31 15:05:02 公開日:2021-03-30
# 接触した関節剛体に対する高速かつ完全微分可能な物理

Fast and Feature-Complete Differentiable Physics for Articulated Rigid Bodies with Contact ( http://arxiv.org/abs/2103.16021v1 )

ライセンス: Link先を確認
Keenon Werling, Dalton Omens, Jeongseok Lee, Ionnis Exarchos, C. Karen Liu(参考訳) ラグランジアン力学と剛体シミュレーションのためのハードコンタクト制約をサポートする高速で特徴完備な微分可能な物理エンジンを提案する。 私たちの微分可能な物理エンジンは、ロボティクスアプリケーションで一般的に使用される非微分可能な物理シミュレータでのみ使用可能な、完全な機能セットを提供します。 線形相補性問題(LCP)を用いて接触制約を正確に解く。 LCP溶液の疎性を利用した非弾性接触のLCP定式化による効率的で新しい解析勾配を示す。 複素接触幾何学と連続時間弾性衝突を近似する勾配をサポートする。 また,下流最適化タスクがサドルポイントの失速を回避するために,相補性認識勾配を計算する新しい手法を提案する。 既存の物理エンジン(DART)におけるこの組み合わせの実装は、計算解析ヤコビアンにおける有限差分よりも45倍の単一コアの高速化が可能であり、元のDARTの表現性を保っていることを示す。

We present a fast and feature-complete differentiable physics engine that supports Lagrangian dynamics and hard contact constraints for articulated rigid body simulation. Our differentiable physics engine offers a complete set of features that are typically only available in non-differentiable physics simulators commonly used by robotics applications. We solve contact constraints precisely using linear complementarity problems (LCPs). We present efficient and novel analytical gradients through the LCP formulation of inelastic contact that exploit the sparsity of the LCP solution. We support complex contact geometry, and gradients approximating continuous-time elastic collision. We also introduce a novel method to compute complementarity-aware gradients that help downstream optimization tasks avoid stalling in saddle points. We show that an implementation of this combination in an existing physics engine (DART) is capable of a 45x single-core speedup over finite-differencing in computing analytical Jacobians for a single timestep, while preserving all the expressiveness of original DART.
翻訳日:2021-03-31 15:04:48 公開日:2021-03-30
# 部分レコードのモデルベースクラスタリング

Model-based clustering of partial records ( http://arxiv.org/abs/2103.16336v1 )

ライセンス: Link先を確認
Emily M. Goren and Ranjan Maitra(参考訳) 部分的に記録されたデータは、多くのアプリケーションで頻繁に発生する。 実際には、そのようなデータセットは、通常、欠落した値を持つ不完全なケースや特徴を取り除くか、または欠落した値を示すことによってクラスタ化される。 本稿では,多変量$t$分布の有限混合モデルを用いて,観測値の限界密度を用いたモデルに基づくクラスタリング手法を開発した。 提案手法は,不完全データセットの欠落値を考慮し,ランダム(mar)仮定で欠落させ,ケース削除やインプテーションを行う,対応する完全期待最大化(em)手法と比較する。 観測値のみを利用するので,本手法はインプテーションやフルemよりも計算効率が高い。 シミュレーション研究により, 本手法は, 種々の欠失機構下でのケース削除やインプットに比べ, 真のクラスタ分割の回復に有利であり, 検出値を使用しないため, 完全EM法よりも極端にMAR違反に対して頑健であることが示された。 提案手法はガンマ線バーストのクラスタリングの問題に対して実証され,https://github.com/emilygoren/MixtClust Rパッケージに実装されている。

Partially recorded data are frequently encountered in many applications. In practice, such datasets are usually clustered by removing incomplete cases or features with missing values, or by imputing missing values, followed by application of a clustering algorithm to the resulting altered data set. Here, we develop clustering methodology through a model-based approach using the marginal density for the observed values, using a finite mixture model of multivariate $t$ distributions. We compare our algorithm to the corresponding full expectation-maximization (EM) approach that considers the missing values in the incomplete data set and makes a missing at random (MAR) assumption, as well as case deletion and imputation. Since only the observed values are utilized, our approach is computationally more efficient than imputation or full EM. Simulation studies demonstrate that our approach has favorable recovery of the true cluster partition compared to case deletion and imputation under various missingness mechanisms, and is more robust to extreme MAR violations than the full EM approach since it does not use the observed values to inform those that are missing. Our methodology is demonstrated on a problem of clustering gamma-ray bursts and is implemented in the https://github.com/emilygoren/MixtClust R package.
翻訳日:2021-03-31 15:04:32 公開日:2021-03-30
# アクティブ・ラーニング型スマート・アシスタントの開発に向けて

Towards Active Learning Based Smart Assistant for Manufacturing ( http://arxiv.org/abs/2103.16177v1 )

ライセンス: Link先を確認
Patrik Zajec, Jo\v{z}e M. Ro\v{z}anec, Inna Novalija, Bla\v{z} Fortuna, Dunja Mladeni\'c, Klemen Kenda(参考訳) 機械学習モデルによって生成された予測から一連の意思決定ステップを通してユーザを誘導するスマートアシスタントを構築するための一般的なアプローチを示す。 このようなシステムを構築するための方法論を開発します。 本システムは、製造における需要予測ユースケースで実証される。 この手法は製造におけるいくつかのユースケースに拡張することができる。 このシステムは知識獲得のための手段を提供し、ユーザーからデータを収集する。 ラベル付きデータが不足しているデータラベルを取得するために,アクティブな学習が利用可能だと考えています。

A general approach for building a smart assistant that guides a user from a forecast generated by a machine learning model through a sequence of decision-making steps is presented. We develop a methodology to build such a system. The system is demonstrated on a demand forecasting use case in manufacturing. The methodology can be extended to several use cases in manufacturing. The system provides means for knowledge acquisition, gathering data from users. We envision active learning can be used to get data labels where labeled data is scarce.
翻訳日:2021-03-31 15:03:30 公開日:2021-03-30
# 深部局所ディスクリプタを改良したFew-Shot分類法

Revisiting Deep Local Descriptor for Improved Few-Shot Classification ( http://arxiv.org/abs/2103.16009v1 )

ライセンス: Link先を確認
Jun He, Richang Hong, Xueliang Liu, Mingliang Xu and Meng Wang(参考訳) 少数ショット分類は、少ないサポートイメージに基づいて、深層学習者が新しいクラスを理解するために素早く適応する問題を研究している。 この文脈において、最近の研究は、クエリとサポート画像の類似性を計測するより複雑な分類器を設計することを目的としている。 高度な分類器への依存は不要であり、改良された機能埋め込みに直接適用した単純な分類器は最先端の手法より優れていることを示す。 そこで本研究では,新たな手法である \textbf{dcap} を提案する。ここでは, \textbf{d}ense \textbf{c}lassification と \textbf{a}ttentive \textbf{p}ooling を用いて,埋め込みの質を向上させる方法について検討する。 具体的には,多くのサンプルをベースクラスに事前学習して,まず高密度な分類問題を解き,次にランダムにサンプル化した数ショットタスクを微調整して,少数ショットシーンリオやテストタイムシーンリオに適応させることを提案する。 メタファインタニングの際,多用されるグローバル平均プール (GAP) の代わりに注意深いプールを応用して, 特徴マップをプールすることを提案する。 注意プールは、地元の記述者を再強調することを学び、学習者が求めるものを意思決定の証拠として説明する。 2つのベンチマークデータセットの実験は、提案手法がよりシンプルで説明しやすい複数のショット設定において優れていることを示している。 コードは \url{https://github.com/ukeyboard/dcap/} で入手できる。

Few-shot classification studies the problem of quickly adapting a deep learner to understanding novel classes based on few support images. In this context, recent research efforts have been aimed at designing more and more complex classifiers that measure similarities between query and support images, but left the importance of feature embeddings seldom explored. We show that the reliance on sophisticated classifier is not necessary and a simple classifier applied directly to improved feature embeddings can outperform state-of-the-art methods. To this end, we present a new method named \textbf{DCAP} in which we investigate how one can improve the quality of embeddings by leveraging \textbf{D}ense \textbf{C}lassification and \textbf{A}ttentive \textbf{P}ooling. Specifically, we propose to pre-train a learner on base classes with abundant samples to solve dense classification problem first and then fine-tune the learner on a bunch of randomly sampled few-shot tasks to adapt it to few-shot scenerio or the test time scenerio. We suggest to pool feature maps by applying attentive pooling instead of the widely used global average pooling (GAP) to prepare embeddings for few-shot classification during meta-finetuning. Attentive pooling learns to reweight local descriptors, explaining what the learner is looking for as evidence for decision making. Experiments on two benchmark datasets show the proposed method to be superior in multiple few-shot settings while being simpler and more explainable. Code is available at: \url{https://github.com/Ukeyboard/dcap/}.
翻訳日:2021-03-31 15:00:52 公開日:2021-03-30
# 顔写真合成・認識のためのアイデンティティ対応サイクルGAN

Identity-Aware CycleGAN for Face Photo-Sketch Synthesis and Recognition ( http://arxiv.org/abs/2103.16019v1 )

ライセンス: Link先を確認
Yuke Fang, Jiani Hu, Weihong Deng(参考訳) 顔認識合成と認識は、デジタルエンターテイメントや法執行機関に多くの応用がある。 近年,gans(generative adversarial network)に基づく手法が画像合成の質を大幅に改善しているが,認識の目的を明示的に考慮していない。 本稿では,画像生成ネットワークの監視に新たな知覚損失を適用したIACycleGAN(Identity-Aware CycleGAN)モデルを提案する。 これは、アイデンティティ認識に重要な目や鼻などの重要な顔領域の合成に注意を払うことによって、フォトエッチング合成におけるサイクガンを改善する。 さらに, 合成モデルと認識モデルの相互最適化手法を開発し, イアサイクガンによる良好な画像の反復合成と, 生成したサンプルと実サンプルの3重損失による認識モデルの拡張を行う。 広く使われているCUFSとCUFSFデータベースを用いて、フォト・トスコッチとスケッチ・ツー・フォト・タスクの両方で大規模な実験を行う。 提案手法は,合成画像の品質と光スケッチ認識精度の両方の観点から,複数の最先端手法よりも優れていた。

Face photo-sketch synthesis and recognition has many applications in digital entertainment and law enforcement. Recently, generative adversarial networks (GANs) based methods have significantly improved the quality of image synthesis, but they have not explicitly considered the purpose of recognition. In this paper, we first propose an Identity-Aware CycleGAN (IACycleGAN) model that applies a new perceptual loss to supervise the image generation network. It improves CycleGAN on photo-sketch synthesis by paying more attention to the synthesis of key facial regions, such as eyes and nose, which are important for identity recognition. Furthermore, we develop a mutual optimization procedure between the synthesis model and the recognition model, which iteratively synthesizes better images by IACycleGAN and enhances the recognition model by the triplet loss of the generated and real samples. Extensive experiments are performed on both photo-tosketch and sketch-to-photo tasks using the widely used CUFS and CUFSF databases. The results show that the proposed method performs better than several state-of-the-art methods in terms of both synthetic image quality and photo-sketch recognition accuracy.
翻訳日:2021-03-31 15:00:23 公開日:2021-03-30
# 胸部X線データを用いた自己教師付き画像テキスト事前学習

Self-supervised Image-text Pre-training With Mixed Data In Chest X-rays ( http://arxiv.org/abs/2103.16022v1 )

ライセンス: Link先を確認
Xiaosong Wang and Ziyue Xu and Leo Tam and Dong Yang and Daguang Xu(参考訳) 事前訓練されたモデル、例えばImageNetは、多くの下流アプリケーションの性能向上に有効であることが証明されている。 医療画像のためのモデルを構築するには、大規模なアノテーションを取得する必要がある。 一方、病院情報システムには多数の臨床データ(画像とテキストレポートの形で)が保存されている。 同じ患者研究から得られた画像テキストデータを、弱教師付きで事前学習作業に活用することができる。 しかしながら、そのような生データの完全性、アクセシビリティ、および量は、ペアリング対アンペア(画像のみまたはテキストのみ)など、さまざまな機関によって異なる。 本研究では、これらの生データから、ペア画像テキストデータ(ペア画像テキストデータ)とペア画像データ(ペア画像テキストデータ)を混合して学習できる、画像テキスト事前学習フレームワークを提案する。 非ペアのデータは、ある機関または複数の機関(例えば、ある機関からのイメージと別の機関からのテキスト)からソースすることができる。 具体的には,画像とテキストデータの表現を共同で学習するトランスフォーマティブベースの学習フレームワークを提案する。 既存のマスメド言語モデリングに加えて、画像パッチ再生のための自己教師付きトレーニングタスクとして、マルチスケールマスメド・ビジョン・モデリングを導入している。 混合データ入力における事前学習の実現可能性を示すだけでなく, 分類, 検索, 画像再生の3つの胸部X線応用における事前学習モデルの利点を示す。 MIMIC-CXR,NIH14-CXR,OpenI-CXRデータセットを用いた先行技術と比較検討を行った。

Pre-trained models, e.g., from ImageNet, have proven to be effective in boosting the performance of many downstream applications. It is too demanding to acquire large-scale annotations to build such models for medical imaging. Meanwhile, there are numerous clinical data (in the form of images and text reports) stored in the hospital information systems. The paired image-text data from the same patient study could be utilized for the pre-training task in a weakly supervised manner. However, the integrity, accessibility, and amount of such raw data vary across different institutes, e.g., paired vs. unpaired (image-only or text-only). In this work, we introduce an image-text pre-training framework that can learn from these raw data with mixed data inputs, i.e., paired image-text data, a mixture of paired and unpaired data. The unpaired data can be sourced from one or multiple institutes (e.g., images from one institute coupled with texts from another). Specifically, we propose a transformer-based training framework for jointly learning the representation of both the image and text data. In addition to the existing masked language modeling, multi-scale masked vision modeling is introduced as a self-supervised training task for image patch regeneration. We not only demonstrate the feasibility of pre-training across mixed data inputs but also illustrate the benefits of adopting such pre-trained models in 3 chest X-ray applications, i.e., classification, retrieval, and image regeneration. Superior results are reported in comparison to prior art using MIMIC-CXR, NIH14-CXR, and OpenI-CXR datasets.
翻訳日:2021-03-31 15:00:05 公開日:2021-03-30
# 時間的動作提案生成のための適応グラフ付き拡張トランス

Augmented Transformer with Adaptive Graph for Temporal Action Proposal Generation ( http://arxiv.org/abs/2103.16024v1 )

ライセンス: Link先を確認
Shuning Chang, Pichao Wang, Fan Wang, Hao Li, Jiashi Feng(参考訳) 時間的行動提案生成(TAPG)は、ビデオ理解、特に時間的行動検出における基本的な課題である。 これまでのほとんどの作業は、ローカルの時間的コンテキストのキャプチャに重点を置いており、クリーンなフレームと明確なバウンダリを持つ単純なアクションインスタンスを適切に見つけることができる。 しかし、一般的には、関心のあるアクションが無関係なフレームや背景の散らばりを伴う複雑なシナリオで失敗し、局所的な時間的文脈がより効果的になる。 これらの問題に対処するため、TAPGの長距離時間と局所時間の両方を利用するための適応グラフネットワーク(ATAG)を備えた拡張変換器を提案する。 具体的には,スニペット動作損失と前部ブロックを装着してバニラトランスを強化し,長距離依存性を捕捉し,雑音下でのロバストな特徴を学習する能力を向上させるとともに,位置情報と隣接特徴の差異をマイニングして局所的時間的文脈を構築するための適応グラフ畳み込みネットワーク(gcn)を提案する。 2つのモジュールの特徴は、ビデオの豊富な意味情報を持ち、効果的な逐次提案生成のために融合される。 THUMOS14とActivityNet1.3の2つの挑戦的データセットに対して大規模な実験を行い,本手法が最先端のTAPG法より優れていることを示す。 私たちのコードはまもなくリリースされます。

Temporal action proposal generation (TAPG) is a fundamental and challenging task in video understanding, especially in temporal action detection. Most previous works focus on capturing the local temporal context and can well locate simple action instances with clean frames and clear boundaries. However, they generally fail in complicated scenarios where interested actions involve irrelevant frames and background clutters, and the local temporal context becomes less effective. To deal with these problems, we present an augmented transformer with adaptive graph network (ATAG) to exploit both long-range and local temporal contexts for TAPG. Specifically, we enhance the vanilla transformer by equipping a snippet actionness loss and a front block, dubbed augmented transformer, and it improves the abilities of capturing long-range dependencies and learning robust feature for noisy action instances.Moreover, an adaptive graph convolutional network (GCN) is proposed to build local temporal context by mining the position information and difference between adjacent features. The features from the two modules carry rich semantic information of the video, and are fused for effective sequential proposal generation. Extensive experiments are conducted on two challenging datasets, THUMOS14 and ActivityNet1.3, and the results demonstrate that our method outperforms state-of-the-art TAPG methods. Our code will be released soon.
翻訳日:2021-03-31 14:59:42 公開日:2021-03-30
# 出現流を用いた魚眼画像整形のための漸進的補完網

Progressively Complementary Network for Fisheye Image Rectification Using Appearance Flow ( http://arxiv.org/abs/2103.16026v1 )

ライセンス: Link先を確認
Shangrong Yang, Chunyu Lin, Kang Liao, Chunjie Zhang, Yao Zhao(参考訳) 魚眼画像には歪み補正がしばしば必要である。 ジェネレーションベースの手法は、ラベルのない性質のために主流のソリューションであるが、単純スキップ接続とオーバーバーデンドデコーダは、曖昧で不完全な修正を引き起こす。 まず、スキップ接続は画像の特徴を直接転送し、歪みを引き起こし不完全な補正を引き起こす可能性がある。 第2に、画像の内容と構造を同時に再構成する際にデコーダをオーバーバーデンし、あいまいな性能を実現する。 本稿では,この2つの問題を解決するために,歪み補正ネットワークの解釈可能な補正機構に着目し,特徴レベルの補正手法を提案する。 我々は、補正層をスキップ接続に埋め込み、異なるレイヤの外観フローを利用して画像の特徴を事前に補正する。 これにより、デコーダは、残される歪みのない情報により、可視結果を容易に再構成することができる。 さらに,並列補完構造を提案する。 コンテンツ再構成と構造補正を分離することにより、デコーダの負担を効果的に軽減する。 異なるデータセットに対する主観的および客観的な実験結果から,本手法の優位性を示す。

Distortion rectification is often required for fisheye images. The generation-based method is one mainstream solution due to its label-free property, but its naive skip-connection and overburdened decoder will cause blur and incomplete correction. First, the skip-connection directly transfers the image features, which may introduce distortion and cause incomplete correction. Second, the decoder is overburdened during simultaneously reconstructing the content and structure of the image, resulting in vague performance. To solve these two problems, in this paper, we focus on the interpretable correction mechanism of the distortion rectification network and propose a feature-level correction scheme. We embed a correction layer in skip-connection and leverage the appearance flows in different layers to pre-correct the image features. Consequently, the decoder can easily reconstruct a plausible result with the remaining distortion-less information. In addition, we propose a parallel complementary structure. It effectively reduces the burden of the decoder by separating content reconstruction and structure correction. Subjective and objective experiment results on different datasets demonstrate the superiority of our method.
翻訳日:2021-03-31 14:59:17 公開日:2021-03-30
# 単一領域一般化のためのプログレッシブドメイン拡張ネットワーク

Progressive Domain Expansion Network for Single Domain Generalization ( http://arxiv.org/abs/2103.16050v1 )

ライセンス: Link先を確認
Lei Li, Ke Gao, Juan Cao, Ziyao Huang, Yepeng Weng, Xiaoyue Mi, Zhengze Yu, Xiaoya Li, Boyang xia(参考訳) 単一ドメインの一般化はモデル一般化の難しいケースであり、モデルが単一のドメインで訓練され、他の見えないドメインでテストされる。 有望な解決策は、トレーニング領域の範囲を広げることで、クロスドメイン不変表現を学ぶことである。 これらの手法は、適切な安全性と有効性制約の欠如により、実用用途での一般化性能の向上を制限している。 本稿では,一分野一般化のためのプログレッシブドメイン拡張ネットワーク(PDEN)と呼ばれる新しい学習フレームワークを提案する。 pdenにおけるドメイン拡張サブネットワークと表現学習サブネットワークは、協調学習によって相互に利益を得る。 ドメイン拡張サブネットワークでは、さまざまな測光および幾何変換を非可視領域でシミュレートするために、複数のドメインが徐々に生成される。 拡張ドメインの安全性と有効性を保証するための一連の戦略が導入された。 ドメイン不変表現学習サブネットワークでは、各クラスが十分にクラスタ化されているドメイン不変表現を学習し、より優れた決定境界を学習して一般化を改善するために対照的な学習が導入される。 分類とセグメンテーションに関する大規模な実験により、PDENは最先端の単一ドメイン一般化法と比較して最大15.28%改善できることが示された。

Single domain generalization is a challenging case of model generalization, where the models are trained on a single domain and tested on other unseen domains. A promising solution is to learn cross-domain invariant representations by expanding the coverage of the training domain. These methods have limited generalization performance gains in practical applications due to the lack of appropriate safety and effectiveness constraints. In this paper, we propose a novel learning framework called progressive domain expansion network (PDEN) for single domain generalization. The domain expansion subnetwork and representation learning subnetwork in PDEN mutually benefit from each other by joint learning. For the domain expansion subnetwork, multiple domains are progressively generated in order to simulate various photometric and geometric transforms in unseen domains. A series of strategies are introduced to guarantee the safety and effectiveness of the expanded domains. For the domain invariant representation learning subnetwork, contrastive learning is introduced to learn the domain invariant representation in which each class is well clustered so that a better decision boundary can be learned to improve it's generalization. Extensive experiments on classification and segmentation have shown that PDEN can achieve up to 15.28% improvement compared with the state-of-the-art single-domain generalization methods.
翻訳日:2021-03-31 14:59:01 公開日:2021-03-30
# 完全畳み込みシーングラフ生成

Fully Convolutional Scene Graph Generation ( http://arxiv.org/abs/2103.16083v1 )

ライセンス: Link先を確認
Hengyue Liu, Ning Yan, Masood S. Mortazavi, Bir Bhanu(参考訳) 本稿では、オブジェクトと関係を同時に検出する完全畳み込みシーングラフ生成(FCSGG)モデルを提案する。 シーングラフ生成フレームワークのほとんどは、Faster R-CNNのようなトレーニング済みの2段階オブジェクト検出器と、バウンディングボックス機能を使用したビルドシーングラフを使用している。 このようなパイプラインは通常、多数のパラメータと低い推論速度を持つ。 これらのアプローチとは異なり、FCSGGは概念的にエレガントで効率的なボトムアップアプローチであり、オブジェクトを境界の中心点としてエンコードし、リレーショナル親和性場(RAF)と呼ばれる2次元ベクトル場として関連付ける。 rafは意味的特徴と空間的特徴の両方をエンコードし、対象から対象へ向ける部分領域上の積分によって、対象の対の関係を明示的に表現する。 FCSGGは視覚的特徴のみを利用し、シーングラフ生成の強力な結果を生成する。 Visual Genome データセットの総合的な実験により,提案手法の有効性,有効性,一般化性を実証した。 fcsggはリコールとゼロショットリコールにおいて高い競合性を達成し、推論時間を大幅に削減した。

This paper presents a fully convolutional scene graph generation (FCSGG) model that detects objects and relations simultaneously. Most of the scene graph generation frameworks use a pre-trained two-stage object detector, like Faster R-CNN, and build scene graphs using bounding box features. Such pipeline usually has a large number of parameters and low inference speed. Unlike these approaches, FCSGG is a conceptually elegant and efficient bottom-up approach that encodes objects as bounding box center points, and relationships as 2D vector fields which are named as Relation Affinity Fields (RAFs). RAFs encode both semantic and spatial features, and explicitly represent the relationship between a pair of objects by the integral on a sub-region that points from subject to object. FCSGG only utilizes visual features and still generates strong results for scene graph generation. Comprehensive experiments on the Visual Genome dataset demonstrate the efficacy, efficiency, and generalizability of the proposed method. FCSGG achieves highly competitive results on recall and zero-shot recall with significantly reduced inference time.
翻訳日:2021-03-31 14:58:42 公開日:2021-03-30
# 自己監督型特徴抽出による大規模自律走行シナリオクラスタリング

Large Scale Autonomous Driving Scenarios Clustering with Self-supervised Feature Extraction ( http://arxiv.org/abs/2103.16101v1 )

ライセンス: Link先を確認
Jinxin Zhao, Jin Fang, Zhixian Ye and Liangjun Zhang(参考訳) 自動運転シナリオデータのクラスタリングは、シミュレーションテストの完全性と忠実性を改善することにより、自動運転検証とシミュレーションシステムに大きなメリットがある。 本稿では,自動車運転データの大規模集合に対する包括的データクラスタリングフレームワークを提案する。 既存のアルゴリズムは、人間の専門家の判断に依存する手作りの機能を利用する。 さらに、関連する特徴圧縮手法は大規模データセットには拡張性がない。 提案手法では,トラヒック内エージェントオブジェクトとマップ情報の両方を含むトラフィック要素を網羅的に検討する。 一方,偏りのあるデータ表現を避けるために,時間的特徴抽出のための自己教師付きディープラーニング手法を提案した。 データ提供に基づくデータクラスタリング評価メトリクスを新たに設計した駆動型データクラスタリングでは、精度評価には人間のバイアスの対象となるヒューマンラベルデータセットを必要としない。 このような偏見のない評価指標により,手作業による特徴抽出に依存した既存手法を超越したアプローチが示されている。

The clustering of autonomous driving scenario data can substantially benefit the autonomous driving validation and simulation systems by improving the simulation tests' completeness and fidelity. This article proposes a comprehensive data clustering framework for a large set of vehicle driving data. Existing algorithms utilize handcrafted features whose quality relies on the judgments of human experts. Additionally, the related feature compression methods are not scalable for a large data-set. Our approach thoroughly considers the traffic elements, including both in-traffic agent objects and map information. Meanwhile, we proposed a self-supervised deep learning approach for spatial and temporal feature extraction to avoid biased data representation. With the newly designed driving data clustering evaluation metrics based on data-augmentation, the accuracy assessment does not require a human-labeled data-set, which is subject to human bias. Via such unprejudiced evaluation metrics, we have shown our approach surpasses the existing methods that rely on handcrafted feature extractions.
翻訳日:2021-03-31 14:58:26 公開日:2021-03-30
# 大規模視覚食品認識

Large Scale Visual Food Recognition ( http://arxiv.org/abs/2103.16107v1 )

ライセンス: Link先を確認
Weiqing Min and Zhiling Wang and Yuxin Liu and Mengjiang Luo and Liping Kang and Xiaoming Wei and Xiaolin Wei and Shuqiang Jiang(参考訳) 食品の認識は、人間の健康と健康に不可欠な食品の選択と摂取において重要な役割を担っている。 したがって、コンピュータビジョンコミュニティにとって重要であり、多くの食品指向のビジョンとマルチモーダルなタスクをさらにサポートすることができる。 残念ながら、私たちは、大規模なデータセットのリリースに対して、一般的な視覚認識の顕著な進歩を目撃しました。 本稿では,2000のカテゴリと100万以上の画像を持つ,最大規模の食品認識データセットであるfood2kを紹介する。既存の食品認識データセットと比較して,food2kは2つのカテゴリとイメージを1桁の桁でバイパスし,食品視覚表現学習のための高度なモデルを開発するための新たな挑戦的ベンチマークを確立する。 さらに, 食品認識のための深層進行領域拡張ネットワークを提案し, 主に, 局所的特徴学習と地域特徴増強という2つの要素から構成されている。 前者は多様で相補的な局所的特徴を学習するために進歩的訓練を導入し、後者は自己注意を利用して、よりリッチなコンテキストと複数のスケールを局所的特徴に組み込んで、さらなる局所的特徴の強化を行う。 食品2Kの広範囲な実験により,提案手法の有効性が示された。 さらに,食品認識,食品画像検索,クロスモーダルレシピ検索,食品検出,セグメンテーションなど,さまざまなタスクにおけるFood2Kの一般化能力を検証した。 食品2Kは、新しく、より複雑なもの(例えば、食物の栄養学的理解)を含む、食品関連タスクの恩恵を受けるためにさらに探索され、食品関連タスクのパフォーマンスを改善するために、食品2Kのトレーニングされたモデルがバックボーンとして期待できる。 また、food2kが大規模なきめ細かなビジュアル認識ベンチマークになることも期待しています。

Food recognition plays an important role in food choice and intake, which is essential to the health and well-being of humans. It is thus of importance to the computer vision community, and can further support many food-oriented vision and multimodal tasks. Unfortunately, we have witnessed remarkable advancements in generic visual recognition for released large-scale datasets, yet largely lags in the food domain. In this paper, we introduce Food2K, which is the largest food recognition dataset with 2,000 categories and over 1 million images.Compared with existing food recognition datasets, Food2K bypasses them in both categories and images by one order of magnitude, and thus establishes a new challenging benchmark to develop advanced models for food visual representation learning. Furthermore, we propose a deep progressive region enhancement network for food recognition, which mainly consists of two components, namely progressive local feature learning and region feature enhancement. The former adopts improved progressive training to learn diverse and complementary local features, while the latter utilizes self-attention to incorporate richer context with multiple scales into local features for further local feature enhancement. Extensive experiments on Food2K demonstrate the effectiveness of our proposed method. More importantly, we have verified better generalization ability of Food2K in various tasks, including food recognition, food image retrieval, cross-modal recipe retrieval, food detection and segmentation. Food2K can be further explored to benefit more food-relevant tasks including emerging and more complex ones (e.g., nutritional understanding of food), and the trained models on Food2K can be expected as backbones to improve the performance of more food-relevant tasks. We also hope Food2K can serve as a large scale fine-grained visual recognition benchmark.
翻訳日:2021-03-31 14:58:14 公開日:2021-03-30
# Few-Shotセグメンテーションのためのセルフガイドとクロスガイド学習

Self-Guided and Cross-Guided Learning for Few-Shot Segmentation ( http://arxiv.org/abs/2103.16129v1 )

ライセンス: Link先を確認
Bingfeng Zhang, Jimin Xiao and Terry Qin(参考訳) 少数ショットのセグメンテーションは、いくつかのアノテーション付きサンプルで未認識のオブジェクトクラスをセグメンテーションする効果があるため、多くの注目を集めている。 既存のほとんどのアプローチでは、マスク付きグローバル平均プール(GAP)を使用して、注釈付きサポートイメージを特徴ベクトルにエンコードし、クエリイメージのセグメンテーションを容易にする。 しかし、このパイプラインは、平均的な操作のために差別的な情報を失うことは避けられない。 本稿では,失われた臨界情報をマイニングする,シンプルで効果的な自己指導型学習手法を提案する。 具体的には、注釈付き支持画像の初期予測を行うことにより、被被覆領域と未発見領域とをマスキングGAPを用いてそれぞれ一次および補助支持ベクトルに符号化する。 一次支援ベクトルと補助支援ベクトルの両方を集約することにより、クエリ画像上でより良いセグメンテーション性能が得られる。 1ショットセグメンテーションのための自己誘導モジュールにより,複数ショットセグメンテーションのためのクロスガイドモジュールを提案する。 このモジュールは推論段階での最終的な予測を再トレーニングせずに改善する。 大規模実験により,PASCAL-5iとCOCO-20iの両方のデータセット上での最先端性能が得られた。

Few-shot segmentation has been attracting a lot of attention due to its effectiveness to segment unseen object classes with a few annotated samples. Most existing approaches use masked Global Average Pooling (GAP) to encode an annotated support image to a feature vector to facilitate query image segmentation. However, this pipeline unavoidably loses some discriminative information due to the average operation. In this paper, we propose a simple but effective self-guided learning approach, where the lost critical information is mined. Specifically, through making an initial prediction for the annotated support image, the covered and uncovered foreground regions are encoded to the primary and auxiliary support vectors using masked GAP, respectively. By aggregating both primary and auxiliary support vectors, better segmentation performances are obtained on query images. Enlightened by our self-guided module for 1-shot segmentation, we propose a cross-guided module for multiple shot segmentation, where the final mask is fused using predictions from multiple annotated samples with high-quality support vectors contributing more and vice versa. This module improves the final prediction in the inference stage without re-training. Extensive experiments show that our approach achieves new state-of-the-art performances on both PASCAL-5i and COCO-20i datasets.
翻訳日:2021-03-31 14:57:44 公開日:2021-03-30
# 確率モデリングによる深部物体検出のための能動学習

Active Learning for Deep Object Detection via Probabilistic Modeling ( http://arxiv.org/abs/2103.16130v1 )

ライセンス: Link先を確認
Jiwoong Choi, Ismail Elezi, Hyuk-Jae Lee, Clement Farabet, Jose M. Alvarez(参考訳) アクティブラーニングはデータセットの最も有益なサンプルのみを選択することで、ラベリングコストを削減することを目的としている。 オブジェクト検出のためのアクティブラーニングに取り組んだ既存の作品はほとんどない。 これらの手法の多くは複数のモデルに基づいており、分類手法の直接的な拡張であり、したがって分類ヘッドのみを用いて画像の情報性を推定する。 本稿では,物体検出のための新しい深層アクティブ学習手法を提案する。 提案手法は,各局所化および分類ヘッドの出力に対する確率分布を推定する混合密度ネットワークに依存する。 単一モデルの1つの前方通過における動脈およびてんかんの不確かさを明示的に推定する。 本手法では,両頭部の2種類の不確かさを集約したスコアリング関数を用いて,各画像の情報度スコアを求める。 PASCAL VOCおよびMS-COCOデータセットにおけるアプローチの有効性を示す。 提案手法は単一モデルに基づく手法より優れ,計算コストのごく一部でマルチモデルに基づく手法と同等に動作する。

Active learning aims to reduce labeling costs by selecting only the most informative samples on a dataset. Few existing works have addressed active learning for object detection. Most of these methods are based on multiple models or are straightforward extensions of classification methods, hence estimate an image's informativeness using only the classification head. In this paper, we propose a novel deep active learning approach for object detection. Our approach relies on mixture density networks that estimate a probabilistic distribution for each localization and classification head's output. We explicitly estimate the aleatoric and epistemic uncertainty in a single forward pass of a single model. Our method uses a scoring function that aggregates these two types of uncertainties for both heads to obtain every image's informativeness score. We demonstrate the efficacy of our approach in PASCAL VOC and MS-COCO datasets. Our approach outperforms single-model based methods and performs on par with multi-model based methods at a fraction of the computing cost.
翻訳日:2021-03-31 14:57:22 公開日:2021-03-30
# 行動・文脈の明示的部分空間の学習による時間的行動局所化の弱化

Weakly Supervised Temporal Action Localization Through Learning Explicit Subspaces for Action and Context ( http://arxiv.org/abs/2103.16155v1 )

ライセンス: Link先を確認
Ziyi Liu, Le Wang, Wei Tang, Junsong Yuan, Nanning Zheng, Gang Hua(参考訳) 弱教師付き時間的行動局所化(WS-TAL)手法は、ビデオレベルの監視のみの下でビデオ内の時間的開始と終了をローカライズする。 既存のWS-TALメソッドは、アクション認識のために学んだ深い機能に依存しています。 しかし、分類とローカライゼーションのミスマッチのため、これらの特徴は頻繁に発生するコンテキスト背景、すなわちコンテキストと実際のアクションインスタンスを区別することはできない。 この課題を行動-文脈の混同と呼び,行動の局所化精度に悪影響を及ぼす。 この課題に対処するために、アクションとコンテキストの2つの機能部分空間をそれぞれ学習するフレームワークを導入する。 アクション視覚要素を明示的に説明することにより、アクションインスタンスは、コンテキストから逸脱することなく、より正確にローカライズすることができる。 ビデオレベルの分類ラベルのみを用いた2つの特徴部分空間の学習を容易にするために,スニペットグループ化のための空間的および時間的ストリームからの予測を活用した。 また,提案モジュールを時間情報マイニングに焦点を合わせ,教師なし学習タスクを導入する。 提案されたアプローチは、3つのベンチマーク、すなわち thumos14, activitynet v1.2, v1.3 データセットで最先端の ws-tal メソッドを上回る。

Weakly-supervised Temporal Action Localization (WS-TAL) methods learn to localize temporal starts and ends of action instances in a video under only video-level supervision. Existing WS-TAL methods rely on deep features learned for action recognition. However, due to the mismatch between classification and localization, these features cannot distinguish the frequently co-occurring contextual background, i.e., the context, and the actual action instances. We term this challenge action-context confusion, and it will adversely affect the action localization accuracy. To address this challenge, we introduce a framework that learns two feature subspaces respectively for actions and their context. By explicitly accounting for action visual elements, the action instances can be localized more precisely without the distraction from the context. To facilitate the learning of these two feature subspaces with only video-level categorical labels, we leverage the predictions from both spatial and temporal streams for snippets grouping. In addition, an unsupervised learning task is introduced to make the proposed module focus on mining temporal information. The proposed approach outperforms state-of-the-art WS-TAL methods on three benchmarks, i.e., THUMOS14, ActivityNet v1.2 and v1.3 datasets.
翻訳日:2021-03-31 14:57:09 公開日:2021-03-30
# 図面とスケッチの相違

Differentiable Drawing and Sketching ( http://arxiv.org/abs/2103.16194v1 )

ライセンス: Link先を確認
Daniela Mihai and Jonathon Hare(参考訳) 我々は、点、線、曲線をピクセルラスタに描画する過程をボトムアップで微分可能緩和する。 我々のアプローチは、プリミティブのパラメータが与えられた画像内のピクセルをラスタ化することは、プリミティブの距離変換の観点で再構成でき、それから、プリミティブのパラメータを学習できるようにリラックスできるという観察から生じる。 この緩和により、エンド・ツー・エンドの微分可能プログラムとディープネットワークの学習と最適化が可能になり、構成的描画プロセスのモデル化の制御を可能にするいくつかのビルディングブロックを提供する。 我々は,提案手法のボトムアップ性を強調し,ドローイング操作を,例えば現代のコンピュータグラフィックスにおけるアプローチと結びつけるのではなく,ドローイングの物理的な現実を模倣する手法で構成することを可能にする。 提案手法では,写真に対して直接最適化することでスケッチを生成する方法と,ラスタ化された手書き文字を監督なしでベクトルに変換する自動エンコーダの構築方法を示す。 広範囲にわたる実験の結果は、描画タスクの異なるモデリング仮定の下でのこのアプローチのパワーを強調している。

We present a bottom-up differentiable relaxation of the process of drawing points, lines and curves into a pixel raster. Our approach arises from the observation that rasterising a pixel in an image given parameters of a primitive can be reformulated in terms of the primitive's distance transform, and then relaxed to allow the primitive's parameters to be learned. This relaxation allows end-to-end differentiable programs and deep networks to be learned and optimised and provides several building blocks that allow control over how a compositional drawing process is modelled. We emphasise the bottom-up nature of our proposed approach, which allows for drawing operations to be composed in ways that can mimic the physical reality of drawing rather than being tied to, for example, approaches in modern computer graphics. With the proposed approach we demonstrate how sketches can be generated by directly optimising against photographs and how auto-encoders can be built to transform rasterised handwritten digits into vectors without supervision. Extensive experimental results highlight the power of this approach under different modelling assumptions for drawing tasks.
翻訳日:2021-03-31 14:56:49 公開日:2021-03-30
# XVFI: eXtremeビデオフレーム補間

XVFI: eXtreme Video Frame Interpolation ( http://arxiv.org/abs/2103.16206v1 )

ライセンス: Link先を確認
Hyeonjun Sim, Jihyong Oh, Munchurl Kim(参考訳) 本稿では、まず、1000fpsの4Kビデオのデータセット(X4K1000FPS)を、ビデオフレーム補間(VFI)研究コミュニティに提示し、まず、大きなモーションで4KビデオのVFIを処理する極端VFIネットワークであるXVFI-Netを提案する。 XVFI-Netは、2つの入力フレーム(BiOF-I)間の双方向光フロー学習のための2つのカスケードモジュールと、ターゲットから入力フレーム(BiOF-T)への双方向光フロー学習のための再帰的なマルチスケール共有構造に基づいている。 光学フローはBiOF-Tモジュールで提案された補流逆流(CFR)によって安定に近似される。 推論中、BiOF-Iモジュールは任意の入力スケールで開始でき、BiOF-Tモジュールは元の入力スケールでのみ動作し、高精度なVFI性能を維持しながら推論を加速することができる。 広範な実験結果から,我々のxvfi-netは,非常に大きな動きと複雑なテクスチャを持つ物体の必須情報をキャプチャすることに成功した。 さらに、我々のXVFI-Netフレームワークは、以前の低解像度ベンチマークデータセットでも比較可能であり、アルゴリズムの堅牢性も示しています。 すべてのソースコード、事前訓練されたモデル、提案されたX4K1000FPSデータセットはhttps://github.com/JihyongOh/XVFIで公開されている。

In this paper, we firstly present a dataset (X4K1000FPS) of 4K videos of 1000 fps with the extreme motion to the research community for video frame interpolation (VFI), and propose an extreme VFI network, called XVFI-Net, that first handles the VFI for 4K videos with large motion. The XVFI-Net is based on a recursive multi-scale shared structure that consists of two cascaded modules for bidirectional optical flow learning between two input frames (BiOF-I) and for bidirectional optical flow learning from target to input frames (BiOF-T). The optical flows are stably approximated by a complementary flow reversal (CFR) proposed in BiOF-T module. During inference, the BiOF-I module can start at any scale of input while the BiOF-T module only operates at the original input scale so that the inference can be accelerated while maintaining highly accurate VFI performance. Extensive experimental results show that our XVFI-Net can successfully capture the essential information of objects with extremely large motions and complex textures while the state-of-the-art methods exhibit poor performance. Furthermore, our XVFI-Net framework also performs comparably on the previous lower resolution benchmark dataset, which shows a robustness of our algorithm as well. All source codes, pre-trained models, and proposed X4K1000FPS datasets are publicly available at https://github.com/JihyongOh/XVFI.
翻訳日:2021-03-31 14:56:31 公開日:2021-03-30
# マルチビューレーダセマンティックセマンティックセグメンテーション

Multi-View Radar Semantic Segmentation ( http://arxiv.org/abs/2103.16214v1 )

ライセンス: Link先を確認
Arthur Ouaknine, Alasdair Newson, Patrick P\'erez, Florence Tupin, Julien Rebut(参考訳) エゴ車を取り巻くシーンを理解することは、アシストと自律運転の鍵となる。 現在では、悪天候下での性能が低下しているにもかかわらず、主にカメラとレーザースキャナを用いて行われる。 自動車用レーダーは、相対速度を含む周囲の物体の特性を測る低コストのアクティブセンサーであり、雨や雪、霧の影響を受けない重要な利点がある。 しかし、レーダーの生データのサイズと複雑さ、注釈付きデータセットがないため、シーン理解にはほとんど使われない。 幸いなことに、最近のオープンソースデータセットは、エンドツーエンドのトレーニング可能なモデルを使用して、生のレーダー信号による分類、オブジェクト検出、セマンティックセグメンテーションの研究を開始した。 そこで本研究では,数種類の新しいアーキテクチャとそれに伴う損失について検討し,それをセマンティクス的にセグメンテーションするために,レンジアングル・ドップラーレーダテンソルの複数の「ビュー」を分析する。 最近のCARRADAデータセットで行った実験では、我々の最良のモデルは、自然画像の意味的セグメンテーションやレーダーシーンの理解から派生した代替モデルよりも優れており、パラメータは大幅に少ない。 コードとトレーニングされたモデルの両方がリリースされます。

Understanding the scene around the ego-vehicle is key to assisted and autonomous driving. Nowadays, this is mostly conducted using cameras and laser scanners, despite their reduced performances in adverse weather conditions. Automotive radars are low-cost active sensors that measure properties of surrounding objects, including their relative speed, and have the key advantage of not being impacted by rain, snow or fog. However, they are seldom used for scene understanding due to the size and complexity of radar raw data and the lack of annotated datasets. Fortunately, recent open-sourced datasets have opened up research on classification, object detection and semantic segmentation with raw radar signals using end-to-end trainable models. In this work, we propose several novel architectures, and their associated losses, which analyse multiple "views" of the range-angle-Doppler radar tensor to segment it semantically. Experiments conducted on the recent CARRADA dataset demonstrate that our best model outperforms alternative models, derived either from the semantic segmentation of natural images or from radar scene understanding, while requiring significantly fewer parameters. Both our code and trained models will be released.
翻訳日:2021-03-31 14:56:06 公開日:2021-03-30
# Head2HeadFS: ビデオによる頭部再現

Head2HeadFS: Video-based Head Reenactment with Few-shot Learning ( http://arxiv.org/abs/2103.16229v1 )

ライセンス: Link先を確認
Michail Christos Doukas, Mohammad Rami Koujan, Viktoriia Sharmanska, Stefanos Zafeiriou(参考訳) 過去数年間、顔の再現に関する問題に対してかなりの作業が行われてきたが、その解決策は主にグラフィックコミュニティから来ている。 頭部の再現はさらに困難な作業であり、顔の表情だけでなく、頭部全体のポーズをソースの人物からターゲットに移すことを目的としている。 現在のアプローチでは、個人固有のシステムを訓練するか、顔のランドマークを使って人間の頭部をモデル化するかのどちらかだ。 頭部再生のための新しい適応性パイプラインであるhead2headfsを提案する。 音源からの濃密な3次元顔形状情報に基づいて対象人物の条件合成を行い,高品質な表現とポーズ転送を実現する。 私たちのビデオベースのレンダリングネットワークは、少数のサンプルを使用して、数ショットの学習戦略の下で微調整されています。 これにより、複数の個人データセットでトレーニングされたジェネリックジェネレータを、個人固有のデータセットに迅速に適応することができる。

Over the past years, a substantial amount of work has been done on the problem of facial reenactment, with the solutions coming mainly from the graphics community. Head reenactment is an even more challenging task, which aims at transferring not only the facial expression, but also the entire head pose from a source person to a target. Current approaches either train person-specific systems, or use facial landmarks to model human heads, a representation that might transfer unwanted identity attributes from the source to the target. We propose head2headFS, a novel easily adaptable pipeline for head reenactment. We condition synthesis of the target person on dense 3D face shape information from the source, which enables high quality expression and pose transfer. Our video-based rendering network is fine-tuned under a few-shot learning strategy, using only a few samples. This allows for fast adaptation of a generic generator trained on a multiple-person dataset, into a person-specific one.
翻訳日:2021-03-31 14:55:47 公開日:2021-03-30
# 単眼3次元物体検出における位置推定誤差の検討

Delving into Localization Errors for Monocular 3D Object Detection ( http://arxiv.org/abs/2103.16237v1 )

ライセンス: Link先を確認
Xinzhu Ma, Yinmin Zhang, Dan Xu, Dongzhan Zhou, Shuai Yi, Haojie Li, Wanli Ouyang(参考訳) モノクロ画像から3D境界ボックスを推定することは、自動運転に不可欠な要素であり、この種のデータから正確な3Dオブジェクト検出は非常に難しい。 本研究では, 集中診断実験により, 各サブタスクが与える影響を定量化し, 「局所化誤差」 が単眼的3次元検出を制限する重要な要因であることを確認した。 さらに,ローカライズエラーの背後にある根本的な原因を調査し,それらの問題を分析し,三つの戦略を提案する。 まず,2Dバウンディングボックスの中心と3Dオブジェクトの投影中心との間の不一致を再考し,位置決め精度の低下につながる重要な要因について述べる。 第2に、既存の技術で遠くの物体を正確にローカライズすることはほぼ不可能であり、これらのサンプルは学習したネットワークを誤解させる。 そこで本研究では,検出器の全体的な性能を向上させるためのトレーニングセットから,そのようなサンプルを除去することを提案する。 最後に, 「局所化誤差」 の影響を受けない, 物体の大きさ推定のための新しい3次元IoU配向損失を提案する。 提案手法は,提案手法がリアルタイムに検出され,従来の手法を大差で上回る,kittiデータセットの広範な実験を行う。 コードは、https://github.com/xinzhuma/monodle.comから入手できる。

Estimating 3D bounding boxes from monocular images is an essential component in autonomous driving, while accurate 3D object detection from this kind of data is very challenging. In this work, by intensive diagnosis experiments, we quantify the impact introduced by each sub-task and found the `localization error' is the vital factor in restricting monocular 3D detection. Besides, we also investigate the underlying reasons behind localization errors, analyze the issues they might bring, and propose three strategies. First, we revisit the misalignment between the center of the 2D bounding box and the projected center of the 3D object, which is a vital factor leading to low localization accuracy. Second, we observe that accurately localizing distant objects with existing technologies is almost impossible, while those samples will mislead the learned network. To this end, we propose to remove such samples from the training set for improving the overall performance of the detector. Lastly, we also propose a novel 3D IoU oriented loss for the size estimation of the object, which is not affected by `localization error'. We conduct extensive experiments on the KITTI dataset, where the proposed method achieves real-time detection and outperforms previous methods by a large margin. The code will be made available at: https://github.com/xinzhuma/monodle.
翻訳日:2021-03-31 14:55:32 公開日:2021-03-30
# 周波数バイアスモデルによる共通汚損に対するロバスト性向上

Improving robustness against common corruptions with frequency biased models ( http://arxiv.org/abs/2103.16241v1 )

ライセンス: Link先を確認
Tonmoy Saikia, Cordelia Schmid, Thomas Brox(参考訳) CNNは、トレーニングとテストの分布がi.d.である場合、非常によく機能するが、目に見えない画像の破損は驚くほど大きなパフォーマンス低下を引き起こす。 様々な現実シナリオにおいて、ランダムノイズ、圧縮アーチファクト、気象歪みなどの予期せぬ歪みが一般的な現象である。 腐敗した画像のパフォーマンス向上は、劣化したi.i.dパフォーマンスをもたらすものではない。 画像腐敗型は周波数スペクトルに異なる特性を持ち、対象とするデータ拡張型の恩恵を受けるが、トレーニング中は未知であることが多い。 本稿では,高域と低域のロバスト性に特化した2種類のエキスパートモデルについて紹介する。 さらに,畳み込み特徴マップの総変動(tv)を最小化し,高周波ロバスト性を高める新しい正規化手法を提案する。 このアプローチは、分散性能を低下させることなく、腐敗した画像を改善する。 我々は、imagenet-cと、オブジェクト分類とオブジェクト検出の両方のために、自動車データセット上の実世界の腐敗に対しても、これを実証する。

CNNs perform remarkably well when the training and test distributions are i.i.d, but unseen image corruptions can cause a surprisingly large drop in performance. In various real scenarios, unexpected distortions, such as random noise, compression artefacts, or weather distortions are common phenomena. Improving performance on corrupted images must not result in degraded i.i.d performance - a challenge faced by many state-of-the-art robust approaches. Image corruption types have different characteristics in the frequency spectrum and would benefit from a targeted type of data augmentation, which, however, is often unknown during training. In this paper, we introduce a mixture of two expert models specializing in high and low-frequency robustness, respectively. Moreover, we propose a new regularization scheme that minimizes the total variation (TV) of convolution feature-maps to increase high-frequency robustness. The approach improves on corrupted images without degrading in-distribution performance. We demonstrate this on ImageNet-C and also for real-world corruptions on an automotive dataset, both for object classification and object detection.
翻訳日:2021-03-31 14:55:09 公開日:2021-03-30
# 物理対向攻撃による光フローネットワークの脆弱性

What Causes Optical Flow Networks to be Vulnerable to Physical Adversarial Attacks ( http://arxiv.org/abs/2103.16255v1 )

ライセンス: Link先を確認
Simon Schrodi, Tonmoy Saikia, Thomas Brox(参考訳) 最近の研究は、物理的、パッチベースの敵攻撃に対する光学フローネットワークの堅牢性の欠如を実証した。 自動車システムの基本コンポーネントを物理的に攻撃する可能性は、深刻な懸念の理由である。 本稿では,この問題の原因を分析し,ロバスト性の欠如は,ネットワークアーキテクチャの細部において,光学フロー推定の古典的な開口問題と悪い選択の組み合わせに根ざしていることを示す。 我々は,光フローネットワークを物理的パッチベース攻撃に対して堅牢にするために,これらの誤りを正す方法を示す。

Recent work demonstrated the lack of robustness of optical flow networks to physical, patch-based adversarial attacks. The possibility to physically attack a basic component of automotive systems is a reason for serious concerns. In this paper, we analyze the cause of the problem and show that the lack of robustness is rooted in the classical aperture problem of optical flow estimation in combination with bad choices in the details of the network architecture. We show how these mistakes can be rectified in order to make optical flow networks robust to physical, patch-based attacks.
翻訳日:2021-03-31 14:54:51 公開日:2021-03-30
# 多様体上の深い回帰:3次元回転のケーススタディ

Deep regression on manifolds: a 3D rotation case study ( http://arxiv.org/abs/2103.16317v1 )

ライセンス: Link先を確認
Romain Br\'egier(参考訳) 機械学習における多くの問題は、離散確率分布やオブジェクトのポーズのようなユークリッド空間にない出力を回帰させることである。 勾配に基づく学習を通してこれらの問題に取り組むアプローチは、ディープラーニングアーキテクチャにユークリッド空間の任意の入力をこの多様体にマッピングする微分可能な関数を含めることである。 本研究では,そのようなマッピングが適切なトレーニングを可能にするために満たすべき性質の集合を定式化し,それを3次元回転の場合に説明する。 様々なタスクに関する理論的考察と方法論実験を通じて、3次元回転空間上の様々な微分可能写像を比較し、写像の局所線型性の重要性を推測する。 特に, 3x3 行列の直交正規化に基づく写像は, 概ね考慮されているものの中で最もよく機能するが, 回転ベクトル表現は小さい角度に制限される場合にも適していることを示した。

Many problems in machine learning involve regressing outputs that do not lie on a Euclidean space, such as a discrete probability distribution, or the pose of an object. An approach to tackle these problems through gradient-based learning consists in including in the deep learning architecture a differentiable function mapping arbitrary inputs of a Euclidean space onto this manifold. In this work, we establish a set of properties that such mapping should satisfy to allow proper training, and illustrate it in the case of 3D rotations. Through theoretical considerations and methodological experiments on a variety of tasks, we compare various differentiable mappings on the 3D rotation space, and conjecture about the importance of the local linearity of the mapping. We notably show that a mapping based on Procrustes orthonormalization of a 3x3 matrix generally performs best among the ones considered, but that rotation-vector representation might also be suitable when restricted to small angles.
翻訳日:2021-03-31 14:54:41 公開日:2021-03-30
# 効率的なロバスト4次元再構成のための時空間記述子からの並列距離対応学習

Learning Parallel Dense Correspondence from Spatio-Temporal Descriptors for Efficient and Robust 4D Reconstruction ( http://arxiv.org/abs/2103.16341v1 )

ライセンス: Link先を確認
Jiapeng Tang, Dan Xu, Kui Jia, Lei Zhang(参考訳) 本稿では,点雲列からの4次元形状再構成の課題に焦点をあてる。 深い暗黙表現を4d空間に拡張することで、近年の成功にもかかわらず、2つの点で大きな課題である。 4次元点雲から頑健な時空間形状表現を学習するための柔軟なフレームワークの設計と、形状ダイナミクスを捉えるための効率的なメカニズムの開発。 本研究では,クロスフレーム占有領域間の空間連続的変換関数を通して3次元人体形状の時間変化を学ぶための新しいパイプラインを提案する。 鍵となる考え方は、頑健な時空間形状表現から連続変位ベクトル場を明示的に学習することで、予測占有場間の異なる時間ステップでの密接な対応を並列に確立することである。 従来の最先端技術との比較では、4次元形状の自動エンコーディングと補完の問題において、我々のアプローチの精度が優れており、ネットワーク推論の高速化が約8倍の速さで実現されている。 トレーニングされたモデルと実装コードはhttps://github.com/tangjiapeng/LPDC-Netで公開されている。

This paper focuses on the task of 4D shape reconstruction from a sequence of point clouds. Despite the recent success achieved by extending deep implicit representations into 4D space, it is still a great challenge in two respects, i.e. how to design a flexible framework for learning robust spatio-temporal shape representations from 4D point clouds, and develop an efficient mechanism for capturing shape dynamics. In this work, we present a novel pipeline to learn a temporal evolution of the 3D human shape through spatially continuous transformation functions among cross-frame occupancy fields. The key idea is to parallelly establish the dense correspondence between predicted occupancy fields at different time steps via explicitly learning continuous displacement vector fields from robust spatio-temporal shape representations. Extensive comparisons against previous state-of-the-arts show the superior accuracy of our approach for 4D human reconstruction in the problems of 4D shape auto-encoding and completion, and a much faster network inference with about 8 times speedup demonstrates the significant efficiency of our approach. The trained models and implementation code are available at https://github.com/tangjiapeng/LPDC-Net.
翻訳日:2021-03-31 14:54:27 公開日:2021-03-30
# 解剖学的相関を用いたワンショット推論の一般化

Generalized Organ Segmentation by Imitating One-shot Reasoning using Anatomical Correlation ( http://arxiv.org/abs/2103.16344v1 )

ライセンス: Link先を確認
Hong-Yu Zhou, Hualuo Liu, Shilei Cao, Dong Wei, Chixiang Lu, Yizhou Yu, Kai Ma, Yefeng Zheng(参考訳) 模倣による学習は人間の最も重要な能力の1つであり、人間の計算神経システムにおいて重要な役割を果たす。 医療画像解析において、経験豊富な放射線技師は、既存の種類の臓器から学んだ推論過程を模倣することにより、慣れていない臓器を記述できる。 この観察から着想を得たOrganNetは、アノテーション付きオルガンクラスから一般化されたオルガン概念を学び、その概念を目に見えないクラスに転送する。 本稿では,このようなプロセスが,非常に難しいが意味のあるトピックであるワンショットセグメンテーションタスクに統合可能であることを示す。 本研究では,アンカーとターゲットボリュームの解剖学的相関をモデル化するためのピラミッド推論モジュール(PRMs)を提案する。 実際に提案したモジュールは、まずターゲットとアンカーのコンピュータ断層撮影(CT)ボリュームの相関行列を計算する。 次に、この行列を用いてアンカーボリュームとセグメンテーションマスクの双方の特徴表現を変換する。 最後に、OrganNetは様々な入力から表現を融合させ、ターゲットボリュームのセグメンテーション結果を予測する。 大規模な実験により、OrganNetは臓器形態の幅広いバリエーションに効果的に抵抗し、1ショットのセグメンテーションタスクで最先端の結果を生み出すことが示されている。 さらに、完全な教師付きセグメンテーションモデルと比較しても、organnetはセグメンテーション結果を満たすことができる。

Learning by imitation is one of the most significant abilities of human beings and plays a vital role in human's computational neural system. In medical image analysis, given several exemplars (anchors), experienced radiologist has the ability to delineate unfamiliar organs by imitating the reasoning process learned from existing types of organs. Inspired by this observation, we propose OrganNet which learns a generalized organ concept from a set of annotated organ classes and then transfer this concept to unseen classes. In this paper, we show that such process can be integrated into the one-shot segmentation task which is a very challenging but meaningful topic. We propose pyramid reasoning modules (PRMs) to model the anatomical correlation between anchor and target volumes. In practice, the proposed module first computes a correlation matrix between target and anchor computerized tomography (CT) volumes. Then, this matrix is used to transform the feature representations of both anchor volume and its segmentation mask. Finally, OrganNet learns to fuse the representations from various inputs and predicts segmentation results for target volume. Extensive experiments show that OrganNet can effectively resist the wide variations in organ morphology and produce state-of-the-art results in one-shot segmentation task. Moreover, even when compared with fully-supervised segmentation models, OrganNet is still able to produce satisfying segmentation results.
翻訳日:2021-03-31 14:54:08 公開日:2021-03-30
# ICE:教師なし人物再識別のためのインスタンス間コントラスト符号化

ICE: Inter-instance Contrastive Encoding for Unsupervised Person Re-identification ( http://arxiv.org/abs/2103.16364v1 )

ライセンス: Link先を確認
Hao Chen, Benoit Lagadec, Francois Bremond(参考訳) unsupervised person re-identification(reid)は、アノテーションなしで識別的アイデンティティ機能を学ぶことを目的としている。 近年,教師なし表現学習における自己指導型コントラスト学習の有効性が注目されている。 インスタンスのコントラスト学習の主な考え方は、異なる拡張ビューで同じインスタンスと一致することである。 しかし、同一IDの異なるインスタンス間の関係は従来の手法では検討されていないため、準最適ReID性能が得られる。 この問題に対処するため,従来のクラスレベルのコントラッシブなReID手法を向上するために,インスタンス間のペアワイドな類似度スコアを活用したICE(Inter-instance Contrastive Encoding)を提案する。 まず, クラス内分散の低減を目的とした, ハードケースコントラストの1ホットな擬似ラベルとして, ペアワイズ類似度ランキングを用いた。 そして、類似度スコアをソフトな擬似ラベルとして使用して、拡張されたビューとオリジナルビューの整合性を高めることにより、モデルが拡張摂動に対してより堅牢になる。 複数の大規模人物ReIDデータセットを用いた実験により,提案手法であるICEの有効性が検証された。

Unsupervised person re-identification (ReID) aims at learning discriminative identity features without annotations. Recently, self-supervised contrastive learning has gained increasing attention for its effectiveness in unsupervised representation learning. The main idea of instance contrastive learning is to match a same instance in different augmented views. However, the relationship between different instances of a same identity has not been explored in previous methods, leading to sub-optimal ReID performance. To address this issue, we propose Inter-instance Contrastive Encoding (ICE) that leverages inter-instance pairwise similarity scores to boost previous class-level contrastive ReID methods. We first use pairwise similarity ranking as one-hot hard pseudo labels for hard instance contrast, which aims at reducing intra-class variance. Then, we use similarity scores as soft pseudo labels to enhance the consistency between augmented and original views, which makes our model more robust to augmentation perturbations. Experiments on several large-scale person ReID datasets validate the effectiveness of our proposed unsupervised method ICE, which is competitive with even supervised methods.
翻訳日:2021-03-31 14:53:45 公開日:2021-03-30
# 意味セグメンテーションのためのソースフリードメイン適応

Source-Free Domain Adaptation for Semantic Segmentation ( http://arxiv.org/abs/2103.16372v1 )

ライセンス: Link先を確認
Yuang Liu, Wei Zhang, Jun Wang(参考訳) unsupervised domain adaptation(uda)は、畳み込みニューラルネットワーク(cnn)に基づくセマンティックセグメンテーションのアプローチが、労働集約的なピクセルレベルの注釈データに大きく依存しているという課題に対処できる。 しかしながら、この点において既存のudaアプローチでは、ソースデータセットがプライベートである実際のシナリオでは現実的ではなく、十分に訓練されたソースモデルとともにリリースできない、モデル適応中にソースとターゲットドメインの間のギャップを減らすために、必然的にソースデータセットへの完全なアクセスを必要とする。 この問題に対処するため,我々は,十分に訓練されたソースモデルとラベルなしのターゲットドメインデータセットのみを適用可能な,意味セグメンテーションのためのソースフリーなドメイン適応フレームワークsfdaを提案する。 SFDAは、モデル適応中の知識伝達を通じて、ソースモデルからソースドメイン知識を復元および保存するだけでなく、自己教師付き学習のためにターゲットドメインから貴重な情報を蒸留する。 セマンティックセグメンテーションに適したピクセルレベルとパッチレベルの最適化目標は、フレームワークにシームレスに統合される。 多数のベンチマークデータセットに対する広範な実験結果は、ソースデータに依存する既存のUDAアプローチに対する我々のフレームワークの有効性を強調している。

Unsupervised Domain Adaptation (UDA) can tackle the challenge that convolutional neural network(CNN)-based approaches for semantic segmentation heavily rely on the pixel-level annotated data, which is labor-intensive. However, existing UDA approaches in this regard inevitably require the full access to source datasets to reduce the gap between the source and target domains during model adaptation, which are impractical in the real scenarios where the source datasets are private, and thus cannot be released along with the well-trained source models. To cope with this issue, we propose a source-free domain adaptation framework for semantic segmentation, namely SFDA, in which only a well-trained source model and an unlabeled target domain dataset are available for adaptation. SFDA not only enables to recover and preserve the source domain knowledge from the source model via knowledge transfer during model adaptation, but also distills valuable information from the target domain for self-supervised learning. The pixel- and patch-level optimization objectives tailored for semantic segmentation are seamlessly integrated in the framework. The extensive experimental results on numerous benchmark datasets highlight the effectiveness of our framework against the existing UDA approaches relying on source data.
翻訳日:2021-03-31 14:52:49 公開日:2021-03-30
# ポイントクラウドにおける物体接地のためのフリーフォーム記述誘導3次元ビジュアルグラフネットワーク

Free-form Description Guided 3D Visual Graph Network for Object Grounding in Point Cloud ( http://arxiv.org/abs/2103.16381v1 )

ライセンス: Link先を確認
Mingtao Feng, Zhen Li, Qi Li, Liang Zhang, XiangDong Zhang, Guangming Zhu, Hui Zhang, Yaonan Wang and Ajmal Mian(参考訳) 3dオブジェクトのグラウンド化は、フリーフォーム言語記述に基づいて、生のポイントクラウドシーンで最も関連するターゲットオブジェクトを見つけることを目的としている。 複雑で多様な記述を理解し、それらをポイントクラウドに直接持ち上げることは、ポイントクラウドの不規則でスパースな性質のため、新しくて挑戦的なトピックです。 3dオブジェクトのグラウンド化には3つの大きな課題がある: 複雑で多様な記述の焦点を見つけること、ポイントクラウドのシーンを理解すること、ターゲットオブジェクトを見つけること。 本稿では,3つの課題に対処する。 まず,リッチな構造と長距離句の相関関係を抽出する言語シーングラフモジュールを提案する。 次に,オブジェクト・オブジェクトとオブジェクト・シーンの共起関係を抽出し,最初の提案の視覚的特徴を強化するための多レベル3次元提案関係グラフモジュールを提案する。 最後に,節と提案のグローバルコンテキストをノードマッチング戦略によって符号化する3次元ビジュアルグラフモジュールについて述べる。 挑戦的なベンチマークデータセット(ScanReferとNr3D)に関する大規模な実験により、我々のアルゴリズムは既存の最先端のアルゴリズムよりも優れていることが示された。 私たちのコードはhttps://github.com/pnxd/ffl-3dogで利用可能です。

3D object grounding aims to locate the most relevant target object in a raw point cloud scene based on a free-form language description. Understanding complex and diverse descriptions, and lifting them directly to a point cloud is a new and challenging topic due to the irregular and sparse nature of point clouds. There are three main challenges in 3D object grounding: to find the main focus in the complex and diverse description; to understand the point cloud scene; and to locate the target object. In this paper, we address all three challenges. Firstly, we propose a language scene graph module to capture the rich structure and long-distance phrase correlations. Secondly, we introduce a multi-level 3D proposal relation graph module to extract the object-object and object-scene co-occurrence relationships, and strengthen the visual features of the initial proposals. Lastly, we develop a description guided 3D visual graph module to encode global contexts of phrases and proposals by a nodes matching strategy. Extensive experiments on challenging benchmark datasets (ScanRefer and Nr3D) show that our algorithm outperforms existing state-of-the-art. Our code is available at https://github.com/PNXD/FFL-3DOG.
翻訳日:2021-03-31 14:52:28 公開日:2021-03-30
# 3次元ポーズ推定のためのグラフ重ね合わせ砂時計ネットワーク

Graph Stacked Hourglass Networks for 3D Human Pose Estimation ( http://arxiv.org/abs/2103.16385v1 )

ライセンス: Link先を確認
Tianhan Xu, Wataru Takano(参考訳) 本稿では,2次元から3次元の人間のポーズ推定のための新しいグラフ畳み込みネットワークアーキテクチャであるグラフ重畳ホアーグラスネットワークを提案する。 提案アーキテクチャは,人間の骨格表現の3つの異なるスケールでグラフ構造化特徴を処理した繰り返しエンコーダデコーダで構成されている。 このマルチスケールアーキテクチャにより、モデルは3次元の人間のポーズ推定に不可欠な局所的特徴表現と大域的特徴表現の両方を学ぶことができる。 また,異なる詳細な中間機能を用いたマルチレベル特徴学習手法を導入し,マルチスケール・マルチレベル特徴表現の活用による性能改善を示す。 我々のアプローチを検証するために広範な実験が行われ、その結果、我々のモデルが最先端を上回っていることが判明した。

In this paper, we propose a novel graph convolutional network architecture, Graph Stacked Hourglass Networks, for 2D-to-3D human pose estimation tasks. The proposed architecture consists of repeated encoder-decoder, in which graph-structured features are processed across three different scales of human skeletal representations. This multi-scale architecture enables the model to learn both local and global feature representations, which are critical for 3D human pose estimation. We also introduce a multi-level feature learning approach using different-depth intermediate features and show the performance improvements that result from exploiting multi-scale, multi-level feature representations. Extensive experiments are conducted to validate our approach, and the results show that our model outperforms the state-of-the-art.
翻訳日:2021-03-31 14:52:08 公開日:2021-03-30
# 時系列疾患予測のための因果隠れマルコフモデル

Causal Hidden Markov Model for Time Series Disease Forecasting ( http://arxiv.org/abs/2103.16391v1 )

ライセンス: Link先を確認
Jing Li, Botong Wu, Xinwei Sun, Yizhou Wang(参考訳) そこで本研究では, 早期に非可逆性疾患のロバストな予測を実現するための因果的隠れマルコフモデルを提案する。 具体的には,各段階で医療データを生成するために伝播する隠れ変数を紹介する。 a) 疾患(臨床)関連部分、b) 疾患(非臨床)関連部分、c) 疾患と因果関係のある部分、b) 疾患に因果関係のある部分(c) は、提供されたデータから引き継がれた部分(と疾患)を含んでいる可能性がある。 個人属性と病名ラベルをそれぞれ副次情報と監視として提供することにより,これらの疾患に関連する隠れ変数が他者から切り離され,他の(アウトオブオブオブオブオブ)分布からの医療データへの急激な相関が回避されることを示す。 そこで本研究では,目的関数を改良した逐次変分自動エンコーダを提案する。 本モデルは,乳頭萎縮の早期予測に応用し,アウトオブディストリビューションテストデータで有望な結果を得た。 さらに, アブレーション研究は, 本手法における各成分の有効性を実証的に示す。 可視化は、他の病変領域の正確な識別を示す。

We propose a causal hidden Markov model to achieve robust prediction of irreversible disease at an early stage, which is safety-critical and vital for medical treatment in early stages. Specifically, we introduce the hidden variables which propagate to generate medical data at each time step. To avoid learning spurious correlation (e.g., confounding bias), we explicitly separate these hidden variables into three parts: a) the disease (clinical)-related part; b) the disease (non-clinical)-related part; c) others, with only a),b) causally related to the disease however c) may contain spurious correlations (with the disease) inherited from the data provided. With personal attributes and the disease label respectively provided as side information and supervision, we prove that these disease-related hidden variables can be disentangled from others, implying the avoidance of spurious correlation for generalization to medical data from other (out-of-) distributions. Guaranteed by this result, we propose a sequential variational auto-encoder with a reformulated objective function. We apply our model to the early prediction of peripapillary atrophy and achieve promising results on out-of-distribution test data. Further, the ablation study empirically shows the effectiveness of each component in our method. And the visualization shows the accurate identification of lesion regions from others.
翻訳日:2021-03-31 14:51:54 公開日:2021-03-30
# CoLA: Snippet Contrastive Learningによる時間的行動の局所化

CoLA: Weakly-Supervised Temporal Action Localization with Snippet Contrastive Learning ( http://arxiv.org/abs/2103.16392v1 )

ライセンス: Link先を確認
Can Zhang, Meng Cao, Dongming Yang, Jie Chen, Yuexian Zou(参考訳) weakly-supervised temporal action localization (ws-tal) は、ビデオレベルのラベルのみを持つ未トリミングビデオのアクションをローカライズすることを目的としている。 既存のモデルの多くは「分類による局所化」手順に従っており、ビデオレベルの分類に最も寄与する時間領域を特定する。 一般に、各スニペット(またはフレーム)を個別に処理し、実りある時間的文脈関係を見渡す。 ここでは、単一のスニペットの不正な問題が発生する: "ハード"スニペットは分類するには曖昧すぎる。 本稿では,比較による学習がこれらのハードスニペットの同定に役立ち,コントラスト学習を短時間でCoLA(Localize Actions)に活用することを提案する。 具体的には,Snippet Contrast (SniCo) Lossを提案し,特徴空間におけるハードスニペット表現を洗練させる。 また,フレームレベルのアノテーションにアクセスできないため,潜在的なハードスニペットを見つけるためにハードスニペットマイニングアルゴリズムを導入する。 物質分析は、この採掘戦略がハードスニペットを効果的にキャプチャし、SniCoロスがより情報的な特徴表現をもたらすことを検証している。 大規模な実験によると、CoLAはTHUMOS'14とActivityNet v1.2データセットで最先端の結果を達成する。

Weakly-supervised temporal action localization (WS-TAL) aims to localize actions in untrimmed videos with only video-level labels. Most existing models follow the "localization by classification" procedure: locate temporal regions contributing most to the video-level classification. Generally, they process each snippet (or frame) individually and thus overlook the fruitful temporal context relation. Here arises the single snippet cheating issue: "hard" snippets are too vague to be classified. In this paper, we argue that learning by comparing helps identify these hard snippets and we propose to utilize snippet Contrastive learning to Localize Actions, CoLA for short. Specifically, we propose a Snippet Contrast (SniCo) Loss to refine the hard snippet representation in feature space, which guides the network to perceive precise temporal boundaries and avoid the temporal interval interruption. Besides, since it is infeasible to access frame-level annotations, we introduce a Hard Snippet Mining algorithm to locate the potential hard snippets. Substantial analyses verify that this mining strategy efficaciously captures the hard snippets and SniCo Loss leads to more informative feature representation. Extensive experiments show that CoLA achieves state-of-the-art results on THUMOS'14 and ActivityNet v1.2 datasets.
翻訳日:2021-03-31 14:51:30 公開日:2021-03-30
# 3D AffordanceNet: Visual Object Affordance Understandingのベンチマーク

3D AffordanceNet: A Benchmark for Visual Object Affordance Understanding ( http://arxiv.org/abs/2103.16397v1 )

ライセンス: Link先を確認
Shengheng Deng, Xun Xu, Chaozheng Wu, Ke Chen, Kui Jia(参考訳) 視覚的な手がかり、すなわち、オブジェクトとのインタラクション方法を理解する能力。 視覚能力は視覚誘導型ロボット研究に欠かせない。 これには、視覚能力の分類、セグメンテーション、推論が含まれる。 2Dおよび2.5D画像領域の関連研究はこれまで行われてきたが、物価の真に機能的な理解には3D物理領域での学習と予測が必要である。 本研究では,23のセマンティックオブジェクトカテゴリから23k形状のベンチマークを行い,18の視覚的アプライアンスカテゴリをアノテートした3dアプライアンスネットデータセットを提案する。 このデータセットに基づいて、全形状、部分ビュー、回転不変価格推定を含む視覚的可視性理解を評価するための3つのベンチマークタスクを提供する。 3つの最先端のクラウドディープラーニングネットワークを,すべてのタスクで評価する。 さらに,ラベルのないデータからメリットを享受する半教師付き学習セットアップについても検討した。 コントリビューションデータセットの総合的な結果から、視覚的可視性理解は、価値はあるが挑戦的なベンチマークであることを示す。

The ability to understand the ways to interact with objects from visual cues, a.k.a. visual affordance, is essential to vision-guided robotic research. This involves categorizing, segmenting and reasoning of visual affordance. Relevant studies in 2D and 2.5D image domains have been made previously, however, a truly functional understanding of object affordance requires learning and prediction in the 3D physical domain, which is still absent in the community. In this work, we present a 3D AffordanceNet dataset, a benchmark of 23k shapes from 23 semantic object categories, annotated with 18 visual affordance categories. Based on this dataset, we provide three benchmarking tasks for evaluating visual affordance understanding, including full-shape, partial-view and rotation-invariant affordance estimations. Three state-of-the-art point cloud deep learning networks are evaluated on all tasks. In addition we also investigate a semi-supervised learning setup to explore the possibility to benefit from unlabeled data. Comprehensive results on our contributed dataset show the promise of visual affordance understanding as a valuable yet challenging benchmark.
翻訳日:2021-03-31 14:51:05 公開日:2021-03-30
# 対人メッシュ再構築のための双方向オンライン適応

Bilevel Online Adaptation for Out-of-Domain Human Mesh Reconstruction ( http://arxiv.org/abs/2103.16449v1 )

ライセンス: Link先を確認
Shanyan Guan, Jingwei Xu, Yunbo Wang, Bingbing Ni, Xiaokang Yang(参考訳) 本稿では、人間のメッシュ再構成のトレーニング済みモデルをドメイン外ストリーミングビデオに適用する際の新しい問題について考察する。 しかしながら、パラメトリックsmplモデルに基づく以前の手法の多くは、カメラパラメータ、骨の長さ、背景、咬合などの予期せぬドメイン固有の属性を持つ新しい領域で下方形を成す。 我々の一般的な考え方は、テストフレームの2D情報を過度に適合させることなく、ドメインギャップを軽減できるように、テストビデオストリームのソースモデルを時間的制約で動的に微調整することである。 その後の課題は、2Dと時間的制約の衝突を避ける方法だ。 本稿では,2段階の重み探索と重み更新の2段階に分割した2段階のトレーニングアルゴリズムであるBilevel Online Adaptation (BOA)を用いて,この問題に対処することを提案する。 BOAが2つのヒューマンメッシュ再構築ベンチマークで最先端の結果をもたらすことを示す。

This paper considers a new problem of adapting a pre-trained model of human mesh reconstruction to out-of-domain streaming videos. However, most previous methods based on the parametric SMPL model \cite{loper2015smpl} underperform in new domains with unexpected, domain-specific attributes, such as camera parameters, lengths of bones, backgrounds, and occlusions. Our general idea is to dynamically fine-tune the source model on test video streams with additional temporal constraints, such that it can mitigate the domain gaps without over-fitting the 2D information of individual test frames. A subsequent challenge is how to avoid conflicts between the 2D and temporal constraints. We propose to tackle this problem using a new training algorithm named Bilevel Online Adaptation (BOA), which divides the optimization process of overall multi-objective into two steps of weight probe and weight update in a training iteration. We demonstrate that BOA leads to state-of-the-art results on two human mesh reconstruction benchmarks.
翻訳日:2021-03-31 14:50:25 公開日:2021-03-30
# Read and Attend: 手話ビデオにおける時間的ローカライゼーション

Read and Attend: Temporal Localisation in Sign Language Videos ( http://arxiv.org/abs/2103.16481v1 )

ライセンス: Link先を確認
G\"ul Varol, Liliane Momeni, Samuel Albanie, Triantafyllos Afouras, Andrew Zisserman(参考訳) この研究の目的は、連続的な手話で幅広い語彙にわたって手話のインスタンスに注釈をつけることである。 我々は,連続署名ストリームを取り込み,弱い字幕を持つ大規模な署名映像群に一連の文書トークンを出力するトランスフォーマモデルを訓練する。 このトレーニングを通じて、入力シーケンス内の手話インスタンスの大きな語彙に出席する能力を取得し、それらのローカライズを可能にすることを示す。 Our contributions are as follows: (1) we demonstrate the ability to leverage large quantities of continuous signing videos with weakly-aligned subtitles to localise signs in continuous sign language; (2) we employ the learned attention to automatically generate hundreds of thousands of annotations for a large sign vocabulary; (3) we collect a set of 37K manually verified sign instances across a vocabulary of 950 sign classes to support our study of sign language recognition; (4) by training on the newly annotated data from our method, we outperform the prior state of the art on the BSL-1K sign language recognition benchmark.

The objective of this work is to annotate sign instances across a broad vocabulary in continuous sign language. We train a Transformer model to ingest a continuous signing stream and output a sequence of written tokens on a large-scale collection of signing footage with weakly-aligned subtitles. We show that through this training it acquires the ability to attend to a large vocabulary of sign instances in the input sequence, enabling their localisation. Our contributions are as follows: (1) we demonstrate the ability to leverage large quantities of continuous signing videos with weakly-aligned subtitles to localise signs in continuous sign language; (2) we employ the learned attention to automatically generate hundreds of thousands of annotations for a large sign vocabulary; (3) we collect a set of 37K manually verified sign instances across a vocabulary of 950 sign classes to support our study of sign language recognition; (4) by training on the newly annotated data from our method, we outperform the prior state of the art on the BSL-1K sign language recognition benchmark.
翻訳日:2021-03-31 14:50:08 公開日:2021-03-30
# 自然世界画像コレクションのためのベンチマーク表現学習

Benchmarking Representation Learning for Natural World Image Collections ( http://arxiv.org/abs/2103.16483v1 )

ライセンス: Link先を確認
Grant Van Horn, Elijah Cole, Sara Beery, Kimberly Wilber, Serge Belongie, Oisin Mac Aodha(参考訳) 近年の自己教師付き学習の進歩により、ラベルの明示的な監督を必要とせず、画像コレクションからリッチな表現を抽出できるモデルが生まれている。 しかし、これまでこれらのアプローチの大半は、ImageNetのような標準ベンチマークデータセットのトレーニングに限定されてきた。 植物種・動物種分類などのきめ細かい視覚分類問題は,自己指導型学習のための情報的テストベッドを提供する。 この領域の進展を促進するために、我々は2つの新しい自然界視覚分類データセットiNat2021とNeWTを提示した。 前者は市民科学アプリケーションinaturalistのユーザによってアップロードされた10k種の2.7m画像である。 後者のnewtをドメインの専門家と共同で設計し,標準種別を超越した難解な自然世界バイナリ分類タスクのスイート上で,表現学習アルゴリズムのパフォーマンスをベンチマークすることを目標とした。 これら2つの新しいデータセットは、きめ細かいカテゴリのコンテキストで、大規模表現と転送学習に関連する質問を探索できる。 我々は,imagenet と inat2021 を監督することなく訓練された特徴抽出器の総合的な解析を行い,様々なタスクを通して異なる学習特徴の長所と短所について考察した。 また,SimCLR などの自己教師型手法では,標準教師付き手法が生成する機能は依然として優れていた。 しかし、改良された自己教師付き学習手法が常にリリースされ、iNat2021とNeWTデータセットは進捗を追跡する貴重なリソースである。

Recent progress in self-supervised learning has resulted in models that are capable of extracting rich representations from image collections without requiring any explicit label supervision. However, to date the vast majority of these approaches have restricted themselves to training on standard benchmark datasets such as ImageNet. We argue that fine-grained visual categorization problems, such as plant and animal species classification, provide an informative testbed for self-supervised learning. In order to facilitate progress in this area we present two new natural world visual classification datasets, iNat2021 and NeWT. The former consists of 2.7M images from 10k different species uploaded by users of the citizen science application iNaturalist. We designed the latter, NeWT, in collaboration with domain experts with the aim of benchmarking the performance of representation learning algorithms on a suite of challenging natural world binary classification tasks that go beyond standard species classification. These two new datasets allow us to explore questions related to large-scale representation and transfer learning in the context of fine-grained categories. We provide a comprehensive analysis of feature extractors trained with and without supervision on ImageNet and iNat2021, shedding light on the strengths and weaknesses of different learned features across a diverse set of tasks. We find that features produced by standard supervised methods still outperform those produced by self-supervised approaches such as SimCLR. However, improved self-supervised learning methods are constantly being released and the iNat2021 and NeWT datasets are a valuable resource for tracking their progress.
翻訳日:2021-03-31 14:49:53 公開日:2021-03-30
# ピラミッド型メッシュアライメントフィードバックループを用いた3次元人間のポーズと形状回帰

3D Human Pose and Shape Regression with Pyramidal Mesh Alignment Feedback Loop ( http://arxiv.org/abs/2103.16507v1 )

ライセンス: Link先を確認
Hongwen Zhang, Yating Tian, Xinchi Zhou, Wanli Ouyang, Yebin Liu, Limin Wang, Zhenan Sun(参考訳) 回帰に基づく手法は、最近、単眼画像からヒトのメッシュを再構築する有望な結果を示している。 生のピクセルからモデルパラメータに直接マッピングすることで、ニューラルネットワークを介してパラメトリックモデルをフィードフォワードで生成することができる。 しかし、パラメータの小さな偏差は、推定メッシュと画像証拠の間に顕著な不一致をもたらす可能性がある。 この問題に対処するため、我々は、機能ピラミッドを活用し、深い回帰器のメッシュイメージアライメント状態に基づいて予測パラメータを明示的に修正するピラミッドメッシュアライメントフィードバック(PyMAF)ループを提案する。 現在予測されているパラメータから、PyMAFでは、より微細な特徴からメッシュに沿ったエビデンスを抽出し、パラメータの修正のためにフィードバックする。 ノイズを低減し,これらの証拠の信頼性を高めるため,特徴エンコーダに補助画素の監督を課し,空間的特徴の最も関連性の高い情報を保持するためのメッシュ画像対応ガイダンスを提供する。 提案手法の有効性はHuman3.6M, 3DPW, LSP, COCOなどいくつかのベンチマークで検証され, 実験結果から再現のメッシュイメージアライメントが一貫して改善されていることが示された。 私たちのコードはhttps://hongwenzhang.github.io/pymafで公開されています。

Regression-based methods have recently shown promising results in reconstructing human meshes from monocular images. By directly mapping from raw pixels to model parameters, these methods can produce parametric models in a feed-forward manner via neural networks. However, minor deviation in parameters may lead to noticeable misalignment between the estimated meshes and image evidences. To address this issue, we propose a Pyramidal Mesh Alignment Feedback (PyMAF) loop to leverage a feature pyramid and rectify the predicted parameters explicitly based on the mesh-image alignment status in our deep regressor. In PyMAF, given the currently predicted parameters, mesh-aligned evidences will be extracted from finer-resolution features accordingly and fed back for parameter rectification. To reduce noise and enhance the reliability of these evidences, an auxiliary pixel-wise supervision is imposed on the feature encoder, which provides mesh-image correspondence guidance for our network to preserve the most related information in spatial features. The efficacy of our approach is validated on several benchmarks, including Human3.6M, 3DPW, LSP, and COCO, where experimental results show that our approach consistently improves the mesh-image alignment of the reconstruction. Our code is publicly available at https://hongwenzhang.github.io/pymaf .
翻訳日:2021-03-31 14:49:31 公開日:2021-03-30
# 見えない視点からの映像における行動認識

Recognizing Actions in Videos from Unseen Viewpoints ( http://arxiv.org/abs/2103.16516v1 )

ライセンス: Link先を確認
AJ Piergiovanni and Michael S. Ryoo(参考訳) ビデオ認識の標準的な方法は、時空間データをキャプチャするために設計された大きなCNNを使用する。 しかしながら、これらのモデルのトレーニングには、さまざまなアクション、シーン、設定、カメラ視点を含む、大量のラベル付きトレーニングデータが必要である。 本稿では、現在の畳み込みニューラルネットワークモデルにおいて、トレーニングデータに存在しないカメラ視点からアクションを認識することができないことを示す。 そこで我々は、3次元表現に基づくアプローチを開発し、視点不変表現を学習できる新しい幾何学的畳み込み層を導入する。 さらに,未知視認識のための新しい挑戦的データセットを導入し,視点不変表現を学習するアプローチを示す。

Standard methods for video recognition use large CNNs designed to capture spatio-temporal data. However, training these models requires a large amount of labeled training data, containing a wide variety of actions, scenes, settings and camera viewpoints. In this paper, we show that current convolutional neural network models are unable to recognize actions from camera viewpoints not present in their training data (i.e., unseen view action recognition). To address this, we develop approaches based on 3D representations and introduce a new geometric convolutional layer that can learn viewpoint invariant representations. Further, we introduce a new, challenging dataset for unseen view recognition and show the approaches ability to learn viewpoint invariant representations.
翻訳日:2021-03-31 14:49:10 公開日:2021-03-30
# マイトショットセグメンテーションのための深いガウス過程

Deep Gaussian Processes for Few-Shot Segmentation ( http://arxiv.org/abs/2103.16549v1 )

ライセンス: Link先を確認
Joakim Johnander, Johan Edstedt, Martin Danelljan, Michael Felsberg, Fahad Shahbaz Khan(参考訳) 少数ショットのセグメンテーションは難しい課題であり、新しいクエリ画像をセグメント化するために、いくつかの注釈付きサンプルから一般化可能な表現を抽出する必要がある。 一般的なアプローチは、各クラスを単一のプロトタイプでモデル化することです。 概念的には単純であるが、対象の出現分布がマルチモーダルである場合や特徴空間において線形に分離できない場合、これらの手法は苦しむ。 そこで本研究では,ガウス過程(gp)回帰に基づく数発学習者定式化を提案する。 GPの表現性を通じて、我々は、深い特徴空間における複雑な外観分布をモデル化することができる。 gpは不確かさを捉えるための原理的な方法を提供し、cnnデコーダによって得られる最終セグメンテーションに対するもう一つの強力な手がかりとなる。 さらに,GP学習者の出力空間を学習するためのアプローチのエンドツーエンド学習機能を活用し,セグメンテーションマスクのよりリッチな符号化を実現する。 数発の学習者の定式化に関する総合的な実験分析を行う。 PASCAL-5i と COCO-20i の mIoU スコアは68.1 と 49.8 である。

Few-shot segmentation is a challenging task, requiring the extraction of a generalizable representation from only a few annotated samples, in order to segment novel query images. A common approach is to model each class with a single prototype. While conceptually simple, these methods suffer when the target appearance distribution is multi-modal or not linearly separable in feature space. To tackle this issue, we propose a few-shot learner formulation based on Gaussian process (GP) regression. Through the expressivity of the GP, our approach is capable of modeling complex appearance distributions in the deep feature space. The GP provides a principled way of capturing uncertainty, which serves as another powerful cue for the final segmentation, obtained by a CNN decoder. We further exploit the end-to-end learning capabilities of our approach to learn the output space of the GP learner, ensuring a richer encoding of the segmentation mask. We perform comprehensive experimental analysis of our few-shot learner formulation. Our approach sets a new state-of-the-art for 5-shot segmentation, with mIoU scores of 68.1 and 49.8 on PASCAL-5i and COCO-20i, respectively
翻訳日:2021-03-31 14:48:59 公開日:2021-03-30
# トランスフォーマーを用いたテキストから視覚への効率的な検索

Thinking Fast and Slow: Efficient Text-to-Visual Retrieval with Transformers ( http://arxiv.org/abs/2103.16553v1 )

ライセンス: Link先を確認
Antoine Miech, Jean-Baptiste Alayrac, Ivan Laptev, Josef Sivic, Andrew Zisserman(参考訳) 目的は,大規模画像とビデオデータセットの言語検索である。 このタスクでは、テキストと視覚を共同埋め込み空間(a.k.a)に独立にマッピングする。 二重エンコーダは検索スケールとして魅力的であり、数十億もの画像に対して近接探索を用いて効率的である。 クロスアテンションを用いた視覚テキストトランスフォーマーの代替手法は、ジョイント埋め込みよりも精度が大幅に向上するが、テスト時に各サンプルに必要なクロスアテンション機構のコストを考えると、大規模な検索には適用できないことが多い。 この作品は両世界の長所を兼ね備えている。 私たちは以下の3つの貢献をします。 まず,トランスフォーマーモデルに新しい細粒度クロス・アテンション・アーキテクチャを適用し,スケーラビリティを維持しつつ検索精度を大幅に向上させた。 第2に,高速二重エンコーダモデルと,蒸留と再ランキングによる低速で高精度なトランスフォーマモデルを組み合わせた汎用的アプローチを提案する。 最後に,flickr30k画像データセットにおける提案手法の有効性を検証する。 また,本手法をビデオ領域に拡張し,VATEXデータセット上の技術状況を改善する。

Our objective is language-based search of large-scale image and video datasets. For this task, the approach that consists of independently mapping text and vision to a joint embedding space, a.k.a. dual encoders, is attractive as retrieval scales and is efficient for billions of images using approximate nearest neighbour search. An alternative approach of using vision-text transformers with cross-attention gives considerable improvements in accuracy over the joint embeddings, but is often inapplicable in practice for large-scale retrieval given the cost of the cross-attention mechanisms required for each sample at test time. This work combines the best of both worlds. We make the following three contributions. First, we equip transformer-based models with a new fine-grained cross-attention architecture, providing significant improvements in retrieval accuracy whilst preserving scalability. Second, we introduce a generic approach for combining a Fast dual encoder model with our Slow but accurate transformer-based model via distillation and re-ranking. Finally, we validate our approach on the Flickr30K image dataset where we show an increase in inference speed by several orders of magnitude while having results competitive to the state of the art. We also extend our method to the video domain, improving the state of the art on the VATEX dataset.
翻訳日:2021-03-31 14:48:38 公開日:2021-03-30
# 追跡しないものを追跡するためにターゲット候補協会を学習する

Learning Target Candidate Association to Keep Track of What Not to Track ( http://arxiv.org/abs/2103.16556v1 )

ライセンス: Link先を確認
Christoph Mayer, Martin Danelljan, Danda Pani Paudel, Luc Van Gool(参考訳) 追跡対象と紛らわしいほど似ているオブジェクトの存在は、外観ベースのビジュアルトラッキングにおいて根本的な課題となる。 このような気晴らしオブジェクトは、ターゲット自身として簡単に誤分類され、結果追跡障害に繋がる。 ほとんどの手法は、より強力な外観モデルを通して、邪魔者を抑えようとするが、我々は別のアプローチをとる。 対象物追跡を継続するため,対象物追跡の継続を提案する。 この目的を達成するために,学習アソシエーションネットワークを導入し,対象候補全員の身元をフレームツーフレームから伝達する。 視覚的トラッキングにおいて, トラクタオブジェクト間の接地トルース対応を欠く問題に対処するために, 部分アノテーションと自己監督を組み合わせたトレーニング戦略を提案する。 いくつかの挑戦的データセットに対するアプローチの総合的な検証と分析を行う。 我々のトラッカーは6つのベンチマークで新しい最先端のベンチマークを設定し、AUCスコアはLaSOTで67.2%、OxUvA長期データセットで+6.1%向上した。

The presence of objects that are confusingly similar to the tracked target, poses a fundamental challenge in appearance-based visual tracking. Such distractor objects are easily misclassified as the target itself, leading to eventual tracking failure. While most methods strive to suppress distractors through more powerful appearance models, we take an alternative approach. We propose to keep track of distractor objects in order to continue tracking the target. To this end, we introduce a learned association network, allowing us to propagate the identities of all target candidates from frame-to-frame. To tackle the problem of lacking ground-truth correspondences between distractor objects in visual tracking, we propose a training strategy that combines partial annotations with self-supervision. We conduct comprehensive experimental validation and analysis of our approach on several challenging datasets. Our tracker sets a new state-of-the-art on six benchmarks, achieving an AUC score of 67.2% on LaSOT and a +6.1% absolute gain on the OxUvA long-term dataset.
翻訳日:2021-03-31 14:48:18 公開日:2021-03-30
# 自己教師付きビデオ学習のためのビューの拡大

Broaden Your Views for Self-Supervised Video Learning ( http://arxiv.org/abs/2103.16559v1 )

ライセンス: Link先を確認
Adri\`a Recasens, Pauline Luc, Jean-Baptiste Alayrac, Luyu Wang, Florian Strub, Corentin Tallec, Mateusz Malinowski, Viorica Patraucean, Florent Altch\'e, Michal Valko, Jean-Bastien Grill, A\"aron van den Oord, Andrew Zisserman(参考訳) 最も成功した自己教師付き学習手法は、データから2つの独立したビューを表現するために訓練される。 ビデオの最先端の手法は、画像技術にインスパイアされ、これら2つのビューは、同様に、作物を収穫して拡大することによって抽出される。 しかし、これらのメソッドはビデオ領域の重要な要素を見逃している。 ビデオのための自己教師型学習フレームワークBraVeを紹介する。 BraVeでは、ビューの1つがビデオの狭い時間ウィンドウにアクセスでき、もう1つのビューは動画コンテンツへの幅広いアクセスがある。 私たちのモデルは、狭い視点からビデオの一般的なコンテンツに一般化することを学びます。 さらにbraveは、異なるバックボーンでビューを処理し、光学フロー、ランダムに畳み込んだrgbフレーム、オーディオまたはそれらの組み合わせといった、幅広いビューへの代替拡張やモダリティの使用を可能にする。 UCF101, HMDB51, Kinetics, ESC-50, AudioSet などの標準映像・音声分類ベンチマークにおいて, BraVe が自己教師付き表現学習の最先端化を実現していることを示す。

Most successful self-supervised learning methods are trained to align the representations of two independent views from the data. State-of-the-art methods in video are inspired by image techniques, where these two views are similarly extracted by cropping and augmenting the resulting crop. However, these methods miss a crucial element in the video domain: time. We introduce BraVe, a self-supervised learning framework for video. In BraVe, one of the views has access to a narrow temporal window of the video while the other view has a broad access to the video content. Our models learn to generalise from the narrow view to the general content of the video. Furthermore, BraVe processes the views with different backbones, enabling the use of alternative augmentations or modalities into the broad view such as optical flow, randomly convolved RGB frames, audio or their combinations. We demonstrate that BraVe achieves state-of-the-art results in self-supervised representation learning on standard video and audio classification benchmarks including UCF101, HMDB51, Kinetics, ESC-50 and AudioSet.
翻訳日:2021-03-31 14:48:01 公開日:2021-03-30
# 境界IoU: オブジェクト中心画像分割評価の改善

Boundary IoU: Improving Object-Centric Image Segmentation Evaluation ( http://arxiv.org/abs/2103.16562v1 )

ライセンス: Link先を確認
Bowen Cheng and Ross Girshick and Piotr Doll\'ar and Alexander C. Berg and Alexander Kirillov(参考訳) 境界品質に着目した新たなセグメンテーション評価尺度である境界IoU(Intersection-over-Union)を提案する。 異なるエラータイプやオブジェクトサイズにまたがって広範な解析を行い、境界IoUが大きなオブジェクトの境界誤差に対して標準のMask IoU測度よりもはるかに感度が高く、小さなオブジェクトのエラーを過給しないことを示す。 新しい品質指標は対称性w.r.t.のようないくつかの望ましい特性を示す。 これは、Trimap IoUやF-measureといった他の境界にフォーカスした指標よりもセグメンテーション評価に適している。 境界iouに基づいて,境界ap(平均精度)と境界pq(panoptic quality)の指標をそれぞれ提案することにより,例えば,panopticセグメンテーションタスクの標準評価プロトコルを更新する。 実験の結果,現在のMask IoUによる評価指標では概ね見過ごせない境界品質改善の指標が得られた。 新たな境界感性評価指標の導入により,境界品質を向上させるセグメンテーション手法の急速な進歩が期待できる。

We present Boundary IoU (Intersection-over-Union), a new segmentation evaluation measure focused on boundary quality. We perform an extensive analysis across different error types and object sizes and show that Boundary IoU is significantly more sensitive than the standard Mask IoU measure to boundary errors for large objects and does not over-penalize errors on smaller objects. The new quality measure displays several desirable characteristics like symmetry w.r.t. prediction/ground truth pairs and balanced responsiveness across scales, which makes it more suitable for segmentation evaluation than other boundary-focused measures like Trimap IoU and F-measure. Based on Boundary IoU, we update the standard evaluation protocols for instance and panoptic segmentation tasks by proposing the Boundary AP (Average Precision) and Boundary PQ (Panoptic Quality) metrics, respectively. Our experiments show that the new evaluation metrics track boundary quality improvements that are generally overlooked by current Mask IoU-based evaluation metrics. We hope that the adoption of the new boundary-sensitive evaluation metrics will lead to rapid progress in segmentation methods that improve boundary quality.
翻訳日:2021-03-31 14:47:43 公開日:2021-03-30
# データ効率な行動認識のための表現不変性の学習

Learning Representational Invariances for Data-Efficient Action Recognition ( http://arxiv.org/abs/2103.16565v1 )

ライセンス: Link先を確認
Yuliang Zou, Jinwoo Choi, Qitong Wang, Jia-Bin Huang(参考訳) データ拡張は、ラベル付きデータの不足時に画像分類を改善するユビキタスな技術である。 モデル予測を多様なデータ拡張に不変に制限することは、望まれる表現的不変性をモデルに効果的に注入する(例えば、光度変化への不変性)。 画像データと比較すると、ビデオの外観のバリエーションは時間次元の追加によりはるかに複雑である。 しかし、ビデオのデータ拡張方法はまだ未調査のままだ。 本稿では,光度,幾何学的,時間的,アクター/シーンなど,さまざまなビデオの不変性を捉える様々なデータ拡張戦略について検討する。 既存の一貫性に基づく半教師付き学習フレームワークと統合すると、我々のデータ拡張戦略が低ラベル方式でKinetics-100, UCF-101, HMDB-51データセット上で有望なパフォーマンスをもたらすことを示す。 また,完全な教師付き設定でデータ拡張戦略を検証し,性能向上を実証した。

Data augmentation is a ubiquitous technique for improving image classification when labeled data is scarce. Constraining the model predictions to be invariant to diverse data augmentations effectively injects the desired representational invariances to the model (e.g., invariance to photometric variations), leading to improved accuracy. Compared to image data, the appearance variations in videos are far more complex due to the additional temporal dimension. Yet, data augmentation methods for videos remain under-explored. In this paper, we investigate various data augmentation strategies that capture different video invariances, including photometric, geometric, temporal, and actor/scene augmentations. When integrated with existing consistency-based semi-supervised learning frameworks, we show that our data augmentation strategy leads to promising performance on the Kinetics-100, UCF-101, and HMDB-51 datasets in the low-label regime. We also validate our data augmentation strategy in the fully supervised setting and demonstrate improved performance.
翻訳日:2021-03-31 14:47:24 公開日:2021-03-30
# 複合材料プロセスシミュレーションのための理論誘導型機械学習

Theory-Guided Machine Learning for Process Simulation of Advanced Composites ( http://arxiv.org/abs/2103.16010v1 )

ライセンス: Link先を確認
Navid Zobeiry, Anoush Poursartip(参考訳) 有限要素(FE)モデルのような科学に基づくシミュレーションツールは、科学や工学の応用において日常的に使われている。 彼らの成功は、基礎となる物理法則に対する我々の理解に大きく依存しているが、忠実さ/正確さとスピードのトレードオフなど、固有の制限に苦しめられている。 最近の機械学習(ML)の台頭は理論に依存しないパラダイムを提案する。 しかし、複雑な多物理問題では、MLモデルのトレーニングを成功させるために十分なデータセットを作成することは困難であることが証明されている。 これらのアプローチの分割をブリッジし、それぞれの強みを活用するための有望な戦略の1つは、物理法則をMLアルゴリズムに統合することを目的とした理論誘導機械学習(TGML)である。 本稿では, 複合材料加工における熱管理の3つの事例について, FE, ML, TGMLを用いて検討した。 TGMLモデルのトレーニングに、より複雑な物理を漸進的に追加するための構造化アプローチを示す。 MLモデルよりもTGMLの利点は、特にトレーニング領域外のより正確な予測と、小さなデータセットでトレーニングする能力に見ることができる。 FEに対するTGMLの利点の1つは、リアルタイムフィードバックシステムを開発するための大幅なスピード改善である。 近年,航空宇宙複合部品の製作性を評価するtgmlモデルの実装が成功している。

Science-based simulation tools such as Finite Element (FE) models are routinely used in scientific and engineering applications. While their success is strongly dependent on our understanding of underlying governing physical laws, they suffer inherent limitations including trade-off between fidelity/accuracy and speed. The recent rise of Machine Learning (ML) proposes a theory-agnostic paradigm. In complex multi-physics problems, however, creating large enough datasets for successful training of ML models has proven to be challenging. One promising strategy to bridge the divide between these approaches and take advantage of their respective strengths is Theory-Guided Machine Learning (TGML) which aims to integrate physical laws into ML algorithms. In this paper, three case studies on thermal management during processing of advanced composites are presented and studied using FE, ML and TGML. A structured approach to incrementally adding increasingly complex physics to training of TGML model is presented. The benefits of TGML over ML models are seen in more accurate predictions, particularly outside the training region, and ability to train with small datasets. One benefit of TGML over FE is significant speed improvement to potentially develop real-time feedback systems. A recent successful implementation of a TGML model to assess producibility of aerospace composite parts is presented.
翻訳日:2021-03-31 14:46:27 公開日:2021-03-30
# ランダム化平滑化によるサーチフィラブルロバストフェデレーション学習

Certifiably-Robust Federated Adversarial Learning via Randomized Smoothing ( http://arxiv.org/abs/2103.16031v1 )

ライセンス: Link先を確認
Cheng Chen, Bhavya Kailkhura, Ryan Goldhahn and Yi Zhou(参考訳) フェデレーション学習(federated learning)は、新たなデータ-プライベートな分散学習フレームワークである。 フェデレーション学習のロバスト性を高めるためにいくつかのヒューリスティックな防御が提案されているが、それらは証明可能なロバスト性保証を提供していない。 本稿では,ランダムなスムース化手法をフェデレートされた逆方向学習に組み込んで,データプライベートな分散学習を実現する。 実験の結果,このような先進的な対人学習フレームワークは,集中的なトレーニングによってトレーニングされたモデルと同じくらい堅牢なモデルを提供できることがわかった。 さらに、証明可能なロバスト分類器を分散セットアップで$\ell_2$-bounded adversarial perturbationsにすることができる。 また,一点勾配推定に基づくトレーニング手法は,定性差のない確率的推定手法よりも2~3倍高速であることを示す。

Federated learning is an emerging data-private distributed learning framework, which, however, is vulnerable to adversarial attacks. Although several heuristic defenses are proposed to enhance the robustness of federated learning, they do not provide certifiable robustness guarantees. In this paper, we incorporate randomized smoothing techniques into federated adversarial training to enable data-private distributed learning with certifiable robustness to test-time adversarial perturbations. Our experiments show that such an advanced federated adversarial learning framework can deliver models as robust as those trained by the centralized training. Further, this enables provably-robust classifiers to $\ell_2$-bounded adversarial perturbations in a distributed setup. We also show that one-point gradient estimation based training approach is $2-3\times$ faster than popular stochastic estimator based approach without any noticeable certified robustness differences.
翻訳日:2021-03-31 14:46:09 公開日:2021-03-30
# メッセージパッシングオートエンコーダによる教師なし双曲表現学習

Unsupervised Hyperbolic Representation Learning via Message Passing Auto-Encoders ( http://arxiv.org/abs/2103.16046v1 )

ライセンス: Link先を確認
Jiwoong Park, Junho Cho, Hyung Jin Chang, Jin Young Choi(参考訳) ハイパーボリック埋め込みに関する既存の文献のほとんどは教師あり学習に集中しているが、教師なしハイパーボリック埋め込みの使用は十分に研究されていない。 本稿では,教師なしタスクが双曲空間における学習表現からどのように恩恵を受けるかを分析する。 ラベルなしデータの階層構造が双曲空間においていかにうまく表現できるかを検討するため,双曲空間において全自動エンコーディングを行う新しい双曲メッセージパスオートエンコーダを設計した。 提案モデルは,メッセージパッシングにおける双曲幾何学を完全に活用して,ネットワークの自動符号化を行う。 定量的・定性的解析により,教師なし双曲表現の特性と利点を検証する。 コードはhttps://github.com/junhocho/HGCAEで入手できる。

Most of the existing literature regarding hyperbolic embedding concentrate upon supervised learning, whereas the use of unsupervised hyperbolic embedding is less well explored. In this paper, we analyze how unsupervised tasks can benefit from learned representations in hyperbolic space. To explore how well the hierarchical structure of unlabeled data can be represented in hyperbolic spaces, we design a novel hyperbolic message passing auto-encoder whose overall auto-encoding is performed in hyperbolic space. The proposed model conducts auto-encoding the networks via fully utilizing hyperbolic geometry in message passing. Through extensive quantitative and qualitative analyses, we validate the properties and benefits of the unsupervised hyperbolic representations. Codes are available at https://github.com/junhocho/HGCAE.
翻訳日:2021-03-31 14:45:54 公開日:2021-03-30
# 空気中のフェデレート学習のための1ビット圧縮センシング

1-Bit Compressive Sensing for Efficient Federated Learning Over the Air ( http://arxiv.org/abs/2103.16055v1 )

ライセンス: Link先を確認
Xin Fan, Yue Wang, Yan Huo, and Zhi Tian(参考訳) 協調的なユーザ間の分散学習のために,1ビット圧縮センシング(CS)をアナログアグリゲーション送信に組み込んだ,空気上のフェデレーション学習(FL)のための通信効率の高いスキームを開発し,解析する。 設計パラメータの最適化を容易にするために,提案手法の有効性を理論的に解析し,空気上のflの期待収束率に対する閉形式式を導出する。 本研究では,分散化,次元縮小,量子化,信号再構成,ノイズによる集約誤差の結果,収束性能と通信効率のトレードオフを明らかにする。 次に,協調最適化問題として1ビットcsベースflを定式化し,作業者スケジューリングと電力スケーリングポリシーの協調最適設計による集約誤差の影響を緩和する。 この非凸問題を解くために列挙法が提案されているが、デバイス数が増えるにつれて計算が不可能になる。 スケーラブルコンピューティングでは,大規模ネットワークに適した効率的な実装を開発するために,乗算器の交互方向法(ADMM)を用いる。 シミュレーションの結果,提案した1ビットCSベースのFLは,従来の圧縮・定量化のないFLを,通信オーバヘッドと伝送遅延を大幅に低減したエラーフリーアグリゲーションに対して適用した場合と同等の性能を示した。

For distributed learning among collaborative users, this paper develops and analyzes a communication-efficient scheme for federated learning (FL) over the air, which incorporates 1-bit compressive sensing (CS) into analog aggregation transmissions. To facilitate design parameter optimization, we theoretically analyze the efficacy of the proposed scheme by deriving a closed-form expression for the expected convergence rate of the FL over the air. Our theoretical results reveal the tradeoff between convergence performance and communication efficiency as a result of the aggregation errors caused by sparsification, dimension reduction, quantization, signal reconstruction and noise. Then, we formulate 1-bit CS based FL over the air as a joint optimization problem to mitigate the impact of these aggregation errors through joint optimal design of worker scheduling and power scaling policy. An enumeration-based method is proposed to solve this non-convex problem, which is optimal but becomes computationally infeasible as the number of devices increases. For scalable computing, we resort to the alternating direction method of multipliers (ADMM) technique to develop an efficient implementation that is suitable for large-scale networks. Simulation results show that our proposed 1-bit CS based FL over the air achieves comparable performance to the ideal case where conventional FL without compression and quantification is applied over error-free aggregation, at much reduced communication overhead and transmission latency.
翻訳日:2021-03-31 14:45:42 公開日:2021-03-30
# スポンサー検索におけるクリックスルーレート予測のためのグラフ意図ネットワーク

Graph Intention Network for Click-through Rate Prediction in Sponsored Search ( http://arxiv.org/abs/2103.16164v1 )

ライセンス: Link先を確認
Feng Li, Zhenrui Chen, Pengjie Wang, Yi Ren, Di Zhang, Xiaoyu Zhu(参考訳) クリックスルー率(CTR)を正確に推定することは、ユーザエクスペリエンスの向上とスポンサード検索の収益に重要な影響を与える。 CTR予測モデルでは,ユーザのリアルタイム検索意図を明らかにする必要がある。 現在の作業の大部分は、ユーザのリアルタイム行動に基づいて意図を掘り下げることです。 しかし,ユーザの行動が疎い場合の意図を捉えることは困難であり,行動空間の問題を引き起こす。 さらに、利用者が興味をそそる探索、すなわち弱い一般化問題のために、特定の歴史的行動から飛び出すことは困難である。 本稿では,ユーザ意図をマイニングするために,共起商品グラフに基づく新しいアプローチグラフインテンションネットワーク(gin)を提案する。 多層グラフ拡散を採用することで、GINはユーザの振る舞いを豊かにし、振る舞いの空間性問題を解決する。 商品の共起関係を導入して潜在的な嗜好を探索することにより、弱一般化問題も緩和される。 我々の知る限り、GIN法は、初めてCTR予測におけるユーザ意図マイニングのためのグラフ学習を導入し、スポンサー付き検索におけるグラフ学習とCTR予測タスクのエンドツーエンド共同トレーニングを提案する。 現在ginは、既存のディープラーニングモデルを上回るeコマースプラットフォームの実世界のデータで優れたオフライン結果を達成しており、オンラインで安定したテストを実行し、ctrを大幅に改善している。

Estimating click-through rate (CTR) accurately has an essential impact on improving user experience and revenue in sponsored search. For CTR prediction model, it is necessary to make out user real-time search intention. Most of the current work is to mine their intentions based on user real-time behaviors. However, it is difficult to capture the intention when user behaviors are sparse, causing the behavior sparsity problem. Moreover, it is difficult for user to jump out of their specific historical behaviors for possible interest exploration, namely weak generalization problem. We propose a new approach Graph Intention Network (GIN) based on co-occurrence commodity graph to mine user intention. By adopting multi-layered graph diffusion, GIN enriches user behaviors to solve the behavior sparsity problem. By introducing co-occurrence relationship of commodities to explore the potential preferences, the weak generalization problem is also alleviated. To the best of our knowledge, the GIN method is the first to introduce graph learning for user intention mining in CTR prediction and propose end-to-end joint training of graph learning and CTR prediction tasks in sponsored search. At present, GIN has achieved excellent offline results on the real-world data of the e-commerce platform outperforming existing deep learning models, and has been running stable tests online and achieved significant CTR improvements.
翻訳日:2021-03-31 14:45:17 公開日:2021-03-30
# リニア表現の条件メタラーニング

Conditional Meta-Learning of Linear Representations ( http://arxiv.org/abs/2103.16277v1 )

ライセンス: Link先を確認
Giulia Denevi, Massimiliano Pontil, Carlo Ciliberto(参考訳) 表現学習のための標準メタラーニングは、複数のタスク間で共有される共通の表現を見つけることを目的としている。 これらの方法の有効性は、タスクの分布のニュアンスが単一の表現でキャプチャできない場合、しばしば制限される。 本研究では,タスクの側情報(タスクのトレーニングデータセット自体など)を手作業に適した表現にマッピングすることで,条件付け関数を推論することでこの問題を克服する。 条件付き戦略が標準的なメタラーニングよりも優れている環境について検討する。例えば、タスクは共有する表現に従って別々のクラスタに編成できる。 次に,この利点を実際に活用できるメタアルゴリズムを提案する。 非条件設定では,本手法は学習速度を向上し,現在の最先端手法よりも過度パラメータの調整を必要としない新しい推定器を提供する。 我々の結果は予備実験によって支えられている。

Standard meta-learning for representation learning aims to find a common representation to be shared across multiple tasks. The effectiveness of these methods is often limited when the nuances of the tasks' distribution cannot be captured by a single representation. In this work we overcome this issue by inferring a conditioning function, mapping the tasks' side information (such as the tasks' training dataset itself) into a representation tailored to the task at hand. We study environments in which our conditional strategy outperforms standard meta-learning, such as those in which tasks can be organized in separate clusters according to the representation they share. We then propose a meta-algorithm capable of leveraging this advantage in practice. In the unconditional setting, our method yields a new estimator enjoying faster learning rates and requiring less hyper-parameters to tune than current state-of-the-art methods. Our results are supported by preliminary experiments.
翻訳日:2021-03-31 14:44:55 公開日:2021-03-30
# 一般化線形ツリー空間最近傍

Generalized Linear Tree Space Nearest Neighbor ( http://arxiv.org/abs/2103.16408v1 )

ライセンス: Link先を確認
Michael Kim(参考訳) そこで本研究では, 1 つの近傍 (1nn) 空間を分割した順序時間に投影することで決定木を積み重ねる新しい手法を提案する。 これら1つの近傍の予測は線形モデルによって結合される。 このプロセスは何度も繰り返され、分散を減らすために平均される。 GLTSNN(Generalized Linear Tree Space Nearest Neighbor)は、いくつかの公開データセット上のランダムフォレスト(RF)と比較して、平均平方誤差(MSE)に対して競合する。 GLTSNNの理論的および応用的な利点について論じる。 我々は、GLTSNNに基づく分類器は、k = 1 近傍近傍のベイズ誤差率の2倍の漸近的に有界な誤差を持つであろうと推測する。

We present a novel method of stacking decision trees by projection into an ordered time split out-of-fold (OOF) one nearest neighbor (1NN) space. The predictions of these one nearest neighbors are combined through a linear model. This process is repeated many times and averaged to reduce variance. Generalized Linear Tree Space Nearest Neighbor (GLTSNN) is competitive with respect to Mean Squared Error (MSE) compared to Random Forest (RF) on several publicly available datasets. Some of the theoretical and applied advantages of GLTSNN are discussed. We conjecture a classifier based upon the GLTSNN would have an error that is asymptotically bounded by twice the Bayes error rate like k = 1 Nearest Neighbor.
翻訳日:2021-03-31 14:44:41 公開日:2021-03-30
# 変分量子回路の最適化のための強化学習

Reinforcement learning for optimization of variational quantum circuit architectures ( http://arxiv.org/abs/2103.16089v1 )

ライセンス: Link先を確認
Mateusz Ostaszewski, Lea M. Trenkwalder, Wojciech Masarczyk, Eleanor Scerri, Vedran Dunjko(参考訳) 変分量子固有解法(VQEs)の研究は、短期量子デバイスの実世界の応用につながる可能性があるため、近年注目されている。 しかし、それらの性能は、対応する回路の深さと表現率のバランスを必要とする使用済み変分アンサッツの構造に依存する。 近年、vqe構造最適化の様々な手法が導入されているが、この問題を支援する機械学習の能力はまだ十分に研究されていない。 本研究では,現在なお正確な地盤エネルギー推定を行う経済回路を同定し,Ans{\"a}tzeの空間を自律的に探索する強化学習アルゴリズムを提案する。 アルゴリズムは本質的に動機付けされており、回路深さを最小化しながら結果の精度を漸進的に向上する。 本研究では, 水素化リチウム (LiH) の基底状態エネルギーを推定する問題に対するアルゴリズムの性能を示す。 このよく知られたベンチマーク問題では、化学的精度と回路深さの最先端結果を達成する。

The study of Variational Quantum Eigensolvers (VQEs) has been in the spotlight in recent times as they may lead to real-world applications of near-term quantum devices. However, their performance depends on the structure of the used variational ansatz, which requires balancing the depth and expressivity of the corresponding circuit. In recent years, various methods for VQE structure optimization have been introduced but the capacities of machine learning to aid with this problem has not yet been fully investigated. In this work, we propose a reinforcement learning algorithm that autonomously explores the space of possible ans{\"a}tze, identifying economic circuits which still yield accurate ground energy estimates. The algorithm is intrinsically motivated, and it incrementally improves the accuracy of the result while minimizing the circuit depth. We showcase the performance of our algorithm on the problem of estimating the ground-state energy of lithium hydride (LiH). In this well-known benchmark problem, we achieve chemical accuracy, as well as state-of-the-art results in terms of circuit depth.
翻訳日:2021-03-31 14:44:01 公開日:2021-03-30
# AlphaEvolve: 定量的投資で新たなアルファを発見するための学習フレームワーク

AlphaEvolve: A Learning Framework to Discover Novel Alphas in Quantitative Investment ( http://arxiv.org/abs/2103.16196v1 )

ライセンス: Link先を確認
Can Cui, Wei Wang, Meihui Zhang, Gang Chen, Zhaojing Luo, Beng Chin Ooi(参考訳) アルファは株式市場のトレーディングシグナルを捉えた株価予測モデルである。 有効なアルファのセットは、リスクを多様化するために弱い相関の高いリターンを生成することができる。 既存のアルファは2つのクラスに分類できる: 公式アルファはスカラーの特徴の単純な代数的表現であり、よく一般化され弱い相関集合にマイニングされる。 機械学習アルファは、ベクトルおよび行列機能に関するデータ駆動モデルである。 これらは公式アルファよりも予測的であるが、弱い相関集合にマイニングするには複雑すぎる。 本稿では,これら2つの既存クラスの強みを持つスカラー,ベクトル,行列の特徴をモデル化するための新しいアルファクラスを提案する。 新しいアルファは高い精度で戻りを予測し、弱い相関集合にマイニングすることができる。 さらに,新たなアルファを生成するために,automlに基づく新しいアルファマイニングフレームワークであるalphaevolveを提案する。 そこで我々はまず,新しいアルファを生成し,関係領域の知識を選択的に注入し,株間の関係をモデル化する演算子を提案する。 次に,冗長アルファの刈り込み手法を提案することにより,アルファマイニングを加速する。 実験の結果、alphaevolveは初期アルファを高いリターンと弱い相関を持つ新しいアルファへと進化させることが示されている。

Alphas are stock prediction models capturing trading signals in a stock market. A set of effective alphas can generate weakly correlated high returns to diversify the risk. Existing alphas can be categorized into two classes: Formulaic alphas are simple algebraic expressions of scalar features, and thus can generalize well and be mined into a weakly correlated set. Machine learning alphas are data-driven models over vector and matrix features. They are more predictive than formulaic alphas, but are too complex to mine into a weakly correlated set. In this paper, we introduce a new class of alphas to model scalar, vector, and matrix features which possess the strengths of these two existing classes. The new alphas predict returns with high accuracy and can be mined into a weakly correlated set. In addition, we propose a novel alpha mining framework based on AutoML, called AlphaEvolve, to generate the new alphas. To this end, we first propose operators for generating the new alphas and selectively injecting relational domain knowledge to model the relations between stocks. We then accelerate the alpha mining by proposing a pruning technique for redundant alphas. Experiments show that AlphaEvolve can evolve initial alphas into the new alphas with high returns and weak correlations.
翻訳日:2021-03-31 14:43:45 公開日:2021-03-30
# パッチストッチングによる点雲の高速かつ正確な正規推定

Fast and Accurate Normal Estimation for Point Cloud via Patch Stitching ( http://arxiv.org/abs/2103.16066v1 )

ライセンス: Link先を確認
Jun Zhou, Wei Jin, Mingjie Wang, Xiuping Liu, Zhiyang Li and Zhaobin Liu(参考訳) 本稿では,非構造点雲に対するマルチパッチ縫合を用いた効果的な正規推定法を提案する。 学習に基づくアプローチの大部分は、モデル全体の各点に局所パッチを符号化し、正規値をポイントバイポイントで見積もる。 対照的に,より効率的なパイプラインを提案し,重複するパッチの処理にパッチレベルの正規推定アーキテクチャを導入する。 さらに、重みに基づく多正規選択法(multi-patch stitching)は、重複するパッチから正規値を統合する。 パッチのシャープコーナーやノイズの悪影響を低減するため,異方性近傍に焦点を合わせるために適応的な局所的特徴集約層を導入する。 次に,マルチブランチ平面エキスパートモジュールを用いて,パッチの下位部分面間の相互影響を破る。 縫合段階では,多枝平面専門家の学習重量と点間距離重量を用いて,重なり合う部分から最適な正規点を選択する。 さらに,ループ繰り返しの大規模検索オーバーヘッドを劇的に低減するために,スパース行列表現を構築した。 提案手法は,計算コストの低減と,既存手法よりも高ロバスト性,高ロバスト性を生かして,SOTA結果が得られることを示す。

This paper presents an effective normal estimation method adopting multi-patch stitching for an unstructured point cloud. The majority of learning-based approaches encode a local patch around each point of a whole model and estimate the normals in a point-by-point manner. In contrast, we suggest a more efficient pipeline, in which we introduce a patch-level normal estimation architecture to process a series of overlapping patches. Additionally, a multi-normal selection method based on weights, dubbed as multi-patch stitching, integrates the normals from the overlapping patches. To reduce the adverse effects of sharp corners or noise in a patch, we introduce an adaptive local feature aggregation layer to focus on an anisotropic neighborhood. We then utilize a multi-branch planar experts module to break the mutual influence between underlying piecewise surfaces in a patch. At the stitching stage, we use the learned weights of multi-branch planar experts and distance weights between points to select the best normal from the overlapping parts. Furthermore, we put forward constructing a sparse matrix representation to reduce large-scale retrieval overheads for the loop iterations dramatically. Extensive experiments demonstrate that our method achieves SOTA results with the advantage of lower computational costs and higher robustness to noise over most of the existing approaches.
翻訳日:2021-03-31 14:41:30 公開日:2021-03-30
# 適応サンプリングとカーネルプールを用いた2段モンテカルロ雑音化

Two-Stage Monte Carlo Denoising with Adaptive Sampling and Kernel Pool ( http://arxiv.org/abs/2103.16115v1 )

ライセンス: Link先を確認
Tiange Xiang, Hongliang Yuan, Haozhi Huang, Yujin Shi(参考訳) モンテカルロパストレーサは低サンプリング数でノイズの多い画像列を描画する。 このようなシーケンスの復調には大きな進歩があったが、既存の手法はまだ空間的および一時的なアーティファクトに悩まされている。 本稿では,適応的サンプリング戦略に基づく2段階のデノイザーを提案することにより,モンテカルロレンダリングの問題点に取り組む。 第1段階では,1ピクセル (spp) あたりのサンプルをオンザフライで調整すると同時に,計算を再利用し,適応的に描画された画像に適用した余分なデノナイズカーネルを生成する。 画素単位のカーネルを直接予測するのではなく、これらのカーネルをパブリックカーネルプールから補間することでオーバーヘッドの複雑さを軽減し、入力信号に適合するように動的に更新することができる。 第2段階では,空間-時間安定性を改善するために位置認識プーリングと意味アライメント演算子を設計する。 提案手法はまず,三葉レンダラーからレンダリングした10の合成シーンをベンチマークし,RTXベースのレンダラーからレンダリングした3つの追加シーンを検証した。 本手法は,数値誤差と視覚的品質の両方の観点から,最先端の手法よりも優れる。

Monte Carlo path tracer renders noisy image sequences at low sampling counts. Although great progress has been made on denoising such sequences, existing methods still suffer from spatial and temporary artifacts. In this paper, we tackle the problems in Monte Carlo rendering by proposing a two-stage denoiser based on the adaptive sampling strategy. In the first stage, concurrent to adjusting samples per pixel (spp) on-the-fly, we reuse the computations to generate extra denoising kernels applying on the adaptively rendered image. Rather than a direct prediction of pixel-wise kernels, we save the overhead complexity by interpolating such kernels from a public kernel pool, which can be dynamically updated to fit input signals. In the second stage, we design the position-aware pooling and semantic alignment operators to improve spatial-temporal stability. Our method was first benchmarked on 10 synthesized scenes rendered from the Mitsuba renderer and then validated on 3 additional scenes rendered from our self-built RTX-based renderer. Our method outperforms state-of-the-art counterparts in terms of both numerical error and visual quality.
翻訳日:2021-03-31 14:41:09 公開日:2021-03-30
# ハイパースペクトル非線形アンミックスにおける低ランクアウンダンスマップと非負テンソルファクトリゼーションの利用

Using Low-rank Representation of Abundance Maps and Nonnegative Tensor Factorization for Hyperspectral Nonlinear Unmixing ( http://arxiv.org/abs/2103.16204v1 )

ライセンス: Link先を確認
Lianru Gao, Zhicheng Wang, Lina Zhuang, Haoyang Yu, Bing Zhang, Jocelyn Chanussot(参考訳) ハイパースペクトル像(HSI)立方体は自然に3階テンソルとして表現でき、画像内の空間情報を完全に保持できるため、ハイパースペクトルイメージングにおける逆問題に対するテンソル法が広く研究されている。 本稿では,線形テンソル法を非線形テンソル法に拡張し,一般化双線形モデル(GBM)を解く非線形低ランクテンソルアンミックスアルゴリズムを提案する。 具体的には、GBMの線型部分と非線形部分の両方をテンソルとして表すことができる。 さらに, 原子核ノルムを最小化し, HSIの空間相関を最大限に活用することにより, 密度分布マップと非線形相互作用分布マップの低ランク構造を生かした。 合成および実データ実験により, 空隙マップの低ランク化と非線形相互作用量マップの活用により, 非線形アンミキシングの性能が向上することを示した。 この作業のMATLABデモは再現性のためにhttps://github.com/LinaZhuangで公開される。

Tensor-based methods have been widely studied to attack inverse problems in hyperspectral imaging since a hyperspectral image (HSI) cube can be naturally represented as a third-order tensor, which can perfectly retain the spatial information in the image. In this article, we extend the linear tensor method to the nonlinear tensor method and propose a nonlinear low-rank tensor unmixing algorithm to solve the generalized bilinear model (GBM). Specifically, the linear and nonlinear parts of the GBM can both be expressed as tensors. Furthermore, the low-rank structures of abundance maps and nonlinear interaction abundance maps are exploited by minimizing their nuclear norm, thus taking full advantage of the high spatial correlation in HSIs. Synthetic and real-data experiments show that the low rank of abundance maps and nonlinear interaction abundance maps exploited in our method can improve the performance of the nonlinear unmixing. A MATLAB demo of this work will be available at https://github.com/LinaZhuang for the sake of reproducibility.
翻訳日:2021-03-31 14:40:50 公開日:2021-03-30
# 画像から画像への変換は、マルチモーダル画像登録のためのpanaceaか? 比較研究

Is Image-to-Image Translation the Panacea for Multimodal Image Registration? A Comparative Study ( http://arxiv.org/abs/2103.16262v1 )

ライセンス: Link先を確認
Jiahao Lu, Johan \"Ofverstedt, Joakim Lindblad, Nata\v{s}a Sladoje(参考訳) 深層学習革命によって推進されたバイオメディカル画像処理の分野における最近の進歩にもかかわらず、マルチモーダル画像登録はいくつかの課題により、専門家によって手作業で行われていることが多い。 近年のコンピュータビジョンアプリケーションにおけるイメージ・ツー・イメージ(I2I)翻訳の成功と、バイオメディカル領域での利用の増加は、マルチモーダル登録問題をより簡単でモノモーダルなものに転換する誘惑の可能性を示唆している。 マルチモーダルバイオメディカル画像登録作業における現代i2i翻訳法の適用性に関する実証研究を行った。 画像登録におけるモダリティ変換の有効性を判断するために,4つの生成型adversarial network (gan) 法と1つのコントラスト表現学習法と2つの代表的モノモーダル登録法を比較した。 提案手法は,難易度が増大する3つの公開マルチモーダルデータセット上で評価し,相互情報最大化による登録性能と,最新のデータ固有マルチモーダル登録方式との比較を行った。 以上の結果から,i2i翻訳は,登録するモダリティが明確に相関する場合に有効であるが,i2i翻訳手法では,試料の異なる特性を示すモダリティの登録が適切に処理されていないことが示唆された。 モダリティ間で情報共有が少ない場合、i2i翻訳手法は良好な予測を提供するのに苦労し、登録性能を損なう。 中間表現を見つけることを目的とした評価表現学習手法は、より良く管理され、相互情報最大化アプローチもそうである。 実験の完全なセットアップをオープンソースとして公開しています(https://github.com/Noodles-321/Registration)。

Despite current advancement in the field of biomedical image processing, propelled by the deep learning revolution, multimodal image registration, due to its several challenges, is still often performed manually by specialists. The recent success of image-to-image (I2I) translation in computer vision applications and its growing use in biomedical areas provide a tempting possibility of transforming the multimodal registration problem into a, potentially easier, monomodal one. We conduct an empirical study of the applicability of modern I2I translation methods for the task of multimodal biomedical image registration. We compare the performance of four Generative Adversarial Network (GAN)-based methods and one contrastive representation learning method, subsequently combined with two representative monomodal registration methods, to judge the effectiveness of modality translation for multimodal image registration. We evaluate these method combinations on three publicly available multimodal datasets of increasing difficulty, and compare with the performance of registration by Mutual Information maximisation and one modern data-specific multimodal registration method. Our results suggest that, although I2I translation may be helpful when the modalities to register are clearly correlated, registration of modalities which express distinctly different properties of the sample are not well handled by the I2I translation approach. When less information is shared between the modalities, the I2I translation methods struggle to provide good predictions, which impairs the registration performance. The evaluated representation learning method, which aims to find an in-between representation, manages better, and so does the Mutual Information maximisation approach. We share our complete experimental setup as open-source (https://github.com/Noodles-321/Registration).
翻訳日:2021-03-31 14:40:32 公開日:2021-03-30
# セマンティックマップと動的グラフ注意ネットワークを用いた自律走行の多モード軌道予測

Multi-modal Trajectory Prediction for Autonomous Driving with Semantic Map and Dynamic Graph Attention Network ( http://arxiv.org/abs/2103.16273v1 )

ライセンス: Link先を確認
Bo Dong, Hao Liu, Yu Bai, Jinbiao Lin, Zhuoran Xu, Xinyu Xu, Qi Kong(参考訳) 周囲の障害物の将来の軌跡を予測することは、自動運転車が高度な道路安全を達成するための重要な課題である。 現実の交通シナリオにおける軌道予測には、交通規則に従うこと、社会的相互作用を扱うこと、多クラス移動のトラフィックを扱うこと、確率で多モード軌道を予測することなど、いくつかの課題がある。 目的や周囲に注意を向けて交通をナビゲートする人々の自然な習慣に着想を得て,これらの課題を解決するために,ユニークな動的グラフアテンションネットワークを提案する。 このネットワークはエージェント間の動的な社会的相互作用をモデル化し、セマンティックマップによるトラフィックルールに従うように設計されている。 提案手法は,アンカー法を複数のエージェントに拡張することで,単一モデルを用いて多種移動の確率を伴うマルチモーダルトラジェクタを予測できる。 ロジスティックデリバリシナリオと2つの公開データセットを対象とした,プロプライエタリな自律運転データセットに対するアプローチを検証する。 その結果,提案手法は最先端技術より優れ,現実の交通における軌道予測の可能性を示している。

Predicting future trajectories of surrounding obstacles is a crucial task for autonomous driving cars to achieve a high degree of road safety. There are several challenges in trajectory prediction in real-world traffic scenarios, including obeying traffic rules, dealing with social interactions, handling traffic of multi-class movement, and predicting multi-modal trajectories with probability. Inspired by people's natural habit of navigating traffic with attention to their goals and surroundings, this paper presents a unique dynamic graph attention network to solve all those challenges. The network is designed to model the dynamic social interactions among agents and conform to traffic rules with a semantic map. By extending the anchor-based method to multiple types of agents, the proposed method can predict multi-modal trajectories with probabilities for multi-class movements using a single model. We validate our approach on the proprietary autonomous driving dataset for the logistic delivery scenario and two publicly available datasets. The results show that our method outperforms state-of-the-art techniques and demonstrates the potential for trajectory prediction in real-world traffic.
翻訳日:2021-03-31 14:40:03 公開日:2021-03-30
# 頑健で効率的な3次元畳み込みニューラルネットワークを用いたCTによる自動気道セグメンテーション

Automatic airway segmentation from Computed Tomography using robust and efficient 3-D convolutional neural networks ( http://arxiv.org/abs/2103.16328v1 )

ライセンス: Link先を確認
A. Garcia-Uceda Juarez, R. Selvan, Z. Saghir, H.A.W.M. Tiddens, M. de Bruijne(参考訳) 本稿では,U-Netアーキテクチャに基づく胸部CTのための完全自動・エンドツーエンド最適化エアウェイセグメンテーション手法を提案する。 バックボーンとして、単純で低メモリの3D U-Netを使用し、ネットワークを1回のパスで、しばしば肺全体からなる大きな3Dイメージパッチを処理できる。 これにより、メソッドはシンプルでロバストで効率的になる。 提案手法は, 嚢胞性線維症を含む小児患者のデータセット, 慢性閉塞性肺疾患患者を含むデンマーク肺がんスクリーニング試験のサブセット, EXACT'09パブリックデータセットの3つの異なる特徴および気道異常を有する3つのデータセットに対して検証した。 本手法を, EXACT'09データに基づく文献における関連する学習手法を含む,最先端のエアウェイセグメンテーション手法と比較した。 本手法は, 健常者と病人の両方のスキャンにおいて, 誤検出の少ない高度に完全な気道木を抽出でき, また, 異なるデータセットにまたがって十分に一般化できることを示す。 正確な'09試験セットにおいて,本手法は特異性を報告した全手法で2番目に高い感度スコアを得た。

This paper presents a fully automatic and end-to-end optimised airway segmentation method for thoracic computed tomography, based on the U-Net architecture. We use a simple and low-memory 3D U-Net as backbone, which allows the method to process large 3D image patches, often comprising full lungs, in a single pass through the network. This makes the method simple, robust and efficient. We validated the proposed method on three datasets with very different characteristics and various airway abnormalities: i) a dataset of pediatric patients including subjects with cystic fibrosis, ii) a subset of the Danish Lung Cancer Screening Trial, including subjects with chronic obstructive pulmonary disease, and iii) the EXACT'09 public dataset. We compared our method with other state-of-the-art airway segmentation methods, including relevant learning-based methods in the literature evaluated on the EXACT'09 data. We show that our method can extract highly complete airway trees with few false positive errors, on scans from both healthy and diseased subjects, and also that the method generalizes well across different datasets. On the EXACT'09 test set, our method achieved the second highest sensitivity score among all methods that reported good specificity.
翻訳日:2021-03-31 14:39:44 公開日:2021-03-30
# Beltrami Signature:オブジェクト分類のための新しい不変2次元形状表現

Beltrami Signature: A Novel Invariant 2D Shape Representation for Object Classification ( http://arxiv.org/abs/2103.16411v1 )

ライセンス: Link先を確認
Chenran Lin and Lok Ming Lui(参考訳) 近年, 形状解析への関心が高まっており, 本論文では, 2次元有界単純連結領域に対するBeltramiシグネチャと呼ばれる新しい輪郭型形状表現を提案する。 提案する表現は共形溶接に基づく。 適切な正規化により、溶接の特異性は回転まで保証される。 すると調和函数に拡張でき、最終的に準共形理論は調和拡大のベルトラミ係数を計算することによって唯一の不確実性を取り除くことができる。 提案するシグネチャの利点は、サックリング、変換、回転といった単純な変換の下で不変であり、わずかな変形と歪みの下ではルーボストであることである。 実験は上記の特性を示し、優れた分類性能を示す。

There is a growing interest in shape analysis in recent years and in this paper we present a novel contour-based shape representation named Beltrami signature for 2D bounded simple connected domain. The proposed representation is based on conformal welding. With suitable normalization, the uniqueness of welding is guaranteed up to a rotation. Then it can be extended to a harmonic function and finally quasi-conformal theory get rid of the only uncertainty by computing Beltrami coefficient of harmonic extension. The benifits of the proposed signature is it keeps invariant under simple transformations like sacling, transformation and rotation and is roubost under slight deformation and distortion. Experiments demonstrates the above properties and also shows the excellent classification performance.
翻訳日:2021-03-31 14:39:21 公開日:2021-03-30
# データ多様性の実現:正規化敵訓練による効率的な自動強化

Enabling Data Diversity: Efficient Automatic Augmentation via Regularized Adversarial Training ( http://arxiv.org/abs/2103.16493v1 )

ライセンス: Link先を確認
Yunhe Gao, Zhiqiang Tang, Mu Zhou, Dimitris Metaxas(参考訳) データ拡張は、過剰フィッティングを緩和し、ディープニューラルネットワークの一般化性能を向上させるために、トレーニングデータのばらつきを増加させることで非常に有用である。 医用画像解析において、よく設計された拡張ポリシーは、通常、多くの専門知識を必要とし、異なる医療タスクにおける画素強度、画像の外観、オブジェクト形状の相違により、複数のタスクに一般化することが困難である。 医療データ拡張を自動化するために,アフィン変換,変形,外観変化を対象とする2つのMin-max目標と3つの識別可能な拡張モデルを用いて,正規化対向トレーニングフレームワークを提案する。 提案手法は従来の自動拡張手法よりも自動的かつ効率的であり,人間の特定範囲での事前定義された操作とコストのかかるbiレベル最適化に引き続き依存する。 以上の結果より,2次元皮膚癌分類と3次元臓器・リスク分割の両課題において,本手法は訓練オーバーヘッドが少なく,最先端の自己拡張法よりも優れた性能を示した。

Data augmentation has proved extremely useful by increasing training data variance to alleviate overfitting and improve deep neural networks' generalization performance. In medical image analysis, a well-designed augmentation policy usually requires much expert knowledge and is difficult to generalize to multiple tasks due to the vast discrepancies among pixel intensities, image appearances, and object shapes in different medical tasks. To automate medical data augmentation, we propose a regularized adversarial training framework via two min-max objectives and three differentiable augmentation models covering affine transformation, deformation, and appearance changes. Our method is more automatic and efficient than previous automatic augmentation methods, which still rely on pre-defined operations with human-specified ranges and costly bi-level optimization. Extensive experiments demonstrated that our approach, with less training overhead, achieves superior performance over state-of-the-art auto-augmentation methods on both tasks of 2D skin cancer classification and 3D organs-at-risk segmentation.
翻訳日:2021-03-31 14:39:08 公開日:2021-03-30
# SD-6DoF-ICLK:SE(3)上のスパースおよびディープ逆合成ルーカスカネードアルゴリズム

SD-6DoF-ICLK: Sparse and Deep Inverse Compositional Lucas-Kanade Algorithm on SE(3) ( http://arxiv.org/abs/2103.16528v1 )

ライセンス: Link先を確認
Timo Hinzmann, Roland Siegwart(参考訳) SD-6DoF-ICLK(Inverse Compositional Lucas-Kanade:逆合成ルーカス・カナード)パイプラインは,2枚の画像がSE(3)上に最もよく配向する相対的なポーズを最適化するために,スパース深度情報を利用する。 この6自由度(dof)相対変換を計算するために、提案された定式化では画像の1つにスパース深度情報しか必要とせず、これは視覚慣性オドメトリや同時局在マッピング(slam)パイプラインでのみ使用可能な深さ源であることが多い。 オプションの次のステップでは、個々の機能アライメントとバンドルによるポーズと構造の再調整を使用して、機能の位置と相対的なポーズをさらに洗練する。 サブピクセル精度と精細な相対ポーズによるスパースポイント対応は、深度マップ生成に利用でき、画像アライメントモジュールは、オドメトリーまたはマッピングフレームワークに組み込むことができる。 レンダリング画像を用いた実験では、前方のSD-6DoF-ICLKは解像度752×480ピクセルのイメージ対あたり145msで動作し、古典的でスパースな6DoF-ICLKアルゴリズムよりも大幅に優れており、厳しい条件下での堅牢な画像アライメントのための理想的なフレームワークとなっている。

This paper introduces SD-6DoF-ICLK, a learning-based Inverse Compositional Lucas-Kanade (ICLK) pipeline that uses sparse depth information to optimize the relative pose that best aligns two images on SE(3). To compute this six Degrees-of-Freedom (DoF) relative transformation, the proposed formulation requires only sparse depth information in one of the images, which is often the only available depth source in visual-inertial odometry or Simultaneous Localization and Mapping (SLAM) pipelines. In an optional subsequent step, the framework further refines feature locations and the relative pose using individual feature alignment and bundle adjustment for pose and structure re-alignment. The resulting sparse point correspondences with subpixel-accuracy and refined relative pose can be used for depth map generation, or the image alignment module can be embedded in an odometry or mapping framework. Experiments with rendered imagery show that the forward SD-6DoF-ICLK runs at 145 ms per image pair with a resolution of 752 x 480 pixels each, and vastly outperforms the classical, sparse 6DoF-ICLK algorithm, making it the ideal framework for robust image alignment under severe conditions.
翻訳日:2021-03-31 14:38:41 公開日:2021-03-30
# 視覚室のリレンジメント

Visual Room Rearrangement ( http://arxiv.org/abs/2103.16544v1 )

ライセンス: Link先を確認
Luca Weihs, Matt Deitke, Aniruddha Kembhavi, Roozbeh Mottaghi(参考訳) エンボディードAIの分野では、エンボディードエージェントが完全に見えない環境でナビゲートし、相互作用することを可能にするモデルとアルゴリズムを開発する研究者による大きな進歩があった。 本稿では,再配置作業のための新しいデータセットとベースラインモデルを提案する。 エージェントは部屋を探索し、オブジェクトの初期構成を記録することから始まります。 次に、エージェントを削除し、室内のいくつかのオブジェクトのポーズと状態(例えば、開閉)を変更する。 エージェントは部屋のすべてのオブジェクトの初期設定を復元しなければならない。 RoomRという名前のデータセットには、120のシーンで72の異なるオブジェクトタイプを含む6000の異なる並べ替え設定が含まれています。 私たちの実験では、ナビゲーションとオブジェクトインタラクションを伴うこの困難なインタラクティブなタスクの解決は、具体化されたタスクの現在の最先端のテクニックの能力を超えていることを示している。 コードとデータセットは以下の通りである。

There has been a significant recent progress in the field of Embodied AI with researchers developing models and algorithms enabling embodied agents to navigate and interact within completely unseen environments. In this paper, we propose a new dataset and baseline models for the task of Rearrangement. We particularly focus on the task of Room Rearrangement: an agent begins by exploring a room and recording objects' initial configurations. We then remove the agent and change the poses and states (e.g., open/closed) of some objects in the room. The agent must restore the initial configurations of all objects in the room. Our dataset, named RoomR, includes 6,000 distinct rearrangement settings involving 72 different object types in 120 scenes. Our experiments show that solving this challenging interactive task that involves navigation and object interaction is beyond the capabilities of the current state-of-the-art techniques for embodied tasks and we are still very far from achieving perfect performance on these types of tasks. The code and the dataset are available at: https://ai2thor.allenai.org/rearrangement
翻訳日:2021-03-31 14:38:13 公開日:2021-03-30
# 物理ベース微分可能深度センサシミュレーション

Physics-based Differentiable Depth Sensor Simulation ( http://arxiv.org/abs/2103.16563v1 )

ライセンス: Link先を確認
Benjamin Planche, Rajat Vikram Singh(参考訳) グラデーションに基づくアルゴリズムは現代のコンピュータビジョンやグラフィックアプリケーションにとって不可欠であり、学習に基づく最適化と逆問題を可能にする。 例えば、カラー画像のためのフォトリアリスティックな微分可能なレンダリングパイプラインは、2Dドメインと3Dドメインをマッピングするアプリケーションにとって非常に価値があることが証明されている。 しかし、私たちの知る限りでは、複雑な光輸送とステレオマッチングの問題をシミュレートする構造光深度センサーを応用し、これらの勾配に基づく手法を2.5D画像に拡張する努力は行われていない。 本稿では,物理に基づく3Dレンダリングとブロックマッチングアルゴリズムに基づいて,現実的な2.5Dスキャンを生成するための,エンドツーエンドの微分可能な新しいシミュレーションパイプラインを提案する。 各モジュールはw.r.tセンサーとシーンパラメータを区別することができる。例えば、提供されるスキャンで新しいデバイスのシミュレーションを自動的にチューニングしたり、より大きなコンピュータビジョンアプリケーションでパイプラインを3dから2.5dトランスフォーマーとして利用する。 様々な深度に基づく認識タスク(分類,ポーズ推定,セマンティックセグメンテーション)のための深度学習手法の訓練に応用して,本シミュレーションは実際のスキャンで得られたモデルの性能を大幅に向上させ,従来の静的シミュレーションや学習ベースドメイン適応方式と比較して合成深度データの忠実度と価値を実証する。

Gradient-based algorithms are crucial to modern computer-vision and graphics applications, enabling learning-based optimization and inverse problems. For example, photorealistic differentiable rendering pipelines for color images have been proven highly valuable to applications aiming to map 2D and 3D domains. However, to the best of our knowledge, no effort has been made so far towards extending these gradient-based methods to the generation of depth (2.5D) images, as simulating structured-light depth sensors implies solving complex light transport and stereo-matching problems. In this paper, we introduce a novel end-to-end differentiable simulation pipeline for the generation of realistic 2.5D scans, built on physics-based 3D rendering and custom block-matching algorithms. Each module can be differentiated w.r.t sensor and scene parameters; e.g., to automatically tune the simulation for new devices over some provided scans or to leverage the pipeline as a 3D-to-2.5D transformer within larger computer-vision applications. Applied to the training of deep-learning methods for various depth-based recognition tasks (classification, pose estimation, semantic segmentation), our simulation greatly improves the performance of the resulting models on real scans, thereby demonstrating the fidelity and value of its synthetic depth data compared to previous static simulations and learning-based domain adaptation schemes.
翻訳日:2021-03-31 14:37:57 公開日:2021-03-30
# 実行時環境特徴に基づく記憶内異常活動の早期検出

Early Detection of In-Memory Malicious Activity based on Run-time Environmental Features ( http://arxiv.org/abs/2103.16029v1 )

ライセンス: Link先を確認
Dorel Yaffe and Danny Hendler(参考訳) 近年,攻撃前にマルウェアの検出が困難になり,高度化が進んでいる。 マルウェア検出には多くのアプローチがありますが、悪用される前にマルウェアを正しく識別する上では欠点があります。 トレードオフは通常、偽陽性であり、オーバーヘッドを引き起こし、通常の使用を妨げ、マルウェアを実行させ、ターゲットにダメージを与えるリスクがある。 本稿では,保護されたプロセスのメモリ内の悪意のあるアクティビティを検出するために,ユニークな実行時ログのデータに基づいて,機械学習機能を活用することによって,悪質なアクティビティを検出するための新たなエンドツーエンドソリューションを提案する。 このソリューションはオーバーヘッドと偽陽性を低減し、デプロイをシンプルにする。 我々は,マルウェア研究,機械学習,オペレーティングシステム内部からの多分野知識を活用し,Windowsベースのシステムに対するソリューションを実装した。 実験の結果は有望な結果を得た。 将来の高度なマルウェアがそれをバイパスしようとするのを期待する一方で、我々のソリューションがそのような回避の試みを阻止するためにどのように拡張できるかについても議論する。

In recent years malware has become increasingly sophisticated and difficult to detect prior to exploitation. While there are plenty of approaches to malware detection, they all have shortcomings when it comes to identifying malware correctly prior to exploitation. The trade-off is usually between false positives, causing overhead, preventing normal usage and the risk of letting the malware execute and cause damage to the target. We present a novel end-to-end solution for in-memory malicious activity detection done prior to exploitation by leveraging machine learning capabilities based on data from unique run-time logs, which are carefully curated in order to detect malicious activity in the memory of protected processes. This solution achieves reduced overhead and false positives as well as deployment simplicity. We implemented our solution for Windows-based systems, employing multi disciplinary knowledge from malware research, machine learning, and operating system internals. Our experimental evaluation yielded promising results. As we expect future sophisticated malware may try to bypass it, we also discuss how our solution can be extended to thwart such bypassing attempts.
翻訳日:2021-03-31 14:36:27 公開日:2021-03-30
# FaiR-IoT: パーソナライズドIoTにおける人的多様性を損なうためのフェアネス認識型ヒューマン・イン・ザ・ループ強化学習

FaiR-IoT: Fairness-aware Human-in-the-Loop Reinforcement Learning for Harnessing Human Variability in Personalized IoT ( http://arxiv.org/abs/2103.16033v1 )

ライセンス: Link先を確認
Salma Elmalaki (University of California, Irvine)(参考訳) ウェアラブル技術の急速な成長により、複雑なヒューマンコンテキストの監視が実現可能となり、人間と環境に自律的に適応するために自然に進化する、ループ内IoTシステムの開発方法が確立される。 それでも、このようなパーソナライズされたIoTアプリケーションを設計する上での中心的な課題は、人間の多様性にある。 このような変動性は、異なる人間がIoTアプリケーションと相互作用するとき(人間間変動性)、同じ人間が同じIoTアプリケーションと相互作用するとき(人間間変動性)に時間とともに振る舞いを変え、同じ環境にいる他の人の振る舞いに影響される可能性があるという事実に由来する。 そこで本研究では,適応性と公平性を考慮したiotアプリケーションのための汎用強化学習フレームワークfair-iotを提案する。 フェアオットでは、3段階の強化学習エージェントが相互作用して人間の好みを継続的に学習し、システムのパフォーマンスと公平性を最大化し、イントラ、インター、マルチヒューマンの変動性を考慮に入れる。 提案手法は, (i) 人型運転支援システム, (ii) 人型運転支援システムの2つの応用について検証した。 これらの2つのアプリケーションで得られた結果は、フェアオットの汎用性とパーソナライズされたエクスペリエンスの提供能力を検証すると同時に、非パーソナライズドシステムと比較してシステムのパフォーマンスを40%~60%向上させ、マルチヒューマンシステムの公平性を1.5桁向上させた。

Thanks to the rapid growth in wearable technologies, monitoring complex human context becomes feasible, paving the way to develop human-in-the-loop IoT systems that naturally evolve to adapt to the human and environment state autonomously. Nevertheless, a central challenge in designing such personalized IoT applications arises from human variability. Such variability stems from the fact that different humans exhibit different behaviors when interacting with IoT applications (intra-human variability), the same human may change the behavior over time when interacting with the same IoT application (inter-human variability), and human behavior may be affected by the behaviors of other people in the same environment (multi-human variability). To that end, we propose FaiR-IoT, a general reinforcement learning-based framework for adaptive and fairness-aware human-in-the-loop IoT applications. In FaiR-IoT, three levels of reinforcement learning agents interact to continuously learn human preferences and maximize the system's performance and fairness while taking into account the intra-, inter-, and multi-human variability. We validate the proposed framework on two applications, namely (i) Human-in-the-Loop Automotive Advanced Driver Assistance Systems and (ii) Human-in-the-Loop Smart House. Results obtained on these two applications validate the generality of FaiR-IoT and its ability to provide a personalized experience while enhancing the system's performance by 40%-60% compared to non-personalized systems and enhancing the fairness of the multi-human systems by 1.5 orders of magnitude.
翻訳日:2021-03-31 14:36:09 公開日:2021-03-30
# 大規模ディープラーニングのためのグラフの自動分割

Automatic Graph Partitioning for Very Large-scale Deep Learning ( http://arxiv.org/abs/2103.16063v1 )

ライセンス: Link先を確認
Masahiro Tanaka, Kenjiro Taura, Toshihiro Hanawa, Kentaro Torisawa(参考訳) 本稿では,自動ハイブリッド並列処理のためのミドルウェアとしてrannc(rapid neural network connector)を提案する。 最近のディープラーニング研究では、T5とGPT-3が示すように、ニューラルネットワークモデルのサイズは増加を続けている。 このようなモデルは加速器装置のメモリに収まらないため、モデル並列化技術によって分割する必要がある。 さらに,大規模トレーニングデータのトレーニングを高速化するためには,モデルとデータ並列性の組み合わせ,すなわちハイブリッド並列性が必要である。 モデル並列性の仕様のないPyTorchのモデル記述が与えられた場合、RaNNCはモデルをサブコンポーネントのセットに自動的に分割し、(1)サブコンポーネントがデバイスメモリに適合するようにし、(2)サブコンポーネントの計算時間をバランスさせてパイプライン並列性のための高いトレーニングスループットを実現する。 実験では,RaNNCとMegatron-LM(ハイブリッド並列性)とGPipe(もともとモデル並列性のために提案されていたが,ハイブリッド並列性を実現するバージョンも存在する)の2つのフレームワークを比較した。 拡張されたBERTモデルの事前トレーニングでは、RaNNCはMegatron-LMの5倍のモデルをトレーニングし、同じモデルの事前トレーニングではRaNNCのトレーニングスループットはMegatron-LMと同等であった。 また,拡張BERTモデル事前学習(GPipe with hybrid parallelism)と拡張ResNetモデル(GPipe with model parallelism)の両方で,GPipeよりも優れたトレーニングスループットを実現した。 これらの結果は驚くべきもので、runncはモデルの記述を変更することなく自動的にモデルを分割するので、megatron-lmとgpipeはユーザーが手動でモデルの記述を書き直す必要がある。

This work proposes RaNNC (Rapid Neural Network Connector) as middleware for automatic hybrid parallelism. In recent deep learning research, as exemplified by T5 and GPT-3, the size of neural network models continues to grow. Since such models do not fit into the memory of accelerator devices, they need to be partitioned by model parallelism techniques. Moreover, to accelerate training for huge training data, we need a combination of model and data parallelisms, i.e., hybrid parallelism. Given a model description for PyTorch without any specification for model parallelism, RaNNC automatically partitions the model into a set of subcomponents so that (1) each subcomponent fits a device memory and (2) a high training throughput for pipeline parallelism is achieved by balancing the computation times of the subcomponents. In our experiments, we compared RaNNC with two popular frameworks, Megatron-LM (hybrid parallelism) and GPipe (originally proposed for model parallelism, but a version allowing hybrid parallelism also exists), for training models with increasingly greater numbers of parameters. In the pre-training of enlarged BERT models, RaNNC successfully trained models five times larger than those Megatron-LM could, and RaNNC's training throughputs were comparable to Megatron-LM's when pre-training the same models. RaNNC also achieved better training throughputs than GPipe on both the enlarged BERT model pre-training (GPipe with hybrid parallelism) and the enlarged ResNet models (GPipe with model parallelism) in all of the settings we tried. These results are remarkable, since RaNNC automatically partitions models without any modification to their descriptions; Megatron-LM and GPipe require users to manually rewrite the models' descriptions.
翻訳日:2021-03-31 14:35:38 公開日:2021-03-30
# セッションベースレコメンデーションのためのセッション対応線形項目モデル

Session-aware Linear Item-Item Models for Session-based Recommendation ( http://arxiv.org/abs/2103.16104v1 )

ライセンス: Link先を確認
Minijn Choi, jinhong Kim, Joonseok Lee, Hyunjung Shim and Jongwuk Lee(参考訳) セッションベースのレコメンデーションは、例えば、eコマースやマルチメディアストリーミングサービスでセッションで消費された前の項目のシーケンスから次の項目を予測することを目的としている。 具体的には、セッションデータには、セッションの一貫性とセッション内のアイテムへのシーケンシャルな依存性、繰り返しのアイテム消費、セッションのタイムラインなど、いくつかの特徴がある。 本稿では,セッションの包括的側面を考慮するための単純イット有効線形モデルを提案する。 私たちのモデルの包括的性質は、セッションベースのレコメンデーションの品質を改善するのに役立ちます。 さらに重要なのは、セッションデータの異なる視点を反映する汎用フレームワークを提供することだ。 さらに、我々のモデルはクローズドフォームのソリューションで解決できるので、非常にスケーラブルです。 実験の結果,実世界のデータセット上での様々な指標において,提案する線形モデルが競争的あるいは最先端的な性能を示すことがわかった。

Session-based recommendation aims at predicting the next item given a sequence of previous items consumed in the session, e.g., on e-commerce or multimedia streaming services. Specifically, session data exhibits some unique characteristics, i.e., session consistency and sequential dependency over items within the session, repeated item consumption, and session timeliness. In this paper, we propose simple-yet-effective linear models for considering the holistic aspects of the sessions. The comprehensive nature of our models helps improve the quality of session-based recommendation. More importantly, it provides a generalized framework for reflecting different perspectives of session data. Furthermore, since our models can be solved by closed-form solutions, they are highly scalable. Experimental results demonstrate that the proposed linear models show competitive or state-of-the-art performance in various metrics on several real-world datasets.
翻訳日:2021-03-31 14:35:09 公開日:2021-03-30
# rocksdbのためのマルチタスク学習によるベイズ最適化

High-Dimensional Bayesian Optimization with Multi-Task Learning for RocksDB ( http://arxiv.org/abs/2103.16267v1 )

ライセンス: Link先を確認
Sami Alabed, Eiko Yoneki(参考訳) rocksdbは、複数の設定で使用される汎用組み込みキーバリューストアである。 その汎用性は複雑なチューニング構成のコストが伴う。 本稿では,RocksDB IO操作のスループットを,様々な範囲の10パラメータを自動調整することで最大化する。 オフザシェルフオプティマイザは高次元問題空間と競合し、多数のトレーニングサンプルを必要とする。 本稿では,マルチタスクモデリングとクラスタリングによる次元化の2つの手法を提案する。 モデルに隣接する最適化を組み込むことで、モデルはより早く収束し、他のチューナーが見つけられなかった複雑な設定を見つけました。 このアプローチは計算の複雑さを増大させ、rocksdbの知識を通じて各サブゴールにパラメータを手動で割り当てることで軽減しました。 このモデルは、RocksDBのIOスループットを最大化するパラメータを見つけるために、標準的なベイズ最適化ループに組み込まれる。 提案手法は,Facebookのソーシャルグラフトラフィックのシミュレーションに比較してx1.3の改善を実現し,50ステップを要する他の最先端手法と比較して10の最適化ステップに収束した。

RocksDB is a general-purpose embedded key-value store used in multiple different settings. Its versatility comes at the cost of complex tuning configurations. This paper investigates maximizing the throughput of RocksDB IO operations by auto-tuning ten parameters of varying ranges. Off-the-shelf optimizers struggle with high-dimensional problem spaces and require a large number of training samples. We propose two techniques to tackle this problem: multi-task modeling and dimensionality reduction through clustering. By incorporating adjacent optimization in the model, the model converged faster and found complicated settings that other tuners could not find. This approach had an additional computational complexity overhead, which we mitigated by manually assigning parameters to each sub-goal through our knowledge of RocksDB. The model is then incorporated in a standard Bayesian Optimization loop to find parameters that maximize RocksDB's IO throughput. Our method achieved x1.3 improvement when benchmarked against a simulation of Facebook's social graph traffic, and converged in ten optimization steps compared to other state-of-the-art methods that required fifty steps.
翻訳日:2021-03-31 14:34:57 公開日:2021-03-30
# 電動トラックの動的バッテリー状態予測モデル:Liイオン電池のケーススタディ

A Dynamic Battery State-of-Health Forecasting Model for Electric Trucks: Li-Ion Batteries Case-Study ( http://arxiv.org/abs/2103.16280v1 )

ライセンス: Link先を確認
Matti Huotari, Shashank Arora, Avleen Malhi, Kary Fr\"amling(参考訳) 電気自動車の性能向上とメンテナンスコストの削減のために、バッテリーの健全性を監視し管理することが極めて重要である。 本稿では,電気トラックのliイオン電池がエネルギー源として利用される,機械学習による健康状態(soh)の予後について述べる。 本稿では,電池パックのSoHとサイクル寿命を計算する手法を提案する。 本研究では, 自己回帰型統合モデリング平均(arima)と教師付き学習(決定木をベース推定器とする袋)を提案し, フォークリフト操作のバッテリ可用性を最大化するためにバッテリsohを予測する。 電池予後予測のためのデータ駆動型手法の利用が増えているため,電池に関する事前情報が少ない状況下では,arimaの機能を実証する。 この作業のために、商用運用でフォークリフトから31個のリチウムイオン電池パックを収集した。 一方,ARIMAモデルでは,複数の電池からのデータ分析を行うための関連ツールが提供されている。 一方,BAGモデルでは,決定木をベース推定器として用いた教師付き学習モデルにより,1つのバッテリに大きな変動が存在する場合の予測精度が向上することが示唆された。

It is of extreme importance to monitor and manage the battery health to enhance the performance and decrease the maintenance cost of operating electric vehicles. This paper concerns the machine-learning-enabled state-of-health (SoH) prognosis for Li-ion batteries in electric trucks, where they are used as energy sources. The paper proposes methods to calculate SoH and cycle life for the battery packs. We propose autoregressive integrated modeling average (ARIMA) and supervised learning (bagging with decision tree as the base estimator; BAG) for forecasting the battery SoH in order to maximize the battery availability for forklift operations. As the use of data-driven methods for battery prognostics is increasing, we demonstrate the capabilities of ARIMA and under circumstances when there is little prior information available about the batteries. For this work, we had a unique data set of 31 lithium-ion battery packs from forklifts in commercial operations. On the one hand, results indicate that the developed ARIMA model provided relevant tools to analyze the data from several batteries. On the other hand, BAG model results suggest that the developed supervised learning model using decision trees as base estimator yields better forecast accuracy in the presence of large variation in data for one battery.
翻訳日:2021-03-31 14:34:40 公開日:2021-03-30
# ばらつきを低減したGreedy-GQ:有限時間解析と複雑度の改善

Greedy-GQ with Variance Reduction: Finite-time Analysis and Improved Complexity ( http://arxiv.org/abs/2103.16377v1 )

ライセンス: Link先を確認
Shaocong Ma, Ziyi Chen, Yi Zhou, Shaofeng Zou(参考訳) Greedy-GQは、最適制御のための値ベース強化学習(RL)アルゴリズムである。 近年、greedy-gqの有限時間解析は線形関数近似とマルコフサンプリングの下で開発され、このアルゴリズムは$\mathcal{o}(\epsilon^{-3})$の順にサンプル複雑性を持つ$\epsilon$-stationary pointを達成することが示されている。 このような高いサンプル複雑性はマルコフのサンプルによって引き起こされる大きな分散に起因する。 本稿では,オフポリシー最適制御のための分散低減型greedy-gq(vr-greedy-gq)アルゴリズムを提案する。 特に,SVRGに基づく分散低減手法を適用し,2つの時間スケール更新の確率的分散を低減する。 線形関数近似およびマルコフサンプリングの下でのVR-Greedy-GQの有限時間収束について検討し、アルゴリズムが元のGreedy-GQよりもはるかに小さなバイアスと分散誤差を達成することを示す。 特に、VR-Greedy-GQ が $\mathcal{O}(\epsilon^{-2})$ の順序で改良されたサンプル複雑性を実現することを証明している。 さらに,VR-Greedy-GQとGreedy-GQの様々なRL実験の性能を比較し,理論的な知見を裏付ける。

Greedy-GQ is a value-based reinforcement learning (RL) algorithm for optimal control. Recently, the finite-time analysis of Greedy-GQ has been developed under linear function approximation and Markovian sampling, and the algorithm is shown to achieve an $\epsilon$-stationary point with a sample complexity in the order of $\mathcal{O}(\epsilon^{-3})$. Such a high sample complexity is due to the large variance induced by the Markovian samples. In this paper, we propose a variance-reduced Greedy-GQ (VR-Greedy-GQ) algorithm for off-policy optimal control. In particular, the algorithm applies the SVRG-based variance reduction scheme to reduce the stochastic variance of the two time-scale updates. We study the finite-time convergence of VR-Greedy-GQ under linear function approximation and Markovian sampling and show that the algorithm achieves a much smaller bias and variance error than the original Greedy-GQ. In particular, we prove that VR-Greedy-GQ achieves an improved sample complexity that is in the order of $\mathcal{O}(\epsilon^{-2})$. We further compare the performance of VR-Greedy-GQ with that of Greedy-GQ in various RL experiments to corroborate our theoretical findings.
翻訳日:2021-03-31 14:34:19 公開日:2021-03-30
# 混合型マルチタスク学習とクロスタスク融合による環境音響解析

Environmental sound analysis with mixup based multitask learning and cross-task fusion ( http://arxiv.org/abs/2103.16079v1 )

ライセンス: Link先を確認
Weiping Zheng, Dacan Jiang, Gansen Zhao(参考訳) 環境音の分析は現在ますます注目を集めている。 この領域では、音響シーン分類と音響イベント分類が密接に関連している。 本書では,上記の課題に対して二段階法を提案する。 最初の段階では、両方のタスクを単一の畳み込みニューラルネットワークに分類するために、ミックスアップベースのMTLソリューションが提案されている。 人工マルチラベルサンプルは、既存のシングルタスクデータセットを使用して混在するMTLモデルのトレーニングに使用される。 得られたマルチタスクモデルは、音響シーンとイベントの両方を効果的に認識することができる。 再注釈や合成などの他の方法と比較して、ミックスアップベースのMTLは低コストで、柔軟で効果的である。 第2段階では、MTLモデルは、特定のタスクに対応する元のデータセットを使用して微調整されたシングルタスクモデルに修正される。 凍結層を慎重に制御することにより、タスク固有の高レベル特徴を融合させ、単一分類タスクの性能をさらに向上させる。 提案手法は,音響シーンと音響イベント分類の相補的特徴を確認した。 最後に、アンサンブル学習により強化し、tut音響シーン2017データセットで84.5パーセント、esc-50データセットで77.5パーセントの精度をそれぞれ達成した。

Environmental sound analysis is currently getting more and more attentions. In the domain, acoustic scene classification and acoustic event classification are two closely related tasks. In this letter, a two-stage method is proposed for the above tasks. In the first stage, a mixup based MTL solution is proposed to classify both tasks in one single convolutional neural network. Artificial multi-label samples are used in the training of the MTL model, which are mixed up using existing single-task datasets. The multi-task model obtained can effectively recognize both the acoustic scenes and events. Compared with other methods such as re-annotation or synthesis, the mixup based MTL is low-cost, flexible and effective. In the second stage, the MTL model is modified into a single-task model which is fine-tuned using the original dataset corresponding to the specific task. By controlling the frozen layers carefully, the task-specific high level features are fused and the performance of the single classification task is further improved. The proposed method has confirmed the complementary characteristics of acoustic scene and acoustic event classifications. Finally, enhanced by ensemble learning, a satisfactory accuracy of 84.5 percent on TUT acoustic scene 2017 dataset and an accuracy of 77.5 percent on ESC-50 dataset are achieved respectively.
翻訳日:2021-03-31 14:33:39 公開日:2021-03-30
# HapTable:タッチジェスチャーにオンラインの触覚フィードバックを提供するインタラクティブテーブルトップ

HapTable: An Interactive Tabletop Providing Online Haptic Feedback for Touch Gestures ( http://arxiv.org/abs/2103.16510v1 )

ライセンス: Link先を確認
Senem Ezgi Emgin, Amirreza Aghakhani, T. Metin Sezgin, and Cagatay Basdogan(参考訳) HapTableは、ユーザが自然なタッチジェスチャーでデジタル画像やオブジェクトと対話し、視覚的および触覚的なフィードバックを受け取ることができるマルチモーダル・インタラクティブなテーブルトップである。 本システムでは,ハンドポーズを赤外線カメラで登録し,サポートベクトルマシン(SVM)分類器を用いて手振りを分類する。 静的なジェスチャーと動的ジェスチャーの両方に対するリッチな触覚効果を示すために,我々は,表面容量タッチスクリーンであるHapTableのテーブルトップ面に,電気機械的および静電的アクチュエーター技術を統合した。 テーブルのエッジに4つのピエゾパッチを取り付け、静的なジェスチャーに対する振動フィードバックを表示しました。 この目的のために、周波数応答関数 (FRF) の形をしたテーブルトップの振動応答は、その表面に84の格子点を持つレーザードップラー振動計によって得られた。 これらのFRFを用いて、静的なジェスチャーのために、表面上の局所的なVibrotactileフィードバックを表示することができる。 動的ジェスチャーでは, 静電作動法を用いて, 導電層に電圧を印加することにより, 指皮膚とテーブル上表面の摩擦力を調節する。 本稿では、静的なアプリケーションと動的ジェスチャーのためのアプリケーションと、詳細なユーザ研究の2つの例を示す。 第一に、ユーザは、テーブルトップ表面に手を置き、その下を走行する振動刺激を感じることにより、風や水などの仮想流れの方向を検出する。 第2の例では、仮想ノブをテーブル上面上で回転させてメニューからアイテムを選択し、摩擦力フィードバックの形でノブの起伏や回転に対する抵抗を感じる。

We present HapTable; a multimodal interactive tabletop that allows users to interact with digital images and objects through natural touch gestures, and receive visual and haptic feedback accordingly. In our system, hand pose is registered by an infrared camera and hand gestures are classified using a Support Vector Machine (SVM) classifier. To display a rich set of haptic effects for both static and dynamic gestures, we integrated electromechanical and electrostatic actuation techniques effectively on tabletop surface of HapTable, which is a surface capacitive touch screen. We attached four piezo patches to the edges of tabletop to display vibrotactile feedback for static gestures. For this purpose, the vibration response of the tabletop, in the form of frequency response functions (FRFs), was obtained by a laser Doppler vibrometer for 84 grid points on its surface. Using these FRFs, it is possible to display localized vibrotactile feedback on the surface for static gestures. For dynamic gestures, we utilize the electrostatic actuation technique to modulate the frictional forces between finger skin and tabletop surface by applying voltage to its conductive layer. Here, we present two examples of such applications, one for static and one for dynamic gestures, along with detailed user studies. In the first one, user detects the direction of a virtual flow, such as that of wind or water, by putting their hand on the tabletop surface and feeling a vibrotactile stimulus traveling underneath it. In the second example, user rotates a virtual knob on the tabletop surface to select an item from a menu while feeling the knob's detents and resistance to rotation in the form of frictional haptic feedback.
翻訳日:2021-03-31 14:33:20 公開日:2021-03-30
# 生成型adversarial learningを用いた時間領域音声強調

Time-domain Speech Enhancement with Generative Adversarial Learning ( http://arxiv.org/abs/2103.16149v1 )

ライセンス: Link先を確認
Feiyang Xiao, Jian Guan, Qiuqiang Kong, Wenwu Wang(参考訳) 音声強調は、雑音の多い音声から高い可知性と品質の音声信号を得ることを目的としている。 最近の研究は、Conv-TasNetのような時間領域深層学習手法の優れた性能を示している。 しかし、これらの手法は、スケール不変信号-雑音比(SI-SNR)損失によって誘導される波形の任意のスケールによって劣化させることができる。 本稿では,時間領域における生成逆数ネットワーク(GAN)の拡張であるTSEGAN(Time-domain Speech Enhancement Generative Adversarial Network)という新しいフレームワークを提案する。 さらに,Metric GANの性能の理論的解析のための目的関数マッピングに基づく新しい手法を提案し,なぜWasserstein GANよりも優れているのかを説明する。 提案手法の有効性を実証し,Metric GANの利点を実証した。

Speech enhancement aims to obtain speech signals with high intelligibility and quality from noisy speech. Recent work has demonstrated the excellent performance of time-domain deep learning methods, such as Conv-TasNet. However, these methods can be degraded by the arbitrary scales of the waveform induced by the scale-invariant signal-to-noise ratio (SI-SNR) loss. This paper proposes a new framework called Time-domain Speech Enhancement Generative Adversarial Network (TSEGAN), which is an extension of the generative adversarial network (GAN) in time-domain with metric evaluation to mitigate the scaling problem, and provide model training stability, thus achieving performance improvement. In addition, we provide a new method based on objective function mapping for the theoretical analysis of the performance of Metric GAN, and explain why it is better than the Wasserstein GAN. Experiments conducted demonstrate the effectiveness of our proposed method, and illustrate the advantage of Metric GAN.
翻訳日:2021-03-31 14:32:17 公開日:2021-03-30
# lemgorl - 実世界のシミュレーションシナリオにおけるトラヒック信号制御のための強化学習エージェントをトレーニングするオープンソースベンチマークツール

LemgoRL: An open-source Benchmark Tool to Train Reinforcement Learning Agents for Traffic Signal Control in a real-world simulation scenario ( http://arxiv.org/abs/2103.16223v1 )

ライセンス: Link先を確認
Arthur M\"uller, Vishal Rangras, Georg Schnittker, Michael Waldmann, Maxim Friesen, Tobias Ferfers, Lukas Schreckenberg, Florian Hufen, J\"urgen Jasperneite, Marco Wiering(参考訳) 交差点交通信号制御装置(tsc)のサブ最適制御方針は混雑に寄与し、人間の健康や環境に悪影響を及ぼす。 交通信号制御のための強化学習(RL)は、より良い制御ポリシーを設計するための有望なアプローチであり、近年、かなりの研究関心を集めている。 しかし、この分野でのほとんどの作業は、交通シナリオの簡易シミュレーション環境を使用して、RTLベースのTSCを訓練した。 実世界の交通システムにRLをデプロイするには、単純化されたシミュレーション環境と実世界のアプリケーションとのギャップを埋める必要がある。 そこで我々は,ドイツの中規模都市Lemgoの現実的なシミュレーション環境において,RTLエージェントをTSCとして訓練するためのベンチマークツールであるLemgoRLを提案する。 現実的なシミュレーションモデルに加えて、LemgoRLはすべての規制および安全要件に準拠することを保証する信号ロジックユニットを含んでいる。 LemgoRLは、既知のOpenAIジムツールキットと同じインターフェースを提供し、既存の研究作業を簡単に展開できる。 我々のベンチマークツールは実世界のアプリケーションに向けたRLアルゴリズムの開発を促進する。 https://github.com/rl-ina/lemgorl.comでオープンソースツールとしてLemgoRLを提供しています。

Sub-optimal control policies in intersection traffic signal controllers (TSC) contribute to congestion and lead to negative effects on human health and the environment. Reinforcement learning (RL) for traffic signal control is a promising approach to design better control policies and has attracted considerable research interest in recent years. However, most work done in this area used simplified simulation environments of traffic scenarios to train RL-based TSC. To deploy RL in real-world traffic systems, the gap between simplified simulation environments and real-world applications has to be closed. Therefore, we propose LemgoRL, a benchmark tool to train RL agents as TSC in a realistic simulation environment of Lemgo, a medium-sized town in Germany. In addition to the realistic simulation model, LemgoRL encompasses a traffic signal logic unit that ensures compliance with all regulatory and safety requirements. LemgoRL offers the same interface as the well-known OpenAI gym toolkit to enable easy deployment in existing research work. Our benchmark tool drives the development of RL algorithms towards real-world applications. We provide LemgoRL as an open-source tool at https://github.com/rl-ina/lemgorl.
翻訳日:2021-03-31 14:32:01 公開日:2021-03-30
# 熱ニューラルネットワーク:状態空間機械学習による集中パラメータ熱モデリング

Thermal Neural Networks: Lumped-Parameter Thermal Modeling With State-Space Machine Learning ( http://arxiv.org/abs/2103.16323v1 )

ライセンス: Link先を確認
Wilhelm Kirchg\"assner, Oliver Wallscheid, Joachim B\"ocker(参考訳) 電力系統がよりコンパクトで強力になるにつれて、過負荷時の熱応力の関連性は絶え間なく増大すると予想される。 臨界温度がセンサベースで経済的に測定できない場合、熱モデルはそれらの未知の量を推定するのに役立つ。 電力系統の熱モデルは通常、リアルタイム能力と高い推定精度の両方を必要とする。 さらに、実装の容易さと運用までの時間がますます重要な役割を果たす。 本研究では,熱伝達型集中定数モデルと教師付き機械学習によるデータ駆動非線形関数近似という2つの知識を統合した熱ニューラルネットワーク(tnn)を提案する。 準線形パラメータ変動システムは、スケジューリング変数とシステム行列の関係を統計的かつ自動的に推測する経験的データのみから同定される。 同時に、TNNは状態空間の表現を通じて物理的に解釈可能な状態を持ち、ディープラーニングモデルに似た、エンドツーエンドのトレーニングが可能で、自動的な微分があり、その設計に材料、幾何学、専門家の知識を必要としない。 実験では、tnnが以前のホワイト/グレーまたはブラックボックスモデルよりも高い温度推定精度を達成し、平均二乗誤差は3.18〜\text{k}^2$、最悪の場合誤差は64のモデルパラメータで5.84〜\text{k}$である。

With electric power systems becoming more compact and increasingly powerful, the relevance of thermal stress especially during overload operation is expected to increase ceaselessly. Whenever critical temperatures cannot be measured economically on a sensor base, a thermal model lends itself to estimate those unknown quantities. Thermal models for electric power systems are usually required to be both, real-time capable and of high estimation accuracy. Moreover, ease of implementation and time to production play an increasingly important role. In this work, the thermal neural network (TNN) is introduced, which unifies both, consolidated knowledge in the form of heat-transfer-based lumped-parameter models, and data-driven nonlinear function approximation with supervised machine learning. A quasi-linear parameter-varying system is identified solely from empirical data, where relationships between scheduling variables and system matrices are inferred statistically and automatically. At the same time, a TNN has physically interpretable states through its state-space representation, is end-to-end trainable -- similar to deep learning models -- with automatic differentiation, and requires no material, geometry, nor expert knowledge for its design. Experiments on an electric motor data set show that a TNN achieves higher temperature estimation accuracies than previous white-/grey- or black-box models with a mean squared error of $3.18~\text{K}^2$ and a worst-case error of $5.84~\text{K}$ at 64 model parameters.
翻訳日:2021-03-31 14:31:44 公開日:2021-03-30
# (参考訳) グラフベースの顔影響分析:方法,応用,課題の概観

Graph-based Facial Affect Analysis: A Review of Methods, Applications and Challenges ( http://arxiv.org/abs/2103.15599v2 )

ライセンス: CC BY 4.0
Yang Liu, Jinzhao Zhou, Xin Li, Xingming Zhang and Guoying Zhao(参考訳) 視覚信号を用いた顔影響分析(FAA)は、人間とコンピュータの相互作用において重要なステップである。 従来の手法は主に、人間の影響に関連する外観や幾何学的特徴の抽出に重点を置いていた。 しかし、個々の顔の変化ごとに潜伏する意味情報を考慮せず、パフォーマンスと一般化が制限される。 最近のトレンドは、これらの意味関係をモデル化するためのグラフベースの表現を確立し、異なるfaaタスクにそれを活用するための学習フレームワークの開発を試みる。 本稿では,アルゴリズムの進化とその応用を含む,グラフに基づくFAAの包括的なレビューを行う。 まず,影響分析の背景知識,特にグラフの役割について紹介する。 次に、文学におけるグラフに基づく感情表現に広く使われるアプローチについて論じ、グラフ構築への傾向を示す。 グラフベースfaaにおける関係推論について,従来の手法や深層モデルを用いて既存の研究を分類し,最新のグラフニューラルネットワークに注目した。 FAAの標準的な問題に対する最先端の試験的な比較も要約される。 最後に、レビューを現在の課題と潜在的な方向性に拡張します。 私たちが知る限り、この調査はグラフベースのFAAの手法に関する最初の調査であり、この分野での今後の研究の基準となる。

Facial affect analysis (FAA) using visual signals is a key step in human-computer interactions. Previous methods mainly focus on extracting appearance and geometry features associated with human affects. However, they do not consider the latent semantic information among each individual facial change, leading to limited performance and generalization. Recent trends attempt to establish a graph-based representation to model these semantic relationships and develop learning framework to leverage it for different FAA tasks. In this paper, we provide a comprehensive review of graph-based FAA, including the evolution of algorithms and their applications. First, we introduce the background knowledge of affect analysis, especially on the role of graph. We then discuss approaches that are widely used for graph-based affective representation in literatures and show a trend towards graph construction. For the relational reasoning in graph-based FAA, we classify existing studies according to their usage of traditional methods or deep models, with a special emphasis on latest graph neural networks. Experimental comparisons of the state-of-the-art on standard FAA problems are also summarized. Finally, we extend the review to the current challenges and potential directions. As far as we know, this is the first survey of graph-based FAA methods, and our findings can serve as a reference point for future research in this field.
翻訳日:2021-03-31 13:42:25 公開日:2021-03-30
# (参考訳) フェデレーション機械学習におけるプライバシと信頼の再定義

Privacy and Trust Redefined in Federated Machine Learning ( http://arxiv.org/abs/2103.15753v2 )

ライセンス: CC BY 4.0
Pavlos Papadopoulos, Will Abramson, Adam J. Hall, Nikolaos Pitropakis and William J. Buchanan(参考訳) 従来の機械学習における一般的なプライバシー問題は、トレーニング手順のためにデータが開示される必要があることである。 医療記録などの機密性の高いデータを持つ状況では、この情報にアクセスすることは困難であり、しばしば禁止される。 幸いにも、トレーニングの計算を分散し、データプライバシを所有者に保証することで、このハードルを克服するために、プライバシ保護技術が開発されている。 複数の参加するエンティティへの計算の分散は、新しいプライバシーの複雑さとリスクをもたらす。 本稿では、参加者間の信頼された連携学習を容易にするプライバシー保護型分散ワークフローを提案する。 我々の概念実証は、hyperledgerプロジェクトaries/indy/ursaの下で開発された分散id技術を使用してインスタンス化された信頼フレームワークを定義する。 適切な当局から発行された検証済みクレデンシャルを所有するエンティティのみが、メンタルヘルスデータに関連する統合学習ワークフローに参加することが認可された、セキュアで認証された通信チャネルを確立することができる。

A common privacy issue in traditional machine learning is that data needs to be disclosed for the training procedures. In situations with highly sensitive data such as healthcare records, accessing this information is challenging and often prohibited. Luckily, privacy-preserving technologies have been developed to overcome this hurdle by distributing the computation of the training and ensuring the data privacy to their owners. The distribution of the computation to multiple participating entities introduces new privacy complications and risks. In this paper, we present a privacy-preserving decentralised workflow that facilitates trusted federated learning among participants. Our proof-of-concept defines a trust framework instantiated using decentralised identity technologies being developed under Hyperledger projects Aries/Indy/Ursa. Only entities in possession of Verifiable Credentials issued from the appropriate authorities are able to establish secure, authenticated communication channels authorised to participate in a federated learning workflow related to mental health data.
翻訳日:2021-03-31 12:30:52 公開日:2021-03-30
# 道に乗らないことの説明

Explaining the Road Not Taken ( http://arxiv.org/abs/2103.14973v2 )

ライセンス: Link先を確認
Hua Shen, Ting-Hao 'Kenneth' Huang(参考訳) ディープニューラルネットワークモデルの既存の解釈がユーザのニーズに効果的に反応するかどうかは不明だ。 本稿では,200以上の論文で使われている自然言語処理(NLP)に関する一般的な説明形式(特徴属性,決定規則,プローブなど)を要約し,XAI質問銀行で収集されたユーザ質問と比較する。 つまり、なぜモデルが1つの結果を選んだのか、よく定義され、非常に類似しているように見えるが、ほとんどのモデル解釈はこれらの疑問に答えられない。

It is unclear if existing interpretations of deep neural network models respond effectively to the needs of users. This paper summarizes the common forms of explanations (such as feature attribution, decision rules, or probes) used in over 200 recent papers about natural language processing (NLP), and compares them against user questions collected in the XAI Question Bank. We found that although users are interested in explanations for the road not taken -- namely, why the model chose one result and not a well-defined, seemly similar legitimate counterpart -- most model interpretations cannot answer these questions.
翻訳日:2021-03-31 12:03:56 公開日:2021-03-30
# SceneGraphFusion:RGB-Dシーケンスからのインクリメンタル3次元Scene Graph予測

SceneGraphFusion: Incremental 3D Scene Graph Prediction from RGB-D Sequences ( http://arxiv.org/abs/2103.14898v2 )

ライセンス: Link先を確認
Shun-Cheng Wu, Johanna Wald, Keisuke Tateno, Nassir Navab and Federico Tombari(参考訳) シーングラフはコンパクトで明示的な表現であり、様々な2次元シーン理解タスクでうまく使われている。 本研究は,RGB-Dフレームのシーケンスを与えられた3次元環境から意味シーングラフをインクリメンタルに構築する手法を提案する。 この目的のために,グラフニューラルネットワークを用いて,プリミティブシーンコンポーネントからポイントネットの特徴を集約する。 また,このようなインクリメンタル・リコンストラクションシナリオに存在する部分的および欠落グラフデータに適した新しい注意機構を提案する。 提案手法はシーンのサブマップ上で実行するように設計されているが、3dシーン全体への転送も行う。 実験により、3次元シーングラフの予測手法を高いマージンで上回り,その精度は35hzで動作中の他の3dセマンティクスおよびパンオプティカルセグメンテーション法と同等であることが判明した。

Scene graphs are a compact and explicit representation successfully used in a variety of 2D scene understanding tasks. This work proposes a method to incrementally build up semantic scene graphs from a 3D environment given a sequence of RGB-D frames. To this end, we aggregate PointNet features from primitive scene components by means of a graph neural network. We also propose a novel attention mechanism well suited for partial and missing graph data present in such an incremental reconstruction scenario. Although our proposed method is designed to run on submaps of the scene, we show it also transfers to entire 3D scenes. Experiments show that our approach outperforms 3D scene graph prediction methods by a large margin and its accuracy is on par with other 3D semantic and panoptic segmentation methods while running at 35 Hz.
翻訳日:2021-03-31 12:03:45 公開日:2021-03-30
# [再現性レポート]宝くじを引っ掛ける:全てのティケットが勝者になる

[Reproducibility Report] Rigging the Lottery: Making All Tickets Winners ( http://arxiv.org/abs/2103.15767v2 )

ライセンス: Link先を確認
Varun Sundar, Rajat Vadiraj Dwaraknath(参考訳) スパーストレーニングアルゴリズムである$\textit{RigL}$は、固定パラメータ数と計算予算に対して、既存の密度とスパーストレーニング技術(プルーニングなど)のパフォーマンスに適合または超過したスパースネットワークを直接トレーニングする。 We implement $\textit{RigL}$ from scratch in Pytorch and repeat its performance on CIFAR-10 in the report value 0.1%。 CIFAR-10/100とCIFAR-10/100では、一定のトレーニング予算が与えられた場合、$\textit{RigL}$は、既存の動的スパーストレーニングメソッドを超える。 より長いトレーニングによって、パフォーマンスは反復的なプルーニングと一致または超えることができ、トレーニングを通じて一定のFLOPを消費する。 また、すべての間隔、初期化ペアに対して$\textit{RigL}$'s hyper-parametersをチューニングするメリットはほとんどないことも示しています -- ハイパーパラメータの参照選択は、しばしば最適なパフォーマンスに近づきます。 元の論文を超えて、最適初期化スキームはトレーニング制約に依存することが判明した。 Erdos-Renyi-Kernel分布は固定パラメータ数に対してUniform分布より優れており、固定FLOP数では後者の方が優れている。 最後に、2つの初期化スキーム間の性能ギャップを補うことができるが、計算コストは増大する。

$\textit{RigL}$, a sparse training algorithm, claims to directly train sparse networks that match or exceed the performance of existing dense-to-sparse training techniques (such as pruning) for a fixed parameter count and compute budget. We implement $\textit{RigL}$ from scratch in Pytorch and reproduce its performance on CIFAR-10 within 0.1% of the reported value. On both CIFAR-10/100, the central claim holds -- given a fixed training budget, $\textit{RigL}$ surpasses existing dynamic-sparse training methods over a range of target sparsities. By training longer, the performance can match or exceed iterative pruning, while consuming constant FLOPs throughout training. We also show that there is little benefit in tuning $\textit{RigL}$'s hyper-parameters for every sparsity, initialization pair -- the reference choice of hyperparameters is often close to optimal performance. Going beyond the original paper, we find that the optimal initialization scheme depends on the training constraint. While the Erdos-Renyi-Kernel distribution outperforms the Uniform distribution for a fixed parameter count, for a fixed FLOP count, the latter performs better. Finally, redistributing layer-wise sparsity while training can bridge the performance gap between the two initialization schemes, but increases computational cost.
翻訳日:2021-03-31 12:03:30 公開日:2021-03-30
# 実世界領域一般化のための適応的手法

Adaptive Methods for Real-World Domain Generalization ( http://arxiv.org/abs/2103.15796v2 )

ライセンス: Link先を確認
Abhimanyu Dubey, Vignesh Ramanathan, Alex Pentland and Dhruv Mahajan(参考訳) 不変なアプローチは、訓練で使用されるものと異なるデータ分布の推論を行うことを目的として、領域一般化の問題に取り組むことに成功している。 本研究では,未確認テストサンプル自体から,ドメイン情報を活用できるかどうかを検討する。 a) 教師なしのトレーニング例から識別的ドメイン埋め込みを最初に学習し、b) このドメイン埋め込みを補足情報として使ってドメイン適応モデルを構築し、入力とドメインの両方を考慮した予測を行う。 unseenドメインの場合、このメソッドはドメイン埋め込みを構築するのに、ラベルのないテスト例をほんの少しだけ使うだけです。 これにより、任意の未知領域に対する適応的分類が可能になる。 提案手法は,各種領域一般化ベンチマークにおける最先端性能を実現する。 さらに,実世界初の大規模ドメイン一般化ベンチマークであるgeo-yfccを導入し,40以上のトレーニング,7つの検証,15のテストドメインの1.1mサンプルを含む。 既存のアプローチは、このデータセットにスケールしないか、あるいはすべてのトレーニングドメインからのデータの統一に関するモデルのトレーニングの単純なベースラインに比べてパフォーマンスが低いかを示す。 対照的に、私たちのアプローチは大きな改善を達成します。

Invariant approaches have been remarkably successful in tackling the problem of domain generalization, where the objective is to perform inference on data distributions different from those used in training. In our work, we investigate whether it is possible to leverage domain information from the unseen test samples themselves. We propose a domain-adaptive approach consisting of two steps: a) we first learn a discriminative domain embedding from unsupervised training examples, and b) use this domain embedding as supplementary information to build a domain-adaptive model, that takes both the input as well as its domain into account while making predictions. For unseen domains, our method simply uses few unlabelled test examples to construct the domain embedding. This enables adaptive classification on any unseen domain. Our approach achieves state-of-the-art performance on various domain generalization benchmarks. In addition, we introduce the first real-world, large-scale domain generalization benchmark, Geo-YFCC, containing 1.1M samples over 40 training, 7 validation, and 15 test domains, orders of magnitude larger than prior work. We show that the existing approaches either do not scale to this dataset or underperform compared to the simple baseline of training a model on the union of data from all training domains. In contrast, our approach achieves a significant improvement.
翻訳日:2021-03-31 12:03:03 公開日:2021-03-30
# カテゴリー表現学習: 形態学は必要なすべて

Categorical Representation Learning: Morphism is All You Need ( http://arxiv.org/abs/2103.14770v2 )

ライセンス: Link先を確認
Artan Sheshmani and Yizhuang You(参考訳) 分類表現学習のための構成を提供し,「$\textit{categorifier}$」の基礎を紹介する。 表現学習の中心的なテーマは、$\textbf{everything to vector}$というアイデアである。 データセット $\mathcal{S}$ のすべてのオブジェクトは、$\mathbb{R}^n$ のベクトルとして $\textit{encoding map}$ $E: \mathcal{O}bj(\mathcal{S})\to\mathbb{R}^n$ で表現できる。 さらに重要なことに、すべての射は行列 $E: \mathcal{H}om(\mathcal{S})\to\mathbb{R}^{n}_{n}$ として表すことができる。 符号化マップ $e$ は一般的に$\textit{deep neural network}$でモデル化される。 表現学習の目標は、エンコーディングマップをトレーニングするためにデータセット上の適切なタスクを設計することである(様々なタスクのパフォーマンスを普遍的に最適化すれば、エンコーディングが最適となると仮定する)。 しかし、後者はまだ$\textit{set-theoretic}$アプローチである。 現在の記事の目標は,$\textit{category-theoretic}$アプローチを通じて,表現学習を新たなレベルに促進することにある。 概念実証として,我々の技術を用いたテキストトランスレータの例を示し,我々の分類学習モデルが現在のディープラーニングモデルよりも17倍優れていることを示す。 現在の記事の内容は、先日の米国特許提案(パテント出願番号:63110906)の一部である。

We provide a construction for categorical representation learning and introduce the foundations of "$\textit{categorifier}$". The central theme in representation learning is the idea of $\textbf{everything to vector}$. Every object in a dataset $\mathcal{S}$ can be represented as a vector in $\mathbb{R}^n$ by an $\textit{encoding map}$ $E: \mathcal{O}bj(\mathcal{S})\to\mathbb{R}^n$. More importantly, every morphism can be represented as a matrix $E: \mathcal{H}om(\mathcal{S})\to\mathbb{R}^{n}_{n}$. The encoding map $E$ is generally modeled by a $\textit{deep neural network}$. The goal of representation learning is to design appropriate tasks on the dataset to train the encoding map (assuming that an encoding is optimal if it universally optimizes the performance on various tasks). However, the latter is still a $\textit{set-theoretic}$ approach. The goal of the current article is to promote the representation learning to a new level via a $\textit{category-theoretic}$ approach. As a proof of concept, we provide an example of a text translator equipped with our technology, showing that our categorical learning model outperforms the current deep learning models by 17 times. The content of the current article is part of the recent US patent proposal (patent application number: 63110906).
翻訳日:2021-03-31 12:02:44 公開日:2021-03-30
# ニューラルネットワークによる制御性能評価による拡張状態オブザーバのチューニング

Tuning of extended state observer with neural network-based control performance assessment ( http://arxiv.org/abs/2103.15516v2 )

ライセンス: Link先を確認
Piotr Kicki, Krzysztof {\L}akomy, Ki Myung Brian Lee(参考訳) 拡張状態オブザーバ(ESO)は、堅牢なオブザーバベースの制御システムの固有の要素であり、システムダイナミクスに対する障害の影響を推定することができる。 ESOパラメータの適切なチューニングは、推定量の良好な品質を確保し、ロバストな制御構造全体の性能に影響を与えるために必要である。 本稿では,ユーザが選択した品質基準,例えば制御と観測誤差と制御信号の特定特徴とを優先順位付けできるニューラルネットワーク(nn)ベースのチューニング手法を提案する。 設計されたNNは、制御システムの性能を正確に評価し、ユーザ定義のコスト関数にほぼ最適なソリューションを提供するESOパラメータのセットを返す。 提案手法は, 1つの閉ループ実験から推定した状態を用いて, ほぼ最適ESOゲインを数秒以内に生成する。

The extended state observer (ESO) is an inherent element of robust observer-based control systems that allows estimating the impact of disturbance on system dynamics. Proper tuning of ESO parameters is necessary to ensure a good quality of estimated quantities and impacts the overall performance of the robust control structure. In this paper, we propose a neural network (NN) based tuning procedure that allows the user to prioritize between selected quality criteria such as the control and observation errors and the specified features of the control signal. The designed NN provides an accurate assessment of the control system performance and returns a set of ESO parameters that delivers a near-optimal solution to the user-defined cost function. The proposed tuning procedure, using an estimated state from the single closed-loop experiment produces near-optimal ESO gains within seconds.
翻訳日:2021-03-31 12:02:19 公開日:2021-03-30
# サブクアドラティックステップにおける非スムート経験的リスク最小化と確率凸最適化

Private Non-smooth Empirical Risk Minimization and Stochastic Convex Optimization in Subquadratic Steps ( http://arxiv.org/abs/2103.15352v2 )

ライセンス: Link先を確認
Janardhan Kulkarni, Yin Tat Lee, Daogao Liu(参考訳) 非スムース凸関数に対する微分プライベートな経験的リスク最小化 (erm) と確率的凸最適化 (sco) の問題について検討した。 我々は、過剰な経験的リスクと過剰な人口減少に(ほぼ)最適の限界を得る。 より正確には、我々の微分プライベートアルゴリズムは、最適な過剰な経験的リスクに対して$O(\frac{N^{3/2}}{d^{1/8}}+ \frac{N^2}{d})$勾配クエリを必要とする。 これは、$d$ が超定数であるとき、非スムースの場合に対する最初のサブクアドラティックアルゴリズムである。 直接の用途として、feldmanらによる反復的局在化アプローチを用いる。 fkt20} では、確率的凸最適化問題に対する最適余剰人口損失を、$o(\min\{n^{5/4}d^{1/8},\frac{n^{3/2}}{d^{1/8}}\})$勾配クエリで達成する。 私たちの仕事は、Bassilyらによって提起された問題の解決に向けて前進します。 a bfgt20} — プライベートEMMとSCOのための最初のアルゴリズムを、サブクアッドラティックステップで提供する。 asiとalは独立している。 \cite{afkt21} は私的なERMとSCOのための他のアルゴリズムを準4次ステップで提供した。

We study the differentially private Empirical Risk Minimization (ERM) and Stochastic Convex Optimization (SCO) problems for non-smooth convex functions. We get a (nearly) optimal bound on the excess empirical risk and excess population loss with subquadratic gradient complexity. More precisely, our differentially private algorithm requires $O(\frac{N^{3/2}}{d^{1/8}}+ \frac{N^2}{d})$ gradient queries for optimal excess empirical risk, which is achieved with the help of subsampling and smoothing the function via convolution. This is the first subquadratic algorithm for the non-smooth case when $d$ is super constant. As a direct application, using the iterative localization approach of Feldman et al. \cite{fkt20}, we achieve the optimal excess population loss for stochastic convex optimization problem, with $O(\min\{N^{5/4}d^{1/8},\frac{ N^{3/2}}{d^{1/8}}\})$ gradient queries. Our work makes progress towards resolving a question raised by Bassily et al. \cite{bfgt20}, giving first algorithms for private ERM and SCO with subquadratic steps. We note that independently Asi et al. \cite{afkt21} gave other algorithms for private ERM and SCO with subquadratic steps.
翻訳日:2021-03-31 12:02:06 公開日:2021-03-30
# elvet --ニューラルネットワークに基づく微分方程式と変分問題解法

Elvet -- a neural network-based differential equation and variational problem solver ( http://arxiv.org/abs/2103.14575v2 )

ライセンス: Link先を確認
Jack Y. Araz, Juan Carlos Criado and Michael Spannowsky(参考訳) 機械学習手法を用いて微分方程式と変分問題を解くためのPythonパッケージElvetを提案する。 エルヴェットは任意の初期条件と境界条件を持つ任意の結合常微分方程式や偏微分方程式を扱うことができる。 制約を課しながら、複数の変数の関数の集合に依存する任意の関数を最小化することもできる。 これらの問題の解決策は、望ましい関数を生成するためにトレーニングされたニューラルネットワークとして表現される。

We present Elvet, a Python package for solving differential equations and variational problems using machine learning methods. Elvet can deal with any system of coupled ordinary or partial differential equations with arbitrary initial and boundary conditions. It can also minimize any functional that depends on a collection of functions of several variables while imposing constraints on them. The solution to any of these problems is represented as a neural network trained to produce the desired function.
翻訳日:2021-03-31 12:01:38 公開日:2021-03-30
# 転送学習方式におけるビデオ物体検出のためのFew-Shot Learning

Few-Shot Learning for Video Object Detection in a Transfer-Learning Scheme ( http://arxiv.org/abs/2103.14724v2 )

ライセンス: Link先を確認
Zhongjie Yu, Gaoang Wang, Lin Chen, Sebastian Raschka, and Jiebo Luo(参考訳) 静止画像と異なり、ビデオには、より優れた物体検出のための時間的および空間的な情報が含まれている。 しかしながら、教師付きディープラーニングに必要なバウンディングボックスアノテーションを備えた多数のビデオを取得するには、コストがかかる。 人間はビデオクリップを数本だけ見ることで、新しい物体の認識を容易に学べるが、ディープラーニングは通常、過度な適合に苦しむ。 いくつかのラベル付きビデオクリップからビデオオブジェクト検出器を効果的に学習するには、どうすればよいのか? 本稿では,ビデオオブジェクト検出における数ショット学習の新たな課題について検討する。 まず,画像Net VIDデータセットから得られた画像オブジェクト検出のための新しいベンチマークデータセットを作成する。 我々は,多数のベースクラスオブジェクトに対して映像物体検出を効果的に訓練するトランスファー学習フレームワークと,ノベルクラスオブジェクトのいくつかのビデオクリップを用いる。 この枠組みに基づく2つの手法 (Joint と Freeze) の結果を, 設計した弱い, 強いベースデータセット上で解析することにより, 不完全性や過度な問題を明らかにする。 Thawと呼ばれるシンプルで効果的な方法が自然に開発され、2つの問題を交換し、我々の分析を検証する。 異なるシナリオで提案したベンチマークデータセットに対する大規模な実験は、この新たな数発のビデオオブジェクト検出問題において、新しい分析の有効性を示す。

Different from static images, videos contain additional temporal and spatial information for better object detection. However, it is costly to obtain a large number of videos with bounding box annotations that are required for supervised deep learning. Although humans can easily learn to recognize new objects by watching only a few video clips, deep learning usually suffers from overfitting. This leads to an important question: how to effectively learn a video object detector from only a few labeled video clips? In this paper, we study the new problem of few-shot learning for video object detection. We first define the few-shot setting and create a new benchmark dataset for few-shot video object detection derived from the widely used ImageNet VID dataset. We employ a transfer-learning framework to effectively train the video object detector on a large number of base-class objects and a few video clips of novel-class objects. By analyzing the results of two methods under this framework (Joint and Freeze) on our designed weak and strong base datasets, we reveal insufficiency and overfitting problems. A simple but effective method, called Thaw, is naturally developed to trade off the two problems and validate our analysis. Extensive experiments on our proposed benchmark datasets with different scenarios demonstrate the effectiveness of our novel analysis in this new few-shot video object detection problem.
翻訳日:2021-03-31 12:01:31 公開日:2021-03-30
# ビジュアルギャップのブリッジ:ワイドレンジ画像のブレンド

Bridging the Visual Gap: Wide-Range Image Blending ( http://arxiv.org/abs/2103.15149v2 )

ライセンス: Link先を確認
Chia-Ni Lu, Ya-Chu Chang and Wei-Chen Chiu(参考訳) 本稿では,2つの異なる入力画像をパノラマにスムーズに融合し,その中間領域に新たな画像コンテンツを生成することを目的とした,画像処理における新たな問題シナリオである広域画像ブレンディングを提案する。 このような問題は、画像インペインティング、画像アウトペインティング、画像ブレンドといったトピックと密接に関連しているが、これらのトピックからのアプローチは、いずれも簡単に対処できない。 広帯域画像ブレンディングを実現するための効果的な深層学習モデルを導入し、新しい双方向コンテンツトランスファーモジュールを提案し、リカレントニューラルネットワークを介して中間領域の特徴表現の条件付き予測を行う。 ブレンディング時の空間的・意味的整合性を確保することに加えて,提案手法では,視覚的パノラマの質を向上させるために,文脈的注意機構と対角学習方式も採用している。 提案手法は,広視野画像ブレンディングのための視覚的に魅力的な結果を生成するだけでなく,最先端画像インパインティングおよびアウトパインティングアプローチ上に構築された複数のベースラインに対して優れた性能を提供することができることを実験的に実証した。

In this paper we propose a new problem scenario in image processing, wide-range image blending, which aims to smoothly merge two different input photos into a panorama by generating novel image content for the intermediate region between them. Although such problem is closely related to the topics of image inpainting, image outpainting, and image blending, none of the approaches from these topics is able to easily address it. We introduce an effective deep-learning model to realize wide-range image blending, where a novel Bidirectional Content Transfer module is proposed to perform the conditional prediction for the feature representation of the intermediate region via recurrent neural networks. In addition to ensuring the spatial and semantic consistency during the blending, we also adopt the contextual attention mechanism as well as the adversarial learning scheme in our proposed method for improving the visual quality of the resultant panorama. We experimentally demonstrate that our proposed method is not only able to produce visually appealing results for wide-range image blending, but also able to provide superior performance with respect to several baselines built upon the state-of-the-art image inpainting and outpainting approaches.
翻訳日:2021-03-31 12:01:10 公開日:2021-03-30
# 低忠実度エンド・ツー・エンドビデオエンコーダによる時間行動定位学習

Low-Fidelity End-to-End Video Encoder Pre-training for Temporal Action Localization ( http://arxiv.org/abs/2103.15233v2 )

ライセンス: Link先を確認
Mengmeng Xu, Juan-Manuel Perez-Rua, Xiatian Zhu, Bernard Ghanem, Brais Martinez(参考訳) 時間的行動ローカライゼーション(TAL)は、ビデオ理解における基本的な課題である。 既存のtalメソッドは、アクション分類の監督を通じてビデオエンコーダを事前トレーニングする。 これにより、ビデオエンコーダ -- アクションの分類のために訓練されるが、talで使用される -- のタスク不一致問題が発生する。 直感的には、エンドツーエンドのモデル最適化はよいソリューションです。 しかし、長い未処理ビデオを処理するのに計算コストがかかるため、gpuメモリの制約を受けるtalでは動作できない。 本稿では,ローファイダリティ・エンド・ツー・エンド(LoFi)ビデオエンコーダの事前学習手法を導入することで,この問題を解決する。 ビデオエンコーダのエンド・ツー・エンド最適化が中間ハードウェア予算のメモリ条件下で操作可能となるように,時間的・空間的・時空間的・時空間的分解能の面でのミニバッチ構成の削減を提案する。 これにより、TAL損失監視からビデオエンコーダを逆向きに流し、タスクの不一致の問題を良好に解決し、より効果的な特徴表現を提供する。 広範な実験により,lofiプリトレーニング手法が既存のtal法の性能を著しく向上させることが示された。 軽量なResNet18ベースのビデオエンコーダを1つのRGBストリームで使用しても、当社の手法は高価な光フローを持つ2ストリームのResNet50ベースの代替手段をはるかに上回ります。

Temporal action localization (TAL) is a fundamental yet challenging task in video understanding. Existing TAL methods rely on pre-training a video encoder through action classification supervision. This results in a task discrepancy problem for the video encoder -- trained for action classification, but used for TAL. Intuitively, end-to-end model optimization is a good solution. However, this is not operable for TAL subject to the GPU memory constraints, due to the prohibitive computational cost in processing long untrimmed videos. In this paper, we resolve this challenge by introducing a novel low-fidelity end-to-end (LoFi) video encoder pre-training method. Instead of always using the full training configurations for TAL learning, we propose to reduce the mini-batch composition in terms of temporal, spatial or spatio-temporal resolution so that end-to-end optimization for the video encoder becomes operable under the memory conditions of a mid-range hardware budget. Crucially, this enables the gradient to flow backward through the video encoder from a TAL loss supervision, favourably solving the task discrepancy problem and providing more effective feature representations. Extensive experiments show that the proposed LoFi pre-training approach can significantly enhance the performance of existing TAL methods. Encouragingly, even with a lightweight ResNet18 based video encoder in a single RGB stream, our method surpasses two-stream ResNet50 based alternatives with expensive optical flow, often by a good margin.
翻訳日:2021-03-31 12:00:50 公開日:2021-03-30
# ゼロショット逆量子化

Zero-shot Adversarial Quantization ( http://arxiv.org/abs/2103.15263v2 )

ライセンス: Link先を確認
Yuang Liu, Wei Zhang, Jun Wang(参考訳) モデル量子化は、ディープニューラルネットワークを圧縮し、推論を加速する有望なアプローチであり、モバイルおよびエッジデバイスにデプロイすることができる。 全精度モデルの性能を維持するため、既存の量子化手法のほとんどは、トレーニングデータセットがアクセス可能であると仮定して、微調整量子化モデルに焦点を当てている。 しかし、データプライバシやセキュリティ上の問題により、実際の状況ではこの仮定が満たされない場合があるため、量子化手法は適用できない。 訓練データにアクセスすることなくゼロショートモデル量子化を実現するため、微調整のために、後学習量子化法またはバッチ正規化統計誘導データ生成法を採用する。 しかし、両者とも、多少経験的すぎ、超低精度量子化のトレーニングサポートが欠如しているため、必然的に低パフォーマンスを被るが、後者は元のデータの特異性を完全に復元することはできず、多種多様なデータ生成において効率が低い。 本稿では,ゼロショット逆量子化 (zero-shot adversarial quantization, zaq) フレームワークを提案する。 これは、生成元が情報的で多様なデータ例を合成し、量子化されたモデルを逆学習方式で最適化する、新しい2段階の離散モデルによって達成される。 3つの基本的なビジョンタスクについて広範な実験を行い,強いゼロショットベースラインよりもzaqが優れていることを示し,その主成分の有効性を検証する。 コードは <https://git.io/Jqc0y> で入手できる。

Model quantization is a promising approach to compress deep neural networks and accelerate inference, making it possible to be deployed on mobile and edge devices. To retain the high performance of full-precision models, most existing quantization methods focus on fine-tuning quantized model by assuming training datasets are accessible. However, this assumption sometimes is not satisfied in real situations due to data privacy and security issues, thereby making these quantization methods not applicable. To achieve zero-short model quantization without accessing training data, a tiny number of quantization methods adopt either post-training quantization or batch normalization statistics-guided data generation for fine-tuning. However, both of them inevitably suffer from low performance, since the former is a little too empirical and lacks training support for ultra-low precision quantization, while the latter could not fully restore the peculiarities of original data and is often low efficient for diverse data generation. To address the above issues, we propose a zero-shot adversarial quantization (ZAQ) framework, facilitating effective discrepancy estimation and knowledge transfer from a full-precision model to its quantized model. This is achieved by a novel two-level discrepancy modeling to drive a generator to synthesize informative and diverse data examples to optimize the quantized model in an adversarial learning fashion. We conduct extensive experiments on three fundamental vision tasks, demonstrating the superiority of ZAQ over the strong zero-shot baselines and validating the effectiveness of its main components. Code is available at <https://git.io/Jqc0y>.
翻訳日:2021-03-31 12:00:22 公開日:2021-03-30
# 3次元人文推定におけるコンテキストモデリング:統一的視点

Context Modeling in 3D Human Pose Estimation: A Unified Perspective ( http://arxiv.org/abs/2103.15507v2 )

ライセンス: Link先を確認
Xiaoxuan Ma, Jiajun Su, Chunyu Wang, Hai Ci and Yizhou Wang(参考訳) 一つの画像から3Dのポーズを推定することは、複数の3D関節構成が同じ2D投影を持つため、深刻な曖昧さに悩まされる。 最先端の手法は、曖昧さを減らすために、画像構造モデル(PSM)やグラフニューラルネットワーク(GNN)のようなコンテキストモデリング手法に依存することが多い。 しかし、厳格に並べて比較する研究は行われていない。 そこで、まず、PSMとGNNの両方が特殊なケースであるコンテキストモデリングの一般的な公式を示す。 両手法を比較して, GNN の終末訓練法と PSM の辺縁長制約が相補的要因であることを確認した。 これらの利点を組み合わせるために,深層ネットワークにおける軟部肢長制約を強制する注意機構に基づくContextPoseを提案する。 このアプローチは、不条理な3dポーズ推定を不正確な四肢の長さで得る機会を効果的に削減し、2つのベンチマークデータセットで最先端の結果を得る。 さらに、深層ネットワークに四肢長制約を導入することにより、より優れた一般化性能を実現することができる。

Estimating 3D human pose from a single image suffers from severe ambiguity since multiple 3D joint configurations may have the same 2D projection. The state-of-the-art methods often rely on context modeling methods such as pictorial structure model (PSM) or graph neural network (GNN) to reduce ambiguity. However, there is no study that rigorously compares them side by side. So we first present a general formula for context modeling in which both PSM and GNN are its special cases. By comparing the two methods, we found that the end-to-end training scheme in GNN and the limb length constraints in PSM are two complementary factors to improve results. To combine their advantages, we propose ContextPose based on attention mechanism that allows enforcing soft limb length constraints in a deep network. The approach effectively reduces the chance of getting absurd 3D pose estimates with incorrect limb lengths and achieves state-of-the-art results on two benchmark datasets. More importantly, the introduction of limb length constraints into deep networks enables the approach to achieve much better generalization performance.
翻訳日:2021-03-31 11:59:55 公開日:2021-03-30
# trafficqa: トラフィックイベントに対するビデオ推論のための質問応答ベンチマークと効率的なネットワーク

TrafficQA: A Question Answering Benchmark and an Efficient Network for Video Reasoning over Traffic Events ( http://arxiv.org/abs/2103.15538v2 )

ライセンス: Link先を確認
Li Xu, He Huang and Jun Liu(参考訳) ビデオにおける交通イベントの認識と推論は、インテリジェントな輸送、アシスト運転、自動運転車に幅広く応用されている重要なタスクである。 本稿では,複雑な交通シナリオにおける因果推論と事象理解モデルの認知能力を評価するために,収集した10,080件のビデオと注釈付き62,535件のQAペアに基づいて,ビデオQAの形式を取り入れた新しいデータセットであるTraffic Question Answering(Traffic Question Answering)を作成する。 具体的には,様々な交通シナリオに対応する難解な推論タスクを6つ提案し,様々な種類の複雑かつ実用的な交通イベントに対する推論能力を評価する。 さらに,計算効率が高く信頼性の高いビデオ推論を実現するために,動的推論による新しい視覚ネットワークであるEclipseを提案する。 本手法は計算コストを大幅に削減しながら優れた性能を実現することを示す。 プロジェクトページ:https://github.com/SUTDCV/SUTD-TrafficQA。

Traffic event cognition and reasoning in videos is an important task that has a wide range of applications in intelligent transportation, assisted driving, and autonomous vehicles. In this paper, we create a novel dataset, TrafficQA (Traffic Question Answering), which takes the form of video QA based on the collected 10,080 in-the-wild videos and annotated 62,535 QA pairs, for benchmarking the cognitive capability of causal inference and event understanding models in complex traffic scenarios. Specifically, we propose 6 challenging reasoning tasks corresponding to various traffic scenarios, so as to evaluate the reasoning capability over different kinds of complex yet practical traffic events. Moreover, we propose Eclipse, a novel Efficient glimpse network via dynamic inference, in order to achieve computation-efficient and reliable video reasoning. The experiments show that our method achieves superior performance while reducing the computation cost significantly. The project page: https://github.com/SUTDCV/SUTD-TrafficQA.
翻訳日:2021-03-31 11:59:36 公開日:2021-03-30
# GNeRF:Posed Cameraを使わずにGANベースのニューラルラジアンスフィールド

GNeRF: GAN-based Neural Radiance Field without Posed Camera ( http://arxiv.org/abs/2103.15606v2 )

ライセンス: Link先を確認
Quan Meng, Anpei Chen, Haimin Luo, Minye Wu, Hao Su, Lan Xu, Xuming He, Jingyi Yu(参考訳) gnerf(generative adversarial networks (gan) とニューラルネットワークのラジアンスフィールド再構成を融合したフレームワークで、未知の、あるいはランダムに初期化されたカメラポーズを持つ複雑なシナリオについて紹介する。 最近のNeRFベースの進歩は、目覚ましいリアルなノベルビューの合成で人気を博している。 しかし、ほとんどが正確なカメラポーズの推定に大きく依存しているが、比較的短いカメラ軌跡を持つほぼ前方のシーンで未知のカメラポーズを最適化し、粗いカメラポーズの初期化を必要とする最近の方法はほとんどない。 異なることに、GNeRFは複雑な外付けシナリオに対してランダムに初期化されたポーズのみを使用する。 本稿では,新しい2段階のエンドツーエンドフレームワークを提案する。 第1フェーズでは、粗いカメラポーズと放射場を共同最適化するための新しい領域にGANを取り入れ、第2フェーズでは、さらなる光損失でそれらを洗練する。 ハイブリッドおよび反復最適化方式を用いて局所最小化を克服する。 様々な合成シーンと自然シーンの大規模な実験は、GNeRFの有効性を実証している。 より印象的なことに、我々のアプローチは、これまで非常に難しいと見なされた繰り返しパターンや低テクスチャを持つシーンにおいて、ベースラインよりも優れたのです。

We introduce GNeRF, a framework to marry Generative Adversarial Networks (GAN) with Neural Radiance Field reconstruction for the complex scenarios with unknown and even randomly initialized camera poses. Recent NeRF-based advances have gained popularity for remarkable realistic novel view synthesis. However, most of them heavily rely on accurate camera poses estimation, while few recent methods can only optimize the unknown camera poses in roughly forward-facing scenes with relatively short camera trajectories and require rough camera poses initialization. Differently, our GNeRF only utilizes randomly initialized poses for complex outside-in scenarios. We propose a novel two-phases end-to-end framework. The first phase takes the use of GANs into the new realm for coarse camera poses and radiance fields jointly optimization, while the second phase refines them with additional photometric loss. We overcome local minima using a hybrid and iterative optimization scheme. Extensive experiments on a variety of synthetic and natural scenes demonstrate the effectiveness of GNeRF. More impressively, our approach outperforms the baselines favorably in those scenes with repeated patterns or even low textures that are regarded as extremely challenging before.
翻訳日:2021-03-31 11:59:17 公開日:2021-03-30
# LASER:効率的な強化学習のための潜在行動空間の学習

LASER: Learning a Latent Action Space for Efficient Reinforcement Learning ( http://arxiv.org/abs/2103.15793v2 )

ライセンス: Link先を確認
Arthur Allshire, Roberto Mart\'in-Mart\'in, Charles Lin, Shawn Manuel, Silvio Savarese, Animesh Garg(参考訳) 操作タスクを学習するプロセスは、探索に使用されるアクション空間に強く依存する:誤ったアクション空間に置かれ、強化学習でタスクを解くことは、劇的に非効率になる。 さらに、同じタスクファミリーの類似したタスクやインスタンスは、最も効果的なアクション空間に潜在多様体制約を課す:タスクファミリーは、ロボットのアクション空間全体の多様体のアクションで最もよく解ける。 これらの知見を組み合わせることで、効率的な強化学習のための潜在行動空間学習法であるLASERを提案する。 レーザーは学習問題をアクション空間学習と新しいアクション空間におけるポリシー学習という2つのサブ問題に分解する。 同様の操作タスクインスタンスのデータを、オフラインのエキスパートから、あるいはポリシー学習中にオンラインから活用し、これらのトラジェクタから元のアクション空間から潜在アクション空間へのマッピングを学ぶ。 RAERは変動エンコーダ・デコーダモデルとして訓練され、生の動作を非絡み合いの潜在行動空間にマッピングし、動作再構成と潜伏空間の動的一貫性を維持する。 シミュレーションにおける2つの接触の多いロボットタスクに対するLASERの評価を行い、生成した潜在行動空間におけるポリシー学習の利点を分析した。 学習した行動空間多様体の可視化により,動作空間のアライメントが向上し,タスク空間へのアライメントが向上するのに対し,サンプル効率は元の行動空間と比較して向上した。 詳細: https://www.pair.toronto.edu/laser

The process of learning a manipulation task depends strongly on the action space used for exploration: posed in the incorrect action space, solving a task with reinforcement learning can be drastically inefficient. Additionally, similar tasks or instances of the same task family impose latent manifold constraints on the most effective action space: the task family can be best solved with actions in a manifold of the entire action space of the robot. Combining these insights we present LASER, a method to learn latent action spaces for efficient reinforcement learning. LASER factorizes the learning problem into two sub-problems, namely action space learning and policy learning in the new action space. It leverages data from similar manipulation task instances, either from an offline expert or online during policy learning, and learns from these trajectories a mapping from the original to a latent action space. LASER is trained as a variational encoder-decoder model to map raw actions into a disentangled latent action space while maintaining action reconstruction and latent space dynamic consistency. We evaluate LASER on two contact-rich robotic tasks in simulation, and analyze the benefit of policy learning in the generated latent action space. We show improved sample efficiency compared to the original action space from better alignment of the action space to the task space, as we observe with visualizations of the learned action space manifold. Additional details: https://www.pair.toronto.edu/laser
翻訳日:2021-03-31 11:58:57 公開日:2021-03-30
# アドホックマイクロホンアレイを用いた音声認識のためのスパースマックスに基づくチャネル選択

Scaling sparsemax based channel selection for speech recognition with ad-hoc microphone arrays ( http://arxiv.org/abs/2103.15305v2 )

ライセンス: Link先を確認
Junqi Chen, Xiao-Lei Zhang(参考訳) 近年,アドホックマイクロホンアレイを用いた音声認識が注目されている。 アドホックマイクロホンアレイではチャネル選択が重要な問題であることが知られているが、特に大規模アドホックマイクロホンアレイを用いた音声認識では、この話題はまだ検討されていないようである。 そこで本研究では,大規模アドホックマイクロホンアレイを用いた音声認識におけるチャネル選択問題に対するScaling Sparsemaxアルゴリズムを提案する。 具体的には,マルチチャネル・エンド・ツー・エンド音声認識システムのストリームアテンション機構における従来のソフトマックス演算子を,ノイズチャネルのチャネル重みをゼロにすることでチャネル選択を行うスパースマックスに置き換える。 sparsemaxは多数のチャネルの重みをゼロに厳しく罰するので、非常にノイズの多いチャネルの重みをゼロにすることで、チャネルを軽度に罰するスケールsparsemaxを提案する。 コンバータ音声認識アーキテクチャの下で30以上のチャネルからなるアドホックマイクロホンアレイの実験結果から,提案したScaling Sparsemaxは,シミュレーションデータセット上ではSoftmaxよりも30%以上,半現実データセットでは20%以上,一致したチャネル番号と不一致のチャネル番号を持つテストシナリオにおいてワードエラー率が得られることがわかった。

Recently, speech recognition with ad-hoc microphone arrays has received much attention. It is known that channel selection is an important problem of ad-hoc microphone arrays, however, this topic seems far from explored in speech recognition yet, particularly with a large-scale ad-hoc microphone array. To address this problem, we propose a Scaling Sparsemax algorithm for the channel selection problem of the speech recognition with large-scale ad-hoc microphone arrays. Specifically, we first replace the conventional Softmax operator in the stream attention mechanism of a multichannel end-to-end speech recognition system with Sparsemax, which conducts channel selection by forcing the channel weights of noisy channels to zero. Because Sparsemax punishes the weights of many channels to zero harshly, we propose Scaling Sparsemax which punishes the channels mildly by setting the weights of very noisy channels to zero only. Experimental results with ad-hoc microphone arrays of over 30 channels under the conformer speech recognition architecture show that the proposed Scaling Sparsemax yields a word error rate of over 30% lower than Softmax on simulation data sets, and over 20% lower on semi-real data sets, in test scenarios with both matched and mismatched channel numbers.
翻訳日:2021-03-31 11:58:19 公開日:2021-03-30