このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210317となっている論文です。

PDF登録状況(公開日: 20210317)

TitleAuthorsAbstract論文公表日・翻訳日
# SESS:半超高速3Dオブジェクト検出

SESS: Self-Ensembling Semi-Supervised 3D Object Detection ( http://arxiv.org/abs/1912.11803v3 )

ライセンス: Link先を確認
Na Zhao, Tat-Seng Chua, Gim Hee Lee(参考訳) 既存のポイントクラウドベースの3Dオブジェクト検出手法の性能は、大規模で高品質な3Dアノテーションに大きく依存している。 しかし、このようなアノテーションは、しばしば退屈で収集が難しい。 半教師付き学習は、データアノテーションの問題を軽減する良い方法であるが、3dオブジェクト検出では、ほとんど未調査のままである。 近年,半教師付き画像分類作業における自己認識技術の成功に触発されて,自己認識型半教師付き3Dオブジェクト検出フレームワークであるSESSを提案する。 具体的には,ラベルなしデータと新しい未発見データに対するネットワークの一般化を促進するために,徹底的な摂動スキームを設計する。 さらに,2つの予測された3次元オブジェクト提案間の整合性を強制し,オブジェクトの構造と意味的不変性の学習を容易にする3つの整合性損失を提案する。 SUN RGB-D と ScanNet のデータセットで行った大規模な実験は、誘導性およびトランスダクティブな半教師付き3Dオブジェクト検出における SESS の有効性を示した。 我々のSESSは、50%のラベル付きデータを用いて、最先端の完全教師付き手法と比較して、競争性能を達成する。 私たちのコードはhttps://github.com/Na-Z/sess.comで利用可能です。

The performance of existing point cloud-based 3D object detection methods heavily relies on large-scale high-quality 3D annotations. However, such annotations are often tedious and expensive to collect. Semi-supervised learning is a good alternative to mitigate the data annotation issue, but has remained largely unexplored in 3D object detection. Inspired by the recent success of self-ensembling technique in semi-supervised image classification task, we propose SESS, a self-ensembling semi-supervised 3D object detection framework. Specifically, we design a thorough perturbation scheme to enhance generalization of the network on unlabeled and new unseen data. Furthermore, we propose three consistency losses to enforce the consistency between two sets of predicted 3D object proposals, to facilitate the learning of structure and semantic invariances of objects. Extensive experiments conducted on SUN RGB-D and ScanNet datasets demonstrate the effectiveness of SESS in both inductive and transductive semi-supervised 3D object detection. Our SESS achieves competitive performance compared to the state-of-the-art fully-supervised method by using only 50% labeled data. Our code is available at https://github.com/Na-Z/sess.
翻訳日:2023-06-10 08:31:34 公開日:2021-03-17
# 境界駆動スピン鎖における巨大磁気抵抗効果

Giant Magnetoresistance in Boundary-Driven Spin Chains ( http://arxiv.org/abs/2004.00639v2 )

ライセンス: Link先を確認
Kasper Poulsen and Nikolaj T. Zinner(参考訳) 固体物理学において、巨大磁気抵抗は外部磁場による電気抵抗の大きな変化である。 ここで、強結合スピンの弱い相互作用層からなるスピン鎖において、巨大磁気抵抗が可能となることを示す。 これは4つのスピンの最小の系まで全ての系サイズで見られる。 効果を駆動するメカニズムはエネルギースペクトルのミスマッチであり、結果としてスピン励起は層の境界に反映される。 このミスマッチ、すなわち電流は、巨大な磁気抵抗をもたらす外部磁場によって制御できる。 強結合スピンのエネルギー準位に基づいて、磁場の影響下でのスピン輸送の挙動を決定するための簡単な規則を提示する。

In solid state physics, giant magnetoresistance is the large change in electrical resistance due to an external magnetic field. Here we show that giant magnetoresistance is possible in a spin chain composed of weakly interacting layers of strongly coupled spins. This is found for all system sizes even down to a minimal system of four spins. The mechanism driving the effect is a mismatch in the energy spectrum resulting in spin excitations being reflected at the boundaries between layers. This mismatch, and thus the current, can be controlled by external magnetic fields resulting in giant magnetoresistance. A simple rule for determining the behavior of the spin transport under the influence of a magnetic field is presented based on the energy levels of the strongly coupled spins.
翻訳日:2023-05-27 05:22:05 公開日:2021-03-17
# 格子フロッケ系における非分散波パケット

Non-dispersing wave packets in lattice Floquet systems ( http://arxiv.org/abs/2005.08993v2 )

ライセンス: Link先を確認
Zhoushen Huang, Aashish Clerk, and Ivar Martin(参考訳) 一次元の変換的不変なタイトな結合鎖において、非分散波パケットは一般に、空間的不均一な駆動を用いてフロケ固有状態(あるいはその線形結合)として実現可能である。 これらのウェーブパケットの反復時間(いわゆる「ラウンドトリップ」時間)は、駆動周期のst/r$(ここで$s,r$は共素整数)で合理的な割合でロックインする。 異なる$s/r$のウェーブパケットは同じドライブで共存できるが、速度は異なる。 空間コンパクト性は無限に (s/r=1$) か長時間 (s/r \neq 1$) である。 離散時間変換対称性は、フロッケ時間結晶を想起させる$s \neq 1$で明確に破られる。 さらに、厳密な線形エネルギースペクトルから来るようなウェーブパケットの自由伝播など、ターゲットFloquetマイクロモーションを再現するためのドライブプロトコルをリバースエンジニアリングする方法を示す。 様々な制御スキームが量子情報科学におけるフロケット工学の新しい道を開いた。

We show that in a one-dimensional translationally invariant tight binding chain, non-dispersing wave packets can in general be realized as Floquet eigenstates -- or linear combinations thereof -- using a spatially inhomogeneous drive, which can be as simple as modulation on a single site. The recurrence time of these wave packets (their "round trip" time) locks in at rational ratios $sT/r$ of the driving period $T$, where $s,r$ are co-prime integers. Wave packets of different $s/r$ can co-exist under the same drive, yet travel at different speeds. They retain their spatial compactness either infinitely ($s/r=1$) or over long time ($s/r \neq 1$). Discrete time translation symmetry is manifestly broken for $s \neq 1$, reminiscent of Floquet time crystals. We further demonstrate how to reverse-engineer a drive protocol to reproduce a target Floquet micromotion, such as the free propagation of a wave packet, as if coming from a strictly linear energy spectrum. The variety of control schemes open up a new avenue for Floquet engineering in quantum information sciences.
翻訳日:2023-05-19 11:04:23 公開日:2021-03-17
# 量子レジェンドル・フェンシェル変換

Quantum Legendre-Fenchel Transform ( http://arxiv.org/abs/2006.04823v3 )

ライセンス: Link先を確認
David Sutter, Giacomo Nannicini, Tobias Sutter, Stefan Woerner(参考訳) 離散レジェンドル・フェンシェル変換を計算するために量子アルゴリズムを提案する。 n$ポイントで評価された凸関数にアクセスすると、アルゴリズムは変換空間内の$k$ポイントで評価される対応する離散レジェンドル・フェンシェル変換の量子力学的表現を出力する。 双対空間の固定された正則離散化に対して、期待されるランニング時間は$O(\sqrt{\kappa}\,\mathrm{polylog}(N,K))$で、$\kappa$は函数の条件数である。 双対空間の離散化が適応的に $k$ と $n$ で選択されると、実行時間は $o(\mathrm{polylog}(n))$ となる。 提案したアルゴリズムを多変量設定に拡張し、クエリの複雑さの低い境界を証明し、我々の量子アルゴリズムが多変数因子に最適であることを示す。 量子アルゴリズムは、$\kappa=1$の多変量関数に対して、ルジャンドル・フェンシェル変換の量子力学的表現を、どの古典的アルゴリズムよりも指数関数的に速いk$で計算する。

We present a quantum algorithm to compute the discrete Legendre-Fenchel transform. Given access to a convex function evaluated at $N$ points, the algorithm outputs a quantum-mechanical representation of its corresponding discrete Legendre-Fenchel transform evaluated at $K$ points in the transformed space. For a fixed regular discretization of the dual space the expected running time scales as $O(\sqrt{\kappa}\,\mathrm{polylog}(N,K))$, where $\kappa$ is the condition number of the function. If the discretization of the dual space is chosen adaptively with $K$ equal to $N$, the running time reduces to $O(\mathrm{polylog}(N))$. We explain how to extend the presented algorithm to the multivariate setting and prove lower bounds for the query complexity, showing that our quantum algorithm is optimal up to polylogarithmic factors. For multivariate functions with $\kappa=1$, the quantum algorithm computes a quantum-mechanical representation of the Legendre-Fenchel transform at $K$ points exponentially faster than any classical algorithm can compute it at a single point.
翻訳日:2023-05-16 07:00:04 公開日:2021-03-17
# 自律時間確率集中:時計工場と熱力学の第二法則

Autonomous Temporal Probability Concentration: Clockworks and the Second Law of Thermodynamics ( http://arxiv.org/abs/2007.01307v2 )

ライセンス: Link先を確認
Emanuel Schwarzhans, Maximilian P. E. Lock, Paul Erker, Nicolai Friis, Marcus Huber(参考訳) 熱力学によれば、エントロピーの必然的な増加は過去を未来と区別することができる。 この観点から、あらゆる時計は、このエントロピーの流れを追跡できる不可逆過程を組み込まなければならない。 さらに、時計の積分部分はクロックワーク、すなわち、このエントロピーフローを駆動する不可逆事象を時間的に集中させることを目的としたシステムであり、純粋にランダムな平衡事象をカウントするよりも、結果のクロックのクイックの精度を高める。 本稿では,温度勾配に基づく時計作業の本質的目標として,自律時間確率集中のタスクを定式化する。 この枠組みでは,その複雑さを増大させることで,完璧なクロックワークを任意に近似できることを示す。 さらに、多くのキュービットから構成される理想的なクロックワークモデルと、時間の測定に究極的な熱力学的限界を示す不可逆的な崩壊機構を組み合わせる。

According to thermodynamics, the inevitable increase of entropy allows the past to be distinguished from the future. From this perspective, any clock must incorporate an irreversible process that allows this flow of entropy to be tracked. In addition, an integral part of a clock is a clockwork, that is, a system whose purpose is to temporally concentrate the irreversible events that drive this entropic flow, thereby increasing the accuracy of the resulting clock ticks compared to counting purely random equilibration events. In this article, we formalise the task of autonomous temporal probability concentration as the inherent goal of any clockwork based on thermal gradients. Within this framework, we show that a perfect clockwork can be approximated arbitrarily well by increasing its complexity. Furthermore, we combine such an idealised clockwork model, comprised of many qubits, with an irreversible decay mechanism to showcase the ultimate thermodynamic limits to the measurement of time.
翻訳日:2023-05-11 20:38:27 公開日:2021-03-17
# 重ね合わせの資源理論:状態変換

Resource theory of superposition: State transformations ( http://arxiv.org/abs/2008.07811v2 )

ライセンス: Link先を確認
Gokhan Torun, H\"useyin Talha \c{S}enya\c{s}a, Ali Yildiz(参考訳) 有限個の線形独立状態の組み合わせは、古典的に考えられない方法で重ね合わせを形成する。 ここでは、重ね合わせの資源理論の道具を用いて、重ね合わせ状態変換のクラスに対する条件を与える。 これらの条件は基底状態のスカラー積に厳密に依存し、正規直交基底の極限における量子コヒーレンスに対するよく知られたメジャー化条件に還元される。 d$-次元系のさらに重ね合わせフリーな変換のために、重ね合わせ状態の決定論的変換のための重ね合わせフリー作用素を提供する。 有限基底状態の線形独立性は、これらの状態のスカラー積の関係を必要とする。 この情報を使って、ある範囲のスカラー積に対して有効である最大重ね合わせ状態を決定する。 特に、$d\geq3$の場合、純粋な重ね合わせのない状態のスカラー積は、最大資源状態を求める上でより大きな位置にあることを示す。 具体例は様々である。

A combination of a finite number of linear independent states forms superposition in a way that cannot be conceived classically. Here, using the tools of resource theory of superposition, we give the conditions for a class of superposition state transformations. These conditions strictly depend on the scalar products of the basis states and reduce to the well-known majorization condition for quantum coherence in the limit of orthonormal basis. To further superposition-free transformations of $d$-dimensional systems, we provide superposition-free operators for a deterministic transformation of superposition states. The linear independence of a finite number of basis states requires a relation between the scalar products of these states. With this information in hand, we determine the maximal superposition states which are valid over a certain range of scalar products. Notably, we show that, for $d\geq3$, scalar products of the pure superposition-free states have a greater place in seeking maximally resourceful states. Various explicit examples illustrate our findings.
翻訳日:2023-05-05 22:55:46 公開日:2021-03-17
# ダブルツイン原子ビームによる2粒子干渉

Two-Particle Interference with Double Twin-Atom Beams ( http://arxiv.org/abs/2009.13438v3 )

ライセンス: Link先を確認
F. Borselli, M. Maiw\"oger, T. Zhang, P. Haslinger, V. Mukherjee, A.Negretti, S. Montangero, T. Calarco, I. Mazets, M. Bonneau and J. Schmiedmayer(参考訳) 外部自由度のみを含むベル状態を形成する2つの対のモータと2つの空間モードで特徴付けられる相関原子対の源を実証する。 相関した2粒子放出モードにおいて, 最大10dBの強い数スキューズを観測することにより, 放射される原子ビームの状態を特徴付ける。 さらに、放射された原子に対する正規化第2次相関関数 $g^{(2)}$ における真の2粒子干渉を示す。

We demonstrate a source for correlated pairs of atoms characterized by two opposite momenta and two spatial modes forming a Bell state only involving external degrees of freedom. We characterize the state of the emitted atom beams by observing strong number squeezing up to -10 dB in the correlated two-particle modes of emission. We furthermore demonstrate genuine two-particle interference in the normalized second-order correlation function $g^{(2)}$ relative to the emitted atoms.
翻訳日:2023-04-30 18:40:04 公開日:2021-03-17
# twitterにおけるフォロートレイン乱用によるパルチザンエコーチェンバーの製作

The Manufacture of Partisan Echo Chambers by Follow Train Abuse on Twitter ( http://arxiv.org/abs/2010.13691v2 )

ライセンス: Link先を確認
Christopher Torres-Lugo, Kai-Cheng Yang, Filippo Menczer(参考訳) 証拠の増大は、パルチザンエコーチャンバーの出現や誤情報の拡散など、ソーシャルメディアの重大な脆弱性を示している。 これらの脆弱性は、Twitter上でいわゆる"フォロートレイン"(follow train)と呼ばれる悪質な行為によって増幅されている。 大規模超パルチザン鉄道網の系統解析を初めて実施する。 フォロートレインによって大きく促進されたアカウントは、日々のフォローアップの成長の中央値6倍の増加から利益を得ている。 これは、アクティブアカウントの密集したコアの周りに階層的に組織された高度にクラスター化されたエコーチャンバーの形成を触媒する。 列車アカウントはまた、プラットフォームポリシーに違反している他の行動にも関与している: 不正な自動アカウントによる活動の証拠と異常な内容の削除、また、低クレーディビリティや陰謀的ソースからの有害なコンテンツの増幅。 一部の列車アカウントは長年アクティブであり、プラットフォームがこの種の虐待にもっと注意を払う必要があることを示唆している。

A growing body of evidence points to critical vulnerabilities of social media, such as the emergence of partisan echo chambers and the viral spread of misinformation. We show that these vulnerabilities are amplified by abusive behaviors associated with so-called "follow trains" on Twitter, in which long lists of like-minded accounts are mentioned for others to follow. We present the first systematic analysis of a large U.S. hyper-partisan train network. We observe an artificial inflation of influence: accounts heavily promoted by follow trains profit from a median six-fold increase in daily follower growth. This catalyzes the formation of highly clustered echo chambers, hierarchically organized around a dense core of active accounts. Train accounts also engage in other behaviors that violate platform policies: we find evidence of activity by inauthentic automated accounts and abnormal content deletion, as well as amplification of toxic content from low-credibility and conspiratorial sources. Some train accounts have been active for years, suggesting that platforms need to pay greater attention to this kind of abuse.
翻訳日:2023-04-27 11:19:32 公開日:2021-03-17
# 凸動的プログラミングのための量子スピードアップ

Quantum speedups for convex dynamic programming ( http://arxiv.org/abs/2011.11654v2 )

ライセンス: Link先を確認
David Sutter, Giacomo Nannicini, Tobias Sutter, Stefan Woerner(参考訳) 凸値関数を用いて動的プログラミング問題を解く量子アルゴリズムを提案する。 $d$-dimensional state space of size $N$の線形離散時間系に対して、提案アルゴリズムは、時間$O(T \gamma^{dT}\mathrm{polylog}(N,(T/\varepsilon)^{d}))$で値関数の量子力学的表現を出力し、$\varepsilon$は解の精度、$T$は時間地平線、$\gamma$はコスト関数の条件数に依存する問題固有のパラメータである。 これにより、任意の固定状態における値関数を$O(T \gamma^{dT}\sqrt{N}\,\mathrm{polylog}(N,(T/\varepsilon)^{d}))$で評価することができ、対応する最適動作は凸プログラムを解くことで回復することができる。 アルゴリズムを適用可能な最適化問題のクラスには,強固な確率動的プログラムが含まれる。 最後に,連続状態空間が$\gamma=1$のいくつかの動的プログラムに対する古典的ベルマンのアプローチと比較して,アルゴリズムが二次的なスピードアップ(多相因子まで)を得ることを示す。

We present a quantum algorithm to solve dynamic programming problems with convex value functions. For linear discrete-time systems with a $d$-dimensional state space of size $N$, the proposed algorithm outputs a quantum-mechanical representation of the value function in time $O(T \gamma^{dT}\mathrm{polylog}(N,(T/\varepsilon)^{d}))$, where $\varepsilon$ is the accuracy of the solution, $T$ is the time horizon, and $\gamma$ is a problem-specific parameter depending on the condition numbers of the cost functions. This allows us to evaluate the value function at any fixed state in time $O(T \gamma^{dT}\sqrt{N}\,\mathrm{polylog}(N,(T/\varepsilon)^{d}))$, and the corresponding optimal action can be recovered by solving a convex program. The class of optimization problems to which our algorithm can be applied includes provably hard stochastic dynamic programs. Finally, we show that the algorithm obtains a quadratic speedup (up to polylogarithmic factors) compared to the classical Bellman approach on some dynamic programs with continuous state space that have $\gamma=1$.
翻訳日:2023-04-23 08:50:57 公開日:2021-03-17
# 確率微分方程式の変分量子シミュレーション

Variational quantum simulations of stochastic differential equations ( http://arxiv.org/abs/2012.04429v2 )

ライセンス: Link先を確認
Kenji Kubo, Yuya O. Nakagawa, Suguru Endo, Shota Nagayama(参考訳) 不確定現象を確率変数の時間発展としてモデル化する確率微分方程式(sdes)は、金融などの自然科学や社会科学の様々な分野で活用されている。 SDEは解析的解をほとんど認めず、実際的な応用において膨大な古典計算資源で数値的に解かなければならないため、計算を加速するために量子計算を使うという強い動機がある。 本稿では,変分量子シミュレーション(VQS)に基づくSDEを解く量子古典ハイブリッドアルゴリズムを提案する。 まず,対象のsdeを離散化を伴う三項木構造で近似し,sde変数の確率分布を埋め込みた量子状態の時間発展として定式化する。 我々は、量子状態の振幅に直接確率分布を埋め込み、前回の研究では振幅の確率分布の平方根を行った。 我々の埋め込みにより、一般的なsdesの状態の時間変化をシミュレートする単純な量子回路を構築することができる。 また、SDE変数の期待値を計算するためのスキームを開発し、SDE変数の期待値評価に量子スピードアップを実現できるかどうかについて議論する。 最後に,数種類の確率過程をシミュレートしてアルゴリズムを数値的に検証する。 提案手法は量子コンピュータ上でSDEをシミュレーションするための新しい方向を提供する。

Stochastic differential equations (SDEs), which models uncertain phenomena as the time evolution of random variables, are exploited in various fields of natural and social sciences such as finance. Since SDEs rarely admit analytical solutions and must usually be solved numerically with huge classical-computational resources in practical applications, there is strong motivation to use quantum computation to accelerate the calculation. Here, we propose a quantum-classical hybrid algorithm that solves SDEs based on variational quantum simulation (VQS). We first approximate the target SDE by a trinomial tree structure with discretization and then formulate it as the time-evolution of a quantum state embedding the probability distributions of the SDE variables. We embed the probability distribution directly in the amplitudes of the quantum state while the previous studies did the square-root of the probability distribution in the amplitudes. Our embedding enables us to construct simple quantum circuits that simulate the time-evolution of the state for general SDEs. We also develop a scheme to compute the expectation values of the SDE variables and discuss whether our scheme can achieve quantum speed-up for the expectation-value evaluations of the SDE variables. Finally, we numerically validate our algorithm by simulating several types of stochastic processes. Our proposal provides a new direction for simulating SDEs on quantum computers.
翻訳日:2023-04-21 18:23:21 公開日:2021-03-17
# 擬似畳み込み遠隔計算

Counterfactual Concealed Telecomputation ( http://arxiv.org/abs/2012.04948v4 )

ライセンス: Link先を確認
Fakhar Zaman, Hyundong Shin, and Moe Z. Win(参考訳) 分散コンピューティングは急速に成長する分野であり、仮想コンピューティング、並列コンピューティング、分散ストレージを可能にしている。 提案手法を応用して分散ブラインド量子計算プロトコルを考案し,任意の入力状態に対して,事前の絡み合いを用いることなく,遠隔者間で物理粒子を交換することなく,普遍的な2ビット制御ユニタリ演算を行う。 この分散プロトコルにより、ボブは任意のユニタリ演算子をアリスのキュービットに確率論的に対数的に適用できるが、そのオペレーターを明かすことなく、制御キュービット -- cct (counterfactual hiddened telecomputation) と呼ばれる。 このプロトコルは一般的な入力状態に対して有効であり、シングルキュービットのユニタリテレポーテーションはCCTの特別な場合である。 CCT用量子回路は(鎖状)量子Zenoゲートを用いて実装でき、AliceとBobの初期合成状態がベル型状態である場合、プロトコルは単純化された回路実装で決定される。

Distributed computing is a fastest growing field -- enabling virtual computing, parallel computing, and distributed storage. By exploiting the counterfactual techniques, we devise a distributed blind quantum computation protocol to perform a universal two-qubit controlled unitary operation for any input state without using preshared entanglement and without exchanging physical particles between remote parties. This distributed protocol allows Bob to counterfactully apply an arbitrary unitary operator to Alice's qubit in probabilistic fashion, without revealing the operator to her, using a control qubit -- called the counterfactual concealed telecomputation (CCT). It is shown that the protocol is valid for general input states and that single-qubit unitary teleportation is a special case of CCT. The quantum circuit for CCT can be implemented using the (chained) quantum Zeno gates and the protocol becomes deterministic with simplified circuit implementation if the initial composite state of Alice and Bob is a Bell-type state.
翻訳日:2023-04-21 08:18:08 公開日:2021-03-17
# Safer IllinoisとRokWall: 新型コロナウイルスの大学健康アプリを保護するプライバシー保護

Safer Illinois and RokWall: Privacy Preserving University Health Apps for COVID-19 ( http://arxiv.org/abs/2101.07897v2 )

ライセンス: Link先を確認
Vikram Sharma Mailthody and James Wei and Nicholas Chen and Mohammad Behnia and Ruihao Yao and Qihao Wang and Vedant Agrawal and Churan He and Lijian Wang and Leihao Chen and Amit Agarwal and Edward Richter and Wen-Mei Hwu and Christopher W. Fletcher and Jinjun Xiong and Andrew Miller and Sanjay Patel(参考訳) 新型コロナウイルス(covid-19)は私たちの生活様式を根本的に混乱させた。 世界各国の政府機関や大学、企業は、新型コロナウイルスのパンデミックに対処し、社会を安全に再開する技術を急速に開発している。 コンタクトトレース、スーパースレッダイベント検出、露出マッピングといった重要な分析ツールには、機密性の高いユーザ情報の収集と分析が必要である。 このような強力なデータ駆動アプリケーションの利用の増加は、個人データの計算にセキュアでプライバシ保護のインフラを必要とする。 本稿では,イリノイ大学アーバナシャンペーン校で開発中の2つの計算基盤を分析し,新型コロナウイルスの感染拡大を追跡・緩和する。 まず,デジタルコンタクトトレーシングとcovid-19ステータスカードという,現在広く普及している2つのアプリケーションをサポートする分散型健康分析システムであるsafety illinoisを提案する。 第2に、機密性の高いユーザデータに基づくプライバシー保護集中型データ分析のためのRokWallアーキテクチャを導入する。 我々は,これらのシステムのアーキテクチャ,設計選択,脅威モデル,センシティブなデータ分析のために運用可能なシステムを開発する上で経験した課題について論じる。

COVID-19 has fundamentally disrupted the way we live. Government bodies, universities, and companies worldwide are rapidly developing technologies to combat the COVID-19 pandemic and safely reopen society. Essential analytics tools such as contact tracing, super-spreader event detection, and exposure mapping require collecting and analyzing sensitive user information. The increasing use of such powerful data-driven applications necessitates a secure, privacy-preserving infrastructure for computation on personal data. In this paper, we analyze two such computing infrastructures under development at the University of Illinois at Urbana-Champaign to track and mitigate the spread of COVID-19. First, we present Safer Illinois, a system for decentralized health analytics supporting two applications currently deployed with widespread adoption: digital contact tracing and COVID-19 status cards. Second, we introduce the RokWall architecture for privacy-preserving centralized data analytics on sensitive user data. We discuss the architecture of these systems, design choices, threat models considered, and the challenges we experienced in developing production-ready systems for sensitive data analysis.
翻訳日:2023-04-14 17:42:40 公開日:2021-03-17
# tSNEを用いたSu-Schrieffer-Heegerモデルの探索

Exploring phases of the Su-Schrieffer-Heeger model with tSNE ( http://arxiv.org/abs/2101.08704v3 )

ライセンス: Link先を確認
R. M. Woloshyn(参考訳) t-distributed stochastic neighborhood embedded (tsne) は、su-schrieffer-heegerモデルの位相図とその拡張および非ヘルミット変種のいくつかを明らかにするツールとして用いられる。 パラメータ空間の異なる点で計算されたブロッホベクトルを2次元還元空間にマッピングする。 削減された空間のクラスターは、入力に含まれる異なる位相領域を視覚化するために使用される。 tSNE写像は、5つの異なる位相が存在する非エルミート拡大モデルの挑戦例においても有効であることが示されている。 ブロッホベクトルの代わりに波動関数入力を使用する例も提示される。

T-distributed stochastic neighborhood embedding (tSNE) is used as a tool to reveal the phase diagram of the Su-Schrieffer-Heeger model and some of its extended and non-Hermitian variants. Bloch vectors calculated at different points in the parameter space are mapped to a two-dimensional reduced space. The clusters in the reduced space are used to visualize different phase regions included in the input. The tSNE mapping is shown to be effective even in the challenging case of the non-Hermitian extended model where five different phases are present. An example of using wavefunction input, instead of Bloch vectors, is presented also.
翻訳日:2023-04-14 08:39:24 公開日:2021-03-17
# 計算と推論のインターリービング:バークレー大学の大学院生のためのデータサイエンス

Interleaving Computational and Inferential Thinking: Data Science for Undergraduates at Berkeley ( http://arxiv.org/abs/2102.09391v3 )

ライセンス: Link先を確認
Ani Adhikari, John DeNero, Michael I. Jordan(参考訳) カリフォルニア大学バークレー校のデータサイエンスカリキュラムは、計算的思考、推論的思考、現実世界の問題に重点を置く5つの新しいコースに置かれている。 我々は、これらの要素を中核的なコースにインターリーブすることは、現代の科学や産業の応用が求める規模でデータ駆動的な調査を行う学生の準備に不可欠であると信じている。 この新カリキュラムはすでにバークレー大学の学部生の体験を変えており、これらのコースはキャンパスでもっとも人気のあるコースとなり、データサイエンスの新しい専攻課程とマイナープログラムへの関心が高まっている。

The undergraduate data science curriculum at the University of California, Berkeley is anchored in five new courses that emphasize computational thinking, inferential thinking, and working on real-world problems. We believe that interleaving these elements within our core courses is essential to preparing students to engage in data-driven inquiry at the scale that contemporary scientific and industrial applications demand. This new curriculum is already reshaping the undergraduate experience at Berkeley, where these courses have become some of the most popular on campus and have led to a surging interest in a new undergraduate major and minor program in data science.
翻訳日:2023-04-11 06:09:03 公開日:2021-03-17
# i型自発的パラメトリックダウンコンバージョンバイフォトンのソルキンパラメータと物質波

Sorkin parameter for type-I spontaneous parametric down-conversion biphotons and matter waves ( http://arxiv.org/abs/2103.02674v2 )

ライセンス: Link先を確認
F. C. V. de Brito, C. H. S. Vieira, I. G. da Paz, J. B. Araujo, M. Sampaio(参考訳) 双光子に対する非対称二重スリット干渉実験において, gouy位相測定を用いて量子相関を定量化する対数ネガティビティの実験的測定法を提案する。 これは両量ともスリットによる空間閉じ込めと類似しており、グーイ相による絡み合いの一部を操作できるためである。 これらの測定を得るためには,粒子間の位置相関が強く,二光子の位置相関も検討する必要がある。 ゴイ相を通してエンタングルメント量子化器を扱いたいので、非対称二重スリット干渉実験において、2つのエンタングル光子のグーイ位相差を解析した。

We propose experimental measurements of the logarithmic negativity, which quantifies quantum correlations using Gouy phase measurements in an asymmetric double-slit interference experiment for twin photons. This is possible because both quantities have analogous dependence with the spatial confinement by the slits and enables one to manipulate the portion of entanglement by the Gouy phase. In order to obtain those measurements, we need to work in a regime where the position correlations between particles are strong, therefore we investigate such correlations for biphotons. Since we would like to handle entanglement quantifiers through the Gouy phase, we analyze the Gouy phase difference for two entangled photons in an asymmetric double-slit interference experiment.
翻訳日:2023-04-09 07:41:46 公開日:2021-03-17
# 実用的多次元量子ネットワークの提案

A proposal for practical multidimensional quantum networks ( http://arxiv.org/abs/2103.09202v2 )

ライセンス: Link先を確認
Davide Bacco, Jacob F. F. Bulmer, Manuel Erhard, Marcus Huber, Stefano Paesani(参考訳) 量子インターネット(Quantum Internet)、すなわち、量子デバイスのグローバルな相互接続は、量子通信の長期的な目標であり、これまでのところ2次元システム(量子ビット)に基づいている。 近年、高次元量子系 (qudits) が著しい発展を遂げている。 クォーディットは高い光子情報効率とノイズに対する堅牢性を示すが、量子ネットワークでの使用は、高次元の量子リピータに必要な非現実的なリソースのために実験的な課題を示す。 ここでは, 弱コヒーレント状態や弱圧縮状態, 線形光学などの標準量子光学資源を用いることで, このような課題を克服できることを示す。 本研究では,3次元および4次元システムの絡み合わせ交換方式の設計とシミュレーションを行い,ネットワークパラメータを調整して秘密鍵レートを最適化し,異なる次元における高強度ノイズロバスト性の解析を行う方法について述べる。 我々の研究は高次元量子ネットワークの実装を著しく単純化し、現在の技術による開発を促進する。

A Quantum Internet, i.e., a global interconnection of quantum devices, is the long term goal of quantum communications, and has so far been based on two-dimensional systems (qubits). Recent years have seen a significant development of high-dimensional quantum systems (qudits). While qudits present higher photon information efficiency and robustness to noise, their use in quantum networks present experimental challenges due to the impractical resources required in high-dimensional quantum repeaters. Here, we show that such challenges can be met via the use of standard quantum optical resources, such as weak coherent states or weak squeezed states, and linear optics. We report a concrete design and simulations of an entanglement swapping scheme for three and four dimensional systems, showing how the network parameters can be tuned to optimize secret key rates and analysing the enhanced noise robustness at different dimensions. Our work significantly simplifies the implementation of high-dimensional quantum networks, fostering their development with current technology.
翻訳日:2023-04-07 23:22:00 公開日:2021-03-17
# 古典・量子加速度計の融合による慣性航法性能の向上

Enhancing Inertial Navigation Performance via Fusion of Classical and Quantum Accelerometers ( http://arxiv.org/abs/2103.09378v1 )

ライセンス: Link先を確認
Xuezhi Wang, Allison Kealy, Christopher Gilliam, Simon Haine, John Close, Bill Moran, Kyle Talbot, Simon Williams, Kyle Hardman, Chris Freier, Paul Wigley, Angela White, Stuart Szigeti and Sam Legge(参考訳) 量子加速度計は、非常に低いドリフトと低いバイアスで感知されるが、その実用的な検知能力は、古典的な加速度計と比較して2つの制限に直面している。 本稿では,量子加速度計の実際の位相を,プラットフォーム上の古典的加速度計の出力と融合させることで解くことができる最大確率確率データ融合法を提案する。 提案手法は,量子加速度計を実用的な慣性ナビゲーションシナリオに適用し,性能を向上する。 量子加速度計からの回収された測定は、古典的な加速度計の再校正にも用いられる。 シミュレーションによる1次元慣性航法シナリオを用いて,提案手法による誤差性能の向上を実証する。 融合誤差と潜在的な解に関する議論を締めくくった。

While quantum accelerometers sense with extremely low drift and low bias, their practical sensing capabilities face two limitations compared with classical accelerometers: a lower sample rate due to cold atom interrogation time, and a reduced dynamic range due to signal phase wrapping. In this paper, we propose a maximum likelihood probabilistic data fusion method, under which the actual phase of the quantum accelerometer can be unwrapped by fusing it with the output of a classical accelerometer on the platform. Consequently, the proposed method enables quantum accelerometers to be applied in practical inertial navigation scenarios with enhanced performance. The recovered measurement from the quantum accelerometer is also used to re-calibrate the classical accelerometer. We demonstrate the enhanced error performance achieved by the proposed fusion method using a simulated 1D inertial navigation scenario. We conclude with a discussion on fusion error and potential solutions.
翻訳日:2023-04-07 21:24:01 公開日:2021-03-17
# 量子ハトから脱出する試みに失敗した

Failed attempt to escape from the quantum pigeon conundrum ( http://arxiv.org/abs/2103.09570v1 )

ライセンス: Link先を確認
Yakir Aharonov, Shrobona Bagchi, Justin Dressel, Gregory Reznik, Michael Ridley and Lev Vaidman(参考訳) Kunstatterらによる最近の批判。 [植物 lett. a 384, 126686 (2020)] ハト計数原理 [aharonov et al. pnas 113, 532 (2016)] に違反する量子配置は否定される。 ピジョンホール原理の事前選考とポスト選考による違反の量子性を明らかにする。

A recent criticism by Kunstatter et al. [Phys. Lett. A 384, 126686 (2020)] of a quantum setup violating the pigeon counting principle [Aharonov et al. PNAS 113, 532 (2016)] is refuted. The quantum nature of the violation of the pigeonhole principle with pre- and postselection is clarified.
翻訳日:2023-04-07 21:20:54 公開日:2021-03-17
# センチネル2画像を用いた大型プラスチック質量検出

Big Plastic Masses Detection using Sentinel 2 Images ( http://arxiv.org/abs/2103.09560v1 )

ライセンス: Link先を確認
Fernando Martin-Rodriguez(参考訳) このコミュニケーションは、地球観測衛星システムを用いて、海や海におけるプラスチック(海洋ゴミ)の大きな塊の検出に関する予備的な研究を記述している。 Sentinel 2 (Copernicus Project) プラットフォームからの無償イメージが使用されている。 プラスチック認識器を開発するには、まず「nonfloating」プラスチックの大きな蓄積(almer\'ia greenhouses)を見つけるためのイメージから始める。 我々は、リモートセンシングディファレンシャルインデックスを用いてテストを行ったが、利用可能な波長(13の周波数帯域)とニューラルネットワークを特徴ベクトルに適用することで、より優れた結果を得た。

This communication describes a preliminary research on detection of big masses of plastic (marine litter) on the oceans and seas using EO (Earth Observation) satellite systems. Free images from the Sentinel 2 (Copernicus Project) platform are used. To develop a plastic recognizer, we start with an image where we can find a big accumulation of "nonfloating" plastic: Almer\'ia greenhouses. We made a test using remote sensing differential indexes, but we got much better results using all available wavelengths (thirteen frequency bands) and applying Neural Networks to that feature vector.
翻訳日:2023-04-07 21:20:38 公開日:2021-03-17
# 反ジャイネス・カミングス模型は可解である : 回転及び反回転フレームにおける量子ラビ模型

The anti-Jaynes-Cummings model is solvable : quantum Rabi model in rotating and counter-rotating frames ; following the experiments ( http://arxiv.org/abs/2103.09546v1 )

ライセンス: Link先を確認
Joseph Akeyo Omolo(参考訳) 本稿は、最近の実験的なブレークスルーや理論手法の進歩の報告やレビューにおいて、反ジャイネス・カミングス(AJC)相互作用が量子ラビモデル(QRM)の難易度非保存成分である、という継続的な仮定に対する反応である。 QRM力学の3つの重要な特徴について述べる。 (a)AJC相互作用成分は保存された励起数演算子を持ち、正確に解ける b)QRM力学空間は、RFのU(1)対称性を生成する保存JC励起数演算子によって特定される正確に解決されたJaynes-Cummings(JC)相互作用が支配される回転フレーム(RF)と、CRFのU(1)対称性を生成する保存AJC励起数演算子によって定義された正確に解決されたアンチJaynes-Cummings(AJC)相互作用が支配される相関反回転フレーム(CRF)とからなる。

This article is a response to the continued assumption, cited even in reports and reviews of recent experimental breakthroughs and advances in theoretical methods, that the antiJaynes-Cummings (AJC) interaction is an intractable energy non-conserving component of the quantum Rabi model (QRM). We present three key features of QRM dynamics : (a) the AJC interaction component has a conserved excitation number operator and is exactly solvable (b) QRM dynamical space consists of a rotating frame (RF) dominated by an exactly solved Jaynes-Cummings (JC) interaction specified by a conserved JC excitation number operator which generates the U(1) symmetry of RF and a correlated counterrotating frame (CRF) dominated by an exactly solved antiJaynes-Cummings (AJC) interaction specified by a conserved AJC excitation number operator which generates the U(1) symmetry of CRF.
翻訳日:2023-04-07 21:20:28 公開日:2021-03-17
# 熱水蒸気中で発生する大帯域光子対の高非古典的相関

High nonclassical correlations of large-bandwidth photon pairs generated in warm atomic vapor ( http://arxiv.org/abs/2103.09525v1 )

ライセンス: Link先を確認
Jarom\'ir Mika, Luk\'a\v{s} Slodi\v{c}ka(参考訳) 原子との相互作用に適した非古典光の生成は、幅広い量子光学コミュニティで追求された重要な目標に対応する。 熱水蒸気中の自発4波混合過程を用いた非古典光子対の生成と,非古典光子相関の非古典光子相関について述べる。 本稿では, 蒸気セルビューポート, 単一励起レーザビーム, ダブルロンバダ$エネルギーレベルスキーム, 補助光ポンピング, および特定の光フィルタリング装置の近傍における原子の励起のユニークな組み合わせにより, 生成した非古典光源のスペクトル帯域幅を最大560 pm 20$ MHz, 低二光子雑音で得ることを示す。 観測可能な光子相関の技術的および基本的限界を設定する特定のノイズ機構の定量的解析を行う。 提案方式の全体的な技術的単純さと、熱水蒸気で実装可能なスペクトル整合量子メモリの可用性により、オンデマンドの非古典的光源と効率的な量子通信ノードによるGHz帯域の実現が可能となる。

Generation of nonclassical light suitable for interaction with atoms corresponds to a crucial goal pursued across the broad quantum optics community. We present the generation of nonclassical photon pairs using the process of spontaneous four-wave mixing in warm atomic vapor with an unprecedentedly high degree of nonclassical photon correlations. We show how the unique combination of excitation of atoms in the proximity of the vapor cell viewport, single excitation laser beam, double-$\Lambda$ energy level scheme, auxiliary optical pumping, and particular optical filtering setups, allow for the spectral bandwidth of generated nonclassical light fields of up to $560 \pm 20$ MHz and low two-photon noise. We provide a quantitative analysis of particular noise mechanisms which set technological and fundamental limits on the observable photon correlations. The overall technological simplicity of the presented scheme together with the availability of spectrally matched quantum memories implementable with warm atomic vapors promises the feasibility of realization of GHz bandwidth on-demand nonclassical light sources and efficient quantum communication nodes.
翻訳日:2023-04-07 21:19:57 公開日:2021-03-17
# 量子モンテカルロシミュレーションによる長距離横場イジングモデルの量子臨界特性

Quantum-critical properties of the long-range transverse-field Ising model from quantum Monte Carlo simulations ( http://arxiv.org/abs/2103.09469v1 )

ライセンス: Link先を確認
J. Koziol, A. Langheld, S.C. Kapfer, and K.P. Schmidt(参考訳) 代数的に減衰する相互作用を持つ横場イジングモデルの量子臨界特性は、一次元線形鎖と2次元正方格子の両方で確率級数展開量子モンテカルロを用いて研究される。 長距離相互作用の減衰指数の関数として、臨界指数 $\nu$ と $\beta$ を抽出する。 強磁性イジング相互作用では、近傍のイジングから長距離のガウス普遍性クラス、および連続的に変化する臨界指数を持つ中間状態まで、場の理論から知られている制限条件を解く。 長距離ガウス系では、有限サイズのスケーリング形式に対する危険な無関係変数の影響を扱う。 反強磁性および従って競合するIsing相互作用に対して、確率級数展開アルゴリズムは自己相関時間を増加させて性能を低下させる。 それにもかかわらず、この結果は線形鎖と正方格子の両方で研究されたすべての相互作用範囲の最も近距離イジング普遍性と一致している。

The quantum-critical properties of the transverse-field Ising model with algebraically decaying interactions are investigated by means of stochastic series expansion quantum Monte Carlo, on both the one-dimensional linear chain and the two-dimensional square lattice. We extract the critical exponents $\nu$ and $\beta$ as a function of the decay exponent of the long-range interactions. For ferromagnetic Ising interactions, we resolve the limiting regimes known from field theory, ranging from the nearest-neighbor Ising to the long-range Gaussian universality classes, as well as the intermediate regime with continuously varying critical exponents. In the long-range Gaussian regime, we treat the effect of dangerous irrelevant variables on finite-size scaling forms. For antiferromagnetic and therefore competing Ising interactions, the stochastic series expansion algorithm displays growing auto-correlation times leading to a reduced performance. Nevertheless, our results are consistent with the nearest-neighbor Ising universality for all investigated interaction ranges both on the linear chain and the square lattice.
翻訳日:2023-04-07 21:19:19 公開日:2021-03-17
# ボソニックシステムにおける量子計算と通信

Quantum Computation and Communication in Bosonic Systems ( http://arxiv.org/abs/2103.09445v1 )

ライセンス: Link先を確認
Kyungjoo Noh(参考訳) 量子計算と通信は量子情報科学の重要な分野である。 しかし、現実的な量子デバイスにおけるノイズは、これらの量子技術の実用性を根本的に制限する。 大規模かつフォールトトレラントな量子情報処理への従来のアプローチは、複数量子ビットの量子誤り訂正(QEC)を使い、論理量子ビット(または論理量子ビット)を多くの物理量子ビット上で冗長に符号化し、冗長性を用いてエラーを検出することである。 しかし、従来のマルチキュービットQECスキームの使用に伴うリソースオーバーヘッドは、これらのスキームが現在利用可能な量子デバイスで大規模に実現するには高すぎる。 近年、ボソニック(または連続変数)の量子誤り訂正は、マルチキュービットQECスキームに代わる有望なハードウェア効率の代替として上昇している。 本論では、ボソニックQECの概要と、この分野への私の貢献について述べる。 具体的には、実際に関連する励起損失誤差に対して、様々な単モードボソニック符号のベンチマークと最適化結果を示す。 また,単一モードのボソニックコードをマルチキュービット誤り訂正コードに結合することで,フォールトトレラントなボソニックqecが可能であることを実証する。 さらに,量子通信理論の枠組みを用いて,bosonic qecの基本的側面について論じる。 特に、ボソニックガウスチャネルの量子容量のような重要な通信理論量に対する改善された境界を示す。 さらに、量子容量によって設定された基本性能限界をほぼ達成できる明示的なボソニック誤差補正スキームを提供する。 連続可変量子情報処理における非ガウス的資源の重要性について論じる。

Quantum computation and communication are important branches of quantum information science. However, noise in realistic quantum devices fundamentally limits the utility of these quantum technologies. A conventional approach towards large-scale and fault-tolerant quantum information processing is to use multi-qubit quantum error correction (QEC), that is, to encode a logical quantum bit (or a logical qubit) redundantly over many physical qubits such that the redundancy can be used to detect errors. The required resource overhead associated with the use of conventional multi-qubit QEC schemes, however, is too high for these schemes to be realized at scale with currently available quantum devices. Recently, bosonic (or continuous-variable) quantum error correction has risen as a promising hardware-efficient alternative to multi-qubit QEC schemes. In this thesis, I provide an overview of bosonic QEC and present my contributions to the field. Specifically, I present the benchmark and optimization results of various single-mode bosonic codes against practically relevant excitation loss errors. I also demonstrate that fault-tolerant bosonic QEC is possible by concatenating a single-mode bosonic code with a multi-qubit error-correcting code. Moreover, I discuss the fundamental aspects of bosonic QEC using the framework of quantum communication theory. In particular, I present improved bounds on important communication-theoretic quantities such as the quantum capacity of bosonic Gaussian channels. Furthermore, I provide explicit bosonic error correction schemes that nearly achieve the fundamental performance limit set by the quantum capacity. I conclude the thesis with discussions on the importance of non-Gaussian resources for continuous-variable quantum information processing.
翻訳日:2023-04-07 21:18:48 公開日:2021-03-17
# ヒルベルト空間におけるベクトルとしての現実

Reality as a Vector in Hilbert Space ( http://arxiv.org/abs/2103.09780v1 )

ライセンス: Link先を確認
Sean M. Carroll(参考訳) 私は、世界の基本オントロジーがシュル=オディンガー方程式に従って進化するヒルベルト空間のベクトルからなるという過激な立場を擁護する。 物理学の法則はハミルトニアンのエネルギー固有スペクトルによってのみ決定される。 宇宙やその内に住む分野を含む我々の観察された世界の構造は、より高度な創発的記述として現れるべきである。 私はこれがどのように起こるのかをスケッチしますが、まだ多くの作業が完了していません。

I defend the extremist position that the fundamental ontology of the world consists of a vector in Hilbert space evolving according to the Schr\"odinger equation. The laws of physics are determined solely by the energy eigenspectrum of the Hamiltonian. The structure of our observed world, including space and fields living within it, should arise as a higher-level emergent description. I sketch how this might come about, although much work remains to be done.
翻訳日:2023-04-07 21:10:59 公開日:2021-03-17
# 閉じこもったrydberg-atom鎖の創発的対称性と遅い量子力学

Emergent symmetries and slow quantum dynamics in a Rydberg-atom chain with confinement ( http://arxiv.org/abs/2103.09773v1 )

ライセンス: Link先を確認
I-Chi Chen and Thomas Iadecola(参考訳) 光ツイーザーアレイのリドバーグ原子は非平衡量子多体物理学の場を提供する。 pxpモデルは、強く相互作用するライドバーグ封鎖法においてそのような系のダイナミクスを記述し、量子多体傷による弱い非エルゴード力学を示す。 本稿では,格子ゲージ理論への写像に照らして準粒子閉じ込めを示すために提案されている,頑丈な外界におけるpxpモデルについて検討する。 強場極限付近の数値的厳密対角化と摂動理論の両方を用いて,この閉じ込め構造を特徴付ける。 スタッガー場によって生成される予期された創発的対称性に加えて、pxpモデルに特別な第二の創発的対称性も発見する。 これらの創発的対称性とライドベルク封鎖の制約との相互作用は、単純な期待を超えてシステムのダイナミクスを劇的に遅くする。 ネストしたシュリーファー=ヴォルフ摂動理論を考案し、新しい創発対称性を適切に考慮し、この処理が数値的に観察された緩和時間スケールを理解するのに不可欠であることを示す。 また、ヒルベルト空間の断片化との関係を議論し、新しい創発対称性の起源を多体スカーリングの文脈で発見された「ほぼ$SU(2)$」代数に辿る。

Rydberg atoms in optical tweezer arrays provide a playground for nonequilibrium quantum many-body physics. The PXP model describes the dynamics of such systems in the strongly interacting Rydberg blockade regime and notably exhibits weakly nonergodic dynamics due to quantum many-body scars. Here, we study the PXP model in a strong staggered external field, which has been proposed to manifest quasiparticle confinement in light of a mapping to a lattice gauge theory. We characterize this confining regime using both numerical exact diagonalization and perturbation theory around the strong-field limit. In addition to the expected emergent symmetry generated by the staggered field, we find a second emergent symmetry that is special to the PXP model. The interplay between these emergent symmetries and the Rydberg blockade constraint dramatically slows down the system's dynamics beyond naive expectations. We devise a nested Schrieffer-Wolff perturbation theory to properly account for the new emergent symmetry and show that this treatment is essential to understand the numerically observed relaxation time scales. We also discuss connections to Hilbert space fragmentation and trace the origin of the new emergent symmetry to a "nearly-$SU(2)$" algebra discovered in the context of many-body scarring.
翻訳日:2023-04-07 21:10:48 公開日:2021-03-17
# 収束超指数ポテンシャルのスペクトル特性

Spectral Properties of Confining Superexponential Potentials ( http://arxiv.org/abs/2103.09765v1 )

ライセンス: Link先を確認
Peter Schmelcher(参考訳) 収束超指数ポテンシャルのスペクトル特性と挙動について検討する。 これらの高非線形ポテンシャルのいくつかのプロトタイプは、基礎となる定常シュリンガー方程式の固有値と固有状態から数百の励起状態まで解析される。 超指数自己相互作用型発振器の一般化は、固有値の間隔のスケーリング挙動を示し、これは電力法修正発振器の交互動作となる。 振動力を持つ超指数ポテンシャルは、振幅と波動ベクトルの異なる非常に豊富なスペクトル構造を示す。 パリティ対称の場合、ほぼ退化したエネルギー固有値の二重項がスペクトルに現れる。 対応する固有状態はポテンシャルの外側の井戸に強く局在し、非局在状態のスペクトルに分散される偶対として生じる。 我々は,これらの機能をコールドアトム物理学などの応用に応用する可能性を含め,今後の展望について概観する。

We explore the spectral properties and behaviour of confining superexponential potentials. Several prototypes of these highly nonlinear potentials are analyzed in terms of the eigenvalues and eigenstates of the underlying stationary Schr\"odinger equation up to several hundreds of excited states. A generalization of the superexponential self-interacting oscillator shows a scaling behaviour of the spacing of the eigenvalues which turns into an alternating behaviour for the power law modified oscillator. Superexponential potentials with an oscillating power show a very rich spectral structure with varying amplitudes and wave vectors. In the parity symmetric case doublets of near degenerate energy eigenvalues emerge in the spectrum. The corresponding eigenstates are strongly localized in the outer wells of the potential and occur as even-odd pairs which are interspersed into the spectrum of delocalized states. We provide an outlook on future perspectives including the possibility to use these features for applications in e.g. cold atom physics.
翻訳日:2023-04-07 21:10:29 公開日:2021-03-17
# パラメトリック増幅アイドルを用いた量子照明

Quantum Illumination with a Parametrically Amplified Idler ( http://arxiv.org/abs/2103.09757v1 )

ライセンス: Link先を確認
Jonathan N. Blakely(参考訳) 量子照明は電磁場の量子状態を利用して、どの古典的状態よりも明るい背景に対してターゲットの存在を検出する。 最もよく用いられる量子状態は、信号モードとアイドラーモードからなる2モードのスクイーズド真空であり、非ゼロ位相感応クロス相関はターゲット検出のシグネチャとなり、ゼロ位相感応クロス相関は第2次干渉ではフリンジを発生しない。 そこで, 2モード圧縮真空のアイドラーモードに位相感度増幅を適用すると, 単純なビームスプリッタと光検出器による非ゼロ位相感応クロス相関が得られることを示した。 パラメトリック増幅型アイドラーを用いた量子照明は、現在ターゲットと不在ターゲットを同一の事前確率で識別する漸近的に最適な古典状態スキームよりも誤差の低いことが示されている。

Quantum illumination uses a quantum state of the electromagnetic field to detect the presence of a target against a bright background more sensitively than any classical state. Most often, the quantum state is a two-mode squeezed vacuum consisting of signal and idler modes with a non-zero phase-sensitive cross correlation, which serves as the signature for target detection, and a zero phase-insensitive cross correlation, which means the modes produce no fringes in second order interference. Here it is shown that applying phase-sensitive amplification to the idler modes of a two-mode squeezed vacuum results in a non-zero phase-insensitive cross correlation enabling reception by a simple beam splitter and photodetectors. It is shown that quantum illumination with a parametrically amplified idler has a lower probability of error than an asymptotically optimal classical-state scheme in discriminating between a present target and an absent target with equal prior probabilities.
翻訳日:2023-04-07 21:10:17 公開日:2021-03-17
# 非平衡定常状態による最大効率量子熱機械

Maximally effcient quantum thermal machines fuelled by nonequilibrium steady states ( http://arxiv.org/abs/2103.09723v1 )

ライセンス: Link先を確認
Tiago F. F. Santos, Francesco Tacchino, Dario Gerace, Michele Campisi, and Marcelo F. Santos(参考訳) 熱機械の概念は、標準蒸気エンジンから最近提案されたナノスコピック量子システムへと進化してきた。 後者は量子開システムダイナミクスに従い、非平衡状態において頻繁に作用する。 しかし、量子熱エンジン全体の性能におけるこのダイナミクスの役割は未解決の問題である。 ここでは、非平衡定常状態の2段量子熱エンジンの効率と出力を解析、最適化する。 充電第1段階では、クエットまたは2つの結合クビットからなる量子作動流体を異なる温度で2つの貯水池に接続し、システム内にエルゴトロピーを蓄積する熱電流を確立し、第2段階は、機械からワークを有限時間に抽出するコヒーレント駆動力を有し、最後に外部駆動をオフにし、機械が新しいサイクルに入る。

The concept of thermal machines has evolved from the canonical steam engine to the recently proposed nanoscopic quantum systems as working fluids. The latter obey quantum open system dynamics and frequently operate in non-equilibrium conditions. However, the role of this dynamics in the overall performance of quantum heat engines remains an open problem. Here, we analyse and optimize the efficiency and power output of two-stage quantum heat engines fuelled by non-equilibrium steady states. In a charging first stage, the quantum working fluid consisting of a qutrit or two coupled qubits is connected to two reservoirs at different temperatures, which establish a heat current that stores ergotropy in the system; the second stage comprises a coherent driving force that extracts work from the machine in finite a amount of time; finally, the external drive is switched off and the machine enters a new cycle.
翻訳日:2023-04-07 21:09:43 公開日:2021-03-17
# 光-物質相互作用の量子シミュレーションのための分子スピンクォーディット

Molecular spin qudits for quantum simulation of light-matter interactions ( http://arxiv.org/abs/2103.09706v1 )

ライセンス: Link先を確認
Francesco Tacchino, Alessandro Chiesa, Roberta Sessoli, Ivano Tavernelli and Stefano Carretta(参考訳) 分子スピンquditは、物質と強く相互作用する光子場の量子力学をシミュレートする理想的なプラットフォームであることを示す。 提案した分子量子シミュレータの基本単位は、マイクロ波パルスのみで制御されるスピン1/2とスピン$S$遷移金属イオンの単純な二量体で実現できる。 spin $s$ ionはフレキシブルなアーキテクチャで光子場をエンコードするために利用されており、マルチキュービットレジスタを使用するよりも幅広いスピンボーソンモデルのデジタルシミュレーションをずっと効率的に行うことができる。 提案手法の有効性は,現実的な分子パラメータを用いた数値シミュレーションにより実証された。

We show that molecular spin qudits provide an ideal platform to simulate the quantum dynamics of photon fields strongly interacting with matter. The basic unit of the proposed molecular quantum simulator can be realized by a simple dimer of a spin 1/2 and a spin $S$ transition metal ion, solely controlled by microwave pulses. The spin $S$ ion is exploited to encode the photon field in a flexible architecture, which enables the digital simulation of a wide range of spin-boson models much more efficiently than by using a multi-qubit register. The effectiveness of our proposal is demonstrated by numerical simulations using realistic molecular parameters, whose prerequisites delineating possible chemical approaches are also discussed.
翻訳日:2023-04-07 21:09:14 公開日:2021-03-17
# ボルンルールに対する最近の2つのアプローチについて

On Two Recent Approaches to the Born Rule ( http://arxiv.org/abs/2103.09910v1 )

ライセンス: Link先を確認
Blake C. Stacey(参考訳) masanes et al. と hossenfelder によるボルン規則の導出について簡単にコメントする。

I comment briefly on derivations of the Born rule presented by Masanes et al. and by Hossenfelder.
翻訳日:2023-04-07 21:01:57 公開日:2021-03-17
# 多機能超伝導ナノワイヤ量子センサ

Multifunctional Superconducting Nanowire Quantum Sensors ( http://arxiv.org/abs/2103.09896v1 )

ライセンス: Link先を確認
Benjamin J Lawrie, Claire E. Marvinney, Yun-Yi Pai, Matthew A. Feldman, Jie Zhang, Aaron J. Miller, Chengyun Hua, Eugene Dumitrescu, G\'abor B. Hal\'asz(参考訳) 超伝導ナノワイヤ単光子検出器(SNSPD)は、高量子効率と低暗数単光子検出を提供する。 多くのケースでは、大きな磁場が量子顕微鏡、ナノフォトニクスデバイス、snspdに依存する核・高エネルギー物理学用のセンサーに取り入れられているが、超伝導デバイスは一般的に大きな磁場ではあまり動作しない。 ここでは、磁場中における非晶質SNSPDの強靭な性能を最大$\pm 6$Tで実証する。 Critically, we also show that in the electrothermal oscillation regime, the SNSPD can be used as a magnetometer with sensitivity of better than 100 $\mathrm{\mu T/\sqrt{Hz}}$ and as a thermometer with sensitivity of 20 $\mathrm{\mu K/\sqrt{Hz}}$ at 1 K. Thus, a single photon detector integrated into a quantum device can be used as a multifunctional quantum sensor capable of describing the temperature and magnetic field on-chip simply by varying the bias current to change the operating modality from single photon detection to thermometry or magnetometry.

Superconducting nanowire single photon detectors (SNSPDs) offer high-quantum-efficiency and low-dark-count-rate single photon detection. In a growing number of cases, large magnetic fields are being incorporated into quantum microscopes, nanophotonic devices, and sensors for nuclear and high-energy physics that rely on SNSPDs, but superconducting devices generally operate poorly in large magnetic fields. Here, we demonstrate robust performance of amorphous SNSPDs in magnetic fields of up to $\pm 6$ T with a negligible dark count rate and unchanged quantum efficiency at typical bias currents. Critically, we also show that in the electrothermal oscillation regime, the SNSPD can be used as a magnetometer with sensitivity of better than 100 $\mathrm{\mu T/\sqrt{Hz}}$ and as a thermometer with sensitivity of 20 $\mathrm{\mu K/\sqrt{Hz}}$ at 1 K. Thus, a single photon detector integrated into a quantum device can be used as a multifunctional quantum sensor capable of describing the temperature and magnetic field on-chip simply by varying the bias current to change the operating modality from single photon detection to thermometry or magnetometry.
翻訳日:2023-04-07 21:01:54 公開日:2021-03-17
# 同時ゲートセットトモグラフィによるクロストーク誤差の実験的評価

Experimental Characterization of Crosstalk Errors with Simultaneous Gate Set Tomography ( http://arxiv.org/abs/2103.09890v1 )

ライセンス: Link先を確認
Kenneth Rudinger and Craig W. Hogle and Ravi K. Naik and Akel Hashim and Daniel Lobser and David I. Santiago and Matthew D. Grace and Erik Nielsen and Timothy Proctor and Stefan Seritan and Susan M. Clark and Robin Blume-Kohout and Irfan Siddiqi and Kevin C. Young(参考訳) Crosstalkは、マルチキュービット量子情報プロセッサの障害の原因である。 それは幅広い異なる物理的現象から生じ、デバイスが経験する誤差に微妙な相関をもたらす可能性がある。 いくつかのハードウェアキャラクタリゼーションプロトコルはクロストークの存在を検出することができるが、様々なクロストークエラーを識別するのに十分な情報を提供するものはほとんどない。 本稿では,量子情報処理におけるクロストークエラーの識別と特徴付けに,量子演算の詳細な特徴付けのためのプロトコルであるゲートセットトモグラフィを用いる方法について述べる。 超伝導トランスモンプロセッサの2キュービットトラップイオンプロセッサと2キュービットサブシステムで本手法を実証する。

Crosstalk is a leading source of failure in multiqubit quantum information processors. It can arise from a wide range of disparate physical phenomena, and can introduce subtle correlations in the errors experienced by a device. Several hardware characterization protocols are able to detect the presence of crosstalk, but few provide sufficient information to distinguish various crosstalk errors from one another. In this article we describe how gate set tomography, a protocol for detailed characterization of quantum operations, can be used to identify and characterize crosstalk errors in quantum information processors. We demonstrate our methods on a two-qubit trapped-ion processor and a two-qubit subsystem of a superconducting transmon processor.
翻訳日:2023-04-07 21:01:24 公開日:2021-03-17
# 信頼されたノードQKDの電気的利用

Trusted Node QKD at an Electrical Utility ( http://arxiv.org/abs/2103.09877v1 )

ライセンス: Link先を確認
Philip G. Evans, Muneer Alshowkan, Duncan Earl, Daniel Mulkey, Raymond Newell, Glen Peterson, Claira Safi, Justin Tripp, Nicholas A. Peters(参考訳) 重要なインフラストラクチャ保護アプリケーションにおける量子キー分散(QKD)システムのデプロイに直面する課題には、光学損失キーレートのトレードオフ、ネットワーククライアントの追加、ベンダ固有のQKDハードウェアの相互運用性などがある。 本稿では,実世界の光ファイバネットワーク上での3つのqkdシステムの実地実証から得られた課題と結果について述べる。

Challenges facing the deployment of quantum key distribution (QKD) systems in critical infrastructure protection applications include the optical loss-key rate tradeoff, addition of network clients, and interoperability of vendor-specific QKD hardware. Here, we address these challenges and present results from a recent field demonstration of three QKD systems on a real-world electric utility optical fiber network.
翻訳日:2023-04-07 21:01:12 公開日:2021-03-17
# ガウス混合を用いた教師なし機械学習チェックポイント再起動アルゴリズムによる細胞内粒子シミュレーション

An unsupervised machine-learning checkpoint-restart algorithm using Gaussian mixtures for particle-in-cell simulations ( http://arxiv.org/abs/2105.13797v1 )

ライセンス: Link先を確認
Guangye Chen, Luis Chac\'on, Truong B. Nguyen(参考訳) ガウス混合(GM)を用いたPICアルゴリズムのための教師なし機械学習チェックポイント再起動(CR)損失アルゴリズムを提案する。 このアルゴリズムは粒子圧縮段階と、連続体粒子分布関数をそれぞれ構築して再サンプリングする粒子再構成段階を特徴とする。 CRプロセスの忠実性を保証するため、メッシュ上の至る所で圧縮および再構成段階の電荷、運動量、エネルギーの正確な保存を確保する。 また,粒子再構成後のガウスの法則の保存も確保する。 その結果、GM CRアルゴリズムはクリーンで保守的な再起動機能を提供し、入力/出力要求の大幅な削減を可能としている。 本研究では,最近開発されたエネルギー・電荷保存型picアルゴリズムを用いて圧縮係数$\gtrsim75$を用いて,再生ダイナミクスの品質に何の影響も及ぼさないことを示す。

We propose an unsupervised machine-learning checkpoint-restart (CR) lossy algorithm for particle-in-cell (PIC) algorithms using Gaussian mixtures (GM). The algorithm features a particle compression stage and a particle reconstruction stage, where a continuum particle distribution function is constructed and resampled, respectively. To guarantee fidelity of the CR process, we ensure the exact preservation of charge, momentum, and energy for both compression and reconstruction stages, everywhere on the mesh. We also ensure the preservation of Gauss' law after particle reconstruction. As a result, the GM CR algorithm is shown to provide a clean, conservative restart capability while potentially affording orders of magnitude savings in input/output requirements. We demonstrate the algorithm using a recently developed exactly energy- and charge-conserving PIC algorithm on physical problems of interest, with compression factors $\gtrsim75$ with no appreciable impact on the quality of the restarted dynamics.
翻訳日:2023-04-07 20:53:34 公開日:2021-03-17
# 口腔外科的テレプレゼンスにおける混合現実感の新たな解決法:3次元平均値クローニングアルゴリズム

A Novel Solution of Using Mixed Reality in Bowel and Oral and Maxillofacial Surgical Telepresence: 3D Mean Value Cloning algorithm ( http://arxiv.org/abs/2104.06316v1 )

ライセンス: Link先を確認
Arjina Maharjan, Abeer Alsadoon, P.W.C. Prasad, Nada AlSallami, Tarik A. Rashid, Ahmad Alrubaie, Sami Haddad(参考訳) 背景と目的:手術用テレプレゼンスで使用される複合現実感モデルのほとんどは、映像フレームの照明変化による境界領域と空間-時間的不整合の相違に苦しめられている。 本研究の目的は,手術現場の拡張現実映像と遠隔専門医のバーチャルハンドを組み合わせることで,複合映像の制作を支援する新しいソリューションを提案することである。 提案手法の目的は,オーバーレイと可視化誤差を低減し,咬合やアーチファクトを除去することにより,処理時間を短縮し,マージ映像の精度を高めることである。 方法論: 提案システムは, 合成ビデオの空間的時間的一貫性を維持するために, 平均値クローニングアルゴリズムを改良した。 改良されたアルゴリズムは、3D平均値座標と画像クローニング工程における即興平均値補間を含み、ブレンディング領域周辺のソートゥース、スムージングおよび脱色アーティファクトを低減するのに役立つ。 結果: art ソリューションの状態と比較して,提案手法のオーバーレイ誤差の精度は 1.01mm から 0.80mm に向上し,可視化誤差の精度は 98.8% から 99.4% に向上した。 処理時間は0.211秒から0.173秒に短縮される。 結論:本ソリューションは,最終的な統合ビデオにおける空間的一貫性を維持する空間距離を付加することにより,対象画像の光強度と利害関係を一致させるのに役立つ。

Background and aim: Most of the Mixed Reality models used in the surgical telepresence are suffering from discrepancies in the boundary area and spatial-temporal inconsistency due to the illumination variation in the video frames. The aim behind this work is to propose a new solution that helps produce the composite video by merging the augmented video of the surgery site and the virtual hand of the remote expertise surgeon. The purpose of the proposed solution is to decrease the processing time and enhance the accuracy of merged video by decreasing the overlay and visualization error and removing occlusion and artefacts. Methodology: The proposed system enhanced the mean value cloning algorithm that helps to maintain the spatial-temporal consistency of the final composite video. The enhanced algorithm includes the 3D mean value coordinates and improvised mean value interpolant in the image cloning process, which helps to reduce the sawtooth, smudging and discolouration artefacts around the blending region. Results: As compared to the state of the art solution, the accuracy in terms of overlay error of the proposed solution is improved from 1.01mm to 0.80mm whereas the accuracy in terms of visualization error is improved from 98.8% to 99.4%. The processing time is reduced to 0.173 seconds from 0.211 seconds. Conclusion: Our solution helps make the object of interest consistent with the light intensity of the target image by adding the space distance that helps maintain the spatial consistency in the final merged video.
翻訳日:2023-04-07 20:53:19 公開日:2021-03-17
# 高校生向けe-Tutoringプログラムの経営的アプローチ

A Management Approach of an E-Tutoring Program for High School Students ( http://arxiv.org/abs/2104.03897v1 )

ライセンス: Link先を確認
Spyridon Doukakis(参考訳) 中学生を支援するためのe-tutoringプログラムの導入は、教育省の教育方針と技術の可能性の両方によって強化された国際的実践である。 学生を効果的に支援し、学習を改善することが目的であるため、関連するプログラムの運用と管理は難しいプロセスである。 本研究は,2012-2013年度から運用されているe-tutoringプログラムの管理手法について述べる。 アプローチには a)e-tutoringプログラムが実行される過程の提示 ロ 学生の参加期間、参加期間、学習ニーズ、成績との相関等、事業の進捗状況を監視するための情報システム c) 教育訓練の手順 さらに、適切な機能とさらなる開発、および学生の参加の増大を好む包括的なモニタリングフレームワークを提供するプラクティスが出現している。

The inclusion of e-tutoring programs to support secondary school students is an international practice that is reinforced by both the education policies of the Ministries of Education and the potential of technology. The operation and management of the relevant programs is a challenging process, as the goal is to effectively support students and improve their learning. In the present work, the management approach of an e-tutoring program that operates from the school year 2012-2013 is presented. The approach includes a) the presentation of the processes through which the e-tutoring program is carried out, b) the information systems for monitoring the progress of its operation, such as students' participation, the duration of their participation, their learning needs, the correlation with their performance and c) the etutors' training procedures. In addition, practices are emerging that offer a comprehensive monitoring framework, which favors the proper functioning and further development, as well as the increasing participation of students.
翻訳日:2023-04-07 20:52:50 公開日:2021-03-17
# FBCNet:脳-コンピュータインタフェースのための多視点畳み込みニューラルネットワーク

FBCNet: A Multi-view Convolutional Neural Network for Brain-Computer Interface ( http://arxiv.org/abs/2104.01233v1 )

ライセンス: Link先を確認
Ravikiran Mane, Effie Chew, Karen Chua, Kai Keng Ang, Neethu Robinson, A. P. Vinod, Seong-Whan Lee, Cuntai Guan(参考訳) 脳波(EEG)に基づく脳-コンピュータインタフェース(BCI)のための運動画像(MI)復号アルゴリズムが直面する、適切なトレーニングサンプルやノイズの多い高次元特徴の欠如が重要な課題である。 そこで本稿では,miの神経生理的特徴に着想を得て,mi分類のための新しいフィルタバンク畳み込みネットワーク(fbcnet)を提案する。 FBCNetは、マルチビューデータ表現に続き、空間フィルタリングを用いてスペクトロ・スパティカル・差別的特徴を抽出する。 このマルチステージアプローチは、限られたトレーニングデータが利用可能であっても、ネットワークの効率的なトレーニングを可能にする。 さらに,fbcnetでは,脳波時間領域情報を効果的に集約する新しい分散層を提案する。 この設計では、FBCNetと最先端(SOTA)のBCIアルゴリズムを比較し、BCIコンペティションIVデータセット2a(BCIC-IV-2a)、OpenBMIデータセット、慢性脳卒中患者の2つの大きなデータセットを比較した。 その結果、FBCNetは76.20%の4クラス分類精度を達成し、BCIC-IV-2aデータセットの新しいSOTAを設定した。 他の3つのデータセットでは、FBCNetは最大8%高いバイナリ分類精度が得られる。 さらに、説明可能なAI技術を用いて、健常者と脳卒中患者の差別的脳波特徴の違いに関する最初の報告の1つを提示する。 また、FBCNetのソースコードはhttps://github.com/ravikiran-mane/FBCNetで入手できる。

Lack of adequate training samples and noisy high-dimensional features are key challenges faced by Motor Imagery (MI) decoding algorithms for electroencephalogram (EEG) based Brain-Computer Interface (BCI). To address these challenges, inspired from neuro-physiological signatures of MI, this paper proposes a novel Filter-Bank Convolutional Network (FBCNet) for MI classification. FBCNet employs a multi-view data representation followed by spatial filtering to extract spectro-spatially discriminative features. This multistage approach enables efficient training of the network even when limited training data is available. More significantly, in FBCNet, we propose a novel Variance layer that effectively aggregates the EEG time-domain information. With this design, we compare FBCNet with state-of-the-art (SOTA) BCI algorithm on four MI datasets: The BCI competition IV dataset 2a (BCIC-IV-2a), the OpenBMI dataset, and two large datasets from chronic stroke patients. The results show that, by achieving 76.20% 4-class classification accuracy, FBCNet sets a new SOTA for BCIC-IV-2a dataset. On the other three datasets, FBCNet yields up to 8% higher binary classification accuracies. Additionally, using explainable AI techniques we present one of the first reports about the differences in discriminative EEG features between healthy subjects and stroke patients. Also, the FBCNet source code is available at https://github.com/ravikiran-mane/FBCNet.
翻訳日:2023-04-07 20:52:29 公開日:2021-03-17
# NAS-TC:複合行動認識のための時間的畳み込みのニューラルネットワーク探索

NAS-TC: Neural Architecture Search on Temporal Convolutions for Complex Action Recognition ( http://arxiv.org/abs/2104.01110v1 )

ライセンス: Link先を確認
Pengzhen Ren, Gang Xiao, Xiaojun Chang, Yun Xiao, Zhihui Li, and Xiaojiang Chen(参考訳) ビデオにおける複雑なアクション認識の分野では、設計されたモデルの品質が最終的なパフォーマンスにおいて重要な役割を果たす。 しかし、人工的に設計されたネットワーク構造は、しばしば研究者の知識と経験に大きく依存する。 そのため、ネットワーク構造の自動設計により、ニューラルネットワーク検索(nas)は画像処理の分野で大きな成功を収め、近年は大きな研究の注目を集めている。 一部のNAS法では、イメージフィールド内の1桁のGPUサーチ日数を削減しているが、3D畳み込みを直接使用して、NASをビデオフィールドに拡張することは、計算量の増加をもたらす可能性がある。 この課題に対処するため,ニューラルアーキテクチャ検索・時間畳み込み(NAS-TC)と呼ばれる新しい処理フレームワークを提案する。 提案する枠組みは2つの段階に分けられる。 第1フェーズでは、古典的なcnnネットワークがバックボーンネットワークとして使われ、計算集約的な特徴抽出タスクを完了する。 第2段階では、セルへの簡単な縫合探索を用いて、比較的軽量な時間依存情報抽出を行う。 これにより、我々の手法はより合理的なパラメータの割り当てを可能とし、微小レベルのビデオを扱うことができる。 最後に,複数のベンチマークデータセットについて十分な実験を行い,競合認識精度を得る。

In the field of complex action recognition in videos, the quality of the designed model plays a crucial role in the final performance. However, artificially designed network structures often rely heavily on the researchers' knowledge and experience. Accordingly, because of the automated design of its network structure, Neural architecture search (NAS) has achieved great success in the image processing field and attracted substantial research attention in recent years. Although some NAS methods have reduced the number of GPU search days required to single digits in the image field, directly using 3D convolution to extend NAS to the video field is still likely to produce a surge in computing volume. To address this challenge, we propose a new processing framework called Neural Architecture Search- Temporal Convolutional (NAS-TC). Our proposed framework is divided into two phases. In the first phase, the classical CNN network is used as the backbone network to complete the computationally intensive feature extraction task. In the second stage, a simple stitching search to the cell is used to complete the relatively lightweight long-range temporal-dependent information extraction. This ensures our method will have more reasonable parameter assignments and can handle minute-level videos. Finally, we conduct sufficient experiments on multiple benchmark datasets and obtain competitive recognition accuracy.
翻訳日:2023-04-07 20:51:03 公開日:2021-03-17
# 拡張検索スニペットからの創発的エンティティの把握

Capturing Knowledge of Emerging Entities From Extended Search Snippets ( http://arxiv.org/abs/2104.01105v1 )

ライセンス: Link先を確認
Sunday C. Ngwobia and Saeedeh Shekarpour and Faisal Alshargi(参考訳) Googleや他の検索エンジンは、ユーザが提供するエンティティに関する関連事実を要約したナレッジカードを表現してエンティティ検索を行う。 しかし、知識カードはウィキページやFreebaseのような百科事典のエントリを持つ特定のエンティティに限定されている。 現在の百科事典は人気の高いエンティティに限定されており、新興のエンティティと比べてはるかに少ない。 検索結果に現れるエンティティに関する知識が利用可能であるにもかかわらず、それらに関する断片化された知識をキャプチャ、抽象化、夏期化、融合、検証するためのアプローチはない。 そこで,本稿では,現生エンティティの上位n検索スニペットから拡張したコーパスから,現生エンティティに関する2種類の知識を抽出する手法を開発した。 最初の種類の知識は、新興エンティティの役割を、例えば、s/he とは誰かというように特定します。 第2のタイプは、新興エンティティと密接に関連するエンティティをキャプチャする。 テストベッドとして,20の新興エンティティと20のポピュラーエンティティのコレクションを根拠として検討した。 私たちのアプローチは、テキスト分析とエンティティ埋め込みに基づく教師なしのアプローチです。 実験の結果,エンティティの認識には87\%以上,ランキングには75\%以上と有望な結果が得られた。 関連した型のうち87\%は認識可能であった。 テストベッドとソースコードはgithub https://github.com/sunnyud/research_source_codeで入手できます。

Google and other search engines feature the entity search by representing a knowledge card summarizing related facts about the user-supplied entity. However, the knowledge card is limited to certain entities that have a Wiki page or an entry in encyclopedias such as Freebase. The current encyclopedias are limited to highly popular entities, which are far fewer compared with the emerging entities. Despite the availability of knowledge about the emerging entities on the search results, yet there are no approaches to capture, abstract, summerize, fuse, and validate fragmented pieces of knowledge about them. Thus, in this paper, we develop approaches to capture two types of knowledge about the emerging entities from a corpus extended from top-n search snippets of a given emerging entity. The first kind of knowledge identifies the role(s) of the emerging entity as, e.g., who is s/he? The second kind captures the entities closely associated with the emerging entity. As the testbed, we considered a collection of 20 emerging entities and 20 popular entities as the ground truth. Our approach is an unsupervised approach based on text analysis and entity embeddings. Our experimental studies show promising results as the accuracy of more than $87\%$ for recognizing entities and $75\%$ for ranking them. Besides $87\%$ of the entailed types were recognizable. Our testbed and source code is available on Github https://github.com/sunnyUD/research_source_code.
翻訳日:2023-04-07 20:50:44 公開日:2021-03-17
# 安定器形式における絡み合いトリミング

Entanglement trimming in stabilizer formalism ( http://arxiv.org/abs/2103.09932v1 )

ライセンス: Link先を確認
Changchun Zhong, Yat Wong, Liang Jiang(参考訳) 量子ネットワークでは、alice、bob、charlieがそれぞれ$a$、$b$、$c$と表記した$n$ qubitsがあるとする。 我々は、キュービットを安定化状態として記述し、システム $a$ が結合システム $bc$ と絡み合っていると仮定する必要がある。 興味深い質問は、すべてのエンタングルメントを$c$のローカル操作によってシステム$a$と$b$に、古典的な通信を$ab$に、すなわち \textit{entanglement trimming}に転送できるかどうかである。 我々は必要十分条件を見つけ、この絡み合いのトリミングを構成的に証明し、それを「より大きな男の原理」と呼ぶ。 この原理は二乗自由次元と連続変数安定化状態を持つquditにまで拡張される。

Suppose in a quantum network, there are $n$ qubits hold by Alice, Bob and Charlie, denoted by systems $A$, $B$ and $C$, respectively. We require the qubits to be described by a stabilizer state and assume the system $A$ is entangled with the combined system $BC$. An interesting question to ask is when it is possible to transfer all the entanglement to system $A$ and $B$ by local operation on $C$ and classical communication to $AB$, namely \textit{entanglement trimming}. We find a necessary and sufficient condition and prove constructively for this entanglement trimming, which we name it as "the bigger man principle". This principle is then extended to qudit with square-free dimension and continuous variable stabilizer states.
翻訳日:2023-04-07 20:50:26 公開日:2021-03-17
# エンティティアライメントのためのアクティブラーニング

Active Learning for Entity Alignment ( http://arxiv.org/abs/2001.08943v3 )

ライセンス: Link先を確認
Max Berrendorf and Evgeniy Faerman and Volker Tresp(参考訳) 本稿では,知識グラフデータセットにおけるエンティティアライメントのラベル付けのための新しいフレームワークを提案する。 ヒューマンラベラーの情報インスタンスを選択するためのさまざまな戦略が、私たちのフレームワークのコアを構築します。 エンティティアライメントのラベリングが、単一のインスタンスにクラスラベルを割り当てることと、これらの違いがラベリング効率にどのように影響するかを説明します。 これらの考察に基づき,様々な学習戦略を提案し,評価する。 主な発見の1つは、効率的な事前計算とデプロイが容易な受動的学習アプローチが、アクティブな学習戦略に匹敵するパフォーマンスを達成することである。

In this work, we propose a novel framework for the labeling of entity alignments in knowledge graph datasets. Different strategies to select informative instances for the human labeler build the core of our framework. We illustrate how the labeling of entity alignments is different from assigning class labels to single instances and how these differences affect the labeling efficiency. Based on these considerations we propose and evaluate different active and passive learning strategies. One of our main findings is that passive learning approaches, which can be efficiently precomputed and deployed more easily, achieve performance comparable to the active learning strategies.
翻訳日:2023-01-07 04:59:52 公開日:2021-03-17
# 敵対事例のベイズ最適視点

A Bayes-Optimal View on Adversarial Examples ( http://arxiv.org/abs/2002.08859v2 )

ライセンス: Link先を確認
Eitan Richardson and Yair Weiss(参考訳) 敵対的な例の発見以来、入力の小さな摂動で現代のCNN分類器を騙す能力は、現在のニューラルネットワークやトレーニング手法に特有の「バグ」なのか、高次元幾何学の必然的な「機能」なのか、多くの議論がなされてきた。 本稿では,ベイズ最適分類の観点からの逆例について考察する。 我々は,ベイズ・最適分類器を効率的に計算し,これらの分類器が高次元でも対角攻撃に対して確実に堅牢であるような分布に関する解析条件を導出する現実的な画像データセットを構築した。 これらの「ゴールドスタンダード」最適分類器が堅牢である場合でも、同一データセット上でトレーニングされたCNNは、常に脆弱な分類器を学習し、敵の例がしばしば回避可能な「バグ」であることを示す。 さらに,同一データ上でトレーニングされたrbf svmがロバスト分類器を一貫して学習することを示す。 同じ傾向は、異なるデータセット内の実画像を使った実験でも観察される。

Since the discovery of adversarial examples - the ability to fool modern CNN classifiers with tiny perturbations of the input, there has been much discussion whether they are a "bug" that is specific to current neural architectures and training methods or an inevitable "feature" of high dimensional geometry. In this paper, we argue for examining adversarial examples from the perspective of Bayes-Optimal classification. We construct realistic image datasets for which the Bayes-Optimal classifier can be efficiently computed and derive analytic conditions on the distributions under which these classifiers are provably robust against any adversarial attack even in high dimensions. Our results show that even when these "gold standard" optimal classifiers are robust, CNNs trained on the same datasets consistently learn a vulnerable classifier, indicating that adversarial examples are often an avoidable "bug". We further show that RBF SVMs trained on the same data consistently learn a robust classifier. The same trend is observed in experiments with real images in different datasets.
翻訳日:2022-12-30 06:22:20 公開日:2021-03-17
# オブジェクト・アンタングリングのためのディープ・コンバーサリー強化学習

Deep Adversarial Reinforcement Learning for Object Disentangling ( http://arxiv.org/abs/2003.03779v2 )

ライセンス: Link先を確認
Melvin Laux, Oleg Arenz, Jan Peters, Joni Pajarinen(参考訳) 深層学習と改良されたトレーニング技術と高い計算能力が組み合わさって、強化学習(RL)の分野での進歩と、手動操作などのロボットRLアプリケーションの成功につながっている。 しかし、ほとんどのロボットRLはよく知られた初期状態分布に依存している。 しかし、現実世界のタスクでは、この情報は利用できないことが多い。 例えば、廃棄物を解体するとき、ロボットの実際の位置 w.r.t.\ はRLポリシーが訓練された位置と一致しないかもしれない。 この問題を解決するために,新しい対人強化学習(ARL)フレームワークを提案する。 ARLフレームワークは、元のエージェントであるプロタゴニストを挑戦する状態に操るために訓練された敵を利用する。 我々は、敵の方針の変化に適応できるように、主人公と敵を共同で訓練する。 本手法は,ロボット制御のためのエンドツーエンドシステムを訓練し,課題を解消することで,学習からシナリオテストへ一般化できることを示す。 kuka lbr+ 7-dofロボットアームを用いた実験により,訓練中の初期状態の異なる初期状態から開始した場合,本手法がベースライン法に勝ることを示した。

Deep learning in combination with improved training techniques and high computational power has led to recent advances in the field of reinforcement learning (RL) and to successful robotic RL applications such as in-hand manipulation. However, most robotic RL relies on a well known initial state distribution. In real-world tasks, this information is however often not available. For example, when disentangling waste objects the actual position of the robot w.r.t.\ the objects may not match the positions the RL policy was trained for. To solve this problem, we present a novel adversarial reinforcement learning (ARL) framework. The ARL framework utilizes an adversary, which is trained to steer the original agent, the protagonist, to challenging states. We train the protagonist and the adversary jointly to allow them to adapt to the changing policy of their opponent. We show that our method can generalize from training to test scenarios by training an end-to-end system for robot control to solve a challenging object disentangling task. Experiments with a KUKA LBR+ 7-DOF robot arm show that our approach outperforms the baseline method in disentangling when starting from different initial states than provided during training.
翻訳日:2022-12-25 14:07:06 公開日:2021-03-17
# CARPAL:並列オートノミーのための信頼度認識

CARPAL: Confidence-Aware Intent Recognition for Parallel Autonomy ( http://arxiv.org/abs/2003.08003v2 )

ライセンス: Link先を確認
Xin Huang, Stephen G. McGill, Jonathan A. DeCastro, Luke Fletcher, John J. Leonard, Brian C. Williams, Guy Rosman(参考訳) 運転者の意図を予測することは、高度な運転支援システムにとって困難かつ重要なタスクである。 従来の予測に対する信頼度尺度は、予測された軌道が安全な運転の下流の決定に影響を及ぼす方法をしばしば無視する。 本稿では,確率的ドライバ軌道だけでなく,与えられた下流タスクの予測に関連するユーティリティ統計も予測する,新しいマルチタスク意図認識ニューラルネットワークを提案する。 タスク固有の実用統計を推論することにより、リアルタイム意思決定におけるドライバー追跡予測の役割を考慮に入れた並列自律性決定基準を確立する。 我々は,下流計画作業における不確実性を考慮し,安全でない決定につながる可能性のあるシステムのロバスト性をさらに向上させる。 我々は,実際の都市運転データセット上でオンラインシステムをテストし,ベースライン手法と比較して,リコールとフォールアウトの指標でその利点を実証し,介入や警告のユースケースでの有効性を実証する。

Predicting driver intentions is a difficult and crucial task for advanced driver assistance systems. Traditional confidence measures on predictions often ignore the way predicted trajectories affect downstream decisions for safe driving. In this paper, we propose a novel multi-task intent recognition neural network that predicts not only probabilistic driver trajectories, but also utility statistics associated with the predictions for a given downstream task. We establish a decision criterion for parallel autonomy that takes into account the role of driver trajectory prediction in real-time decision making by reasoning about estimated task-specific utility statistics. We further improve the robustness of our system by considering uncertainties in downstream planning tasks that may lead to unsafe decisions. We test our online system on a realistic urban driving dataset, and demonstrate its advantage in terms of recall and fall-out metrics compared to baseline methods, and demonstrate its effectiveness in intervention and warning use cases.
翻訳日:2022-12-22 09:39:47 公開日:2021-03-17
# パーミッションプール:教師付き注意によるサンプル効率の向上

Privileged Pooling: Better Sample Efficiency Through Supervised Attention ( http://arxiv.org/abs/2003.09168v3 )

ライセンス: Link先を確認
Andres C. Rodriguez, Stefano D'Aronco, Konrad Schindler and Jan Dirk Wegner(参考訳) 本稿では,訓練データに対するキーポイントアノテーションという形で,特権情報を用いた教師付き画像分類手法を提案する。 私たちの主な動機は生物多様性モデリングのような生態学的応用に対する動物種の認識であり、これはレアな種による長い尾の種分布と、カメラトラップにおける繰り返しシーン背景のような強いデータセットバイアスのために困難である。 これらの課題に対処するために,キーポイントアノテーションを用いて視覚的に注意を喚起する機構を提案する。 この特権情報は、新しい特権プーリング操作として実装され、トレーニング中にのみ必要であり、モデルが識別可能な領域に集中するのに役立つ。 3つの異なる動物種データセットを用いた実験で、特権プールを持つディープネットワークがより効率的に、より一般化できることを示した。

We propose a scheme for supervised image classification that uses privileged information, in the form of keypoint annotations for the training data, to learn strong models from small and/or biased training sets. Our main motivation is the recognition of animal species for ecological applications such as biodiversity modelling, which is challenging because of long-tailed species distributions due to rare species, and strong dataset biases such as repetitive scene background in camera traps. To counteract these challenges, we propose a visual attention mechanism that is supervised via keypoint annotations that highlight important object parts. This privileged information, implemented as a novel privileged pooling operation, is only required during training and helps the model to focus on regions that are discriminative. In experiments with three different animal species datasets, we show that deep networks with privileged pooling can use small training sets more efficiently and generalize better.
翻訳日:2022-12-21 22:07:14 公開日:2021-03-17
# SFE-GACN:埋め込み空間におけるカテゴリ内生成を用いた未知の攻撃検出手法

SFE-GACN: A Novel Unknown Attack Detection Method Using Intra Categories Generation in Embedding Space ( http://arxiv.org/abs/2004.05693v2 )

ライセンス: Link先を確認
Ao Liu, Yunpeng Wang, Tao Li(参考訳) 暗号化されたネットワークトラフィック侵入検出では,ディープラーニングに基づくスキームが注目されている。 しかし、現実のシナリオでは、データはしばしば不十分(フェールショット)であり、モデル予測と基底真理の間に様々なずれが生じる。 したがって、数ショットに基づく未知の攻撃検出などの下流タスクは、不十分なデータによって制限される。 本稿では,埋め込み空間におけるカテゴリ内生成(SFE-GACN)に基づく未知の攻撃検出手法を提案する。 具体的には,セッションのコンテキスト(セッションはネットワークトラフィックの基本的な粒度)を要約するために,セッション機能埋め込み(sfe)を提案した。 このようにして、少数事例における予備情報拡張の目標を達成する。 第2に,生成したサンプルが類似するカテゴリに陥ることを避けるために,生成したサンプルを監督することにより,従来の生成型adversarial networkを改善した生成型adversarial cooperative network(gacn)を提案する。 提案したSFE-GACNは,少数ショットの場合のセッションサンプルを正確に生成し,データ拡張時のカテゴリ間の差異を確実にする。 その結果、最先端法と比較して平均TPRは8.38%高く、平均FPRは12.77%低いことがわかった。 さらに、グラフィックデータセット上でGACNのグラフィクス生成能力を評価し、提案したGACNを多カテゴリのグラフィクスを容易に生成できることを示す。

In the encrypted network traffic intrusion detection, deep learning based schemes have attracted lots of attention. However, in real-world scenarios, data is often insufficient (few-shot), which leads to various deviations between the models prediction and the ground truth. Consequently, downstream tasks such as unknown attack detection based on few-shot will be limited by insufficient data. In this paper, we propose a novel unknown attack detection method based on Intra Categories Generation in Embedding Space, namely SFE-GACN, which might be the solution of few-shot problem. Concretely, we first proposed Session Feature Embedding (SFE) to summarize the context of sessions (session is the basic granularity of network traffic), bring the insufficient data to the pre-trained embedding space. In this way, we achieve the goal of preliminary information extension in the few-shot case. Second, we further propose the Generative Adversarial Cooperative Network (GACN), which improves the conventional Generative Adversarial Network by supervising the generated sample to avoid falling into similar categories, and thus enables samples to generate intra categories. Our proposed SFE-GACN can accurately generate session samples in the case of few-shot, and ensure the difference between categories during data augmentation. The detection results show that, compared to the state-of-the-art method, the average TPR is 8.38% higher, and the average FPR is 12.77% lower. In addition, we evaluated the graphics generation capabilities of GACN on the graphics dataset, the result shows our proposed GACN can be popularized for generating easy-confused multi-categories graphics.
翻訳日:2022-12-14 05:40:20 公開日:2021-03-17
# taskology: 大規模タスクリレーションの利用

Taskology: Utilizing Task Relations at Scale ( http://arxiv.org/abs/2005.07289v2 )

ライセンス: Link先を確認
Yao Lu, S\"oren Pirk, Jan Dlabal, Anthony Brohan, Ankita Pasad, Zhao Chen, Vincent Casser, Anelia Angelova, Ariel Gordon(参考訳) 多くのコンピュータビジョンタスクは、シーン理解の問題に対処し、オブジェクト分類、検出、シーンセグメンテーション、深さ推定など、自然に相互に関連している。 共同で訓練し、一貫性の喪失を通じて既知の関係を通してお互いを監督することにより、タスクの集合間の固有の関係を活用できることを示す。 さらに、タスク間の関係を明確に活用することで、ラベル付きデータの必要性を劇的に低減し、教師なしまたはシミュレートされた追加データによるトレーニングを可能にする。 タスクレベルの並列性を持つ分散ジョイントトレーニングアルゴリズムを実演し、高次非同期性とロバスト性を実現する。 これにより、複数のタスク、あるいは大量の入力データを大規模に学習することができる。 本稿では, 深度と正規予測, セマンティックセグメンテーション, 3次元運動とエゴモーション推定, および点雲における物体追跡と3次元検出という, タスクのサブセットについて示す。 これらの課題、特に低ラベル体制における性能改善を観察する。

Many computer vision tasks address the problem of scene understanding and are naturally interrelated e.g. object classification, detection, scene segmentation, depth estimation, etc. We show that we can leverage the inherent relationships among collections of tasks, as they are trained jointly, supervising each other through their known relationships via consistency losses. Furthermore, explicitly utilizing the relationships between tasks allows improving their performance while dramatically reducing the need for labeled data, and allows training with additional unsupervised or simulated data. We demonstrate a distributed joint training algorithm with task-level parallelism, which affords a high degree of asynchronicity and robustness. This allows learning across multiple tasks, or with large amounts of input data, at scale. We demonstrate our framework on subsets of the following collection of tasks: depth and normal prediction, semantic segmentation, 3D motion and ego-motion estimation, and object tracking and 3D detection in point clouds. We observe improved performance across these tasks, especially in the low-label regime.
翻訳日:2022-12-03 04:39:20 公開日:2021-03-17
# 対訳 テキスト 対 音声

End-to-End Adversarial Text-to-Speech ( http://arxiv.org/abs/2006.03575v3 )

ライセンス: Link先を確認
Jeff Donahue, Sander Dieleman, Miko{\l}aj Bi\'nkowski, Erich Elsen, Karen Simonyan(参考訳) 現代のテキスト音声合成パイプラインは通常、複数の処理段階を伴い、それぞれが設計または学習される。 本研究では,正規化テキストや音素からの音声合成をエンドツーエンドに行うための難解な課題を克服し,文字や音素の入力列を直接操作し,生の音声出力を生成するモデルを構築した。 提案したジェネレータはフィードフォワードであり,トークン長予測に基づくアライメント方式を用いて,トレーニングと推論の両方に効率的である。 対向フィードバックと予測損失を組み合わせた高忠実度オーディオを学習し、生成した音声の総持続時間とメル-スペクトログラムで大まかに一致させるために、生成した音声を制約する。 モデルが生成した音声の時間変動を捉えるために,スペクトルに基づく予測損失にソフトダイナミック・タイム・ワープを用いる。 得られたモデルは、多段階トレーニングと追加の監督に依存する最先端モデルに匹敵する5ポイントスケールで平均的な評価スコアを4以上達成する。

Modern text-to-speech synthesis pipelines typically involve multiple processing stages, each of which is designed or learnt independently from the rest. In this work, we take on the challenging task of learning to synthesise speech from normalised text or phonemes in an end-to-end manner, resulting in models which operate directly on character or phoneme input sequences and produce raw speech audio outputs. Our proposed generator is feed-forward and thus efficient for both training and inference, using a differentiable alignment scheme based on token length prediction. It learns to produce high fidelity audio through a combination of adversarial feedback and prediction losses constraining the generated audio to roughly match the ground truth in terms of its total duration and mel-spectrogram. To allow the model to capture temporal variation in the generated audio, we employ soft dynamic time warping in the spectrogram-based prediction loss. The resulting model achieves a mean opinion score exceeding 4 on a 5 point scale, which is comparable to the state-of-the-art models relying on multi-stage training and additional supervision.
翻訳日:2022-11-25 04:36:56 公開日:2021-03-17
# 多様体トポロジーによる深部生成モデルの絡み合いの評価

Evaluating the Disentanglement of Deep Generative Models through Manifold Topology ( http://arxiv.org/abs/2006.03680v5 )

ライセンス: Link先を確認
Sharon Zhou, Eric Zelikman, Fred Lu, Andrew Y. Ng, Gunnar Carlsson, Stefano Ermon(参考訳) 不整合表現の学習は、生成モデルの一般化、堅牢性、解釈性を改善するための基本的な課題とみなされる。 しかし、歪みの測定は困難で一貫性がなく、しばしばアドホックな外部モデルや特定のデータセットに依存している。 そこで本研究では, 学習表現における条件付き部分多様体の位相的類似度を測定し, 生成モデルのみを用いた不整合の定量化手法を提案する。 この方法は教師なしと教師なしの両方の変種を示す。 提案手法の有効性と適用性を説明するため,複数のデータセットにまたがる複数の最先端モデルを実験的に評価した。 我々の手法は既存の手法と同様にモデルをランク付けする。 ourcodeはhttps://github.com/stanfordmlgroup/disentanglementで公開されている。

Learning disentangled representations is regarded as a fundamental task for improving the generalization, robustness, and interpretability of generative models. However, measuring disentanglement has been challenging and inconsistent, often dependent on an ad-hoc external model or specific to a certain dataset. To address this, we present a method for quantifying disentanglement that only uses the generative model, by measuring the topological similarity of conditional submanifolds in the learned representation. This method showcases both unsupervised and supervised variants. To illustrate the effectiveness and applicability of our method, we empirically evaluate several state-of-the-art models across multiple datasets. We find that our method ranks models similarly to existing methods. We make ourcode publicly available at https://github.com/stanfordmlgroup/disentanglement.
翻訳日:2022-11-25 02:31:19 公開日:2021-03-17
# 初歩的ワッサースタイン模倣学習

Primal Wasserstein Imitation Learning ( http://arxiv.org/abs/2006.04678v2 )

ライセンス: Link先を確認
Robert Dadashi, L\'eonard Hussenot, Matthieu Geist, Olivier Pietquin(参考訳) 模倣学習(IL)法は,エージェントの行動と専門家の行動とを一致させようとする。 本研究では,PWIL(Primal Wasserstein Imitation Learning)という,概念的に単純なアルゴリズムに基づく新しいIL法を提案する。 環境とのインタラクションを通じて報酬関数を学習し,微調整をほとんど必要としない最近の敵ILアルゴリズムとは対照的に,オフラインで引き起こされる報酬関数を提案する。 エージェント間相互作用や環境とのエキスパート間相互作用の観点から,mujocoドメインのさまざまな連続的制御タスクにおいて,専門家の振る舞いを効果的に再現できることを示す。 最後に,我々が訓練しているエージェントの振る舞いが,一般的に使用されるパフォーマンスのプロキシではなく,専門家の振る舞いとワッサースタイン距離と一致することを示す。

Imitation Learning (IL) methods seek to match the behavior of an agent with that of an expert. In the present work, we propose a new IL method based on a conceptually simple algorithm: Primal Wasserstein Imitation Learning (PWIL), which ties to the primal form of the Wasserstein distance between the expert and the agent state-action distributions. We present a reward function which is derived offline, as opposed to recent adversarial IL algorithms that learn a reward function through interactions with the environment, and which requires little fine-tuning. We show that we can recover expert behavior on a variety of continuous control tasks of the MuJoCo domain in a sample efficient manner in terms of agent interactions and of expert interactions with the environment. Finally, we show that the behavior of the agent we train matches the behavior of the expert with the Wasserstein distance, rather than the commonly used proxy of performance.
翻訳日:2022-11-24 00:51:23 公開日:2021-03-17
# 深層ニューラルネットワークの複雑さと深層特徴表現の他の特徴

Complexity for deep neural networks and other characteristics of deep feature representations ( http://arxiv.org/abs/2006.04791v2 )

ライセンス: Link先を確認
Romuald A. Janik, Przemek Witaszczyk(参考訳) 本稿では,ニューラルネットワークの計算の非線形性を定量化する複雑性の概念と,特徴表現の有効次元の相補的尺度を定義する。 各種データセットのトレーニングネットワークや,トレーニング中の動的特性,特に電力法のスケーリングを明らかにするために,これらのオブザーバブルを調査する。 これらのオブザーバブルは、データセット自体の隠れた内部構造をスケールや深さの関数として、二重的に理解することができる。 複雑性の概念のエントロピー的特徴は、神経科学や統計物理学からニューラルネットワークの領域へ解析のモードを移すことを可能にするべきである。 導入された可観測物質は、生物学的神経系の分析に一切変更を加えることなく適用することができる。

We define a notion of complexity, which quantifies the nonlinearity of the computation of a neural network, as well as a complementary measure of the effective dimension of feature representations. We investigate these observables both for trained networks for various datasets as well as explore their dynamics during training, uncovering in particular power law scaling. These observables can be understood in a dual way as uncovering hidden internal structure of the datasets themselves as a function of scale or depth. The entropic character of the proposed notion of complexity should allow to transfer modes of analysis from neuroscience and statistical physics to the domain of artificial neural networks. The introduced observables can be applied without any change to the analysis of biological neuronal systems.
翻訳日:2022-11-23 23:57:04 公開日:2021-03-17
# 静的ジェスチャーと動的ジェスチャーの両方を認識するディープラーニングフレームワーク

A Deep Learning Framework for Recognizing both Static and Dynamic Gestures ( http://arxiv.org/abs/2006.06321v2 )

ライセンス: Link先を確認
Osama Mazhar, Sofiane Ramdani, and Andrea Cherubini(参考訳) 直感的なユーザインターフェースは、人間中心のスマート環境と対話するには不可欠です。 本稿では,静的なジェスチャーと動的ジェスチャーの両方を,(奥行き検出なしで)単純なRGBビジョンを用いて認識する統合フレームワークを提案する。 この機能は、社会的または工業的な環境での安価な人間とロボットの対話に適している。 我々はポーズ駆動型空間アテンション戦略を採用し、提案した静的・動的ジェスチャーネットワーク - StaDNet をガイドする。 人間の上半身の画像から、手周りの関心領域とともに、深度を推定する。 StaDNetの畳み込みニューラルネットワークは、バックグラウンド置換ハンドジェスチャデータセットに基づいて微調整される。 各手に対して10個の静的ジェスチャーを検出するとともに、手画像埋め込みを得る。 その後、これらは強化されたポーズベクトルと融合し、積み重ねられたロング短期記憶ブロックに渡される。 これにより、強化ポーズベクトルと左右手画像埋め込みとから人中心のフレームワイド情報を時間内に集約して、演奏者の動的ジェスチャーを予測する。 いくつかの実験で、提案手法が大規模chalearn 2016データセットの最先端結果を超えることを示した。 さらに,提案手法を用いて学習した知識をPrxisジェスチャデータセットに転送し,その結果もこのデータセットの最先端性よりも優れていることを示す。

Intuitive user interfaces are indispensable to interact with the human centric smart environments. In this paper, we propose a unified framework that recognizes both static and dynamic gestures, using simple RGB vision (without depth sensing). This feature makes it suitable for inexpensive human-robot interaction in social or industrial settings. We employ a pose-driven spatial attention strategy, which guides our proposed Static and Dynamic gestures Network - StaDNet. From the image of the human upper body, we estimate his/her depth, along with the region-of-interest around his/her hands. The Convolutional Neural Network in StaDNet is fine-tuned on a background-substituted hand gestures dataset. It is utilized to detect 10 static gestures for each hand as well as to obtain the hand image-embeddings. These are subsequently fused with the augmented pose vector and then passed to the stacked Long Short-Term Memory blocks. Thus, human-centred frame-wise information from the augmented pose vector and from the left/right hands image-embeddings are aggregated in time to predict the dynamic gestures of the performing person. In a number of experiments, we show that the proposed approach surpasses the state-of-the-art results on the large-scale Chalearn 2016 dataset. Moreover, we transfer the knowledge learned through the proposed methodology to the Praxis gestures dataset, and the obtained results also outscore the state-of-the-art on this dataset.
翻訳日:2022-11-22 13:33:06 公開日:2021-03-17
# ScoreGAN:データ拡張による正規化GANのマルチタスク学習に基づくフルートレビュー検出装置

ScoreGAN: A Fraud Review Detector based on Multi Task Learning of Regulated GAN with Data Augmentation ( http://arxiv.org/abs/2006.06561v2 )

ライセンス: Link先を確認
Saeedreza Shehnepoor, Roberto Togneri, Wei Liu, Mohammed Bennamoun(参考訳) テキスト分類におけるDeep Neural Networks(DNN)の有望なパフォーマンスは、不正レビュー検出に研究者を惹きつけている。 しかし,信頼ラベル付きデータの欠如は,不正レビューの検出における現在のソリューションの性能を制限している。 半教師付き手法としてのGAN(Generative Adversarial Network)は,データ拡張に有効であることを示す。 最先端のソリューションはgansを使ってデータ不足の問題を克服している。 しかし、彼らは不正発生の行動の手がかりを取り入れなかった。 さらに、最先端のアプローチでは、データセットのボット生成レビューを見落としている。 最後に、GANのスケーラビリティと安定性の共通的な制限に悩まされ、トレーニング手順が遅くなる。 本研究では,生成・検出過程において,テキストレビューと評価スコアの両方を利用した不正レビュー検出のためのスコアガンを提案する。 スコアは情報ゲイン最大化(IGM)によって3つの理由で損失関数に組み込まれる。 1つは、ジェネレータに与えられたスコアに基づいてスコア関連レビューを生成することである。 第2に、生成されたレビューを用いて判別器を訓練することにより、テキストとスコアから抽出したGLobal Vector for Word Expression(GLoVe)の結合から学習した共同表現により、ボット生成可能なレビューを正しくラベル付けすることができる。 最後に、GANの安定性とスケーラビリティを改善するために使用できる。 その結果,提案フレームワークは,yelp と tripadvisor データセット上で,ap の7\%,5\% という点で,既存の最先端フレームワークである fakegan よりも優れていた。

The promising performance of Deep Neural Networks (DNNs) in text classification, has attracted researchers to use them for fraud review detection. However, the lack of trusted labeled data has limited the performance of the current solutions in detecting fraud reviews. The Generative Adversarial Network (GAN) as a semi-supervised method has demonstrated to be effective for data augmentation purposes. The state-of-the-art solutions utilize GANs to overcome the data scarcity problem. However, they fail to incorporate the behavioral clues in fraud generation. Additionally, state-of-the-art approaches overlook the possible bot-generated reviews in the dataset. Finally, they also suffer from a common limitation in scalability and stability of the GAN, slowing down the training procedure. In this work, we propose ScoreGAN for fraud review detection that makes use of both review text and review rating scores in the generation and detection process. Scores are incorporated through Information Gain Maximization (IGM) into the loss function for three reasons. One is to generate score-correlated reviews based on the scores given to the generator. Second, the generated reviews are employed to train the discriminator, so the discriminator can correctly label the possible bot-generated reviews through joint representations learned from the concatenation of GLobal Vector for Word representation (GLoVe) extracted from the text and the score. Finally, it can be used to improve the stability and scalability of the GAN. Results show that the proposed framework outperformed the existing state-of-the-art framework, namely FakeGAN, in terms of AP by 7\%, and 5\% on the Yelp and TripAdvisor datasets, respectively.
翻訳日:2022-11-22 13:03:37 公開日:2021-03-17
# 双曲型ニューラルネットワーク++

Hyperbolic Neural Networks++ ( http://arxiv.org/abs/2006.08210v3 )

ライセンス: Link先を確認
Ryohei Shimizu, Yusuke Mukuta, Tatsuya Harada(参考訳) 指数体積成長による歪みを伴わずに木構造を埋め込む能力を持つ双曲空間は、最近、データの階層的性質をよりよく捉えるために機械学習に応用されている。 本研究では,1つの双曲幾何学モデル,すなわちポアンカーの球モデルにおいて,ニューラルネットワークの基本成分を一般化する。 本手法は, パラメータを増大させることなく, 多項対数回帰, 完全連結層, 畳み込み層, 注意機構を統一的な数学的解釈の下で構築する。 実験により,従来の双曲成分と比較してパラメータ効率が優れ,ユークリッド成分よりも安定性と性能が向上した。

Hyperbolic spaces, which have the capacity to embed tree structures without distortion owing to their exponential volume growth, have recently been applied to machine learning to better capture the hierarchical nature of data. In this study, we generalize the fundamental components of neural networks in a single hyperbolic geometry model, namely, the Poincar\'e ball model. This novel methodology constructs a multinomial logistic regression, fully-connected layers, convolutional layers, and attention mechanisms under a unified mathematical interpretation, without increasing the parameters. Experiments show the superior parameter efficiency of our methods compared to conventional hyperbolic components, and stability and outperformance over their Euclidean counterparts.
翻訳日:2022-11-21 02:57:37 公開日:2021-03-17
# ニューラルネットワークの学習経過を監視するための重み空間の検討

An Investigation of the Weight Space to Monitor the Training Progress of Neural Networks ( http://arxiv.org/abs/2006.10424v2 )

ライセンス: Link先を確認
Konstantin Sch\"urholt, Damian Borth(参考訳) ディープニューラルネットワーク(DNN)の安全な使用には、慎重にテストする必要がある。 しかし、デプロイされたモデルはパフォーマンスを改善するためにさらに訓練されることが多い。 厳密なテストと評価は高価であるため、トリガーはモデルの変更の度合いを決定する必要がある。 本稿では,DNNモデルの重み空間について検討する。 以上の結果から, DNNモデルは, DNNトレーニングの進行状況を追跡するために, ウェイト空間における特異な滑らかな軌道上で進化することが示唆された。 我々は、軌道の曲率と滑らかさ、それに沿ったステップの長さが、トレーニングの状態や潜在的な領域シフトに関する情報を含むかもしれないと仮定する。 モデルトラジェクトリを分離し,トラジェクトリのチェックポイントの順序を復元できることが,DNNモデルバージョニングへの第一歩となる可能性がある。

Safe use of Deep Neural Networks (DNNs) requires careful testing. However, deployed models are often trained further to improve in performance. As rigorous testing and evaluation is expensive, triggers are in need to determine the degree of change of a model. In this paper we investigate the weight space of DNN models for structure that can be exploited to that end. Our results show that DNN models evolve on unique, smooth trajectories in weight space which can be used to track DNN training progress. We hypothesize that curvature and smoothness of the trajectories as well as step length along it may contain information on the state of training as well as potential domain shifts. We show that the model trajectories can be separated and the order of checkpoints on the trajectories recovered, which may serve as a first step towards DNN model versioning.
翻訳日:2022-11-19 09:41:06 公開日:2021-03-17
# 報酬関数の違いの定量化

Quantifying Differences in Reward Functions ( http://arxiv.org/abs/2006.13900v3 )

ライセンス: Link先を確認
Adam Gleave, Michael Dennis, Shane Legg, Stuart Russell, Jan Leike(参考訳) 多くのタスクでは、報酬関数はイントロスペクションにアクセスできないか、手続き的に指定するには複雑すぎるため、代わりにユーザデータから学ぶ必要がある。 先行研究は、学習報酬に最適化されたポリシーを評価することによって、学習報酬機能を評価する。 しかし、この方法は、ユーザの好みを反映しない学習報酬関数と、学習報酬を最適化しない政策最適化プロセスとを区別できない。 さらに,本手法は評価環境における行動についてのみ教えてくれるが,その報奨は,わずかに異なる展開環境においても,非常に異なる行動のインセンティブを与える可能性がある。 これらの問題に対処するために,2つの報酬関数間の差を直接定量化するために,政策最適化ステップを使わずに等価-policy invariant comparison (epic) 距離を導入する。 EPIC は、常に同じ最適ポリシーを導出する報酬関数の同値類において不変であることを示す。 さらに,EPICを効率よく近似することができ,カバー分布の選択に対するベースラインよりも堅牢であることがわかった。 最後に、EPIC距離は、異なる遷移力学の下でも最適な政策の後悔と結びつき、政策訓練の成功を予測することを実証的に確認する。 ソースコードはhttps://github.com/humancompatibleai/evaluating-rewardsで入手できます。

For many tasks, the reward function is inaccessible to introspection or too complex to be specified procedurally, and must instead be learned from user data. Prior work has evaluated learned reward functions by evaluating policies optimized for the learned reward. However, this method cannot distinguish between the learned reward function failing to reflect user preferences and the policy optimization process failing to optimize the learned reward. Moreover, this method can only tell us about behavior in the evaluation environment, but the reward may incentivize very different behavior in even a slightly different deployment environment. To address these problems, we introduce the Equivalent-Policy Invariant Comparison (EPIC) distance to quantify the difference between two reward functions directly, without a policy optimization step. We prove EPIC is invariant on an equivalence class of reward functions that always induce the same optimal policy. Furthermore, we find EPIC can be efficiently approximated and is more robust than baselines to the choice of coverage distribution. Finally, we show that EPIC distance bounds the regret of optimal policies even under different transition dynamics, and we confirm empirically that it predicts policy training success. Our source code is available at https://github.com/HumanCompatibleAI/evaluating-rewards.
翻訳日:2022-11-17 09:06:56 公開日:2021-03-17
# Sliced Kernelized Stein Discrepancy

Sliced Kernelized Stein Discrepancy ( http://arxiv.org/abs/2006.16531v3 )

ライセンス: Link先を確認
Wenbo Gong, Yingzhen Li, Jos\'e Miguel Hern\'andez-Lobato(参考訳) kernelized stein discrepancy (ksd) は適合度テストやモデル学習で広く使われているが、次元の呪いに苦しむ。 本稿では,スライスされたスタイン差分と,そのスケーラブルでカーネル化された変種を提案することでこの問題に対処する。 適合度テストに適用すると,提案する誤差がksdおよび各種ベースラインを高い次元で有意に上回ることが示された。 モデル学習においては,異なる相違点を持つ独立成分分析モデルを訓練することにより,既存のSteinの相違点ベースラインに対する利点を示す。 さらに,変分オートエンコーダの学習におけるSVGDのモード崩壊問題を緩和するスライス・スタイン変分勾配降下法(S-SVGD)を提案する。

Kernelized Stein discrepancy (KSD), though being extensively used in goodness-of-fit tests and model learning, suffers from the curse-of-dimensionality. We address this issue by proposing the sliced Stein discrepancy and its scalable and kernelized variants, which employ kernel-based test functions defined on the optimal one-dimensional projections. When applied to goodness-of-fit tests, extensive experiments show the proposed discrepancy significantly outperforms KSD and various baselines in high dimensions. For model learning, we show its advantages over existing Stein discrepancy baselines by training independent component analysis models with different discrepancies. We further propose a novel particle inference method called sliced Stein variational gradient descent (S-SVGD) which alleviates the mode-collapse issue of SVGD in training variational autoencoders.
翻訳日:2022-11-15 04:45:43 公開日:2021-03-17
# 試作品のリスク最小化

Tilted Empirical Risk Minimization ( http://arxiv.org/abs/2007.01162v2 )

ライセンス: Link先を確認
Tian Li, Ahmad Beirami, Maziar Sanjabi, Virginia Smith(参考訳) 経験的リスク最小化(ERM: Empirical Risk Minimization)は、通常、平均的な損失に対して良好に機能するよう設計されており、アウトレーヤに敏感な推定器、不適切な一般化、またはサブグループを不公平に扱うことができる。 多くの手法が個別にこれらの問題に対処することを目指しているが、本研究ではそれらを統合されたフレームワーク、傾いた経験的リスク最小化(TERM)を通して探索する。 特に,傾きと呼ばれるハイパーパラメータを用いてermへ直接拡張することで,個々の損失の影響を柔軟に調整できることを示す。 我々は, TERMがそれぞれ, フェアネスやロバストネスを実現するために, 外れ値の影響を増大あるいは減少させることができること, 一般化に寄与する分散還元特性を有すること, スーパークエンタイル法に対するスムーズな近似とみなすことができること, などの解釈を提示する。 本稿では,TERMを解くためのバッチおよび確率的一階最適化手法を開発し,その問題を一般的な方法と比較して効率的に解けることを示す。 最後に、TERMは、サブグループ間の公平性を強制したり、アウトレーヤの効果を緩和したり、クラス不均衡を処理するなど、様々な用途に利用できることを示す。 TERMは、これらの個々の問題に適した既存のソリューションと競合するだけでなく、外れ値の対応や公平性の促進など、全く新しいアプリケーションを実現することもできる。

Empirical risk minimization (ERM) is typically designed to perform well on the average loss, which can result in estimators that are sensitive to outliers, generalize poorly, or treat subgroups unfairly. While many methods aim to address these problems individually, in this work, we explore them through a unified framework -- tilted empirical risk minimization (TERM). In particular, we show that it is possible to flexibly tune the impact of individual losses through a straightforward extension to ERM using a hyperparameter called the tilt. We provide several interpretations of the resulting framework: We show that TERM can increase or decrease the influence of outliers, respectively, to enable fairness or robustness; has variance-reduction properties that can benefit generalization; and can be viewed as a smooth approximation to a superquantile method. We develop batch and stochastic first-order optimization methods for solving TERM, and show that the problem can be efficiently solved relative to common alternatives. Finally, we demonstrate that TERM can be used for a multitude of applications, such as enforcing fairness between subgroups, mitigating the effect of outliers, and handling class imbalance. TERM is not only competitive with existing solutions tailored to these individual problems, but can also enable entirely new applications, such as simultaneously addressing outliers and promoting fairness.
翻訳日:2022-11-14 13:52:38 公開日:2021-03-17
# メタグラディエントによる半教師付き学習

Semi-Supervised Learning with Meta-Gradient ( http://arxiv.org/abs/2007.03966v2 )

ライセンス: Link先を確認
Xin-Yu Zhang, Taihong Xiao, Haolin Jia, Ming-Ming Cheng, Ming-Hsuan Yang(参考訳) 本研究では,半教師付き学習における簡単なメタ学習アルゴリズムを提案する。 既存の一貫性に基づくアプローチのほとんどは、特に少数のラベル付きデータでトレーニングする場合に、過剰フィッティングやモデルの一般化能力の制限に苦しむことに気付きました。 そこで本研究では,ラベル情報を活用し,メタラーニング手法で問題を最適化し,一般化した正規化用語を提案する。 具体的には,ラベルなしデータの擬似ラベルを求めることにより,ネスト最適化問題として定式化されたラベル付きデータの一般化を行う。 擬似ラベルと正規化項をブリッジするメタグラディエントを用いてこの問題に対処する。 さらに、高次微分の計算を避け、理論収束解析を行うための単純な一階近似を導入する。 SVHN, CIFAR, ImageNetデータセットの大規模な評価は,提案アルゴリズムが最先端の手法に対して良好に動作することを示す。

In this work, we propose a simple yet effective meta-learning algorithm in semi-supervised learning. We notice that most existing consistency-based approaches suffer from overfitting and limited model generalization ability, especially when training with only a small number of labeled data. To alleviate this issue, we propose a learn-to-generalize regularization term by utilizing the label information and optimize the problem in a meta-learning fashion. Specifically, we seek the pseudo labels of the unlabeled data so that the model can generalize well on the labeled data, which is formulated as a nested optimization problem. We address this problem using the meta-gradient that bridges between the pseudo label and the regularization term. In addition, we introduce a simple first-order approximation to avoid computing higher-order derivatives and provide theoretic convergence analysis. Extensive evaluations on the SVHN, CIFAR, and ImageNet datasets demonstrate that the proposed algorithm performs favorably against state-of-the-art methods.
翻訳日:2022-11-12 10:00:56 公開日:2021-03-17
# 構成構造の生涯学習

Lifelong Learning of Compositional Structures ( http://arxiv.org/abs/2007.07732v2 )

ライセンス: Link先を確認
Jorge A. Mendez and Eric Eaton(参考訳) 人間の知性の目印は、自己完結した知識の塊を構築し、それらを新しい組み合わせで適切に再利用し、異なるが構造的な問題を解く能力である。 このような構成構造を学ぶことは、基礎となる探索問題の組合せの性質から、人工システムにとって重要な課題である。 現在まで、作曲学習の研究は生涯または継続学習の研究から大きく進歩している。 これら2つの作業を統合することで、関連するタスクの流れを解決するために使用できる構成構造を生涯学習するための汎用フレームワークを提供する。 我々のフレームワークは学習プロセスを2つの広い段階に分け、新しい問題を同化するために既存のコンポーネントを最もうまく組み合わせる方法を学び、新しい問題に対応するために既存のコンポーネントの集合を適応する方法を学ぶ。 この分離は、初期のタスクの解決方法を覚えるために必要な安定性と、新しいタスクの解決に必要な柔軟性とのトレードオフを明示的に処理します。

A hallmark of human intelligence is the ability to construct self-contained chunks of knowledge and adequately reuse them in novel combinations for solving different yet structurally related problems. Learning such compositional structures has been a significant challenge for artificial systems, due to the combinatorial nature of the underlying search problem. To date, research into compositional learning has largely proceeded separately from work on lifelong or continual learning. We integrate these two lines of work to present a general-purpose framework for lifelong learning of compositional structures that can be used for solving a stream of related tasks. Our framework separates the learning process into two broad stages: learning how to best combine existing components in order to assimilate a novel problem, and learning how to adapt the set of existing components to accommodate the new problem. This separation explicitly handles the trade-off between the stability required to remember how to solve earlier tasks and the flexibility required to solve new tasks, as we show empirically in an extensive evaluation.
翻訳日:2022-11-10 05:01:29 公開日:2021-03-17
# テンポラルスパース符号化を用いた自然データにおける非線形歪みに向けて

Towards Nonlinear Disentanglement in Natural Data with Temporal Sparse Coding ( http://arxiv.org/abs/2007.10930v2 )

ライセンス: Link先を確認
David Klindt, Lukas Schott, Yash Sharma, Ivan Ustyuzhaninov, Wieland Brendel, Matthias Bethge, Dylan Paiton(参考訳) 本研究では,自然映像の変動要因の非線形不等角化を実現する教師なし学習モデルを構築した。 以前の研究は、環境内のいくつかの要素以外が常に一定であれば、表現が切り離される可能性があることを示唆している。 結果として、この問題のために提案されたアルゴリズムは、この正確な性質を持つ慎重に構築されたデータセットでのみテストされ、それらが自然の場面に移行するかどうかは不明である。 ここでは, 分割された自然映画の中の物体が, 時折大きな跳躍を伴って大小の遷移を起こし, 時間的に希薄な分布を特徴とする証拠を示す。 この発見と現在のslowvaeは非教師なし表現学習のモデルであり、時間的に隣接した観測に先立ってスパースを使い、変化する因子の数を仮定せずに生成因子を分離する。 そこで本研究では,本モデルがいくつかの確立されたベンチマークデータセット上で,しばしば最先端のデータを超越した不整合表現を確実に学習することを示す。 さらに,自然力学,自然スプライト,キティマスクを用いた映像データセットへの転送可能性を示す。

We construct an unsupervised learning model that achieves nonlinear disentanglement of underlying factors of variation in naturalistic videos. Previous work suggests that representations can be disentangled if all but a few factors in the environment stay constant at any point in time. As a result, algorithms proposed for this problem have only been tested on carefully constructed datasets with this exact property, leaving it unclear whether they will transfer to natural scenes. Here we provide evidence that objects in segmented natural movies undergo transitions that are typically small in magnitude with occasional large jumps, which is characteristic of a temporally sparse distribution. We leverage this finding and present SlowVAE, a model for unsupervised representation learning that uses a sparse prior on temporally adjacent observations to disentangle generative factors without any assumptions on the number of changing factors. We provide a proof of identifiability and show that the model reliably learns disentangled representations on several established benchmark datasets, often surpassing the current state-of-the-art. We additionally demonstrate transferability towards video datasets with natural dynamics, Natural Sprites and KITTI Masks, which we contribute as benchmarks for guiding disentanglement research towards more natural data domains.
翻訳日:2022-11-08 03:53:22 公開日:2021-03-17
# 神経特徴アライメントによる暗黙的正規化

Implicit Regularization via Neural Feature Alignment ( http://arxiv.org/abs/2008.00938v3 )

ライセンス: Link先を確認
Aristide Baratin, Thomas George, C\'esar Laurent, R Devon Hjelm, Guillaume Lajoie, Pascal Vincent, Simon Lacoste-Julien(参考訳) 幾何学的観点から深層学習における暗黙的な正規化の問題にアプローチする。 jacotらによって導入された神経接点のダイナミックアライメントによって引き起こされる正規化効果を少数のタスク関連方向に沿って強調する。 これは特徴の選択と圧縮の結合メカニズムとして解釈できる。 線形モデルに対するRademacher複雑性境界の新たな解析を外挿することにより、最適化パスに沿った接するカーネルクラスのシーケンスの観点から、この現象を捉えるヒューリスティックな複雑性尺度を動機付け、研究する。

We approach the problem of implicit regularization in deep learning from a geometrical viewpoint. We highlight a regularization effect induced by a dynamical alignment of the neural tangent features introduced by Jacot et al, along a small number of task-relevant directions. This can be interpreted as a combined mechanism of feature selection and compression. By extrapolating a new analysis of Rademacher complexity bounds for linear models, we motivate and study a heuristic complexity measure that captures this phenomenon, in terms of sequences of tangent kernel classes along optimization paths.
翻訳日:2022-11-03 05:46:39 公開日:2021-03-17
# グラウンドド・ロボティクスのためのltl実行可能な意味解析のための自然言語学習

Learning a natural-language to LTL executable semantic parser for grounded robotics ( http://arxiv.org/abs/2008.03277v3 )

ライセンス: Link先を確認
Christopher Wang, Candace Ross, Yen-Ling Kuo, Boris Katz, Andrei Barbu(参考訳) 子どもたちは、言語が文脈でどのように使われているかを観察し、それ自身で使用しようとすることで、明らかな容易さで母国語を取得する。 厳格な注釈や否定的な例、あるいは直接的な修正も必要としない。 我々は、自然言語コマンドの実行に使用できる潜在言語表現を発見する、接地型セマンティックパーザを訓練することで、同じことができるロボットに向けて一歩前進する。 特に、時間的側面を持つコマンドの難易度ドメインに着目し、線形時間論理(LTL)で意味を捉える。 私たちのパーサーは、文と実行のペアとエグゼキュータで訓練されています。 トレーニング時に、パーザはLTLの式として入力の意味表現を仮説化する。 3つの競合する圧力により、パーサーは言語から意味を発見することができる。 第一に、ある文に対する仮定的な意味は、すべての注釈付き実行軌跡を反映するのに十分な許容度でなければならない。 第二に、事前訓練されたエンドツーエンドのltlプランナーであるexecutorは、observive trajectoriesがおそらくその意味の実行であることを示す必要がある。 最後に、元の入力を再構築するジェネレータは、モデルにコマンドに関する知識を保存する表現を見つけるように促す。 これらが合わさって、意味があまり一般的でもなく、具体的でもないことが保証される。 人間の生成した文がより多様で、オープンな辞書で複雑であるにもかかわらず、機械生成コマンドと人生成コマンドの両方をほぼ等しく解析・実行することが可能である。 ここで提示されるアプローチはltlに特有のものではなく、文の意味が仮説化され、実行者がこれらの意味を検証できる任意の領域に適用することができるため、ロボットエージェントの多くの応用への扉を開くことができる。

Children acquire their native language with apparent ease by observing how language is used in context and attempting to use it themselves. They do so without laborious annotations, negative examples, or even direct corrections. We take a step toward robots that can do the same by training a grounded semantic parser, which discovers latent linguistic representations that can be used for the execution of natural-language commands. In particular, we focus on the difficult domain of commands with a temporal aspect, whose semantics we capture with Linear Temporal Logic, LTL. Our parser is trained with pairs of sentences and executions as well as an executor. At training time, the parser hypothesizes a meaning representation for the input as a formula in LTL. Three competing pressures allow the parser to discover meaning from language. First, any hypothesized meaning for a sentence must be permissive enough to reflect all the annotated execution trajectories. Second, the executor -- a pretrained end-to-end LTL planner -- must find that the observe trajectories are likely executions of the meaning. Finally, a generator, which reconstructs the original input, encourages the model to find representations that conserve knowledge about the command. Together these ensure that the meaning is neither too general nor too specific. Our model generalizes well, being able to parse and execute both machine-generated and human-generated commands, with near-equal accuracy, despite the fact that the human-generated sentences are much more varied and complex with an open lexicon. The approach presented here is not specific to LTL: it can be applied to any domain where sentence meanings can be hypothesized and an executor can verify these meanings, thus opening the door to many applications for robotic agents.
翻訳日:2022-11-02 01:20:49 公開日:2021-03-17
# モデルに基づくオフライン計画

Model-Based Offline Planning ( http://arxiv.org/abs/2008.05556v3 )

ライセンス: Link先を確認
Arthur Argenson, Gabriel Dulac-Arnold(参考訳) オフライン学習は、実システムで強化学習(RL)を利用可能にするための重要な部分である。 オフラインRLは、システムの運用からのデータがあるが、ポリシーを学ぶ際にシステムに直接アクセスしないシナリオを考察する。 オフラインデータからRLポリシーをトレーニングする最近の研究は、データから直接学習したモデルフリーポリシーや、学習したデータモデル上での計画の両方の結果を示している。 モデルフリーのポリシはパフォーマンスがよい傾向があるが、より不透明で、外部からの指示が難しく、より大きなシステムへの統合が容易ではない。 本稿では,計画を通してシステムを直接制御できるモデルを生成するオフライン学習者を提案する。 これにより、システムと対話することなく、データから直接ポリシーを制御できます。 本稿では,ロボットによる一連のタスクにおけるモデルベースオフライン計画(MBOP)の性能を示し,その能力が環境制約を尊重するためにプランニングを活用することを実証する。 50秒以内のリアルタイムシステムインタラクションから、特定のシミュレートシステムの至近の警察を見つけることができ、一連の環境でゼロショットの目標条件付きポリシーを作成することができます。 https://youtu.be/nxgghdzofts.com/nxgghdzofts

Offline learning is a key part of making reinforcement learning (RL) useable in real systems. Offline RL looks at scenarios where there is data from a system's operation, but no direct access to the system when learning a policy. Recent work on training RL policies from offline data has shown results both with model-free policies learned directly from the data, or with planning on top of learnt models of the data. Model-free policies tend to be more performant, but are more opaque, harder to command externally, and less easy to integrate into larger systems. We propose an offline learner that generates a model that can be used to control the system directly through planning. This allows us to have easily controllable policies directly from data, without ever interacting with the system. We show the performance of our algorithm, Model-Based Offline Planning (MBOP) on a series of robotics-inspired tasks, and demonstrate its ability leverage planning to respect environmental constraints. We are able to find near-optimal polices for certain simulated systems from as little as 50 seconds of real-time system interaction, and create zero-shot goal-conditioned policies on a series of environments. An accompanying video can be found here: https://youtu.be/nxGGHdZOFts
翻訳日:2022-10-31 04:26:11 公開日:2021-03-17
# 深層学習による電力線部分放電の解釈可能な検出

Interpretable Detection of Partial Discharge in Power Lines with Deep Learning ( http://arxiv.org/abs/2008.05838v3 )

ライセンス: Link先を確認
Gabriel Michau, Chi-Ching Hsu and Olga Fink(参考訳) 部分放電 (PD) は発電機やケーブルなどの電力系統の故障を示す一般的な指標である。 これらのPDは最終的にコストのかかる修理と実質的な停電をもたらす。 PD検出は伝統的に、手作りの特徴と領域の専門知識に頼って電流中の非常に特定のパルスを識別し、ノイズや重畳パルスの存在下での性能は低下する。 本稿では,畳み込みニューラルネットワークに基づく新しいエンドツーエンドフレームワークを提案する。 このフレームワークには2つの貢献がある。 まず、機能抽出を一切必要とせず、堅牢なPD検出を可能にする。 次に、パルス活性化マップを考案する。 これは、PDの検出につながるパルスを識別することで、ドメインの専門家に結果の解釈可能性を提供する。 損傷した電力線を検出するための公開データセットで性能を評価する。 アブレーション研究は,提案手法の各部分の利点を示す。

Partial discharge (PD) is a common indication of faults in power systems, such as generators, and cables. These PD can eventually result in costly repairs and substantial power outages. PD detection traditionally relies on hand-crafted features and domain expertise to identify very specific pulses in the electrical current, and the performance declines in the presence of noise or of superposed pulses. In this paper, we propose a novel end-to-end framework based on convolutional neural networks. The framework has two contributions. First, it does not require any feature extraction and enables robust PD detection. Second, we devise the pulse activation map. It provides interpretability of the results for the domain experts with the identification of the pulses that led to the detection of the PDs. The performance is evaluated on a public dataset for the detection of damaged power lines. An ablation study demonstrates the benefits of each part of the proposed framework.
翻訳日:2022-10-30 23:57:57 公開日:2021-03-17
# 単語センス曖昧化のための言語モデルの解析と評価

Analysis and Evaluation of Language Models for Word Sense Disambiguation ( http://arxiv.org/abs/2008.11608v3 )

ライセンス: Link先を確認
Daniel Loureiro, Kiamehr Rezaee, Mohammad Taher Pilehvar, Jose Camacho-Collados(参考訳) トランスフォーマーベースの言語モデルは、嵐によってNLPの多くの分野を取り込んでいる。 BERTとそのデリバティブは、コンテキストセンシティブなセマンティックニュアンスをキャプチャする能力のおかげで、Word Sense Disambiguation (WSD)など、既存の評価ベンチマークの大部分を支配している。 しかし、単語感覚のエンコーディングと復元における能力や潜在的な制限についてはまだほとんど知識がない。 本稿では、語彙的曖昧性に関して、祝賀されたBERTモデルの詳細な定量的および定性的な分析を行う。 我々の分析の主な結論の1つは、BERTは、単語センス毎に限られた数の例が利用できる場合でも、高精度の感覚区別を正確に取得できるということである。 また,学習データと計算資源の可用性の観点から,言語モデルが理想的な条件下での粗粒度名詞の曖昧さ解消に近づいている場合もみられた。 しかし、このシナリオは現実世界ではほとんど発生しないため、粗い設定でも多くの実践的な課題が残っている。 また,2つの主要言語モデルに基づくwsd戦略,すなわち微調整と特徴抽出の詳細な比較を行い,後者のアプローチが感覚バイアスに関してより堅牢であり,利用可能な限られたトレーニングデータをうまく活用できることを示す。 実際、文脈的埋め込みを平均化する単純な特徴抽出戦略は、単語単位のトレーニング文を3つだけ使用しても頑健であり、このトレーニングデータのサイズを増大させることによって得られる改善は最小限である。

Transformer-based language models have taken many fields in NLP by storm. BERT and its derivatives dominate most of the existing evaluation benchmarks, including those for Word Sense Disambiguation (WSD), thanks to their ability in capturing context-sensitive semantic nuances. However, there is still little knowledge about their capabilities and potential limitations in encoding and recovering word senses. In this article, we provide an in-depth quantitative and qualitative analysis of the celebrated BERT model with respect to lexical ambiguity. One of the main conclusions of our analysis is that BERT can accurately capture high-level sense distinctions, even when a limited number of examples is available for each word sense. Our analysis also reveals that in some cases language models come close to solving coarse-grained noun disambiguation under ideal conditions in terms of availability of training data and computing resources. However, this scenario rarely occurs in real-world settings and, hence, many practical challenges remain even in the coarse-grained setting. We also perform an in-depth comparison of the two main language model based WSD strategies, i.e., fine-tuning and feature extraction, finding that the latter approach is more robust with respect to sense bias and it can better exploit limited available training data. In fact, the simple feature extraction strategy of averaging contextualized embeddings proves robust even using only three training sentences per word sense, with minimal improvements obtained by increasing the size of this training data.
翻訳日:2022-10-24 21:39:45 公開日:2021-03-17
# サンプル効率の高い自動深層強化学習

Sample-Efficient Automated Deep Reinforcement Learning ( http://arxiv.org/abs/2009.01555v3 )

ライセンス: Link先を確認
J\"org K.H. Franke, Gregor K\"ohler, Andr\'e Biedenkapp, Frank Hutter(参考訳) 様々な領域にまたがる課題のかなりの進展にもかかわらず、ハイパーパラメータの選択に敏感であるため、最先端の深層強化学習(rl)アルゴリズムの適用は依然として困難である。 この感度は、学習過程の様々な段階で異なるハイパーパラメータ設定を必要とする可能性があるRL問題の非定常性に起因する。 さらに、RL設定では、ハイパーパラメータ最適化(HPO)は多数の環境相互作用を必要とし、RLの成功を現実のアプリケーションに移すことを妨げる。 本稿では,RLにおける試料効率および動的HPOの問題に取り組む。 本稿では、任意のオフポリシーRLアルゴリズムをメタ最適化する、人口ベース自動RL(AutoRL)フレームワークを提案する。 本フレームワークでは,エージェントを同時にトレーニングしながら,ハイパーパラメータとニューラルアーキテクチャを最適化する。 収集した経験を集団間で共有することで,メタ最適化のサンプル効率を大幅に向上させる。 サンプル効率の高いautorlアプローチの能力を,mujocoベンチマークスイートで人気のtd3アルゴリズムを用いたケーススタディで実証し,メタ最適化に必要な環境インタラクションの数を,人口ベースのトレーニングと比較して最大1桁削減した。

Despite significant progress in challenging problems across various domains, applying state-of-the-art deep reinforcement learning (RL) algorithms remains challenging due to their sensitivity to the choice of hyperparameters. This sensitivity can partly be attributed to the non-stationarity of the RL problem, potentially requiring different hyperparameter settings at various stages of the learning process. Additionally, in the RL setting, hyperparameter optimization (HPO) requires a large number of environment interactions, hindering the transfer of the successes in RL to real-world applications. In this work, we tackle the issues of sample-efficient and dynamic HPO in RL. We propose a population-based automated RL (AutoRL) framework to meta-optimize arbitrary off-policy RL algorithms. In this framework, we optimize the hyperparameters and also the neural architecture while simultaneously training the agent. By sharing the collected experience across the population, we substantially increase the sample efficiency of the meta-optimization. We demonstrate the capabilities of our sample-efficient AutoRL approach in a case study with the popular TD3 algorithm in the MuJoCo benchmark suite, where we reduce the number of environment interactions needed for meta-optimization by up to an order of magnitude compared to population-based training.
翻訳日:2022-10-22 07:09:07 公開日:2021-03-17
# マニフォールド攻撃

Manifold attack ( http://arxiv.org/abs/2009.05965v2 )

ライセンス: Link先を確認
Khanh-Hung Tran, Fred-Maurice Ngole-Mboula and Jean-Luc Starck(参考訳) 機械学習全般、特にディープラーニングは、この10年で大きな関心を集め、多くのコンピュータビジョンや自然言語処理タスクのパフォーマンスが大幅に向上している。 少量のトレーニングサンプルしか持たないデータベースや、大量のパラメータを持つモデルを扱うためには、正規化が不可欠である。 本稿では,元データから「manifold attack」を用いて,多様体保存(manifold learning)を潜在プレゼンテーションに強制する。 後者は、逆学習の手法にインスパイアされ、多様体保存のほとんどを歪める仮想点を見つけ、これらの点を補足的なサンプルとしてモデルトレーニングに利用する。 正則化のアプローチは,正則化の精度向上と,逆例の堅牢性に寄与することを示す。

Machine Learning in general and Deep Learning in particular has gained much interest in the recent decade and has shown significant performance improvements for many Computer Vision or Natural Language Processing tasks. In order to deal with databases which have just a small amount of training samples or to deal with models which have large amount of parameters, the regularization is indispensable. In this paper, we enforce the manifold preservation (manifold learning) from the original data into latent presentation by using "manifold attack". The later is inspired in a fashion of adversarial learning : finding virtual points that distort mostly the manifold preservation then using these points as supplementary samples to train the model. We show that our approach of regularization provides improvements for the accuracy rate and for the robustness to adversarial examples.
翻訳日:2022-10-19 02:40:49 公開日:2021-03-17
# 潜在表現予測ネットワーク

Latent Representation Prediction Networks ( http://arxiv.org/abs/2009.09439v2 )

ライセンス: Link先を確認
Hlynur Dav\'i{\dh} Hlynsson, Merlin Sch\"uler, Robin Schiewer, Tobias Glasmachers, Laurenz Wiskott(参考訳) 深く学習した計画手法は、しばしば無関係なタスクに最適化された学習表現に基づいている。 例えば、彼らは環境の再構築を訓練されるかもしれません。 これらの表現は、環境をナビゲートするロールアウトをシミュレートする予測関数と結合される。 我々は,この学習表現の原則が満足できないことを発見し,そのタスクに対して直接的に最適化されるように学習することを提案する。 これにより、学習した予測関数をフォワードモデルとして使用する、計画の下流タスクに最適な設計による表現が得られる。 そこで本研究では,この表現を予測関数とともに学習する新しい手法を提案する。 予測関数は、視点マッチングタスクにおけるグラフ検索のフォワードモデルとして用いられ、予測可能性を最大化するために学習された表現は、事前学習された表現よりも優れる。 提案手法は,従来の強化学習法よりもサンプル効率が高く,異種物体への表現伝達に成功している。

Deeply-learned planning methods are often based on learning representations that are optimized for unrelated tasks. For example, they might be trained on reconstructing the environment. These representations are then combined with predictor functions for simulating rollouts to navigate the environment. We find this principle of learning representations unsatisfying and propose to learn them such that they are directly optimized for the task at hand: to be maximally predictable for the predictor function. This results in representations that are by design optimal for the downstream task of planning, where the learned predictor function is used as a forward model. To this end, we propose a new way of jointly learning this representation along with the prediction function, a system we dub Latent Representation Prediction Network (LARP). The prediction function is used as a forward model for search on a graph in a viewpoint-matching task and the representation learned to maximize predictability is found to outperform a pre-trained representation. Our approach is shown to be more sample-efficient than standard reinforcement learning methods and our learned representation transfers successfully to dissimilar objects.
翻訳日:2022-10-16 12:27:06 公開日:2021-03-17
# ラインフローに基づくSLAM

Line Flow based SLAM ( http://arxiv.org/abs/2009.09972v2 )

ライセンス: Link先を確認
Qiuyuan Wang, Zike Yan, Junqiu Wang, Fei Xue, Wei Ma, Hongbin Zha(参考訳) 本稿では,3次元ラインセグメントの逐次2次元投影を表すラインフローを予測・更新するビジュアルSLAM法を提案する。 特徴に基づくSLAM法は優れた結果を得たが、それでもオクルージョン、ぼやけた画像、反復的なテクスチャを含む難題に直面している。 これらの問題に対処するために,従来のslamシステムでは無視されてきた同じ3次元線の線分観測のコヒーレンスをエンコードするために線フローを利用する。 このラインフロー表現により、新しいフレーム内のラインセグメントは、対応する3dラインと、時間次元に沿って前者に従って予測できる。 ラインフローをオンザフライで作成、更新、マージ、破棄します。 ベイズネットワークを用いた線形フローベースSLAM(LF-SLAM)をモデル化する。 広範な実験結果から,lf-slam法がラインフローの利用により最先端の成果を得られた。 特に、LF-SLAMは、オクルージョン、ぼやけた画像、反復的なテクスチャを持つ挑戦的なシーンにおいて、優れたローカライゼーションとマッピング結果を得る。

We propose a visual SLAM method by predicting and updating line flows that represent sequential 2D projections of 3D line segments. While feature-based SLAM methods have achieved excellent results, they still face problems in challenging scenes containing occlusions, blurred images, and repetitive textures. To address these problems, we leverage a line flow to encode the coherence of line segment observations of the same 3D line along the temporal dimension, which has been neglected in prior SLAM systems. Thanks to this line flow representation, line segments in a new frame can be predicted according to their corresponding 3D lines and their predecessors along the temporal dimension. We create, update, merge, and discard line flows on-the-fly. We model the proposed line flow based SLAM (LF-SLAM) using a Bayesian network. Extensive experimental results demonstrate that the proposed LF-SLAM method achieves state-of-the-art results due to the utilization of line flows. Specifically, LF-SLAM obtains good localization and mapping results in challenging scenes with occlusions, blurred images, and repetitive textures.
翻訳日:2022-10-16 05:35:30 公開日:2021-03-17
# メタラーニングによる外乱検出の自動化

Automating Outlier Detection via Meta-Learning ( http://arxiv.org/abs/2009.10606v2 )

ライセンス: Link先を確認
Yue Zhao, Ryan A. Rossi, Leman Akoglu(参考訳) 新しいデータセットで教師なしのoutlier detection(od)タスクが与えられた場合、どのようにして優れたoutlier detectionメソッドとそのハイパーパラメータ(モデルと呼ばれる)を自動的に選択できるのか? これまでのところ、odのモデル選択は「ブラックアート」であり、モデル評価は欠如しているため実現不可能である。 (i)ラベル付き保持データ、及び (ii)普遍目的関数。 本研究では,メタ学習に基づくodのモデル選択のための最初の原則的データ駆動アプローチであるmetaodを開発した。 MetaODは、既存の外れ値検出ベンチマークデータセット上の大規模な検出モデルの過去のパフォーマンスを生かし、この以前の経験を乗り越えて、ラベルを使わずに新しいデータセットで使用される効果的なモデルを自動的に選択する。 タスクの類似性を捉えるために,データセットの特徴を定量化する特殊メタ機能を導入する。 包括的実験を通じて,最も人気のある異常検出器(lofやiforestなど)や,最先端の教師なしメタリーナーを非常に高速で上回る検出モデルの選択におけるメタロドの有効性を示す。 この新しい問題の再現性とさらなる研究を促進するために、我々はメタラーニングシステム、ベンチマーク環境、テストベッドデータセット全体をオープンソース化した。

Given an unsupervised outlier detection (OD) task on a new dataset, how can we automatically select a good outlier detection method and its hyperparameter(s) (collectively called a model)? Thus far, model selection for OD has been a "black art"; as any model evaluation is infeasible due to the lack of (i) hold-out data with labels, and (ii) a universal objective function. In this work, we develop the first principled data-driven approach to model selection for OD, called MetaOD, based on meta-learning. MetaOD capitalizes on the past performances of a large body of detection models on existing outlier detection benchmark datasets, and carries over this prior experience to automatically select an effective model to be employed on a new dataset without using any labels. To capture task similarity, we introduce specialized meta-features that quantify outlying characteristics of a dataset. Through comprehensive experiments, we show the effectiveness of MetaOD in selecting a detection model that significantly outperforms the most popular outlier detectors (e.g., LOF and iForest) as well as various state-of-the-art unsupervised meta-learners while being extremely fast. To foster reproducibility and further research on this new problem, we open-source our entire meta-learning system, benchmark environment, and testbed datasets.
翻訳日:2022-10-15 22:08:38 公開日:2021-03-17
# 変分内在制御の再訪

Variational Intrinsic Control Revisited ( http://arxiv.org/abs/2010.03281v2 )

ライセンス: Link先を確認
Taehwan Kwon(参考訳) 本稿では,エージェントが利用できる内在的選択肢の最大セットを見つけるための教師なし強化学習法である変分内在的制御(VIC)を再検討する。 Gregor et al. (2016) によるオリジナルの研究で、2つのVICアルゴリズムが提案された: 1つは明示的にオプションを表すもので、もう1つは暗黙的にそれを行うものである。 後者で得られる内在的な報酬は確率的環境においてバイアスの対象となり,準最適解への収束を引き起こすことを示した。 この挙動を補正し,最大エンパワーメントを達成するために,遷移確率モデルとガウス混合モデルに基づく2つの手法を提案する。 我々は厳密な数学的導出と実験的分析を通じて主張を実証する。

In this paper, we revisit variational intrinsic control (VIC), an unsupervised reinforcement learning method for finding the largest set of intrinsic options available to an agent. In the original work by Gregor et al. (2016), two VIC algorithms were proposed: one that represents the options explicitly, and the other that does it implicitly. We show that the intrinsic reward used in the latter is subject to bias in stochastic environments, causing convergence to suboptimal solutions. To correct this behavior and achieve the maximal empowerment, we propose two methods respectively based on the transitional probability model and Gaussian mixture model. We substantiate our claims through rigorous mathematical derivations and experimental analyses.
翻訳日:2022-10-09 22:27:28 公開日:2021-03-17
# 混成はロバストさと一般化にどのように役立つか

How Does Mixup Help With Robustness and Generalization? ( http://arxiv.org/abs/2010.04819v4 )

ライセンス: Link先を確認
Linjun Zhang, Zhun Deng, Kenji Kawaguchi, Amirata Ghorbani, James Zou(参考訳) Mixupは、サンプルのペアとそのラベルの凸組み合わせをベースとした、一般的なデータ拡張テクニックである。 この単純な手法は、訓練されたモデルの堅牢性と一般化の両方を大幅に改善することが示されている。 しかし、なぜこのような改善が行われたのかはよく分かっていない。 本稿では,トレーニングにおけるmixupの使用がモデルのロバスト性と一般化にどのように役立つかを理論的に示す。 強靭性については,混合損失の最小化は,対向損失の上限をほぼ最小化することを示す。 このことは、Mixupトレーニングによって得られたモデルがFast Gradient Sign Method (FGSM)のようないくつかの種類の敵攻撃に対して堅牢性を示す理由を説明する。 一般化のために、Mixupの拡張は、オーバーフィッティングを減らすデータ適応正規化の特定のタイプに対応することを証明した。 私たちの分析は、Mixupを理解するための新しい洞察とフレームワークを提供します。

Mixup is a popular data augmentation technique based on taking convex combinations of pairs of examples and their labels. This simple technique has been shown to substantially improve both the robustness and the generalization of the trained model. However, it is not well-understood why such improvement occurs. In this paper, we provide theoretical analysis to demonstrate how using Mixup in training helps model robustness and generalization. For robustness, we show that minimizing the Mixup loss corresponds to approximately minimizing an upper bound of the adversarial loss. This explains why models obtained by Mixup training exhibits robustness to several kinds of adversarial attacks such as Fast Gradient Sign Method (FGSM). For generalization, we prove that Mixup augmentation corresponds to a specific type of data-adaptive regularization which reduces overfitting. Our analysis provides new insights and a framework to understand Mixup.
翻訳日:2022-10-09 04:49:05 公開日:2021-03-17
# 極端タスク差分におけるFew-shot Transferのための自己学習

Self-training for Few-shot Transfer Across Extreme Task Differences ( http://arxiv.org/abs/2010.07734v2 )

ライセンス: Link先を確認
Cheng Perng Phoo, Bharath Hariharan(参考訳) ほとんどの少数ショット学習テクニックは、大きなラベル付き"base dataset"で事前学習される。 このような大きなラベル付きデータセットが事前トレーニングに利用できない問題領域(X線、衛星画像など)では、所望の目標タスクとは大きく異なる「ソース」問題領域(イメージNetなど)で事前トレーニングを行なわなければならない。 従来の少数ショットと移行学習のテクニックは、ソースとターゲットタスクの極端な違いの存在下で失敗する。 本稿では,対象領域からラベルのないデータに対して,ソース領域表現を自己学習するという,この極端な領域間ギャップに取り組むための,単純かつ効果的な解決策を提案する。 これにより、複数のドメインからのデータセットからなる挑戦的BSCD-FSLベンチマークにおいて、ターゲットドメインでのワンショット性能を平均2.9ポイント向上することを示す。 私たちのコードはhttps://github.com/cpphoo/startupで利用可能です。

Most few-shot learning techniques are pre-trained on a large, labeled "base dataset". In problem domains where such large labeled datasets are not available for pre-training (e.g., X-ray, satellite images), one must resort to pre-training in a different "source" problem domain (e.g., ImageNet), which can be very different from the desired target task. Traditional few-shot and transfer learning techniques fail in the presence of such extreme differences between the source and target tasks. In this paper, we present a simple and effective solution to tackle this extreme domain gap: self-training a source domain representation on unlabeled data from the target domain. We show that this improves one-shot performance on the target domain by 2.9 points on average on the challenging BSCD-FSL benchmark consisting of datasets from multiple domains. Our code is available at https://github.com/cpphoo/STARTUP.
翻訳日:2022-10-07 02:40:25 公開日:2021-03-17
# 圧縮複雑度対策を用いた因果発見

Causal Discovery using Compression-Complexity Measures ( http://arxiv.org/abs/2010.09336v3 )

ライセンス: Link先を確認
Pranay SY and Nithin Nagaraj(参考訳) 因果推論は科学のあらゆる領域において最も根本的な問題の1つである。 観測された2つの離散記号列から因果方向を$X$と$Y$から推定する問題に対処する。 本稿では、文脈自由文法(CFG)をシーケンス対から推論するための無損失圧縮機に依存し、あるシーケンスから推論された文法が他のシーケンスを圧縮する程度を定量化するフレームワークを提案する。 x$ から推論した文法が他の方向よりも$y$ 圧縮する場合、$x$ は$y$ を引き起こす。 本稿では,この概念を実践するために,CCM(Compression-Complexity Measures)とLZ(Lempel-Ziv)とETC(Effort-To-Compress)の3つのモデルを提案する。 我々は,これらのモデルを合成および実世界のベンチマークで評価し,現在の最先端手法と競合する性能を実証的に観察する。 最後に、SARS-CoV-2ウイルスに属する一対のゲノム配列から直接因果推論のための2つのユニークな応用について述べる。 多数のシークエンスを用いて,我々のモデルがシーケンスペア間の有向因果情報交換をキャプチャし,コンタクトトレーシング,モチーフ発見,病原性の進化など,今後の応用において重要な課題に対処する新たな機会を提示することを示した。

Causal inference is one of the most fundamental problems across all domains of science. We address the problem of inferring a causal direction from two observed discrete symbolic sequences $X$ and $Y$. We present a framework which relies on lossless compressors for inferring context-free grammars (CFGs) from sequence pairs and quantifies the extent to which the grammar inferred from one sequence compresses the other sequence. We infer $X$ causes $Y$ if the grammar inferred from $X$ better compresses $Y$ than in the other direction. To put this notion to practice, we propose three models that use the Compression-Complexity Measures (CCMs) - Lempel-Ziv (LZ) complexity and Effort-To-Compress (ETC) to infer CFGs and discover causal directions without demanding temporal structures. We evaluate these models on synthetic and real-world benchmarks and empirically observe performances competitive with current state-of-the-art methods. Lastly, we present two unique applications of the proposed models for causal inference directly from pairs of genome sequences belonging to the SARS-CoV-2 virus. Using a large number of sequences, we show that our models capture directed causal information exchange between sequence pairs, presenting novel opportunities for addressing key issues such as contact-tracing, motif discovery, evolution of virulence and pathogenicity in future applications.
翻訳日:2022-10-05 21:22:47 公開日:2021-03-17
# 時空間的知識蒸留による高速ビデオサルエント物体検出

Fast Video Salient Object Detection via Spatiotemporal Knowledge Distillation ( http://arxiv.org/abs/2010.10027v2 )

ライセンス: Link先を確認
Yi Tang and Yuanman Li and Wenbin Zou(参考訳) ビデオサルエント物体検出におけるディープラーニングフレームワークの広範な採用から,最近のアプローチの精度は驚くべき進歩を遂げている。 これらのアプローチは主に、光フローまたはリカレントニューラルネットワーク(RNN)に基づくシーケンシャルモジュールを採用して、堅牢な時空間特徴を学習する。 これらのモジュールは有効であるが、対応する深層モデルの計算負担を大幅に増大させる。 本稿では,このネットワークを簡素化し,精度を維持するために,時空間知識蒸留による映像の有意な物体検出に適した軽量ネットワークを提案する。 具体的には, 空間的側面において, 空間的特徴を洗練するために, 塩分指導的特徴埋め込み構造と空間的知識蒸留を組み合わせる。 時間的側面において,ネットワークが隣接するフレームから情報を符号化・蒸留することで,強靭な時間的特徴を学習することのできる時間的知識蒸留戦略を提案する。 広く使われているビデオデータセット(davis, davsod, segtrack-v2)における実験は、我々のアプローチが競合性能を達成することを証明している。 さらに、複雑なシーケンシャルモジュールを使わずに、提案ネットワークはフレーム当たり0.01sの高効率を得ることができる。

Since the wide employment of deep learning frameworks in video salient object detection, the accuracy of the recent approaches has made stunning progress. These approaches mainly adopt the sequential modules, based on optical flow or recurrent neural network (RNN), to learn robust spatiotemporal features. These modules are effective but significantly increase the computational burden of the corresponding deep models. In this paper, to simplify the network and maintain the accuracy, we present a lightweight network tailored for video salient object detection through the spatiotemporal knowledge distillation. Specifically, in the spatial aspect, we combine a saliency guidance feature embedding structure and spatial knowledge distillation to refine the spatial features. In the temporal aspect, we propose a temporal knowledge distillation strategy, which allows the network to learn the robust temporal features through the infer-frame feature encoding and distilling information from adjacent frames. The experiments on widely used video datasets (e.g., DAVIS, DAVSOD, SegTrack-V2) prove that our approach achieves competitive performance. Furthermore, without the employment of the complex sequential modules, the proposed network can obtain high efficiency with 0.01s per frame.
翻訳日:2022-10-05 07:14:40 公開日:2021-03-17
# 等変連続畳み込みを用いた軌道予測

Trajectory Prediction using Equivariant Continuous Convolution ( http://arxiv.org/abs/2010.11344v2 )

ライセンス: Link先を確認
Robin Walters, Jinxi Li, Rose Yu(参考訳) 軌道予測は、自動運転車の安全な運転など、多くのAIアプリケーションにおいて重要な部分である。 しかし、現在の手法は矛盾なく物理的に非現実的な予測をする傾向がある。 実世界の軌道における内部対称性を考えることにより,流体力学の知見を活用し,この限界を克服する。 我々は、軌道予測を改善するための新しいモデル、Equivariant Continous Convolution (ECCO)を提案する。 ECCOはシステムの対称性を埋め込むために回転同変連続畳み込みを用いる。 車両と歩行者の軌跡データセットの両方において、ECCOは極めて少ないパラメータで競争精度を達成している。 サンプル効率も高く、任意の方向のデータポイントから自動的に一般化される。 最後に、ECCOは等分散による一般化を改善し、より物理的に一貫した予測をもたらす。 本手法は,ディープラーニングモデルにおける信頼と透明性を高めるための新たな視点を提供する。

Trajectory prediction is a critical part of many AI applications, for example, the safe operation of autonomous vehicles. However, current methods are prone to making inconsistent and physically unrealistic predictions. We leverage insights from fluid dynamics to overcome this limitation by considering internal symmetry in real-world trajectories. We propose a novel model, Equivariant Continous COnvolution (ECCO) for improved trajectory prediction. ECCO uses rotationally-equivariant continuous convolutions to embed the symmetries of the system. On both vehicle and pedestrian trajectory datasets, ECCO attains competitive accuracy with significantly fewer parameters. It is also more sample efficient, generalizing automatically from few data points in any orientation. Lastly, ECCO improves generalization with equivariance, resulting in more physically consistent predictions. Our method provides a fresh perspective towards increasing trust and transparency in deep learning models.
翻訳日:2022-10-04 23:23:24 公開日:2021-03-17
# エンティティアライメントにおける最先端の批判的評価

A Critical Assessment of State-of-the-Art in Entity Alignment ( http://arxiv.org/abs/2010.16314v2 )

ライセンス: Link先を確認
Max Berrendorf and Ludwig Wacker and Evgeniy Faerman(参考訳) 本稿では,知識グラフにおけるエンティティアライメントのタスクに対する2つの最先端(sota)手法の広範な検討を行う。 そこで,まずベンチマークプロセスを慎重に検討し,いくつかの欠点を同定し,その結果を必ずしも比較できないようにした。 さらに、ハイパーパラメータの最適化をテストセット上で直接行うことはコミュニティの一般的なプラクティスであると考え、報告されたパフォーマンスの情報的価値を低減している。 そこで、ベンチマークデータセットの代表サンプルを選択し、それらの特性を説明する。 また,モデル性能の決定的要因であるエンティティ表現の異なる初期化についても検討する。 さらに,全データに対する全メソッドを評価する公平な評価設定のために,共有トレイン/バリデーション/テスト分割を用いる。 本評価では,いくつかの興味深い結果が得られた。 sotaアプローチのほとんどがベースラインよりもパフォーマンスが良いと観察していますが、データセットにノイズが含まれている場合、それらは困難です。 さらに,SotA手法の異なる特徴が,従来想定されていたよりも優れた性能に不可欠であることを示す。 コードはhttps://github.com/mberr/ea-sota-comparisonで入手できる。

In this work, we perform an extensive investigation of two state-of-the-art (SotA) methods for the task of Entity Alignment in Knowledge Graphs. Therefore, we first carefully examine the benchmarking process and identify several shortcomings, which make the results reported in the original works not always comparable. Furthermore, we suspect that it is a common practice in the community to make the hyperparameter optimization directly on a test set, reducing the informative value of reported performance. Thus, we select a representative sample of benchmarking datasets and describe their properties. We also examine different initializations for entity representations since they are a decisive factor for model performance. Furthermore, we use a shared train/validation/test split for a fair evaluation setting in which we evaluate all methods on all datasets. In our evaluation, we make several interesting findings. While we observe that most of the time SotA approaches perform better than baselines, they have difficulties when the dataset contains noise, which is the case in most real-life applications. Moreover, we find out in our ablation study that often different features of SotA methods are crucial for good performance than previously assumed. The code is available at https://github.com/mberr/ea-sota-comparison.
翻訳日:2022-10-01 16:10:17 公開日:2021-03-17
# MixKD:大規模言語モデルの効率的な蒸留を目指して

MixKD: Towards Efficient Distillation of Large-scale Language Models ( http://arxiv.org/abs/2011.00593v2 )

ライセンス: Link先を確認
Kevin J Liang, Weituo Hao, Dinghan Shen, Yufan Zhou, Weizhu Chen, Changyou Chen, Lawrence Carin(参考訳) 大規模な言語モデルは最近、印象的なパフォーマンスを示している。 それでも、改善された結果は、より大きなモデル、より電力消費、より遅い推論の価格で達成されており、低リソース(メモリと計算の両方)プラットフォームへの適用を妨げている。 知識蒸留(KD)は、そのような大きなモデルを圧縮するための効果的な枠組みとして実証されている。 しかしながら、大規模ニューラルネットワークシステムは、トレーニングインスタンスを記憶する傾向があり、データ分布がわずかに変化すると一貫性のない予測を行う傾向がある。 さらに,学生モデルは,限られたタスク固有データが存在する場合に,教師モデルから有用な情報を要求する機会がほとんどない。 これらの問題に対処するために、より強力な一般化能力を持つモデルを実現するために、単純で効率的なデータ拡張アプローチであるmixupを利用するデータ非依存蒸留フレームワークMixKDを提案する。 具体的には、本来の訓練例に加えて、模擬ペアの線形補間における教師の振る舞いを模倣する学生モデルも奨励されている。 理論的な観点からは、合理的な条件下でmixkdは一般化誤差と経験的誤差との差が小さいことを証明している。 その効果を検証するために,mixkd は標準 kd トレーニングよりも大幅に向上し,いくつかの競合ベースラインを上回っている。 限られたデータ設定とアブレーションによる実験は、提案手法の利点をさらに示している。

Large-scale language models have recently demonstrated impressive empirical performance. Nevertheless, the improved results are attained at the price of bigger models, more power consumption, and slower inference, which hinder their applicability to low-resource (both memory and computation) platforms. Knowledge distillation (KD) has been demonstrated as an effective framework for compressing such big models. However, large-scale neural network systems are prone to memorize training instances, and thus tend to make inconsistent predictions when the data distribution is altered slightly. Moreover, the student model has few opportunities to request useful information from the teacher model when there is limited task-specific data available. To address these issues, we propose MixKD, a data-agnostic distillation framework that leverages mixup, a simple yet efficient data augmentation approach, to endow the resulting model with stronger generalization ability. Concretely, in addition to the original training examples, the student model is encouraged to mimic the teacher's behavior on the linear interpolation of example pairs as well. We prove from a theoretical perspective that under reasonable conditions MixKD gives rise to a smaller gap between the generalization error and the empirical error. To verify its effectiveness, we conduct experiments on the GLUE benchmark, where MixKD consistently leads to significant gains over the standard KD training, and outperforms several competitive baselines. Experiments under a limited-data setting and ablation studies further demonstrate the advantages of the proposed approach.
翻訳日:2022-09-30 22:54:19 公開日:2021-03-17
# ディープニューラルネットワーク分類器のPAC信頼度予測

PAC Confidence Predictions for Deep Neural Network Classifiers ( http://arxiv.org/abs/2011.00716v5 )

ライセンス: Link先を確認
Sangdon Park, Shuo Li, Insup Lee, Osbert Bastani(参考訳) ディープニューラルネットワーク(DNN)を安全クリティカルな環境でデプロイする上で重要な課題は、その不確実性を定量化する厳密な方法を提供することだ。 本稿では,証明可能な正しさ保証を伴うdnnの分類信頼度を推定する新しいアルゴリズムを提案する。 本手法では,二項分布に対するクロッパー・ピアソンの信頼区間をヒストグラム結合法と併用してキャリブレーション予測を行う。 さらに、2つの設定でダウンストリーム保証を有効にするために、予測された信頼性をどのように利用できるかを示します。 (i)高速DNN推論では、正確だが遅いDNNで高速だが不正確なDNNを構成する方法を示し、精度を犠牲にすることなく、厳密な方法で性能を向上させる。 (ii)安全計画(dnnを用いて所定の行為が安全かどうかを視覚的な観察に基づいて予測する場合の安全性を保証する)。 実験では,我々の手法が最先端DNNの保証に利用できることを示した。

A key challenge for deploying deep neural networks (DNNs) in safety critical settings is the need to provide rigorous ways to quantify their uncertainty. In this paper, we propose a novel algorithm for constructing predicted classification confidences for DNNs that comes with provable correctness guarantees. Our approach uses Clopper-Pearson confidence intervals for the Binomial distribution in conjunction with the histogram binning approach to calibrated prediction. In addition, we demonstrate how our predicted confidences can be used to enable downstream guarantees in two settings: (i) fast DNN inference, where we demonstrate how to compose a fast but inaccurate DNN with an accurate but slow DNN in a rigorous way to improve performance without sacrificing accuracy, and (ii) safe planning, where we guarantee safety when using a DNN to predict whether a given action is safe based on visual observations. In our experiments, we demonstrate that our approach can be used to provide guarantees for state-of-the-art DNNs.
翻訳日:2022-09-30 11:13:07 公開日:2021-03-17
# 課題探索のための多様性を考慮した関連学習

Diversity Aware Relevance Learning for Argument Search ( http://arxiv.org/abs/2011.02177v4 )

ライセンス: Link先を確認
Michael Fromm, Max Berrendorf, Sandra Obermeier, Thomas Seidl, Evgeniy Faerman(参考訳) 本研究では,多様な側面をカバーするクエリークレームに対して,関連する引数を検索する問題に焦点を当てる。 state-of-the-artメソッドは、クレームと前提の間の明示的なマッピングに依存しているため、手間とコストのかかる手動アノテーションなしで、利用可能な大量の前提のコレクションを利用できない。 彼らの多様性のアプローチは、選択された前提がすべての側面をカバーすることを直接保証しないクラスタリングを通じて重複を取り除くことに依存している。 本稿では,引数検索問題に対する新しい多段階アプローチを提案する。 本手法では,議論間の意味的関係を捉えるために機械学習モデルを用いる。 さらに、重複を明示的に識別する代わりに、クエリのさまざまな側面をカバーすることを目指している。 我々の経験的評価は、データが少なくても引数探索タスクが大幅に改善されることを実証している。

In this work, we focus on the problem of retrieving relevant arguments for a query claim covering diverse aspects. State-of-the-art methods rely on explicit mappings between claims and premises, and thus are unable to utilize large available collections of premises without laborious and costly manual annotation. Their diversity approach relies on removing duplicates via clustering which does not directly ensure that the selected premises cover all aspects. This work introduces a new multi-step approach for the argument retrieval problem. Rather than relying on ground-truth assignments, our approach employs a machine learning model to capture semantic relationships between arguments. Beyond that, it aims to cover diverse facets of the query, instead of trying to identify duplicates explicitly. Our empirical evaluation demonstrates that our approach leads to a significant improvement in the argument retrieval task even though it requires less data.
翻訳日:2022-09-29 22:41:33 公開日:2021-03-17
# 勾配場とコントラスト損失によるデータ効率な深度推定のための幾何学表現の学習

Learning a Geometric Representation for Data-Efficient Depth Estimation via Gradient Field and Contrastive Loss ( http://arxiv.org/abs/2011.03207v2 )

ライセンス: Link先を確認
Dongseok Shim and H. Jin Kim(参考訳) 1枚のRGB画像から深度マップを推定し,局所化,マッピング,三次元物体検出のために広く研究されている。 シングルビュー深度推定に関する最近の研究は、主に深い畳み込みニューラルネットワーク(convnets)に基づいている。 深さアノテーションタスクは高価かつ非効率であるため、深さラベルなしでconvnetのパフォーマンスを向上させるために非常に簡単に収集できるrgbイメージを活用することは避けられない。 しかし、ほとんどの自己教師付き学習アルゴリズムは、奥行き推定ではなく、分類や物体検出のパフォーマンスを改善するために画像の意味情報を取得することに重点を置いている。 本稿では,既存の自己教師付き手法では深さ推定がうまく機能しないことを示すとともに,運動量コントラスト損失を伴う勾配に基づく自己教師付き学習アルゴリズムを提案する。 その結果、比較的少量の注釈付きデータで、ネットワークは正確に深度マップを推定できる。 本手法はモデル構造に依存しないことを示すため, 2種類の単分子深度推定アルゴリズムを用いて評価を行った。 本手法は,nyu深度v2データセットのランダム初期化と比較して,従来の最先端の自己教師付き学習アルゴリズムを上回り,ラベル付きデータの3倍精度を示す。

Estimating a depth map from a single RGB image has been investigated widely for localization, mapping, and 3-dimensional object detection. Recent studies on a single-view depth estimation are mostly based on deep Convolutional neural Networks (ConvNets) which require a large amount of training data paired with densely annotated labels. Depth annotation tasks are both expensive and inefficient, so it is inevitable to leverage RGB images which can be collected very easily to boost the performance of ConvNets without depth labels. However, most self-supervised learning algorithms are focused on capturing the semantic information of images to improve the performance in classification or object detection, not in depth estimation. In this paper, we show that existing self-supervised methods do not perform well on depth estimation and propose a gradient-based self-supervised learning algorithm with momentum contrastive loss to help ConvNets extract the geometric information with unlabeled images. As a result, the network can estimate the depth map accurately with a relatively small amount of annotated data. To show that our method is independent of the model structure, we evaluate our method with two different monocular depth estimation algorithms. Our method outperforms the previous state-of-the-art self-supervised learning algorithms and shows the efficiency of labeled data in triple compared to random initialization on the NYU Depth v2 dataset.
翻訳日:2022-09-29 04:42:01 公開日:2021-03-17
# モデルベース深層強化学習における計画の役割について

On the role of planning in model-based deep reinforcement learning ( http://arxiv.org/abs/2011.04021v2 )

ライセンス: Link先を確認
Jessica B. Hamrick, Abram L. Friesen, Feryal Behbahani, Arthur Guez, Fabio Viola, Sims Witherspoon, Thomas Anthony, Lars Buesing, Petar Veli\v{c}kovi\'c, Th\'eophane Weber(参考訳) モデルに基づく計画はしばしば、人工エージェントの深い、慎重な推論と一般化のために必要であると考えられている。 近年, モデルベース強化学習 (MBRL) の深部関数近似による成功により, この仮説が強化されているが, モデルベース手法の多様性により, どのコンポーネントが成功を導くか, 理由を追跡することが困難になっている。 本稿では,MBRLエージェントにどのようなメリットがあるのかという3つの疑問に焦点をあてて,近年の手法の貢献を解消する。 2) 計画の中で、パフォーマンスを駆動する選択は何か? 3)計画の一般化はどこまで改善されるのか。 これらの疑問に答えるために,多くのMBRLアルゴリズムと重なり合うコンポーネントを持つ最先端のMBRLアルゴリズムであるMuZero(Schrittwieser et al., 2019)の性能について検討した。 我々は,制御タスク,atari,9x9 go など,幅広い環境において muzero の介入とアブレーションを行う。 1)計画は,政策更新と,より有用なデータ配信の両面において,学習プロセスにおいて最も有用である。 2) 単純なモンテカルロロールアウトを持つ浅い木を使うことは、最も難しい推論タスクを除いて、より複雑な方法と同じくらいパフォーマンスが高い。 3) 計画だけでは,強力な一般化を推進するには不十分である。 これらの結果は、強化学習環境における計画の活用方法と、今後のMBRL研究の課題を浮き彫りにしたものである。

Model-based planning is often thought to be necessary for deep, careful reasoning and generalization in artificial agents. While recent successes of model-based reinforcement learning (MBRL) with deep function approximation have strengthened this hypothesis, the resulting diversity of model-based methods has also made it difficult to track which components drive success and why. In this paper, we seek to disentangle the contributions of recent methods by focusing on three questions: (1) How does planning benefit MBRL agents? (2) Within planning, what choices drive performance? (3) To what extent does planning improve generalization? To answer these questions, we study the performance of MuZero (Schrittwieser et al., 2019), a state-of-the-art MBRL algorithm with strong connections and overlapping components with many other MBRL algorithms. We perform a number of interventions and ablations of MuZero across a wide range of environments, including control tasks, Atari, and 9x9 Go. Our results suggest the following: (1) Planning is most useful in the learning process, both for policy updates and for providing a more useful data distribution. (2) Using shallow trees with simple Monte-Carlo rollouts is as performant as more complex methods, except in the most difficult reasoning tasks. (3) Planning alone is insufficient to drive strong generalization. These results indicate where and how to utilize planning in reinforcement learning settings, and highlight a number of open questions for future MBRL research.
翻訳日:2022-09-28 08:11:29 公開日:2021-03-17
# マルチエージェント運転環境における緊急道路ルール

Emergent Road Rules In Multi-Agent Driving Environments ( http://arxiv.org/abs/2011.10753v2 )

ライセンス: Link先を確認
Avik Pal, Jonah Philion, Yuan-Hong Liao and Sanja Fidler(参考訳) 自動運転車が人間のドライバーと安全に道路を共有するためには、自動運転車は人間のドライバーが同意した特定の「道路規則」に従わなければならない。 "Road rules" include rules that drivers are required to follow by law -- such as the requirement that vehicles stop at red lights -- as well as more subtle social rules -- such as the implicit designation of fast lanes on the highway. In this paper, we provide empirical evidence that suggests that -- instead of hard-coding road rules into self-driving algorithms -- a scalable alternative may be to design multi-agent environments in which road rules emerge as optimal solutions to the problem of maximizing traffic flow. 運転環境の成分が道路規則の出現を引き起こす要因を分析し,騒音の知覚とエージェントの空間密度の2つの重要な要因を見いだした。 交通信号に従うことから車線に続くことまで、7つの社会的運転行動の出現の質的かつ定量的な証拠を提供する。 我々の結果は、世界中の国々が安全で効率的な運転で合意した社会道路規則を実証的に支持する。

For autonomous vehicles to safely share the road with human drivers, autonomous vehicles must abide by specific "road rules" that human drivers have agreed to follow. "Road rules" include rules that drivers are required to follow by law -- such as the requirement that vehicles stop at red lights -- as well as more subtle social rules -- such as the implicit designation of fast lanes on the highway. In this paper, we provide empirical evidence that suggests that -- instead of hard-coding road rules into self-driving algorithms -- a scalable alternative may be to design multi-agent environments in which road rules emerge as optimal solutions to the problem of maximizing traffic flow. We analyze what ingredients in driving environments cause the emergence of these road rules and find that two crucial factors are noisy perception and agents' spatial density. We provide qualitative and quantitative evidence of the emergence of seven social driving behaviors, ranging from obeying traffic signals to following lanes, all of which emerge from training agents to drive quickly to destinations without colliding. Our results add empirical support for the social road rules that countries worldwide have agreed on for safe, efficient driving.
翻訳日:2022-09-22 23:05:21 公開日:2021-03-17
# ode溶液のクラス:滑らか性、被覆数、ノイズ機能適合性、および滑らか性現象の呪い

Classes of ODE solutions: smoothness, covering numbers, implications for noisy function fitting, and the curse of smoothness phenomenon ( http://arxiv.org/abs/2011.11371v3 )

ライセンス: Link先を確認
Ying Zhu, Mozhgan Mirzaei(参考訳) データからODEソリューションを復元する数値的な方法は、基本関数やカーネル関数を最小2乗基準で近似することに依存する。 このアプローチの正確さは、解の滑らかさにかかっている。 本稿では,これらの手法の理論的基盤として,ODE 解クラスのスムーズ性および被覆数に関する新たな結果(その「サイズ」の尺度として)を確立する。 我々の結果は「ODEのクラスの滑らかさの程度と「サイズ」が関連する解のクラスの「サイズ」にどのように影響するか」という答えを提供する。 We show that: (1) for $y^{'}=f\left(y\right)$ and $y^{'}=f\left(x,\,y\right)$, if the absolute values of all $k$th ($k\leq\beta+1$) order derivatives of $f$ are bounded by $1$, then the solution can end up with the $(k+1)$th derivative whose magnitude grows factorially fast in $k$ -- "a curse of smoothness"; (2) our upper bounds for the covering numbers of the $(\beta+2)-$degree smooth solution classes are greater than those of the "standard" $(\beta+2)-$degree smooth class of univariate functions; (3) the mean squared error of least squares fitting for noisy recovery has a convergence rate no larger than $\left(\frac{1}{n}\right)^{\frac{2\left(\beta+2\right)}{2\left(\beta+2\right)+1}}$ if $n=\Omega\left(\left(\beta\sqrt{\log\left(\beta\vee1\right)}\right)^{4\beta+10}\right)$, and under this condition, the rate $\left(\frac{1}{n}\right)^{\frac{2\left(\beta+2\right)}{2\left(\beta+2\right)+1}}$ is minimax optimal in the case of $y^{'}=f\left(x,\,y\right)$; (4) more generally, for the higher order Picard type ODEs, $y^{\left(m\right)}=f\left(x,\,y,\,y^{'},\,...,y^{\left(m-1\right)}\right)$, the covering number of the solution class is bounded from above by the product of the covering number of the class $\mathcal{F}$ that $f$ ranges over and the covering number of the set where initial values lie.

Many numerical methods for recovering ODE solutions from data rely on approximating the solutions using basis functions or kernel functions under a least square criterion. The accuracy of this approach hinges on the smoothness of the solutions. This paper provides a theoretical foundation for these methods by establishing novel results on the smoothness and covering numbers of ODE solution classes (as a measure of their "size"). Our results provide answers to "how do the degree of smoothness and the "size" of a class of ODEs affect the "size" of the associated class of solutions?" We show that: (1) for $y^{'}=f\left(y\right)$ and $y^{'}=f\left(x,\,y\right)$, if the absolute values of all $k$th ($k\leq\beta+1$) order derivatives of $f$ are bounded by $1$, then the solution can end up with the $(k+1)$th derivative whose magnitude grows factorially fast in $k$ -- "a curse of smoothness"; (2) our upper bounds for the covering numbers of the $(\beta+2)-$degree smooth solution classes are greater than those of the "standard" $(\beta+2)-$degree smooth class of univariate functions; (3) the mean squared error of least squares fitting for noisy recovery has a convergence rate no larger than $\left(\frac{1}{n}\right)^{\frac{2\left(\beta+2\right)}{2\left(\beta+2\right)+1}}$ if $n=\Omega\left(\left(\beta\sqrt{\log\left(\beta\vee1\right)}\right)^{4\beta+10}\right)$, and under this condition, the rate $\left(\frac{1}{n}\right)^{\frac{2\left(\beta+2\right)}{2\left(\beta+2\right)+1}}$ is minimax optimal in the case of $y^{'}=f\left(x,\,y\right)$; (4) more generally, for the higher order Picard type ODEs, $y^{\left(m\right)}=f\left(x,\,y,\,y^{'},\,...,y^{\left(m-1\right)}\right)$, the covering number of the solution class is bounded from above by the product of the covering number of the class $\mathcal{F}$ that $f$ ranges over and the covering number of the set where initial values lie.
翻訳日:2022-09-22 03:32:57 公開日:2021-03-17
# StackMix: 補完的なMixアルゴリズム

StackMix: A complementary Mix algorithm ( http://arxiv.org/abs/2011.12618v2 )

ライセンス: Link先を確認
John Chen, Samarth Sinha, Anastasios Kyrillidis(参考訳) 複数の画像を入出力として組み合わせる技術は、畳み込みニューラルネットワークのトレーニングに有効なデータ拡張であることが証明されている。 本稿では,各入力を2つの画像の連結として表現し,ラベルを2つのホットラベルの平均とするstackmixを提案する。 StackMix自身は、"Mix"のラインで広く使われている他の手法と競合している。 さらに重要なことは、以前の作業とは異なり、StackMixと既存のMix拡張を組み合わせて、2つ以上のイメージを効果的に混ぜることで、さまざまなベンチマークで大幅に向上する。 例えば、StackMixとCutMixを組み合わせることで、ImageNetの0.8\%、Tiny ImageNetの3\%、CIFAR-100の2\%、CIFAR-10の0.5\%、STL-10の1.5\%など、教師付き設定におけるテストエラーが改善される。 mixup でも同様の結果が得られた。さらに augmix 上で stackmix と augmix を組み合わせることで,cifar-100-c における 0.7\% の改善とともに,共通入力汚損や摂動に対するロバスト性が向上することを示した。 それ自体は、StackMixによる改善は、CIFAR-100上のラベル付きサンプルのさまざまな数にまたがって保持され、テスト精度のおよそ2\%のギャップを -- データセット全体のわずか5\%まで -- 維持し、標準ベンチマークの$\Pi$-modelで2\%改善された半教師付き設定で有効である。 最後に,提案手法をよりよく理解するために,広範なアブレーション研究を行う。

Techniques combining multiple images as input/output have proven to be effective data augmentations for training convolutional neural networks. In this paper, we present StackMix: Each input is presented as a concatenation of two images, and the label is the mean of the two one-hot labels. On its own, StackMix rivals other widely used methods in the "Mix" line of work. More importantly, unlike previous work, significant gains across a variety of benchmarks are achieved by combining StackMix with existing Mix augmentation, effectively mixing more than two images. E.g., by combining StackMix with CutMix, test error in the supervised setting is improved across a variety of settings over CutMix, including 0.8\% on ImageNet, 3\% on Tiny ImageNet, 2\% on CIFAR-100, 0.5\% on CIFAR-10, and 1.5\% on STL-10. Similar results are achieved with Mixup.We further show that gains hold for robustness to common input corruptions and perturbations at varying severities with a 0.7\% improvement on CIFAR-100-C, by combining StackMix with AugMix over AugMix. On its own, improvements with StackMix hold across different number of labeled samples on CIFAR-100, maintaining approximately a 2\% gap in test accuracy -- down to using only 5\% of the whole dataset -- and is effective in the semi-supervised setting with a 2\% improvement with the standard benchmark $\Pi$-model. Finally, we perform an extensive ablation study to better understand the proposed algorithm.
翻訳日:2022-09-21 02:12:05 公開日:2021-03-17
# NaturalAE:オブジェクト検出器の自然的およびロバストな物理逆転例

NaturalAE: Natural and Robust Physical Adversarial Examples for Object Detectors ( http://arxiv.org/abs/2011.13692v2 )

ライセンス: Link先を確認
Mingfu Xue, Chengxiang Yuan, Can He, Jian Wang, Weiqiang Liu(参考訳) 本論文では,実環境下での物体検出を対象とする自然かつ堅牢な物理対角攻撃法を提案する。 生成した敵の例は、様々な物理的制約に対して堅牢であり、元の画像と視覚的に類似しているため、これらの敵の例は人間にとって自然なものであり、疑念を起こさない。 提案手法は,実環境における逆例のロバスト性を確保するため,異なる画像変換関数を用いて,逆例生成の反復最適化中に様々な物理的変化をシミュレートする。 第二に,本手法では,適応マスクを用いて付加摂動の面積と強度を制限し,実世界の摂動スコア(rps)を用いて実世界の摂動を実環境における実際の騒音と類似させる。 既存の研究と比較すると、我々の生成した敵の例は、目立った摂動の少ない高い成功率を達成することができる。 実験の結果, 異なる距離, 角度, 照度, 撮影など, 様々な室内および屋外の物理的条件下では, 生成した敵の例は頑健であることが判明した。 具体的には、発生した敵の屋内および屋外の攻撃成功率は、それぞれ73.33%と82.22%である。 一方, 提案手法は, 生成した逆数例の自然さを保証し, 追加の摂動の大きさは既存作品の摂動よりもはるかに小さい。 さらに、提案する物理敵攻撃手法をホワイトボックスモデルから他のオブジェクト検出モデルに転送することができる。

In this paper, we propose a natural and robust physical adversarial example attack method targeting object detectors under real-world conditions. The generated adversarial examples are robust to various physical constraints and visually look similar to the original images, thus these adversarial examples are natural to humans and will not cause any suspicions. First, to ensure the robustness of the adversarial examples in real-world conditions, the proposed method exploits different image transformation functions, to simulate various physical changes during the iterative optimization of the adversarial examples generation. Second, to construct natural adversarial examples, the proposed method uses an adaptive mask to constrain the area and intensities of the added perturbations, and utilizes the real-world perturbation score (RPS) to make the perturbations be similar to those real noises in physical world. Compared with existing studies, our generated adversarial examples can achieve a high success rate with less conspicuous perturbations. Experimental results demonstrate that, the generated adversarial examples are robust under various indoor and outdoor physical conditions, including different distances, angles, illuminations, and photographing. Specifically, the attack success rate of generated adversarial examples indoors and outdoors is high up to 73.33% and 82.22%, respectively. Meanwhile, the proposed method ensures the naturalness of the generated adversarial example, and the size of added perturbations is much smaller than the perturbations in the existing works. Further, the proposed physical adversarial attack method can be transferred from the white-box models to other object detection models.
翻訳日:2022-09-20 02:23:26 公開日:2021-03-17
# (参考訳) 分類型アーキテクチャを用いたCNNに基づく二重JPEG画像の一次量子化行列推定

Boosting CNN-based primary quantization matrix estimation of double JPEG images via a classification-like architecture ( http://arxiv.org/abs/2012.00468v2 )

ライセンス: CC BY 4.0
Benedetta Tondi, Andrea Costranzo, Dequ Huang and Bin Li(参考訳) JPEG圧縮画像の一次量子化行列を推定することは、画像の過去の歴史に関する重要な情報を推測できるため、画像鑑定において重要な問題である。 さらに、異なる画像領域にまたがる一次量子化行列の不一致は、二重jpeg改ざん画像におけるスプライシングのローカライズに使用できる。 従来のモデルベースのアプローチは、第1と第2の圧縮品質とJPEGグリッドのアライメントに関する特定の仮定の下で機能する。 近年,多種多様な条件下で動作可能な深層学習型推定器が提案されている。 この方法は、標準回帰問題として推定を解くために訓練された畳み込みニューラルネットワーク(CNN)に基づいている。 本稿では,量子化係数の整数性を利用して,シミル分類アーキテクチャを用いて推定を行う深層学習手法を提案する。 CNNは、推定の精度と平均平方誤差(MSE)の両方を考慮した損失関数で訓練される。 その結果, 統計的解析, 特に深層学習回帰に基づく最先端手法と比較して, 提案手法の優れた性能が確認された。 さらに,第1圧縮格子と第2圧縮格子のアライメントと前圧縮と第2圧縮のJPEG品質の組み合わせに関して,一般の操作条件下で作業する手法の能力は,これらの情報を事前に知らない実用的応用において非常に重要である。

Estimating the primary quantization matrix of double JPEG compressed images is a problem of relevant importance in image forensics since it allows to infer important information about the past history of an image. In addition, the inconsistencies of the primary quantization matrices across different image regions can be used to localize splicing in double JPEG tampered images. Traditional model-based approaches work under specific assumptions on the relationship between the first and second compression qualities and on the alignment of the JPEG grid. Recently, a deep learning-based estimator capable to work under a wide variety of conditions has been proposed, that outperforms tailored existing methods in most of the cases. The method is based on a Convolutional Neural Network (CNN) that is trained to solve the estimation as a standard regression problem. By exploiting the integer nature of the quantization coefficients, in this paper, we propose a deep learning technique that performs the estimation by resorting to a simil-classification architecture. The CNN is trained with a loss function that takes into account both the accuracy and the Mean Square Error (MSE) of the estimation. Results confirm the superior performance of the proposed technique, compared to the state-of-the art methods based on statistical analysis and, in particular, deep learning regression. Moreover, the capability of the method to work under general operative conditions, regarding the alignment of the second compression grid with the one of first compression and the combinations of the JPEG qualities of former and second compression, is very relevant in practical applications, where these information are unknown a priori.
翻訳日:2021-05-31 07:02:54 公開日:2021-03-17
# 判別器勾配流による深部生成モデルの精錬

Refining Deep Generative Models via Discriminator Gradient Flow ( http://arxiv.org/abs/2012.00780v3 )

ライセンス: Link先を確認
Abdul Fatir Ansari, Ming Liang Ang, Harold Soh(参考訳) 深層生成モデリングは近年目覚ましい進歩を遂げており、実世界のデータによく似たシミュレーションサンプル(画像など)を見るのが一般的になっている。 しかし、生成品質は一般に任意のモデルに一貫性がなく、サンプル間で劇的に変化する。 本稿では,実データ分布と生成データ分布間のエントロピー規則化f-分節の勾配流によるサンプル生成を改善する新しい手法であるDGflowを紹介する。 勾配流は非線型フォッカー・プランク方程式(英語版)の形をとり、等価なマッケイン・ブラソフ過程からのサンプリングによって容易にシミュレートできる。 下地試料を精製することにより, 従来の方法 (DRS & MH-GAN) による無駄な試料拒絶を回避することができる。 特定のGAN変種に焦点を当てた既存の研究と比較すると、ベクトル値の批評家を持つGANや、VAEや正規化フローのようなより深い生成モデルにも改善アプローチを適用することができる。 複数の合成、画像、テキストデータセットの実証結果から、DGflowは様々な生成モデルで生成されたサンプルの品質を大幅に向上させ、最先端の識別器最適輸送(DOT)法と識別器駆動遅延サンプリング(DDLS)法を上回ります。

Deep generative modeling has seen impressive advances in recent years, to the point where it is now commonplace to see simulated samples (e.g., images) that closely resemble real-world data. However, generation quality is generally inconsistent for any given model and can vary dramatically between samples. We introduce Discriminator Gradient flow (DGflow), a new technique that improves generated samples via the gradient flow of entropy-regularized f-divergences between the real and the generated data distributions. The gradient flow takes the form of a non-linear Fokker-Plank equation, which can be easily simulated by sampling from the equivalent McKean-Vlasov process. By refining inferior samples, our technique avoids wasteful sample rejection used by previous methods (DRS & MH-GAN). Compared to existing works that focus on specific GAN variants, we show our refinement approach can be applied to GANs with vector-valued critics and even other deep generative models such as VAEs and Normalizing Flows. Empirical results on multiple synthetic, image, and text datasets demonstrate that DGflow leads to significant improvement in the quality of generated samples for a variety of generative models, outperforming the state-of-the-art Discriminator Optimal Transport (DOT) and Discriminator Driven Latent Sampling (DDLS) methods.
翻訳日:2021-05-30 20:12:03 公開日:2021-03-17
# (参考訳) トラベルセールスマン問題の強化学習とlin-kernighan-helsgaunアルゴリズムの併用

Combining Reinforcement Learning with Lin-Kernighan-Helsgaun Algorithm for the Traveling Salesman Problem ( http://arxiv.org/abs/2012.04461v6 )

ライセンス: CC BY 4.0
Jiongzhi Zheng and Kun He and Jianrong Zhou and Yan Jin and Chu-Min Li(参考訳) 本稿では,NP-hard組合せ最適化問題であるトラベリングセールスマン問題(TSP)に対処する。 本稿では,3つの強化学習手法(Q-learning,Sarsa,Monte Carlo)と,Lin-Kernighan-Helsgaun (LKH) と呼ばれるTSPアルゴリズムを組み合わせた可変戦略強化手法を提案する。 VSR-LKHは、LKHの非フレキシブルトラバース操作を置き換え、強化学習によって各探索ステップで選択を学習する。 最大85,900都市でのTSPLIBによる111TSPベンチマーク実験の結果,提案手法の優れた性能を示した。

We address the Traveling Salesman Problem (TSP), a famous NP-hard combinatorial optimization problem. And we propose a variable strategy reinforced approach, denoted as VSR-LKH, which combines three reinforcement learning methods (Q-learning, Sarsa and Monte Carlo) with the well-known TSP algorithm, called Lin-Kernighan-Helsgaun (LKH). VSR-LKH replaces the inflexible traversal operation in LKH, and lets the program learn to make choice at each search step by reinforcement learning. Experimental results on 111 TSP benchmarks from the TSPLIB with up to 85,900 cities demonstrate the excellent performance of the proposed method.
翻訳日:2021-05-17 05:15:27 公開日:2021-03-17
# (参考訳) STELAR : 潜伏した疫学的規則化を伴う時空間的テンソル因子化

STELAR: Spatio-temporal Tensor Factorization with Latent Epidemiological Regularization ( http://arxiv.org/abs/2012.04747v2 )

ライセンス: CC BY 4.0
Nikos Kargas, Cheng Qian, Nicholas D. Sidiropoulos, Cao Xiao, Lucas M. Glass, Jimeng Sun(参考訳) 効果的な対策を講じるためには、新型コロナウイルスなどの伝染病の正確な予測が不可欠である。 本研究では,多くの地域での流行の進展を同時に予測するテンソル法を開発した。 ケースカウントの3方向時空間テンソル(位置,属性,時間)を構築し,STELARという潜在疫学モデル正規化を用いた非負のテンソル分解を提案する。 先行きのスラブを予測できない標準的なテンソル因子分解法とは異なり、ステラーは広く採用された疫学モデルの離散時間差分方程式系を通じて潜時時間正規化を組み込むことで長期予測を可能にする。 我々は,共通の流行プロファイルサブタイプを捉え,協調学習と予測を改善するために,位置・属性レベルの疫学ダイナミクスの代わりに潜在性を用いている。 我々は、カウンティレベルと州レベルのCOVID-19データの両方を用いて実験を行い、このモデルが流行の興味深い潜伏パターンを識別できることを示す。 最後に,提案手法の予測能力を評価し,基準値よりも優れた性能を示し,最大21%のルート平均二乗誤差,25%の絶対誤差を郡レベルの予測で達成した。

Accurate prediction of the transmission of epidemic diseases such as COVID-19 is crucial for implementing effective mitigation measures. In this work, we develop a tensor method to predict the evolution of epidemic trends for many regions simultaneously. We construct a 3-way spatio-temporal tensor (location, attribute, time) of case counts and propose a nonnegative tensor factorization with latent epidemiological model regularization named STELAR. Unlike standard tensor factorization methods which cannot predict slabs ahead, STELAR enables long-term prediction by incorporating latent temporal regularization through a system of discrete-time difference equations of a widely adopted epidemiological model. We use latent instead of location/attribute-level epidemiological dynamics to capture common epidemic profile sub-types and improve collaborative learning and prediction. We conduct experiments using both county- and state-level COVID-19 data and show that our model can identify interesting latent patterns of the epidemic. Finally, we evaluate the predictive ability of our method and show superior performance compared to the baselines, achieving up to 21% lower root mean square error and 25% lower mean absolute error for county-level prediction.
翻訳日:2021-05-16 23:51:10 公開日:2021-03-17
# ターゲット再識別のためのコンテキスト対応グラフ畳み込みネットワーク

Context-Aware Graph Convolution Network for Target Re-identification ( http://arxiv.org/abs/2012.04298v3 )

ライセンス: Link先を確認
Deyi Ji, Haoran Wang, Hanzhe Hu, Weihao Gan, Wei Wu, Junjie Yan(参考訳) 既存の再同定法は、深層畳み込みネットワークを用いたロバストで識別的な特徴の学習に焦点を当てている。 しかし、それらの多くはコンテンツの類似性を別々に考えており、クエリやギャラリーセットのコンテキスト情報を利用できない。 プローブ・ギャラリーとギャラリー・ギャラリーの関係のため、厳密なサンプルは限られた情報や誤解を招く情報のためにうまく解決できない。 本稿では,グラフノードにプローブ・ギャレリー関係を符号化し,グラフエッジ接続をギャラリー・ギャレリー関係により適切に制御する新しいコンテキスト・アウェアグラフ畳み込みネットワーク(CAGCN)を提案する。 このように、ハードサンプルは、グラフ推論の間、他の簡単なサンプル間のコンテキスト情報フローに対応できる。 具体的には,適切なグラフサイズを維持しつつ,正のサンプルに対する高いリコールを得るための効果的なハードギャラリー・サンプラーを採用することで,計算複雑性の低いトレーニングプロセスにおける不均衡問題を弱体化することができる。

Most existing re-identification methods focus on learning robust and discriminative features with deep convolution networks. However, many of them consider content similarity separately and fail to utilize the context information of the query and gallery sets, e.g. probe-gallery and gallery-gallery relations, thus hard samples may not be well solved due to the limited or even misleading information. In this paper, we present a novel Context-Aware Graph Convolution Network (CAGCN), where the probe-gallery relations are encoded into the graph nodes and the graph edge connections are well controlled by the gallery-gallery relations. In this way, hard samples can be addressed with the context information flows among other easy samples during the graph reasoning. Specifically, we adopt an effective hard gallery sampler to obtain high recall for positive samples while keeping a reasonable graph size, which can also weaken the imbalanced problem in training process with low computation complexity.Experiments show that the proposed method achieves state-of-the-art performance on both person and vehicle re-identification datasets in a plug and play fashion with limited overhead.
翻訳日:2021-05-16 21:16:28 公開日:2021-03-17
# 対物生成:テキストの制御された対物生成を目指して

Generate Your Counterfactuals: Towards Controlled Counterfactual Generation for Text ( http://arxiv.org/abs/2012.04698v2 )

ライセンス: Link先を確認
Nishtha Madaan, Inkit Padhi, Naveen Panwar, Diptikalyan Saha(参考訳) 機械学習は近年大きく成長しており、教育評価、信用リスク、医療、雇用、刑事司法などのためのMLシステムの普及につながっている。 MLとNLPシステムの信頼性は重要な側面であり、彼らが行う決定が公平で堅牢であることを保証する必要がある。 そこで我々は,これらのMLシステムをテストする上で重要な,対実テキストの集合を生成するためのフレームワークGYCを提案する。 主な貢献は,a) GYC, 生成が妥当で多様性があり, 目標指向であり, 有効であるような反ファクト的なサンプルを生成するフレームワークを紹介し, b) 生成を名前付きタグ, セマンティック・ロール・ラベル, 感情などの対応する条件に向けて誘導する, 反ファクト的なサンプルを生成する。 種々の領域における実験結果から,GYCは上記の4つの特性を示す対実テキストサンプルを生成することがわかった。 GYCは、モデルとあらゆるテキストデバイアスアルゴリズムを評価するテストケースとして機能する偽物を生成する。

Machine Learning has seen tremendous growth recently, which has led to larger adoption of ML systems for educational assessments, credit risk, healthcare, employment, criminal justice, to name a few. The trustworthiness of ML and NLP systems is a crucial aspect and requires a guarantee that the decisions they make are fair and robust. Aligned with this, we propose a framework GYC, to generate a set of counterfactual text samples, which are crucial for testing these ML systems. Our main contributions include a) We introduce GYC, a framework to generate counterfactual samples such that the generation is plausible, diverse, goal-oriented, and effective, b) We generate counterfactual samples, that can direct the generation towards a corresponding condition such as named-entity tag, semantic role label, or sentiment. Our experimental results on various domains show that GYC generates counterfactual text samples exhibiting the above four properties. GYC generates counterfactuals that can act as test cases to evaluate a model and any text debiasing algorithm.
翻訳日:2021-05-16 17:37:38 公開日:2021-03-17
# 実世界の複数音源2次元定位のためのデータ効率のよい枠組み

Data-Efficient Framework for Real-world Multiple Sound Source 2D Localization ( http://arxiv.org/abs/2012.05533v3 )

ライセンス: Link先を確認
Guillaume Le Moing, Phongtharin Vinayavekhin, Don Joven Agravante, Tadanobu Inoue, Jayakorn Vongkulbhisal, Asim Munawar, Ryuki Tachibana(参考訳) ディープニューラルネットワークは、最近、複数の音源のローカライゼーションのタスクに有望な結果をもたらした。 しかし、さまざまな音響条件やマイクロホンアレイレイアウトをカバーするために、多くのトレーニングデータが必要です。 音響シミュレータを利用してラベル付きトレーニングデータを安価に生成することができる。 しかし、合成データに基づいて訓練されたモデルは、ドメインミスマッチのため、現実世界の録音では性能が良くない傾向にある。 さらに、異なるマイクロホンアレイレイアウトの学習は、無限個の可能なレイアウトのため、タスクをより複雑にする。 本稿では,合成領域と実領域のギャップを埋めるための逆学習手法を提案する。 本手法は,実データからのラベルを必要とせず,ローカライズ性能を大幅に向上させる。 さらに,ローカライゼーションアーキテクチャに組み込むための新規な明示的変換層を提案する。 これにより、特定のマイクロフォンアレイレイアウトのデータでモデルをトレーニングし、推論中に見つからないレイアウトに最適化することができる。

Deep neural networks have recently led to promising results for the task of multiple sound source localization. Yet, they require a lot of training data to cover a variety of acoustic conditions and microphone array layouts. One can leverage acoustic simulators to inexpensively generate labeled training data. However, models trained on synthetic data tend to perform poorly with real-world recordings due to the domain mismatch. Moreover, learning for different microphone array layouts makes the task more complicated due to the infinite number of possible layouts. We propose to use adversarial learning methods to close the gap between synthetic and real domains. Our novel ensemble-discrimination method significantly improves the localization performance without requiring any label from the real data. Furthermore, we propose a novel explicit transformation layer to be embedded in the localization architecture. It enables the model to be trained with data from specific microphone array layouts while generalizing well to unseen layouts during inference.
翻訳日:2021-05-15 06:05:51 公開日:2021-03-17
# ニューラルネットワークモデルの時間スケール構成のマッピング

Mapping the Timescale Organization of Neural Language Models ( http://arxiv.org/abs/2012.06717v2 )

ライセンス: Link先を確認
Hsiang-Yun Sherry Chien, Jinhan Zhang and Christopher. J. Honey(参考訳) 人間の脳では、言語入力のシーケンスは、より長い時間スケールで文脈情報をエンコードする、分散的で階層的なアーキテクチャ内で処理される。 対照的に、自然言語処理を行うリカレントニューラルネットワークでは、コンテキスト情報の複数の時間スケールがどのように機能的に構成されているかはほとんど分かっていない。 そこで我々は神経科学で開発されたツールを用いて,単語レベルLSTM言語モデル内の個々の単位の「処理時間スケール」をマッピングした。 このタイムスケールマッピング法は、これまで長距離構文依存を追跡していたユニットに長いタイムスケールを割り当てた。 さらに、マッピングによってネットワークの小さなサブセット(15%未満)が示され、長い時間スケールがあり、以前はその機能は探索されていなかった。 次に,ユニットの処理時間スケールとネットワーク接続性の関係を調べ,ネットワークの機能的構成について検討した。 制御器」ユニットは密接な相互接続されたサブネットワークで構成され、ネットワークの他の部分に強く投影され、一方「積分器」ユニットはネットワーク内で最も長い時間スケールを示し、平均投影プロファイルに近いプロジェクションプロファイルを表現した。 インテグレータとコントローラユニットの非難は文内の異なる位置におけるモデル性能に影響し、これら2つのユニットの特徴的な機能を示している。 最後に,これらの結果を,異なるアーキテクチャを持つキャラクタレベルのLSTMモデルとモデルに一般化する実験を行った。 まとめると、リカレントニューラルネットワークにおける時間スケールの組織をマッピングするためのモデルフリー手法を実証し、この手法を適用し、ニューラルネットワークモデルの時間スケールと機能的構造を明らかにする。

In the human brain, sequences of language input are processed within a distributed and hierarchical architecture, in which higher stages of processing encode contextual information over longer timescales. In contrast, in recurrent neural networks which perform natural language processing, we know little about how the multiple timescales of contextual information are functionally organized. Therefore, we applied tools developed in neuroscience to map the "processing timescales" of individual units within a word-level LSTM language model. This timescale-mapping method assigned long timescales to units previously found to track long-range syntactic dependencies. Additionally, the mapping revealed a small subset of the network (less than 15% of units) with long timescales and whose function had not previously been explored. We next probed the functional organization of the network by examining the relationship between the processing timescale of units and their network connectivity. We identified two classes of long-timescale units: "controller" units composed a densely interconnected subnetwork and strongly projected to the rest of the network, while "integrator" units showed the longest timescales in the network, and expressed projection profiles closer to the mean projection profile. Ablating integrator and controller units affected model performance at different positions within a sentence, suggesting distinctive functions of these two sets of units. Finally, we tested the generalization of these results to a character-level LSTM model and models with different architectures. In summary, we demonstrated a model-free technique for mapping the timescale organization in recurrent neural networks, and we applied this method to reveal the timescale and functional organization of neural language models.
翻訳日:2021-05-10 05:20:20 公開日:2021-03-17
# 従来のIRはMS MARCO Document Ranking Leaderboardでニューラルモデルと競合する

Traditional IR rivals neural models on the MS MARCO Document Ranking Leaderboard ( http://arxiv.org/abs/2012.08020v3 )

ライセンス: Link先を確認
Leonid Boytsov(参考訳) この短い文書は、MS MARCO Document Ranking Leaderboard(2020-12-06)でMRR@100を0.298と同等に達成した伝統的なIRシステムについて記述している。 多くのBERTベースのモデルよりも劣っていたが、いくつかのニューラルラン(と全ての非ニューラルラン)を上回り、その中には大きな事前訓練されたトランスフォーマーモデルを使用した2つのサブミッションが含まれていた。 結果を再現するソフトウェアとデータを提供します。

This short document describes a traditional IR system that achieved MRR@100 equal to 0.298 on the MS MARCO Document Ranking leaderboard (on 2020-12-06). Although inferior to most BERT-based models, it outperformed several neural runs (as well as all non-neural ones), including two submissions that used a large pretrained Transformer model for re-ranking. We provide software and data to reproduce our results.
翻訳日:2021-05-07 05:17:57 公開日:2021-03-17
# ビデオ行動認識と検索のための時間的コントラストグラフ学習

Temporal Contrastive Graph Learning for Video Action Recognition and Retrieval ( http://arxiv.org/abs/2101.00820v8 )

ライセンス: Link先を確認
Yang Liu, Keze Wang, Haoyuan Lan, Liang Lin(参考訳) 自己教師付きビデオ表現学習における時間的多様性と時間的特徴を十分に把握するために,ビデオ内の時間的依存関係を活用し,時間的コントラストグラフ学習(TCGL)という新たな自己教師付き手法を提案する。 複雑な時間的依存関係のモデリングを無視する既存の手法とは対照的に、私たちのtcglは、時間的表現学習のための自己スーパービジョン信号として、スニペット間およびスニペット内時間的依存関係を共同で考慮するハイブリッドグラフコントラスト学習戦略に根ざしています。 マルチスケールの時間的依存をモデル化するために、TCGLはフレームとスニペットの順序に関する事前の知識をグラフ構造、すなわち、スニペット内の時間的コントラストグラフに統合する。 スニペットグラフやスニペットグラフのエッジやマスキングノードをランダムに除去することで、tcglは異なる相関グラフビューを生成することができる。 次に、異なるビューにおけるノード間の合意を最大化するために、特定のコントラスト学習モジュールを設計する。 グローバルコンテキスト表現を適応的に学習し,チャネル毎の機能を再調整するために,映像スニペット間の関係知識を利用して実際のスニペット順序を予測する適応型ビデオスニペット順序予測モジュールを提案する。 大規模行動認識およびビデオ検索ベンチマークにおける最先端手法よりも,TCGLの方が優れていることを示す実験結果が得られた。

Attempt to fully discover the temporal diversity and chronological characteristics for self-supervised video representation learning, this work takes advantage of the temporal dependencies within videos and further proposes a novel self-supervised method named Temporal Contrastive Graph Learning (TCGL). In contrast to the existing methods that ignore modeling elaborate temporal dependencies, our TCGL roots in a hybrid graph contrastive learning strategy to jointly regard the inter-snippet and intra-snippet temporal dependencies as self-supervision signals for temporal representation learning. To model multi-scale temporal dependencies, our TCGL integrates the prior knowledge about the frame and snippet orders into graph structures, i.e., the intra-/inter- snippet temporal contrastive graphs. By randomly removing edges and masking nodes of the intra-snippet graphs or inter-snippet graphs, our TCGL can generate different correlated graph views. Then, specific contrastive learning modules are designed to maximize the agreement between nodes in different views. To adaptively learn the global context representation and recalibrate the channel-wise features, we introduce an adaptive video snippet order prediction module, which leverages the relational knowledge among video snippets to predict the actual snippet orders. Experimental results demonstrate the superiority of our TCGL over the state-of-the-art methods on large-scale action recognition and video retrieval benchmarks.
翻訳日:2021-04-11 22:58:50 公開日:2021-03-17
# テンソルグラフ最適化のための品質飽和

Equality Saturation for Tensor Graph Superoptimization ( http://arxiv.org/abs/2101.01332v2 )

ライセンス: Link先を確認
Yichen Yang, Phitchaya Mangpo Phothilimtha, Yisu Remy Wang, Max Willsey, Sudip Roy, Jacques Pienaar(参考訳) ディープラーニングフレームワークで使用される主要な最適化の1つは、グラフ書き換えである。 プロダクションフレームワークは、ルールの書き直しと順序を決定するのにヒューリスティックに依存しています。 先行研究は、ヒューリスティックスに頼るのではなく、より優れた置換列を探索すれば、より最適なテンソル計算グラフを発見できることを示した。 しかし,既存のテンソルグラフ過最適化手法では,製造と研究の両フレームワークが逐次的に置換される。 このような逐次探索法は置換が適用される順序に敏感であり、しばしば等価グラフの指数空間の小さな断片を探索するだけである。 本稿では,任意の置換を同時に適用するために等度飽和を用いたテンソルグラフ超最適化手法を提案する。 提案手法では,最適化に要する時間を平均48倍に抑えながら,最先端よりも最大16%のスピードアップで最適化グラフを見つけることができることを示す。

One of the major optimizations employed in deep learning frameworks is graph rewriting. Production frameworks rely on heuristics to decide if rewrite rules should be applied and in which order. Prior research has shown that one can discover more optimal tensor computation graphs if we search for a better sequence of substitutions instead of relying on heuristics. However, we observe that existing approaches for tensor graph superoptimization both in production and research frameworks apply substitutions in a sequential manner. Such sequential search methods are sensitive to the order in which the substitutions are applied and often only explore a small fragment of the exponential space of equivalent graphs. This paper presents a novel technique for tensor graph superoptimization that employs equality saturation to apply all possible substitutions at once. We show that our approach can find optimized graphs with up to 16% speedup over state-of-the-art, while spending on average 48x less time optimizing.
翻訳日:2021-04-11 11:32:16 公開日:2021-03-17
# GeCo: リアルタイムの品質対実的説明

GeCo: Quality Counterfactual Explanations in Real Time ( http://arxiv.org/abs/2101.01292v2 )

ライセンス: Link先を確認
Maximilian Schleich, Zixuan Geng, Yihong Zhang, Dan Suciu(参考訳) 機械学習は、人々の生活に直接影響を及ぼす高リスク意思決定にますます適用され、システムによる意思決定の要求の増加につながる。 説明はしばしば、結果を改善するために、エンドユーザに何を変える必要があるかを伝えて、反事実の形式をとる。 ドメインの豊富なセマンティクスとリアルタイム応答の必要性の間に固有の緊張関係があるため、反事実的説明の計算は困難である。 本稿では,リアルタイムに実現可能な反事実的説明を計算できる最初のシステムであるgecoについて述べる。 GeCoの中核は遺伝的アルゴリズムに依存しており、最小限の変更数で偽物の説明を探すようにカスタマイズされている。 リアルタイム性能を実現するために,$\delta$-representation of candidate counterfactualsと部分的評価という2つの新しい最適化を導入する。 文献に記述された他の5つのシステムと比較し,高品質な説明とリアルタイム回答を両立できる唯一のシステムであることを示した。

Machine learning is increasingly applied in high-stakes decision making that directly affect people's lives, and this leads to an increased demand for systems to explain their decisions. Explanations often take the form of counterfactuals, which consists of conveying to the end user what she/he needs to change in order to improve the outcome. Computing counterfactual explanations is challenging, because of the inherent tension between a rich semantics of the domain, and the need for real time response. In this paper we present GeCo, the first system that can compute plausible and feasible counterfactual explanations in real time. At its core, GeCo relies on a genetic algorithm, which is customized to favor searching counterfactual explanations with the smallest number of changes. To achieve real-time performance, we introduce two novel optimizations: $\Delta$-representation of candidate counterfactuals, and partial evaluation of the classifier. We compare empirically GeCo against five other systems described in the literature, and show that it is the only system that can achieve both high quality explanations and real time answers.
翻訳日:2021-04-11 11:28:33 公開日:2021-03-17
# (参考訳) SA-Det3D:自己認識に基づくコンテキスト認識3Dオブジェクト検出

SA-Det3D: Self-Attention Based Context-Aware 3D Object Detection ( http://arxiv.org/abs/2101.02672v3 )

ライセンス: CC BY 4.0
Prarthana Bhattacharyya, Chengjie Huang and Krzysztof Czarnecki(参考訳) 既存のポイントクラウドベースの3dオブジェクト検出器は畳み込みのような演算子を使用して、固定ウェイトのカーネルでローカル近傍で情報を処理し、階層的にグローバルコンテキストを集約する。 しかし、非局所ニューラルネットワークと2次元視覚に対する自己注意は、長距離相互作用を明示的にモデル化することで、より堅牢で競争的なモデルにつながることを示した。 本稿では,3次元物体検出における文脈モデルのための自己着脱の2つの変種について,自己着脱特徴を伴う畳み込み特徴の強化により提案する。 我々はまず,現在最先端のBEV,ボクセル,点ベース検出器に対向自己保持機構を組み込んで,最大1.53次元APの強力なベースラインモデルに対して一貫した改良を行い,パラメータフットプリントと計算コストをそれぞれ15-80%,30-50%削減した。 次に,ランダムにサンプリングされた位置の変形を学習することにより,最も代表的な特徴のサブセットをサンプリングするセルフアテンション変種を提案する。 これにより、グローバルなコンテキストモデリングをより大きなポイントクラウドに拡張できるだけでなく、より差別的で情報に富む機能記述子も実現できます。 本手法は, 精度, パラメータ, 計算効率の向上により, 最先端検出器の多くに柔軟に適用できる。 提案手法は,KITTI,nuScenesおよびWaymo Openデータセット上での3次元物体検出性能を向上させる。 コードはhttps://github.com/AutoVision-cloud/SA-Det3Dで入手できる。

Existing point-cloud based 3D object detectors use convolution-like operators to process information in a local neighbourhood with fixed-weight kernels and aggregate global context hierarchically. However, non-local neural networks and self-attention for 2D vision have shown that explicitly modeling long-range interactions can lead to more robust and competitive models. In this paper, we propose two variants of self-attention for contextual modeling in 3D object detection by augmenting convolutional features with self-attention features. We first incorporate the pairwise self-attention mechanism into the current state-of-the-art BEV, voxel and point-based detectors and show consistent improvement over strong baseline models of up to 1.5 3D AP while simultaneously reducing their parameter footprint and computational cost by 15-80% and 30-50%, respectively, on the KITTI validation set. We next propose a self-attention variant that samples a subset of the most representative features by learning deformations over randomly sampled locations. This not only allows us to scale explicit global contextual modeling to larger point-clouds, but also leads to more discriminative and informative feature descriptors. Our method can be flexibly applied to most state-of-the-art detectors with increased accuracy and parameter and compute efficiency. We show our proposed method improves 3D object detection performance on KITTI, nuScenes and Waymo Open datasets. Code is available at https://github.com/AutoVision-cloud/SA-Det3D.
翻訳日:2021-04-10 16:03:23 公開日:2021-03-17
# bert & family eat word salad: テキスト理解による実験

BERT & Family Eat Word Salad: Experiments with Text Understanding ( http://arxiv.org/abs/2101.03453v2 )

ライセンス: Link先を確認
Ashim Gupta, Giorgi Kvernadze, Vivek Srikumar(参考訳) 本稿では,自然言語の理解を主張するモデルを混乱させる不整合入力に対するBERTファミリーからの大規模モデルの応答について検討する。 このような例を構成するための単純なヒューリスティックを定義する。 実験の結果,最先端のモデルでは,常に不正と認識できず,高い信頼度を予測できることがわかった。 この現象の結果として、ランダムに置換された単語順の文で訓練されたモデルは、最先端のモデルに近く動作する。 これらの問題を緩和するために、モデルが不正な入力を認識するために明示的に訓練されている場合、性能の低下なしにそのような攻撃に対して堅牢であることを示す。

In this paper, we study the response of large models from the BERT family to incoherent inputs that should confuse any model that claims to understand natural language. We define simple heuristics to construct such examples. Our experiments show that state-of-the-art models consistently fail to recognize them as ill-formed, and instead produce high confidence predictions on them. As a consequence of this phenomenon, models trained on sentences with randomly permuted word order perform close to state-of-the-art models. To alleviate these issues, we show that if models are explicitly trained to recognize invalid inputs, they can be robust to such attacks without a drop in performance.
翻訳日:2021-04-08 08:25:16 公開日:2021-03-17
# (参考訳) ハイブリッドビームフォーミングを用いた自己組織型mmWave MIMOセルフリーネットワーク:階層DRLに基づく設計

Self-Organizing mmWave MIMO Cell-Free Networks With Hybrid Beamforming: A Hierarchical DRL-Based Design ( http://arxiv.org/abs/2103.11823v1 )

ライセンス: CC0 1.0
Yasser Al-Eryani and Ekram Hossain(参考訳) セルフリー無線ネットワークにおいて、分散アクセスポイント(AP)は同じ時間/周波数リソースを用いて、カバーエリア内のすべてのユーザ機器(UE)を共同で提供する。 本稿では,全てのAPとUEを独立セルフリーサブネットワークに動的に分割することのできる,新しいダウンリンクセルフリーマルチインプット・マルチインプット・マルチアウトプット(MIMO)ミリ波(mmWave)ネットワークアーキテクチャを開発する。 そこで本研究では,深部強化学習(DRL)に基づくネットワーク分割アルゴリズムを提案する。 さらに, セルフリーサブネットワーク間の干渉を軽減するため, セルフリーサブネットワーク間の干渉をゼロにし, 同時に各サブネットワーク内の全てのUEの瞬時和率を最大化するハイブリッドアナログビームステアリング・デジタルビームフォーミングモデルを開発した。 具体的には、デジタルビームフォーミングをモデル化し、凸最適化問題として解きながら、DRLに基づいてAPとUE間のアナログビームステアリングを行う新しい混合DRL凸最適化法を用いてハイブリッドビームフォーミングモデルを実現する。 ネットワーククラスタリングとハイブリッドビームステアリングのためのDRLモデルは、ネットワークトレーニングと運用の両方でDRLエージェントの経験を交換できる単一の階層型DRL設計に統合される。 また,クラスタリングおよびビームステアリングのためのDRLモデルの性能を,ネットワーク性能,収束率,計算複雑性の観点からベンチマークした。

In a cell-free wireless network, distributed access points (APs) jointly serve all user equipments (UEs) within the their coverage area by using the same time/frequency resources. In this paper, we develop a novel downlink cell-free multiple-input multiple-output (MIMO) millimeter wave (mmWave) network architecture that enables all APs and UEs to dynamically self-partition into a set of independent cell-free subnetworks in a time-slot basis. For this, we propose several network partitioning algorithms based on deep reinforcement learning (DRL). Furthermore, to mitigate interference between different cell-free subnetworks, we develop a novel hybrid analog beamsteering-digital beamforming model that zero-forces interference among cell-free subnetworks and at the same time maximizes the instantaneous sum-rate of all UEs within each subnetwork. Specifically, the hybrid beamforming model is implemented by using a novel mixed DRL-convex optimization method in which analog beamsteering between APs and UEs is conducted based on DRL while digital beamforming is modeled and solved as a convex optimization problem. The DRL models for network clustering and hybrid beamsteering are combined into a single hierarchical DRL design that enables exchange of DRL agents' experiences during both network training and operation. We also benchmark the performance of DRL models for clustering and beamsteering in terms of network performance, convergence rate, and computational complexity.
翻訳日:2021-04-05 02:38:17 公開日:2021-03-17
# ソーシャルコンピューティングのためのハイブリッドヒューマンアートインテリジェンスに関する調査

A Survey of Hybrid Human-Artificial Intelligence for Social Computing ( http://arxiv.org/abs/2103.15558v1 )

ライセンス: Link先を確認
Wenxi Wang, Huansheng Ning, Feifei Shi, Sahraoui Dhelim, Weishan Zhang, Liming Chen(参考訳) 現代のコンピューティング技術と社会科学の発展とともに、社会コンピューティングの理論的研究と実践的応用が継続的に拡張されてきた。 特に人工知能(AI)のブームにより、ソーシャルコンピューティングはAIに大きく影響されている。 しかし、従来のAI技術は、より複雑で動的な問題に対処する際の欠点がある。 このような欠陥は、ヒューマンインテリジェンスとAIを一つのユニティに統合し、新たな強化されたインテリジェンスを形成するハイブリッドヒューマンアーティフィックインテリジェンス(H-AI)によって修正することができる。 社会問題に対処するH-AIは、AIが追い越せない利点を示している。 本稿ではまず,H-AIの概念を紹介する。 aiはh-aiの移行段階におけるインテリジェンスであり、社会コンピューティングにおけるaiの最新の研究進歩をレビューする。 第2に、ソーシャルコンピューティングにおいてAIが直面する典型的な課題を要約し、これらの課題を解決するためにH-AIを導入することができる。 最後に,対象層,ベース層,解析層,アプリケーション層という4つの層から構成されるH-AIと組み合わせたソーシャルコンピューティングの総合的な枠組みを提案する。 これは、H-AIが社会問題の解決において、AIよりも大きな優位性を持っていることを示している。

Along with the development of modern computing technology and social sciences, both theoretical research and practical applications of social computing have been continuously extended. In particular with the boom of artificial intelligence (AI), social computing is significantly influenced by AI. However, the conventional technologies of AI have drawbacks in dealing with more complicated and dynamic problems. Such deficiency can be rectified by hybrid human-artificial intelligence (H-AI) which integrates both human intelligence and AI into one unity, forming a new enhanced intelligence. H-AI in dealing with social problems shows the advantages that AI can not surpass. This paper firstly introduces the concept of H-AI. AI is the intelligence in the transition stage of H-AI, so the latest research progresses of AI in social computing are reviewed. Secondly, it summarizes typical challenges faced by AI in social computing, and makes it possible to introduce H-AI to solve these challenges. Finally, the paper proposes a holistic framework of social computing combining with H-AI, which consists of four layers: object layer, base layer, analysis layer, and application layer. It represents H-AI has significant advantages over AI in solving social problems.
翻訳日:2021-04-05 01:07:11 公開日:2021-03-17
# デジタル人文科学から量子人文科学へ:可能性と応用

From Digital Humanities to Quantum Humanities: Potentials and Applications ( http://arxiv.org/abs/2103.11825v1 )

ライセンス: Link先を確認
Johanna Barzen(参考訳) 量子コンピュータは現実になりつつある。 そのため、人文科学研究を含む様々な応用分野において、そのポテンシャルを活用することを約束している。 デジタル人文科学において処理される必要のあるデータの量が増えるため、量子コンピュータの使用はこの研究領域に寄与することができる。 人文科学からのデータを解析する際に、量子コンピュータのそのような関与がいかに有益であるかを印象付けるために、メディア科学のユースケースを示す。 そこで本稿では,デジタル人文科学プロジェクトMUSEのデータ解析のための理論的基盤とツールサポートについて述べる。 これには、例えば、データ分析パイプラインが含まれる。 データ準備、機能エンジニアリング、クラスタリング、そしていくつかのステップを古典的に実現できる分類のための様々なアプローチ。

Quantum computers are becoming real. Therefore, it is promising to use their potentials in different applications areas, which includes research in the humanities. Due to an increasing amount of data that needs to be processed in the digital humanities the use of quantum computers can contribute to this research area. To give an impression on how beneficial such involvement of quantum computers can be when analyzing data from the humanities, a use case from the media science is presented. Therefore, both the theoretical basis and the tooling support for analyzing the data from our digital humanities project MUSE is described. This includes a data analysis pipeline, containing e.g. various approaches for data preparation, feature engineering, clustering, and classification where several steps can be realized classically, but also supported by quantum computers.
翻訳日:2021-04-05 01:05:22 公開日:2021-03-17
# 新型コロナウイルス(covid-19)のロックダウンにともなう小児の大気汚染物質に対する曝露評価のためのグローバル大気質モニタリングプラットフォーム

Towards an Open Global Air Quality Monitoring Platform to Assess Children's Exposure to Air Pollutants in the Light of COVID-19 Lockdowns ( http://arxiv.org/abs/2103.12505v1 )

ライセンス: Link先を確認
Christina Last, Prithviraj Pramanik, Nikita Saini, Akash Smaran Majety, Do-Hyung Kim, Manuel Garc\'ia-Herranz, Subhabrata Majumdar(参考訳) この継続的な研究は、子ども福祉に携わる指導的組織であるUNICEFの要件を理解し、対処することを目的としており、国際レベルでの子どもの空気質の問題に取り組むことを目的としている。 新型コロナウイルス(COVID-19)のパンデミックを受けて、世界中の空気質の高度変動を考慮に入れた適切なモデルが欠如していることが、公衆衛生の専門家の間で、子どもの大気汚染物質への接触の正確なレベルに関する不確実性につながっている。 仮想的なミートアップとオンラインプレゼンテーションの組み合わせを通じて洞察を生み出すために、機関の要求に従って初期モデルを作成します。 研究チームはUNICEFの研究者とボランティアデータサイエンティストのグループで構成されました。 プレゼンテーションはunicefの多くの科学者やドメインの専門家、オープンデータを扱うコミュニティチャンピオンに配信された。 我々は、この研究をさらに発展させるための彼らのフィードバックと可能性について強調する。

This ongoing work attempts to understand and address the requirements of UNICEF, a leading organization working in children's welfare, where they aim to tackle the problem of air quality for children at a global level. We are motivated by the lack of a proper model to account for heavily fluctuating air quality levels across the world in the wake of the COVID-19 pandemic, leading to uncertainty among public health professionals on the exact levels of children's exposure to air pollutants. We create an initial model as per the agency's requirement to generate insights through a combination of virtual meetups and online presentations. Our research team comprised of UNICEF's researchers and a group of volunteer data scientists. The presentations were delivered to a number of scientists and domain experts from UNICEF and community champions working with open data. We highlight their feedback and possible avenues to develop this research further.
翻訳日:2021-04-05 01:05:10 公開日:2021-03-17
# 逐次潜在変数モデルにおける修正推論の条件付け時のギャップの意識

Mind the Gap when Conditioning Amortised Inference in Sequential Latent-Variable Models ( http://arxiv.org/abs/2101.07046v2 )

ライセンス: Link先を確認
Justin Bayer, Maximilian Soelch, Atanas Mirchev, Baris Kayalibay, Patrick van der Smagt(参考訳) amortized inferenceは、エビデンスローバウンド(elbo)を持つ逐次潜在変数モデル(lvms)のスケーラブルな学習を可能にする。 この設定では、変分後部はしばしば部分的にのみ条件付けされる。 真の後部は、例えば、観測の順序全体に依存するが、近似後部は過去の観測によってのみ通知される。 これはベイズフィルター -- 滑らかな後方の混合である。 しかし,エルボの客観的な力は後肢を部分的に条件付けし,後肢の平滑化を近似した。 これにより、学習した生成モデルが損なわれる。 これらの理論的な結果は,交通流,手書き桁,航空機の動力学の3つのシナリオで実証される。 完全条件付き近似後処理を用いることで、生成モデリングと多段階予測の観点から性能が向上する。

Amortised inference enables scalable learning of sequential latent-variable models (LVMs) with the evidence lower bound (ELBO). In this setting, variational posteriors are often only partially conditioned. While the true posteriors depend, e.g., on the entire sequence of observations, approximate posteriors are only informed by past observations. This mimics the Bayesian filter -- a mixture of smoothing posteriors. Yet, we show that the ELBO objective forces partially-conditioned amortised posteriors to approximate products of smoothing posteriors instead. Consequently, the learned generative model is compromised. We demonstrate these theoretical findings in three scenarios: traffic flow, handwritten digits, and aerial vehicle dynamics. Using fully-conditioned approximate posteriors, performance improves in terms of generative modelling and multi-step prediction.
翻訳日:2021-03-27 06:05:00 公開日:2021-03-17
# (参考訳) セマンティクスセグメンテーションのためのチャンネル化軸方向注意

Channelized Axial Attention for Semantic Segmentation ( http://arxiv.org/abs/2101.07434v2 )

ライセンス: CC BY 4.0
Ye Huang, Wenjing Jia, Xiangjian He, Liu Liu, Yuxin Li, Dacheng Tao(参考訳) 空間次元とチャネル次元の相互依存を空間的にモデル化する自己注意とチャネルアテンションは,近年セグメンテーションに広く利用されている。 しかし、空間的アテンションとチャネル的アテンションを別々に計算し、それらを直接融合させることで特徴表現の衝突を引き起こす。 本稿では,チャネル化軸アテンション(CAA)について,計算複雑度を低減したチャネルアテンションと軸アテンションをシームレスに統合する手法を提案する。 軸方向のアテンションマップを計算した後, トランスポジドート生成物から得られた中間結果をチャネル化し, それぞれのアキシャルリフレセプションのチャネル重要度を受容領域全体にわたって最適化する。 グループ化されたベクトル化をさらに発展させ、完全なベクトル化に匹敵する速度で、非常に少ないメモリ消費でモデルを動作させることができる。 cityscapes、pascalcontext、coco-stuffを含む複数のベンチマークデータセットで行った比較実験では、caaはdanetのような他の注意モデルに比べて計算リソースをはるかに少なくするだけでなく、すべてのテスト済みデータセットにおけるresnet-101ベースのセグメンテーションモデルよりも優れています。

Self-attention and channel attention, modelling thesemantic interdependencies in spatial and channel dimensionsrespectively, have recently been widely used for semantic seg-mentation. However, computing spatial-attention and channelattention separately and then fusing them directly can causeconflicting feature representations. In this paper, we proposethe Channelized Axial Attention (CAA) to seamlessly integratechannel attention and axial attention with reduced computationalcomplexity. After computing axial attention maps, we propose tochannelize the intermediate results obtained from the transposeddot-product so that the channel importance of each axial repre-sentation is optimized across the whole receptive field. We furtherdevelop grouped vectorization, which allows our model to be runwith very little memory consumption at a speed comparableto the full vectorization. Comparative experiments conductedon multiple benchmark datasets, including Cityscapes, PASCALContext and COCO-Stuff, demonstrate that our CAA not onlyrequires much less computation resources compared with otherdual attention models such as DANet, but also outperformsthe state-of-the-art ResNet-101-based segmentation models on alltested datasets.
翻訳日:2021-03-26 08:41:41 公開日:2021-03-17
# L1認証ロバストネスのための改良された決定論的平滑化

Improved, Deterministic Smoothing for L1 Certified Robustness ( http://arxiv.org/abs/2103.10834v1 )

ライセンス: Link先を確認
Alexander Levine, Soheil Feizi(参考訳) ランダムスムーシング(Randomized smoothing)は、深層分類器に対する逆攻撃に対するサンプル依存の堅牢性を保証する一般的な手法である。 l_1攻撃に対するランダム化平滑化に関する先行研究では、付加的な平滑化ノイズを使用し、確率的ロバストネス保証を提供する。 本研究では,非付加的で決定論的な平滑化手法であるDSSN(Deterministic Smoothing with Splitting Noise)を提案する。 DSSNを開発するために,まず,まず入力空間をランダムに分割し,次に入力サンプルが占有する部分分割の中心の表現を返すことで,各ノイズの平滑化サンプルを生成するランダム化手法であるSSNを開発した。 一様加法平滑化とは対照的に、ssn認証は無作為なノイズコンポーネントを独立に必要としない。 これにより、平滑化を1次元で効果的に行うことができ、量子化データ(例えば画像)に対して効率的に非ランダム化することができる。 我々の知る限りでは、任意の分類器(ディープモデル)を基本分類器として使用でき、指数的な数の滑らか化サンプルを必要とせず、ノルムベースの敵脅威モデルに対して決定論的「ランダム化滑らか化」を提供する最初の研究である。 CIFAR-10とImageNetデータセットでは,従来よりもはるかに大きなL_1堅牢性証明を提供し,新たな最先端技術を確立している。 また,本手法の決定性は,証明計算の高速化にも寄与する。

Randomized smoothing is a general technique for computing sample-dependent robustness guarantees against adversarial attacks for deep classifiers. Prior works on randomized smoothing against L_1 adversarial attacks use additive smoothing noise and provide probabilistic robustness guarantees. In this work, we propose a non-additive and deterministic smoothing method, Deterministic Smoothing with Splitting Noise (DSSN). To develop DSSN, we first develop SSN, a randomized method which involves generating each noisy smoothing sample by first randomly splitting the input space and then returning a representation of the center of the subdivision occupied by the input sample. In contrast to uniform additive smoothing, the SSN certification does not require the random noise components used to be independent. Thus, smoothing can be done effectively in just one dimension and can therefore be efficiently derandomized for quantized data (e.g., images). To the best of our knowledge, this is the first work to provide deterministic "randomized smoothing" for a norm-based adversarial threat model while allowing for an arbitrary classifier (i.e., a deep model) to be used as a base classifier and without requiring an exponential number of smoothing samples. On CIFAR-10 and ImageNet datasets, we provide substantially larger L_1 robustness certificates compared to prior works, establishing a new state-of-the-art. The determinism of our method also leads to significantly faster certificate computation.
翻訳日:2021-03-22 14:28:22 公開日:2021-03-17
# 逆流非平衡サンプリング

Invertible Flow Non Equilibrium sampling ( http://arxiv.org/abs/2103.10943v1 )

ライセンス: Link先を確認
Achille Thin (CMAP), Yazid Janati (IP Paris, TIPIC-SAMOVAR, CITI), Sylvain Le Corff (IP Paris, TIPIC-SAMOVAR, CITI), Charles Ollion (CMAP), Arnaud Doucet, Alain Durmus (CMLA), Eric Moulines (CMAP), Christian Robert (CEREMADE)(参考訳) 難解な正規化定数を持つ複素分布から同時にサンプリングし、この分布の下で期待を近似することは、非常に難しい問題である。 本稿では,古典的連続モンテカルロ (SMC) とマルコフ連鎖モンテカルロ (MCMC) のアプローチから離れる新しいスキーム,Invertible Flow Non Equilibrium Sampling (InFine) を紹介する。 infine は期待の偏りのない推定子、特にランダム初期化から始まった決定論的変換の軌道を組み合わせることで定数を正規化する。 InFineは、最適化パス上のサンプルを選択することで、新しいMCMCサンプリングスキームを設計するのにも自然に適しているが、同時に、新しい変分オートエンコーダ(VAE)のクラスにつながるエビデンスローバウンド(ELBO)を構築するためにも使用できる。

Simultaneously sampling from a complex distribution with intractable normalizing constant and approximating expectations under this distribution is a notoriously challenging problem. We introduce a novel scheme, Invertible Flow Non Equilibrium Sampling (InFine), which departs from classical Sequential Monte Carlo (SMC) and Markov chain Monte Carlo (MCMC) approaches. InFine constructs unbiased estimators of expectations and in particular of normalizing constants by combining the orbits of a deterministic transform started from random initializations.When this transform is chosen as an appropriate integrator of a conformal Hamiltonian system, these orbits are optimization paths. InFine is also naturally suited to design new MCMC sampling schemes by selecting samples on the optimization paths.Additionally, InFine can be used to construct an Evidence Lower Bound (ELBO) leading to a new class of Variational AutoEncoders (VAE).
翻訳日:2021-03-22 14:23:49 公開日:2021-03-17
# (参考訳) 通信効率とビザンチンレジリエンスを考慮した分散ニュートン法におけるサドル点のエスケープ

Escaping Saddle Points in Distributed Newton's Method with Communication efficiency and Byzantine Resilience ( http://arxiv.org/abs/2103.09424v1 )

ライセンス: CC0 1.0
Avishek Ghosh, Raj Kumar Maity, Arya Mazumdar, Kannan Ramchandran(参考訳) 本研究では,ビザンチンマシンの存在下で分散フレームワークにおける非凸損失関数(サドル点付き)の最適化の問題について検討する。 1台の中央マシン(パラメータサーバ)が多数のワーカマシンと通信する標準的な分散設定を考える。 提案手法は,サドル点を効率的に回避し局所極小に収束するネステロフとポリakの立方体正規化ニュートン法(newton method of nesterov and polyak \cite{nest})の変種である。 さらに, 本アルゴリズムは, 損失関数の鞍点近傍に \emph{fake local minima} を生成できるビザンチンマシンの存在に抵抗する。 我々は, 3次正規化ニュートンアルゴリズムを, サドル点や偽局所ミニマを効率よく回避できるように堅牢化する。 さらに,第2次アルゴリズムである反復複雑性は第1次アルゴリズムよりもはるかに小さく,パラメータサーバとはほとんど通信しない。 提案手法は, 近似勾配やヘッシアンなどいくつかの条件下で理論的に保証される。 さらに, 標準データセットといくつかのビザンチン攻撃を用いて実験を行い, 理論的知見を検証した。

We study the problem of optimizing a non-convex loss function (with saddle points) in a distributed framework in the presence of Byzantine machines. We consider a standard distributed setting with one central machine (parameter server) communicating with many worker machines. Our proposed algorithm is a variant of the celebrated cubic-regularized Newton method of Nesterov and Polyak \cite{nest}, which avoids saddle points efficiently and converges to local minima. Furthermore, our algorithm resists the presence of Byzantine machines, which may create \emph{fake local minima} near the saddle points of the loss function, also known as saddle-point attack. We robustify the cubic-regularized Newton algorithm such that it avoids the saddle points and the fake local minimas efficiently. Furthermore, being a second order algorithm, the iteration complexity is much lower than its first order counterparts, and thus our algorithm communicates little with the parameter server. We obtain theoretical guarantees for our proposed scheme under several settings including approximate (sub-sampled) gradients and Hessians. Moreover, we validate our theoretical findings with experiments using standard datasets and several types of Byzantine attacks.
翻訳日:2021-03-20 09:38:52 公開日:2021-03-17
# (参考訳) Value-aware Approximate Attention

Value-aware Approximate Attention ( http://arxiv.org/abs/2103.09857v1 )

ライセンス: CC BY 4.0
Ankit Gupta, Jonathan Berant(参考訳) 変圧器におけるドット製品注目の成功に続いて、入力長に関する二次複雑性に対処するために、最近多くの近似が提案されている。 しかし、これまでの全ての近似は、近似の品質に対する$\textit{value vectors}$の寄与を無視している。 本研究では,注目サブレイヤの真の出力,すなわち値ベクトルの近似に研究の取り組みを向けるべきであると主張する。 本稿では,価値認識目標の最適近似が,言語モデリングの文脈において,価値を無視する最適近似を実質的に上回っていることを理論的および実証的に示す。 さらに,注目度類似度を計算するためのカーネル関数の選択は,スキューの少ないカーネル関数が値ベクトルの影響を受けやすいスパース近似の品質に大きく影響することを示した。

Following the success of dot-product attention in Transformers, numerous approximations have been recently proposed to address its quadratic complexity with respect to the input length. However, all approximations thus far have ignored the contribution of the $\textit{value vectors}$ to the quality of approximation. In this work, we argue that research efforts should be directed towards approximating the true output of the attention sub-layer, which includes the value vectors. We propose a value-aware objective, and show theoretically and empirically that an optimal approximation of a value-aware objective substantially outperforms an optimal approximation that ignores values, in the context of language modeling. Moreover, we show that the choice of kernel function for computing attention similarity can substantially affect the quality of sparse approximations, where kernel functions that are less skewed are more affected by the value vectors.
翻訳日:2021-03-20 08:15:23 公開日:2021-03-17
# (参考訳) 階調の異なる順からの音声表現の自己教師付き学習

Self-Supervised Learning of Audio Representations from Permutations with Differentiable Ranking ( http://arxiv.org/abs/2103.09879v1 )

ライセンス: CC BY 4.0
Andrew N Carr, Quentin Berthet, Mathieu Blondel, Olivier Teboul, Neil Zeghidour(参考訳) いわゆる "pretext" タスクを用いた自己教師型事前学習は,近年,幅広いモダリティにおいて顕著なパフォーマンスを示している。 本研究では,音響信号のスペクトログラムのシャッフル部分を再順序付けするモデルを事前学習することにより,順列から自己教師付き学習を前進させ,下流分類性能を向上させる。 主な貢献は2つある。 まず,最近の微分可能ランキングの進歩を活かして,置換インバージョンをエンドツーエンドのトレーニングスキームに統合する主な課題を克服する。 これはこれまで、リオーダータスクを分類としてキャストすることで、利用可能な置換の空間を根本的に減らした。 実験により,全ての可能な置換点から学習することで,制限された固定集合を用いて事前学習した表現の質が向上することを確認した。 第2に,逆順列は教師なしの方法で音声表現を学習するための有意義な前文課題であることを示す。 特に,スペクトルパッチを時間周波数空間に並べ替えることで,楽器の分類や音符のピッチ推定を改善する。

Self-supervised pre-training using so-called "pretext" tasks has recently shown impressive performance across a wide range of modalities. In this work, we advance self-supervised learning from permutations, by pre-training a model to reorder shuffled parts of the spectrogram of an audio signal, to improve downstream classification performance. We make two main contributions. First, we overcome the main challenges of integrating permutation inversions into an end-to-end training scheme, using recent advances in differentiable ranking. This was heretofore sidestepped by casting the reordering task as classification, fundamentally reducing the space of permutations that can be exploited. Our experiments validate that learning from all possible permutations improves the quality of the pre-trained representations over using a limited, fixed set. Second, we show that inverting permutations is a meaningful pretext task for learning audio representations in an unsupervised fashion. In particular, we improve instrument classification and pitch estimation of musical notes by reordering spectrogram patches in the time-frequency space.
翻訳日:2021-03-20 08:01:00 公開日:2021-03-17
# (参考訳) 階層的注意に基づく年齢推定とバイアス推定

Hierarchical Attention-based Age Estimation and Bias Estimation ( http://arxiv.org/abs/2103.09882v1 )

ライセンス: CC BY 4.0
Shakediel Hiba and Yosi Keller(参考訳) 本研究では,顔画像に基づく年齢推定のための新しい深層学習手法を提案する。 まず,注意に基づく2重画像拡張集約手法を提案する。 これにより、ネットワークはトランスフォーマーエンコーダによって埋め込みが集約された複数の顔画像拡張を共同で利用することができる。 結果として得られる集約埋め込みは、顔画像属性をよりよくエンコードするように示される。 次に,年齢ラベルの離散的確率的推定と対応する回帰因子のアンサンブルを組み合わせた確率的階層的回帰フレームワークを提案する。 それぞれのレグレッサーは特に適応され、様々な年齢の確率的推定を洗練するように訓練されている。 提案手法は, 年齢推定のためのMORPH IIデータセットに適用した場合, 現代手法より優れ, 最先端の年齢推定精度が向上することが示されている。 最後に,最先端年齢推定結果のバイアス分析を紹介する。

In this work we propose a novel deep-learning approach for age estimation based on face images. We first introduce a dual image augmentation-aggregation approach based on attention. This allows the network to jointly utilize multiple face image augmentations whose embeddings are aggregated by a Transformer-Encoder. The resulting aggregated embedding is shown to better encode the face image attributes. We then propose a probabilistic hierarchical regression framework that combines a discrete probabilistic estimate of age labels, with a corresponding ensemble of regressors. Each regressor is particularly adapted and trained to refine the probabilistic estimate over a range of ages. Our scheme is shown to outperform contemporary schemes and provide a new state-of-the-art age estimation accuracy, when applied to the MORPH II dataset for age estimation. Last, we introduce a bias analysis of state-of-the-art age estimation results.
翻訳日:2021-03-20 07:46:59 公開日:2021-03-17
# (参考訳) 時空間データ分析システムに関する調査

A Survey on Spatio-temporal Data Analytics Systems ( http://arxiv.org/abs/2103.09883v1 )

ライセンス: CC BY 4.0
Md Mahbub Alam and Luis Torgo and Albert Bifet(参考訳) 空間的・空間的・空間的データ分析の分野では,時空間データ量の増加,位置情報サービスやアプリケーションの普及,さらには時空間データから抽出した知識の多岐にわたる実世界の問題を解決することの重要性から,研究・開発が盛んに行われている。 既存の研究の主な目標は、空間的あるいは時空間的なデータをキャプチャ、保存、管理、分析、可視化するアルゴリズムと技術を開発することである。 研究者たちは、既存のシステムに時空間サポートを追加するか、時空間データを処理するための新しいシステムを開発するか、時空間データをマイニングするためのアルゴリズムを実装するかのどちらかに貢献している。 既存の時空間・時空間データ分析のエコシステムは,(1)空間データベース(SQLとNoSQL),(2)大規模時空間データ処理基盤,(3)時空間データ処理のためのプログラミング言語とソフトウェアツールの3つのグループに分類される。 既存の調査は主に空間データを処理するためのビッグデータインフラストラクチャを調査しているため、この調査は空間データおよび時空間分析のエコシステム全体を調査し、また、大規模データ処理システムの最新のレビューを行っている。 この調査は、空間的および時空間的データ分析の重要性と将来を描いている。

Due to the surge of spatio-temporal data volume, the popularity of location-based services and applications, and the importance of extracted knowledge from spatio-temporal data to solve a wide range of real-world problems, a plethora of research and development work has been done in the area of spatial and spatio-temporal data analytics in the past decade. The main goal of existing works was to develop algorithms and technologies to capture, store, manage, analyze, and visualize spatial or spatio-temporal data. The researchers have contributed either by adding spatio-temporal support with existing systems, by developing a new system from scratch for processing spatio-temporal data, or by implementing algorithms for mining spatio-temporal data. The existing ecosystem of spatial and spatio-temporal data analytics can be categorized into three groups, (1) spatial databases (SQL and NoSQL), (2) big spatio-temporal data processing infrastructures, and (3) programming languages and software tools for processing spatio-temporal data. Since existing surveys mostly investigated big data infrastructures for processing spatial data, this survey has explored the whole ecosystem of spatial and spatio-temporal analytics along with an up-to-date review of big spatial data processing systems. This survey also portrays the importance and future of spatial and spatio-temporal data analytics.
翻訳日:2021-03-20 07:29:41 公開日:2021-03-17
# (参考訳) 市販畳み込みニューラルネットワークの未解決ポテンシャル

The Untapped Potential of Off-the-Shelf Convolutional Neural Networks ( http://arxiv.org/abs/2103.09891v1 )

ライセンス: CC BY 4.0
Matthew Inkawhich, Nathan Inkawhich, Eric Davis, Hai Li and Yiran Chen(参考訳) 近年,多くの新しい畳み込みネットワークアーキテクチャが開発され,課題認識タスクの最先端性能が向上している。 計算資源の改善に伴い、既存の設計を効率的にスケールアップし、ニューラルアーキテクチャサーチ(NAS)アルゴリズムで新しいアーキテクチャを生成することに多大な努力が払われている。 ネットワークトポロジーはモデル性能にとって重要な要素であることが証明されているが、トポロジーを推論時に静的に保つことによって、かなりの利益がテーブルに残されていることを示している。 スケールの変動のような課題のため、トレーニングデータセット全体でうまく機能するように設定された静的モデルは、すべてのテストデータを扱うように最適に設定されるべきではない。 本研究では,推論時間動的モデルのエキサイティングな可能性を明らかにする。 resnet-50のような既存の既製のモデルでは、イメージネット上で95%以上の精度で構成を動的に変更することができる。 このレベルのパフォーマンスは現在、20倍以上のパラメータとはるかに複雑なトレーニング手順を持つモデルを上回る。

Over recent years, a myriad of novel convolutional network architectures have been developed to advance state-of-the-art performance on challenging recognition tasks. As computational resources improve, a great deal of effort has been placed in efficiently scaling up existing designs and generating new architectures with Neural Architecture Search (NAS) algorithms. While network topology has proven to be a critical factor for model performance, we show that significant gains are being left on the table by keeping topology static at inference-time. Due to challenges such as scale variation, we should not expect static models configured to perform well across a training dataset to be optimally configured to handle all test data. In this work, we seek to expose the exciting potential of inference-time-dynamic models. By allowing just four layers to dynamically change configuration at inference-time, we show that existing off-the-shelf models like ResNet-50 are capable of over 95% accuracy on ImageNet. This level of performance currently exceeds that of models with over 20x more parameters and significantly more complex training procedures.
翻訳日:2021-03-20 07:28:27 公開日:2021-03-17
# (参考訳) ソースモデルとターゲットモデルがラベル空間をオーバーラップしない場合、ターゲット対向例の移動は可能か?

Can Targeted Adversarial Examples Transfer When the Source and Target Models Have No Label Space Overlap? ( http://arxiv.org/abs/2103.09916v1 )

ライセンス: CC BY 4.0
Nathan Inkawhich, Kevin J Liang, Jingyang Zhang, Huanrui Yang, Hai Li, Yiran Chen(参考訳) 我々は,攻撃者のソースモデルとターゲットブラックボックスモデルがラベルスペースとトレーニングデータセットを持つ可能性がある環境に対して,ブラックボックス転送に基づく標的攻撃を設計する。 このシナリオは「標準的な」ブラックボックス設定とは大きく異なり、攻撃プロセスに対するユニークなアプローチを保証している。 我々の方法論は、ホワイトボックスとブラックボックスラベルセットの間のクラス対応行列の構築から始まります。 攻撃のオンラインフェーズでは、ホワイトボックス分布から高関連性の高いプロキシクラスの表現を活用し、ブラックボックスモデルを騙して望ましいターゲットクラスを予測する。 我々の攻撃は、3つの複雑で困難なテスト環境で評価され、ソースモデルとターゲットモデルには、それぞれのユニークなカテゴリ間に異なる概念的重複がある。 最終的に、オーバーラップしないラベル空間を持つモデル間のターゲット転送ベースの敵攻撃を構築することは実際に可能である。 また,クリーンデータの特性に対する攻撃成功の感度分析を行った。 最後に、クエリベースのメソッドと統合した場合、当社の転送攻撃は強力な敵の優先事項として機能し、クエリ効率と敵意的な成功を著しく高めていることを示します。

We design blackbox transfer-based targeted adversarial attacks for an environment where the attacker's source model and the target blackbox model may have disjoint label spaces and training datasets. This scenario significantly differs from the "standard" blackbox setting, and warrants a unique approach to the attacking process. Our methodology begins with the construction of a class correspondence matrix between the whitebox and blackbox label sets. During the online phase of the attack, we then leverage representations of highly related proxy classes from the whitebox distribution to fool the blackbox model into predicting the desired target class. Our attacks are evaluated in three complex and challenging test environments where the source and target models have varying degrees of conceptual overlap amongst their unique categories. Ultimately, we find that it is indeed possible to construct targeted transfer-based adversarial attacks between models that have non-overlapping label spaces! We also analyze the sensitivity of attack success to properties of the clean data. Finally, we show that our transfer attacks serve as powerful adversarial priors when integrated with query-based methods, markedly boosting query efficiency and adversarial success.
翻訳日:2021-03-20 07:10:53 公開日:2021-03-17
# (参考訳) コモディティieee 802.11acアクセスポイントを用いた環境と人別アクティビティ認識

Environment and Person Independent Activity Recognition with a Commodity IEEE 802.11ac Access Point ( http://arxiv.org/abs/2103.09924v1 )

ライセンス: CC BY 4.0
Francesca Meneghello, Domenico Garlisi, Nicol\`o Dal Fabbro, Ilenia Tinnirello, Michele Rossi(参考訳) 本稿では,市販のieee 802.11ac (wi-fi) デバイスを用いた人間行動認識 (har) のための独自のアプローチを提案する。 そこで我々は、WiFiチャネルのチャネル周波数応答(CFR)から受信した位相を抽出し、クリーン化し、処理する手法を考案し、通信リンクの受信機におけるドップラーシフトの推定値を得る。 ドップラーシフトは、(環境固有の)静的オブジェクトに影響されず、環境中の移動散乱体の存在を明らかにする。 提案したHARフレームワークは,4つの異なる活動を行うように収集されたデータに基づいてトレーニングされ,未確認のセットアップ上でテストされ,トレーニング時に考慮された人,日,環境の変化としての性能を評価する。 最悪の場合,提案手法は平均精度が95%以上に達し,ニューラルネットワークに基づく学習アルゴリズムと連動して抽出されたドップラー情報の有効性を検証した。

Here, we propose an original approach for human activity recognition (HAR) with commercial IEEE 802.11ac (WiFi) devices, which generalizes across different persons, days and environments. To achieve this, we devise a technique to extract, clean and process the received phases from the channel frequency response (CFR) of the WiFi channel, obtaining an estimate of the Doppler shift at the receiver of the communication link. The Doppler shift reveals the presence of moving scatterers in the environment, while not being affected by (environment specific) static objects. The proposed HAR framework is trained on data collected as a person performs four different activities and is tested on unseen setups, to assess its performance as the person, the day and/or the environment change with respect to those considered at training time. In the worst case scenario, the proposed HAR technique reaches an average accuracy higher than 95%, validating the effectiveness of the extracted Doppler information, used in conjunction with a learning algorithm based on a neural network, in recognizing human activities in a subject and environment independent fashion.
翻訳日:2021-03-20 06:49:21 公開日:2021-03-17
# (参考訳) 大権からプリンなしへ:初期英語文字における新しい単語の使用と使用

From Plenipotentiary to Puddingless: Users and Uses of New Words in Early English Letters ( http://arxiv.org/abs/2103.09926v1 )

ライセンス: CC BY 4.0
Tanja S\"aily, Eetu M\"akel\"a, Mika H\"am\"al\"ainen(参考訳) 1640年-1660年と1760年-1780年の2つの初期の英文通信の標本でネオロジズムの使用について検討した。 特有な関心は、新しい語彙の早期採用者、彼らが代表する社会集団、そして彼らのネオロジズムのタイプと機能である。 コンピュータ支援アプローチについて述べるとともに,コーパスの大規模変動に伴う問題点について述べる。 以上の結果から,男性文字ライターは女性よりもネオロジズムを頻繁に使用する傾向にあったが,18世紀には女性や下層階級もネオロジズムの使用に参加する機会が増えたと考えられる。 どちらのサンプルでも、親しい友人の間で書かれた手紙にネオロジズムが最も頻繁に起こるが、これはより創造的な言語の使用を引き起こす不安定な関係のためかもしれない。 17世紀のサンプルでは、イングランド内戦の影響を観察し、18世紀のサンプルは、情報交換に加えて社会関係の構築と維持のためのツールとして使われるようになっているため、手紙を書く機能の変化を反映しているように見える。

We study neologism use in two samples of early English correspondence, from 1640--1660 and 1760--1780. Of especial interest are the early adopters of new vocabulary, the social groups they represent, and the types and functions of their neologisms. We describe our computer-assisted approach and note the difficulties associated with massive variation in the corpus. Our findings include that while male letter-writers tend to use neologisms more frequently than women, the eighteenth century seems to have provided more opportunities for women and the lower ranks to participate in neologism use as well. In both samples, neologisms most frequently occur in letters written between close friends, which could be due to this less stable relationship triggering more creative language use. In the seventeenth-century sample, we observe the influence of the English Civil War, while the eighteenth-century sample appears to reflect the changing functions of letter-writing, as correspondence is increasingly being used as a tool for building and maintaining social relationships in addition to exchanging information.
翻訳日:2021-03-20 06:17:18 公開日:2021-03-17
# 線形関数近似を用いた無限ホリゾンオフライン強化学習:次元の呪いとアルゴリズム

Infinite-Horizon Offline Reinforcement Learning with Linear Function Approximation: Curse of Dimensionality and Algorithm ( http://arxiv.org/abs/2103.09847v1 )

ライセンス: Link先を確認
Lin Chen, Bruno Scherrer, Peter L. Bartlett(参考訳) 本稿では,線形関数近似を用いて,無限ホリゾンオフライン強化学習(オフポリシー評価問題とも呼ばれる)におけるポリシー評価のサンプル複雑性について検討する。 ハードレジーム $d\gamma^{2}>1$ を特定し、ここで$d$ は特徴ベクトルの次元、$\gamma$ はディスカウントレートである。 この方法では、任意の$q\in[\gamma^{2},1]$に対して、その特徴共分散行列の最小の固有値が$q/d$で$\omega\left(\frac{d}{\gamma^{2}\left(q-\gamma^{2}\right)\varepsilon^{2}}\exp\left(\theta\left(d\gamma^{2}\right)\right)\right)\right)$が付加誤差$\varepsilon$までの値関数を近似するハードインスタンスを構築することができる。 サンプルの複雑さの低い境界は$d$で指数関数的であることに注意。 もし$q=\gamma^{2}$なら、無限のデータでも十分ではない。 Under the low distribution shift assumption, we show that there is an algorithm that needs at most $O\left(\max\left\{ \frac{\left\Vert \theta^{\pi}\right\Vert _{2}^{4}}{\varepsilon^{4}}\log\frac{d}{\delta},\frac{1}{\varepsilon^{2}}\left(d+\log\frac{1}{\delta}\right)\right\} \right)$ samples ($\theta^{\pi}$ is the parameter of the policy in linear function approximation) and guarantees approximation to the value function up to an additive error of $\varepsilon$ with probability at least $1-\delta$.

In this paper, we investigate the sample complexity of policy evaluation in infinite-horizon offline reinforcement learning (also known as the off-policy evaluation problem) with linear function approximation. We identify a hard regime $d\gamma^{2}>1$, where $d$ is the dimension of the feature vector and $\gamma$ is the discount rate. In this regime, for any $q\in[\gamma^{2},1]$, we can construct a hard instance such that the smallest eigenvalue of its feature covariance matrix is $q/d$ and it requires $\Omega\left(\frac{d}{\gamma^{2}\left(q-\gamma^{2}\right)\varepsilon^{2}}\exp\left(\Theta\left(d\gamma^{2}\right)\right)\right)$ samples to approximate the value function up to an additive error $\varepsilon$. Note that the lower bound of the sample complexity is exponential in $d$. If $q=\gamma^{2}$, even infinite data cannot suffice. Under the low distribution shift assumption, we show that there is an algorithm that needs at most $O\left(\max\left\{ \frac{\left\Vert \theta^{\pi}\right\Vert _{2}^{4}}{\varepsilon^{4}}\log\frac{d}{\delta},\frac{1}{\varepsilon^{2}}\left(d+\log\frac{1}{\delta}\right)\right\} \right)$ samples ($\theta^{\pi}$ is the parameter of the policy in linear function approximation) and guarantees approximation to the value function up to an additive error of $\varepsilon$ with probability at least $1-\delta$.
翻訳日:2021-03-19 14:15:10 公開日:2021-03-17
# 機械ビジョンに基づく火星サンプルリターンのためのサンプルチューブ位置決め

Machine Vision based Sample-Tube Localization for Mars Sample Return ( http://arxiv.org/abs/2103.09942v1 )

ライセンス: Link先を確認
Shreyansh Daftry, Barry Ridge, William Seto, Tu-Hoa Pham, Peter Ilhardt, Gerard Maggiolino, Mark Van der Merwe, Alex Brinkman, John Mayo, Eric Kulczyski and Renaud Detry(参考訳) 火星サンプルリターン(MSR)アーキテクチャはNASAとESAが共同で研究している。 現在想定されているように、MSRキャンペーンはサンプルキャッシュ、フェッチ、地球への帰還という3つのミッションからなる。 本稿では,MSRのフェッチ部分に着目し,より具体的には火星表面に堆積した試料管を自律的に検出・位置決めする問題について述べる。 この目的に向けて,2つのマシンビジョンに基づくアプローチについて検討した。1つは,ハードコードされたフィルタとチューブの3次元形状モデルを用いたテンプレートマッチングに基づく幾何駆動アプローチ,もう1つは畳み込みニューラルネットワーク(cnns)と学習機能に基づくデータ駆動アプローチである。 さらに,サンプルチューブ画像の大規模ベンチマークデータセットを屋外の代表的な環境に収集し,グランド・トゥルーション・セグメンテーション・マスクと位置をアノテートした。 このデータセットは, 異なる地形, 照明条件, ダストカバーを体系的に取得し, それぞれのアプローチの実施可能性, 相対強度, 弱さ, 悪条件下でのロバスト性について, ベンチマークを行った。

A potential Mars Sample Return (MSR) architecture is being jointly studied by NASA and ESA. As currently envisioned, the MSR campaign consists of a series of 3 missions: sample cache, fetch and return to Earth. In this paper, we focus on the fetch part of the MSR, and more specifically the problem of autonomously detecting and localizing sample tubes deposited on the Martian surface. Towards this end, we study two machine-vision based approaches: First, a geometry-driven approach based on template matching that uses hard-coded filters and a 3D shape model of the tube; and second, a data-driven approach based on convolutional neural networks (CNNs) and learned features. Furthermore, we present a large benchmark dataset of sample-tube images, collected in representative outdoor environments and annotated with ground truth segmentation masks and locations. The dataset was acquired systematically across different terrain, illumination conditions and dust-coverage; and benchmarking was performed to study the feasibility of each approach, their relative strengths and weaknesses, and robustness in the presence of adverse environmental conditions.
翻訳日:2021-03-19 14:14:30 公開日:2021-03-17
# 自己知識蒸留によるタイムリダクション層と微調整を組み込んだトランス型asr

Transformer-based ASR Incorporating Time-reduction Layer and Fine-tuning with Self-Knowledge Distillation ( http://arxiv.org/abs/2103.09903v1 )

ライセンス: Link先を確認
Md Akmal Haidar, Chao Xing, Mehdi Rezagholizadeh(参考訳) 従来のASRとは異なり、エンドツーエンドの自動音声認識(ASR)では、音声エンコーダから意味表現を学ぶためのモジュールが存在しない。 さらに、高いフレームレートの音声表現は、モデルが意味表現を適切に学習することを妨げる。 したがって、音声エンコーダの低フレームレートで構築したモデルの方が性能が向上する。 Transformer ベースの ASR では、フレームレートが低いことは意味表現の学習だけでなく、学習と推論の両方において O(n^2) の複雑度を持つ自己認識機構による計算複雑性の低減にも重要である。 本稿では,従来のサブサンプリング法に加えて,トランスエンコーダ層内に時間削減層を組み込んだ時間低減層を持つトランスベースasrモデルを提案する。 これは、パフォーマンス改善を伴うトレーニングと推論のための自己注意プロセスの計算コストを削減するのに役立つ。 さらに、自己知識蒸留(S-KD)を用いた事前学習型ASRモデルの微調整手法を導入し、ASRモデルの性能をさらに向上させる。 LibriSpeechデータセットの実験により,提案手法が他のトランスフォーマーベースのASRシステムより優れていることが示された。 さらに,言語モデル(LM)の融合により,外部データなしで学習したパラメータがわずか3000万であるTransformerベースのASRモデルに対して,最先端の単語誤り率(WER)の新たな結果が得られる。

End-to-end automatic speech recognition (ASR), unlike conventional ASR, does not have modules to learn the semantic representation from speech encoder. Moreover, the higher frame-rate of speech representation prevents the model to learn the semantic representation properly. Therefore, the models that are constructed by the lower frame-rate of speech encoder lead to better performance. For Transformer-based ASR, the lower frame-rate is not only important for learning better semantic representation but also for reducing the computational complexity due to the self-attention mechanism which has O(n^2) order of complexity in both training and inference. In this paper, we propose a Transformer-based ASR model with the time reduction layer, in which we incorporate time reduction layer inside transformer encoder layers in addition to traditional sub-sampling methods to input features that further reduce the frame-rate. This can help in reducing the computational cost of the self-attention process for training and inference with performance improvement. Moreover, we introduce a fine-tuning approach for pre-trained ASR models using self-knowledge distillation (S-KD) which further improves the performance of our ASR model. Experiments on LibriSpeech datasets show that our proposed methods outperform all other Transformer-based ASR systems. Furthermore, with language model (LM) fusion, we achieve new state-of-the-art word error rate (WER) results for Transformer-based ASR models with just 30 million parameters trained without any external data.
翻訳日:2021-03-19 14:11:54 公開日:2021-03-17
# メタラーニングによる教師なしローカルルールの強化

Augmenting Supervised Learning by Meta-learning Unsupervised Local Rules ( http://arxiv.org/abs/2103.10252v1 )

ライセンス: Link先を確認
Jeffrey Cheng, Ari Benjamin, Benjamin Lansdell, Konrad Paul Kordin(参考訳) 脳は教師なし学習と(おそらく)教師なし学習を同時に行う。 これにより、教師なしメソッドと教師なしメソッドのハイブリッドがより良い学習をもたらすかどうかという疑問が持ち上がる。 ヘビアン学習規則の豊かな空間に触発され、教師なし学習規則を直接学習し、教師付き信号を最も強化するローカル情報について学習した。 本稿では,前シナプス活動,後シナプス活動,現在の重み付けに対する教師なしルールと勾配に基づく学習を組み合わせるためのhebbian-augmented training algorithm (hat)を提案する。 簡単な問題(Fashion-MNIST)に対するHATの効果を検証し,教師付き学習よりも一貫して高い性能を示す。 この発見は、教師なしのシナプス活動の学習が、勾配に基づく手法の強化に使用できる強いシグナルを与えるという実証的な証拠を提供する。 さらに,メタ学習更新規則は時間変化関数であるため,学習を支援する解釈可能なヘビアン更新規則を特定することは困難である。 メタラーナーは最終的に、学習者の収束を妨げないように重要な重みを保存する非ヘビーンの規則へと退化する。

The brain performs unsupervised learning and (perhaps) simultaneous supervised learning. This raises the question as to whether a hybrid of supervised and unsupervised methods will produce better learning. Inspired by the rich space of Hebbian learning rules, we set out to directly learn the unsupervised learning rule on local information that best augments a supervised signal. We present the Hebbian-augmented training algorithm (HAT) for combining gradient-based learning with an unsupervised rule on pre-synpatic activity, post-synaptic activities, and current weights. We test HAT's effect on a simple problem (Fashion-MNIST) and find consistently higher performance than supervised learning alone. This finding provides empirical evidence that unsupervised learning on synaptic activities provides a strong signal that can be used to augment gradient-based methods. We further find that the meta-learned update rule is a time-varying function; thus, it is difficult to pinpoint an interpretable Hebbian update rule that aids in training. We do find that the meta-learner eventually degenerates into a non-Hebbian rule that preserves important weights so as not to disturb the learner's convergence.
翻訳日:2021-03-19 14:11:16 公開日:2021-03-17
# Bias-Variance Decompositionによる対人訓練の一般化の理解

Understanding Generalization in Adversarial Training via the Bias-Variance Decomposition ( http://arxiv.org/abs/2103.09947v1 )

ライセンス: Link先を確認
Yaodong Yu, Zitong Yang, Edgar Dobriban, Jacob Steinhardt, Yi Ma(参考訳) 反対に訓練されたモデルは大きな一般化ギャップを示し、大きな摂動半径でもトレーニングセットを補間できるが、クリーンなサンプルでは大きなテストエラーが発生する。 このギャップを調査するために,テストリスクをバイアスと分散成分に分解する。 バイアスは摂動の大きさとともに単調に増加し、リスクの主要な用語であることがわかった。 一方、分散は単調であり、トレーニングセットの補間しきい値付近でピークとなる。 対照的に、一般化ギャップの一般的な説明は、代わりに分散が単調であると予測し、未解決のミステリーを残している。 同一の一様分散が単純な高次元ロジスティック回帰問題やランダム化平滑化問題にも現れることを示した。 全体としては、現代の設定におけるバイアス分散分解のパワーを強調します。2つの測定結果を提供することで、いくつかの理論を除外し、他の理論を明確にすることができます。

Adversarially trained models exhibit a large generalization gap: they can interpolate the training set even for large perturbation radii, but at the cost of large test error on clean samples. To investigate this gap, we decompose the test risk into its bias and variance components. We find that the bias increases monotonically with perturbation size and is the dominant term in the risk. Meanwhile, the variance is unimodal, peaking near the interpolation threshold for the training set. In contrast, we show that popular explanations for the generalization gap instead predict the variance to be monotonic, which leaves an unresolved mystery. We show that the same unimodal variance appears in a simple high-dimensional logistic regression problem, as well as for randomized smoothing. Overall, our results highlight the power of bias-variance decompositions in modern settings--by providing two measurements instead of one, they can rule out some theories and clarify others.
翻訳日:2021-03-19 14:10:07 公開日:2021-03-17
# コンピュータビジョンタスクのための画像のサイズ変更学習

Learning to Resize Images for Computer Vision Tasks ( http://arxiv.org/abs/2103.09950v1 )

ライセンス: Link先を確認
Hossein Talebi, Peyman Milanfar(参考訳) 近年、畳み込みニューラルネットワークがコンピュータビジョンに革命をもたらしたあらゆる方法において、画像サイズがトレーニング対象のタスクの精度に与える影響という、驚くほど重要な側面が注目されていない。 通常、効率性を高めるために、入力画像は比較的小さな空間解像度(例えば)にリサイズされる。 224×224)で、この解像度でトレーニングと推論の両方を行う。 つまり、bilinearやbicubicといった既製のイメージリザーは、ほとんどの機械学習ソフトウェアフレームワークで一般的に使用されています。 しかし、これらのリサイザーはトレーニングされたネットワークのタスク性能を制限するのだろうか? 答えはイエスです。 実際、典型的な線形リサイザは、性能を大幅に向上できる学習されたリサイザに置き換えることができる。 重要なことは、古典的リサイザーは一般的にダウンスケール画像の知覚的品質が向上するのに対し、学習されたリサイザーは必ずしも視覚的品質が向上するだけでなく、タスク性能が向上する。 我々の学習画像復調器はベースライン視覚モデルで共同で訓練されている。 この学習されたCNNベースのリサイザは、ベースラインモデルよりも終端タスクメトリックを一貫した改善をもたらす、マシンフレンドリーな視覚操作を生成する。 具体的には、imagenetデータセットによる分類タスクに注目し、4つの異なるモデルを用いて各モデルに適応したリシライザを学習する。 さらに,提案手法は,他の視覚タスクの分類ベースラインの微調整にも有用であることを示す。 そこで我々は,AVAデータセット上で画像品質評価(IQA)モデルを開発するために,3種類のベースラインを実験した。

For all the ways convolutional neural nets have revolutionized computer vision in recent years, one important aspect has received surprisingly little attention: the effect of image size on the accuracy of tasks being trained for. Typically, to be efficient, the input images are resized to a relatively small spatial resolution (e.g. 224x224), and both training and inference are carried out at this resolution. The actual mechanism for this re-scaling has been an afterthought: Namely, off-the-shelf image resizers such as bilinear and bicubic are commonly used in most machine learning software frameworks. But do these resizers limit the on task performance of the trained networks? The answer is yes. Indeed, we show that the typical linear resizer can be replaced with learned resizers that can substantially improve performance. Importantly, while the classical resizers typically result in better perceptual quality of the downscaled images, our proposed learned resizers do not necessarily give better visual quality, but instead improve task performance. Our learned image resizer is jointly trained with a baseline vision model. This learned CNN-based resizer creates machine friendly visual manipulations that lead to a consistent improvement of the end task metric over the baseline model. Specifically, here we focus on the classification task with the ImageNet dataset, and experiment with four different models to learn resizers adapted to each model. Moreover, we show that the proposed resizer can also be useful for fine-tuning the classification baselines for other vision tasks. To this end, we experiment with three different baselines to develop image quality assessment (IQA) models on the AVA dataset.
翻訳日:2021-03-19 14:09:27 公開日:2021-03-17
# Bias-free FedGAN

Bias-Free FedGAN ( http://arxiv.org/abs/2103.09876v1 )

ライセンス: Link先を確認
Vaikkunth Mugunthan, Vignesh Gokul, Lalana Kagal, Shlomo Dubnov(参考訳) Federated Generative Adversarial Network (FedGAN)は、クライアントが機密データを共有することなく、分散クライアント間でGANをトレーニングするための通信効率のよいアプローチである。 本稿では,FedGANが非独立分散(非ID)環境下でバイアスデータを生成することを示す。 また,FedGANを用いてバイアスのない合成データセットを生成する手法であるBias-Free FedGANを提案する。 Bias-Free FedGANはFedGANと同じ通信コストを持つ。 画像データセット(MNISTとFashionMNIST)の実験結果から,我々の主張を裏付ける。

Federated Generative Adversarial Network (FedGAN) is a communication-efficient approach to train a GAN across distributed clients without clients having to share their sensitive training data. In this paper, we experimentally show that FedGAN generates biased data points under non-independent-and-identically-distributed (non-iid) settings. Also, we propose Bias-Free FedGAN, an approach to generate bias-free synthetic datasets using FedGAN. Bias-Free FedGAN has the same communication cost as that of FedGAN. Experimental results on image datasets (MNIST and FashionMNIST) validate our claims.
翻訳日:2021-03-19 14:06:46 公開日:2021-03-17
# 顔のタトゥーと絵画が顔認識システムに与える影響

Impact of Facial Tattoos and Paintings on Face Recognition Systems ( http://arxiv.org/abs/2103.09939v1 )

ライセンス: Link先を確認
Mathias Ibsen, Christian Rathgeb, Thomas Fink, Pawel Drozdowski, Christoph Busch(参考訳) 近年、深層畳み込みニューラルネットワークの最近の進歩により、顔認識技術は印象的な認識性能を示している。 これらの改善にもかかわらず、顔認識システムの性能に影響を与えるいくつかの課題は残っている。 本研究では,顔タトゥーや絵画が現在の顔認識システムに与える影響について検討する。 そこで我々はまず,顔タトゥーや絵画のない人物のイメージペアを含む適切なデータベースを収集した。 顔のタトゥーや絵画が顔の検出、品質推定、顔認証システムの特徴抽出と比較モジュールにどのように影響するかを評価するために構築されたデータベースを用いた。 これらのモジュールに対する影響は、最先端のオープンソースおよび商用システムを用いて評価された。 その結果、顔の入れ墨や絵は、特に顔の広い部分をタトゥーや絵で覆っている画像に対して、全てのテストモジュールに影響を及ぼすことがわかった。 我々の研究は初期のケーススタディであり、顔の入れ墨や絵画による視覚的変化に対して堅牢なアルゴリズムを設計する必要があることを示している。

In the past years, face recognition technologies have shown impressive recognition performance, mainly due to recent developments in deep convolutional neural networks. Notwithstanding those improvements, several challenges which affect the performance of face recognition systems remain. In this work, we investigate the impact that facial tattoos and paintings have on current face recognition systems. To this end, we first collected an appropriate database containing image-pairs of individuals with and without facial tattoos or paintings. The assembled database was used to evaluate how facial tattoos and paintings affect the detection, quality estimation, as well as the feature extraction and comparison modules of a face recognition system. The impact on these modules was evaluated using state-of-the-art open-source and commercial systems. The obtained results show that facial tattoos and paintings affect all the tested modules, especially for images where a large area of the face is covered with tattoos or paintings. Our work is an initial case-study and indicates a need to design algorithms which are robust to the visual changes caused by facial tattoos and paintings.
翻訳日:2021-03-19 14:04:11 公開日:2021-03-17
# 高速・高品位ブラインドマルチスペクトル画像パンシャープ

Fast and High-Quality Blind Multi-Spectral Image Pansharpening ( http://arxiv.org/abs/2103.09943v1 )

ライセンス: Link先を確認
Lantao Yu, Dehong Liu, Hassan Mansour, Petros T. Boufounos(参考訳) Blind Pansharpeningは、低空間分解能マルチスペクトル (LRMS) 画像が与えられた高空間分解能マルチスペクトル (HRMS) 画像を生成する問題に対処する。 本稿では,ブラインドパンシャーピングへの高速アプローチを提案し,最先端の画像再構成品質を実現する。 典型的なブラインドパンシャーピングアルゴリズムは、ぼやけたカーネルとターゲットのHRMSイメージが反復的な解法を用いて、交互に計算されるため、しばしば計算集約的である。 高速なブラインドパンシャープ化を実現するため,ブラーカーネルの解とHRMS画像の解を分離する。 まず,おおよそLRMS画像チャネルの線形結合を近似するために,PAN画像のサンプル化バージョンをぼかしたカーネル係数を最小の総一般化変動で計算することにより,ボケカーネルを推定する。 そして,各HRMSチャネルとPAN画像の関係を正規化するために,局所ラプラシアンを用いてHRMS画像の各チャネルを推定する。 HRMS画像の解法は、チャネル間の並列化と各チャネルの高速数値アルゴリズムの両方によって加速される。 高速なスキームと強力なプリエントにより,我々はボケカーネル係数 (総一般化変動) とクロスチャネル関係 (局所ラプラシアンプリエント) を用いて数値実験を行い,hrms画像の計算時間と再構成品質の両方において,アルゴリズムが最先端モデルベースよりも優れていることを示した。

Blind pansharpening addresses the problem of generating a high spatial-resolution multi-spectral (HRMS) image given a low spatial-resolution multi-spectral (LRMS) image with the guidance of its associated spatially misaligned high spatial-resolution panchromatic (PAN) image without parametric side information. In this paper, we propose a fast approach to blind pansharpening and achieve state-of-the-art image reconstruction quality. Typical blind pansharpening algorithms are often computationally intensive since the blur kernel and the target HRMS image are often computed using iterative solvers and in an alternating fashion. To achieve fast blind pansharpening, we decouple the solution of the blur kernel and of the HRMS image. First, we estimate the blur kernel by computing the kernel coefficients with minimum total generalized variation that blur a downsampled version of the PAN image to approximate a linear combination of the LRMS image channels. Then, we estimate each channel of the HRMS image using local Laplacian prior to regularize the relationship between each HRMS channel and the PAN image. Solving the HRMS image is accelerated by both parallelizing across the channels and by fast numerical algorithms for each channel. Due to the fast scheme and the powerful priors we used on the blur kernel coefficients (total generalized variation) and on the cross-channel relationship (local Laplacian prior), numerical experiments demonstrate that our algorithm outperforms state-of-the-art model-based counterparts in terms of both computational time and reconstruction quality of the HRMS images.
翻訳日:2021-03-19 14:03:56 公開日:2021-03-17
# 同型暗号化線形コンテキスト帯域

Homomorphically Encrypted Linear Contextual Bandit ( http://arxiv.org/abs/2103.09927v1 )

ライセンス: Link先を確認
Evrard Garcelon and Vianney Perchet and Matteo Pirotta(参考訳) context banditは、レコメンデーションシステム、オンライン広告、臨床試験など、さまざまなドメインで応用されているシーケンシャルな意思決定問題における、オンライン学習の一般的なフレームワークである。 banditメソッドの重要な側面は、シーケンシャルな問題を解決するために、個々のデータやグループレベルのデータといったコンテキストと報酬を観察する必要があることです。 産業アプリケーションにおける大規模なデプロイメントは、ユーザのプライバシを保護する方法への関心を高めている。 本稿では,非対称暗号に基づくプライバシー保護バンディットフレームワークを提案する。 banditアルゴリズムは暗号化された情報(コンテキストと報酬)のみを観察し、それを解読する能力を持たない。 準同型暗号を活用することで,設定の複雑さにもかかわらず,暗号化データから学習することができることを示す。 我々は,データを暗号化したまま,任意の線形コンテキストの盗聴問題に対して,$\widetilde{O}(d\sqrt{T})$ regretboundを実現するアルゴリズムを導入する。

Contextual bandit is a general framework for online learning in sequential decision-making problems that has found application in a large range of domains, including recommendation system, online advertising, clinical trials and many more. A critical aspect of bandit methods is that they require to observe the contexts -- i.e., individual or group-level data -- and the rewards in order to solve the sequential problem. The large deployment in industrial applications has increased interest in methods that preserve the privacy of the users. In this paper, we introduce a privacy-preserving bandit framework based on asymmetric encryption. The bandit algorithm only observes encrypted information (contexts and rewards) and has no ability to decrypt it. Leveraging homomorphic encryption, we show that despite the complexity of the setting, it is possible to learn over encrypted data. We introduce an algorithm that achieves a $\widetilde{O}(d\sqrt{T})$ regret bound in any linear contextual bandit problem, while keeping data encrypted.
翻訳日:2021-03-19 13:57:26 公開日:2021-03-17
# 音声認識のためのRNNトランスデューサ技術

Advancing RNN Transducer Technology for Speech Recognition ( http://arxiv.org/abs/2103.09935v1 )

ライセンス: Link先を確認
George Saon, Zoltan Tueske, Daniel Bolanos and Brian Kingsbury(参考訳) 3つのタスク(Switchboard 300時間, スペイン語 780時間, イタリア語 900時間)における単語誤り率の低下に寄与するRNNトランスデューサ(RNN-Ts)の手法について検討した。 この技術は、アーキテクチャの変更、話者適応、言語モデルの融合、モデルの組み合わせ、一般的なトレーニングレシピに関するものである。 まず、結合ネットワークにおけるエンコーダと予測ネットワークベクトルの(加算とは対照的に)新たな乗算積分を導入する。 第2に、データ摂動を伴うRNN-Tへのi-vector話者適応の適用性について論じる。 第3に,最近提案された密度比言語モデル融合の有効性について検討する。 最後に、トレーニングレシピの他の構成要素とその認識性能への影響について述べる。 我々は、NIST Hub5 2000評価のSwitchboardおよびCallHomeテストセットで5.9%と12.5%のワードエラー率、Mozilla CommonVoice Italyテストセットで12.7%のWERを報告した。

We investigate a set of techniques for RNN Transducers (RNN-Ts) that were instrumental in lowering the word error rate on three different tasks (Switchboard 300 hours, conversational Spanish 780 hours and conversational Italian 900 hours). The techniques pertain to architectural changes, speaker adaptation, language model fusion, model combination and general training recipe. First, we introduce a novel multiplicative integration of the encoder and prediction network vectors in the joint network (as opposed to additive). Second, we discuss the applicability of i-vector speaker adaptation to RNN-Ts in conjunction with data perturbation. Third, we explore the effectiveness of the recently proposed density ratio language model fusion for these tasks. Last but not least, we describe the other components of our training recipe and their effect on recognition performance. We report a 5.9% and 12.5% word error rate on the Switchboard and CallHome test sets of the NIST Hub5 2000 evaluation and a 12.7% WER on the Mozilla CommonVoice Italian test set.
翻訳日:2021-03-19 13:55:45 公開日:2021-03-17
# IRLI: インデックス学習のための反復的再分割

IRLI: Iterative Re-partitioning for Learning to Index ( http://arxiv.org/abs/2103.09944v1 )

ライセンス: Link先を確認
Gaurav Gupta, Tharun Medini, Anshumali Shrivastava, Alexander J Smola(参考訳) ニューラルネットワークは、クエリーを巨大な項目集合にマッピングする基本的な情報検索問題を変換した。 しかし、効率的で低レイテンシな推論の必要性により、コミュニティはアイテム空間における近接探索を効率よく再考せざるを得ない。 この目的のために、インデックスへの学習は近年大きな関心を集めている。 分散環境でのロードバランスとスケーラビリティを維持しながら、高い精度を得る方法とのトレードオフが必要だ。 我々はIRLI(early)と呼ばれる新しい手法を提案し、クエリ・イテム関連データから直接関連するバケットを学習することでアイテムを反復的に分割する。 さらにIRLIは、$$$$の優れたロードバランシング戦略を採用している。 我々は,irliが極めて自然な仮定の下で高い確率で正しい項目を検索し,優れた負荷分散を実現することを数学的に示す。 IRLIは、マルチラベル分類における最高のベースラインの精度を上回り、推論の速度は5x$である。 近隣の探索タスクでは、同じリコールに対して候補の ~ {1/6}^th しか必要とせず、最先端のLearted HashingアプローチであるNeuralLSHより優れている。 IRLIはデータとモデル並列の両方であり、分散GPU実装に最適である。 1億の高密度ベクトルをインデクシングし、人気の高いFAISSライブラリを10%以上リコールすることで、この利点を実証する。

Neural models have transformed the fundamental information retrieval problem of mapping a query to a giant set of items. However, the need for efficient and low latency inference forces the community to reconsider efficient approximate near-neighbor search in the item space. To this end, learning to index is gaining much interest in recent times. Methods have to trade between obtaining high accuracy while maintaining load balance and scalability in distributed settings. We propose a novel approach called IRLI (pronounced `early'), which iteratively partitions the items by learning the relevant buckets directly from the query-item relevance data. Furthermore, IRLI employs a superior power-of-$k$-choices based load balancing strategy. We mathematically show that IRLI retrieves the correct item with high probability under very natural assumptions and provides superior load balancing. IRLI surpasses the best baseline's precision on multi-label classification while being $5x$ faster on inference. For near-neighbor search tasks, the same method outperforms the state-of-the-art Learned Hashing approach NeuralLSH by requiring only ~ {1/6}^th of the candidates for the same recall. IRLI is both data and model parallel, making it ideal for distributed GPU implementation. We demonstrate this advantage by indexing 100 million dense vectors and surpassing the popular FAISS library by >10% on recall.
翻訳日:2021-03-19 13:53:11 公開日:2021-03-17
# (参考訳) マルチプライズ抽選券仮説:ランダム重み付きネットワークを用いた正確なバイナリニューラルネットワークの探索

Multi-Prize Lottery Ticket Hypothesis: Finding Accurate Binary Neural Networks by Pruning A Randomly Weighted Network ( http://arxiv.org/abs/2103.09377v1 )

ライセンス: CC BY 4.0
James Diffenderfer, Bhavya Kailkhura(参考訳) frankle & carbin (2019) は、ランダムに初期化された密集ネットワークが、訓練された密集ネットワークに匹敵するテスト精度に達するように訓練できるサブネットワークを含むことを示した。 しかし、これらの高い性能のトレーニング可能なサブネットの発見は高価であり、トレーニングと刈り取りの反復的なプロセスが必要である。 本稿では,ランダム重みを持つ十分に過小評価されたニューラルネットワークは,いくつかのサブネットワーク (勝利チケット) を含み, (a) 学習重みを持つ密集したターゲットネットワークと同等の精度(プライズ1), (b) 賞1(プライズ2), (c) 極端な量子化(バイナリ重みと/またはアクティベーション)に頑健である,という,より強力なマルチプライズ抽選チケット仮説を提案し,実証する。 これは、ランダムに重み付けされた完全精度ニューラルネットワークを量子化することによって、コンパクトで高精度なバイナリニューラルネットワークを学習するための新しいパラダイムを提供する。 また,CIFAR-10 および ImageNet データセットを用いて,マルチプライズチケット (MPT) の探索とテストを行うアルゴリズムを提案する。 実験の結果、モデルがより深く、より広くなるにつれて、多目的チケットは、重量訓練済みの非常に大きくて完全な精度を持つチケットと比較して、同様の(時には高い)テスト精度に到達し始めることが示されている。 重量値を更新することなく、当社のmpts-1/32は、新たなバイナリ重みネットワークであるstate-of-the-art (sota) top-1の精度を、cifar-10では94.8%、imagenetでは74.03%と設定しました。 さらに,我々のMPT-1/1は,CIFAR-10上でのバイナリニューラルネットワークのSOTA Top-1精度(91.9%)を達成する。 コードと事前トレーニングされたモデルは以下の通りである。

Recently, Frankle & Carbin (2019) demonstrated that randomly-initialized dense networks contain subnetworks that once found can be trained to reach test accuracy comparable to the trained dense network. However, finding these high performing trainable subnetworks is expensive, requiring iterative process of training and pruning weights. In this paper, we propose (and prove) a stronger Multi-Prize Lottery Ticket Hypothesis: A sufficiently over-parameterized neural network with random weights contains several subnetworks (winning tickets) that (a) have comparable accuracy to a dense target network with learned weights (prize 1), (b) do not require any further training to achieve prize 1 (prize 2), and (c) is robust to extreme forms of quantization (i.e., binary weights and/or activation) (prize 3). This provides a new paradigm for learning compact yet highly accurate binary neural networks simply by pruning and quantizing randomly weighted full precision neural networks. We also propose an algorithm for finding multi-prize tickets (MPTs) and test it by performing a series of experiments on CIFAR-10 and ImageNet datasets. Empirical results indicate that as models grow deeper and wider, multi-prize tickets start to reach similar (and sometimes even higher) test accuracy compared to their significantly larger and full-precision counterparts that have been weight-trained. Without ever updating the weight values, our MPTs-1/32 not only set new binary weight network state-of-the-art (SOTA) Top-1 accuracy -- 94.8% on CIFAR-10 and 74.03% on ImageNet -- but also outperform their full-precision counterparts by 1.78% and 0.76%, respectively. Further, our MPT-1/1 achieves SOTA Top-1 accuracy (91.9%) for binary neural networks on CIFAR-10. Code and pre-trained models are available at: https://github.com/chrundle/biprop.
翻訳日:2021-03-18 22:24:55 公開日:2021-03-17
# (参考訳) SPICE:イメージクラスタリングのための意味的な擬似ラベル

SPICE: Semantic Pseudo-labeling for Image Clustering ( http://arxiv.org/abs/2103.09382v1 )

ライセンス: CC BY 4.0
Chuang Niu and Ge Wang(参考訳) 本稿では,画像ClustEringのためのセマンティックな擬似ラベルフレームワークSPICEを提案する。 最近提案された手法で要求される間接的損失関数の代わりに、SPICEは自己学習により擬似ラベルを生成し、擬似ラベルに基づく分類損失を直接使用して深層クラスタリングネットワークを訓練する。 SPICEの基本的な考え方は、セマンティッククラスタ間の相違、インスタンスサンプル間の類似性、および埋め込み空間におけるローカルサンプルのセマンティック一貫性を相乗化して、セマンティック駆動のパラダイムでクラスタネットワークを最適化することである。 具体的には、意味相似性に基づく擬似ラベルアルゴリズムが最初に提案され、教師なし表現学習を通じてクラスタリングネットワークを訓練する。 初期クラスタリング結果から, 局所的セマンティック一貫性原理を用いて, 確実にラベル付けされたサンプルの集合を選択し, 半擬似ラベルアルゴリズムを性能向上に適用する。 大規模な実験により、SPICEはSTL10、Cifar10、Cifar100-20、ImageNet-10、ImageNet-Dog、Tiny-ImageNetを含む6つの一般的なベンチマークデータセットにおいて、最先端の手法よりも明らかに優れていることが示された。 また,SPICE法では,調整済みランドインデックス,正規化相互情報,クラスタリング精度などの観点から,現在の最適値を約10%改善する。

This paper presents SPICE, a Semantic Pseudo-labeling framework for Image ClustEring. Instead of using indirect loss functions required by the recently proposed methods, SPICE generates pseudo-labels via self-learning and directly uses the pseudo-label-based classification loss to train a deep clustering network. The basic idea of SPICE is to synergize the discrepancy among semantic clusters, the similarity among instance samples, and the semantic consistency of local samples in an embedding space to optimize the clustering network in a semantically-driven paradigm. Specifically, a semantic-similarity-based pseudo-labeling algorithm is first proposed to train a clustering network through unsupervised representation learning. Given the initial clustering results, a local semantic consistency principle is used to select a set of reliably labeled samples, and a semi-pseudo-labeling algorithm is adapted for performance boosting. Extensive experiments demonstrate that SPICE clearly outperforms the state-of-the-art methods on six common benchmark datasets including STL10, Cifar10, Cifar100-20, ImageNet-10, ImageNet-Dog, and Tiny-ImageNet. On average, our SPICE method improves the current best results by about 10% in terms of adjusted rand index, normalized mutual information, and clustering accuracy.
翻訳日:2021-03-18 21:36:33 公開日:2021-03-17
# (参考訳) GAN評価の課題と課題 : 新たな展開

Pros and Cons of GAN Evaluation Measures: New Developments ( http://arxiv.org/abs/2103.09396v1 )

ライセンス: CC BY 4.0
Ali Borji(参考訳) この研究は数年前に発表された同じトピックに関する以前の論文の更新である。 生成モデリングの劇的な進歩により、モデルを評価するための新しい量的および質的なテクニックが出現した。 インセプションスコア、Fr'echet Inception Distance、Precision-Recall、Perceptual Path Longthなどの指標は比較的人気があるが、GAN評価は解決された問題ではなく改善の余地がある。 例えば、合成画像の品質と多様性に加えて、生成モデルはバイアスと公平性の観点から評価されるべきである。 モデル評価において重要になっている新しい次元について述べ、GAN評価とディープフェイクの関係について論じる。

This work is an update of a previous paper on the same topic published a few years ago. With the dramatic progress in generative modeling, a suite of new quantitative and qualitative techniques to evaluate models has emerged. Although some measures such as Inception Score, Fr\'echet Inception Distance, Precision-Recall, and Perceptual Path Length are relatively more popular, GAN evaluation is not a settled issue and there is still room for improvement. For example, in addition to quality and diversity of synthesized images, generative models should be evaluated in terms of bias and fairness. I describe new dimensions that are becoming important in assessing models, and discuss the connection between GAN evaluation and deepfakes.
翻訳日:2021-03-18 21:11:21 公開日:2021-03-17
# (参考訳) OGB-LSC - グラフによる機械学習の大規模課題

OGB-LSC: A Large-Scale Challenge for Machine Learning on Graphs ( http://arxiv.org/abs/2103.09430v1 )

ライセンス: CC BY 4.0
Weihua Hu, Matthias Fey, Hongyu Ren, Maho Nakata, Yuxiao Dong, Jure Leskovec(参考訳) 大規模グラフデータ(例えば数十億のエッジを持つグラフ)上での効率的かつ効率的な機械学習(ML)は、産業的および科学的な応用に大きな影響を与える可能性がある。 しかし、大規模なグラフMLを推進しようとするコミュニティの努力は、適切な公開ベンチマークが欠如しているため、著しく制限されている。 KDDカップ2021では,大規模グラフMLの最先端化を目的とした3つの実世界のデータセットのコレクションであるOGB-LSCを提案する。 OGB-LSCは、既存のものよりも桁違い大きく、リンク予測、グラフ回帰、ノード分類の3つのコアグラフ学習タスクをカバーするグラフデータセットを提供する。 さらに、OGB-LSCは、表現力のあるグラフMLモデルを巨大なデータセットにスケールアップする専用のベースライン実験を提供する。 表現力のあるモデルは、単純なスケーラブルなベースラインを著しく上回り、グラフMLを大規模に改善する専用の取り組みの機会を示す。 データセットとベースラインコードは、OGBイニシアチブの一部としてリリースされ、メンテナンスされています(Hu et al., 2020)。 KDDカップ2021のOGB-LSCによって、大規模なグラフMLの革新的なソリューションがコミュニティに発見できるようになることを願っている。

Enabling effective and efficient machine learning (ML) over large-scale graph data (e.g., graphs with billions of edges) can have a huge impact on both industrial and scientific applications. However, community efforts to advance large-scale graph ML have been severely limited by the lack of a suitable public benchmark. For KDD Cup 2021, we present OGB Large-Scale Challenge (OGB-LSC), a collection of three real-world datasets for advancing the state-of-the-art in large-scale graph ML. OGB-LSC provides graph datasets that are orders of magnitude larger than existing ones and covers three core graph learning tasks -- link prediction, graph regression, and node classification. Furthermore, OGB-LSC provides dedicated baseline experiments, scaling up expressive graph ML models to the massive datasets. We show that the expressive models significantly outperform simple scalable baselines, indicating an opportunity for dedicated efforts to further improve graph ML at scale. Our datasets and baseline code are released and maintained as part of our OGB initiative (Hu et al., 2020). We hope OGB-LSC at KDD Cup 2021 can empower the community to discover innovative solutions for large-scale graph ML.
翻訳日:2021-03-18 20:44:29 公開日:2021-03-17
# (参考訳) グラフニューラルネットワークを用いたPose-GNN : カメラポーズ推定システム

Pose-GNN : Camera Pose Estimation System Using Graph Neural Networks ( http://arxiv.org/abs/2103.09435v1 )

ライセンス: CC BY 4.0
Ahmed Elmoogy, Xiaodai Dong, Tao Lu, Robert Westendorp, Kishore Reddy(参考訳) 本稿では,グラフニューラルネットワーク(GNN)を用いた画像に基づく新たなローカライゼーションシステムを提案する。 resnet50 convolutional neural network (cnn)アーキテクチャは、各画像の重要な特徴を抽出するために使用される。 次に抽出した特徴をGNNに入力し、グラフ内のノードとして画像特徴を用いて各画像のポーズを見つけ、ポーズ推定問題をノードポーズ回帰として定式化し、画像特徴自体をグラフとしてモデル化し、グラフポーズ回帰となる。 提案する2つのアプローチとアート・シングル・イメージ・ローカライズ法を広範囲に比較し,gnnの使用が室内および屋外の環境におけるパフォーマンスの向上に寄与することを示す。

We propose a novel image based localization system using graph neural networks (GNN). The pretrained ResNet50 convolutional neural network (CNN) architecture is used to extract the important features for each image. Following, the extracted features are input to GNN to find the pose of each image by either using the image features as a node in a graph and formulate the pose estimation problem as node pose regression or modelling the image features themselves as a graph and the problem becomes graph pose regression. We do an extensive comparison between the proposed two approaches and the state of the art single image localization methods and show that using GNN leads to enhanced performance for both indoor and outdoor environments.
翻訳日:2021-03-18 20:24:07 公開日:2021-03-17
# (参考訳) 3次元車検出のためのカメラLiDARモデルの逆攻撃

Adversarial Attacks on Camera-LiDAR Models for 3D Car Detection ( http://arxiv.org/abs/2103.09448v1 )

ライセンス: CC BY 4.0
Mazen Abdelfattah, Kaiwen Yuan, Z. Jane Wang, and Rabab Ward(参考訳) ほとんどの自動運転車(AV)は知覚のためにLiDARとRGBカメラセンサーに依存している。 これらの点雲と画像データを用いて、ディープニューラルネット(DNN)に基づく知覚モデルは、3D検出において最先端のパフォーマンスを達成した。 逆境攻撃に対するdnnの脆弱性は、rgbイメージドメインと近年のpoint cloudドメインでよく研究されてきたが、両方のドメインを同時に扱うことは稀である。 avsで使用されるマルチモーダル知覚システムは、それぞれのモーダリティを独立に使用するカスケードモデルと、異なるモーダリティから同時に学習する融合モデルという2つの幅広いタイプに分けられる。 我々は,各タイプに対する普遍的かつ物理的に実現可能な敵攻撃を提案し,その脆弱性を攻撃と対比する。 本研究では,車体上に特定の形状とテクスチャを持つ1つの対向物体を配置し,車体検出を回避した。 一般的なKITTIベンチマークに基づいて、我々の敵対対象は、各モデルタイプ毎の50%近い時間で、ホスト車両の脱出を検知した。 密度の高いRGB入力は、カスケードモデルと融合モデルの両方に対する敵攻撃の成功に寄与した。 その結果,核融合モデルの方が敵攻撃に対して比較的堅牢であることが判明した。

Most autonomous vehicles (AVs) rely on LiDAR and RGB camera sensors for perception. Using these point cloud and image data, perception models based on deep neural nets (DNNs) have achieved state-of-the-art performance in 3D detection. The vulnerability of DNNs to adversarial attacks have been heavily investigated in the RGB image domain and more recently in the point cloud domain, but rarely in both domains simultaneously. Multi-modal perception systems used in AVs can be divided into two broad types: cascaded models which use each modality independently, and fusion models which learn from different modalities simultaneously. We propose a universal and physically realizable adversarial attack for each type, and study and contrast their respective vulnerabilities to attacks. We place a single adversarial object with specific shape and texture on top of a car with the objective of making this car evade detection. Evaluating on the popular KITTI benchmark, our adversarial object made the host vehicle escape detection by each model type nearly 50% of the time. The dense RGB input contributed more to the success of the adversarial attacks on both cascaded and fusion models. We found that the fusion model was relatively more robust to adversarial attacks than the cascaded model.
翻訳日:2021-03-18 20:08:13 公開日:2021-03-17
# (参考訳) 高現実性仮想トライオンにおける絡み合ったサイクル一貫性

Disentangled Cycle Consistency for Highly-realistic Virtual Try-On ( http://arxiv.org/abs/2103.09479v1 )

ライセンス: CC BY 4.0
Chongjian Ge, Yibing Song, Yuying Ge, Han Yang, Wei Liu and Ping Luo(参考訳) Image Virtual try-onは、人画像上の服を、希望する着物画像に置き換える。 人とショップ内服がペアリングされていないため、難しいです。 既存の方法は、仮想トライオンをインペイントまたはサイクル一貫性として定式化する。 これら2つの定式化は、世代ネットワークが自己監督的な方法で入力画像を再構築することを奨励する。 しかし、既存の方法は衣服や非着用地域を区別しない。 ストレートフォワード生成は、画像内容が重結合しているため、仮想試行品質を損なう。 本稿では,DCTON(Disentangled Cycle-Consistency Try-On Network)を提案する。 DCTONは、衣服のワープ、皮膚合成、画像合成を含む仮想トライオンの重要なコンポーネントをアンサングルすることで、高現実的な試行画像を生成することができる。 この目的のために、DCTONはサイクル整合学習の後、自然に自己指導的に訓練することができる。 挑戦的なベンチマークに関する大規模な実験は、DCTONが最先端のアプローチより優れていることを示している。

Image virtual try-on replaces the clothes on a person image with a desired in-shop clothes image. It is challenging because the person and the in-shop clothes are unpaired. Existing methods formulate virtual try-on as either in-painting or cycle consistency. Both of these two formulations encourage the generation networks to reconstruct the input image in a self-supervised manner. However, existing methods do not differentiate clothing and non-clothing regions. A straight-forward generation impedes virtual try-on quality because of the heavily coupled image contents. In this paper, we propose a Disentangled Cycle-consistency Try-On Network (DCTON). The DCTON is able to produce highly-realistic try-on images by disentangling important components of virtual try-on including clothes warping, skin synthesis, and image composition. To this end, DCTON can be naturally trained in a self-supervised manner following cycle consistency learning. Extensive experiments on challenging benchmarks show that DCTON outperforms state-of-the-art approaches favorably.
翻訳日:2021-03-18 19:53:58 公開日:2021-03-17
# (参考訳) 物体検出における損失重量調整の再検討

Revisiting the Loss Weight Adjustment in Object Detection ( http://arxiv.org/abs/2103.09488v1 )

ライセンス: CC BY 4.0
Wenxin Yu, Bin Hu, Yucheng Hu, Tianxiang Lan, Yuanfan You, Dong Yin(参考訳) 定義上、オブジェクト検出は分類と回帰タスクを同時に解決するためにマルチタスクの損失を必要とする。 しかし、損失重量は実際に手動で設定される傾向がある。 したがって、これまで研究されていない非常に実践的な問題は、現在の損失関数に適合する損失重みを素早く見つける方法である。 さらに、異なる回帰損失関数を選択する場合、損失の重みを調整する必要があるかどうか、もしそうであれば、どのように調整すべきかが課題となる。 本稿では,予測ボックスシフトに関する実験と理論的解析を通じて,(1)回帰損失曲線が回帰損失曲線よりも早く減衰する,(2)損失重量が1未満である、(3)分類と回帰損失重量の差が大きすぎるべきではない、という3つの重要な結論を見出す。 そこで, 上記の結論に基づいて, 損失値の統計的特性に応じて, トレーニング過程における損失重みを動的に調整することにより, 上記の2つの問題を解決する適応的損失重み調整(ALWA)を提案する。 ALWAを1段および2段のオブジェクト検出器に組み込むことで,L1,SmoothL1,CIoU損失,PASCALVOC,MS COCOなどの一般的なオブジェクト検出ベンチマークの性能評価などを用いて,それらの性能を一貫した改善を示す。 コードはhttps://github.com/ywx-hub/ALWAで公開されている。

By definition, object detection requires a multi-task loss in order to solve classification and regression tasks simultaneously. However, loss weight tends to be set manually in actuality. Therefore, a very practical problem that has not been studied so far arises: how to quickly find the loss weight that fits the current loss functions. In addition, when we choose different regression loss functions, whether the loss weight need to be adjusted and if so, how should it be adjusted still is a problem demanding prompt solution. In this paper, through experiments and theoretical analysis of prediction box shifting, we firstly find out three important conclusions about optimal loss weight allocation strategy, including (1) the classification loss curve decays faster than regression loss curve; (2) loss weight is less than 1; (3) the gap between classification and regression loss weight should not be too large. Then, based on the above conclusions, we propose an Adaptive Loss Weight Adjustment(ALWA) to solve the above two problems by dynamically adjusting the loss weight in the training process, according to statistical characteristics of loss values. By incorporating ALWA into both one-stage and two-stage object detectors, we show a consistent improvement on their performance using L1, SmoothL1 and CIoU loss, performance measures on popular object detection benchmarks including PASCAL VOC and MS COCO. The code is available at https://github.com/ywx-hub/ALWA.
翻訳日:2021-03-18 19:37:53 公開日:2021-03-17
# (参考訳) PredRNN:時空間予測学習のためのリカレントニューラルネットワーク

PredRNN: A Recurrent Neural Network for Spatiotemporal Predictive Learning ( http://arxiv.org/abs/2103.09504v1 )

ライセンス: CC BY 4.0
unbo Wang, Haixu Wu, Jianjin Zhang, Zhifeng Gao, Jianmin Wang, Philip S. Yu, Mingsheng Long(参考訳) 時空間列の予測学習は、歴史的文脈から学習することで将来の画像を生成することを目的としており、視覚力学は構成サブシステムで学習できるモジュラー構造を持つと考えられている。 本稿では,2つのメモリセルを明示的に分離し,ほぼ独立な遷移方式で動作し,最終的に複雑な環境の統一表現を形成する,新しいリカレントネットワークであるPredRNNを提示することによって,これらの構造をモデル化する。 具体的には、LSTMの元々のメモリセルに加えて、このネットワークは、すべての層にわたってボトムアップ方向とトップダウン方向の両方を伝播するジグザグメモリフローによって特徴付けられる。 また、メモリ分離損失を利用して、メモリセルが冗長な機能を学ぶのを防ぐ。 予測学習シナリオにおいて、ほとんどのシーケンス間RNNに一般化できる新しいカリキュラム学習戦略により、PredRNNをさらに改善する。 各成分の有効性を検証するため,詳細なアブレーション研究,勾配解析,可視化を行う。 提案手法は, 人工移動MNISTデータセット, KTH人行動データセット, 降水予測のためのレーダエコーデータセットの3つの標準データセットに対して, 高い競合性が得られることを示す。

The predictive learning of spatiotemporal sequences aims to generate future images by learning from the historical context, where the visual dynamics are believed to have modular structures that can be learned with compositional subsystems. This paper models these structures by presenting PredRNN, a new recurrent network, in which a pair of memory cells are explicitly decoupled, operate in nearly independent transition manners, and finally form unified representations of the complex environment. Concretely, besides the original memory cell of LSTM, this network is featured by a zigzag memory flow that propagates in both bottom-up and top-down directions across all layers, enabling the learned visual dynamics at different levels of RNNs to communicate. It also leverages a memory decoupling loss to keep the memory cells from learning redundant features. We further improve PredRNN with a new curriculum learning strategy, which can be generalized to most sequence-to-sequence RNNs in predictive learning scenarios. We provide detailed ablation studies, gradient analyses, and visualizations to verify the effectiveness of each component. We show that our approach obtains highly competitive results on three standard datasets: the synthetic Moving MNIST dataset, the KTH human action dataset, and a radar echo dataset for precipitation forecasting.
翻訳日:2021-03-18 19:20:36 公開日:2021-03-17
# (参考訳) グローバル道路損傷検出のためのCNNモデルとチューニング

CNN Model & Tuning for Global Road Damage Detection ( http://arxiv.org/abs/2103.09512v1 )

ライセンス: CC BY-SA 4.0
Rahul Vishwakarma and Ravigopal Vennelakanti (Hitachi America Ltd. R&D)(参考訳) 本稿では,Global Road Damage Detection Challengeにおいて得られたモデル選択,チューニング戦略,および結果を含むソリューションについて報告する。 このBig Data Cup Challengeは、IEEE International Conference on Big Data 2020の一部として開催された。 我々は、オブジェクト検出のためのシングルステージおよびマルチステージネットワークアーキテクチャを評価し、Tectron2やYolov5のような最先端のオープンソースのPyTorchフレームワークを使用したベンチマークを提供する。 チェコ、インド、日本のスマートフォンカメラを用いた道路被害訓練データセットのデータ準備について述べる。 本研究では,1つの一般化可能なモデルに対して,国ごとのトレーニングの効果を検討した。 本稿では,Deep Residual Network (Resnet) とFeature Pyramid Network (FPN) のバックボーンを用いた2段高速R-CNN実験のチューニング戦略について述べる。 さらに、これをクロスステージ部分ネットワーク(cspnet)バックボーンを持つ1段階のyolov5モデルと比較する。 テスト2では平均F1スコアが0.542、テスト1では0.536と、Resnet-50とResnet-101のバックボーンを持つマルチステージの高速R-CNNモデルを用いて示す。 これはResnet-50モデルのより複雑なモデルと比較して一般化可能であることを示している。 k80を持つgoogle colabと1080tiのnvidia consumer grade gpuを備えたlinux pcを用いて実験を行った。 PyTorch ベースの Detectron2 コードによる Avg F1 スコアの事前処理、トレーニング、テスト、提出は https://github.com/vishwakarmarhl/rdd2020 で行われている。

This paper provides a report on our solution including model selection, tuning strategy and results obtained for Global Road Damage Detection Challenge. This Big Data Cup Challenge was held as a part of IEEE International Conference on Big Data 2020. We assess single and multi-stage network architectures for object detection and provide a benchmark using popular state-of-the-art open-source PyTorch frameworks like Detectron2 and Yolov5. Data preparation for provided Road Damage training dataset, captured using smartphone camera from Czech, India and Japan is discussed. We studied the effect of training on a per country basis with respect to a single generalizable model. We briefly describe the tuning strategy for the experiments conducted on two-stage Faster R-CNN with Deep Residual Network (Resnet) and Feature Pyramid Network (FPN) backbone. Additionally, we compare this to a one-stage Yolov5 model with Cross Stage Partial Network (CSPNet) backbone. We show a mean F1 score of 0.542 on Test2 and 0.536 on Test1 datasets using a multi-stage Faster R-CNN model, with Resnet-50 and Resnet-101 backbones respectively. This shows the generalizability of the Resnet-50 model when compared to its more complex counterparts. Experiments were conducted using Google Colab having K80 and a Linux PC with 1080Ti, NVIDIA consumer grade GPU. A PyTorch based Detectron2 code to preprocess, train, test and submit the Avg F1 score to is made available at https://github.com/vishwakarmarhl/rdd2020
翻訳日:2021-03-18 18:28:25 公開日:2021-03-17
# (参考訳) 文字認識のためのプール層のメタラーニング

Meta-learning of Pooling Layers for Character Recognition ( http://arxiv.org/abs/2103.09528v1 )

ライセンス: CC BY-SA 4.0
Takato Otsuzuki, Heon Song, Seiichi Uchida, Hideaki Hayashi(参考訳) 畳み込みニューラルネットワークに基づく文字認識では、プール層は次元減少と変形補償において重要な役割を果たす。 しかし、そのカーネル形状とプーリング操作は実験的に規定されており、通常、固定サイズの正方形カーネル形状と最大プーリング操作が使用される。 本稿では,層をプールするメタラーニングフレームワークを提案する。 このフレームワークでは,2つのパラメータを用いてカーネル形状とプーリング操作を学習可能なパラメータ化プーリング層を提案し,入力データのフレキシブルプーリングを可能にした。 また,複数のタスクにまたがって適切なプーリング層を得ることができるパラメータ化プーリング層のメタラーニングアルゴリズムを提案する。 実験では,提案するメタラーニングフレームワークを文字認識タスクに適用した。 その結果、メタラーニングにより文字認識タスクに適合するプーリング層が得られ、得られたプーリング層は、少ない文字認識と騒がしい画像認識タスクの両方において、モデルの性能を改善した。

In convolutional neural network-based character recognition, pooling layers play an important role in dimensionality reduction and deformation compensation. However, their kernel shapes and pooling operations are empirically predetermined; typically, a fixed-size square kernel shape and max pooling operation are used. In this paper, we propose a meta-learning framework for pooling layers. As part of our framework, a parameterized pooling layer is proposed in which the kernel shape and pooling operation are trainable using two parameters, thereby allowing flexible pooling of the input data. We also propose a meta-learning algorithm for the parameterized pooling layer, which allows us to acquire a suitable pooling layer across multiple tasks. In the experiment, we applied the proposed meta-learning framework to character recognition tasks. The results demonstrate that a pooling layer that is suitable across character recognition tasks was obtained via meta-learning, and the obtained pooling layer improved the performance of the model in both few-shot character recognition and noisy image recognition tasks.
翻訳日:2021-03-18 18:16:20 公開日:2021-03-17
# (参考訳) パープレキシティによるFact-Checking

Towards Few-Shot Fact-Checking via Perplexity ( http://arxiv.org/abs/2103.09535v1 )

ライセンス: CC BY 4.0
Nayeon Lee, Yejin Bang, Andrea Madotto, Madian Khabsa, Pascale Fung(参考訳) データ不足の問題を克服するために、研究者の注意を惹きつけるものは少ない。 近年,大規模事前学習型言語モデルが,質問応答や機械翻訳など,下流タスクの少数学習において優れた性能を示している。 それにもかかわらず、ファクトチェックタスクの少ない学習を達成するための調査はほとんど行われていない。 しかし、特にオンライン情報量が毎日指数関数的に増えている場合、ファクトチェックは重要な問題である。 本稿では,パープレキシティスコアを用いた言語モデルの強力な伝達学習能力を活用するための新しい手法を提案する。 私たちの方法論の最も注目すべき強みは、わずかな学習の能力です。 2つのトレーニングサンプルだけで、我々の方法論は、複数のデータセットにわたるF1-Macroメトリックで、すでにMajor Classのベースラインを10%以上上回ることができる。 実験を通じて,事実チェックの文脈において,かなり驚くべきパープレキシティスコアの使用可能性を検証するとともに,強固な微調整ベースのベースラインモデルと比較することにより,マイナショット手法の強みを強調する。 さらに、COVID-19に関連する2つの新しいファクトチェックデータセットを構築し、公開します。

Few-shot learning has drawn researchers' attention to overcome the problem of data scarcity. Recently, large pre-trained language models have shown great performance in few-shot learning for various downstream tasks, such as question answering and machine translation. Nevertheless, little exploration has been made to achieve few-shot learning for the fact-checking task. However, fact-checking is an important problem, especially when the amount of information online is growing exponentially every day. In this paper, we propose a new way of utilizing the powerful transfer learning ability of a language model via a perplexity score. The most notable strength of our methodology lies in its capability in few-shot learning. With only two training samples, our methodology can already outperform the Major Class baseline by more than absolute 10% on the F1-Macro metric across multiple datasets. Through experiments, we empirically verify the plausibility of the rather surprising usage of the perplexity score in the context of fact-checking and highlight the strength of our few-shot methodology by comparing it to strong fine-tuning-based baseline models. Moreover, we construct and publicly release two new fact-checking datasets related to COVID-19.
翻訳日:2021-03-18 18:00:45 公開日:2021-03-17
# (参考訳) 絶滅危惧言語はローソースではない!

Endangered Languages are not Low-Resourced! ( http://arxiv.org/abs/2103.09567v1 )

ライセンス: CC BY 4.0
Mika H\"am\"al\"ainen(参考訳) ローソース(low-resource)という用語は、自然言語処理の分野では、英語ではない言語をほとんど「ローソース(low-resource)」と呼ぶ程度に投げかけられている。 英語が言語と同義語であり、低リソースが英語以外のものと同義語である分野においては、絶滅危惧言語を低リソースと呼ぶことは少し過大評価される。 本稿では,自分自身の経験から発生するリスクと低リソースの関係について検討する。

The term low-resourced has been tossed around in the field of natural language processing to a degree that almost any language that is not English can be called "low-resourced"; sometimes even just for the sake of making a mundane or mediocre paper appear more interesting and insightful. In a field where English is a synonym for language and low-resourced is a synonym for anything not English, calling endangered languages low-resourced is a bit of an overstatement. In this paper, I inspect the relation of the endangered with the low-resourced from my own experiences.
翻訳日:2021-03-18 17:42:32 公開日:2021-03-17
# (参考訳) 正規化行動値推定

Regularized Behavior Value Estimation ( http://arxiv.org/abs/2103.09575v1 )

ライセンス: CC BY 4.0
Caglar Gulcehre, Sergio G\'omez Colmenarejo, Ziyu Wang, Jakub Sygnowski, Thomas Paine, Konrad Zolna, Yutian Chen, Matthew Hoffman, Razvan Pascanu, Nando de Freitas(参考訳) オフライン強化学習は、環境にアクセスせずにログデータのみに依存する学習プロセスを制限する。 これは現実世界のアプリケーションを可能にするが、ユニークな課題もある。 重要な課題の1つは、トレーニングデータによってカバーされていない状態-作用ペアの値の過大評価によるエラーの処理である。 ブートストラップのため、これらのエラーはトレーニング中に増幅され、発散につながり、学習を損なう。 この課題を克服するために,正規化行動値推定(r-bve)を導入する。 訓練中の政策改善を利用するほとんどのアプローチとは異なり、R-BVEは訓練中の行動ポリシーの価値を推定し、展開時にのみ政策改善を行う。 さらに、R-BVEはランキング正規化用語を使用し、データセットのアクションを好んで結果が成功する。 RL Unplugged ATARIデータセットの最先端性能を含む,R-BVEの有効性の実証的な証拠を多数提供する。 我々はまた、bsuiteや挑戦的なDeepMind Labタスクなど、新しいデータセット上でR-BVEをテストし、R-BVEが他の最先端の個別制御オフラインRLメソッドよりも優れていることを示す。

Offline reinforcement learning restricts the learning process to rely only on logged-data without access to an environment. While this enables real-world applications, it also poses unique challenges. One important challenge is dealing with errors caused by the overestimation of values for state-action pairs not well-covered by the training data. Due to bootstrapping, these errors get amplified during training and can lead to divergence, thereby crippling learning. To overcome this challenge, we introduce Regularized Behavior Value Estimation (R-BVE). Unlike most approaches, which use policy improvement during training, R-BVE estimates the value of the behavior policy during training and only performs policy improvement at deployment time. Further, R-BVE uses a ranking regularisation term that favours actions in the dataset that lead to successful outcomes. We provide ample empirical evidence of R-BVE's effectiveness, including state-of-the-art performance on the RL Unplugged ATARI dataset. We also test R-BVE on new datasets, from bsuite and a challenging DeepMind Lab task, and show that R-BVE outperforms other state-of-the-art discrete control offline RL methods.
翻訳日:2021-03-18 17:28:30 公開日:2021-03-17
# (参考訳) スカース・ラベル地域における作物の効率的な分類法

An Efficient Method for the Classification of Croplands in Scarce-Label Regions ( http://arxiv.org/abs/2103.09588v1 )

ライセンス: CC BY 4.0
Houtan Ghaffari(参考訳) 衛星時系列画像による農地分類の主な課題は、地表面データ不足と、未開発地域における高品質のハイパースペクトル画像の到達不能である。 ラベルなしの中解像度衛星画像は豊富だが、その恩恵を受けるにはオープンな問題だ。 自監督タスクを用いた作物分類におけるその可能性の活用方法を示す。 自己スーパービジョン(self-supervision)は、データ構造から明らかな、サンプルに対する単純なトレーニング信号を提供するアプローチである。 したがって、データに関する単純な概念を入手して説明するのが安価である。 我々は,作物分類の自己監督タスクを3つ導入する。 その結果,SVMやランダムフォレストと比較して,広範囲な環境下での精度が向上した。 その後、自己監督タスクを使用して、非教師なし領域適応を行い、他の領域のラベル付きサンプルから利益を得る。 パフォーマンスの劣化を避けるためには、転送する情報を知ることが重要です。 原産地と対象地域が全く異なる特徴分布であっても,作物分類における情報選択・移動プロセスの自動化方法を示す。 対象ドメインにラベル付きサンプルを含まないベースラインアーキテクチャと比較して,モデルを約24%改善した。 提案手法は, 衛星画像の高解像度化に有効であり, 複雑なモデルを必要としない。 コードとデータは利用可能である。

Two of the main challenges for cropland classification by satellite time-series images are insufficient ground-truth data and inaccessibility of high-quality hyperspectral images for under-developed areas. Unlabeled medium-resolution satellite images are abundant, but how to benefit from them is an open question. We will show how to leverage their potential for cropland classification using self-supervised tasks. Self-supervision is an approach where we provide simple training signals for the samples, which are apparent from the data's structure. Hence, they are cheap to acquire and explain a simple concept about the data. We introduce three self-supervised tasks for cropland classification. They reduce epistemic uncertainty, and the resulting model shows superior accuracy in a wide range of settings compared to SVM and Random Forest. Subsequently, we use the self-supervised tasks to perform unsupervised domain adaptation and benefit from the labeled samples in other regions. It is crucial to know what information to transfer to avoid degrading the performance. We show how to automate the information selection and transfer process in cropland classification even when the source and target areas have a very different feature distribution. We improved the model by about 24% compared to a baseline architecture without any labeled sample in the target domain. Our method is amenable to gradual improvement, works with medium-resolution satellite images, and does not require complicated models. Code and data are available.
翻訳日:2021-03-18 16:44:58 公開日:2021-03-17
# (参考訳) ソーシャルメディアにおける画像分析の役割について

On the Role of Images for Analyzing Claims in Social Media ( http://arxiv.org/abs/2103.09602v1 )

ライセンス: CC BY 4.0
Gullal S. Cheema and Sherzod Hakimov and Eric M\"uller-Budack and Ralph Ewerth(参考訳) フェイクニュースはソーシャルメディアでは深刻な問題だ。 本稿では,クレーム,クレームチェック性,共謀検出の課題に対する視覚的,テクスト的,マルチモーダルモデルに関する経験的研究を行い,これら全ては偽ニュースの検出に関連する。 最近の研究は、画像はテキストよりも影響力があり、しばしば偽のテキストと共に現れることを示唆している。 この目的のために、Twitterなどのソーシャルメディアサイトで、画像とテキストを使って偽ニュースを検出するマルチモーダルモデルが近年提案されている。 しかしながら、画像の役割はクレーム検出、特にトランスフォーマティブベースのテキストモデルやマルチモーダルモデルではよく理解されていない。 画像やテキスト(トランスフォーマーベース)、マルチモーダル情報を2つの言語にまたがる4つのデータセットの最先端モデルを調査し、クレームや共謀検出のタスクにおける画像の役割を理解する。

Fake news is a severe problem in social media. In this paper, we present an empirical study on visual, textual, and multimodal models for the tasks of claim, claim check-worthiness, and conspiracy detection, all of which are related to fake news detection. Recent work suggests that images are more influential than text and often appear alongside fake text. To this end, several multimodal models have been proposed in recent years that use images along with text to detect fake news on social media sites like Twitter. However, the role of images is not well understood for claim detection, specifically using transformer-based textual and multimodal models. We investigate state-of-the-art models for images, text (Transformer-based), and multimodal information for four different datasets across two languages to understand the role of images in the task of claim and conspiracy detection.
翻訳日:2021-03-18 16:34:00 公開日:2021-03-17
# (参考訳) 推論と従来の性格評価:我々は同じことを予測しているのか?

Inferred vs traditional personality assessment: are we predicting the same thing? ( http://arxiv.org/abs/2103.09632v1 )

ライセンス: CC BY 4.0
Pavel Novikov, Larisa Mararitsa, Victor Nozdrachev(参考訳) 機械学習手法は、研究者によってデジタルレコードから心理的特徴を予測するために広く用いられている。 自動パーソナリティ推定が原形質の性質を維持するかどうかを明らかにするため,最近の220件の論文をレビューした。 まず、トレーニング、検証、テストフェーズの分離を宣言する研究のサブセットから予測品質推定をまとめ、機械学習における品質推定の正確性を保証するために重要となる。 レビューされた論文の20%はこの基準を満たした。 報告された品質推定値を比較するために, 近似ピアソン相関に変換した。 予測と自己報告のパーソナリティ特性の相関に対する信頼性の高い上限は、特定の特性によって 0.42 から 0.48 の範囲で異なる。 得られた値は、異なる自己申告アンケートで測定された特徴の相関よりもかなり低い。 このことは,個性予測を本来の特徴の推定として容易に解釈できないこと,あるいは予測された個性特性が生活成果との既知の関係を定期的に再現することを期待できないことを示唆している。 次に,予測形質の心理測定特性の証拠と品質評価を補完する。 既往の結果から,予測特性は時間とともに安定せず,自己報告人格よりも有効性が低いことが示唆された。 予測テキストベースのモデルは、トレーニングドメインの外では大幅に悪化するが、ランダムなベースラインの上に留まる。 予測形質と外部変数の関係に関する証拠は混在している。 予測機能は、事前仮説が欠如しているため、検証に使用するのが難しい。 したがって、予測された性格特性は元の特性の重要な特性を保持できない。 これにより、慎重な使用と予測モデルのターゲット検証が求められます。

Machine learning methods are widely used by researchers to predict psychological characteristics from digital records. To find out whether automatic personality estimates retain the properties of the original traits, we reviewed 220 recent articles. First, we put together the predictive quality estimates from a subset of the studies which declare separation of training, validation, and testing phases, which is critical for ensuring the correctness of quality estimates in machine learning. Only 20% of the reviewed papers met this criterion. To compare the reported quality estimates, we converted them to approximate Pearson correlations. The credible upper limits for correlations between predicted and self-reported personality traits vary in a range between 0.42 and 0.48, depending on the specific trait. The achieved values are substantially below the correlations between traits measured with distinct self-report questionnaires. This suggests that we cannot readily interpret personality predictions as estimates of the original traits or expect predicted personality traits to reproduce known relationships with life outcomes regularly. Next, we complement quality estimates evaluation with evidence on psychometric properties of predicted traits. The few existing results suggest that predicted traits are less stable with time and have lower effective dimensionality than self-reported personality. The predictive text-based models perform substantially worse outside their training domains but stay above a random baseline. The evidence on the relationships between predicted traits and external variables is mixed. Predictive features are difficult to use for validation, due to the lack of prior hypotheses. Thus, predicted personality traits fail to retain important properties of the original characteristics. This calls for the cautious use and targeted validation of the predictive models.
翻訳日:2021-03-18 16:14:42 公開日:2021-03-17
# (参考訳) UniParma @SemEval 2021 Task 5: CharacterBERT と Bag-of-Words モデルを用いた毒性スパーン検出

UniParma @ SemEval 2021 Task 5: Toxic Spans Detection Using CharacterBERT and Bag-of-Words Model ( http://arxiv.org/abs/2103.09645v1 )

ライセンス: CC BY 4.0
Akbar Karimi, Leonardo Rossi, Andrea Prati(参考訳) デジタル情報の可用性がますます高まる中、有害なコンテンツも増えている。 したがって、この種の言語の検出は最重要事項である。 我々は、最先端の事前学習言語モデル(characterbert)と従来の単語の袋技術を組み合わせて、この問題に取り組む。 内容は辞書の綴りで書かれていない有毒な言葉でいっぱいなので、個々の文字への出席が不可欠である。 そこで,キャラクタバートを用いて単語キャラクタに基づく特徴抽出を行う。 コンテキストから文字の埋め込みを学習する characterCNN モジュールで構成されている。 これらは、よく知られたBERTアーキテクチャに供給される。 一方、バグ・オブ・ワードズ法では、頻繁に使われる有毒な単語が適切にラベル付けされるようにすることで、さらに改善されている。

With the ever-increasing availability of digital information, toxic content is also on the rise. Therefore, the detection of this type of language is of paramount importance. We tackle this problem utilizing a combination of a state-of-the-art pre-trained language model (CharacterBERT) and a traditional bag-of-words technique. Since the content is full of toxic words that have not been written according to their dictionary spelling, attendance to individual characters is crucial. Therefore, we use CharacterBERT to extract features based on the word characters. It consists of a CharacterCNN module that learns character embeddings from the context. These are, then, fed into the well-known BERT architecture. The bag-of-words method, on the other hand, further improves upon that by making sure that some frequently used toxic words get labeled accordingly.
翻訳日:2021-03-18 16:13:04 公開日:2021-03-17
# (参考訳) 機械学習におけるset-to-sequenceメソッド

Set-to-Sequence Methods in Machine Learning: a Review ( http://arxiv.org/abs/2103.09656v1 )

ライセンス: CC BY 4.0
Mateusz Jurewicz, Leon Str{\o}mberg-Derczynski(参考訳) 逐次出力に向けた集合の機械学習は重要かつユビキタスなタスクであり、言語モデリングやメタラーニングからマルチエージェント戦略ゲーム、電力グリッド最適化まで幅広い応用がある。 表現学習と構造化予測の要素を組み合わせることで、その主な課題は意味のある置換不変集合表現を取得し、その後、この表現を利用して複雑なターゲット置換を出力することである。 本稿では,この分野の包括的紹介と,これら2つの重要な課題に取り組む重要な機械学習手法の概要と,選択したモデルアーキテクチャの詳細な質的比較について述べる。

Machine learning on sets towards sequential output is an important and ubiquitous task, with applications ranging from language modelling and meta-learning to multi-agent strategy games and power grid optimization. Combining elements of representation learning and structured prediction, its two primary challenges include obtaining a meaningful, permutation invariant set representation and subsequently utilizing this representation to output a complex target permutation. This paper provides a comprehensive introduction to the field as well as an overview of important machine learning methods tackling both of these key challenges, with a detailed qualitative comparison of selected model architectures.
翻訳日:2021-03-18 16:07:13 公開日:2021-03-17
# (参考訳) 感情認識のためのマルチモーダルエンドツーエンドスパースモデル

Multimodal End-to-End Sparse Model for Emotion Recognition ( http://arxiv.org/abs/2103.09666v1 )

ライセンス: CC BY 4.0
Wenliang Dai, Samuel Cahyawijaya, Zihan Liu, Pascale Fung(参考訳) 感情認識などのマルチモーダル感情コンピューティングタスクの既存の作業は、一般的には2相パイプラインを採用し、まず手作りのアルゴリズムで各モダリティの特徴表現を抽出し、次に抽出された特徴を使ってエンドツーエンドの学習を行う。 しかし、抽出された特徴は固定されており、異なる目標タスクに対してさらに微調整することはできず、手動で特徴抽出アルゴリズムは異なるタスクに対して一般化やスケールができないため、サブ最適性能につながる可能性がある。 本稿では,これら2つのフェーズを接続し,協調的に最適化する完全エンドツーエンドモデルを開発した。 さらに、現在のデータセットを再構築して、完全なエンドツーエンドトレーニングを可能にします。 さらに,エンド・ツー・エンドモデルによる計算オーバーヘッドを低減するため,特徴抽出のための疎クロスモーダル注意機構を導入する。 実験の結果,本モデルが2相パイプラインに基づく最先端モデルを大幅に上回ることがわかった。 さらに,スリムなクロスモーダル注意を追加することで,特徴抽出部における計算量の約半分で性能を維持できる。

Existing works on multimodal affective computing tasks, such as emotion recognition, generally adopt a two-phase pipeline, first extracting feature representations for each single modality with hand-crafted algorithms and then performing end-to-end learning with the extracted features. However, the extracted features are fixed and cannot be further fine-tuned on different target tasks, and manually finding feature extraction algorithms does not generalize or scale well to different tasks, which can lead to sub-optimal performance. In this paper, we develop a fully end-to-end model that connects the two phases and optimizes them jointly. In addition, we restructure the current datasets to enable the fully end-to-end training. Furthermore, to reduce the computational overhead brought by the end-to-end model, we introduce a sparse cross-modal attention mechanism for the feature extraction. Experimental results show that our fully end-to-end model significantly surpasses the current state-of-the-art models based on the two-phase pipeline. Moreover, by adding the sparse cross-modal attention, our model can maintain performance with around half the computation in the feature extraction part.
翻訳日:2021-03-18 16:05:57 公開日:2021-03-17
# (参考訳) ShipSRDet:超解像表現を用いたエンドツーエンドリモートセンシング船検知装置

ShipSRDet: An End-to-End Remote Sensing Ship Detector Using Super-Resolved Feature Representation ( http://arxiv.org/abs/2103.09699v1 )

ライセンス: CC BY 4.0
Shitian He, Huanxin Zou, Yingqian Wang, Runlin Li, Fei Cheng(参考訳) 高解像度リモートセンシング画像は船舶検出に豊富な外観情報を提供することができる。 既存のいくつかの手法では、画像超解像(SR)アプローチを用いて検出性能を向上させるが、画像SRと船体検出を2つの別々のプロセスとみなし、これらの2つの相関タスク間の内部コヒーレンスを見落としている。 本稿では,画像SRが船舶検出にもたらす潜在的な利点について検討し,ShipSRDetというエンドツーエンドネットワークを提案する。 本手法では,超解像画像を検出器に供給するだけでなく,srネットワークの中間特性と検出ネットワークの機能を統合する。 これにより、SRネットワークによって抽出された情報的特徴表現を船体検出に活用することができる。 本手法の有効性をHRSCデータセットで検証した。 船体は入力画像から失われた詳細を復元し、有望な船舶検出性能を達成する。

High-resolution remote sensing images can provide abundant appearance information for ship detection. Although several existing methods use image super-resolution (SR) approaches to improve the detection performance, they consider image SR and ship detection as two separate processes and overlook the internal coherence between these two correlated tasks. In this paper, we explore the potential benefits introduced by image SR to ship detection, and propose an end-to-end network named ShipSRDet. In our method, we not only feed the super-resolved images to the detector but also integrate the intermediate features of the SR network with those of the detection network. In this way, the informative feature representation extracted by the SR network can be fully used for ship detection. Experimental results on the HRSC dataset validate the effectiveness of our method. Our ShipSRDet can recover the missing details from the input image and achieves promising ship detection performance.
翻訳日:2021-03-18 15:49:53 公開日:2021-03-17
# (参考訳) KNN分類のためのZ距離関数

Z Distance Function for KNN Classification ( http://arxiv.org/abs/2103.09704v1 )

ライセンス: CC BY 4.0
Shichao Zhang and Jiaye Li(参考訳) 本稿では,KNN分類のための新しい距離距離関数であるZ距離を提案する。 Z 距離関数は、2つのデータポイント間の幾何学的直線距離ではない。 データポイント間の親和性を測定する際に、トレーニングデータセットのクラス属性について考慮する。 具体的には、2つのデータポイントのz距離は、クラス中心距離と実距離を含む。 形は「z」のように見える。 このように、同じクラス内の2つのデータポイントの親和性は、常に異なるクラスよりも強い。 あるいは、クラス内のデータポイントは、クラス間のデータポイントよりも常に近い。 我々は実験によりZ距離を評価し,提案した距離関数がKNN分類においてより良い性能を示した。

This paper proposes a new distance metric function, called Z distance, for KNN classification. The Z distance function is not a geometric direct-line distance between two data points. It gives a consideration to the class attribute of a training dataset when measuring the affinity between data points. Concretely speaking, the Z distance of two data points includes their class center distance and real distance. And its shape looks like "Z". In this way, the affinity of two data points in the same class is always stronger than that in different classes. Or, the intraclass data points are always closer than those interclass data points. We evaluated the Z distance with experiments, and demonstrated that the proposed distance function achieved better performance in KNN classification.
翻訳日:2021-03-18 15:43:41 公開日:2021-03-17
# (参考訳) human evaluation datasheet 1.0 : nlpにおけるヒューマン評価実験の詳細を記録するテンプレート

The Human Evaluation Datasheet 1.0: A Template for Recording Details of Human Evaluation Experiments in NLP ( http://arxiv.org/abs/2103.09710v1 )

ライセンス: CC BY 4.0
Anastasia Shimorina and Anya Belz(参考訳) 本稿では,自然言語処理(NLP)における個人評価実験の詳細を記録するテンプレートであるHuman Evaluation Datasheetを紹介する。 Bender and Friedman (2018)、Mitchellらによる独創的な論文から着想を得た。 (2019年)、gebru et al。 (2020年) 人的評価データシートは、人間の評価の特性を十分に詳細に記録し、十分な標準化を行い、可視性、メタ評価、再現性テストを支援することを目的としている。

This paper introduces the Human Evaluation Datasheet, a template for recording the details of individual human evaluation experiments in Natural Language Processing (NLP). Originally taking inspiration from seminal papers by Bender and Friedman (2018), Mitchell et al. (2019), and Gebru et al. (2020), the Human Evaluation Datasheet is intended to facilitate the recording of properties of human evaluations in sufficient detail, and with sufficient standardisation, to support comparability, meta-evaluation, and reproducibility tests.
翻訳日:2021-03-18 15:08:22 公開日:2021-03-17
# (参考訳) 畳み込みニューラルネットワークにおける個人単位の定量的有効性評価と役割分類

Quantitative Effectiveness Assessment and Role Categorization of Individual Units in Convolutional Neural Networks ( http://arxiv.org/abs/2103.09716v1 )

ライセンス: CC BY 4.0
Yang Zhao and Hao Zhang(参考訳) 個々の単位の役割を特定することは畳み込みニューラルネットワーク(cnns)のメカニズムを理解する上で重要である。 しかし,cnnでは,個別単位の有効性評価のための完全自動的かつ定量的な尺度を提供することが困難である。 そこで本研究では,画像分類タスクにおけるCNNの単一ユニットの状態と有用性を定量的に明らかにする手法を提案する。 本手法は,代数的トポロジツールを用いた具体的に定義されたエントロピーの計算に基づいて,各分類における単位の重要性をランク付けする。 人間の介入なしに完全に機械で実装できる。 ある種の相転移を含む興味深い現象は、連続した単位のアブレーション過程における精度の進化とネットワークの損失によって観察される。 すべてのネットワークユニットは、トレーニングとテストデータのパフォーマンスに応じて4つのカテゴリに分類される。 役割分類は、ネットワーク構築と単純化の出発点として優れたものである。 分類タスクにおけるユニットのネットワーク一般化に対する多種多様なユーティリティと貢献は、ネットワーク(VGG)とデータセット(ImageNet)に関する大規模な実験によって、かなり詳細に説明されている。 本手法は本質的な困難を伴わずに他のネットワークモデルやタスクに拡張型アプリケーションを持つことが容易である。

Identifying the roles of individual units is critical for understanding the mechanism of convolutional neural networks (CNNs). However, it is challenging to give the fully automatic and quantitative measures for effectiveness assessment of individual units in CNN. To this end, we propose a novel method for quantitatively clarifying the status and usefulness of single unit of CNN in image classification tasks. The technical substance of our method is ranking the importance of unit for each class in classification based on calculation of specifically defined entropy using algebraic topological tools. It could be implemented totally by machine without any human intervention. Some interesting phenomena including certain kind of phase transition are observed via the evolution of accuracy and loss of network in the successive ablation process of units. All of the network units are divided into four categories according to their performance on training and testing data. The role categorization is excellent startpoint for network construction and simplification. The diverse utility and contribution to the network generalization of units in classification tasks are thoroughly illustrated by extensive experiments on network (VGG) and dataset (ImageNet) with considerable scale. It is easy for our method to have extensional applications on other network models and tasks without essential difficulties.
翻訳日:2021-03-18 14:50:32 公開日:2021-03-17
# (参考訳) 自然とロボットのインタラクションのための視覚的接地

Few-Shot Visual Grounding for Natural Human-Robot Interaction ( http://arxiv.org/abs/2103.09720v1 )

ライセンス: CC BY 4.0
Giorgos Tziafas and Hamidreza Kasaei(参考訳) Natural Human-Robot Interaction (HRI)は、サービスロボットが人間中心の環境で動作するための重要なコンポーネントの1つである。 このような動的な環境では、ロボットはユーザーがタスクを成功させる意図を理解する必要がある。 この点に対処するために,人によって音声で示される混み合ったシーンから対象物を分割するソフトウェアアーキテクチャを提案する。 システムのコアでは、視覚的な接地のためにマルチモーダルディープニューラルネットワークを使用します。 2段階のプロセスで事前学習した物体検出装置を用いてこの問題に対処する多くの基礎的手法とは異なり、未知のデータに予測を与えることができる単一のステージゼロショットモデルを開発する。 公開シーンデータセットから収集した実RGB-Dデータに対して提案モデルの性能を評価する。 実験結果から,提案モデルは,自然言語入力の変動に頑健さを示しながら,精度と速度の面で良好に動作することがわかった。

Natural Human-Robot Interaction (HRI) is one of the key components for service robots to be able to work in human-centric environments. In such dynamic environments, the robot needs to understand the intention of the user to accomplish a task successfully. Towards addressing this point, we propose a software architecture that segments a target object from a crowded scene, indicated verbally by a human user. At the core of our system, we employ a multi-modal deep neural network for visual grounding. Unlike most grounding methods that tackle the challenge using pre-trained object detectors via a two-stepped process, we develop a single stage zero-shot model that is able to provide predictions in unseen data. We evaluate the performance of the proposed model on real RGB-D data collected from public scene datasets. Experimental results showed that the proposed model performs well in terms of accuracy and speed, while showcasing robustness to variation in the natural language input.
翻訳日:2021-03-18 14:37:36 公開日:2021-03-17
# (参考訳) 深層学習に基づく極端熱波予測

Deep Learning based Extreme Heatwave Forecast ( http://arxiv.org/abs/2103.09743v1 )

ライセンス: CC BY 4.0
Val\'erian Jacques-Dumas, Francesco Ragone, Freddy Bouchet, Pierre Borgnat, Patrice Abry(参考訳) 極端な現象がしばしば観測されないこと、そして(非常に)物理学駆動の数値モデルからシミュレーションするのにコストがかかることから、熱波の発生は難しい問題である。 本研究の目的は,限られた量の気候データから極端な熱波の発生を予測するための代替戦略として,深層学習アーキテクチャの利用を検討することである。 これは、異なる性質の気候データの集約、希少な事象予測に固有のクラスサイズの不均衡、極端事象のネストされた性質(自然に極端でない事象に含まれる)に対処するトランスファーラーニングの潜在的な利点といった問題に対処することを意味する。 Using 1000 years of state-of-the-art PlaSim Planete Simulator Climate Model data, it is shown that Convolutional Neural Network-based Deep Learning frameworks, with large-class undersampling and transfer learning achieve significant performance in forecasting the occurrence of extreme heatwaves, at three different levels of intensity, and as early as 15 days in advance from the restricted observation, for a single time (single snapshoot) of only two spatial fields of climate data, surface temperature and geopotential height.

Forecasting the occurrence of heatwaves constitutes a challenging issue, yet of major societal stake, because extreme events are not often observed and (very) costly to simulate from physics-driven numerical models. The present work aims to explore the use of Deep Learning architectures as alternative strategies to predict extreme heatwaves occurrences from a very limited amount of available relevant climate data. This implies addressing issues such as the aggregation of climate data of different natures, the class-size imbalance that is intrinsically associated with rare event prediction, and the potential benefits of transfer learning to address the nested nature of extreme events (naturally included in less extreme ones). Using 1000 years of state-of-the-art PlaSim Planete Simulator Climate Model data, it is shown that Convolutional Neural Network-based Deep Learning frameworks, with large-class undersampling and transfer learning achieve significant performance in forecasting the occurrence of extreme heatwaves, at three different levels of intensity, and as early as 15 days in advance from the restricted observation, for a single time (single snapshoot) of only two spatial fields of climate data, surface temperature and geopotential height.
翻訳日:2021-03-18 14:24:29 公開日:2021-03-17
# (参考訳) 制御された3次元動作予測のための集約マルチガン

Aggregated Multi-GANs for Controlled 3D Human Motion Prediction ( http://arxiv.org/abs/2103.09755v1 )

ライセンス: CC BY 4.0
Zhenguang Liu, Kedi Lyu, Shuang Wu, Haipeng Chen, Yanbin Hao, Shouling Ji(参考訳) 歴史的ポーズシーケンスからの人間の動作予測は、マシンインテリジェンスにおける多くの応用の中核にある。 しかし、現在の最先端手法では、予測される将来の動きは同じ活動に制限される。 現在の活動と異なる予測を生成できないし、身体の部分を操作して様々な将来の可能性を探ることもできる。 間違いなく、これは動き予測の有用性と適用性を大幅に制限している。 本稿では、予測された動きを調整するために制御パラメータを容易に組み込むことができる人間の動き予測タスクの一般化を提案する。 本手法は,行動タイプ間で操作可能な動作予測が可能であり,人間の動きを様々な細かな方法でカスタマイズできるという点で説得力がある。 この目的のために,グローバルなGANを介して集約された局所的なGANからなる,シンプルで効果的な複合GAN構造を示す。 局所的な GAN ゲームは低次元で、グローバル GAN はモード崩壊を避けるために高次元空間で調整する。 実験の結果,本手法は最先端の手法よりも優れていた。 コードはhttps://github.com/herolvkd/am-ganで入手できる。

Human motion prediction from historical pose sequence is at the core of many applications in machine intelligence. However, in current state-of-the-art methods, the predicted future motion is confined within the same activity. One can neither generate predictions that differ from the current activity, nor manipulate the body parts to explore various future possibilities. Undoubtedly, this greatly limits the usefulness and applicability of motion prediction. In this paper, we propose a generalization of the human motion prediction task in which control parameters can be readily incorporated to adjust the forecasted motion. Our method is compelling in that it enables manipulable motion prediction across activity types and allows customization of the human movement in a variety of fine-grained ways. To this aim, a simple yet effective composite GAN structure, consisting of local GANs for different body parts and aggregated via a global GAN is presented. The local GANs game in lower dimensions, while the global GAN adjusts in high dimensional space to avoid mode collapse. Extensive experiments show that our method outperforms state-of-the-art. The codes are available at https://github.com/herolvkd/AM-GAN.
翻訳日:2021-03-18 14:08:53 公開日:2021-03-17
# (参考訳) 衛星画像からの構造変化検出のための時間クラスタマッチング

Temporal Cluster Matching for Change Detection of Structures from Satellite Imagery ( http://arxiv.org/abs/2103.09787v1 )

ライセンス: CC BY 4.0
Caleb Robinson, Anthony Ortiz, Juan M. Lavista Ferres, Brandon Anderson, Daniel E. Ho(参考訳) 本稿では,足跡ラベルが1点のみ使用可能な場合,リモートセンシング画像の時系列における建物変化を検出する汎用モデルであるtemporal cluster matching(tcm)を提案する。 モデルの裏にある直感は、建物の足跡内外におけるスペクトル値の関係は、建物が建設される(または取り壊される)際に変化するということである。 例えば、農村では、建物が建設されるまで、建設前のエリアは周囲の環境に似ています。 同様に、都市環境では、プレコンストラクションエリアは建設まで周囲の環境とは異なるように見える。 さらに,データラベリング(パラメータに適合する)を必要とせず,新しい設定で適用可能なモデルパラメータを選択するためのヒューリスティックな手法を提案する。 デルマルバ半島における2016/2017年の高分解能空中画像のデータセットと、2020年にインドで撮影されたセンチネル2号のモザイクによるソーラーファームのデータセットに、我々のモデルを適用する。 以上の結果から,提案するヒューリスティックモデルがラベル付きデータに適合する場合と同等に動作し,さらに,提案モデルの教師付きバージョンでは,テスト対象とするすべてのベースラインで最高の性能を示すことができた。 最後に、提案手法が効果的なデータ拡張戦略として機能することを示し、研究者は時間次元に沿って既存の構造フットプリントラベルを拡張できるため、複数のポイントからのイメージを使用してディープラーニングモデルをトレーニングすることができる。 これにより,同一変化検出タスクで評価した場合の空間一般化が向上することを示す。

We propose a general model, Temporal Cluster Matching (TCM), for detecting building changes in time series of remotely sensed imagery when footprint labels are only available for a single point in time. The intuition behind the model is that the relationship between spectral values inside and outside of building's footprint will change when a building is constructed (or demolished). For instance, in rural settings, the pre-construction area may look similar to the surrounding environment until the building is constructed. Similarly, in urban settings, the pre-construction areas will look different from the surrounding environment until construction. We further propose a heuristic method for selecting the parameters of our model which allows it to be applied in novel settings without requiring data labeling efforts (to fit the parameters). We apply our model over a dataset of poultry barns from 2016/2017 high-resolution aerial imagery in the Delmarva Peninsula and a dataset of solar farms from a 2020 mosaic of Sentinel 2 imagery in India. Our results show that our model performs as well when fit using the proposed heuristic as it does when fit with labeled data, and further, that supervised versions of our model perform the best among all the baselines we test against. Finally, we show that our proposed approach can act as an effective data augmentation strategy -- it enables researchers to augment existing structure footprint labels along the time dimension and thus use imagery from multiple points in time to train deep learning models. We show that this improves the spatial generalization of such models when evaluated on the same change detection task.
翻訳日:2021-03-18 13:55:54 公開日:2021-03-17
# (参考訳) ENCONTER:Insertion-based Transformerによるエンティティ制約付きプログレッシブシーケンス生成

ENCONTER: Entity Constrained Progressive Sequence Generation via Insertion-based Transformer ( http://arxiv.org/abs/2103.09548v1 )

ライセンス: CC BY 4.0
Lee-Hsun Hsieh and Yang-Yin Lee and Ee-Peng Lim(参考訳) 大量のデータを用いて事前訓練された自己回帰言語モデルは、高品質なシーケンスを生成することができる。 しかし,これらのモデルは,コンテンツ生成過程の微妙な制御を欠くため,厳格な語彙制約下ではうまく機能しない。 プログレッシブ挿入ベースのトランスフォーマーは上記の制限を克服し、いくつかの入力トークンを制約として、並列にシーケンスを生成する。 しかしながら、これらのトランスは、生成プロセスが早めに終了する可能性が高いため、ハードレキシカルな制約をサポートしない可能性がある。 本稿では, 早期終了問題を分析し, 生成効率を損なうことなく, 上記の落とし穴に対処する新しい挿入変圧器である Entity-Constrained insert transformer (ENCONTER) を提案する。 我々は,事前定義されたハード語彙制約(例えば,生成したシーケンスに含まれるエンティティ)を考慮した新たなトレーニング戦略を導入する。 実験の結果,エンコンターは他のベースラインモデルよりもいくつかの性能指標が優れていることがわかった。 私たちのコードはhttps://github.com/LARC-CMU-SMU/Enconterで利用可能です。

Pretrained using large amount of data, autoregressive language models are able to generate high quality sequences. However, these models do not perform well under hard lexical constraints as they lack fine control of content generation process. Progressive insertion-based transformers can overcome the above limitation and efficiently generate a sequence in parallel given some input tokens as constraint. These transformers however may fail to support hard lexical constraints as their generation process is more likely to terminate prematurely. The paper analyses such early termination problems and proposes the Entity-constrained insertion transformer (ENCONTER), a new insertion transformer that addresses the above pitfall without compromising much generation efficiency. We introduce a new training strategy that considers predefined hard lexical constraints (e.g., entities to be included in the generated sequence). Our experiments show that ENCONTER outperforms other baseline models in several performance metrics rendering it more suitable in practical applications. Our code is available at https://github.com/LARC-CMU-SMU/Enconter
翻訳日:2021-03-18 13:29:27 公開日:2021-03-17
# コントラスト判別器による強化型GANの訓練

Training GANs with Stronger Augmentations via Contrastive Discriminator ( http://arxiv.org/abs/2103.09742v1 )

ライセンス: Link先を確認
Jongheon Jeong and Jinwoo Shin(参考訳) GAN(Generative Adversarial Networks)の最近の研究は、差別者の過度な適合を防ぐための効果的な方法として、様々なデータ拡張手法を再考している。 しかし、どの強化が実際にGANを改善できるか、特に、より広い範囲の強化をトレーニングに適用するかは、まだ不明である。 本稿では,最近のコントラッシブな表現学習手法をGAN識別器に組み込むことにより,これらの問題に対処する新しい手法を提案する。 この「融合」により、差別者は、訓練の不安定性を増大させることなく、より強力な強化を施すことができ、これにより、差別者がより効果的にGANの過剰適合問題を防止できる。 さらによいのは、コントラスト学習自体が、実際のサンプルと偽のサンプルの間の識別的特徴を維持することによって、私たちのganトレーニングの恩恵を受けることであり、両者の間に強い一貫性があることを示します。 実験の結果,データ拡張を取り入れた他の手法と比較して, ContraD を用いた GAN は連続的に FID と IS を向上し, 線形評価の点から差別的特徴を保っていることがわかった。 最後に, 副産物として, 学習したContraDの特徴を活かした簡易潜伏サンプリングにより, 教師なし(ラベルなし)で訓練したGANが, 多くの条件生成モデルを誘導できることを示す。 コードはhttps://github.com/jh-jeong/contradで入手できる。

Recent works in Generative Adversarial Networks (GANs) are actively revisiting various data augmentation techniques as an effective way to prevent discriminator overfitting. It is still unclear, however, that which augmentations could actually improve GANs, and in particular, how to apply a wider range of augmentations in training. In this paper, we propose a novel way to address these questions by incorporating a recent contrastive representation learning scheme into the GAN discriminator, coined ContraD. This "fusion" enables the discriminators to work with much stronger augmentations without increasing their training instability, thereby preventing the discriminator overfitting issue in GANs more effectively. Even better, we observe that the contrastive learning itself also benefits from our GAN training, i.e., by maintaining discriminative features between real and fake samples, suggesting a strong coherence between the two worlds: good contrastive representations are also good for GAN discriminators, and vice versa. Our experimental results show that GANs with ContraD consistently improve FID and IS compared to other recent techniques incorporating data augmentations, still maintaining highly discriminative features in the discriminator in terms of the linear evaluation. Finally, as a byproduct, we also show that our GANs trained in an unsupervised manner (without labels) can induce many conditional generative models via a simple latent sampling, leveraging the learned features of ContraD. Code is available at https://github.com/jh-jeong/ContraD.
翻訳日:2021-03-18 13:11:51 公開日:2021-03-17
# 線量分類におけるデータ要求に関する理論的境界

Theoretical bounds on data requirements for the ray-based classification ( http://arxiv.org/abs/2103.09577v1 )

ライセンス: Link先を確認
Brian J. Weber, Sandesh S. Kalantre, Thomas McJunkin, Jacob M. Taylor, Justyna P. Zwolak(参考訳) 実世界のデータの高次元形状を分類する問題は、空間の次元が大きくなるにつれて複雑化する。 異なるジオメトリの凸形状を識別する場合には、線と呼ばれる一次元の表現の集合の交点と、その形状の境界を使って特定の幾何学を識別する新たな分類枠組みが近年提案されている。 この光線に基づく分類(RBC)は、2次元および3次元形状の合成データセット [1] を用いて実験的に検証され、さらに近年では実験的に [2] も検証されている。 ここでは, 任意の凸形状に対して, 主角計量で定義される形状分類に必要な線数の境界を定式化する。 2次元の場合、形状の長さ、直径、外角の観点で、線数に対する下界を導出する。 R^N の凸多面体に対して、この結果は二面角関数や多角形面の幾何学的パラメータとして与えられる同様の境界に一般化する。 この結果は、体積法や表面法よりもかなり少ないデータ要素を用いて、高次元形状を推定するための異なるアプローチを可能にする。

The problem of classifying high-dimensional shapes in real-world data grows in complexity as the dimension of the space increases. For the case of identifying convex shapes of different geometries, a new classification framework has recently been proposed in which the intersections of a set of one-dimensional representations, called rays, with the boundaries of the shape are used to identify the specific geometry. This ray-based classification (RBC) has been empirically verified using a synthetic dataset of two- and three-dimensional shapes [1] and, more recently, has also been validated experimentally [2]. Here, we establish a bound on the number of rays necessary for shape classification, defined by key angular metrics, for arbitrary convex shapes. For two dimensions, we derive a lower bound on the number of rays in terms of the shape's length, diameter, and exterior angles. For convex polytopes in R^N, we generalize this result to a similar bound given as a function of the dihedral angle and the geometrical parameters of polygonal faces. This result enables a different approach for estimating high-dimensional shapes using substantially fewer data elements than volumetric or surface-based approaches.
翻訳日:2021-03-18 13:11:24 公開日:2021-03-17
# セサミストリートにおけるコードミキシング--敵対的多言語群の夜明け

Code-Mixing on Sesame Street: Dawn of the Adversarial Polyglots ( http://arxiv.org/abs/2103.09593v1 )

ライセンス: Link先を確認
Samson Tan, Shafiq Joty(参考訳) 多言語モデルは、印象的な言語間転送性能を示した。 しかしながら、XNLIのようなテストセットは例レベルで単言語的である。 多言語コミュニティでは、ポリグロット同士が会話する際にコード混合を行うのが一般的である。 この現象に触発されて、コード混合文の処理能力を限界まで押し上げる多言語モデルに対して、2つの強力なブラックボックス逆行攻撃(単語レベル、1句レベル)を示す。 前者は二言語辞書を用いて、清浄な例の摂動と翻訳を提案し、曖昧さを解消する。 後者は、句を摂動として抽出する前に、クリーンな例を翻訳と直接一致させる。 我々のフレーズレベル攻撃は、XLM-R-largeに対して89.75%の成功率であり、平均精度は79.85から8.18に低下した。 最後に,元モデルと同じステップ数で学習し,モデル精度を向上させるための効率的な対角訓練手法を提案する。

Multilingual models have demonstrated impressive cross-lingual transfer performance. However, test sets like XNLI are monolingual at the example level. In multilingual communities, it is common for polyglots to code-mix when conversing with each other. Inspired by this phenomenon, we present two strong black-box adversarial attacks (one word-level, one phrase-level) for multilingual models that push their ability to handle code-mixed sentences to the limit. The former uses bilingual dictionaries to propose perturbations and translations of the clean example for sense disambiguation. The latter directly aligns the clean example with its translations before extracting phrases as perturbations. Our phrase-level attack has a success rate of 89.75% against XLM-R-large, bringing its average accuracy of 79.85 down to 8.18 on XNLI. Finally, we propose an efficient adversarial training scheme that trains in the same number of steps as the original model and show that it improves model accuracy.
翻訳日:2021-03-18 13:11:06 公開日:2021-03-17
# 深層学習を用いたフラッド調査における単語検出

Code Word Detection in Fraud Investigations using a Deep-Learning Approach ( http://arxiv.org/abs/2103.09606v1 )

ライセンス: Link先を確認
Youri van der Zee, Jan C. Scholtes, Marcel Westerhoud, Julien Rossi(参考訳) 現代の訴訟では、詐欺捜査員はしばしば、事件全体を通してレビューしなければならない圧倒的な数の文書に直面している。 ほとんどの訴訟では、詐欺捜査員は事前に、何を正確に探しているのか、どこで見つけるのかを知らない。 さらに、詐欺師は偽装を使って、コードワードを使って行動や意図を隠すこともある。 つまり、詐欺捜査員は針がどんなものか知らないまま、干し草の山に針を探しているということだ。 より大きな研究プログラムの一環として,テキストマイニングと機械学習技術を適用した調査プロセスを迅速化するフレームワークを構築した。 この枠組みは,詐欺捜査においてよく知られた3つの手法を用いて構築されている。 (i)詐欺の三角形 (ii)黄金の「W」調査問題 (iii) 競合する仮説の分析である。 この枠組みにより、調査データを自動で整理することが可能であり、研究者が典型的な調査質問に対する回答を見つけるのが容易である。 本研究では,この枠組みの構成要素の一つとして,詐欺師によるコードワードの使用状況の同定に着目する。 ここでは、通常の電子メール通信に隠されたそのようなコードワードを含む新規(注釈付き)合成データセットを作成する。 その後、このようなコードワードを検出するために、さまざまな機械学習技術が使用される。 本稿では,最先端のBERTモデルが他の手法よりも優れていることを示す。 この結果から,ディープニューラルネットワークモデル(F1スコア0.9)が,コードワードの検出のための不正な調査に確実に適用可能であることを示す。

In modern litigation, fraud investigators often face an overwhelming number of documents that must be reviewed throughout a matter. In the majority of legal cases, fraud investigators do not know beforehand, exactly what they are looking for, nor where to find it. In addition, fraudsters may use deception to hide their behaviour and intentions by using code words. Effectively, this means fraud investigators are looking for a needle in the haystack without knowing what the needle looks like. As part of a larger research program, we use a framework to expedite the investigation process applying text-mining and machine learning techniques. We structure this framework using three well-known methods in fraud investigations: (i) the fraud triangle (ii) the golden ("W") investigation questions, and (iii) the analysis of competing hypotheses. With this framework, it is possible to automatically organize investigative data, so it is easier for investigators to find answers to typical investigative questions. In this research, we focus on one of the components of this framework: the identification of the usage of code words by fraudsters. Here for, a novel (annotated) synthetic data set is created containing such code words, hidden in normal email communication. Subsequently, a range of machine learning techniques are employed to detect such code words. We show that the state-of-the-art BERT model significantly outperforms other methods on this task. With this result, we demonstrate that deep neural language models can reliably (F1 score of 0.9) be applied in fraud investigations for the detection of code words.
翻訳日:2021-03-18 13:10:49 公開日:2021-03-17
# シーングラフからのコントラスト集合の自動生成:GQAの構成整合性について

Automatic Generation of Contrast Sets from Scene Graphs: Probing the Compositional Consistency of GQA ( http://arxiv.org/abs/2103.09591v1 )

ライセンス: Link先を確認
Yonatan Bitton, Gabriel Stanovsky, Roy Schwartz, Michael Elhadad(参考訳) 近年の研究では、教師付きモデルはしばしばデータアーティファクトを利用して優れたテストスコアを達成し、そのパフォーマンスはトレーニングディストリビューション外のサンプルで著しく低下することが示された。 コントラストセット(Gardneret al., 2020)は、出力ラベルが修正される最小の方法で試験サンプルを摂動することで、この現象を定量化する。 殆どのコントラストセットは手動で作成され、集中的なアノテーションを必要とするが、視覚的質問応答タスクのためのコントラストセットを自動的に生成するために、リッチなセマンティック入力表現を活用する新しい手法を提案する。 提案手法は摂動質問の回答を計算し,アノテーションのコストを大幅に削減し,様々な意味的側面(空間的あるいは関係的推論など)でモデルの性能を徹底的に評価する。 本稿では,GQAデータセットとその意味的なシーングラフ画像表現に対するアプローチの有効性を示す。 GQAの組成とラベルのバランスの取れた分布にもかかわらず、2つのハイパフォーマンスモデルは元のテストセットと比較して13-17%の精度で低下することがわかった。 最後に,我々の自動摂動をトレーニングセットに適用することで,パフォーマンスの低下を緩和し,より堅牢なモデルへの扉を開くことができることを示す。

Recent works have shown that supervised models often exploit data artifacts to achieve good test scores while their performance severely degrades on samples outside their training distribution. Contrast sets (Gardneret al., 2020) quantify this phenomenon by perturbing test samples in a minimal way such that the output label is modified. While most contrast sets were created manually, requiring intensive annotation effort, we present a novel method which leverages rich semantic input representation to automatically generate contrast sets for the visual question answering task. Our method computes the answer of perturbed questions, thus vastly reducing annotation cost and enabling thorough evaluation of models' performance on various semantic aspects (e.g., spatial or relational reasoning). We demonstrate the effectiveness of our approach on the GQA dataset and its semantic scene graph image representation. We find that, despite GQA's compositionality and carefully balanced label distribution, two high-performing models drop 13-17% in accuracy compared to the original test set. Finally, we show that our automatic perturbation can be applied to the training set to mitigate the degradation in performance, opening the door to more robust models.
翻訳日:2021-03-18 13:10:21 公開日:2021-03-17
# Trans-SVNet:ハイブリッド埋め込みアグリゲーション変換器による手術映像からの正確な位相認識

Trans-SVNet: Accurate Phase Recognition from Surgical Videos via Hybrid Embedding Aggregation Transformer ( http://arxiv.org/abs/2103.09712v1 )

ライセンス: Link先を確認
Xiaojie Gao, Yueming Jin, Yonghao Long, Qi Dou, Pheng-Ann Heng(参考訳) 現代の手術室では, 実時間手術位相認識が基本課題である。 従来の課題は時空間的に配置されたアーキテクチャに頼っていたが、中間空間的特徴の支持的利点は考慮されていない。 本稿では,外科的ワークフロー解析において初めて,正確な手術相認識のための時間的特徴と時間的特徴の無視された補完的効果を再考するトランスフォーマを提案する。 時間的埋め込みシーケンスからの空間情報に基づくアクティブクエリを可能にすることにより,空間的および時間的埋め込みを巧みに設計した。 さらに重要なことは、私たちのフレームワークは軽量であり、高い推論速度を達成するためにハイブリッド埋め込みを並列に処理します。 提案手法はColec80とM2CAI16 Challengeの2つの大規模な手術ビデオデータセットに対して徹底的に検証され,91fpsの処理速度で最先端のアプローチを著しく上回っている。

Real-time surgical phase recognition is a fundamental task in modern operating rooms. Previous works tackle this task relying on architectures arranged in spatio-temporal order, however, the supportive benefits of intermediate spatial features are not considered. In this paper, we introduce, for the first time in surgical workflow analysis, Transformer to reconsider the ignored complementary effects of spatial and temporal features for accurate surgical phase recognition. Our hybrid embedding aggregation Transformer fuses cleverly designed spatial and temporal embeddings by allowing for active queries based on spatial information from temporal embedding sequences. More importantly, our framework is lightweight and processes the hybrid embeddings in parallel to achieve a high inference speed. Our method is thoroughly validated on two large surgical video datasets, i.e., Cholec80 and M2CAI16 Challenge datasets, and significantly outperforms the state-of-the-art approaches at a processing speed of 91 fps.
翻訳日:2021-03-18 13:09:59 公開日:2021-03-17
# 手書き文字認識のための解釈可能な距離距離学習

Interpretable Distance Metric Learning for Handwritten Chinese Character Recognition ( http://arxiv.org/abs/2103.09714v1 )

ライセンス: Link先を確認
Boxiang Dong, Aparna S. Varde, Danilo Stevanovic, Jiayin Wang, Liang Zhao(参考訳) 筆跡認識はヒューマン・コンピュータ・インタラクション(HCI)と文書のデジタル化において重要である。 オプティカルキャラクタ認識(OCR)の一般分野において、手書き文字認識は、非常に大きな文字セットと驚くほど多様な文字スタイルのために、大きな課題に直面している。 データ入力間の差を測定するための適切な距離メトリックの学習は、正確な手書き文字認識の基礎である。 既存の距離メトリック学習アプローチは、許容できないエラー率を生成するか、結果にほとんど解釈できない。 本稿では,手書き漢字認識のための解釈可能な距離距離メトリック学習手法を提案する。 学習されたメトリックは、理解可能なベースメトリクスの線形組み合わせであり、普通のユーザに有意義な洞察を提供する。 ベンチマークデータセットにおける実験結果は,提案手法の効率,正確性,解釈性に優れることを示す。

Handwriting recognition is of crucial importance to both Human Computer Interaction (HCI) and paperwork digitization. In the general field of Optical Character Recognition (OCR), handwritten Chinese character recognition faces tremendous challenges due to the enormously large character sets and the amazing diversity of writing styles. Learning an appropriate distance metric to measure the difference between data inputs is the foundation of accurate handwritten character recognition. Existing distance metric learning approaches either produce unacceptable error rates, or provide little interpretability in the results. In this paper, we propose an interpretable distance metric learning approach for handwritten Chinese character recognition. The learned metric is a linear combination of intelligible base metrics, and thus provides meaningful insights to ordinary users. Our experimental results on a benchmark dataset demonstrate the superior efficiency, accuracy and interpretability of our proposed approach.
翻訳日:2021-03-18 13:09:41 公開日:2021-03-17
# ベトナム語カテゴリー検出のための単言語・多言語BERTモデルの検討

Investigating Monolingual and Multilingual BERTModels for Vietnamese Aspect Category Detection ( http://arxiv.org/abs/2103.09519v1 )

ライセンス: Link先を確認
Dang Van Thin, Lac Si Le, Vu Xuan Hoang, Ngan Luu-Thuy Nguyen(参考訳) アスペクトカテゴリー検出(ACD)は、アスペクトベースの感情分析問題における課題の1つである。 本研究の目的は,ユーザ生成レビューで言及されているアスペクトカテゴリを,事前に定義されたカテゴリの集合から識別することである。 本稿では,ベトナムのアスペクトカテゴリー検出問題における多言語モデルと比較し,モノリンガル事前学習言語モデルの性能について検討する。 レストランとホテルのドメインを対象とした2つのベンチマークデータセットで実験を行った。 実験結果から, 単言語PhoBERTモデルの2つのデータセット上での有効性が示された。 また,他言語におけるSemEval-2016データセットとベトナム語データセットの組合せに基づく多言語モデルの性能評価を行った。 私たちの知識を最大限に活用するため,本研究は,アスペクトカテゴリ検出タスクで利用可能なさまざまな事前学習言語モデルを実行し,多言語モデルに基づく他言語からのデータセットを活用する最初の試みである。

Aspect category detection (ACD) is one of the challenging tasks in the Aspect-based sentiment Analysis problem. The purpose of this task is to identify the aspect categories mentioned in user-generated reviews from a set of pre-defined categories. In this paper, we investigate the performance of various monolingual pre-trained language models compared with multilingual models on the Vietnamese aspect category detection problem. We conduct the experiments on two benchmark datasets for the restaurant and hotel domain. The experimental results demonstrated the effectiveness of the monolingual PhoBERT model than others on two datasets. We also evaluate the performance of the multilingual model based on the combination of whole SemEval-2016 datasets in other languages with the Vietnamese dataset. To the best of our knowledge, our research study is the first attempt at performing various available pre-trained language models on aspect category detection task and utilize the datasets from other languages based on multilingual models.
翻訳日:2021-03-18 13:09:17 公開日:2021-03-17
# SML: 効率的な言語間自然言語推論のための新しい意味埋め込み変換器

SML: a new Semantic Embedding Alignment Transformer for efficient cross-lingual Natural Language Inference ( http://arxiv.org/abs/2103.09635v1 )

ライセンス: Link先を確認
Javier Huertas-Tato and Alejandro Mart\'in and David Camacho(参考訳) トランスフォーマーが質問応答、自然言語推論(NLI)、要約といった様々なタスクを精度良く実行できることは、現在この種のタスクに対処するための最良のパラダイムの1つとしてランク付けすることができる。 nliは、複雑な文を理解するための知識が必要であり、仮説と前提の関係を確立するため、これらのアーキテクチャをテストする最良のシナリオの1つである。 しかし、これらのモデルは、他の領域に一般化したり、多言語シナリオに直面することの困難さに苦しむ。 これらの問題に対処する文献における主要な経路は、非常に大きなアーキテクチャの設計とトレーニングであり、予測不可能な振る舞いをもたらし、幅広いアクセスと微調整を妨げる障壁を確立することである。 本稿では,自然言語推論のための多言語組込みを効率的にアライメントするための新しいアーキテクチャ siamese multilingual transformer (sml) を提案する。 SMLは2つの入力文が互いに参加して後に行列アライメント法によって結合されるような凍結重み付きシアム事前訓練された多言語トランスフォーマーを利用する。 本研究で実施した実験結果によると、SMLは、最先端性能を保ちながら、トレーニング可能なパラメータを劇的に減らすことができる。

The ability of Transformers to perform with precision a variety of tasks such as question answering, Natural Language Inference (NLI) or summarising, have enable them to be ranked as one of the best paradigms to address this kind of tasks at present. NLI is one of the best scenarios to test these architectures, due to the knowledge required to understand complex sentences and established a relation between a hypothesis and a premise. Nevertheless, these models suffer from incapacity to generalise to other domains or difficulties to face multilingual scenarios. The leading pathway in the literature to address these issues involve designing and training extremely large architectures, which leads to unpredictable behaviours and to establish barriers which impede broad access and fine tuning. In this paper, we propose a new architecture, siamese multilingual transformer (SML), to efficiently align multilingual embeddings for Natural Language Inference. SML leverages siamese pre-trained multi-lingual transformers with frozen weights where the two input sentences attend each other to later be combined through a matrix alignment method. The experimental results carried out in this paper evidence that SML allows to reduce drastically the number of trainable parameters while still achieving state-of-the-art performance.
翻訳日:2021-03-18 13:09:05 公開日:2021-03-17
# Fairness-aware Outlier Ensemble

Fairness-aware Outlier Ensemble ( http://arxiv.org/abs/2103.09419v1 )

ライセンス: Link先を確認
Haoyu Liu, Fenglong Ma, Shibo He, Jiming Chen, Jing Gao(参考訳) 外れたアンサンブルメソッドは、大部分のデータと著しく異なるインスタンスの発見において、優れたパフォーマンスを示している。 しかし、公正さの意識がなければ、不正検出や司法判断システムなどの倫理的シナリオにおける適用性は低下する可能性がある。 本稿では,公平性に着目したアンサンブルフレームワークを用いて,アウトリアーアンサンブル結果のバイアスを低減することを提案する。 外乱検出タスクにおいて基底的真理が欠如しているため、重要な課題は、公正性の向上により検出性能の劣化を緩和する方法である。 この課題に対処するために,従来のアウトリアーアンサンブル手法の出力に基づく距離尺度を定義し,検出性能劣化に伴うコストを推定する。 一方,本研究では,初期アンサンブル結果の調整を行う後処理フレームワークを提案し,公正性と検出性能のトレードオフを実現する。 検出性能はROC曲線(AUC)下の領域で測定され、公平度はグループレベルと個人レベルで測定される。 8つの公開データセットの実験が行われた。 その結果,外乱アンサンブルの公平性を向上するためのフレームワークの有効性が示された。 また、AUCと公正のトレードオフを分析する。

Outlier ensemble methods have shown outstanding performance on the discovery of instances that are significantly different from the majority of the data. However, without the awareness of fairness, their applicability in the ethical scenarios, such as fraud detection and judiciary judgement system, could be degraded. In this paper, we propose to reduce the bias of the outlier ensemble results through a fairness-aware ensemble framework. Due to the lack of ground truth in the outlier detection task, the key challenge is how to mitigate the degradation in the detection performance with the improvement of fairness. To address this challenge, we define a distance measure based on the output of conventional outlier ensemble techniques to estimate the possible cost associated with detection performance degradation. Meanwhile, we propose a post-processing framework to tune the original ensemble results through a stacking process so that we can achieve a trade off between fairness and detection performance. Detection performance is measured by the area under ROC curve (AUC) while fairness is measured at both group and individual level. Experiments on eight public datasets are conducted. Results demonstrate the effectiveness of the proposed framework in improving fairness of outlier ensemble results. We also analyze the trade-off between AUC and fairness.
翻訳日:2021-03-18 13:08:43 公開日:2021-03-17
# 多目的強化学習と計画のための実践的ガイド

A Practical Guide to Multi-Objective Reinforcement Learning and Planning ( http://arxiv.org/abs/2103.09568v1 )

ライセンス: Link先を確認
Conor F. Hayes, Roxana R\u{a}dulescu, Eugenio Bargiacchi, Johan K\"allstr\"om, Matthew Macfarlane, Mathieu Reymond, Timothy Verstraeten, Luisa M. Zintgraf, Richard Dazeley, Fredrik Heintz, Enda Howley, Athirai A. Irissappane, Patrick Mannion, Ann Now\'e, Gabriel Ramos, Marcello Restelli, Peter Vamplew, Diederik M. Roijers(参考訳) 現実の意思決定タスクは一般的に複雑で、複数の、しばしば矛盾する目標間のトレードオフを必要とします。 それにもかかわらず、強化学習と意思決定理論計画の研究の大半は単一の目的のみを仮定するか、単純な線形結合によって複数の目的を適切に扱うことができる。 このようなアプローチは根底にある問題を単純化し、従って準最適結果を生み出す。 本論文は,多目的強化学習と計画手法に慣れ親しんでいる研究者や,実際に多目的意思決定問題に遭遇した実践者を対象として,多目的強化学習と計画手法の課題に対する多目的適用のガイドとして機能する。 望まれる解の性質に影響を与える要因を特定し、複雑な問題に対する多目的意思決定システムの設計にどのように影響するかを例示する。

Real-world decision-making tasks are generally complex, requiring trade-offs between multiple, often conflicting, objectives. Despite this, the majority of research in reinforcement learning and decision-theoretic planning either assumes only a single objective, or that multiple objectives can be adequately handled via a simple linear combination. Such approaches may oversimplify the underlying problem and hence produce suboptimal results. This paper serves as a guide to the application of multi-objective methods to difficult problems, and is aimed at researchers who are already familiar with single-objective reinforcement learning and planning methods who wish to adopt a multi-objective perspective on their research, as well as practitioners who encounter multi-objective decision problems in practice. It identifies the factors that may influence the nature of the desired solution, and illustrates by example how these influence the design of multi-objective decision-making systems for complex problems.
翻訳日:2021-03-18 13:08:24 公開日:2021-03-17
# REPSによる最適政策最適化

Near Optimal Policy Optimization via REPS ( http://arxiv.org/abs/2103.09756v1 )

ライセンス: Link先を確認
Aldo Pacchiano, Jonathan Lee, Peter Bartlett, Ofir Nachum(参考訳) 10年前に導入されて以来、REPS(emph{relative entropy policy search)は、最近提案された強化学習(RL)アルゴリズムで使用されるアルゴリズムコンポーネントの提供だけでなく、多くのシミュレーションされた実世界のロボットドメインでのポリシー学習に成功した。 REPSはコミュニティで一般的に知られているが、確率的および勾配に基づく解法を使用する場合、その性能に保証はない。 本稿では,REPS目標に適用した一階最適化手法を用いて学習した政策の準最適性の保証と収束率を提供することで,このギャップを埋めることを目的とする。 まず、厳密な勾配にアクセスできる設定を検討し、目的のほぼ最適性が政策のほぼ最適性にどのように変換されるかを示す。 次に, 確率勾配の実用的設定を考察し, 最適正規化ポリシーへの好適な収束を維持するパラメータ更新を計算するために, マルコフ決定プロセスへの \emph{generative} アクセスを利用する手法を提案する。

Since its introduction a decade ago, \emph{relative entropy policy search} (REPS) has demonstrated successful policy learning on a number of simulated and real-world robotic domains, not to mention providing algorithmic components used by many recently proposed reinforcement learning (RL) algorithms. While REPS is commonly known in the community, there exist no guarantees on its performance when using stochastic and gradient-based solvers. In this paper we aim to fill this gap by providing guarantees and convergence rates for the sub-optimality of a policy learned using first-order optimization methods applied to the REPS objective. We first consider the setting in which we are given access to exact gradients and demonstrate how near-optimality of the objective translates to near-optimality of the policy. We then consider the practical setting of stochastic gradients, and introduce a technique that uses \emph{generative} access to the underlying Markov decision process to compute parameter updates that maintain favorable convergence to the optimal regularized policy.
翻訳日:2021-03-18 13:08:11 公開日:2021-03-17
# STYLER:表現的・制御可能なニューラルテキストから音声への音声分解による迅速・ロバストなスタイルモデリング

STYLER: Style Modeling with Rapidity and Robustness via SpeechDecomposition for Expressive and Controllable Neural Text to Speech ( http://arxiv.org/abs/2103.09474v1 )

ライセンス: Link先を確認
Keon Lee, Kyumin Park, Daeyoung Kim(参考訳) tts(expressive text-to-speech)は、トレーニングや推論時の堅牢性と速度に制限がある。 このような欠点は主に自己回帰的復号化によるものであり、次のステップは前のエラーに対して脆弱である。 この弱点を克服するために,並列化アーキテクチャを用いた新しい表現型テキスト音声合成モデルSTYLERを提案する。 自己回帰復号の排除と符号化のための音声分解の導入により、高いスタイル転送性能でも音声合成がより堅牢になる。 さらに, 雑音を伝達することなく, ドメイン逆学習と残余復号化により, 音声からの新たなノイズモデリング手法を提案する。 実験により,他の並列ttsモデルとの比較から,モデルの自然性と表現性が証明された。 本稿では, 自己回帰復号法と表現型TSモデルとの比較により, モデルの堅牢性と速度について検討する。

Previous works on expressive text-to-speech (TTS) have a limitation on robustness and speed when training and inferring. Such drawbacks mostly come from autoregressive decoding, which makes the succeeding step vulnerable to preceding error. To overcome this weakness, we propose STYLER, a novel expressive text-to-speech model with parallelized architecture. Expelling autoregressive decoding and introducing speech decomposition for encoding enables speech synthesis more robust even with high style transfer performance. Moreover, our novel noise modeling approach from audio using domain adversarial training and Residual Decoding enabled style transfer without transferring noise. Our experiments prove the naturalness and expressiveness of our model from comparison with other parallel TTS models. Together we investigate our model's robustness and speed by comparison with the expressive TTS model with autoregressive decoding.
翻訳日:2021-03-18 13:07:54 公開日:2021-03-17
# 抽象構文木をグラフとしてモデル化したコード補完

Code Completion by Modeling Flattened Abstract Syntax Trees as Graphs ( http://arxiv.org/abs/2103.09499v1 )

ライセンス: Link先を確認
Yanlin Wang, Hui Li(参考訳) コード補完は統合開発環境の重要なコンポーネントになっている。 現代のコード補完メソッドは、構文的に正しいコードを生成するために抽象構文木(AST)に依存している。 しかし、コードの記述とASTの構造情報の逐次的かつ反復的なパターンを完全に把握することはできない。 これらの問題を緩和するために,部分ASTのフラット化シーケンスをASTグラフとしてモデル化したCCAGという新しいコード補完手法を提案する。 CCAGは提案したAST Graph Attention Blockを使用して、ASTグラフのさまざまな依存関係をキャプチャして、コード補完における表現学習を行います。 コード補完のサブタスクはCCAGのマルチタスク学習によって最適化され、タスクの重みを調整せずに不確実性を使ってタスクバランスが自動的に達成される。 実験の結果,ccagは最先端のアプローチよりも優れた性能を示し,インテリジェントなコード補完を実現することができた。

Code completion has become an essential component of integrated development environments. Contemporary code completion methods rely on the abstract syntax tree (AST) to generate syntactically correct code. However, they cannot fully capture the sequential and repetitive patterns of writing code and the structural information of the AST. To alleviate these problems, we propose a new code completion approach named CCAG, which models the flattened sequence of a partial AST as an AST graph. CCAG uses our proposed AST Graph Attention Block to capture different dependencies in the AST graph for representation learning in code completion. The sub-tasks of code completion are optimized via multi-task learning in CCAG, and the task balance is automatically achieved using uncertainty without the need to tune task weights. The experimental results show that CCAG has superior performance than state-of-the-art approaches and it is able to provide intelligent code completion.
翻訳日:2021-03-18 13:07:40 公開日:2021-03-17
# 暗黙的正規化流れ

Implicit Normalizing Flows ( http://arxiv.org/abs/2103.09527v1 )

ライセンス: Link先を確認
Cheng Lu, Jianfei Chen, Chongxuan Li, Qiuhao Wang, Jun Zhu(参考訳) 正規化フローは、明示的可逆変換 $\boldsymbol{\mathbf{z}}=f(\boldsymbol{\mathbf{x}})$ で確率分布を定義する。 本研究では, 正規化フロー (ImpFlows) について, 方程式 $F(\boldsymbol{\mathbf{z}}, \boldsymbol{\mathbf{x}})= \boldsymbol{\mathbf{0}}$ の根で写像を暗黙的に定義することにより, 正規化フローを一般化する。 ImpFlowsは、表現性とトラクタビリティの適切なバランスで、残留フロー(ResFlows)上に構築する。 理論的解析により、ImpFlow の関数空間は ResFlow の関数空間よりも厳密にリッチであることを示す。 さらに、ブロック数が一定である任意のResFlowに対して、ResFlowが無視できない近似エラーを持つ関数が存在する。 しかし、関数はシングルブロックの ImpFlow で正確に表現できる。 我々は、ImpFlowsからサンプルを訓練および描画するためのスケーラブルなアルゴリズムを提案する。 経験的に、いくつかの分類および密度モデリングタスクでImpFlowを評価し、ImpFlowはResFlowに匹敵するパラメータを全てのベンチマークで比較して性能を向上する。

Normalizing flows define a probability distribution by an explicit invertible transformation $\boldsymbol{\mathbf{z}}=f(\boldsymbol{\mathbf{x}})$. In this work, we present implicit normalizing flows (ImpFlows), which generalize normalizing flows by allowing the mapping to be implicitly defined by the roots of an equation $F(\boldsymbol{\mathbf{z}}, \boldsymbol{\mathbf{x}})= \boldsymbol{\mathbf{0}}$. ImpFlows build on residual flows (ResFlows) with a proper balance between expressiveness and tractability. Through theoretical analysis, we show that the function space of ImpFlow is strictly richer than that of ResFlows. Furthermore, for any ResFlow with a fixed number of blocks, there exists some function that ResFlow has a non-negligible approximation error. However, the function is exactly representable by a single-block ImpFlow. We propose a scalable algorithm to train and draw samples from ImpFlows. Empirically, we evaluate ImpFlow on several classification and density modeling tasks, and ImpFlow outperforms ResFlow with a comparable amount of parameters on all the benchmarks.
翻訳日:2021-03-18 13:07:25 公開日:2021-03-17
# WheatNet:高スループット画像に基づく小麦頭部検出とカウントのための軽量畳み込みニューラルネットワーク

WheatNet: A Lightweight Convolutional Neural Network for High-throughput Image-based Wheat Head Detection and Counting ( http://arxiv.org/abs/2103.09408v1 )

ライセンス: Link先を確認
Saeed Khaki, Nima Safaei, Hieu Pham and Lizhi Wang(参考訳) グローバルに認識されている育種組織にとって,手動観測データが植物の育種決定に不可欠である。 しかし、植物色、高さ、核数などの表現型の特徴がある。 作物の成長サイクルの特定の時間軸でのみ収集できる。 労働集約的な要求のため、季節ごとに観測可能なフィールドのごく一部しか記録されない。 小麦育種におけるデータ収集のボトルネックを軽減するために,小麦頭数を正確にかつ効率的に計算し,意思決定のためのリアルタイムデータ収集を支援する新しいディープラーニングフレームワークを提案する。 我々はこのモデルをWheatNetと呼び、小麦畑の幅広い環境条件に対して、我々のアプローチが堅牢で正確であることを示す。 WheatNetは、Truncated MobileNetV2を軽量なバックボーン機能抽出器として使用し、様々なスケールのフィーチャーマップをマージして、画像スケールの変動に対応する。 次に、抽出されたマルチスケール機能は、2つの並列サブネットワークに移行し、同時密度ベースのカウントとローカライゼーションタスクを行う。 提案手法は, 小麦頭部計数タスクにおけるMAEとRMSEの3.85と5.19をそれぞれ達成し, 他の最先端手法に比べてパラメータが有意に少ない。 提案手法の優位性と有効性を示す実験と他の最先端手法との比較を行った。

For a globally recognized planting breeding organization, manually-recorded field observation data is crucial for plant breeding decision making. However, certain phenotypic traits such as plant color, height, kernel counts, etc. can only be collected during a specific time-window of a crop's growth cycle. Due to labor-intensive requirements, only a small subset of possible field observations are recorded each season. To help mitigate this data collection bottleneck in wheat breeding, we propose a novel deep learning framework to accurately and efficiently count wheat heads to aid in the gathering of real-time data for decision making. We call our model WheatNet and show that our approach is robust and accurate for a wide range of environmental conditions of the wheat field. WheatNet uses a truncated MobileNetV2 as a lightweight backbone feature extractor which merges feature maps with different scales to counter image scale variations. Then, extracted multi-scale features go to two parallel sub-networks for simultaneous density-based counting and localization tasks. Our proposed method achieves an MAE and RMSE of 3.85 and 5.19 in our wheat head counting task, respectively, while having significantly fewer parameters when compared to other state-of-the-art methods. Our experiments and comparisons with other state-of-the-art methods demonstrate the superiority and effectiveness of our proposed method.
翻訳日:2021-03-18 13:07:02 公開日:2021-03-17
# グループノイズによる学習

Learning with Group Noise ( http://arxiv.org/abs/2103.09468v1 )

ライセンス: Link先を確認
Qizhou Wang, Jiangchao Yao, Chen Gong, Tongliang Liu, Mingming Gong, Hongxia Yang, and Bo Han(参考訳) ノイズの文脈での機械学習は、多くの現実世界のアプリケーションにとって難しいが実践的な設定だ。 この領域における以前のアプローチのほとんどは、ノイズとのペアワイズ関係(因果関係または相関関係)に焦点を当てている。 しかし,細粒度不確かさとの粗粒度関係に寄生する群雑音も普遍的であり,よく研究されていない。 この設定の下での課題は、そのきめ細かいノイズと群関係によって隠された真のペアワイズ接続を見つける方法である。 そこで本研究では,グループ雑音を用いた学習のためのMax-Matching法を提案する。 具体的には、マッチングメカニズムを使用して、各オブジェクト w.r.t の関係信頼度を評価する。 一方、ターゲットはグループ内のオブジェクト間の非iid特性を考慮している。 最も自信のある物体のみがモデルを学習すると考えられており、きめ細かいノイズがほとんど減少する。 複数の学習パラダイムの領域における実世界のデータセットのレンジの性能は、マックスマッチングの有効性を示す

Machine learning in the context of noise is a challenging but practical setting to plenty of real-world applications. Most of the previous approaches in this area focus on the pairwise relation (casual or correlational relationship) with noise, such as learning with noisy labels. However, the group noise, which is parasitic on the coarse-grained accurate relation with the fine-grained uncertainty, is also universal and has not been well investigated. The challenge under this setting is how to discover true pairwise connections concealed by the group relation with its fine-grained noise. To overcome this issue, we propose a novel Max-Matching method for learning with group noise. Specifically, it utilizes a matching mechanism to evaluate the relation confidence of each object w.r.t. the target, meanwhile considering the Non-IID characteristics among objects in the group. Only the most confident object is considered to learn the model, so that the fine-grained noise is mostly dropped. The performance on arange of real-world datasets in the area of several learning paradigms demonstrates the effectiveness of Max-Matching
翻訳日:2021-03-18 13:06:43 公開日:2021-03-17
# ランドマーク検出を用いた仮想ドレススワップ

Virtual Dress Swap Using Landmark Detection ( http://arxiv.org/abs/2103.09475v1 )

ライセンス: Link先を確認
Odar Zeynal, Saber Malekzadeh(参考訳) オンラインショッピングは最近人気がある。 本論文は,未解決のドレスをオンラインで購入する上で重要な問題である。 本研究では,6,223枚の画像と8枚のランドマークを用いたdeepfashionデータセットを用いて,衣服交換のアイデアを実装した。 深層畳み込みニューラルネットワークはランドマーク検出のために構築されている。

Online shopping has gained popularity recently. This paper addresses one crucial problem of buying dress online, which has not been solved yet. This research tries to implement the idea of clothes swapping with the help of DeepFashion dataset where 6,223 images with eight landmarks each used. Deep Convolutional Neural Network has been built for Landmark detection.
翻訳日:2021-03-18 13:06:27 公開日:2021-03-17
# 連続学習のための勾配投影メモリ

Gradient Projection Memory for Continual Learning ( http://arxiv.org/abs/2103.09762v1 )

ライセンス: Link先を確認
Gobinda Saha, Isha Garg, Kaushik Roy(参考訳) 過去のタスクを忘れずに継続的に学習できることは、人工知能システムにとって望ましい属性である。 ニューラルネットワークにおけるこのような学習を可能にする既存のアプローチは、通常、ネットワークの成長、重要度に基づく重み付け更新、メモリからの古いデータの再生に依存する。 対照的に,ニューラルネットワークは,過去のタスクにとって重要と考えられる勾配部分空間に対して直交方向の勾配ステップを取ることで,新しいタスクを学習する新しいアプローチを提案する。 これらのサブスペースの基盤は,Singular Value Decomposition (SVD) を用いて各タスクを単一ショットで学習した後,ネットワーク表現(アクティベーション)を分析し,グラディエント・プロジェクション・メモリ (GPM) としてメモリに記憶する。 定性的・定量的な分析により,このような直交勾配降下は,過去のタスクに最小から無干渉を誘導し,忘れを緩和することを示した。 本アルゴリズムは,タスクの短周期および長周期の多様な画像分類データセットを用いて評価し,最先端の手法と比較して,より優れた,あるいは公平な性能を報告した。

The ability to learn continually without forgetting the past tasks is a desired attribute for artificial learning systems. Existing approaches to enable such learning in artificial neural networks usually rely on network growth, importance based weight update or replay of old data from the memory. In contrast, we propose a novel approach where a neural network learns new tasks by taking gradient steps in the orthogonal direction to the gradient subspaces deemed important for the past tasks. We find the bases of these subspaces by analyzing network representations (activations) after learning each task with Singular Value Decomposition (SVD) in a single shot manner and store them in the memory as Gradient Projection Memory (GPM). With qualitative and quantitative analyses, we show that such orthogonal gradient descent induces minimum to no interference with the past tasks, thereby mitigates forgetting. We evaluate our algorithm on diverse image classification datasets with short and long sequences of tasks and report better or on-par performance compared to the state-of-the-art approaches.
翻訳日:2021-03-18 13:06:23 公開日:2021-03-17
# 深層学習に基づく双腕ロボットによるロープの空気中結び目

In-air Knotting of Rope using Dual-Arm Robot based on Deep Learning ( http://arxiv.org/abs/2103.09402v1 )

ライセンス: Link先を確認
Kanata Suzuki, Momomi Kanamura, Yuki Suga, Hiroki Mori, Tetsuya Ogata(参考訳) 本研究では,深層学習に基づく双腕二本指ロボットを用いて,ロープの空中結節を成功させた。 柔軟性のため、ロープの状態はロボットの操作中に常に変動していた。 これによりロボット制御システムは、常にオブジェクトの状態に動的に対応させる必要があった。 しかし、すべての対象状態に対応する適切なロボット動作のマニュアル記述を事前に作成することは困難である。 この問題を解決するために,視覚・近接センサを含むセンサモジュレータから収集したデータを用いて訓練された2つの深層ニューラルネットワークに基づいて,ロボットにボウノットとオーバーハンドノットを実行するよう指示するモデルを構築した。 その結果,オンライン上の感覚情報に基づいて適切なロボットの動きを予測できることが確認された。 さらに,両腕2指ロボットを用いて,Ianノット法に基づくタスク動作を設計した。 設計したノッティング動作は専用のワークベンチやロボットハンドを必要としないため,提案手法の汎用性が向上する。 最後に,ロープ上のオーバーハンドノットとボウノットを実行し,実際のロボットの結び目性能とその成功率を推定する実験を行った。 実験の結果,提案手法の有効性と性能が得られた。

In this study, we report the successful execution of in-air knotting of rope using a dual-arm two-finger robot based on deep learning. Owing to its flexibility, the state of the rope was in constant flux during the operation of the robot. This required the robot control system to dynamically correspond to the state of the object at all times. However, a manual description of appropriate robot motions corresponding to all object states is difficult to be prepared in advance. To resolve this issue, we constructed a model that instructed the robot to perform bowknots and overhand knots based on two deep neural networks trained using the data gathered from its sensorimotor, including visual and proximity sensors. The resultant model was verified to be capable of predicting the appropriate robot motions based on the sensory information available online. In addition, we designed certain task motions based on the Ian knot method using the dual-arm two-fingers robot. The designed knotting motions do not require a dedicated workbench or robot hand, thereby enhancing the versatility of the proposed method. Finally, experiments were performed to estimate the knotting performance of the real robot while executing overhand knots and bowknots on rope and its success rate. The experimental results established the effectiveness and high performance of the proposed method.
翻訳日:2021-03-18 13:05:41 公開日:2021-03-17
# HyperDynamics: Hypernetworksによるメタ学習オブジェクトとエージェントダイナミクス

HyperDynamics: Meta-Learning Object and Agent Dynamics with Hypernetworks ( http://arxiv.org/abs/2103.09439v1 )

ライセンス: Link先を確認
Zhou Xian, Shamit Lal, Hsiao-Yu Tung, Emmanouil Antonios Platanios, Katerina Fragkiadaki(参考訳) 我々は,エージェントの環境との相互作用を条件とし,その視覚観察を任意に行う動的メタラーニングフレームワークhyperdynamicsを提案し,動的システムの推定特性に基づいて,神経力学モデルのパラメータを生成する。 低次元状態にはまだ影響しない環境の物理的および視覚的性質は、相互作用の歴史と視覚的観察から推定され、生成されたパラメータで暗黙的にキャプチャされる。 オブジェクトプッシュと移動タスクのセットでHyperDynamicsをテストします。 これは、高次元の視覚的観察を学習し、エージェントの相互作用を反復状態表現で捉えたり、勾配に基づくメタ最適化を用いて、環境変動に適応する既存の力学モデルよりも優れている。 また,本手法は,個別に訓練された専門家の演奏に合致すると同時に,テスト時に未知の環境変動に対して十分に一般化できることを示す。 その優れた性能は、推定されたシステム特性 -- 生成したパラメータにキャプチャーされる -- と、動的システムの低次元状態表現の間の乗法的相互作用に特化します。

We propose HyperDynamics, a dynamics meta-learning framework that conditions on an agent's interactions with the environment and optionally its visual observations, and generates the parameters of neural dynamics models based on inferred properties of the dynamical system. Physical and visual properties of the environment that are not part of the low-dimensional state yet affect its temporal dynamics are inferred from the interaction history and visual observations, and are implicitly captured in the generated parameters. We test HyperDynamics on a set of object pushing and locomotion tasks. It outperforms existing dynamics models in the literature that adapt to environment variations by learning dynamics over high dimensional visual observations, capturing the interactions of the agent in recurrent state representations, or using gradient-based meta-optimization. We also show our method matches the performance of an ensemble of separately trained experts, while also being able to generalize well to unseen environment variations at test time. We attribute its good performance to the multiplicative interactions between the inferred system properties -- captured in the generated parameters -- and the low-dimensional state representation of the dynamical system.
翻訳日:2021-03-18 13:05:22 公開日:2021-03-17
# 攻撃共有損失を有するディープニューラルネットワークによるサイバー侵入検出

Cyber Intrusion Detection by Using Deep Neural Networks with Attack-sharing Loss ( http://arxiv.org/abs/2103.09713v1 )

ライセンス: Link先を確認
Boxiang Dong, Hui (Wendy) Wang, Aparna S. Varde, Dawei Li, Bharath K. Samanthula, Weifeng Sun, Liang Zhao(参考訳) サイバー攻撃はコンピュータシステムのセキュリティに重大な脅威を与え、デジタル財務を過度なリスクに晒す。 これは、侵入攻撃を高精度に識別できる効果的な侵入検知システムに対する緊急の要求につながる。 様々な攻撃のために侵入事件を分類することは困難である。 さらに、通常のネットワーク環境では、接続の大部分は良性行動によって開始される。 侵入検知におけるクラス不均衡問題により、分類器は多数/良性クラスに偏り、多くの攻撃インシデントが検出されない。 本稿では,コンピュータビジョンと自然言語処理におけるディープニューラルネットワークの成功を受けて,ディープラーニングをフル活用して侵入検出と分類を可能にするDeepIDEAという新しいシステムを設計する。 不均衡なデータに対する高い検出精度を達成するため、我々は、決定境界を攻撃クラスへ効果的に移動させ、多数/従属クラスへのバイアスを排除できる新しい攻撃共有損失関数を設計する。 この損失関数を使用することで、DeepIDEAは侵入誤分類が攻撃誤分類よりも高いペナルティを受けるべきであるという事実を尊重する。 3つのベンチマークデータセットの大規模な実験結果は、DeepIDEAの高精度な検出精度を示している。 特に、最先端の8つのアプローチと比較して、DeepIDEAは常に最高のクラスバランスの精度を提供する。

Cyber attacks pose crucial threats to computer system security, and put digital treasuries at excessive risks. This leads to an urgent call for an effective intrusion detection system that can identify the intrusion attacks with high accuracy. It is challenging to classify the intrusion events due to the wide variety of attacks. Furthermore, in a normal network environment, a majority of the connections are initiated by benign behaviors. The class imbalance issue in intrusion detection forces the classifier to be biased toward the majority/benign class, thus leave many attack incidents undetected. Spurred by the success of deep neural networks in computer vision and natural language processing, in this paper, we design a new system named DeepIDEA that takes full advantage of deep learning to enable intrusion detection and classification. To achieve high detection accuracy on imbalanced data, we design a novel attack-sharing loss function that can effectively move the decision boundary towards the attack classes and eliminates the bias towards the majority/benign class. By using this loss function, DeepIDEA respects the fact that the intrusion mis-classification should receive higher penalty than the attack mis-classification. Extensive experimental results on three benchmark datasets demonstrate the high detection accuracy of DeepIDEA. In particular, compared with eight state-of-the-art approaches, DeepIDEA always provides the best class-balanced accuracy.
翻訳日:2021-03-18 13:05:01 公開日:2021-03-17
# AIに基づくシステムにおける技術的負債とアンチパターンの特徴:システムマッピングによる研究

Characterizing Technical Debt and Antipatterns in AI-Based Systems: A Systematic Mapping Study ( http://arxiv.org/abs/2103.09783v1 )

ライセンス: Link先を確認
Justus Bogner, Roberto Verdecchia, Ilias Gerostathopoulos(参考訳) 背景: 人工知能(AI)の普及に伴い、コスト効率と管理可能な方法で大規模で複雑なAIベースのシステムを構築する必要性が高まっている。 従来のソフトウェアと同様に、技術的負債(td)は時間とともに自然に発生するため、適切に管理されていない場合の課題やリスクにつながる。 データサイエンスの影響とAIベースのシステムの確率的性質は、研究者や実践者がまだ完全に理解していない新しいタイプのTDやアンチパターンにつながる可能性がある。 目的:本研究の目的は、AIベースのシステムに現れるTD(確立されたものと新しいものの両方)と、提案されているアンチパターンおよび関連するソリューションの明確な概要と特徴を提供することである。 方法:システマティックマッピング研究のプロセスに従って,21の一次研究を同定し,分析する。 結果: (i) 確立されたtdタイプ, バリエーション, および4つの新しいtdタイプ (データ, モデル, 構成, 倫理的負債) がaiベースのシステムに存在すること, (ii) 72のアンチパターンが文献で議論されていること, (iii) 特定のtdタイプ, アンチパターン, 一般にtdに対応するための46のソリューションが提案されている。 結論:私たちの結果は、システムに存在するTDの側面を推論し、伝達することで、AI専門家をサポートすることができます。 さらに、AIベースのシステムにおけるTDの理解を深めるために、将来の研究の基盤として機能する。

Background: With the rising popularity of Artificial Intelligence (AI), there is a growing need to build large and complex AI-based systems in a cost-effective and manageable way. Like with traditional software, Technical Debt (TD) will emerge naturally over time in these systems, therefore leading to challenges and risks if not managed appropriately. The influence of data science and the stochastic nature of AI-based systems may also lead to new types of TD or antipatterns, which are not yet fully understood by researchers and practitioners. Objective: The goal of our study is to provide a clear overview and characterization of the types of TD (both established and new ones) that appear in AI-based systems, as well as the antipatterns and related solutions that have been proposed. Method: Following the process of a systematic mapping study, 21 primary studies are identified and analyzed. Results: Our results show that (i) established TD types, variations of them, and four new TD types (data, model, configuration, and ethics debt) are present in AI-based systems, (ii) 72 antipatterns are discussed in the literature, the majority related to data and model deficiencies, and (iii) 46 solutions have been proposed, either to address specific TD types, antipatterns, or TD in general. Conclusions: Our results can support AI professionals with reasoning about and communicating aspects of TD present in their systems. Additionally, they can serve as a foundation for future research to further our understanding of TD in AI-based systems.
翻訳日:2021-03-18 13:04:40 公開日:2021-03-17
# DoubleML - Rにおけるダブル機械学習のオブジェクト指向実装

DoubleML -- An Object-Oriented Implementation of Double Machine Learning in R ( http://arxiv.org/abs/2103.09603v1 )

ライセンス: Link先を確認
Philipp Bach, Victor Chernozhukov, Malte S. Kurz, Martin Spindler(参考訳) RパッケージのDoubleMLはChernozhukovらのダブル/デバイアスの機械学習フレームワークを実装している。 (2018). 機械学習手法に基づいて因果モデルのパラメータを推定する機能を提供する。 double machine learningフレームワークは、ニーマン直交性、高品質な機械学習推定、サンプル分割という3つの主要な要素で構成されている。 迷惑コンポーネントの推定は、mlr3エコシステムで利用可能なさまざまな最先端機械学習手法によって行うことができる。 DoubleMLは、部分的に線形でインタラクティブな回帰モデルや、機器変数推定の拡張を含む、さまざまな因果モデルで推論を行うことができる。 DoubleMLのオブジェクト指向実装は、モデル仕様の柔軟性を高め、容易に拡張できるようにする。 本稿では、ダブル機械学習フレームワークとRパッケージDoubleMLについて紹介する。 シミュレーションおよび実データを用いた再現可能なコード例では,doublemlユーザが機械学習手法に基づいて有効な推論を行う方法を示す。

The R package DoubleML implements the double/debiased machine learning framework of Chernozhukov et al. (2018). It provides functionalities to estimate parameters in causal models based on machine learning methods. The double machine learning framework consist of three key ingredients: Neyman orthogonality, high-quality machine learning estimation and sample splitting. Estimation of nuisance components can be performed by various state-of-the-art machine learning methods that are available in the mlr3 ecosystem. DoubleML makes it possible to perform inference in a variety of causal models, including partially linear and interactive regression models and their extensions to instrumental variable estimation. The object-oriented implementation of DoubleML enables a high flexibility for the model specification and makes it easily extendable. This paper serves as an introduction to the double machine learning framework and the R package DoubleML. In reproducible code examples with simulated and real data sets, we demonstrate how DoubleML users can perform valid inference based on machine learning methods.
翻訳日:2021-03-18 13:03:05 公開日:2021-03-17
# 超高効率超解像のための可衝突線形ブロック

Collapsible Linear Blocks for Super-Efficient Super Resolution ( http://arxiv.org/abs/2103.09404v1 )

ライセンス: Link先を確認
Kartikeya Bhardwaj, Milos Milosavljevic, Alex Chalfin, Naveen Suda, Liam O'Neil, Dibakar Gope, Lingchuan Meng, Ramon Matas, Danny Loh(参考訳) 4Kと8Kの解像度をサポートするスマートデバイスが登場し、Single Image Super Resolution (SISR)は重要なコンピュータビジョン問題となっている。 しかし、ほとんどの超解像度ディープネットワークは計算的に非常に高価である。 本稿では,画像品質を著しく向上し,計算複雑性を低減した超高効率超解像ネットワークであるsesrを提案する。 6つのベンチマークデータセットの詳細な実験によると、SESRは最新技術モデルと同等またはより良い画質を実現し、2倍から330倍のMultiply-Accumulate (MAC)操作を必要とする。 その結果、SESRは制約のあるハードウェアでx2(1080pから4K)とx4SISR(1080pから8K)を実行することができる。 そこで我々は,1080pから4K (x2) と1080pから8K (x4) SISRの商用モバイルニューラル処理ユニット(NPU)のハードウェア性能をシミュレーションした。 我々の結果は、AIアクセラレーターにおける超解像度が直面する課題を強調し、SESRが既存のモデルよりもはるかに高速であることを示す。 全体として、SESRは、超分解能タスクに対する品質(PSNR)計算関係に関する新しいパレートフロンティアを確立する。

With the advent of smart devices that support 4K and 8K resolution, Single Image Super Resolution (SISR) has become an important computer vision problem. However, most super resolution deep networks are computationally very expensive. In this paper, we propose SESR, a new class of Super-Efficient Super Resolution networks that significantly improve image quality and reduce computational complexity. Detailed experiments across six benchmark datasets demonstrate that SESR achieves similar or better image quality than state-of-the-art models while requiring 2x to 330x fewer Multiply-Accumulate (MAC) operations. As a result, SESR can be used on constrained hardware to perform x2 (1080p to 4K) and x4 SISR (1080p to 8K). Towards this, we simulate hardware performance numbers for a commercial mobile Neural Processing Unit (NPU) for 1080p to 4K (x2) and 1080p to 8K (x4) SISR. Our results highlight the challenges faced by super resolution on AI accelerators and demonstrate that SESR is significantly faster than existing models. Overall, SESR establishes a new Pareto frontier on the quality (PSNR)-computation relationship for the super resolution task.
翻訳日:2021-03-18 13:01:58 公開日:2021-03-17
# 光フローフリービデオフレーム生成のための可逆U-Net

The Invertible U-Net for Optical-Flow-free Video Interframe Generation ( http://arxiv.org/abs/2103.09576v1 )

ライセンス: Link先を確認
Saem Park, Donghun Han and Nojun Kwak(参考訳) ビデオフレーム補間は、時間軸に沿って隣接する2つのフレーム間のインターフェースを作成するタスクである。 したがって、2つの隣接するフレームを平均化して中間画像を生成するのではなく、隣接するフレームとのセマンティックな連続性を維持する必要がある。 従来の手法ではオプティカルフローを用いており、閉塞処理やオブジェクト平滑化といった様々なツールが不可欠である。 これらの様々なツールを使用することで複雑な問題が発生するため、問題のある光学フローを使わずに映像フレーム間生成問題に取り組もうとした。 これを実現するために,可逆構造を持つディープニューラルネットワークを使用し,修正正規化フローである可逆u-netを開発した。 さらに,フレーム間の意味的時間的一貫性を維持するために,潜在空間に新たな一貫性損失を持つ学習手法を提案する。 生成した画像の解像度は、可逆ネットワークを用いて元の画像と同一であることが保証される。 さらに、生成モデルによるようなランダムな画像ではないため、ネットワークはフリックなしで安定した出力を保証する。 実験により,提案アルゴリズムの有効性を確認し,ビデオフレーム補間におけるベースラインの新たな可能性として,可逆U-Netを提案する。 本論文は,ビデオ補間のための光フローではなく,可逆ネットワークを用いた世界初の試みである。

Video frame interpolation is the task of creating an interface between two adjacent frames along the time axis. So, instead of simply averaging two adjacent frames to create an intermediate image, this operation should maintain semantic continuity with the adjacent frames. Most conventional methods use optical flow, and various tools such as occlusion handling and object smoothing are indispensable. Since the use of these various tools leads to complex problems, we tried to tackle the video interframe generation problem without using problematic optical flow. To enable this, we have tried to use a deep neural network with an invertible structure and developed an invertible U-Net which is a modified normalizing flow. In addition, we propose a learning method with a new consistency loss in the latent space to maintain semantic temporal consistency between frames. The resolution of the generated image is guaranteed to be identical to that of the original images by using an invertible network. Furthermore, as it is not a random image like the ones by generative models, our network guarantees stable outputs without flicker. Through experiments, we confirmed the feasibility of the proposed algorithm and would like to suggest invertible U-Net as a new possibility for baseline in video frame interpolation. This paper is meaningful in that it is the worlds first attempt to use invertible networks instead of optical flows for video interpolation.
翻訳日:2021-03-18 13:01:38 公開日:2021-03-17
# ユーザインタラクションを最小とした操作環境における6次元物体ポーズ推定のための注釈付きトレーニングデータの生成

Generating Annotated Training Data for 6D Object Pose Estimation in Operational Environments with Minimal User Interaction ( http://arxiv.org/abs/2103.09696v1 )

ライセンス: Link先を確認
Paul Koch, Marian Schl\"uter, Serge Thill(参考訳) 近年開発された深層ニューラルネットワークは,ロボット操作のための6次元物体ポーズ推定において最先端の結果を得た。 しかし、これらの教師付きディープラーニング手法は、高価な注釈付きトレーニングデータを必要とする。 これらのコストを削減する現在の方法は、シミュレーションから合成データを使うことが多いが、専門家の知識に頼り、現実世界に移行する際に「領域ギャップ」に苦しむ。 本稿では、6次元オブジェクトのポーズ推定のための注釈付きトレーニングデータを自律的に生成する新しい手法の実証について述べる。 このアプローチは、操作環境で新しいオブジェクトを学ぶために設計されており、インタラクションはほとんど必要ありません。 自律的データ生成手法を2つの把持実験で評価し、非自律的データ集合上の関連する作業と類似した把持成功率をアーカイブする。

Recently developed deep neural networks achieved state-of-the-art results in the subject of 6D object pose estimation for robot manipulation. However, those supervised deep learning methods require expensive annotated training data. Current methods for reducing those costs frequently use synthetic data from simulations, but rely on expert knowledge and suffer from the "domain gap" when shifting to the real world. Here, we present a proof of concept for a novel approach of autonomously generating annotated training data for 6D object pose estimation. This approach is designed for learning new objects in operational environments while requiring little interaction and no expertise on the part of the user. We evaluate our autonomous data generation approach in two grasping experiments, where we archive a similar grasping success rate as related work on a non autonomously generated data set.
翻訳日:2021-03-18 13:01:15 公開日:2021-03-17
# 近等距離およびそれ以上のホイットニー拡大問題について

On the Whitney extension problem for near isometries and beyond ( http://arxiv.org/abs/2103.09748v1 )

ライセンス: Link先を確認
Steven B. Damelin(参考訳) 本論文は著者らによる著作の紹介である。 代数微分幾何学、多様体の解析、複素調和解析、データ科学、偏微分方程式、最適化と確率など、いくつかの数学主題の交点にあるいくつかの数学問題の間の興味深い関係を詳述する。 この研究の大部分はcharles fefferman氏の論文[39, 40, 41, 42]における共同研究に基づいている。 この研究のトピックは (a)$\mathbb R^D,\, D\geq 2$ における有界平均振動(BMO)の写像の空間である。 (b)ある測度を持つ点集合と、$\mathbb R^D,\, D\geq 2$ の極小コンパクト集合に対して、ラベル付きおよびラベルなしの近傍アライメントとプロクリスト問題。 (c)ある種の幾何学を持つ点集合に対するホイットニー近傍等長距離拡大問題、および$\mathbb r^d,\,d\geq 2$ のコンパクト集合について。 (d)コンパクト集合と特定の幾何学を持つ点集合の分割とクラスタリング $\mathbb r^d,\,d\geq 2$ および $\mathbb r^d,\,d\geq 2$ のある多様体の解析。 将来の研究のための多くのオープンな問題が与えられている。

This paper is an exposition of work of the author et al. detailing fascinating connections between several mathematical problems which lie on the intersection of several mathematics subjects, namely algebraic-differential geometry, analysis on manifolds, complex-harmonic analysis, data science, partial differential equations, optimization and probability. A significant portion of the work is based on joint research with Charles Fefferman in the papers [39, 40, 41, 42]. The topics of this work include (a) The space of maps of bounded mean oscillation (BMO) in $\mathbb R^D,\, D\geq 2$. (b) The labeled and unlabeled near alignment and Procrustes problem for point sets with certain geometries and for not too thin compact sets both in $\mathbb R^D,\, D\geq 2$. (c) The Whitney near isometry extension problem for point sets with certain geometries and for not too thin compact sets both in $\mathbb R^D,\, D\geq 2$. (d) Partitions and clustering of compact sets and point sets with certain geometries in $\mathbb R^D,\, D\geq 2$ and analysis on certain manifolds in $\mathbb R^D,\, D\geq 2$. Many open problems for future research are given.
翻訳日:2021-03-18 13:01:01 公開日:2021-03-17
# 対話の歴史! 多ターン検索型チャットボットにおけるパーソナライズされた応答選択

Dialogue History Matters! Personalized Response Selectionin Multi-turn Retrieval-based Chatbots ( http://arxiv.org/abs/2103.09534v1 )

ライセンス: Link先を確認
Juntao Li, Chang Liu, Chongyang Tao, Zhangming Chan, Dongyan Zhao, Min Zhang, Rui Yan(参考訳) 既存のマルチターンコンテキスト応答マッチング手法は主に、マルチレベルおよびマルチディメンジョン表現の取得と、文脈発話と応答の相互作用の改善に重点を置いている。 しかし、実際の会話シナリオでは、応答候補が適切なかどうかは、与えられた対話コンテキストだけでなく、単語の習慣、ユーザ固有の対話履歴コンテンツなど、他の背景も考慮する。 これらの最新手法と実世界のアプリケーションとのギャップを埋めるために,ユーザ固有の対話履歴を応答選択に取り入れ,パーソナライズされたハイブリッドマッチングネットワーク(phmn)を提案する。 提案手法は,ユーザ固有の対話履歴からパーソナライズされた発話行動を余分なマッチング情報として抽出する。2)文脈応答発話に基づくハイブリッド表現学習を行い,文脈応答対話からバイタル情報を抽出するために,カスタマイズされた注意機構を明示的に取り入れ,マッチングの精度を向上させる。 ユーザ識別を伴う2つの大きなデータセット、すなわち、パーソナライズされたUbuntuダイアログコーパス(P-Ubuntu)とパーソナライズされたWeiboデータセット(P-Weibo)でモデルを評価する。 実験の結果, パーソナライズされた注意, ワーキング行動, ハイブリッド表現学習を組み合わせることにより, 本手法がいくつかの強モデルを大きく上回ることがわかった。

Existing multi-turn context-response matching methods mainly concentrate on obtaining multi-level and multi-dimension representations and better interactions between context utterances and response. However, in real-place conversation scenarios, whether a response candidate is suitable not only counts on the given dialogue context but also other backgrounds, e.g., wording habits, user-specific dialogue history content. To fill the gap between these up-to-date methods and the real-world applications, we incorporate user-specific dialogue history into the response selection and propose a personalized hybrid matching network (PHMN). Our contributions are two-fold: 1) our model extracts personalized wording behaviors from user-specific dialogue history as extra matching information; 2) we perform hybrid representation learning on context-response utterances and explicitly incorporate a customized attention mechanism to extract vital information from context-response interactions so as to improve the accuracy of matching. We evaluate our model on two large datasets with user identification, i.e., personalized Ubuntu dialogue Corpus (P-Ubuntu) and personalized Weibo dataset (P-Weibo). Experimental results confirm that our method significantly outperforms several strong models by combining personalized attention, wording behaviors, and hybrid representation learning.
翻訳日:2021-03-18 13:00:34 公開日:2021-03-17
# ボールの回収・攻撃予測モデルに基づくサッカーチームディフェンスの評価

Evaluation of soccer team defense based on prediction models of ball recovery and being attacked ( http://arxiv.org/abs/2103.09627v1 )

ライセンス: Link先を確認
Kosuke Toda, Masakiyo Teranishi, Keisuke Kushiro, Keisuke Fujii(参考訳) 計測技術の発展に伴い,各種スポーツにおける実技の動きに関するデータが利用可能となり,戦術・戦略の計画・評価に使用されることが期待される。 特に、チームスポーツにおける防御は、統計データが不足しているため、一般に評価が難しい。 スコアの予測に基づく従来の評価方法は信頼性が低く、ゲーム全体を通して稀な事象を予測しており、スコアに至る様々なプレーを評価することは困難である。 一方で、得点や支配的な地域につながる特定のプレーに基づく評価手法は、プレイヤーやチームのパフォーマンス(例えば得点)を評価するのに不適格な場合もある。 本研究では,すべての選手とボールの位置データを用いて,ゴールよりも頻繁に発生する球の回復と攻撃の予測に基づいて,チームパフォーマンスに関する包括的視点からチーム防御を評価する手法を提案する。 サッカー45試合のデータを用いて,実試合およびシーズンを通して,提案する指標とチームパフォーマンスの関係について検討した。 その結果、提案する分類器は、希少な事象(すなわち目標)に基づく既存の分類器よりも正確な真の事象を予測できることがわかった。 また,提案指標は季節の長期成績と適度な相関を示した。 これらの結果から,提案指標は偶発的要因を伴って勝敗よりも信頼性の高い指標である可能性が示唆された。

With the development of measurement technology, data on the movements of actual games in various sports are available and are expected to be used for planning and evaluating the tactics and strategy. In particular, defense in team sports is generally difficult to be evaluated because of the lack of statistical data. Conventional evaluation methods based on predictions of scores are considered unreliable and predict rare events throughout the entire game, and it is difficult to evaluate various plays leading up to a score. On the other hand, evaluation methods based on certain plays that lead to scoring and dominant regions are sometimes unsuitable to evaluate the performance (e.g., goals scored) of players and teams. In this study, we propose a method to evaluate team defense from a comprehensive perspective related to team performance based on the prediction of ball recovery and being attacked, which occur more frequently than goals, using player behavior and positional data of all players and the ball. Using data from 45 soccer matches, we examined the relationship between the proposed index and team performance in actual matches and throughout a season. Results show that the proposed classifiers more accurately predicted the true events than the existing classifiers which were based on rare events (i.e., goals). Also, the proposed index had a moderate correlation with the long-term outcomes of the season. These results suggest that the proposed index might be a more reliable indicator rather than winning or losing with the inclusion of accidental factors.
翻訳日:2021-03-18 13:00:08 公開日:2021-03-17
# 眼画像分割のための半教師付き学習

Semi-Supervised Learning for Eye Image Segmentation ( http://arxiv.org/abs/2103.09369v1 )

ライセンス: Link先を確認
Aayush K. Chaudhary, Prashnna K. Gyawali, Linwei Wang, Jeff B. Pelz(参考訳) 近年の外観モデルによる視線追跡性能の向上は、眼炎、まぶた、カメラ装着による閉塞、角膜や眼鏡の環境反射などによる難易度が向上している。 改善の鍵となる理由は、目の部分(毛虫、虹彩、硬化領域)の正確で堅牢な識別である。 精度の向上は、複雑で時間がかかる巨大なデータセットをラベル付けするコストがかかることが少なくありません。 本研究は,ラベル付きデータセットが不足している未ラベル画像を活用することにより,アイパートを識別するための,半教師付き学習フレームワークを2つ提示する。 これらのフレームワークでは、領域固有の拡張と空間的変化の新たな変換を活用し、様々なテストケースの性能向上を示す。 例えば、48のラベル付きイメージでトレーニングされたモデルでは、これらのフレームワークはベースラインモデルよりも0.38%と0.65%のセグメンテーション性能の向上を達成した。

Recent advances in appearance-based models have shown improved eye tracking performance in difficult scenarios like occlusion due to eyelashes, eyelids or camera placement, and environmental reflections on the cornea and glasses. The key reason for the improvement is the accurate and robust identification of eye parts (pupil, iris, and sclera regions). The improved accuracy often comes at the cost of labeling an enormous dataset, which is complex and time-consuming. This work presents two semi-supervised learning frameworks to identify eye-parts by taking advantage of unlabeled images where labeled datasets are scarce. With these frameworks, leveraging the domain-specific augmentation and novel spatially varying transformations for image segmentation, we show improved performance on various test cases. For instance, for a model trained on just 48 labeled images, these frameworks achieved an improvement of 0.38% and 0.65% in segmentation performance over the baseline model, which is trained only with the labeled dataset.
翻訳日:2021-03-18 12:59:47 公開日:2021-03-17
# ハイパースペクトル画像分類のためのトリプレット流域

Triplet-Watershed for Hyperspectral Image Classification ( http://arxiv.org/abs/2103.09384v1 )

ライセンス: Link先を確認
Aditya Challa, Sravan Danda, B.S.Daya Sagar and Laurent Najman(参考訳) ハイパースペクトル画像(HSI)は、様々な用途に使用可能な、豊富な空間情報とスペクトル情報から構成される。 しかし、ノイズ、バンド相関、高次元はそのようなデータの適用性を制限する。 これはresnet、ssrn、a2s2kといったクリエイティブなディープラーニングネットワークアーキテクチャを使って最近対処されている。 しかし、最後の層、すなわち分類層は変わらず、softmax分類器として扱われる。 本稿では,流域分類器の利用を提案する。 流域分類器は、分類のために流域演算子を数学的形態学から拡張する。 バニラ形式では、流域分類器は訓練可能なパラメータを持たない。 本稿では,流域分類器に適した表現を得るために,深層学習ネットワークを訓練するための新しい手法を提案する。 流域分類器は、より良い推論のために、HSIデータセットの特徴である接続パターンを利用する。 このような特徴を生かして,三重項流域が最先端の成果を得られることを示す。 これらの結果は、従来の最先端ネットワークに比べて4分の1のパラメータを用いた単純なネットワークアーキテクチャに頼って、Indianpines(IP)、University of Pavia(UP)、ケネディ宇宙センター(KSC)のデータセットで検証される。

Hyperspectral images (HSI) consist of rich spatial and spectral information, which can potentially be used for several applications. However, noise, band correlations and high dimensionality restrict the applicability of such data. This is recently addressed using creative deep learning network architectures such as ResNet, SSRN, and A2S2K. However, the last layer, i.e the classification layer, remains unchanged and is taken to be the softmax classifier. In this article, we propose to use a watershed classifier. Watershed classifier extends the watershed operator from Mathematical Morphology for classification. In its vanilla form, the watershed classifier does not have any trainable parameters. In this article, we propose a novel approach to train deep learning networks to obtain representations suitable for the watershed classifier. The watershed classifier exploits the connectivity patterns, a characteristic of HSI datasets, for better inference. We show that exploiting such characteristics allows the Triplet-Watershed to achieve state-of-art results. These results are validated on Indianpines (IP), University of Pavia (UP), and Kennedy Space Center (KSC) datasets, relying on simple convnet architecture using a quarter of parameters compared to previous state-of-the-art networks.
翻訳日:2021-03-18 12:59:28 公開日:2021-03-17
# YOLOStereo3D:効率的なステレオ3D検出のためのステップバック2D

YOLOStereo3D: A Step Back to 2D for Efficient Stereo 3D Detection ( http://arxiv.org/abs/2103.09422v1 )

ライセンス: Link先を確認
Yuxuan Liu, Lujia Wang, Ming Liu(参考訳) ステレオカメラを用いた3D物体検出はコンピュータビジョンにおいて重要な問題であり、LiDARのない低コストの自律移動ロボットでは特に重要である。 今日では、ステレオ3次元物体検出のための最高の性能のフレームワークのほとんどは、差分推定による深度再構成に基づいており、計算コストが非常に高い。 両眼画像による視覚検出の現実的な展開を可能にするため、2次元画像に基づく検出フレームワークから洞察を得て、ステレオ機能でそれらを強化する。 実時間1段2D/3Dオブジェクト検出器の知識と推論構造を取り入れ,軽量ステレオマッチングモジュールを導入する。 提案するフレームワークであるYOLOStereo3Dは,単一のGPU上で10fps以上で動作する。 LiDARデータを使わずに、最先端のステレオ3D検出フレームワークに匹敵するパフォーマンスを示す。 コードはhttps://github.com/Owen-Liuyuxuan/visualDet3Dで公開される。

Object detection in 3D with stereo cameras is an important problem in computer vision, and is particularly crucial in low-cost autonomous mobile robots without LiDARs. Nowadays, most of the best-performing frameworks for stereo 3D object detection are based on dense depth reconstruction from disparity estimation, making them extremely computationally expensive. To enable real-world deployments of vision detection with binocular images, we take a step back to gain insights from 2D image-based detection frameworks and enhance them with stereo features. We incorporate knowledge and the inference structure from real-time one-stage 2D/3D object detector and introduce a light-weight stereo matching module. Our proposed framework, YOLOStereo3D, is trained on one single GPU and runs at more than ten fps. It demonstrates performance comparable to state-of-the-art stereo 3D detection frameworks without usage of LiDAR data. The code will be published in https://github.com/Owen-Liuyuxuan/visualDet3D.
翻訳日:2021-03-18 12:59:09 公開日:2021-03-17
# 動的時間ワープによる識別的プロトタイプの学習

Learning Discriminative Prototypes with Dynamic Time Warping ( http://arxiv.org/abs/2103.09458v1 )

ライセンス: Link先を確認
Xiaobin Chang, Frederick Tung, Greg Mori(参考訳) Dynamic Time Warping (DTW) は時間データ処理に広く使われている。 しかし、既存の手法では、異なるクラスの識別プロトタイプを学習することも、そのようなプロトタイプをさらなる分析に利用することもできない。 時間的認識タスクのためのクラス固有の識別プロトタイプを学習する新しい手法であるDP-DTWを提案する。 DP-DTWは時系列分類ベンチマークにおいて従来のDTWよりも優れた性能を示す。 エンドツーエンドのディープラーニングと組み合わせることで、DP-DTWは、弱い教師付きアクションセグメンテーション問題に対処し、標準ベンチマークで技術結果の状態を達成できる。 さらに、学習したアクションプロトタイプによって、入力ビデオの詳細な推論が可能となる。 具体的には、入力シーケンスをアクションプロトタイプと整合させることにより、アクションベースのビデオ要約を得ることができる。

Dynamic Time Warping (DTW) is widely used for temporal data processing. However, existing methods can neither learn the discriminative prototypes of different classes nor exploit such prototypes for further analysis. We propose Discriminative Prototype DTW (DP-DTW), a novel method to learn class-specific discriminative prototypes for temporal recognition tasks. DP-DTW shows superior performance compared to conventional DTWs on time series classification benchmarks. Combined with end-to-end deep learning, DP-DTW can handle challenging weakly supervised action segmentation problems and achieves state of the art results on standard benchmarks. Moreover, detailed reasoning on the input video is enabled by the learned action prototypes. Specifically, an action-based video summarization can be obtained by aligning the input sequence with action prototypes.
翻訳日:2021-03-18 12:58:53 公開日:2021-03-17
# ワンレベル機能しか見えません

You Only Look One-level Feature ( http://arxiv.org/abs/2103.09460v1 )

ライセンス: Link先を確認
Qiang Chen, Yingming Wang, Tong Yang, Xiangyu Zhang, Jian Cheng, Jian Sun(参考訳) 本稿では,一段階検出器の特徴ピラミッドネットワーク(fpn)を再検討し,fpnの成功は,マルチスケール特徴融合ではなく,オブジェクト検出における最適化問題に対する分割・解法によるものであることを指摘する。 最適化の観点からは、複雑な特徴ピラミッドを採用する代わりに、この問題に対処する別の方法を導入する。 シンプルで効率的なソリューションに基づいて、You Only Look One-level Feature (YOLOF)を提示する。 本手法では,Dilated EncoderとUniform Matchingの2つの重要なコンポーネントを提案し,大幅な改良を加えた。 COCOベンチマークの大規模な実験により,提案モデルの有効性が証明された。 私たちのYOLOFは、RetinaNetに匹敵する機能ピラミッドで同等の結果を得ています。 トランスフォーマー層がなければ、YOLOFはDETRのパフォーマンスをシングルレベルな機能として、より少ないトレーニングエポックで7\times$で一致させることができる。 画像サイズは608\times608$で、2080Tiの60fpsで44.3mAP、YOLOv4より13.%速い。 コードは \url{https://github.com/megvii-model/YOLOF} で入手できる。

This paper revisits feature pyramids networks (FPN) for one-stage detectors and points out that the success of FPN is due to its divide-and-conquer solution to the optimization problem in object detection rather than multi-scale feature fusion. From the perspective of optimization, we introduce an alternative way to address the problem instead of adopting the complex feature pyramids - {\em utilizing only one-level feature for detection}. Based on the simple and efficient solution, we present You Only Look One-level Feature (YOLOF). In our method, two key components, Dilated Encoder and Uniform Matching, are proposed and bring considerable improvements. Extensive experiments on the COCO benchmark prove the effectiveness of the proposed model. Our YOLOF achieves comparable results with its feature pyramids counterpart RetinaNet while being $2.5\times$ faster. Without transformer layers, YOLOF can match the performance of DETR in a single-level feature manner with $7\times$ less training epochs. With an image size of $608\times608$, YOLOF achieves 44.3 mAP running at 60 fps on 2080Ti, which is $13\%$ faster than YOLOv4. Code is available at \url{https://github.com/megvii-model/YOLOF}.
翻訳日:2021-03-18 12:58:41 公開日:2021-03-17
# クラウドカウントのためのマルチチャネル深層監視

Multi-channel Deep Supervision for Crowd Counting ( http://arxiv.org/abs/2103.09553v1 )

ライセンス: Link先を確認
Bo Wei, Mulin Chen, Qi Wang, Xuelong Li(参考訳) 群衆カウントは、公共の安全やビデオ監視といった幅広い用途のために、現代社会で探索する価値のあるタスクである。 多くのCNNベースのアプローチが見積もりの精度を改善するために提案されているが、プール層によるオーバーフィットや詳細の喪失など、パフォーマンスに固有の問題がいくつかある。 本稿では,MDS(Multi-channel Deep Supervision)と呼ばれる新しい監視フレームワークを導入するMDSNetというネットワークを提案する。 MDSは、密度マップの生成を支援するために、推定モデルのデコーダをチャネル的に監視する。 異なるチャネルの正確な監視情報を得るために、MDSNetはSupervisionNet(SN)と呼ばれる補助ネットワークを使用して、既存の基盤に基づいて豊富な監視マップを生成する。 従来の密度マップの監視に加えて、SNを使用してドットアノテーションを連続的な監視情報に変換し、MDSNetでドット監視を行う。 いくつかの主要なベンチマークにおいて、提案したMDSNetは競合する結果となり、MDSNetはネットワーク構造を変えることなく性能を著しく向上することを示した。

Crowd counting is a task worth exploring in modern society because of its wide applications such as public safety and video monitoring. Many CNN-based approaches have been proposed to improve the accuracy of estimation, but there are some inherent issues affect the performance, such as overfitting and details lost caused by pooling layers. To tackle these problems, in this paper, we propose an effective network called MDSNet, which introduces a novel supervision framework called Multi-channel Deep Supervision (MDS). The MDS conducts channel-wise supervision on the decoder of the estimation model to help generate the density maps. To obtain the accurate supervision information of different channels, the MDSNet employs an auxiliary network called SupervisionNet (SN) to generate abundant supervision maps based on existing groundtruth. Besides the traditional density map supervision, we also use the SN to convert the dot annotations into continuous supervision information and conduct dot supervision in the MDSNet. Extensive experiments on several mainstream benchmarks show that the proposed MDSNet achieves competitive results and the MDS significantly improves the performance without changing the network structure.
翻訳日:2021-03-18 12:58:22 公開日:2021-03-17
# 大規模バイオメディカルデータのための階層的ランダムウォーカーセグメンテーション

Hierarchical Random Walker Segmentation for Large Volumetric Biomedical Data ( http://arxiv.org/abs/2103.09564v1 )

ライセンス: Link先を確認
Dominik Drees and Xiaoyi Jiang(参考訳) 画像セグメンテーションのためのランダムウォーカー法は、特に生体領域における半自動画像セグメンテーションの一般的なツールである。 しかし、その線形漸近的な実行時間とメモリ要件は、サイズが大きくなる3Dデータセットに適用することができない。 我々は、ランダムウォーカーアルゴリズムの制約を克服する最初の試みであり、サブリニア実行時間と一定のメモリ複雑性を達成するための階層的フレームワークを提案する。 本手法は, それぞれ高いセグメンテーション品質を定量的に確認し, 視覚的に観察する, 現生医学研究の合成データと実データに基づいて評価する。 インクリメンタルな(インタラクション更新)実行時間は、数百ギガバイトサイズのボリュームであっても、標準のPC上で秒単位であることが示されている。 提案手法の実装は、広く使われているボリュームレンダリングおよび処理ソフトウェアvoreen(https://www.uni-muenster.de/voreen/)のバージョン5.2で公開されている。

The random walker method for image segmentation is a popular tool for semi-automatic image segmentation, especially in the biomedical field. However, its linear asymptotic run time and memory requirements make application to 3D datasets of increasing sizes impractical. We propose a hierarchical framework that, to the best of our knowledge, is the first attempt to overcome these restrictions for the random walker algorithm and achieves sublinear run time and constant memory complexity. The method is evaluated on synthetic data and real data from current biomedical research, where high segmentation quality is quantitatively confirmed and visually observed, respectively. The incremental (i.e., interaction update) run time is demonstrated to be in seconds on a standard PC even for volumes of hundreds of Gigabytes in size. An implementation of the presented method is publicly available in version 5.2 of the widely used volume rendering and processing software Voreen (https://www.uni-muenster.de/Voreen/).
翻訳日:2021-03-18 12:58:05 公開日:2021-03-17
# リッチで多様なテキスト記述による大規模ゼロショット画像分類

Large-Scale Zero-Shot Image Classification from Rich and Diverse Textual Descriptions ( http://arxiv.org/abs/2103.09669v1 )

ライセンス: Link先を確認
Sebastian Bujwid, Josephine Sullivan(参考訳) ゼロショット学習(ZSL)のための授業のリッチで多様なテキスト記述がImageNetに与える影響について検討する。 我々は、imagenetクラスと対応するwikipediaの記事にマッチする新しいデータセットimagenet-wikiを作成する。 これらの項目をクラス記述として活用するだけで,従来よりもZSLの性能が向上することを示す。 この種の補助データを使用する単純なモデルでさえ、クラス名のワードエンベッドエンコーディングの標準的な特徴に依存する最先端モデルよりも優れている。 これらの結果は、ZSLにおけるテキスト記述の有用性と重要性、およびアルゴリズムの進歩と比較して補助データ型の重要性を強調した。 また, 標準ゼロショット学習手法は, クラスにまたがって, 汎用性に乏しいことを示した。

We study the impact of using rich and diverse textual descriptions of classes for zero-shot learning (ZSL) on ImageNet. We create a new dataset ImageNet-Wiki that matches each ImageNet class to its corresponding Wikipedia article. We show that merely employing these Wikipedia articles as class descriptions yields much higher ZSL performance than prior works. Even a simple model using this type of auxiliary data outperforms state-of-the-art models that rely on standard features of word embedding encodings of class names. These results highlight the usefulness and importance of textual descriptions for ZSL, as well as the relative importance of auxiliary data type compared to algorithmic progress. Our experimental results also show that standard zero-shot learning approaches generalize poorly across categories of classes.
翻訳日:2021-03-18 12:57:48 公開日:2021-03-17
# HAMIL:顕微鏡画像分類のための階層的集約に基づくマルチインスタンス学習

HAMIL: Hierarchical Aggregation-Based Multi-Instance Learning for Microscopy Image Classification ( http://arxiv.org/abs/2103.09764v1 )

ライセンス: Link先を確認
Yanlun Tu, Houchao Lei, Wei Long, Yang Yang(参考訳) マルチインスタンス学習はコンピュータビジョンタスク、特にバイオメディカル画像処理において一般的である。 従来のマルチインスタンス学習手法は,特徴抽出と学習フェーズのいずれにおいてもアグリゲーション操作を行うマルチインスタンス分類器の設計に重点を置いている。 ディープニューラルネットワーク(DNN)は、自動特徴学習による画像処理において大きな成功を収めているため、特定の特徴集約メカニズムを、マルチインスタンス学習のための共通DNNアーキテクチャに組み込む必要がある。 さらに、さまざまな品質とインスタンス数を扱うためには、柔軟性と信頼性が重要です。 本研究では,マルチインスタンス学習のための階層型アグリゲーションネットワークhamilを提案する。 階層的なアグリゲーションプロトコルは、定義された順序で機能融合を可能にし、単純な畳み込みアグリゲーションユニットは効率的で柔軟なアーキテクチャをもたらす。 免疫蛍光画像を用いたタンパク質細胞内局在と空間遺伝子発現画像を用いた遺伝子アノテーションの2つの顕微鏡画像分類タスクにおけるモデル性能を評価する。 実験の結果,hamilは最先端の機能集約手法と,これら2つのタスクに対応する既存モデルよりも優れていた。 可視化分析は、ハイクオリティなインスタンスにフォーカスできるhamilの能力も示している。

Multi-instance learning is common for computer vision tasks, especially in biomedical image processing. Traditional methods for multi-instance learning focus on designing feature aggregation methods and multi-instance classifiers, where the aggregation operation is performed either in feature extraction or learning phase. As deep neural networks (DNNs) achieve great success in image processing via automatic feature learning, certain feature aggregation mechanisms need to be incorporated into common DNN architecture for multi-instance learning. Moreover, flexibility and reliability are crucial considerations to deal with varying quality and number of instances. In this study, we propose a hierarchical aggregation network for multi-instance learning, called HAMIL. The hierarchical aggregation protocol enables feature fusion in a defined order, and the simple convolutional aggregation units lead to an efficient and flexible architecture. We assess the model performance on two microscopy image classification tasks, namely protein subcellular localization using immunofluorescence images and gene annotation using spatial gene expression images. The experimental results show that HAMIL outperforms the state-of-the-art feature aggregation methods and the existing models for addressing these two tasks. The visualization analyses also demonstrate the ability of HAMIL to focus on high-quality instances.
翻訳日:2021-03-18 12:57:34 公開日:2021-03-17
# ALADIN: きめ細かいスタイルの類似性のための全層適応インスタンス正規化

ALADIN: All Layer Adaptive Instance Normalization for Fine-grained Style Similarity ( http://arxiv.org/abs/2103.09776v1 )

ライセンス: Link先を確認
Dan Ruta, Saeid Motiian, Baldo Faieta, Zhe Lin, Hailin Jin, Alex Filipkowski, Andrew Gilbert, John Collomosse(参考訳) 本稿では,ALADIN(All Layer AdaIN)について紹介する。 表現学習は視覚検索において重要であり、学習された検索埋め込み内の距離は画像の類似性を反映している。 スタイルにおける細かなバリエーションを識別する埋め込みの学習は、スタイルの定義とラベリングが難しいため難しい。 ALADINは、Webから収集されたユーザ生成コンテンツグループの新しい大規模データセットであるBAM-FGを利用して、デジタルアートワークのきめ細かいスタイルの類似性を表現するために、弱い教師付きアプローチを採用している。 ALADINは、粗いラベル付きスタイルデータ(BAM)とBAM-FGの両方に対するスタイルベースのビジュアルサーチのための、新しい芸術的精度を設定している。

We present ALADIN (All Layer AdaIN); a novel architecture for searching images based on the similarity of their artistic style. Representation learning is critical to visual search, where distance in the learned search embedding reflects image similarity. Learning an embedding that discriminates fine-grained variations in style is hard, due to the difficulty of defining and labelling style. ALADIN takes a weakly supervised approach to learning a representation for fine-grained style similarity of digital artworks, leveraging BAM-FG, a novel large-scale dataset of user generated content groupings gathered from the web. ALADIN sets a new state of the art accuracy for style-based visual search over both coarse labelled style data (BAM) and BAM-FG; a new 2.62 million image dataset of 310,000 fine-grained style groupings also contributed by this work.
翻訳日:2021-03-18 12:57:16 公開日:2021-03-17
# マルチスケールグラフ相関を用いた効率よいベイズ最適化

Efficient Bayesian Optimization using Multiscale Graph Correlation ( http://arxiv.org/abs/2103.09434v1 )

ライセンス: Link先を確認
Takuya Kanazawa(参考訳) ベイズ最適化はブラックボックス関数を最適化するための強力なツールである。 本稿では,大域的最大値に対する多スケールグラフ相関を最大化し,次の問合せ点を決定するgp-mgcと呼ばれるベイズ最適化の新しい手法を提案する。 本稿では,合成ベンチマーク関数と実世界のデータセットの両方を含むアプリケーションにおけるgp-mgcの評価を行い,最大値エントロピー探索やgp-ucbのような最先端手法よりもgp-mgcが優れていることを示す。

Bayesian optimization is a powerful tool to optimize a black-box function, the evaluation of which is time-consuming or costly. In this paper, we propose a new approach to Bayesian optimization called GP-MGC, which maximizes multiscale graph correlation with respect to the global maximum to determine the next query point. We present our evaluation of GP-MGC in applications involving both synthetic benchmark functions and real-world datasets and demonstrate that GP-MGC performs as well as or even better than state-of-the-art methods such as max-value entropy search and GP-UCB.
翻訳日:2021-03-18 12:56:35 公開日:2021-03-17
# 日常実験データを用いた老化率のモデル化 : 死亡率と医療費への影響

Modeling differential rates of aging using routine laboratory data; Implications for morbidity and health care expenditure ( http://arxiv.org/abs/2103.09574v1 )

ライセンス: Link先を確認
Alix Jean Santos and Xavier Eugenio Asuncion and Camille Rivero-Co and Maria Eloisa Ventura and Reynaldo Geronia II and Lauren Bangerter and Natalie E. Sheils(参考訳) 加齢は、表現型が様々な速度で変化する多次元過程である。 老化に関する縦断的研究は通常、数年にわたって個人のコホートに従う。 この設計は、コスト、誘引、そしてその後小さなサンプルサイズによって妨げられる。 それゆえ、代替手段が保証される。 本研究は,2016年から2019年にかけて収集された14万個体を対象とした臨床実験から,横断的データから老化率を推定するために,変分オートエンコーダを用いた。 1) 腎, 2) 甲状腺, 3) 白血球, 4) 肝臓と心臓の身体機能を表す4つの老化次元を同定した。 次に,高齢化率と医療費の関係について検討した。 一般に、これらの次元に沿ったより速いアガーは、これらの身体機能に関連する慢性疾患を発症する可能性が高い。 彼らはまた、より遅いアガーよりも高い医療費を持っていた。 高齢化率に基づくK平均クラスタリングの結果, 死亡率の高いクラスターは, あらゆる種類の医療サービスにおいて最もコストが高かった。 その結果,異なる次元の年齢を理解する方法として,断面実験データを活用できることが示唆された。 さらに、老化率は将来のコストと差があり、病気の進行を遅らせるための介入の開発に役立てることができる。

Aging is a multidimensional process where phenotypes change at varying rates. Longitudinal studies of aging typically involve following a cohort of individuals over the course of several years. This design is hindered by cost, attrition, and subsequently small sample size. Alternative methodologies are therefore warranted. In this study, we used a variational autoencoder to estimate rates of aging from cross-sectional data from routine laboratory tests of 1.4 million individuals collected from 2016 to 2019. By incorporating metrics that would ensure model's stability and distinctness of the dimensions, we uncovered four aging dimensions that represent the following bodily functions: 1) kidney, 2) thyroid, 3) white blood cells, and 4) liver and heart. We then examined the relationship between rates of aging on morbidity and health care expenditure. In general, faster agers along these dimensions are more likely to develop chronic diseases that are related to these bodily functions. They also had higher health care expenditures compared to the slower agers. K-means clustering of individuals based on rate of aging revealed that clusters with higher odds of developing morbidity had the highest cost across all types of health care services. Results suggest that cross-sectional laboratory data can be leveraged as an alternative methodology to understand age along the different dimensions. Moreover, rates of aging are differentially related to future costs, which can aid in the development of interventions to delay disease progression.
翻訳日:2021-03-18 12:56:23 公開日:2021-03-17
# グラフ自己補正による多段階グラフ学習

Diversified Multiscale Graph Learning with Graph Self-Correction ( http://arxiv.org/abs/2103.09754v1 )

ライセンス: Link先を確認
Yuzhao Chen, Yatao Bian, Jiying Zhang, Xi Xiao, Tingyang Xu, Yu Rong, Junzhou Huang(参考訳) マルチスケールグラフ学習技術によって高度な特徴抽出フレームワークが実現されているが、従来のアンサンブル戦略は、既存のグラフプーリング法の性質によって引き起こされる学習表現の高均一性に遭遇しながら、性能が劣る可能性がある。 そこで本研究では,2つのコア成分からなる多元的多元的グラフ学習モデルを提案する。グラフ自己修正(gsc)機構により有意な埋め込みグラフを生成し,dbr(diversity boosting regularizer)により,入力グラフの包括的特徴付けを実現する。 提案したGSC機構は,グラフプーリング手法のプラグインコンポーネントとして機能する推定残差グラフを返送することにより,グラフプーリングプロセス中に失った情報をプールされたグラフに補償する。 一方,gsc法で強化されたプーリング手法は,ノード埋め込みのばらつきを助長するので,アンサンブル学習戦略の成功に寄与する。 提案するdbrは、個々の分類器間の相互作用を利用して、グラフレベルの埋め込みにおけるアンサンブルの多様性を高める。 グラフ分類ベンチマークの大規模な実験により、提案したGSC機構は、最先端のグラフプーリング法よりも大幅に改善されていることが示されている。 さらに,GSCとDBRを組み合わせることで,アンサンブルマルチスケールグラフ学習モデルの性能向上を実現している。

Though the multiscale graph learning techniques have enabled advanced feature extraction frameworks, the classic ensemble strategy may show inferior performance while encountering the high homogeneity of the learnt representation, which is caused by the nature of existing graph pooling methods. To cope with this issue, we propose a diversified multiscale graph learning model equipped with two core ingredients: a graph self-correction (GSC) mechanism to generate informative embedded graphs, and a diversity boosting regularizer (DBR) to achieve a comprehensive characterization of the input graph. The proposed GSC mechanism compensates the pooled graph with the lost information during the graph pooling process by feeding back the estimated residual graph, which serves as a plug-in component for popular graph pooling methods. Meanwhile, pooling methods enhanced with the GSC procedure encourage the discrepancy of node embeddings, and thus it contributes to the success of ensemble learning strategy. The proposed DBR instead enhances the ensemble diversity at the graph-level embeddings by leveraging the interaction among individual classifiers. Extensive experiments on popular graph classification benchmarks show that the proposed GSC mechanism leads to significant improvements over state-of-the-art graph pooling methods. Moreover, the ensemble multiscale graph learning models achieve superior enhancement by combining both GSC and DBR.
翻訳日:2021-03-18 12:56:02 公開日:2021-03-17
# TeachMyAgent:Deep RLにおけるカリキュラム自動学習ベンチマーク

TeachMyAgent: a Benchmark for Automatic Curriculum Learning in Deep RL ( http://arxiv.org/abs/2103.09815v1 )

ライセンス: Link先を確認
Cl\'ement Romac, R\'emy Portelas, Katja Hofmann, Pierre-Yves Oudeyer(参考訳) 複数のタスクに一般化できる自律エージェントの訓練は、Deep Reinforcement Learning (DRL)研究の重要なターゲットである。 DRLアルゴリズム自体の改善と並行して、ACL(Automatic Curriculum Learning)は、進化する能力にタスク選択を適用することで、教師アルゴリズムがDRLエージェントをより効率的に訓練する方法を研究する。 DRLエージェントを比較するために複数の標準ベンチマークが存在するが、現在ACLアルゴリズムにはそのようなものはない。 したがって, 実験パラメータが紙ごとに多すぎるため, 既存手法との比較は困難である。 本研究では,ACLアルゴリズムが直面するいくつかの重要な課題を明らかにする。 これらに基づき、手続き的タスク生成を利用した現在のACLアルゴリズムのベンチマークであるTeachMyAgent(TA)を提案する。 本研究は,1) 手続き型Box2D二足歩行環境の変種を用いた課題固有の単体テスト,2) ACLの課題と組み合わせた新しい手続き型Parkour環境を含む。 次に、TeachMyAgentを用いて既存の代表的なアプローチの比較研究を行い、専門家の知識を使わないいくつかのACLアルゴリズムの競争力を示す。 また、Parkour環境は依然としてオープンな問題であることを示す。 ACLアルゴリズム(オープンソースコードからコンパイルされたり、再実装された)とDRLの学生がPythonパッケージをhttps://github.com/flowersteam/TeachMyAgent.comで公開しています。

Training autonomous agents able to generalize to multiple tasks is a key target of Deep Reinforcement Learning (DRL) research. In parallel to improving DRL algorithms themselves, Automatic Curriculum Learning (ACL) study how teacher algorithms can train DRL agents more efficiently by adapting task selection to their evolving abilities. While multiple standard benchmarks exist to compare DRL agents, there is currently no such thing for ACL algorithms. Thus, comparing existing approaches is difficult, as too many experimental parameters differ from paper to paper. In this work, we identify several key challenges faced by ACL algorithms. Based on these, we present TeachMyAgent (TA), a benchmark of current ACL algorithms leveraging procedural task generation. It includes 1) challenge-specific unit-tests using variants of a procedural Box2D bipedal walker environment, and 2) a new procedural Parkour environment combining most ACL challenges, making it ideal for global performance assessment. We then use TeachMyAgent to conduct a comparative study of representative existing approaches, showcasing the competitiveness of some ACL algorithms that do not use expert knowledge. We also show that the Parkour environment remains an open problem. We open-source our environments, all studied ACL algorithms (collected from open-source code or re-implemented), and DRL students in a Python package available at https://github.com/flowersteam/TeachMyAgent.
翻訳日:2021-03-18 12:55:39 公開日:2021-03-17
# コンフォーマル化生存分析

Conformalized Survival Analysis ( http://arxiv.org/abs/2103.09763v1 )

ライセンス: Link先を確認
Emmanuel J. Cand\`es, Lihua Lei and Zhimei Ren(参考訳) 既存の生存分析技術は強いモデリング仮定に大きく依存しており、したがって誤特定の誤りをモデル化する傾向がある。 本稿では,共形予測のアイデアに基づく推論手法を開発し,生存時間に基づくキャリブレーションされた共変量依存の低次予測境界を生成するために,任意の生存予測アルゴリズムをラップすることができる。 タイプiの右検閲設定では、検閲時間が完全に外因的である場合、低い予測範囲は、独立かつ同一に分散されたデータポイントで操作すること以外の仮定なしに、有限サンプルのカバレッジを保証する。 より一般的な条件に依存しない検閲仮定の下で、境界は以下の2つの頑健な性質を満たす: 限界被覆は、検閲機構または条件生存関数が適切に推定された場合にほぼ保証される。 さらに,より低い予測範囲が他のタイプの検閲においても有効かつ有益であることを実証する。 本手法の有効性と有効性は,英国バイオバンクの合成データと実際のCOVID-19データに基づいて実証した。

Existing survival analysis techniques heavily rely on strong modelling assumptions and are, therefore, prone to model misspecification errors. In this paper, we develop an inferential method based on ideas from conformal prediction, which can wrap around any survival prediction algorithm to produce calibrated, covariate-dependent lower predictive bounds on survival times. In the Type I right-censoring setting, when the censoring times are completely exogenous, the lower predictive bounds have guaranteed coverage in finite samples without any assumptions other than that of operating on independent and identically distributed data points. Under a more general conditionally independent censoring assumption, the bounds satisfy a doubly robust property which states the following: marginal coverage is approximately guaranteed if either the censoring mechanism or the conditional survival function is estimated well. Further, we demonstrate that the lower predictive bounds remain valid and informative for other types of censoring. The validity and efficiency of our procedure are demonstrated on synthetic data and real COVID-19 data from the UK Biobank.
翻訳日:2021-03-18 12:54:52 公開日:2021-03-17
# 画像検索のためのセンター類似性学習によるディープクラスワイズハッシュの改善

Improved Deep Classwise Hashing With Centers Similarity Learning for Image Retrieval ( http://arxiv.org/abs/2103.09442v1 )

ライセンス: Link先を確認
Ming Zhang, Hong Yan(参考訳) 画像検索のための深い教師付きハッシュは、高い効率と優れた検索性能のために研究者の注意を引き付けている。 既存の深い教師付きハッシュ処理のほとんどは、ペアワイズ/トリップレットラベルに基づいており、高価な計算コストとセマンティクス情報の不十分な利用に苦しむ。 最近、ディープクラスワイズハッシュはクラスラベル情報によって監視されるクラスワイズ損失を導入したが、それでもその欠点があることがわかった。 そこで本稿では,ハッシュ学習とクラスセンター学習を同時に行うことができる,深層ハッシュの改良手法を提案する。 具体的には,センター類似性学習のための2段階の戦略を設計する。 クラス内の損失と相互作用してクラスセンターを引き寄せ、クラス内のサンプルに集中し、他のクラスセンターを可能な限りプッシュする。 センター類似性学習は、よりコンパクトで識別的なハッシュコードを生成するのに寄与する。 3つのベンチマークデータセットで実験を行う。 提案手法は, 画像検索のための様々な評価基準において, 元の手法を効果的に超越し, 最先端のベースラインを上回っていることを示す。

Deep supervised hashing for image retrieval has attracted researchers' attention due to its high efficiency and superior retrieval performance. Most existing deep supervised hashing works, which are based on pairwise/triplet labels, suffer from the expensive computational cost and insufficient utilization of the semantics information. Recently, deep classwise hashing introduced a classwise loss supervised by class labels information alternatively; however, we find it still has its drawback. In this paper, we propose an improved deep classwise hashing, which enables hashing learning and class centers learning simultaneously. Specifically, we design a two-step strategy on center similarity learning. It interacts with the classwise loss to attract the class center to concentrate on the intra-class samples while pushing other class centers as far as possible. The centers similarity learning contributes to generating more compact and discriminative hashing codes. We conduct experiments on three benchmark datasets. It shows that the proposed method effectively surpasses the original method and outperforms state-of-the-art baselines under various commonly-used evaluation metrics for image retrieval.
翻訳日:2021-03-18 12:54:12 公開日:2021-03-17
# ビデオストリーミングにおけるフレーム超解像予測

Prediction-assistant Frame Super-Resolution for Video Streaming ( http://arxiv.org/abs/2103.09455v1 )

ライセンス: Link先を確認
Wang Shen, Wenbo Bao, Guangtao Zhai, Charlie L Wang, Jerry W Hu, Zhiyong Gao(参考訳) オンラインビデオゲームやライブショーなどのリアルタイムアプリケーションでは、ビデオフレームの伝送遅延が重要である。 新しいフレームの受信期限は、フレームのレンダリング時間に追いつく必要があります。 そうでなければ、システムはしばらくバッファリングし、ユーザは凍ったスクリーンに遭遇し、満足のいくユーザー体験をもたらす。 効果的なアプローチは、スケーラブルなビデオ符号化など、低品質の帯域幅条件下でフレームを送信することである。 本稿では,2つの状況における損失フレームを用いた画質向上を提案する。 まず、現在のフレームがレンダリング期限に間に合わない場合(つまり、紛失)、前回受信した高解像度画像を使用して将来のフレームを予測することを提案する。 第2に、現在受信しているフレームの品質が−(すなわち損失)である場合、以前受信した高解像度フレームを使用して、低品質のフレームを強化することを提案する。 最初のケースでは、小さいが効果的なビデオフレーム予測ネットワークを提案する。 第2のケースでは、映像予測ネットワークを映像エンハンスメントネットワークに改良し、現在のフレームと以前のフレームを関連付け、高品質な画像を復元する。 ビデオストリーミング環境における最先端のアルゴリズムに対して,本手法が好適に動作することを示す。

Video frame transmission delay is critical in real-time applications such as online video gaming, live show, etc. The receiving deadline of a new frame must catch up with the frame rendering time. Otherwise, the system will buffer a while, and the user will encounter a frozen screen, resulting in unsatisfactory user experiences. An effective approach is to transmit frames in lower-quality under poor bandwidth conditions, such as using scalable video coding. In this paper, we propose to enhance video quality using lossy frames in two situations. First, when current frames are too late to receive before rendering deadline (i.e., lost), we propose to use previously received high-resolution images to predict the future frames. Second, when the quality of the currently received frames is low~(i.e., lossy), we propose to use previously received high-resolution frames to enhance the low-quality current ones. For the first case, we propose a small yet effective video frame prediction network. For the second case, we improve the video prediction network to a video enhancement network to associate current frames as well as previous frames to restore high-quality images. Extensive experimental results demonstrate that our method performs favorably against state-of-the-art algorithms in the lossy video streaming environment.
翻訳日:2021-03-18 12:53:54 公開日:2021-03-17
# 遺伝性溶血性貧血のCNN分類におけるPercoll Gradientsのフーリエ変換

Fourier Transform of Percoll Gradients Boosts CNN Classification of Hereditary Hemolytic Anemias ( http://arxiv.org/abs/2103.09671v1 )

ライセンス: Link先を確認
Ario Sadafi, Luc\'ia Mar\'ia Moya Sans, Asya Makhro, Leonid Livshits, Nassir Navab, Anna Bogdanova, Shadi Albarqouni, Carsten Marr(参考訳) 遺伝性溶血性貧血は赤血球の形状と密度に影響を与える遺伝性疾患である。 現在そのような貧血の診断に用いられている遺伝子検査は費用がかかり、ほとんどの臨床検査では使用できない。 そこで本研究では,パーコール勾配 (percoll gradient) という標準生化学法を用いて,血行性溶血性貧血の同定法を提案する。 提案手法は,畳み込みニューラルネットワークを用いて抽出した空間的データ駆動特徴と高速フーリエ変換から得られたスペクトルハンドクラフト特徴を用いた。 AlexNet や VGG16 アーキテクチャと最近の機能融合を比較した。 スペクトル機能の後期融合によるAlexNetは、他のアプローチよりも優れている。 パーコール勾配から遺伝性溶血性貧血を診断できる可能性が示唆された。 最後に,Grad-CAMを用いて空間的特徴を探索する。

Hereditary hemolytic anemias are genetic disorders that affect the shape and density of red blood cells. Genetic tests currently used to diagnose such anemias are expensive and unavailable in the majority of clinical labs. Here, we propose a method for identifying hereditary hemolytic anemias based on a standard biochemistry method, called Percoll gradient, obtained by centrifuging a patient's blood. Our hybrid approach consists on using spatial data-driven features, extracted with a convolutional neural network and spectral handcrafted features obtained from fast Fourier transform. We compare late and early feature fusion with AlexNet and VGG16 architectures. AlexNet with late fusion of spectral features performs better compared to other approaches. We achieved an average F1-score of 88% on different classes suggesting the possibility of diagnosing of hereditary hemolytic anemias from Percoll gradients. Finally, we utilize Grad-CAM to explore the spatial features used for classification.
翻訳日:2021-03-18 12:53:34 公開日:2021-03-17
# コントラスト学習による水中単一画像復元

Single Underwater Image Restoration by Contrastive Learning ( http://arxiv.org/abs/2103.09697v1 )

ライセンス: Link先を確認
Junlin Han and Mehrdad Shoeiby and Tim Malthus and Elizabeth Botha and Janet Anstee and Saeed Anwar and Ran Wei and Lars Petersson and Mohammad Ali Armin(参考訳) 水中画像の復元は、水中の世界を明らかにすることの重要性から大きな注目を集めている。 本稿では,教師なし画像から画像への翻訳フレームワークに基づく水中画像復元の最先端化を実現する新しい手法について詳述する。 本手法は,原画像と復元画像の相互情報を最大化するために,コントラスト学習と生成対向ネットワークを利用して設計する。 さらに、ペアとアンペアのトレーニングモジュールをサポートする大規模な水中画像データセットもリリースしています。 最近の手法との比較による広範な実験により,提案手法の優越性がさらに証明された。

Underwater image restoration attracts significant attention due to its importance in unveiling the underwater world. This paper elaborates on a novel method that achieves state-of-the-art results for underwater image restoration based on the unsupervised image-to-image translation framework. We design our method by leveraging from contrastive learning and generative adversarial networks to maximize mutual information between raw and restored images. Additionally, we release a large-scale real underwater image dataset to support both paired and unpaired training modules. Extensive experiments with comparisons to recent approaches further demonstrate the superiority of our proposed method.
翻訳日:2021-03-18 12:53:20 公開日:2021-03-17
# 私のLiDAR Odometry Toolboxには何があるのか?

What s in My LiDAR Odometry Toolbox? ( http://arxiv.org/abs/2103.09708v1 )

ライセンス: Link先を確認
Pierre Dellenbach, Jean-Emmanuel Deschaud, Bastien Jacquet, Fran\c{c}ois Goulette(参考訳) 3次元LiDARセンサの民主化により、正確なLiDARオドメトリーとSLAMが要求される。 新しい手法が定期的に登場し、古典的アルゴリズムの小さなバリエーションから、ディープラーニングに基づく急進的な新しいパラダイムまで、ソリューションを提案している。 しかし、これらの方法を比較することはしばしば困難であり、特に、メソッドを評価し比較できる数少ないデータセットのためである。 さらに、その弱点を調べることは滅多になく、多くの場合、あるメソッドがユースケースに適しているかどうかをユーザーに発見させる。 本稿では,主要3次元LiDARオドメトリーを異なるカテゴリに分類し,整理する。 複数のデータセット上でその強みと弱みを深く分析するために、いくつかのアプローチ(ジオメトリックベース、ディープラーニングベース、ハイブリッド手法)を実装し、利用可能な異なるlidarオドメトリを読者に案内した。 メソッドの実装はhttps://gitlab.kitware.com/keu-computervision/pylidar-slamで公開されている。

With the democratization of 3D LiDAR sensors, precise LiDAR odometries and SLAM are in high demand. New methods regularly appear, proposing solutions ranging from small variations in classical algorithms to radically new paradigms based on deep learning. Yet it is often difficult to compare these methods, notably due to the few datasets on which the methods can be evaluated and compared. Furthermore, their weaknesses are rarely examined, often letting the user discover the hard way whether a method would be appropriate for a use case. In this paper, we review and organize the main 3D LiDAR odometries into distinct categories. We implemented several approaches (geometric based, deep learning based, and hybrid methods) to conduct an in-depth analysis of their strengths and weaknesses on multiple datasets, guiding the reader through the different LiDAR odometries available. Implementation of the methods has been made publicly available at https://gitlab.kitware.com/keu-computervision/pylidar-slam.
翻訳日:2021-03-18 12:53:12 公開日:2021-03-17
# ニューラルネットワークによるプログラム合成と検証

Toward Neural-Network-Guided Program Synthesis and Verification ( http://arxiv.org/abs/2103.09414v1 )

ライセンス: Link先を確認
Naoki Kobayashi, Taro Sekiyama, Issei Sato and Hiroshi Unno(参考訳) 本稿では,ニューラルネットワーク誘導合成という,プログラムおよび不変合成の新しい枠組みを提案する。 まず、ニューラルネットワークを適切に設計し、トレーニングすることで、トレーニングされたニューラルネットワークの重みとバイアスから整数上の論理式を抽出できることを示します。 この考え方に基づき,正負の例と含意の制約から式を合成するツールを実装し,有望な実験結果を得た。 また,本手法の2つの応用についても論じる。 ひとつは、ICE学習に基づくCHC問題解決のフレームワークにおける修飾子発見のためのツールの使用であり、プログラム検証や帰納的不変合成に適用することができる。 もう1つの応用は、オラクルベースのプログラミングと呼ばれる新しいプログラム開発フレームワークであり、これは、スケッチによるSolar-Lezamaのプログラム合成の神経ネットワーク誘導のバリエーションである。

We propose a novel framework of program and invariant synthesis called neural network-guided synthesis. We first show that, by suitably designing and training neural networks, we can extract logical formulas over integers from the weights and biases of the trained neural networks. Based on the idea, we have implemented a tool to synthesize formulas from positive/negative examples and implication constraints, and obtained promising experimental results. We also discuss two applications of our synthesis method. One is the use of our tool for qualifier discovery in the framework of ICE-learning-based CHC solving, which can in turn be applied to program verification and inductive invariant synthesis. Another application is to a new program development framework called oracle-based programming, which is a neural-network-guided variation of Solar-Lezama's program synthesis by sketching.
翻訳日:2021-03-18 12:52:33 公開日:2021-03-17
# os-elmディジタル回路のオーバーフロー・アンダーフローフリー固定点ビット幅最適化法

An Overflow/Underflow-Free Fixed-Point Bit-Width Optimization Method for OS-ELM Digital Circuit ( http://arxiv.org/abs/2103.09791v1 )

ライセンス: Link先を確認
Mineto Tsukada, Hiroki Matsutani(参考訳) 現在、スマートセンサーなどのリソース制限されたIoTデバイス上でのリアルタイムトレーニングの需要が高まっており、リモートサーバへのデータ転送なしに、ストリーミングデータに対するスタンドアロンのオンライン適応を実現している。 OS-ELM(Online Sequential Extreme Learning Machine)は、オンチップ学習のためのニューラルネットワークベースのオンラインアルゴリズムの1つで、計算コストが低く、デジタル回路として実装が容易である。 既存のOS-ELMデジタル回路は固定点データ形式を採用し、ビット幅は手動で調整されることが多いが、これは回路の予期せぬ動作を引き起こす可能性がある。 オンチップ学習システムでは,オンライントレーニングが継続的に行われ,時間とともに中間変数の間隔が動的に変化するため,オーバーフロー/アンダーフローフリーの設計に大きな影響を与える。 本稿では,OS-ELMの固定点ディジタル回路におけるオーバーフロー/アンダーフローフリービット幅最適化手法を提案する。 実験結果から,オーバーフローやアンダーフローが発生するようなシミュレーションベース最適化手法と比較して,オーバーフロー/アンダーフローフリーなOS-ELMディジタル回路の面積コストが1.0x1.5倍になることがわかった。

Currently there has been increasing demand for real-time training on resource-limited IoT devices such as smart sensors, which realizes standalone online adaptation for streaming data without data transfers to remote servers. OS-ELM (Online Sequential Extreme Learning Machine) has been one of promising neural-network-based online algorithms for on-chip learning because it can perform online training at low computational cost and is easy to implement as a digital circuit. Existing OS-ELM digital circuits employ fixed-point data format and the bit-widths are often manually tuned, however, this may cause overflow or underflow which can lead to unexpected behavior of the circuit. For on-chip learning systems, an overflow/underflow-free design has a great impact since online training is continuously performed and the intervals of intermediate variables will dynamically change as time goes by. In this paper, we propose an overflow/underflow-free bit-width optimization method for fixed-point digital circuit of OS-ELM. Experimental results show that our method realizes overflow/underflow-free OS-ELM digital circuits with 1.0x - 1.5x more area cost compared to an ordinary simulation-based optimization method where overflow or underflow can happen.
翻訳日:2021-03-18 12:52:20 公開日:2021-03-17
# 音楽表現のコントラスト学習

Contrastive Learning of Musical Representations ( http://arxiv.org/abs/2103.09410v1 )

ライセンス: Link先を確認
Janne Spijkervet, John Ashley Burgoyne(参考訳) 教師付き学習は音楽の多くの分野で大きな進歩をもたらしたが、ラベル付き音楽データセットは特に困難で高価で時間を要する。 本研究では,音楽分野にSimCLRを導入し,音楽の生波形の自己教師型学習のための簡単なフレームワークであるCLMRを構築した。 このアプローチでは、手作業によるラベリングや、有用な表現を学ぶための音楽の前処理は不要である。 MagnaTagATune と Million Song のデータセットを用いて,音楽分類の下流課題における CLMR の評価を行った。 事前訓練されたCLMRモデルからの表現に基づいて微調整された線形分類器は、MagnaTagATuneデータセットの平均精度35.4%を達成する。 さらに,clmrの表現はドメイン外データセットを用いて転送可能であり,重要な音楽知識を捉えていることを示す。 最後に、自己教師付き事前学習によって、より小さなラベル付きデータセットで効率的に学習できることを示し、微調整中に259曲しか使用していないにもかかわらず、スコアは33.1%に達した。 音楽における自己教師付き学習の再現可能性と今後の研究を促進するため,本論文のすべての実験のソースコードをgithubに公開する。

While supervised learning has enabled great advances in many areas of music, labeled music datasets remain especially hard, expensive and time-consuming to create. In this work, we introduce SimCLR to the music domain and contribute a large chain of audio data augmentations, to form a simple framework for self-supervised learning of raw waveforms of music: CLMR. This approach requires no manual labeling and no preprocessing of music to learn useful representations. We evaluate CLMR in the downstream task of music classification on the MagnaTagATune and Million Song datasets. A linear classifier fine-tuned on representations from a pre-trained CLMR model achieves an average precision of 35.4% on the MagnaTagATune dataset, superseding fully supervised models that currently achieve a score of 34.9%. Moreover, we show that CLMR's representations are transferable using out-of-domain datasets, indicating that they capture important musical knowledge. Lastly, we show that self-supervised pre-training allows us to learn efficiently on smaller labeled datasets: we still achieve a score of 33.1% despite using only 259 labeled songs during fine-tuning. To foster reproducibility and future research on self-supervised learning in music, we publicly release the pre-trained models and the source code of all experiments of this paper on GitHub.
翻訳日:2021-03-18 12:51:25 公開日:2021-03-17
# ミニバッチSSCAによるサンプルベースフェデレーション学習

Sample-based Federated Learning via Mini-batch SSCA ( http://arxiv.org/abs/2103.09506v1 )

ライセンス: Link先を確認
Chencheng Ye, Ying Cui(参考訳) 本稿では,制約のないサンプルベースフェデレーション最適化について検討する。 それぞれの問題に対して,確率的逐次凸近似(SSCA)技術を用いたプライバシー保護アルゴリズムを提案し,KKT(Karush-Kuhn-Tucker)点に収束可能であることを示す。 我々の知る限り、SSCAはフェデレーション最適化には使われておらず、非凸制約によるフェデレーション最適化は検討されていない。 次に、提案した2つのSSCAアルゴリズムを2つのアプリケーション例にカスタマイズし、SSCAの各イテレーションにおける各近似凸問題に対するクローズドフォームソリューションを提供する。 最後に数値実験により,提案手法の収束速度,通信コスト,モデル仕様の点で本質的な利点を示す。

In this paper, we investigate unconstrained and constrained sample-based federated optimization, respectively. For each problem, we propose a privacy preserving algorithm using stochastic successive convex approximation (SSCA) techniques, and show that it can converge to a Karush-Kuhn-Tucker (KKT) point. To the best of our knowledge, SSCA has not been used for solving federated optimization, and federated optimization with nonconvex constraints has not been investigated. Next, we customize the two proposed SSCA-based algorithms to two application examples, and provide closed-form solutions for the respective approximate convex problems at each iteration of SSCA. Finally, numerical experiments demonstrate inherent advantages of the proposed algorithms in terms of convergence speed, communication cost and model specification.
翻訳日:2021-03-18 12:50:59 公開日:2021-03-17
# ドローンチームによる多目的探索・検出のための分散強化学習

Decentralized Reinforcement Learning for Multi-Target Search and Detection by a Team of Drones ( http://arxiv.org/abs/2103.09520v1 )

ライセンス: Link先を確認
Roi Yehoshua, Juan Heredia-Juesas, Yushu Wu, Christopher Amato, Jose Martinez-Lorenzo(参考訳) ターゲットの探索と検出は、カバレッジ、サーベイランス、サーベイ、オブザーバレーション、追跡回避など、さまざまな意思決定問題を含んでいる。 本稿では,未知の領域における静的な目標のセットを特定するために,航空機群(ドローン)を協調させるマルチエージェント深部強化学習(MADRL)手法を提案する。 そこで我々は,実験データから得られた統計的推測を含む実実験の力学と摂動を再現する,現実的なドローンシミュレータを設計した。 このシミュレーターを訓練に利用した強化学習方法は,ドローンの最適に近い方針を見つけることができた。 従来のMADRL法とは対照的に,本手法は学習と実行の両方において完全に分散化されており,高次元かつ連続的な観測空間を処理でき,追加のハイパーパラメータのチューニングを必要としない。

Targets search and detection encompasses a variety of decision problems such as coverage, surveillance, search, observing and pursuit-evasion along with others. In this paper we develop a multi-agent deep reinforcement learning (MADRL) method to coordinate a group of aerial vehicles (drones) for the purpose of locating a set of static targets in an unknown area. To that end, we have designed a realistic drone simulator that replicates the dynamics and perturbations of a real experiment, including statistical inferences taken from experimental data for its modeling. Our reinforcement learning method, which utilized this simulator for training, was able to find near-optimal policies for the drones. In contrast to other state-of-the-art MADRL methods, our method is fully decentralized during both learning and execution, can handle high-dimensional and continuous observation spaces, and does not require tuning of additional hyperparameters.
翻訳日:2021-03-18 12:50:47 公開日:2021-03-17
# 仮想安全ケージを用いた自動運転のための弱教師付き強化学習

Weakly Supervised Reinforcement Learning for Autonomous Highway Driving via Virtual Safety Cages ( http://arxiv.org/abs/2103.09726v1 )

ライセンス: Link先を確認
Sampo Kuutti, Richard Bowden, Saber Fallah(参考訳) ニューラルネットワークと強化学習は、自動運転車の制御においてますます普及している。 しかし、結果として生じる制御ポリシーの不透明さは、自動運転車にニューラルネットワークベースの制御を展開する上で大きな障壁となる。 本稿では,車両の安全性向上と強化学習エージェントの監督の弱さを両立させた,自律走行車両の縦方向制御に対する強化学習方式を提案する。 エージェントを有意義な状態や行動へと導くことにより、この弱い監督は訓練中の収束を改善し、最終的な訓練された政策の安全性を高める。 このルールベースの監視制御装置は、完全に解釈可能であるという利点があり、車両の安全性を確保するために従来の検証および検証アプローチを可能にする。 我々は,モデルと安全ケージの有無,および最適かつ制約のあるモデルパラメータのモデルを比較し,弱い監督が探索の安全性,収束速度,モデル性能を一貫して改善することを示す。 さらに,モデルパラメータが制約されたり,サブ最適であったりした場合,モデルが強化学習だけでは運転できない場合でも,安全ケージによって安全な運転方針を学習できることを示す。

The use of neural networks and reinforcement learning has become increasingly popular in autonomous vehicle control. However, the opaqueness of the resulting control policies presents a significant barrier to deploying neural network-based control in autonomous vehicles. In this paper, we present a reinforcement learning based approach to autonomous vehicle longitudinal control, where the rule-based safety cages provide enhanced safety for the vehicle as well as weak supervision to the reinforcement learning agent. By guiding the agent to meaningful states and actions, this weak supervision improves the convergence during training and enhances the safety of the final trained policy. This rule-based supervisory controller has the further advantage of being fully interpretable, thereby enabling traditional validation and verification approaches to ensure the safety of the vehicle. We compare models with and without safety cages, as well as models with optimal and constrained model parameters, and show that the weak supervision consistently improves the safety of exploration, speed of convergence, and model performance. Additionally, we show that when the model parameters are constrained or sub-optimal, the safety cages can enable a model to learn a safe driving policy even when the model could not be trained to drive through reinforcement learning alone.
翻訳日:2021-03-18 12:50:18 公開日:2021-03-17
# 植込みマッチング問題:シャープしきい値と無限次相転移

The planted matching problem: Sharp threshold and infinite-order phase transition ( http://arxiv.org/abs/2103.09383v1 )

ライセンス: Link先を確認
Jian Ding, Yihong Wu, Jiaming Xu, Dana Yang(参考訳) ランダムに重み付けされた$n\times n$ bipartite graph に隠された完全マッチング $M^*$ の再構成問題について検討する。 エッジ集合は、$M^*$の全てのノード対と、$n(n-1)$のノード対は、確率$d/n$と独立に$M^*$のノード対を含む。 各辺$e$の重みは、分布 $\mathcal{P}$ if $e \in M^*$ と $\mathcal{Q}$ if $e \notin M^*$ から独立に引き出される。 もし$\sqrt{d} b(\mathcal{p},\mathcal{q}) \le 1$, where $b(\mathcal{p},\mathcal{q})$ が bhattacharyya 係数を表すなら、$m^*$ の最大許容推定値の再構成誤差(平均的偏差)は$0$ で$n\to \infty$となる。 逆に、$\sqrt{d} B(\mathcal{P},\mathcal{Q}) \ge 1+\epsilon$ for a arbitrarily small constant $\epsilon>0$ とすると、任意の推定器の再構成誤差はスパースモデルと密度モデルの両方の下で0$から外され、 [Moharrami et al] の予想が解かれる。 2019年、semerjian et al。 2020]. さらに、$d=n$, $\mathcal{p}=\exp(\lambda)$, and $\mathcal{q}=\exp(1/n)$という指数重み付き完全グラフの特別な場合において、鋭いしきい値が$\lambda=4$ に単純化される場合、$\lambda \le 4-\epsilon$ のとき、最適な再構成誤差は$\exp\left(\theta(1/\sqrt{\epsilon}) \right)$であり、[semerjian et al における無限次相転移の予想を確認する。 2020].

We study the problem of reconstructing a perfect matching $M^*$ hidden in a randomly weighted $n\times n$ bipartite graph. The edge set includes every node pair in $M^*$ and each of the $n(n-1)$ node pairs not in $M^*$ independently with probability $d/n$. The weight of each edge $e$ is independently drawn from the distribution $\mathcal{P}$ if $e \in M^*$ and from $\mathcal{Q}$ if $e \notin M^*$. We show that if $\sqrt{d} B(\mathcal{P},\mathcal{Q}) \le 1$, where $B(\mathcal{P},\mathcal{Q})$ stands for the Bhattacharyya coefficient, the reconstruction error (average fraction of misclassified edges) of the maximum likelihood estimator of $M^*$ converges to $0$ as $n\to \infty$. Conversely, if $\sqrt{d} B(\mathcal{P},\mathcal{Q}) \ge 1+\epsilon$ for an arbitrarily small constant $\epsilon>0$, the reconstruction error for any estimator is shown to be bounded away from $0$ under both the sparse and dense model, resolving the conjecture in [Moharrami et al. 2019, Semerjian et al. 2020]. Furthermore, in the special case of complete exponentially weighted graph with $d=n$, $\mathcal{P}=\exp(\lambda)$, and $\mathcal{Q}=\exp(1/n)$, for which the sharp threshold simplifies to $\lambda=4$, we prove that when $\lambda \le 4-\epsilon$, the optimal reconstruction error is $\exp\left( - \Theta(1/\sqrt{\epsilon}) \right)$, confirming the conjectured infinite-order phase transition in [Semerjian et al. 2020].
翻訳日:2021-03-18 12:49:37 公開日:2021-03-17
# (参考訳) 低リソースニューラルマシン翻訳のためのクラウドソース・フレーズベーストークン化:フォン言語の場合

Crowdsourced Phrase-Based Tokenization for Low-Resourced Neural Machine Translation: The Case of Fon Language ( http://arxiv.org/abs/2103.08052v2 )

ライセンス: CC BY 4.0
Bonaventure F. P. Dossou and Chris C. Emezue(参考訳) 非常に低リソースで形態的に豊かなアフリカの先住民言語に対する効果的なニューラルネットワーク翻訳(NMT)モデルの構築は、オープンな課題である。 利用可能なリソースを見つけるという問題に加えて、多くの作業が前処理とトークン化に費やされます。 近年の研究では、標準トークン化法がアフリカ諸言語の文法的、ダイアクリティカル的、調音的性質を常に適切に扱うとは限らないことが示されている。 トレーニングサンプルの可用性が極めて低いことに加えて、信頼性の高いNMTモデルの生産を妨げている。 本稿では,fon言語を事例研究として,標準トークン化法を再検討し,人間主導のスーパーワードトークン化戦略であるword-expressions-based (web)トークン化を導入する。 さらに、トークン化戦略を、Fon- French と French-Fon の翻訳タスクで比較する。

Building effective neural machine translation (NMT) models for very low-resourced and morphologically rich African indigenous languages is an open challenge. Besides the issue of finding available resources for them, a lot of work is put into preprocessing and tokenization. Recent studies have shown that standard tokenization methods do not always adequately deal with the grammatical, diacritical, and tonal properties of some African languages. That, coupled with the extremely low availability of training samples, hinders the production of reliable NMT models. In this paper, using Fon language as a case study, we revisit standard tokenization methods and introduce Word-Expressions-Based (WEB) tokenization, a human-involved super-words tokenization strategy to create a better representative vocabulary for training. Furthermore, we compare our tokenization strategy to others on the Fon-French and French-Fon translation tasks.
翻訳日:2021-03-18 11:51:46 公開日:2021-03-17
# (参考訳) RackLay: 倉庫ラックのマルチレイヤレイアウト推定

RackLay: Multi-Layer Layout Estimation for Warehouse Racks ( http://arxiv.org/abs/2103.09174v2 )

ライセンス: CC BY 4.0
Meher Shashwat Nigam, Avinash Prabhu, Anurag Sahu, Puru Gupta, Tanvi Karandikar, N. Sai Shankar, Ravi Kiran Sarvadevabhatla, K. Madhava Krishna(参考訳) 倉庫ラックの単眼カラー画像が与えられた場合,多層レイアウト予測と呼ぶラック内の各棚の鳥眼配置を予測することを目的としている。 そこで本研究では,単一の画像からリアルタイム棚配置推定を行うディープニューラルネットワークracklayを提案する。 従来のレイアウト推定手法とは異なり、racklayは、オブジェクトが配置されていると見なされるラック内の各棚の、トップビューとフロントビューのレイアウトを推定する。 RackLayのアーキテクチャとその変種は、画像中のさまざまな可視棚の数、棚の占有率の大きな範囲、様々な背景の乱れを特徴とする多様なシーンの、汎用的で正確なレイアウトを推定する。 この領域におけるデータセットの極端なポーシティと、倉庫からの実データを取得することの難しさを考えると、私たちはさらに柔軟な合成データセット生成パイプラインであるwaresynthをリリースします。 アーキテクチャの変種間のアブレーションと強力な先行ベースラインとの比較は、多層レイアウト推定の新たな問題に対するaptアーキテクチャとしてのracklayの有効性を証明している。 また、トップビューとフロントビューを融合させることで、検討したラックに対する計量自由空間推定などの3次元推論が可能であることを示す。

Given a monocular colour image of a warehouse rack, we aim to predict the bird's-eye view layout for each shelf in the rack, which we term as multi-layer layout prediction. To this end, we present RackLay, a deep neural network for real-time shelf layout estimation from a single image. Unlike previous layout estimation methods, which provide a single layout for the dominant ground plane alone, RackLay estimates the top-view and front-view layout for each shelf in the considered rack populated with objects. RackLay's architecture and its variants are versatile and estimate accurate layouts for diverse scenes characterized by varying number of visible shelves in an image, large range in shelf occupancy factor and varied background clutter. Given the extreme paucity of datasets in this space and the difficulty involved in acquiring real data from warehouses, we additionally release a flexible synthetic dataset generation pipeline WareSynth which allows users to control the generation process and tailor the dataset according to contingent application. The ablations across architectural variants and comparison with strong prior baselines vindicate the efficacy of RackLay as an apt architecture for the novel problem of multi-layered layout estimation. We also show that fusing the top-view and front-view enables 3D reasoning applications such as metric free space estimation for the considered rack.
翻訳日:2021-03-18 11:37:07 公開日:2021-03-17
# Refer-it-in-RGBD:RGBD画像における3次元視覚グラウンドのボトムアップアプローチ

Refer-it-in-RGBD: A Bottom-up Approach for 3D Visual Grounding in RGBD Images ( http://arxiv.org/abs/2103.07894v3 )

ライセンス: Link先を確認
Haolin Liu, Anran Lin, Xiaoguang Han, Lei Yang, Yizhou Yu, Shuguang Cui(参考訳) RGBD画像における接地参照表現は新たな分野である。 本稿では,参照する物体が閉塞により部分的にスキャンされる場合が多い単視点rgbd画像における3次元視覚グランド化の新たな課題を提案する。 3Dシーンに接地するためのオブジェクト提案を直接生成する従来の作業とは対照的に,コンテキスト認識情報を段階的に集約するボトムアップ手法を提案し,部分幾何学による課題に効果的に対処する。 我々のアプローチは、まず言語と視覚機能をボトムレベルに融合させ、rgbdイメージ内の関連領域を粗くローカライズするヒートマップを生成する。 次に、ヒートマップに基づく適応的特徴学習を行い、他のビジオ言語融合とオブジェクトレベルのマッチングを行い、最後に参照したオブジェクトを接地する。 提案手法は,ScanReferデータセットから抽出したRGBD画像と新たに収集したSUNReferデータセットとを比較して評価する。 実験により,本手法は両方のデータセットにおいて従来手法よりも大きな差(11.2%,15.6%Acc@0.5)を示した。

Grounding referring expressions in RGBD image has been an emerging field. We present a novel task of 3D visual grounding in single-view RGBD image where the referred objects are often only partially scanned due to occlusion. In contrast to previous works that directly generate object proposals for grounding in the 3D scenes, we propose a bottom-up approach to gradually aggregate context-aware information, effectively addressing the challenge posed by the partial geometry. Our approach first fuses the language and the visual features at the bottom level to generate a heatmap that coarsely localizes the relevant regions in the RGBD image. Then our approach conducts an adaptive feature learning based on the heatmap and performs the object-level matching with another visio-linguistic fusion to finally ground the referred object. We evaluate the proposed method by comparing to the state-of-the-art methods on both the RGBD images extracted from the ScanRefer dataset and our newly collected SUNRefer dataset. Experiments show that our method outperforms the previous methods by a large margin (by 11.2% and 15.6% Acc@0.5) on both datasets.
翻訳日:2021-03-18 11:20:04 公開日:2021-03-17
# (参考訳) 公衆衛生のための多モジュール統合システムに基づくエスカレーター関連傷害の同定と予防

Potential Escalator-related Injury Identification and Prevention Based on Multi-module Integrated System for Public Health ( http://arxiv.org/abs/2103.07620v2 )

ライセンス: CC BY 4.0
Zeyu Jiao, Huan Lei, Hengshan Zong, Yingjie Cai, Zhenyu Zhong(参考訳) エスカレーター関連外傷は、エスカレーターの普及によって公衆衛生を脅かす。 既存の研究は、エスカレーターによる怪我の影響を減らすために、元の設計と欠陥の使用を反映した事後統計に焦点を当てる傾向があるが、現在進行中の負傷や差し迫った負傷にはほとんど注意が払われていない。 本研究では,コンピュータビジョンに基づくマルチモジュールエスカレーター安全監視システムを設計し,バランスの低下やハンドレールの保持,大型品の運搬など,3つの主な障害トリガーの同時監視と対処について提案する。 エスカレーター識別モジュールは、エスカレーター領域、すなわち関心領域を決定するために使用される。 乗客監視モジュールを利用して乗客の姿勢を推定し、エスカレーター上の安全でない行動を認識する。 危険な物体検出モジュールはエスカレーターに入る可能性のある大きなアイテムを検出し、警報を発する。 上記の3つのモジュールの処理結果は、システムのインテリジェントな決定の基礎として、安全性評価モジュールにまとめられている。 実験の結果,提案システムの性能は良好であり,応用可能性も高いことがわかった。

Escalator-related injuries threaten public health with the widespread use of escalators. The existing studies tend to focus on after-the-fact statistics, reflecting on the original design and use of defects to reduce the impact of escalator-related injuries, but few attention has been paid to ongoing and impending injuries. In this study, a multi-module escalator safety monitoring system based on computer vision is designed and proposed to simultaneously monitor and deal with three major injury triggers, including losing balance, not holding on to handrails and carrying large items. The escalator identification module is utilized to determine the escalator region, namely the region of interest. The passenger monitoring module is leveraged to estimate the passengers' pose to recognize unsafe behaviors on the escalator. The dangerous object detection module detects large items that may enter the escalator and raises alarms. The processing results of the above three modules are summarized in the safety assessment module as the basis for the intelligent decision of the system. The experimental results demonstrate that the proposed system has good performance and great application potential.
翻訳日:2021-03-18 09:35:17 公開日:2021-03-17
# (参考訳) ex-ray:差動特徴対称性によるニューラルネットワークの自然特徴とインジェクションバックドアの区別

EX-RAY: Distinguishing Injected Backdoor from Natural Features in Neural Networks by Examining Differential Feature Symmetry ( http://arxiv.org/abs/2103.08820v2 )

ライセンス: CC BY 4.0
Yingqi Liu, Guangyu Shen, Guanhong Tao, Zhenting Wang, Shiqing Ma, Xiangyu Zhang(参考訳) バックドア攻撃は、トリガーに埋め込まれた入力が攻撃者が望むターゲットラベルに誤分類されるようなモデルに悪意のある振る舞いを注入する。 しかし、自然機能はトリガーのように振る舞う可能性があり、一度埋め込まれると誤分類を引き起こす。 それらは避けられないが、注入されたトリガーとして誤認識することは、バックドアスキャンにおいて誤った警告を引き起こす。 したがって、重要な課題は自然の特徴を区別し、バックドアを注入することである。 2つのクラスを分離する最小の機能集合を識別する新しい対称特徴差分法を開発した。 対応するトリガーが被害者クラスとターゲットクラスを区別する特徴セットとは異なる特徴からなる場合、バックドアは注入されると考えられる。 我々は,TrojAIラウンドの2-4ラウンドとImageNet上の多数のモデルから,クリーンモデルとトロイの木馬モデルの両方を含む数千のモデルでこの技術を評価する。 既存のバックドアスキャン技術は、数百の偽陽性(つまり、トロイの木馬として認識されるきれいなモデル)を引き起こす可能性がある。 本手法は, 偽陽性の78-100%(最先端スキャナABS)を除去し, 偽陰性が0-30%増加し, 全体的な精度が17-41%向上し, リーダボード上での最高性能の達成を容易にする。 他のスキャナのパフォーマンスも向上する。 L2距離と帰属技術を用いて偽陽性除去法より優れる。 我々はまた、多くのセマンティクスバックドア攻撃を検出する可能性も示している。

Backdoor attack injects malicious behavior to models such that inputs embedded with triggers are misclassified to a target label desired by the attacker. However, natural features may behave like triggers, causing misclassification once embedded. While they are inevitable, mis-recognizing them as injected triggers causes false warnings in backdoor scanning. A prominent challenge is hence to distinguish natural features and injected backdoors. We develop a novel symmetric feature differencing method that identifies a smallest set of features separating two classes. A backdoor is considered injected if the corresponding trigger consists of features different from the set of features distinguishing the victim and target classes. We evaluate the technique on thousands of models, including both clean and trojaned models, from the TrojAI rounds 2-4 competitions and a number of models on ImageNet. Existing backdoor scanning techniques may produce hundreds of false positives (i.e., clean models recognized as trojaned). Our technique removes 78-100% of the false positives (by a state-of-the-art scanner ABS) with a small increase of false negatives by 0-30%, achieving 17-41% overall accuracy improvement, and facilitates achieving top performance on the leaderboard. It also boosts performance of other scanners. It outperforms false positive removal methods using L2 distance and attribution techniques. We also demonstrate its potential in detecting a number of semantic backdoor attacks.
翻訳日:2021-03-18 09:26:23 公開日:2021-03-17
# ディープダイナミックニューラルネットワークによるニュースレコメンデータシステムにおける精度と多様性のトレードオフ

Deep Dynamic Neural Network to trade-off between Accuracy and Diversity in a News Recommender System ( http://arxiv.org/abs/2103.08458v2 )

ライセンス: Link先を確認
Shaina Raza, Chen Ding(参考訳) ニュースレコメンデータシステムは、ニュースドメイン特有のいくつかのユニークな課題によって特徴付けられる。 これらの課題は、時間とともに継続的に変化する動的に生成されたニュースアイテムに対する読者の関心が急速に発展することから生じる。 ニュースを読むには、読者の長期的な興味と短期的な関心を混ぜ合わせる必要がある。 さらに、ニュースレコメンデーションシステムでは、読者を読書プロセスに参加させるだけでなく、異なる見解や意見に露出させるため、多様性が要求される。 本稿では,情報的ニュースと読者の関心を統合されたフレームワークに共同で学習するディープニューラルネットワークを提案する。 私たちはニュースの見出し、スニペット(ボディ)、分類(カテゴリ、サブカテゴリ)からニュース表現(フィーチャー)を学びます。 読者の長期的な興味は、読者のクリック履歴、lstmsによる最近のクリックからの短期的関心、注目機構を通じて読者の興味の多様化から学ぶ。 モデルにもさまざまなレベルの注意を向けています。 我々は,2つのニュースデータセットについて広範な実験を行い,その効果を実証した。

The news recommender systems are marked by a few unique challenges specific to the news domain. These challenges emerge from rapidly evolving readers' interests over dynamically generated news items that continuously change over time. News reading is also driven by a blend of a reader's long-term and short-term interests. In addition, diversity is required in a news recommender system, not only to keep the reader engaged in the reading process but to get them exposed to different views and opinions. In this paper, we propose a deep neural network that jointly learns informative news and readers' interests into a unified framework. We learn the news representation (features) from the headlines, snippets (body) and taxonomy (category, subcategory) of news. We learn a reader's long-term interests from the reader's click history, short-term interests from the recent clicks via LSTMSs and the diversified reader's interests through the attention mechanism. We also apply different levels of attention to our model. We conduct extensive experiments on two news datasets to demonstrate the effectiveness of our approach.
翻訳日:2021-03-18 09:25:24 公開日:2021-03-17
# 分散ディープラーニングのための学習勾配圧縮

Learned Gradient Compression for Distributed Deep Learning ( http://arxiv.org/abs/2103.08870v2 )

ライセンス: Link先を確認
Lusine Abrahamyan, Yiming Chen, Giannis Bekoulis and Nikos Deligiannis(参考訳) 高次元データを含む大規模データセット上でディープニューラルネットワークをトレーニングするには、大量の計算が必要である。 この問題の解決策はデータ並列分散トレーニング(Data-parallel Distributed Training)であり、モデルが複数の計算ノードに複製され、データの異なるチャンクにアクセスする。 しかしこのアプローチは、各イテレーションでノード間で共有する必要がある計算された勾配のため、高い通信速度とレイテンシを必要とする。 この問題は、ノード間の無線通信がある場合(すなわち)、より顕著になる。 ネットワーク帯域幅が限られているため) この問題に対処するために、勾配のスパース化、量子化、エントロピー符号化など様々な圧縮法が提案されている。 既存の方法はノード内の情報冗長性、すなわち各ノードの勾配を独立に圧縮する。 対照的に,ノード間の勾配は相関しており,このノード間冗長性を利用して圧縮効率を向上させる手法を提案する。 ノード通信プロトコル(パラメータサーバまたはring-allreduce)により、我々は学習勾配圧縮(lgc)を考案したlgcアプローチの2つのインスタンスを提案する。 我々のメソッドはオートエンコーダ(つまり)を利用する。 分散トレーニングの最初の段階でトレーニングされた)分散ノードの勾配に存在する共通情報をキャプチャする。 我々は,様々な畳み込みニューラルネットワーク(resnet50,resnet101,pspnet)と複数のデータセット(imagenet,cifar10,camvid)を用いて,画像分類と意味セグメンテーションタスクに関するlgc手法をテストした。 cifar10の画像分類のためにトレーニングされたresnet101モデルは、精度93.57%に達し、非圧縮勾配のベースライン分散トレーニングよりも0.18%低い。

Training deep neural networks on large datasets containing high-dimensional data requires a large amount of computation. A solution to this problem is data-parallel distributed training, where a model is replicated into several computational nodes that have access to different chunks of the data. This approach, however, entails high communication rates and latency because of the computed gradients that need to be shared among nodes at every iteration. The problem becomes more pronounced in the case that there is wireless communication between the nodes (i.e. due to the limited network bandwidth). To address this problem, various compression methods have been proposed including sparsification, quantization, and entropy encoding of the gradients. Existing methods leverage the intra-node information redundancy, that is, they compress gradients at each node independently. In contrast, we advocate that the gradients across the nodes are correlated and propose methods to leverage this inter-node redundancy to improve compression efficiency. Depending on the node communication protocol (parameter server or ring-allreduce), we propose two instances of the LGC approach that we coin Learned Gradient Compression (LGC). Our methods exploit an autoencoder (i.e. trained during the first stages of the distributed training) to capture the common information that exists in the gradients of the distributed nodes. We have tested our LGC methods on the image classification and semantic segmentation tasks using different convolutional neural networks (ResNet50, ResNet101, PSPNet) and multiple datasets (ImageNet, Cifar10, CamVid). The ResNet101 model trained for image classification on Cifar10 achieved an accuracy of 93.57%, which is lower than the baseline distributed training with uncompressed gradients only by 0.18%.
翻訳日:2021-03-18 09:25:06 公開日:2021-03-17
# TransFG: 微粒化認識のためのトランスフォーマーアーキテクチャ

TransFG: A Transformer Architecture for Fine-grained Recognition ( http://arxiv.org/abs/2103.07976v3 )

ライセンス: Link先を確認
Ju He, Jieneng Chen, Shuai Liu, Adam Kortylewski, Cheng Yang, Yutong Bai, Changhu Wang, Alan Yuille(参考訳) サブカテゴリからオブジェクトを認識することを目的とした細粒度視覚分類(FGVC)は、本質的に微妙なクラス間差のため非常に難しい課題である。 近年の研究では、最も差別的な画像領域の特定に焦点をあて、ネットワークの微妙なばらつきを捉える能力を改善するためにそれらに依存している。 これらの作業の多くは、バックボーンネットワークを再利用して、選択した領域の特徴を抽出することで実現している。 しかし、この戦略は必然的にパイプラインを複雑化し、提案された領域をオブジェクトの大部分を含むようプッシュする。 近年,視覚変換器 (ViT) は従来の分類課題において高い性能を示した。 トランスの自己アテンション機構は、すべてのパッチトークンを分類トークンにリンクする。 注意リンクの強さはトークンの重要性の指標として直感的に考えることができる。 そこで本研究では,トランスフォーマーの全ての生の注意重みを注意マップに統合し,ネットワークを効果的かつ正確に識別可能な画像パッチを選定し,それらの関係を計算するトランスフォーマーベースのフレームワークであるtransfgを提案する。 対照的な損失は、類似するサブクラスの特徴表現間の距離をさらに拡大するために適用される。 我々は、cub-200-2011、stanford cars、stanford dogs、nabirds、inat2017の5つの人気のあるきめ細かいベンチマーク実験を行い、transfgの価値を実証した。 モデルの理解を深めるための定性的な結果が提示される。

Fine-grained visual classification (FGVC) which aims at recognizing objects from subcategories is a very challenging task due to the inherently subtle inter-class differences. Recent works mainly tackle this problem by focusing on how to locate the most discriminative image regions and rely on them to improve the capability of networks to capture subtle variances. Most of these works achieve this by re-using the backbone network to extract features of selected regions. However, this strategy inevitably complicates the pipeline and pushes the proposed regions to contain most parts of the objects. Recently, vision transformer (ViT) shows its strong performance in the traditional classification task. The self-attention mechanism of the transformer links every patch token to the classification token. The strength of the attention link can be intuitively considered as an indicator of the importance of tokens. In this work, we propose a novel transformer-based framework TransFG where we integrate all raw attention weights of the transformer into an attention map for guiding the network to effectively and accurately select discriminative image patches and compute their relations. A contrastive loss is applied to further enlarge the distance between feature representations of similar sub-classes. We demonstrate the value of TransFG by conducting experiments on five popular fine-grained benchmarks: CUB-200-2011, Stanford Cars, Stanford Dogs, NABirds and iNat2017 where we achieve state-of-the-art performance. Qualitative results are presented for better understanding of our model.
翻訳日:2021-03-18 09:24:33 公開日:2021-03-17
# 機械学習におけるメンバシップ推論攻撃に関する調査

Membership Inference Attacks on Machine Learning: A Survey ( http://arxiv.org/abs/2103.07853v2 )

ライセンス: Link先を確認
Hongsheng Hu and Zoran Salcic and Gillian Dobbie and Xuyun Zhang(参考訳) メンバシップ推論攻撃は、データサンプルがマシンラーニングモデルのトレーニングに使用されたかどうかを識別することを目的としている。 これは、メンバーシップが個人の機密情報を明らかにするため、深刻なプライバシーリスクを引き起こす可能性がある。 例えば、病院の健康分析トレーニングセットに参加する個人を特定すると、この個人がかつてその病院の患者だったことが分かる。 メンバシップ推論攻撃は、分類モデル、生成モデル、シーケンスツーシーケンスモデルなど、さまざまな機械学習モデルに有効であることが示されている。 一方で、このようなプライバシー攻撃を擁護する多くの方法が提案されている。 メンバーシップ推論攻撃は、急速に成長している研究分野であるが、このトピックに関する包括的調査はまだない。 本稿では,会員推定攻撃文学におけるこの重要なギャップを橋渡しする。 会員推測攻撃の包括的調査を初めて実施する。 我々は、既存のメンバーシップ推論攻撃と防御を要約し分類し、様々な設定で攻撃を実装する方法を明確に提示する。 さらに、なぜメンバシップ推論が動作するのかを議論し、ベンチマークデータセットをまとめて比較し、将来の作業の公正性を保証する。 最後に,今後の研究の方向性と,レビューによる応用の可能性を提案する。

Membership inference attack aims to identify whether a data sample was used to train a machine learning model or not. It can raise severe privacy risks as the membership can reveal an individual's sensitive information. For example, identifying an individual's participation in a hospital's health analytics training set reveals that this individual was once a patient in that hospital. Membership inference attacks have been shown to be effective on various machine learning models, such as classification models, generative models, and sequence-to-sequence models. Meanwhile, many methods are proposed to defend such a privacy attack. Although membership inference attack is an emerging and rapidly growing research area, there is no comprehensive survey on this topic yet. In this paper, we bridge this important gap in membership inference attack literature. We present the first comprehensive survey of membership inference attacks. We summarize and categorize existing membership inference attacks and defenses and explicitly present how to implement attacks in various settings. Besides, we discuss why membership inference attacks work and summarize the benchmark datasets to facilitate comparison and ensure fairness of future work. Finally, we propose several possible directions for future research and possible applications relying on reviewed works.
翻訳日:2021-03-18 09:23:51 公開日:2021-03-17