このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210327となっている論文です。

PDF登録状況(公開日: 20210327)

TitleAuthorsAbstract論文公表日・翻訳日
# 反対符号不調和をもつ超伝導量子ビットを用いた高コントラストZZ相互作用

High-contrast ZZ interaction using superconducting qubits with opposite-sign anharmonicity ( http://arxiv.org/abs/2002.07560v4 )

ライセンス: Link先を確認
Peng Zhao, Peng Xu, Dong Lan, Ji Chu, Xinsheng Tan, Haifeng Yu, and Yang Yu(参考訳) 超伝導量子ビットを持つスケーラブルな量子プロセッサを構築する場合、その残差が2量子ビットゲートの忠実性に重大な影響を与えるため、zz相互作用は大きな関心事となる。 耐故障性量子計算の基準を満たす2量子ゲートをZZ相互作用を用いて実証した。 しかし、量子プロセッサの性能が向上するにつれて、残差の静的zzは量子ゲート演算と量子誤差補正の性能制限因子となり得る。 ここでは,逆符号アンハーモニック性を持つ量子ビット,トランスモン量子ビット,Cシャントフラックス量子ビットを用いた超伝導アーキテクチャを提案する。 理論的には、2種類の量子ビットを結合することにより、高コントラストZZ相互作用を実現することができる。 これにより、高いオン/オフ比の相互作用を制御し、2量子CZゲートを実装したり、XY相互作用(例えば、iSWAPゲート)を用いて2量子ゲート操作中にそれを抑制できる。 提案されたアーキテクチャは、マルチキュービットのケースにもスケールできる。 固定結合系では、隣接するオブザーバ量子ビットに関連するZZクロストークも大幅に抑制できる。

For building a scalable quantum processor with superconducting qubits, ZZ interaction is of great concern because its residual has a crucial impact to two-qubit gate fidelity. Two-qubit gates with fidelity meeting the criterion of fault-tolerant quantum computationhave been demonstrated using ZZ interaction. However, as the performance of quantum processors improves, the residual static-ZZ can become a performance-limiting factor for quantum gate operation and quantum error correction. Here, we introduce a superconducting architecture using qubits with opposite-sign anharmonicity, a transmon qubit and a C-shunt flux qubit, to address this issue. We theoretically demonstrate that by coupling the two types of qubits, the high-contrast ZZ interaction can be realized. Thus, we can control the interaction with a high on/off ratio to implement two-qubit CZ gates, or suppress it during two-qubit gate operation using XY interaction (e.g., an iSWAP gate). The proposed architecture can also be scaled up to multi-qubit cases. In a fixed coupled system, ZZ crosstalk related to neighboring spectator qubits could also be heavily suppressed.
翻訳日:2023-06-03 07:08:49 公開日:2021-03-27
# ハイゼンベルクの不確かさ原理を量子マルチパラメーター推定に取り入れる

Incorporating Heisenberg's Uncertainty Principle into Quantum Multiparameter Estimation ( http://arxiv.org/abs/2008.08888v3 )

ライセンス: Link先を確認
Xiao-Ming Lu and Xiaoguang Wang(参考訳) 量子パラメータ推定は、量子力学におけるハイゼンベルクの不確実性原理による古典的マルチパラメータ推定とは大きく異なる。 異なるパラメータの最適測定が相容れない場合、共同で行うことはできない。 測定不確実性関係の文脈において,未知パラメータ推定のための測定の不正確性と測定誤差との対応関係を見いだす。 この対応関係をブリッジとして、ハイゼンベルクの不確かさ原理を量子マルチパラメータ推定に取り入れ、測定不正確性間のトレードオフ関係を与えて異なるパラメータを推定する。 純粋な量子状態の場合、このトレードオフ関係は厳密であるため、そのような場合の個々の推定誤差に対する真の量子制限を明らかにすることができる。 我々は,コヒーレントな状態に符号化された複素信号の実部と虚部を推定する達成可能な誤差のトレードオフを導出し,トレードオフ関係を得る共同測定値を得る。 また, 量子計測を明示的にパラメータ化することなく, 位相シフトと位相拡散を同時推定する誤差のトレードオフを, 容易に導出できることを示す。

The quantum multiparameter estimation is very different from the classical multiparameter estimation due to Heisenberg's uncertainty principle in quantum mechanics. When the optimal measurements for different parameters are incompatible, they cannot be jointly performed. We find a correspondence relationship between the inaccuracy of a measurement for estimating the unknown parameter with the measurement error in the context of measurement uncertainty relations. Taking this correspondence relationship as a bridge, we incorporate Heisenberg's uncertainty principle into quantum multiparameter estimation by giving a tradeoff relation between the measurement inaccuracies for estimating different parameters. For pure quantum states, this tradeoff relation is tight, so it can reveal the true quantum limits on individual estimation errors in such cases. We apply our approach to derive the tradeoff between attainable errors of estimating the real and imaginary parts of a complex signal encoded in coherent states and obtain the joint measurements attaining the tradeoff relation. We also show that our approach can be readily used to derive the tradeoff between the errors of jointly estimating the phase shift and phase diffusion without explicitly parameterizing quantum measurements.
翻訳日:2023-05-05 12:25:30 公開日:2021-03-27
# 量子ランダムウォークのヒット確率を計算するhhlに基づくアルゴリズム

An HHL-Based Algorithm for Computing Hitting Probabilities of Quantum Random Walks ( http://arxiv.org/abs/2009.03618v2 )

ライセンス: Link先を確認
Ji Guan, Qisheng Wang and Mingsheng Ying(参考訳) 線形方程式の系を解く量子アルゴリズムであるHHL (Harrow-Hassidim-Lloyd) アルゴリズムの新たな応用として、一般の(ハダマールだけでなく)1次元の量子ランダムウォークと2つの吸収境界を持つ1次元の量子ランダムウォークのヒット(あるいは吸収)確率を計算する。 これは、量子ランダムウォークの確率をヒットする計算の問題は行列の反転に還元できるという単純な観察によって達成される。 この問題を解決するために,hhlアルゴリズムをサブルーチンとする量子アルゴリズムが開発され,数値実験により既知の古典アルゴリズムよりも高速に解くことができる。

We present a novel application of the HHL (Harrow-Hassidim-Lloyd) algorithm -- a quantum algorithm solving systems of linear equations -- in solving an open problem about quantum random walks, namely computing hitting (or absorption) probabilities of a general (not only Hadamard) one-dimensional quantum random walks with two absorbing boundaries. This is achieved by a simple observation that the problem of computing hitting probabilities of quantum random walks can be reduced to inverting a matrix. Then a quantum algorithm with the HHL algorithm as a subroutine is developed for solving the problem, which is faster than the known classical algorithms by numerical experiments.
翻訳日:2023-05-03 05:14:13 公開日:2021-03-27
# スピンボーソン系における量子スカーリング:周期軌道の基本族

Quantum scarring in a spin-boson system: fundamental families of periodic orbits ( http://arxiv.org/abs/2009.08523v2 )

ライセンス: Link先を確認
Sa\'ul Pilatowsky-Cameo, David Villase\~nor, Miguel A. Bastarrachea-Magnani, Sergio Lerma-Hern\'andez, Lea F. Santos, and Jorge G. Hirsch(参考訳) その名前が示すように、周期軌道は時間内に自分自身を繰り返す力学系の解である。 通常の状態では周期軌道は安定であるが、カオス状態では不安定となる。 不安定周期軌道の存在は、固有状態の非局在化の度合いを制限し、ダイナミクスの回復につながる量子スカーリング現象に直接関連している。 ここでは、超ラジアント相におけるディッケ模型を研究し、基本周期軌道の2つの集合を同定する。 この実験により実現可能な原子-光子モデルは低エネルギーでは正則であり、高エネルギーではカオスである。 正則状態とカオス状態の両方における固有状態の構造における周期軌道の効果を研究し、それらの量子化エネルギーを得る。 また、固有状態が周期軌道の各族によってどれだけ傷ついたかを定量化し、それらの軌道から近づいた初期コヒーレント状態のダイナミクスを比較する尺度も導入する。

As the name indicates, a periodic orbit is a solution for a dynamical system that repeats itself in time. In the regular regime, periodic orbits are stable, while in the chaotic regime, they become unstable. The presence of unstable periodic orbits is directly associated with the phenomenon of quantum scarring, which restricts the degree of delocalization of the eigenstates and leads to revivals in the dynamics. Here, we study the Dicke model in the superradiant phase and identify two sets of fundamental periodic orbits. This experimentally realizable atom-photon model is regular at low energies and chaotic at high energies. We study the effects of the periodic orbits in the structure of the eigenstates in both regular and chaotic regimes and obtain their quantized energies. We also introduce a measure to quantify how much scarred an eigenstate gets by each family of periodic orbits and compare the dynamics of initial coherent states close and away from those orbits.
翻訳日:2023-05-02 00:00:22 公開日:2021-03-27
# 量子鍵分布におけるデコイ状態法の安全性

Security of the decoy state method for quantum key distribution ( http://arxiv.org/abs/2101.10128v2 )

ライセンス: Link先を確認
A.S. Trushechkin, E.O. Kiktenko, D.A. Kronberg, A.K. Fedorov(参考訳) 量子暗号またはより正確には量子鍵分布(QKD)は、量子技術分野における先進分野の一つである。 QKDプロトコルを用いて配布される鍵の秘密性は、量子力学の基本法則によって保証される。 本稿では, 単一光子状態の仮定によりセキュリティが証明されたQKDプロトコルにおいて, 光のコヒーレント状態の使用による脆弱性対策であるデコイ状態法について述べる。 我々は、あらゆる攻撃に対してdeoy stateメソッドの正式なセキュリティ証明を与える。 多光子パルスに対する広く知られている2つの攻撃を比較する:光子数分割とビーム分割。 最後に、分極と位相符号化の等価性について述べる。

Quantum cryptography or, more precisely, quantum key distribution (QKD), is one of the advanced areas in the field of quantum technologies. The confidentiality of keys distributed with the use of QKD protocols is guaranteed by the fundamental laws of quantum mechanics. This paper is devoted to the decoy state method, a countermeasure against vulnerabilities caused by the use of coherent states of light for QKD protocols whose security is proved under the assumption of single-photon states. We give a formal security proof of the decoy state method against all possible attacks. We compare two widely known attacks on multiphoton pulses: photon-number splitting and beam splitting. Finally, we discuss the equivalence of polarization and phase coding.
翻訳日:2023-04-14 00:40:12 公開日:2021-03-27
# プロトン化メタンの低エネルギー振動準位構造を正確に解く1次元モデル

Exactly solvable 1D model explains the low-energy vibrational level structure of protonated methane ( http://arxiv.org/abs/2102.06424v2 )

ライセンス: Link先を確認
Jonathan I. Rawlinson, Csaba F\'abri and Attila G. Cs\'asz\'ar(参考訳) 60-vertex graph ${\gamma}_{60}$ を単一辺長パラメータで閉じ込めた有効粒子の運動に基づいて, ch5+ の低エネルギー振動量子力学に対する新しい一次元モデルを提案した。 このモデルの中で、CH5+の量子状態は解析的な形で得られ、${\Gamma}_{60}$の組合せの性質と関連している。 ${\Gamma}_{60}$ の双部構造は、CH5+ 上の数値的正確な変分計算で観測される好奇対称性の簡単な説明を与える。

A new one-dimensional model is proposed for the low-energy vibrational quantum dynamics of CH5+ based on the motion of an effective particle confined to a 60-vertex graph ${\Gamma}_{60}$ with a single edge length parameter. Within this model, the quantum states of CH5+ are obtained in analytic form and are related to combinatorial properties of ${\Gamma}_{60}$. The bipartite structure of ${\Gamma}_{60}$ gives a simple explanation for curious symmetries observed in numerically exact variational calculations on CH5+.
翻訳日:2023-04-11 08:13:22 公開日:2021-03-27
# planckスケールはqubitsにどのように影響するか?

How does the Planck scale affect qubits? ( http://arxiv.org/abs/2103.03093v2 )

ライセンス: Link先を確認
Matthew J. Lake(参考訳) 量子重力におけるゲダンケン実験は一般の不確実性関係(gurs)を動機付け、プランクスケールに近い標準量子統計からの逸脱を示唆する。 これらの偏差は波動関数の非スピン部分に対して広範囲に研究されてきたが、既存のモデルではスピン状態は量子物質が伝播する背景の量子化によって影響を受けないと仮定している。 ここでは、古典点のプランクスケールスミアリングが角運動量に対して GUR を生成する非局所幾何学の新しいモデルについて検討する。 これらは、スピン不確実性関係の類似した一般化を意味する。 新しい関係は、物質-幾何相互作用を記述する複合状態の両部分空間上で非自明に作用する {\rm su(2)} の新しい表現に対応する。 単粒子の場合、スピン行列は4つの独立固有ベクトルを持ち、2ドルの縮退固有値である$\pm (\hbar + \beta)/2$に対応する。 これらは量子背景幾何学に浸漬された量子粒子のスピン状態を表し、相互作用項の直接の結果として$\beta$による補正が現れる。 標準的な量子ビット状態である $\ket{0} = \ket{\uparrow}$ と $\ket{1} = \ket{\downarrow}$ に加えて、粒子のスピンが変動する時空のスピンセクタと絡み合う2つの新しい固有状態が存在する。 得られた'幾何学的'量子ビット, $\ket{0'}$ と $\ket{1'}$ をそれらの標準値と経験的に区別する方法を探る。

Gedanken experiments in quantum gravity motivate generalised uncertainty relations (GURs) implying deviations from the standard quantum statistics close to the Planck scale. These deviations have been extensively investigated for the non-spin part of the wave function but existing models tacitly assume that spin states remain unaffected by the quantisation of the background in which the quantum matter propagates. Here, we explore a new model of nonlocal geometry in which the Planck-scale smearing of classical points generates GURs for angular momentum. These, in turn, imply an analogous generalisation of the spin uncertainty relations. The new relations correspond to a novel representation of {\rm SU(2)} that acts nontrivially on both subspaces of the composite state describing matter-geometry interactions. For single particles each spin matrix has four independent eigenvectors, corresponding to two $2$-fold degenerate eigenvalues $\pm (\hbar + \beta)/2$, where $\beta$ is a small correction to the effective Planck's constant. These represent the spin states of a quantum particle immersed in a quantum background geometry and the correction by $\beta$ emerges as a direct result of the interaction terms. In addition to the canonical qubits states, $\ket{0} = \ket{\uparrow}$ and $\ket{1} = \ket{\downarrow}$, there exist two new eigenstates in which the spin of the particle becomes entangled with the spin sector of the fluctuating spacetime. We explore ways to empirically distinguish the resulting `geometric' qubits, $\ket{0'}$ and $\ket{1'}$, from their canonical counterparts.
翻訳日:2023-04-09 02:28:08 公開日:2021-03-27
# 低対称性系の結晶場パラメータテストとしての電子-核相互作用:ho$^{3+}$ doped y$_2$sio$_5$のゼーマン超微細構造

Electron-Nuclear Interactions as a Test of Crystal-Field Parameters for Low Symmetry Systems: Zeeman-Hyperfine Spectroscopy of Ho$^{3+}$ Doped Y$_2$SiO$_5$ ( http://arxiv.org/abs/2103.09343v2 )

ライセンス: Link先を確認
Sagar Mothkuri, Michael F. Reid, Jon-Paul R. Wells, Elo\"ise Lafitte-Houssat, Philippe Goldner, Alban Ferrier(参考訳) 電子核超微粒子レベルの高分解能ゼーマン分光法は、Ho$^{3+}$:Y$_2$SiO$_5$において、${^5\mathrm{I}_8}\rightarrow{^5\mathrm{I}_7}$遷移を報告している。 Er$^{3+}$:Y$_2$SiO$_5$の2つの対称性サイトに対して決定された結晶場パラメータは、外部磁場の影響下での超微粒子レベルの交差を避けることを含むゼーマン超微粒子データのモデル化に成功している。 2つの6-および7-配位置換部位は、スペクトルと結晶場計算を比較して区別することができる。

High-resolution Zeeman spectroscopy of electronic-nuclear hyperfine levels of ${^5\mathrm{I}_8}\rightarrow{^5\mathrm{I}_7}$ transitions in Ho$^{3+}$:Y$_2$SiO$_5$ is reported. Crystal-field parameters determined for the two $C_1$ symmetry sites in Er$^{3+}$:Y$_2$SiO$_5$ are successfully used to model the Zeeman-hyperfine data, including the prediction of avoided crossings between hyperfine levels under the influence of an external magnetic field. The two six- and seven-coordinate substitutional sites may be distinguished by comparing the spectra with crystal-field calculations.
翻訳日:2023-04-07 23:12:57 公開日:2021-03-27
# 量子チャネルの絡み合い資源理論

Entanglement resource theory of quantum channel ( http://arxiv.org/abs/2103.09409v2 )

ライセンス: Link先を確認
Huaqi Zhou, Ting Gao, Fengli Yan(参考訳) 量子チャネルは多くの物理シナリオにおいて必須の要素である動的リソースを表現できる。 チャネルの非古典性の特定の面を記述するには、それらの性質を定量化する必要がある。 量子チャネルの資源理論の枠組みでは、チャネルの絡み合い測度を構成する2つの一般的な方法を示す。 また,チャネルのChoi相対エントロピー,コンカレンス,および$k$-MEコンカレンスに基づくチャネルの絡み合い測定を行い,いくつかの具体例を示す。 これらのチャネルの絡み合い測度は、チャネルに関する認識を深め、コヒーレントリソースと絡み合うリソースの変換に関する研究を進めることができる。 さらに,これらの測度が非ネガティビティ,単調性,凸性などを含む性質を満たすことを証明した。

Quantum channels can represent dynamic resources, which are indispensable elements in many physical scenarios. To describe certain facets of nonclassicality of the channels, it is necessary to quantify their properties. In the framework of resource theory of quantum channel, we show two general ways of constructing entanglement measure of channels. We also present several entanglement measures of channels based on the Choi relative entropy of channels, concurrence and $k$-ME concurrence and give some specific examples. These entanglement measures of channels can deepen the cognizing about channel and advance the research on the transformation between coherent resources and entangled resources. In addition, we prove that these measures satisfy the properties including nonnegativity, monotonicity, convexity and so on.
翻訳日:2023-04-07 21:24:15 公開日:2021-03-27
# 量子場理論における$\PT$対称性と再正規化

$\PT$ Symmetry and Renormalisation in Quantum Field Theory ( http://arxiv.org/abs/2103.14864v1 )

ライセンス: Link先を確認
Carl M Bender, Alexander Felski, S P Klevansky and Sarben Sarkar(参考訳) 非エルミート・ハミルトニアンと$\PT$対称性によって支配される量子系は、以下に有界な実エネルギー固有値とユニタリ時間進化を持つことに特有である。 我々は、$\PT$対称性もまた重要であり、再正規化の過程のため、エルミート量子場理論のレベルに存在するかもしれないと論じる。 いくつかの量子場理論では、再正規化は$\pt$-symmetric effective lagrangian をもたらす。 我々は、$\PT$対称性が、エルミート的枠組みにおける理論の解釈において幽霊や不安定性を避ける解釈を許容することを示す。 例の研究から、$\pt$-symmetric の解釈は自然に場の量子論の経路積分的定式化に構成され、ハミルトン量子論で起こる$\pt$ のノルムを明示的に計算する必要はない。 我々は、再正規化の影響によりエルミート場理論から$\PT$対称場理論が出現する例について議論する。 また、初期から非エルミート的だが$\pt$-対称な場の理論に対する再正規化の効果も考慮する。

Quantum systems governed by non-Hermitian Hamiltonians with $\PT$ symmetry are special in having real energy eigenvalues bounded below and unitary time evolution. We argue that $\PT$ symmetry may also be important and present at the level of Hermitian quantum field theories because of the process of renormalisation. In some quantum field theories renormalisation leads to $\PT$-symmetric effective Lagrangians. We show how $\PT$ symmetry may allow interpretations that evade ghosts and instabilities present in an interpretation of the theory within a Hermitian framework. From the study of examples $\PT$-symmetric interpretation is naturally built into a path integral formulation of quantum field theory; there is no requirement to calculate explicitly the $\PT$ norm that occurs in Hamiltonian quantum theory. We discuss examples where $\PT$-symmetric field theories emerge from Hermitian field theories due to effects of renormalization. We also consider the effects of renormalization on field theories that are non-Hermitian but $\PT$-symmetric from the start.
翻訳日:2023-04-06 17:12:52 公開日:2021-03-27
# 没入型仮想現実のためのハンドトラッキング:機会と課題

Hand tracking for immersive virtual reality: opportunities and challenges ( http://arxiv.org/abs/2103.14853v1 )

ライセンス: Link先を確認
Gavin Buckingham(参考訳) 近年の没入型仮想現実ヘッドマウントディスプレイでは、ハンドトラッキングが不可欠な機能となっている。 この機能の普及により、ハードウェアエンジニアとソフトウェア開発者は、多くのエキサイティングな機会と、多くの課題に直面している。 本稿では、没入型仮想現実(vr)に価値を加えるための手追跡の主な可能性と、人間の心理と神経科学の文脈における潜在的な課題について概説する。 本論文は,次世代の手追跡技術と仮想現実技術の発展に向けての分野におけるベストプラクティス開発のロードマップとして機能することが期待される。

Hand tracking has become an integral feature of recent generations of immersive virtual reality head-mounted displays. With the widespread adoption of this feature, hardware engineers and software developers are faced with an exciting array of opportunities and a number of challenges, mostly in relation to the human user. In this article, I outline what I see as the main possibilities for hand tracking to add value to immersive virtual reality as well as some of the potential challenges in the context of the psychology and neuroscience of the human user. It is hoped that this paper serves as a roadmap for the development of best practices in the field for the development of subsequent generations of hand tracking and virtual reality technologies.
翻訳日:2023-04-06 17:12:34 公開日:2021-03-27
# 独立観測値による量子非局所性と真の非局所性を共有する

Sharing quantum nonlocality and genuine nonlocality with independent observables ( http://arxiv.org/abs/2103.14836v1 )

ライセンス: Link先を確認
Tinggui Zhang and Shao-Ming Fei(参考訳) 最近[phys. rev. lett. 125, 090401 (2020)]の著者は以下のシナリオを検討した。 ボブは半分を計測し、再び測定する2番目のボブにその役割を譲る。 目標は、シングル・アリスとクレイザー=ホルン=シモニー=ホルト(CHSH)の不平等を犯す可能性のあるボブの数を最大化することである。 極大に絡み合った純粋な2量子状態の例を例にとると、任意の数の独立したボブが単独のアリスと非局所性を共有できることが建設的に証明されている。 ここでは,任意の数の独立オブザーバが,任意の2次元の2次元エンタングル状態の非局所性を共有できることを実証する。 さらに、一般化されたGHZ状態を例として、少なくとも2つのチャーリーが1つの一般化されたGHZ状態の真の非局所性をアリスとボブと共有できることが示される。

Recently the authors in [Phys. Rev. Lett. 125, 090401 (2020)] considered the following scenario: Alice and Bob each have half of a pair of entangled qubit state. Bob measures his half and then passes his part to a second Bob who measures again and so on. The goal is to maximize the number of Bobs that can have an expected violation of the Clauser-Horne-Shimony-Holt (CHSH) inequality with the single Alice. By taking the maximally entangled pure two-qubit state as an example, it has been constructively proved that arbitrarily many independent Bobs can share the nonlocality with the single Alice. Here we demonstrate that arbitrarily many independent observers can share the nonlocality of a single arbitrary dimensional bipartite entangled but not necessary two-qubit entangled state. Further, taking the generalized GHZ states as an example, we show that at most two Charlies can share the genuine nonlocality of a single generalized GHZ state with an Alice and a Bob.
翻訳日:2023-04-06 17:12:15 公開日:2021-03-27
# 遺伝的アルゴリズムの付加適合関数に対する重み係数の決定

Determination of weight coefficients for additive fitness function of genetic algorithm ( http://arxiv.org/abs/2103.14833v1 )

ライセンス: Link先を確認
V. K. Ivanov, D. S. Dumina, N. A. Semenov(参考訳) 本稿では,遺伝的アルゴリズムの適応性関数に対する重み要因の解析的決定法を選択するための解決策を提案する。 このアルゴリズムは、非常に関連性の高い結果を得るために、安定かつ効果的なクエリ集団を形成する進化過程の基礎である。 この論文は、3つの不均一な基準の重み付き和であるアルゴリズム適合関数の形式的記述を与える。 重量因子の分析的決定のための選択された方法の詳細を述べる。 専門家による評価手法の使用は不可能である。 筆者らは,提案プロジェクト"Data Warehouse Support on the Base Intellectual Web Crawler and Evolutionary Model for Target Information Selection"において,実験結果を用いた研究手法を提案する。 重量を計算するためのデータ範囲を持つ初期データセットの記述がある。 計算順序は例によって示される。 本研究は, 遺伝的アルゴリズムの動作中に, 様々な重み付けオプションを用いて適合度関数の挙動を示す。

The paper presents a solution for the problem of choosing a method for analytical determining of weight factors for a genetic algorithm additive fitness function. This algorithm is the basis for an evolutionary process, which forms a stable and effective query population in a search engine to obtain highly relevant results. The paper gives a formal description of an algorithm fitness function, which is a weighted sum of three heterogeneous criteria. The selected methods for analytical determining of weight factors are described in detail. It is noted that expert assessment methods are impossible to use. The authors present a research methodology using the experimental results from earlier in the discussed project "Data Warehouse Support on the Base Intellectual Web Crawler and Evolutionary Model for Target Information Selection". There is a description of an initial dataset with data ranges for calculating weights. The calculation order is illustrated by examples. The research results in graphical form demonstrate the fitness function behavior during the genetic algorithm operation using various weighting options.
翻訳日:2023-04-06 17:11:57 公開日:2021-03-27
# 導波路としてのワームホール:角運動量ゼロの量子粒子の場合

Wormhole as a Waveguide: Case of Quantum Particles with Zero Angular Momentum ( http://arxiv.org/abs/2103.14815v1 )

ライセンス: Link先を確認
Victor Atanasov, Rossen Dandoloff and Avadh Saxena(参考訳) 我々は、静的ワームホールを導波路とみなし、角運動量ゼロの量子粒子に対するワームホール導波路を通した完全な伝送条件を決定する。 量子粒子のド・ブロイの波長がワームホールの直径の2倍の整数であるとき、導波路は透明であることがわかった。 このような効果は、グラフェン、プラズモンまたは光学ワームホールで実現可能である。

We consider a static wormhole as a waveguide and determine the conditions for full transmission through the wormhole waveguide for a quantum particle with zero angular momentum. We find that the waveguide is transparent when the de Broglie wavelength of the quantum particle is an integer times twice the throat diameter of the wormhole. Such an effect may be realizable in graphene, plasmonic or optical wormholes.
翻訳日:2023-04-06 17:11:40 公開日:2021-03-27
# 制御不能な識別性に基づくコヒーレンスによる実験的量子位相識別

Experimental quantum phase discrimination enhanced by controllable indistinguishability-based coherence ( http://arxiv.org/abs/2103.14802v1 )

ライセンス: Link先を確認
Kai Sun, Zheng-Hao Liu, Yan Wang, Ze-Yan Hao, Xiao-Ye Xu, Jin-Shi Xu, Chuan-Feng Li, Guang-Can Guo, Alessia Castellini, Ludovico Lami, Andreas Winter, Gerardo Adesso, Giuseppe Compagno, Rosario Lo Franco(参考訳) 量子コヒーレンス(quantum coherence)は、量子状態の重ね合わせに存在する量子力学の基本特徴であり、量子情報処理の資源である。 コヒーレンスは、非同一粒子と同一粒子に対して根本的に異なる方法で出現し、後者に対しては、非同一粒子では起こり得ない非識別可能性に一意な寄与が存在する。 我々は、この量子コヒーレンスへの追加的な寄与を光学装置で実験的に実証し、その量が不明瞭性の程度に直接依存し、量子位相判別プロトコルを実行するためにそれを利用することを示す。 さらに、この設計ではフェルミオン粒子を光子でシミュレートすることができ、コヒーレンス生成と利用における粒子統計(ボソンまたはフェルミオン)の役割を評価することができる。 実験により, 独立な非識別性粒子は, 制御可能なコヒーレンス資源を量子メトロロジーに供給できることが証明された。

Quantum coherence, a basic feature of quantum mechanics residing in superpositions of quantum states, is a resource for quantum information processing. Coherence emerges in a fundamentally different way for nonidentical and identical particles, in that for the latter a unique contribution exists linked to indistinguishability which cannot occur for nonidentical particles. We experimentally demonstrate by an optical setup this additional contribution to quantum coherence, showing that its amount directly depends on the degree of indistinguishability and exploiting it to run a quantum phase discrimination protocol. Furthermore, the designed setup allows for simulating Fermionic particles with photons, thus assessing the role of particle statistics (Bosons or Fermions) in coherence generation and utilization. Our experiment proves that independent indistinguishable particles can supply a controllable resource of coherence for quantum metrology.
翻訳日:2023-04-06 17:11:33 公開日:2021-03-27
# ワームホールによるセキュアな量子通信

Secure quantum communication through a wormhole ( http://arxiv.org/abs/2103.14996v1 )

ライセンス: Link先を確認
Grzegorz Czelusta, Jakub Mielczarek(参考訳) 理論的な証拠の蓄積は、ある多体量子系における量子絡み合いの顕現としての重力像に寄与する。 これは特に ER=EPR 予想において表現されており、これは重力アインシュタイン-ローゼン(ER)橋とアインシュタイン-ポドルスキー-ローゼン(EPR)量子絡み合ったペア、あるいはより一般的にはサーモフィールド二重状態(英語版)と関係している。 この手紙において、er=epr予想はユニタリ量子テレポーテーションプロトコルを導入するために用いられ、アインシュタイン-ローゼン橋の絡み合いは、アインシュタイン-ローゼン橋の横断的一般化を形成する。 その結果、ワームホールは量子テレポーテーションによって影響を受けない。 さらに、このプロトコルは量子通信の無条件セキュリティを保証することが示されている。 プロトコルの性能は、5量子ビットのsantiago ibm量子コンピュータを用いて簡単な設定で実証され、テレポート状態の代表セットに対して2/3ドルの古典的制限を超えるフィデリティを与える。 プロトコルのセキュリティは、ノイズ量子プロセッサを用いた実験的研究によってサポートされている。 このプロトコルの一般化は、マクロ的な重力配置の文脈で関係がある可能性がある。

An accumulation of theoretical evidence contribute to the picture of gravity as a manifestation of quantum entanglement in a certain many-body quantum system. This is in particular expresses in the ER=EPR conjecture, which relates gravitational Einstein-Rosen (ER) bridge with the Einstein-Podolsky-Rosen (EPR) quantum entangled pairs or, more generally, with the so-called Thermofield Double State. In this letter, the ER=EPR conjecture is employed to introduce unitary quantum teleportation protocol, which \emph{recycles} the entanglement forming traversable generalization of the Einstein-Rosen bridge. In consequence, the wormhole remains unaffected by the quantum teleportation. Furthermore, it is shown that the protocol guarantees the unconditional security of the quantum communication. Performance of the protocol is demonstrated in a simple setting with the use of 5-qubit Santiago IBM quantum computer, giving fidelities above the $2/3$ classical limit for a representative set of teleported states. Security of the protocol has been supported by experimental studies performed with the use of the noisy quantum processor. Possible generalization of the protocol, which may have relevance in the context of macroscopic gravitational configurations, is also considered.
翻訳日:2023-04-06 17:02:37 公開日:2021-03-27
# 2つの表現の物語:光吸収におけるエネルギーと時間

A Tale of Two Representations: Energy and Time in Photoabsorption ( http://arxiv.org/abs/2103.14985v1 )

ライセンス: Link先を確認
A. R. P. Rau(参考訳) このエッセイは、AAMOS20(Advanceds in Atomic, Molecular, and Optical Sciences 2020)でのS・T・マンソン教授の光吸収研究への数十年にわたる貢献を称えるシンポジウムに基づいている。 量子物理学は、特定の相補関係を持つ共役量の物理ペアに導入され、エネルギーと時間はそのようなペアである。 これにより、時間に依存しない表現と時間に依存しない表現の2つの代替表現が生まれ、全く異なるように見えるが、どちらも同じ物理学を受け入れることができる。 彼らは、技術的問題、理論的および実験的に補完的な説明と洞察を与え、どの点においてより便利で実践可能なものかを判断する。 最近の2つのトピックは、Cl$^-$とArにおける光吸収のクーパー・ミニマと、WSe$_2$におけるSeからの$f$光電子の角モメンタムバリアトンネルである。

This essay is based on a talk at Advances in Atomic, Molecular, and Optical Sciences 2020 (AAMOS20) in a symposium honoring Prof. S. T. Manson's decades-long contribution to photoabsorption studies. Quantum physics introduced into physics pairs of conjugate quantities bearing a specific complementary relationship, energy and time being one such pair. This gives rise to two alternative representations, a time-dependent and a time-independent one, seemingly very different but both capable of embracing the same physics. They give complementary descriptions and insight, with technical questions, theoretical and experimental, determining which may be the more convenient and practicable at any juncture. Two recent topics, Cooper minima in photoabsorption in Cl$^-$ and Ar, and angular-momentum barrier tunneling of $f$ photoelectrons from Se in WSe$_2$, provide illustrative examples, also of the role that technological developments over the past five decades played in our approach to and understanding of phenomena.
翻訳日:2023-04-06 17:02:15 公開日:2021-03-27
# 量子光コヒーレンストモグラフィにおける古典光の利用について

On using classical light in Quantum Optical Coherence Tomography ( http://arxiv.org/abs/2103.14967v1 )

ライセンス: Link先を確認
Jakub Szlachetka, Sylwia Kolenderska, Piotr Kolenderski(参考訳) 量子コヒーレンス・トモグラフィ(Q-OCT)は、従来のオプティカル・コヒーレンス・トモグラフィ(OCT)に比べて多くの利点がある。 Q-OCTの中核は、香港・ウーマンデル構成で得られた負相関の光子対の量子干渉である。 この2光子干渉は、時間領域においてディップの形で観測されるか、結合スペクトルによってフーリエ領域で観察することができる。 後者のアプローチは、q-octで光に作用する条件を緩和し、厳密な負の相関を示すという意味では実用的であり、これはフーリエ領域において結合スペクトルの正対角として容易に負の相関を抽出できるためである。 本研究は、古典的な低強度光パルスで量子干渉が得られるこのスペクトルアプローチの利用について検討する。 理論計算とその実験的検証を報告し, 古典光は実験系への打ち上げが容易であるが, 絡み合った光に基づくq-octに比べ, 限定的な利点があることを示した。 交絡光子と古典光で得られた接合スペクトルの特性の相違を分析し,これらの相違の原因を説明する。

Quantum Optical Coherence Tomography (Q-OCT) presents many advantages over its classical counterpart, Optical Coherence Tomography (OCT): it provides an increased axial resolution and is immune to even orders of dispersion. The core of Q-OCT is quantum interference of negatively correlated entangled photon pairs obtained in a Hong-Ou-Mandel configuration. This two-photon interference can be observed in the time domain in the form of dips or in the Fourier domain by means of a joint spectrum. The latter approach proved to be practical in the sense that it alleviated the requirement posed on light in Q-OCT to exhibit strict negative correlations, since the negative correlations can be easily extracted in the Fourier domain as the main diagonal of the joint spectrum. In this work, we investigate the use of this spectral approach in which quantum interference is obtained with classical low-intensity light pulses. We report theoretical calculations and their experimental validation and show that although such classical light is much easier to launch into an experimental system, it offers limited benefits as compared to Q-OCT based on entangled light. We analyse the differences in the characteristics of the joint spectrum obtained with entangled photons and with classical light and explain the origins of these differences.
翻訳日:2023-04-06 17:01:54 公開日:2021-03-27
# lego serious playを用いた管理教育のための探索学習環境

Exploratory Learning Environments for Responsible Management Education Using Lego Serious Play ( http://arxiv.org/abs/2104.12539v1 )

ライセンス: Link先を確認
Vasilis Gkogkidis, Nicholas Dacre(参考訳) 責任ある経営教育の研究は、責任あるビジネススクール教育の目的を高めるためのメリット、属性、変革の機会に主に焦点を当てている。 このように、責任ある管理モジュールが本質的にカリキュラムの非批判的要素であるかどうかを調べ、ビジネススクールがカリキュラムにそのような学習内容を導入する程度を判断する上で、文献の顕著な部分を占めてきた。 しかし、新しい指導手法を学生の関与に応用し、責任ある経営教育を促進させる方法については、少なからぬ研究がなされている。 そこで本稿は,責任ある経営教育に焦点をあてた効果的な学習環境設計を支援する教育枠組みの開発を通じて,このギャップに対処しようとするものである。 教育的枠組みを開発するための学習強化アプローチとして,構成主義的学習理論とlego serious play (lsp) を取り上げる。 lspは、重要な談話を促進し、社会的、経済的、環境的、組織的といった非常に複雑な問題に取り組むために、学習環境への応用が増えているため選択される。

Research into responsible management education has largely focused on the merits, attributes, and transformation opportunities to enhance responsible business school education aims. As such, a prominent part of the literature has occupied itself with examining if responsible management modules are inherently considered a non-crucial element of the curriculum and determining the extent to which business schools have introduced such learning content into their curriculum. However, there has been scant research into how to apply novel teaching approaches to engage students and promote responsible management education endeavours. As such, this paper seeks to address this gap through the development of a teaching framework to support educators in designing effective learning environments focused on responsible management education. We will draw on constructivist learning theories and Lego Serious Play (LSP) as a learning enhancement approach to develop a pedagogical framework. LSP is selected due to its increasing application in learning environments to help promote critical discourse, and engage with highly complex problems, whether these are social, economic, environmental, or organisational.
翻訳日:2023-04-06 16:52:42 公開日:2021-03-27
# 機械学習は自然言語処理と出会う -- これまでの話

Machine Learning Meets Natural Language Processing -- The story so far ( http://arxiv.org/abs/2104.10213v1 )

ライセンス: Link先を確認
N.-I. Galanis, P. Vafiadis, K.-G. Mirzaev, G.A. Papakostas(参考訳) 自然言語処理(NLP)はこの10年間で大きく進化してきた。 本稿では、各モデルとアルゴリズムの全体的な進歩への貢献を特定しつつ、この期間における最も重要なマイルストーンを強調する。 さらに、まだ解決すべき課題に焦点を合わせ、Transformers、BERT、および同様の注意ベースのモデルに対する画期的な提案を強調している。

Natural Language Processing (NLP) has evolved significantly over the last decade. This paper highlights the most important milestones of this period while trying to pinpoint the contribution of each individual model and algorithm to the overall progress. Furthermore, it focuses on issues still remaining to be solved, emphasizing the groundbreaking proposals of Transformers, BERT, and all the similar attention-based models.
翻訳日:2023-04-06 16:52:24 公開日:2021-03-27
# センサ性能最適化のためのディープラーニングによる回帰

Regression with Deep Learning for Sensor Performance Optimization ( http://arxiv.org/abs/2002.11044v2 )

ライセンス: Link先を確認
Ruthvik Vaila, Denver Lloyd, Kevin Tetz(参考訳) 少なくとも2つの隠れ層を持つニューラルネットワークはディープネットワークと呼ばれる。 AIやコンピュータプログラミング全般の最近の進歩は、データから結論をモデル化し引き出すのを容易にするTensorflow、Keras、NumPyなどのツールの開発につながっている。 本研究では、kerasとtensorflowによって実現されたディープラーニングを用いて、非線形回帰を再適用する。 特に,産業用センサの入力と出力の非線形多変量関係をパラメータ化するためにディープラーニングを用いて,選択したキーメトリクスに基づいてセンサ性能を最適化する。

Neural networks with at least two hidden layers are called deep networks. Recent developments in AI and computer programming in general has led to development of tools such as Tensorflow, Keras, NumPy etc. making it easier to model and draw conclusions from data. In this work we re-approach non-linear regression with deep learning enabled by Keras and Tensorflow. In particular, we use deep learning to parametrize a non-linear multivariate relationship between inputs and outputs of an industrial sensor with an intent to optimize the sensor performance based on selected key metrics.
翻訳日:2022-12-29 19:10:09 公開日:2021-03-27
# dcnas: セマンティックイメージセグメンテーションのための密結合型ニューラルネットワーク探索

DCNAS: Densely Connected Neural Architecture Search for Semantic Image Segmentation ( http://arxiv.org/abs/2003.11883v2 )

ライセンス: Link先を確認
Xiong Zhang, Hongmin Xu, Hong Mo, Jianchao Tan, Cheng Yang, Lei Wang, Wenqi Ren(参考訳) ニューラルネットワーク探索(NAS)は、高密度画像予測のためにスケーラブルなネットワークアーキテクチャを自動設計する大きな可能性を示している。 しかし、既存のNASアルゴリズムは通常、制限された検索スペースとプロキシタスクを妥協して、達成可能な計算要求を満たす。 ネットワークアーキテクチャを可能な限り広くし,ターゲットとプロキシデータセットのギャップを回避するために,大規模ターゲットデータセット上で視覚情報のマルチスケール表現に最適なネットワーク構造を直接検索するDensely Connected NAS(DCNAS)フレームワークを提案する。 具体的には,学習可能な重みを使ってセルを相互に接続することにより,多数の主流ネットワーク設計をカバーする密結合型検索空間を導入する。 さらに,経路レベルとチャネルレベルの両方のサンプリング戦略を組み合わせることで,全検索空間のメモリ消費を削減するための融合モジュールを設計する。 dcnasアルゴリズムから得られたアーキテクチャは,都市景観の84.3%,パスカルvoc 2012の86.9%を含む,パブリックセマンティックイメージセグメンテーションベンチマークで最先端のパフォーマンスを達成している。 また、より困難なADE20KとPascal Contextデータセットでアーキテクチャを評価する際にも、主要なパフォーマンスを保持します。

Neural Architecture Search (NAS) has shown great potentials in automatically designing scalable network architectures for dense image predictions. However, existing NAS algorithms usually compromise on restricted search space and search on proxy task to meet the achievable computational demands. To allow as wide as possible network architectures and avoid the gap between target and proxy dataset, we propose a Densely Connected NAS (DCNAS) framework, which directly searches the optimal network structures for the multi-scale representations of visual information, over a large-scale target dataset. Specifically, by connecting cells with each other using learnable weights, we introduce a densely connected search space to cover an abundance of mainstream network designs. Moreover, by combining both path-level and channel-level sampling strategies, we design a fusion module to reduce the memory consumption of ample search space. We demonstrate that the architecture obtained from our DCNAS algorithm achieves state-of-the-art performances on public semantic image segmentation benchmarks, including 84.3% on Cityscapes, and 86.9% on PASCAL VOC 2012. We also retain leading performances when evaluating the architecture on the more challenging ADE20K and Pascal Context dataset.
翻訳日:2022-12-19 21:42:36 公開日:2021-03-27
# AdaStereo: 適応ステレオマッチングのためのシンプルで効率的なアプローチ

AdaStereo: A Simple and Efficient Approach for Adaptive Stereo Matching ( http://arxiv.org/abs/2004.04627v3 )

ライセンス: Link先を確認
Xiao Song, Guorun Yang, Xinge Zhu, Hui Zhou, Zhe Wang, Jianping Shi(参考訳) 近年、ステレオマッチングベンチマークのレコードは、エンドツーエンドの格差ネットワークによって常に壊れている。 しかし、これらの深層モデルのドメイン適応能力は極めて貧弱である。 このような問題に対処するために,我々は,深層ステレオマッチングネットワークのためのマルチレベル表現の整合を目的とした,adastereoと呼ばれる新しいドメイン適応パイプラインを提案する。 従来の適応ステレオマッチング法と比較して、adastereoはより標準的で完全で効果的なドメイン適応パイプラインを実現する。 まず,入力画像レベルアライメントのための非逆プログレッシブカラー転送アルゴリズムを提案する。 第二に、内部特徴量アライメントのための効率的なパラメータフリーコスト正規化層を設計する。 最後に,高度に関連する補助課題である自己教師付き咬合認識再構成を行い,出力空間のギャップを狭めることを提案する。 当社のadastereoモデルは,kitti, middlebury, eth3d, drivingstereoなど,複数のステレオベンチマークで最先端のクロスドメイン性能を実現しています。

Recently, records on stereo matching benchmarks are constantly broken by end-to-end disparity networks. However, the domain adaptation ability of these deep models is quite poor. Addressing such problem, we present a novel domain-adaptive pipeline called AdaStereo that aims to align multi-level representations for deep stereo matching networks. Compared to previous methods for adaptive stereo matching, our AdaStereo realizes a more standard, complete and effective domain adaptation pipeline. Firstly, we propose a non-adversarial progressive color transfer algorithm for input image-level alignment. Secondly, we design an efficient parameter-free cost normalization layer for internal feature-level alignment. Lastly, a highly related auxiliary task, self-supervised occlusion-aware reconstruction is presented to narrow down the gaps in output space. Our AdaStereo models achieve state-of-the-art cross-domain performance on multiple stereo benchmarks, including KITTI, Middlebury, ETH3D, and DrivingStereo, even outperforming disparity networks finetuned with target-domain ground-truths.
翻訳日:2022-12-15 03:02:45 公開日:2021-03-27
# 自動パラメータ選択による正規化線形判別分析分類器

A Doubly Regularized Linear Discriminant Analysis Classifier with Automatic Parameter Selection ( http://arxiv.org/abs/2004.13335v2 )

ライセンス: Link先を確認
Alam Zaib, Tarig Ballal, Shahid Khattak and Tareq Y. Al-Naffouri(参考訳) 線形判別分析 (lda) に基づく分類器は、訓練データのサイズが特徴数よりも小さい、あるいは同等である多くの実用的な設定で変化しがちである。 治療法として、異なる正規化LDA(RLDA)法が提案されている。 これらの手法は、利用可能なトレーニングデータのサイズや品質によっては、まだ性能が低下する可能性がある。 特に、例えば騒音汚染によるトレーニングデータモデルからの試験データ逸脱は、深刻な性能劣化を引き起こす可能性がある。 さらに、これらの手法は正規化パラメータを調整するためにガウスの仮定(LDAが確立された場合)にさらにコミットし、実際のデータを扱う際の精度を損なう可能性がある。 これらの問題に対処するため、R2LDAと表記する2つの正規化LDA分類器を提案する。 提案したR2LDAアプローチでは、RLDAスコア関数は2つのベクトルの内部積に変換される。 これらのベクトルの正規化推定子の式を置換することにより、2つの正規化パラメータを含むR2LDAスコア関数を得る。 これらのパラメータの値を設定するために、制約摂動正規化手法(COPRA)、境界摂動正規化アルゴリズム(BPR)、一般化クロスバリデーション法(GCV)の3つの既存の正則化手法を採用する。 これらの方法は、サンプル共分散行列の平方根を線形作用素として、線形推定モデルに基づく正規化パラメータのチューニングに使用される。 合成データと実データの両方から得られた結果は,R2LDAアプローチの一貫性と有効性を示すものである。

Linear discriminant analysis (LDA) based classifiers tend to falter in many practical settings where the training data size is smaller than, or comparable to, the number of features. As a remedy, different regularized LDA (RLDA) methods have been proposed. These methods may still perform poorly depending on the size and quality of the available training data. In particular, the test data deviation from the training data model, for example, due to noise contamination, can cause severe performance degradation. Moreover, these methods commit further to the Gaussian assumption (upon which LDA is established) to tune their regularization parameters, which may compromise accuracy when dealing with real data. To address these issues, we propose a doubly regularized LDA classifier that we denote as R2LDA. In the proposed R2LDA approach, the RLDA score function is converted into an inner product of two vectors. By substituting the expressions of the regularized estimators of these vectors, we obtain the R2LDA score function that involves two regularization parameters. To set the values of these parameters, we adopt three existing regularization techniques; the constrained perturbation regularization approach (COPRA), the bounded perturbation regularization (BPR) algorithm, and the generalized cross-validation (GCV) method. These methods are used to tune the regularization parameters based on linear estimation models, with the sample covariance matrix's square root being the linear operator. Results obtained from both synthetic and real data demonstrate the consistency and effectiveness of the proposed R2LDA approach, especially in scenarios involving test data contaminated with noise that is not observed during the training phase.
翻訳日:2022-12-08 22:15:26 公開日:2021-03-27
# copent: r における copula entropy と transfer entropy の推定

copent: Estimating Copula Entropy and Transfer Entropy in R ( http://arxiv.org/abs/2005.14025v3 )

ライセンス: Link先を確認
Jian Ma(参考訳) 統計的独立と条件独立は統計学と機械学習の2つの基本的な概念である。 コピュラエントロピー(Copula Entropy)は、多変量統計独立度測定とテストのためにMaとSunによって定義された数学的概念であり、条件付き独立度(あるいは移動エントロピー)と密接に関連していることが証明された。 独立性と因果性を測定するための統一的なフレームワークとして、ceは関連づけられた統計や機械学習の問題、例えば関連発見、構造学習、変数選択、因果発見などを解決するために応用されている。 また,コプラエントロピーと転送エントロピーを推定する非パラメトリック手法も提案した。 本稿では,これらの提案手法を実装したrパッケージであるcopentについて述べる。 パッケージの実装の詳細が紹介されている。 このパッケージの使用例を示すために,シミュレートデータと変数選択と因果発見に関する実世界データを用いた3つの例も提示された。 変数選択と因果発見の例は、関連するパッケージと比較してテスト(条件)独立に対処する能力が強いことを示している。 copent パッケージは comprehensive r archive network (cran) と github の https://github.com/majianthu/copent.com で入手できる。

Statistical independence and conditional independence are two fundamental concepts in statistics and machine learning. Copula Entropy is a mathematical concept defined by Ma and Sun for multivariate statistical independence measuring and testing, and also proved to be closely related to conditional independence (or transfer entropy). As the unified framework for measuring both independence and causality, CE has been applied to solve several related statistical or machine learning problems, including association discovery, structure learning, variable selection, and causal discovery. The nonparametric methods for estimating copula entropy and transfer entropy were also proposed previously. This paper introduces copent, the R package which implements these proposed methods for estimating copula entropy and transfer entropy. The implementation detail of the package is introduced. Three examples with simulated data and real-world data on variable selection and causal discovery are also presented to demonstrate the usage of this package. The examples on variable selection and causal discovery show the strong ability of copent on testing (conditional) independence compared with the related packages. The copent package is available on the Comprehensive R Archive Network (CRAN) and also on GitHub at https://github.com/majianthu/copent.
翻訳日:2022-11-28 09:57:14 公開日:2021-03-27
# ユーザ適応型人間行動認識のための注意型ディープラーニングフレームワーク

Attention-Based Deep Learning Framework for Human Activity Recognition with User Adaptation ( http://arxiv.org/abs/2006.03820v2 )

ライセンス: Link先を確認
Davide Buffelli, Fabio Vandin(参考訳) センサに基づく人間活動認識(HAR)は、センサ生成時系列データに基づいて人の行動を予測する必要がある。 HARは、現代のユビキタスコンピューティングデバイスによって実現された多数のアプリケーションのおかげで、ここ数年で大きな関心を集めている。 手作りの特徴工学に基づく手法がいくつか提案されているが、現在の最先端技術は、高レベル表現を自動的に取得し、入力の時間的依存関係を抽出するためにrecurrent neural network(rnn)を使用するディープラーニングアーキテクチャによって表現されている。 rnnには、特に長期的な依存関係を扱う上で、いくつかの制限がある。 本稿では,最先端技術の限界を克服する,純粋に注意に基づくメカニズムに基づく新しいディープラーニングフレームワークである \algname を提案する。 提案したアテンションベースアーキテクチャは,F1スコアに対する平均的インクリメントが,前回の最高のパフォーマンスモデルよりも7\%以上,従来のアプローチよりもかなり強力であることを示す。 さらに,いくつかの応用において非常に重要であるhar深層学習モデルのパーソナライズの問題についても考察する。 本稿では,モデルを特定のユーザに適用するための簡易かつ効果的なトランスファー学習戦略を提案し,そのユーザに対する予測のF1スコアに対して平均6.5%のインクリメントを提供する。 実験により,提案手法の有効性とユーザ適応手法の有効性について,提案手法の有効性を検証した。

Sensor-based human activity recognition (HAR) requires to predict the action of a person based on sensor-generated time series data. HAR has attracted major interest in the past few years, thanks to the large number of applications enabled by modern ubiquitous computing devices. While several techniques based on hand-crafted feature engineering have been proposed, the current state-of-the-art is represented by deep learning architectures that automatically obtain high level representations and that use recurrent neural networks (RNNs) to extract temporal dependencies in the input. RNNs have several limitations, in particular in dealing with long-term dependencies. We propose a novel deep learning framework, \algname, based on a purely attention-based mechanism, that overcomes the limitations of the state-of-the-art. We show that our proposed attention-based architecture is considerably more powerful than previous approaches, with an average increment, of more than $7\%$ on the F1 score over the previous best performing model. Furthermore, we consider the problem of personalizing HAR deep learning models, which is of great importance in several applications. We propose a simple and effective transfer-learning based strategy to adapt a model to a specific user, providing an average increment of $6\%$ on the F1 score on the predictions for that user. Our extensive experimental evaluation proves the significantly superior capabilities of our proposed framework over the current state-of-the-art and the effectiveness of our user adaptation technique.
翻訳日:2022-11-24 21:23:48 公開日:2021-03-27
# フェデレーション学習におけるロバストモデル融合のためのアンサンブル蒸留

Ensemble Distillation for Robust Model Fusion in Federated Learning ( http://arxiv.org/abs/2006.07242v3 )

ライセンス: Link先を確認
Tao Lin, Lingjing Kong, Sebastian U. Stich, Martin Jaggi(参考訳) Federated Learning(FL)は、多くのデバイスがトレーニングデータを分散化しながら、機械学習モデルを協調的にトレーニングする機械学習環境である。 現在のトレーニングスキームのほとんどは、サーバモデルのパラメータと更新されたパラメータをクライアント側から平均することで、中央モデルを洗練します。 しかし、モデルパラメーターを平均化することは、すべてのモデルが同じ構造とサイズを持つ場合のみ可能であり、多くのシナリオにおいて制限的な制約となる可能性がある。 本研究では,flのより強力で柔軟な集約方式について検討する。 具体的には,モデル融合のためのアンサンブル蒸留,すなわち,クライアントからのモデル出力のラベルなしデータによる中央分類器の訓練を提案する。 この知識蒸留技術は、プライバシーリスクとコストを基準となるFLアルゴリズムと同じ程度に軽減するが、サイズ、数値精度、構造などが異なる異種クライアントモデルに対して柔軟な集約を可能にする。 各種CV/NLPデータセット(CIFAR-10/100, ImageNet, AG News, SST2)と設定(異種モデル/データ)について広範な実験を行い、サーバモデルをより高速に訓練でき、既存のFL技術よりも通信ラウンドが少ないことを示した。

Federated Learning (FL) is a machine learning setting where many devices collaboratively train a machine learning model while keeping the training data decentralized. In most of the current training schemes the central model is refined by averaging the parameters of the server model and the updated parameters from the client side. However, directly averaging model parameters is only possible if all models have the same structure and size, which could be a restrictive constraint in many scenarios. In this work we investigate more powerful and more flexible aggregation schemes for FL. Specifically, we propose ensemble distillation for model fusion, i.e. training the central classifier through unlabeled data on the outputs of the models from the clients. This knowledge distillation technique mitigates privacy risk and cost to the same extent as the baseline FL algorithms, but allows flexible aggregation over heterogeneous client models that can differ e.g. in size, numerical precision or structure. We show in extensive empirical experiments on various CV/NLP datasets (CIFAR-10/100, ImageNet, AG News, SST2) and settings (heterogeneous models/data) that the server model can be trained much faster, requiring fewer communication rounds than any existing FL technique so far.
翻訳日:2022-11-22 03:00:20 公開日:2021-03-27
# イメージに何が入ってるの? 圧縮画像の探索可能な復号

What's in the Image? Explorable Decoding of Compressed Images ( http://arxiv.org/abs/2006.09332v2 )

ライセンス: Link先を確認
Yuval Bahat and Tomer Michaeli(参考訳) 記憶容量と伝送帯域幅を節約するためには、日常的にキャプチャされる視覚的コンテンツの増加は、損失のある圧縮方法を使用する必要がある。 幅広い研究が圧縮技術の改善に費やされている一方で、あらゆる方法が必然的に情報を破棄する。 特に低ビットレートでは、この情報はしばしば意味的に意味のある視覚的手がかりに対応するため、減圧にはかなりの曖昧さが伴う。 この事実にもかかわらず、既存の除圧縮アルゴリズムは、通常、単一の出力しか生成せず、ビューアが与えられた圧縮コードにマップするイメージのセットを探索することができない。 そこで本研究では,圧縮された入力コードに起因した可能性のある多様な自然画像のユーザ展開を容易にする最初の画像除圧縮手法を提案する。 具体的には、ユビキタスJPEG標準のための新しいディープネットワークベースのデコーダアーキテクチャを開発し、圧縮JPEGファイルと整合した圧縮画像のセットをトラバースする。 簡単なユーザインタラクションを可能にするために,我々は,いくつかの直感的な探索ツールを含むグラフィカルユーザインタフェースを開発した。 我々は、グラフィカル、医療、法医学のユースケースに関する我々のフレームワークを例示し、その幅広い潜在的な応用を実証する。

The ever-growing amounts of visual contents captured on a daily basis necessitate the use of lossy compression methods in order to save storage space and transmission bandwidth. While extensive research efforts are devoted to improving compression techniques, every method inevitably discards information. Especially at low bit rates, this information often corresponds to semantically meaningful visual cues, so that decompression involves significant ambiguity. In spite of this fact, existing decompression algorithms typically produce only a single output, and do not allow the viewer to explore the set of images that map to the given compressed code. In this work we propose the first image decompression method to facilitate user-exploration of the diverse set of natural images that could have given rise to the compressed input code, thus granting users the ability to determine what could and what could not have been there in the original scene. Specifically, we develop a novel deep-network based decoder architecture for the ubiquitous JPEG standard, which allows traversing the set of decompressed images that are consistent with the compressed JPEG file. To allow for simple user interaction, we develop a graphical user interface comprising several intuitive exploration tools, including an automatic tool for examining specific solutions of interest. We exemplify our framework on graphical, medical and forensic use cases, demonstrating its wide range of potential applications.
翻訳日:2022-11-20 21:32:44 公開日:2021-03-27
# ソフトデータ多変量曲線回帰と機械学習によるcovid-19死亡解析

COVID-19 mortality analysis from soft-data multivariate curve regression and machine learning ( http://arxiv.org/abs/2008.06344v3 )

ライセンス: Link先を確認
A. Torres-Signes, M.P. Fr\'ias and M.D. Ruiz-Medina(参考訳) 周期曲線対数回帰と多変量時系列空間残留相関解析を含む多目的時空間予測手法を提案する。 具体的には、平均二次損失関数は三角回帰の枠組みで最小化される。 一方,その後の空間的残差相関解析では,その可能性の最大化により,ベイジアン多変量時系列ソフトデータフレームワークの後方モードを計算することができる。 このアプローチは、2020年3月8日から2020年5月13日まで、スペイン社会に影響を及ぼす最初の波における新型コロナウイルスの死亡率の分析に適用されている。 ランダムk-foldクロスバリデーションとブートストラップ信頼区間と確率密度推定に基づく機械学習(ML)回帰を用いた実験的検討を行った。 この実証分析は、ハードおよびソフトデータフレームワークにおけるML回帰モデルの性能についても調査する。 結果は、他の数や国、後部新型コロナウイルス(COVID-19)の波に当てはまる可能性がある。

A multiple objective space-time forecasting approach is presented involving cyclical curve log-regression, and multivariate time series spatial residual correlation analysis. Specifically, the mean quadratic loss function is minimized in the framework of trigonometric regression. While, in our subsequent spatial residual correlation analysis, maximization of the likelihood allows us to compute the posterior mode in a Bayesian multivariate time series soft-data framework. The presented approach is applied to the analysis of COVID-19 mortality in the first wave affecting the Spanish Communities, since March, 8, 2020 until May, 13, 2020. An empirical comparative study with Machine Learning (ML) regression, based on random k-fold cross-validation, and bootstrapping confidence interval and probability density estimation, is carried out. This empirical analysis also investigates the performance of ML regression models in a hard- and soft- data frameworks. The results could be extrapolated to other counts, countries, and posterior COVID-19 waves.
翻訳日:2022-11-02 01:12:42 公開日:2021-03-27
# D3Net:音楽ソース分離のための高密度接続型DenseNet

D3Net: Densely connected multidilated DenseNet for music source separation ( http://arxiv.org/abs/2010.01733v4 )

ライセンス: Link先を確認
Naoya Takahashi and Yuki Mitsufuji(参考訳) 音源分離は、音声信号の長期依存をモデル化するための大きな入力フィールドを含む。 従来の畳み込みニューラルネットワーク(CNN)ベースのアプローチは、シーケンシャルにダウンサンプリングされた特徴マップや拡張畳み込みを使用した大規模な入力フィールドモデリングに対処する。 本稿では,単一畳み込み層における受容場の急速な成長とマルチレゾリューションデータの同時モデリングの重要性を主張するとともに,d3netと呼ばれる新しいcnnアーキテクチャを提案する。 D3Netは、異なる解像度を同時にモデル化するために、単一の層に異なる拡張因子を持つ新しい多次元畳み込みを含んでいる。 DenseNetのマルチディイル化畳み込みとDenseNetアーキテクチャを組み合わせることで、DenseNetに拡張畳み込みを鼻で組み込む際に存在するエイリアス問題を回避することができる。 MUSDB18データセットの実験結果から、D3Netは6.01dBの平均信号から歪み比(SDR)で最先端の性能を達成した。

Music source separation involves a large input field to model a long-term dependence of an audio signal. Previous convolutional neural network (CNN)-based approaches address the large input field modeling using sequentially down- and up-sampling feature maps or dilated convolution. In this paper, we claim the importance of a rapid growth of a receptive field and a simultaneous modeling of multi-resolution data in a single convolution layer, and propose a novel CNN architecture called densely connected dilated DenseNet (D3Net). D3Net involves a novel multi-dilated convolution that has different dilation factors in a single layer to model different resolutions simultaneously. By combining the multi-dilated convolution with DenseNet architecture, D3Net avoids the aliasing problem that exists when we naively incorporate the dilated convolution in DenseNet. Experimental results on MUSDB18 dataset show that D3Net achieves state-of-the-art performance with an average signal to distortion ratio (SDR) of 6.01 dB.
翻訳日:2022-10-10 22:34:23 公開日:2021-03-27
# 因子化線形判別分析と計算生物学への応用

Factorized linear discriminant analysis and its application in computational biology ( http://arxiv.org/abs/2010.02171v4 )

ライセンス: Link先を確認
Mu Qiao, Markus Meister(参考訳) 計算生物学における根本的な問題は、細胞タイプの構造的および機能的特性と整合する高次元遺伝子発現データの適切な表現を見つけることである。 この表現は、モデル解釈可能性と計算の単純さの理由から、元のデータの線形変換からしばしば求められている。 本稿では,この問題に対処する線形次元減少法を提案する。 因子化線形判別分析 (FLDA) と呼ばれるこの手法は,1つの表現型の特徴のみを伴い,他と最小限に変化する遺伝子表現の線形変換を求める。 我々はさらに,特定の表現型特徴量や特徴の組み合わせに重要な遺伝子をいくつか選択するスパルシリティに基づく正規化アルゴリズムを用いて,このアプローチをさらに活用する。 このアプローチをショウジョウバエt4/t5ニューロンの単細胞転写産物データセットに適用した。 FLDAからの表現は、表現型の特徴と整合したデータの構造を捉え、各表現型に対して重要な遺伝子を明らかにした。

A fundamental problem in computational biology is to find a suitable representation of the high-dimensional gene expression data that is consistent with the structural and functional properties of cell types, collectively called their phenotypes. This representation is often sought from a linear transformation of the original data, for the reasons of model interpretability and computational simplicity. Here we propose a novel method of linear dimensionality reduction to address this problem. This method, which we call factorized linear discriminant analysis (FLDA), seeks a linear transformation of gene expressions that varies highly with only one phenotypic feature and minimally with others. We further leverage our approach with a sparsity-based regularization algorithm, which selects a few genes important to a specific phenotypic feature or feature combination. We illustrated this approach by applying it to a single-cell transcriptome dataset of Drosophila T4/T5 neurons. A representation from FLDA captured structures in the data aligned with phenotypic features and revealed critical genes for each phenotype.
翻訳日:2022-10-10 22:25:01 公開日:2021-03-27
# 不変リスク最小化のリスク

The Risks of Invariant Risk Minimization ( http://arxiv.org/abs/2010.05761v2 )

ライセンス: Link先を確認
Elan Rosenfeld, Pradeep Ravikumar, Andrej Risteski(参考訳) 不変因果予測 (invariant causal prediction, peters et al., 2016) は、分散一般化のための手法であり、データ分布のいくつかの側面はトレーニングセット全体で異なるが、基礎となる因果メカニズムは一定である、と仮定する。 最近、arjovsky et al. (2019) は、潜在変数の複素関数であるデータの深い不変な特徴を学ぶためのこのアイデアに基づく、不変リスク最小化 (irm) を提案した。 しかし、これらの作品の正式な保証は極めて不十分である。 本稿では,irmの目的に基づく分類を,最近提案されている代替案と同様に,比較的自然で一般的なモデルに基づいて,初めて分析する。 線形の場合、最適解が成功する単純な条件や、より頻繁に最適な不変な予測器を回復できない条件を示す。 テストデータがトレーニング分布と十分に類似しない限り、ITMが破滅的に失敗することを示します。 したがって、この設定では、IRMとその代替品は、標準実証リスク最小化よりも根本的には改善されない。

Invariant Causal Prediction (Peters et al., 2016) is a technique for out-of-distribution generalization which assumes that some aspects of the data distribution vary across the training set but that the underlying causal mechanisms remain constant. Recently, Arjovsky et al. (2019) proposed Invariant Risk Minimization (IRM), an objective based on this idea for learning deep, invariant features of data which are a complex function of latent variables; many alternatives have subsequently been suggested. However, formal guarantees for all of these works are severely lacking. In this paper, we present the first analysis of classification under the IRM objective--as well as these recently proposed alternatives--under a fairly natural and general model. In the linear case, we show simple conditions under which the optimal solution succeeds or, more often, fails to recover the optimal invariant predictor. We furthermore present the very first results in the non-linear regime: we demonstrate that IRM can fail catastrophically unless the test data are sufficiently similar to the training distribution--this is precisely the issue that it was intended to solve. Thus, in this setting we find that IRM and its alternatives fundamentally do not improve over standard Empirical Risk Minimization.
翻訳日:2022-10-08 05:31:27 公開日:2021-03-27
# ニューラルネットワークによる音響車両の計数

Neural Network-based Acoustic Vehicle Counting ( http://arxiv.org/abs/2010.11659v2 )

ライセンス: Link先を確認
Slobodan Djukanovi\'c, Yash Patel, Ji\v{r}i Matas, Tuomas Virtanen(参考訳) 本稿では1チャンネル音声を用いた音響車両の計数について述べる。 マイクロホン間距離の局所的ミニマから車両の通行状況を予測する。 この距離は、ニューラルネットワーク(NN)を介して実現された2段階(粗い)回帰を用いてオーディオから予測される。 実験により、NNに基づく距離回帰は、これまで提案された支持ベクトル回帰よりもはるかに優れていた。 車両カウント誤差の平均に対する95\%の信頼区間は、[0.28\%, -0.55\%]$以内である。 最小値に基づくカウントに加えて,局所最小値を検出することなく予測距離で動作するディープラーニングカウントを提案する。 前者のアプローチでは精度が優れているが、深部カウントは最小検出パラメータに依存しないという点で大きな利点がある。 また,特徴の低周波除去により,計数性能が向上することを示した。

This paper addresses acoustic vehicle counting using one-channel audio. We predict the pass-by instants of vehicles from local minima of clipped vehicle-to-microphone distance. This distance is predicted from audio using a two-stage (coarse-fine) regression, with both stages realised via neural networks (NNs). Experiments show that the NN-based distance regression outperforms by far the previously proposed support vector regression. The $ 95\% $ confidence interval for the mean of vehicle counting error is within $[0.28\%, -0.55\%]$. Besides the minima-based counting, we propose a deep learning counting that operates on the predicted distance without detecting local minima. Although outperformed in accuracy by the former approach, deep counting has a significant advantage in that it does not depend on minima detection parameters. Results also show that removing low frequencies in features improves the counting performance.
翻訳日:2022-10-04 08:38:14 公開日:2021-03-27
# 双方向逆ネットワークを用いた幾何マッチング多源画像合成

Geometrically Matched Multi-source Microscopic Image Synthesis Using Bidirectional Adversarial Networks ( http://arxiv.org/abs/2010.13308v2 )

ライセンス: Link先を確認
Jun Zhuang, Dali Wang(参考訳) 複数のモードからの顕微鏡画像は、豊富な実験情報を生成できる。 実際には、特定の観察期間の生物学的または物理的制約は、研究者が十分な顕微鏡スキャンを得るのを妨げる可能性がある。 近年の研究では、画像合成がそのような制約を解放するための一般的なアプローチの1つであることが示されている。 しかしながら、既存のほとんどの合成手法は、固い幾何学的関連なしに、ソースドメインからターゲットドメインへの変換のみを行う。 この課題を受け入れるために,多元領域から異なる幾何学的特徴を持つ多様な顕微鏡像を合成する,革新的なモデルアーキテクチャであるbanisを提案する。 実験結果から,バニスはc. elegans顕微鏡胚像上で好適な画像対を合成できたことが示唆された。 我々の知る限りでは、BANISはマルチソース領域と異なる空間幾何学的特徴を関連付ける顕微鏡像を合成する最初のアプリケーションである。

Microscopic images from multiple modalities can produce plentiful experimental information. In practice, biological or physical constraints under a given observation period may prevent researchers from acquiring enough microscopic scanning. Recent studies demonstrate that image synthesis is one of the popular approaches to release such constraints. Nonetheless, most existing synthesis approaches only translate images from the source domain to the target domain without solid geometric associations. To embrace this challenge, we propose an innovative model architecture, BANIS, to synthesize diversified microscopic images from multi-source domains with distinct geometric features. The experimental outcomes indicate that BANIS successfully synthesizes favorable image pairs on C. elegans microscopy embryonic images. To the best of our knowledge, BANIS is the first application to synthesize microscopic images that associate distinct spatial geometric features from multi-source domains.
翻訳日:2022-10-02 19:49:44 公開日:2021-03-27
# Ant Colonyによる仮想センサの同定とエミュレーションのための機械学習アルゴリズム

Ant Colony Inspired Machine Learning Algorithm for Identifying and Emulating Virtual Sensors ( http://arxiv.org/abs/2011.00836v2 )

ライセンス: Link先を確認
Pranav Mani, ES Gopi, Koushik Kumaran, Hrishikesh Shekhar, Sharan Chandra(参考訳) 産業環境で使用されるシステムの規模は、綿密な監視と機能を容易にするために多数のセンサーを必要とする。 これらの要求はシステム設計の非効率につながる可能性がある。 様々なセンサーから得られるデータは、センサーが監視するシステムパラメータの根底にある関係のため、しばしば相関する。 理論的には、特定のセンサーの出力を他のセンサーに基づいてエミュレートすることも可能だ。 このような可能性に取り組むことは、システム設計の複雑さを減らすという点で大きな利点があります。 読み出しをエミュレートできるセンサーのサブセットを特定するために、センサーはクラスタにグループ化されなければならない。 複雑なシステムは一般に大量のセンサーを持ち、長期間にわたってデータを収集し保存する。 これにより大量のデータが蓄積される。 本稿では,このようなシステムにおいて仮想センサを実現するためのエンドツーエンドのアルゴリズムソリューションを提案する。 このアルゴリズムはデータセットを個別にブロックとクラスタに分割する。 そして、これらのクラスタリングソリューションを融合して、antコロニーにインスパイアされた技術であるfac2tを使ってグローバルソリューションを得る。 センサをクラスタにグループ化して,各クラスタから代表センサを選択する。 これらのセンサはシステムに保持され、他のセンサーは教師付き学習アルゴリズムを適用してエミュレートされる。

The scale of systems employed in industrial environments demands a large number of sensors to facilitate meticulous monitoring and functioning. These requirements could potentially lead to inefficient system designs. The data coming from various sensors are often correlated due to the underlying relations in the system parameters that the sensors monitor. In theory, it should be possible to emulate the output of certain sensors based on other sensors. Tapping into such possibilities holds tremendous advantages in terms of reducing system design complexity. In order to identify the subset of sensors whose readings can be emulated, the sensors must be grouped into clusters. Complex systems generally have a large quantity of sensors that collect and store data over prolonged periods of time. This leads to the accumulation of massive amounts of data. In this paper we propose an end-to-end algorithmic solution, to realise virtual sensors in such systems. This algorithm splits the dataset into blocks and clusters each of them individually. It then fuses these clustering solutions to obtain a global solution using an Ant Colony inspired technique, FAC2T. Having grouped the sensors into clusters, we select representative sensors from each cluster. These sensors are retained in the system while the other sensors readings are emulated by applying supervised learning algorithms.
翻訳日:2022-09-30 10:55:32 公開日:2021-03-27
# Faraway-Frustum:Fusion を用いた3次元物体検出のためのライダースペーシング

Faraway-Frustum: Dealing with Lidar Sparsity for 3D Object Detection using Fusion ( http://arxiv.org/abs/2011.01404v3 )

ライセンス: Link先を確認
Haolin Zhang, Dongfang Yang, Ekim Yurtsever, Keith A. Redmill and \"Umit \"Ozg\"uner(参考訳) 学習されたポイントクラウド表現は、センサーへの距離の増加とともにうまく一般化しない。 例えば、60メートルを超える範囲では、lidar pointcloudsのスパーシティは、人間が互いに物体の形を識別できない地点にまで達する。 しかし、この距離は時速70マイルで走行しながら2秒未満で60メートルを走行できるため、高速走行車両にはそれほど遠く考慮すべきではない。 安全でロバストな運転自動化には、これらの範囲での急性3dオブジェクト検出が不可欠である。 この背景に対して,我々は遠方の物体を検出するための新しい核融合戦略であるfaraway-frustumを紹介する。 主な戦略はオブジェクトクラスを認識するための2dビジョンのみに依存することであり、オブジェクトの形状は深さの増加によって大きく変化せず、遠く離れたオブジェクトの3d空間におけるオブジェクトのローカライズにpointcloudデータを使用する。 より近いオブジェクトには、学習したポイントクラウド表現を使用します。 この戦略は、学習されたpointcloud表現によるオブジェクト検出の主な欠点を軽減する。 KITTIデータセットを用いた実験により,鳥の目視と3Dにおける遠距離物体検出において,本手法は最先端技術よりもかなり優れていることが示された。 私たちのコードはオープンソースで公開されています。

Learned pointcloud representations do not generalize well with an increase in distance to the sensor. For example, at a range greater than 60 meters, the sparsity of lidar pointclouds reaches to a point where even humans cannot discern object shapes from each other. However, this distance should not be considered very far for fast-moving vehicles: A vehicle can traverse 60 meters under two seconds while moving at 70 mph. For safe and robust driving automation, acute 3D object detection at these ranges is indispensable. Against this backdrop, we introduce faraway-frustum: a novel fusion strategy for detecting faraway objects. The main strategy is to depend solely on the 2D vision for recognizing object class, as object shape does not change drastically with an increase in depth, and use pointcloud data for object localization in the 3D space for faraway objects. For closer objects, we use learned pointcloud representations instead, following state-of-the-art. This strategy alleviates the main shortcoming of object detection with learned pointcloud representations. Experiments on the KITTI dataset demonstrate that our method outperforms state-of-the-art by a considerable margin for faraway object detection in bird's-eye-view and 3D. Our code is open-source and publicly available: https://github.com/dongfang-steven-yang/faraway-frustum.
翻訳日:2022-09-30 05:10:55 公開日:2021-03-27
# 学習環境における自律ナビゲーションのための学習型3次元動作予測

Learning-based 3D Occupancy Prediction for Autonomous Navigation in Occluded Environments ( http://arxiv.org/abs/2011.03981v2 )

ライセンス: Link先を確認
Lizi Wang, Hongkai Ye, Qianhao Wang, Yuman Gao, Chao Xu and Fei Gao(参考訳) 移動ロボットの自律走行では、センサーは乱雑な環境で大きな閉塞に苦しめられ、計画中にかなりのスペースが不明となる。 実際には、未知空間を楽観的あるいは悲観的な方法で扱うことは、どちらも計画性能の限界を設定するため、攻撃性と安全性を同時に満たすことはできない。 しかし、人間は部分的な観測から障害物の正確な形状を推測することができ、閉鎖空間での衝突を避けるための非保存軌道を生成することができる。 本稿では,人間の行動を模倣し,未知空間の占有率分布を確実に予測する深層ニューラルネットワークに基づく手法を提案する。 具体的には,環境の文脈情報を用いて事前知識から学習し,オクルード空間における障害物分布を予測する。 ラベルなし、地中なしのデータを使ってネットワークを訓練し、未発見の環境でのリアルタイムナビゲーションにうまく適用しました。 提案手法は, クラスタ環境における速度の低下を伴わず, セキュリティを向上し, キノダイナミックプランナの性能を活用していることを示す。

In autonomous navigation of mobile robots, sensors suffer from massive occlusion in cluttered environments, leaving significant amount of space unknown during planning. In practice, treating the unknown space in optimistic or pessimistic ways both set limitations on planning performance, thus aggressiveness and safety cannot be satisfied at the same time. However, humans can infer the exact shape of the obstacles from only partial observation and generate non-conservative trajectories that avoid possible collisions in occluded space. Mimicking human behavior, in this paper, we propose a method based on deep neural network to predict occupancy distribution of unknown space reliably. Specifically, the proposed method utilizes contextual information of environments and learns from prior knowledge to predict obstacle distributions in occluded space. We use unlabeled and no-ground-truth data to train our network and successfully apply it to real-time navigation in unseen environments without any refinement. Results show that our method leverages the performance of a kinodynamic planner by improving security with no reduction of speed in clustered environments.
翻訳日:2022-09-28 08:18:36 公開日:2021-03-27
# ガウス過程を用いた定性的構造を持つODEモデルの学習

Learning ODE Models with Qualitative Structure Using Gaussian Processes ( http://arxiv.org/abs/2011.05364v2 )

ライセンス: Link先を確認
Steffen Ridderbusch, Christian Offen, Sina Ober-Bl\"obaum, Paul Goulart(参考訳) 近年の学習技術の進歩により、データから直接科学的・工学的応用のための動的システムのモデリングが可能となった。 しかし、多くの文脈において、明示的なデータ収集は高価であり、学習アルゴリズムはデータ効率が良くなければならない。 これは、事前の実験やドメイン知識からしばしば得られるシステムに関する追加の質的情報を使うことを示唆する。 我々は、疎ガウス過程を用いて微分方程式のベクトル場を学習し、リー群対称性や固定点のようなデータと付加構造情報を組み合わせられるアプローチを提案する。 この組み合わせは,計算コストを低減しつつ,補間性能と長期動作を大幅に改善することを示す。

Recent advances in learning techniques have enabled the modelling of dynamical systems for scientific and engineering applications directly from data. However, in many contexts explicit data collection is expensive and learning algorithms must be data-efficient to be feasible. This suggests using additional qualitative information about the system, which is often available from prior experiments or domain knowledge. We propose an approach to learning a vector field of differential equations using sparse Gaussian Processes that allows us to combine data and additional structural information, like Lie Group symmetries and fixed points. We show that this combination improves extrapolation performance and long-term behaviour significantly, while also reducing the computational cost.
翻訳日:2022-09-27 08:23:55 公開日:2021-03-27
# 自律走行のための共有モード軌跡予測

Shared Cross-Modal Trajectory Prediction for Autonomous Driving ( http://arxiv.org/abs/2011.08436v2 )

ライセンス: Link先を確認
Chiho Choi, Joon Hee Choi, Jiachen Li, Srikanth Malla(参考訳) 高度にインタラクティブな環境での交通エージェントの将来の軌道予測は、自律運転システムの安全運転に不可欠かつ困難な問題である。 自動運転車には様々なタイプのセンサ(lidarスキャナ、rgbカメラ、レーダーなど)が備わっているという事実に基づいて、複数の入力モードの使用によるメリットを享受するクロスモーダル埋め込みフレームワークを提案する。 学習時には,様々な入力データに対して目的関数を協調的に最適化することで,相補的な機能を共有潜在空間に組み込むことを学習する。 テスト時には、入力パースペクティブ(例えば、LiDAR空間)から予測を生成するために単一の入力モダリティ(例えば、LiDARデータ)が必要であり、複数のセンサーモダリティで訓練されたモデルから利点を享受する。 2つのベンチマーク駆動データセットを用いて,提案フレームワークの有効性を示すため,広範な評価を行った。

Predicting future trajectories of traffic agents in highly interactive environments is an essential and challenging problem for the safe operation of autonomous driving systems. On the basis of the fact that self-driving vehicles are equipped with various types of sensors (e.g., LiDAR scanner, RGB camera, radar, etc.), we propose a Cross-Modal Embedding framework that aims to benefit from the use of multiple input modalities. At training time, our model learns to embed a set of complementary features in a shared latent space by jointly optimizing the objective functions across different types of input data. At test time, a single input modality (e.g., LiDAR data) is required to generate predictions from the input perspective (i.e., in the LiDAR space), while taking advantages from the model trained with multiple sensor modalities. An extensive evaluation is conducted to show the efficacy of the proposed framework using two benchmark driving datasets.
翻訳日:2022-09-25 07:04:34 公開日:2021-03-27
# 不確実性予測による深部多視点深度推定

Deep Multi-view Depth Estimation with Predicted Uncertainty ( http://arxiv.org/abs/2011.09594v2 )

ライセンス: Link先を確認
Tong Ke, Tien Do, Khiem Vuong, Kourosh Sartipi, and Stergios I. Roumeliotis(参考訳) 本稿では,深層ニューラルネットワークを用いた画像列から深い深さを推定する問題に対処する。 具体的には,高密な光学フローネットワークを用いて対応を計算し,ポイントクラウドを三角測量して初期深度マップを得る。 さらに三角測量精度を高めるために,画像の文脈的手がかりに基づいて初期深度マップを最適化する深度細化ネットワーク(drn)を導入する。 特に、DRNは、深い特徴を精細化することによって反復よりも深度精度を向上させるイテレーティブリファインメントモジュール(IRM)を含んでいる。 最後に、DRNは、シーン再構成のための計測選択などの応用において望ましい改良された深さの不確実性も予測する。 実験により,提案アルゴリズムは深度精度において最先端の手法よりも優れており,予測された不確かさが実際の深度誤差と高い相関があることが確認された。

In this paper, we address the problem of estimating dense depth from a sequence of images using deep neural networks. Specifically, we employ a dense-optical-flow network to compute correspondences and then triangulate the point cloud to obtain an initial depth map.Parts of the point cloud, however, may be less accurate than others due to lack of common observations or small parallax. To further increase the triangulation accuracy, we introduce a depth-refinement network (DRN) that optimizes the initial depth map based on the image's contextual cues. In particular, the DRN contains an iterative refinement module (IRM) that improves the depth accuracy over iterations by refining the deep features. Lastly, the DRN also predicts the uncertainty in the refined depths, which is desirable in applications such as measurement selection for scene reconstruction. We show experimentally that our algorithm outperforms state-of-the-art approaches in terms of depth accuracy, and verify that our predicted uncertainty is highly correlated to the actual depth error.
翻訳日:2022-09-23 21:34:36 公開日:2021-03-27
# bars: 高精度かつ効率的なバイナリアーキテクチャのためのセルトポロジーとレイアウトの合同探索

BARS: Joint Search of Cell Topology and Layout for Accurate and Efficient Binary ARchitectures ( http://arxiv.org/abs/2011.10804v3 )

ライセンス: Link先を確認
Tianchen Zhao, Xuefei Ning, Xiangsheng Shi, Songyi Yang, Shuang Liang, Peng Lei, Jianfei Chen, Huazhong Yang, Yu Wang(参考訳) バイナリニューラルネットワーク(BNN)はその有望な効率のために大きな注目を集めている。 現在、ほとんどのBNN研究は広く使われているCNNアーキテクチャを直接採用している。 本稿では,大規模な設計空間において優れたバイナリアーキテクチャを発見するために,BARS(Binary ARchitecture Search)フローを提案する。 具体的には、トポロジとレイアウトアーキテクチャの両方の設計選択に関連する情報のボトルネックを分析する。 また,最適な情報フローを自動検索する手法を提案する。 そこで我々は,BNNに適した2レベル (Macro & Micro) 探索空間を設計し,この探索空間を効率的に探索するために,微分可能なニューラルアーキテクチャ探索 (NAS) を適用した。 マクロレベルの検索空間には幅と深さの決定が含まれており、モデルのパフォーマンスと複雑さのバランスを取るために必要となる。 また,bnnの情報フローを強化するため,マイクロレベルの検索空間も設計した。 % のbnnアーキテクチャ探索の顕著な課題は、二元演算が微分可能nasの「収束」問題を悪化させ、検索プロセスを安定化するために様々な探索と導出戦略を組み込むことである。 CIFAR-10では、BARSは既存のBNN NAS研究と比較して2/3のバイナリ演算と1/10の浮動小数点演算で1.5%高い精度を達成する。 ImageNetでは、BARSが発見したアーキテクチャは、手作りのResNet-18アーキテクチャよりも6%の精度向上を実現し、アーキテクチャのバックボーンを完全にバイナライズしながら、他のバイナリアーキテクチャより優れている。

Binary Neural Networks (BNNs) have received significant attention due to their promising efficiency. Currently, most BNN studies directly adopt widely-used CNN architectures, which can be suboptimal for BNNs. This paper proposes a novel Binary ARchitecture Search (BARS) flow to discover superior binary architecture in a large design space. Specifically, we analyze the information bottlenecks that are related to both the topology and layout architecture design choices. And we propose to automatically search for the optimal information flow. To achieve that, we design a two-level (Macro & Micro) search space tailored for BNNs and apply a differentiable neural architecture search (NAS) to explore this search space efficiently. The macro-level search space includes width and depth decisions, which is required for better balancing the model performance and complexity. We also design the micro-level search space to strengthen the information flow for BNN. %A notable challenge of BNN architecture search lies in that binary operations exacerbate the "collapse" problem of differentiable NAS, for which we incorporate various search and derive strategies to stabilize the search process. On CIFAR-10, BARS achieves 1.5% higher accuracy with 2/3 binary operations and 1/10 floating-point operations comparing with existing BNN NAS studies. On ImageNet, with similar resource consumption, BARS-discovered architecture achieves a 6% accuracy gain than hand-crafted binary ResNet-18 architectures and outperforms other binary architectures while fully binarizing the architecture backbone.
翻訳日:2022-09-22 23:25:45 公開日:2021-03-27
# 回転専用バンドル調整

Rotation-Only Bundle Adjustment ( http://arxiv.org/abs/2011.11724v2 )

ライセンス: Link先を確認
Seong Hun Lee, Javier Civera(参考訳) 本稿では,カメラの位置とシーン構造から独立して,カメラのグローバル回転を推定する新しい手法を提案する。 2つの校正されたカメラが5つ以上の同じ点を観測すると、それらの相対回転は翻訳とは独立して回復できる。 このアイデアを複数の視点に拡張し, 回転推定を翻訳と構造推定から分離する。 提案手法は,不正確な翻訳や構造に対する完全免疫,回転平均化時の精度向上など,いくつかの利点を提供する。 本研究では,合成データと実データの両方について広範な評価を行い,最先端回転平均法を用いて精度の一貫性と有意な向上を示す。

We propose a novel method for estimating the global rotations of the cameras independently of their positions and the scene structure. When two calibrated cameras observe five or more of the same points, their relative rotation can be recovered independently of the translation. We extend this idea to multiple views, thereby decoupling the rotation estimation from the translation and structure estimation. Our approach provides several benefits such as complete immunity to inaccurate translations and structure, and the accuracy improvement when used with rotation averaging. We perform extensive evaluations on both synthetic and real datasets, demonstrating consistent and significant gains in accuracy when used with the state-of-the-art rotation averaging method.
翻訳日:2022-09-22 02:38:06 公開日:2021-03-27
# HistoGAN:カラーヒストグラムによるGAN生成画像と実画像の色制御

HistoGAN: Controlling Colors of GAN-Generated and Real Images via Color Histograms ( http://arxiv.org/abs/2011.11731v2 )

ライセンス: Link先を確認
Mahmoud Afifi, Marcus A. Brubaker, Michael S. Brown(参考訳) GAN(Generative Adversarial Network)は高品質な画像を生成することができるが、制御は困難である。 GANベースの画像生成を単純化することは、グラフィックデザインや芸術作品に採用するために重要である。 この目標はganが生成する画像の外観を直感的に制御できる手法に多大な関心を寄せている。 本稿では,GAN生成画像の色を色ヒストグラムで制御するHistoGANを提案する。 色ヒストグラムは、ドメイン固有の意味論から切り離されたまま画像色を記述する直感的な方法を提供する。 具体的には,最近のstyleganアーキテクチャの効果的な修正を行い,対象色ヒストグラム特徴で特定されたgan生成画像の色を制御する。 次に、HistoGANを拡張して実画像を再色する方法を説明する。 画像の再色には、HistoGANとともにエンコーダネットワークを共同で訓練する。 リカラー化モデルであるReHistoGANは、指定されたターゲットヒストグラムに基づいて色を変更しながら、元の画像の内容を維持するようネットワークに促す、教師なしのアプローチである。 このヒストグラムベースのアプローチは、gan生成および実画像の色を制御するより良い方法を提供し、既存の代替戦略よりも説得力のある結果が得られることを示す。

While generative adversarial networks (GANs) can successfully produce high-quality images, they can be challenging to control. Simplifying GAN-based image generation is critical for their adoption in graphic design and artistic work. This goal has led to significant interest in methods that can intuitively control the appearance of images generated by GANs. In this paper, we present HistoGAN, a color histogram-based method for controlling GAN-generated images' colors. We focus on color histograms as they provide an intuitive way to describe image color while remaining decoupled from domain-specific semantics. Specifically, we introduce an effective modification of the recent StyleGAN architecture to control the colors of GAN-generated images specified by a target color histogram feature. We then describe how to expand HistoGAN to recolor real images. For image recoloring, we jointly train an encoder network along with HistoGAN. The recoloring model, ReHistoGAN, is an unsupervised approach trained to encourage the network to keep the original image's content while changing the colors based on the given target histogram. We show that this histogram-based approach offers a better way to control GAN-generated and real images' colors while producing more compelling results compared to existing alternative strategies.
翻訳日:2022-09-22 02:37:54 公開日:2021-03-27
# Dual Geometric Graph Network (DG2N) -- 変形可能な形状アライメントのための反復ネットワーク

Dual Geometric Graph Network (DG2N) -- Iterative network for deformable shape alignment ( http://arxiv.org/abs/2011.14723v2 )

ライセンス: Link先を確認
Dvir Ginzburg and Dan Raviv(参考訳) 局所的な特徴がマッピング確率である双対グラフ構造を用いて幾何学モデルを調整する新しい手法を提案する。 非剛体構造のアライメントは、対応のモデル化に必要な未知数が多いため、最も難しいコンピュータビジョンタスクの1つである。 テンプレートアライメントや関数マップにおけるDNNモデルの利用は飛躍的に進んでいるが,非等尺変形が存在するクラス間のアライメントには失敗している。 ここでは,この課題を再考し,2つのグラフ構造 - 1つは前方マップ,もう1つは後方マップ - 上の2つのグラフ構造 - で展開する概念を用いることを提案する。 メッシュと点の雲の高速で安定な解における伸縮性ドメインのアライメントに関する技術成果を報告する。

We provide a novel new approach for aligning geometric models using a dual graph structure where local features are mapping probabilities. Alignment of non-rigid structures is one of the most challenging computer vision tasks due to the high number of unknowns needed to model the correspondence. We have seen a leap forward using DNN models in template alignment and functional maps, but those methods fail for inter-class alignment where nonisometric deformations exist. Here we propose to rethink this task and use unrolling concepts on a dual graph structure - one for a forward map and one for a backward map, where the features are pulled back matching probabilities from the target into the source. We report state of the art results on stretchable domains alignment in a rapid and stable solution for meshes and cloud of points.
翻訳日:2021-06-06 14:58:39 公開日:2021-03-27
# VisEvol:進化的最適化を通じてハイパーパラメータ検索をサポートするビジュアルアナリティクス

VisEvol: Visual Analytics to Support Hyperparameter Search through Evolutionary Optimization ( http://arxiv.org/abs/2012.01205v3 )

ライセンス: Link先を確認
Angelos Chatzimparmpas, Rafael M. Martins, Kostiantyn Kucher, Andreas Kerren(参考訳) 機械学習(ML)モデルのトレーニングフェーズでは、通常、複数のハイパーパラメータを設定する必要がある。 このプロセスは計算量が多く、与えられた問題に対して最適なハイパーパラメータ集合を推測するために広範囲な探索が必要である。 この課題は、ほとんどのmlモデルが内部で複雑であり、トレーニングには予測結果に著しく影響を及ぼす試行錯誤プロセスが含まれるという事実によってさらに悪化する。 さらに、MLアルゴリズムの各ハイパーパラメータは他のパラメータと相互に絡み合う可能性があり、変更は残りのハイパーパラメータに予期せぬ影響をもたらす可能性がある。 進化的最適化はこれらの問題に対処するための有望な方法である。 この方法によれば、パフォーマンスモデルを格納し、残りのモデルを遺伝的アルゴリズムにインスパイアされたクロスオーバーおよび突然変異プロセスによって改善する。 ハイパーパラメータのインタラクティブな探索と,この進化過程への介入を支援するビジュアル分析ツールであるvisevolを提案する。 まとめると、提案するツールは進化を通じて新しいモデルを生成するのに役立ち、最終的には広範囲のハイパーパラメータ空間の様々な領域で強力なハイパーパラメータの組み合わせを探索する。 結果は(平等な権利を持つ)投票アンサンブルであり、最終的な予測性能を高める。 VisEvolの実用性と適用性は,2つのユースケースと,ツールの有効性を評価するML専門家へのインタビューで実証された。

During the training phase of machine learning (ML) models, it is usually necessary to configure several hyperparameters. This process is computationally intensive and requires an extensive search to infer the best hyperparameter set for the given problem. The challenge is exacerbated by the fact that most ML models are complex internally, and training involves trial-and-error processes that could remarkably affect the predictive result. Moreover, each hyperparameter of an ML algorithm is potentially intertwined with the others, and changing it might result in unforeseeable impacts on the remaining hyperparameters. Evolutionary optimization is a promising method to try and address those issues. According to this method, performant models are stored, while the remainder are improved through crossover and mutation processes inspired by genetic algorithms. We present VisEvol, a visual analytics tool that supports interactive exploration of hyperparameters and intervention in this evolutionary procedure. In summary, our proposed tool helps the user to generate new models through evolution and eventually explore powerful hyperparameter combinations in diverse regions of the extensive hyperparameter space. The outcome is a voting ensemble (with equal rights) that boosts the final predictive performance. The utility and applicability of VisEvol are demonstrated with two use cases and interviews with ML experts who evaluated the effectiveness of the tool.
翻訳日:2021-05-25 04:07:54 公開日:2021-03-27
# 拡散回復様相によるエネルギーモデル学習

Learning Energy-Based Models by Diffusion Recovery Likelihood ( http://arxiv.org/abs/2012.08125v2 )

ライセンス: Link先を確認
Ruiqi Gao, Yang Song, Ben Poole, Ying Nian Wu, Diederik P. Kingma(参考訳) エネルギーベースモデル(EBM)は多くの望ましい性質を示すが、高次元データセットのトレーニングとサンプリングは依然として困難である。 拡散確率モデルに関する最近の進歩に触発されて、データセットのノイズが増すバージョンで訓練された一連のESMから抽出・学習する拡散回復確率法を提案する。 各ebmは回復可能性で訓練され、より高いノイズレベルにおけるノイズバージョンによって、一定のノイズレベルにおけるデータの条件付き確率を最大化する。 条件分布からのサンプリングは限界分布からのサンプリングよりもはるかに容易であるので、回復可能性の最適化は限界確率よりも扱いやすい。 学習後、ガウスのホワイトノイズ分布から初期化し、徐々に低いノイズレベルで条件分布をサンプリングするサンプリングプロセスにより合成画像を生成することができる。 本手法は様々な画像データセット上で高忠実度サンプルを生成する。 非条件 CIFAR-10 では,本手法は FID 9.58 と開始スコア 8.30 を達成する。 さらに, 従来のEMMと異なり, 条件分布から得られたMCMCサンプルは相違せず, 現実的な画像を表現することができ, 高次元データセットにおいてもデータの正規化密度を正確に推定できることを示した。 実装はhttps://github.com/ruiqigao/recovery_likelihoodで利用可能です。

While energy-based models (EBMs) exhibit a number of desirable properties, training and sampling on high-dimensional datasets remains challenging. Inspired by recent progress on diffusion probabilistic models, we present a diffusion recovery likelihood method to tractably learn and sample from a sequence of EBMs trained on increasingly noisy versions of a dataset. Each EBM is trained with recovery likelihood, which maximizes the conditional probability of the data at a certain noise level given their noisy versions at a higher noise level. Optimizing recovery likelihood is more tractable than marginal likelihood, as sampling from the conditional distributions is much easier than sampling from the marginal distributions. After training, synthesized images can be generated by the sampling process that initializes from Gaussian white noise distribution and progressively samples the conditional distributions at decreasingly lower noise levels. Our method generates high fidelity samples on various image datasets. On unconditional CIFAR-10 our method achieves FID 9.58 and inception score 8.30, superior to the majority of GANs. Moreover, we demonstrate that unlike previous work on EBMs, our long-run MCMC samples from the conditional distributions do not diverge and still represent realistic images, allowing us to accurately estimate the normalized density of data even for high-dimensional datasets. Our implementation is available at https://github.com/ruiqigao/recovery_likelihood.
翻訳日:2021-05-07 05:34:53 公開日:2021-03-27
# 時空間グラフによるイベントベース動作分割

Event-based Motion Segmentation with Spatio-Temporal Graph Cuts ( http://arxiv.org/abs/2012.08730v2 )

ライセンス: Link先を確認
Yi Zhou, Guillermo Gallego, Xiuyuan Lu, Siqi Liu, and Shaojie Shen(参考訳) 独立して動く物体を識別することは動的なシーン理解に不可欠である。 しかし、ダイナミックシーンで使用される伝統的なカメラは、そのサンプリング原理により、動きのぼやけや露出アーティファクトに苦しむことがある。 対照的に、イベントベースのカメラは、そのような制限を克服する利点を提供する、新しいバイオインスパイアされたセンサーである。 ピクセル単位の強度変化を非同期に報告し、シーンダイナミクスと全く同じ速度で視覚情報を取得することができる。 本研究では,イベントベースカメラで取得した独立移動物体を識別する手法,すなわちイベントベース動作分割問題を解決する手法を開発した。 本稿では, 入力イベントの時空間構造を時空間グラフの形で利用することにより, エネルギー最小化による弱い制約付きマルチモデルフィッティングとして問題を定式化する方法と, イベントクラスタ割り当て(ラベル付け)とモーションモデルフィッティングの2つのサブプロブレムを反復的に解く方法について述べる。 利用可能なデータセットの実験では、異なる動きパターンと移動物体の数を持つシーンにおいて、メソッドの汎用性を示す。 提案手法は,期待される移動物体の数を事前に決定することなく,技術水準よりも同等以上の性能を発揮することを示す。

Identifying independently moving objects is an essential task for dynamic scene understanding. However, traditional cameras used in dynamic scenes may suffer from motion blur or exposure artifacts due to their sampling principle. By contrast, event-based cameras are novel bio-inspired sensors that offer advantages to overcome such limitations. They report pixel-wise intensity changes asynchronously, which enables them to acquire visual information at exactly the same rate as the scene dynamics. We have developed a method to identify independently moving objects acquired with an event-based camera, i.e., to solve the event-based motion segmentation problem. This paper describes how to formulate the problem as a weakly-constrained multi-model fitting one via energy minimization, and how to jointly solve its two subproblems -- event-cluster assignment (labeling) and motion model fitting -- in an iterative manner, by exploiting the spatio-temporal structure of input events in the form of a space-time graph. Experiments on available datasets demonstrate the versatility of the method in scenes with different motion patterns and number of moving objects. The evaluation shows that the method performs on par or better than the state of the art without having to predetermine the number of expected moving objects.
翻訳日:2021-05-03 02:58:09 公開日:2021-03-27
# 階層型グラフカプセルネットワーク

Hierarchical Graph Capsule Network ( http://arxiv.org/abs/2012.08734v2 )

ライセンス: Link先を確認
Jinyu Yang, Peilin Zhao, Yu Rong, Chaochao Yan, Chunyuan Li, Hehuan Ma, Junzhou Huang(参考訳) グラフニューラルネットワーク(gnns)は、構造化データのトポロジ情報を明確にモデル化することでその強みを生んでいる。 しかし、既存のGNNは、グラフ分類において重要な役割を果たす階層グラフ表現を捕捉する能力に限界がある。 本稿では,ノード埋め込みを共同で学習し,グラフ階層を抽出する階層型グラフカプセルネットワーク(HGCN)を提案する。 具体的には、各ノードの下にある異種因子を識別し、それらのインスタンス化パラメータが同一エンティティの異なる特性を表すことにより、不等角グラフカプセルが確立される。 階層的表現を学習するために、HGCNは、下層カプセル(部分)と下層カプセル(全体)の間の部分的関係を、その部分間の構造情報を明示的に考慮して特徴付ける。 HGCNの有効性と各成分の寄与を実験的に検証した。

Graph Neural Networks (GNNs) draw their strength from explicitly modeling the topological information of structured data. However, existing GNNs suffer from limited capability in capturing the hierarchical graph representation which plays an important role in graph classification. In this paper, we innovatively propose hierarchical graph capsule network (HGCN) that can jointly learn node embeddings and extract graph hierarchies. Specifically, disentangled graph capsules are established by identifying heterogeneous factors underlying each node, such that their instantiation parameters represent different properties of the same entity. To learn the hierarchical representation, HGCN characterizes the part-whole relationship between lower-level capsules (part) and higher-level capsules (whole) by explicitly considering the structure information among the parts. Experimental studies demonstrate the effectiveness of HGCN and the contribution of each component.
翻訳日:2021-05-03 02:48:32 公開日:2021-03-27
# Pct: Point Cloud Transformer

Pct: Point cloud transformer ( http://arxiv.org/abs/2012.09688v3 )

ライセンス: Link先を確認
Meng-Hao Guo, Jun-Xiong Cai, Zheng-Ning Liu, Tai-Jiang Mu, Ralph R. Martin and Shi-Min Hu(参考訳) 不規則なドメインと順序の欠如は、ポイントクラウド処理のためのディープニューラルネットワークの設計を困難にする。 本稿では,ポイントクラウド学習のための新しいフレームワークであるpoint cloud transformer(pct)を提案する。 PCTはTransformerをベースにしており、自然言語処理において大きな成功を収め、画像処理において大きな可能性を示す。 これは本質的に点列を処理するために置換不変であり、点クラウド学習に適している。 ポイントクラウド内のローカルコンテキストをよりよく捉えるために,最遠のポイントサンプリングと近接探索をサポートすることで,入力埋め込みを強化する。 広範囲な実験により,PCTは形状分類,部分分割,正規推定タスクにおいて最先端の性能を達成することが示された。

The irregular domain and lack of ordering make it challenging to design deep neural networks for point cloud processing. This paper presents a novel framework named Point Cloud Transformer(PCT) for point cloud learning. PCT is based on Transformer, which achieves huge success in natural language processing and displays great potential in image processing. It is inherently permutation invariant for processing a sequence of points, making it well-suited for point cloud learning. To better capture local context within the point cloud, we enhance input embedding with the support of farthest point sampling and nearest neighbor search. Extensive experiments demonstrate that the PCT achieves the state-of-the-art performance on shape classification, part segmentation and normal estimation tasks.
翻訳日:2021-05-02 07:23:34 公開日:2021-03-27
# 因果学習のための生成的介入

Generative Interventions for Causal Learning ( http://arxiv.org/abs/2012.12265v2 )

ライセンス: Link先を確認
Chengzhi Mao, Augustine Cha, Amogh Gupta, Hao Wang, Junfeng Yang, Carl Vondrick(参考訳) 我々は,新しい視点,背景,シーンコンテキストに一般化したロバストな視覚表現を学ぶためのフレームワークを提案する。 識別モデルは、しばしば自然に発生する散発的な相関を学習し、トレーニング分布外の画像で失敗する。 本稿では, 生成モデルを用いて, コンバウンド要因による特徴の介入を行うことができることを示す。 実験,可視化,理論的結果は,この手法が根底にある因果関係とより整合した堅牢な表現を学習することを示している。 提案手法は分散の一般化を要求する複数のデータセットのパフォーマンスを改善し,imagenet から objectnet データセットへ一般化した最先端の性能を示す。

We introduce a framework for learning robust visual representations that generalize to new viewpoints, backgrounds, and scene contexts. Discriminative models often learn naturally occurring spurious correlations, which cause them to fail on images outside of the training distribution. In this paper, we show that we can steer generative models to manufacture interventions on features caused by confounding factors. Experiments, visualizations, and theoretical results show this method learns robust representations more consistent with the underlying causal relationships. Our approach improves performance on multiple datasets demanding out-of-distribution generalization, and we demonstrate state-of-the-art performance generalizing from ImageNet to ObjectNet dataset.
翻訳日:2021-04-26 07:38:32 公開日:2021-03-27
# 目標容量でロバストな畳み込みアーキテクチャを発見する:マルチショットアプローチ

Discovering Robust Convolutional Architecture at Targeted Capacity: A Multi-Shot Approach ( http://arxiv.org/abs/2012.11835v3 )

ライセンス: Link先を確認
Xuefei Ning, Junbo Zhao, Wenshuo Li, Tianchen Zhao, Yin Zheng, Huazhong Yang, Yu Wang(参考訳) 畳み込みニューラルネットワーク(CNN)は敵の例に対して脆弱であり、アーキテクチャトポロジ(例えば、幅拡大)のモデル容量の増大は、一貫した堅牢性の向上をもたらすことを示している。 これはアーキテクチャ設計で考慮すべき明らかな堅牢性と効率のトレードオフを示している。 本稿では,キャパシティ予算を考慮したシナリオを考慮し,目標容量の対角的堅牢なアーキテクチャの発見を目指す。 最近の研究では、ロバストなアーキテクチャを発見するためにone-shot neural architecture search (nas)を用いた。 しかし、異なるトポロジの容量は探索過程において整列できないため、ワンショットNAS法はスーパーネットの容量が大きいトポロジを好む。 そして、検出されたトポロジは、ターゲットの容量に拡張した場合、最適ではないかもしれない。 本稿では,この問題に対処し,対象キャパシティでロバストなアーキテクチャを明示的に探索する,新しい多ショットnas手法を提案する。 2000mの目標地点で発見されたmsrobnet-2000は、最近のnasが発見したrobnet-largeを4%-7%という様々な基準で上回っている。 また、目標となる1560MのFLOPでは、MSRobNet-1560が、別のNASで発見されたアーキテクチャであるRobNetを2.3%、PGD-7の精度で1.3%上回る。 すべてのコードはhttps://github.com/walkerning/aw\_nasで入手できる。

Convolutional neural networks (CNNs) are vulnerable to adversarial examples, and studies show that increasing the model capacity of an architecture topology (e.g., width expansion) can bring consistent robustness improvements. This reveals a clear robustness-efficiency trade-off that should be considered in architecture design. In this paper, considering scenarios with capacity budget, we aim to discover adversarially robust architecture at targeted capacities. Recent studies employed one-shot neural architecture search (NAS) to discover robust architectures. However, since the capacities of different topologies cannot be aligned in the search process, one-shot NAS methods favor topologies with larger capacities in the supernet. And the discovered topology might be suboptimal when augmented to the targeted capacity. We propose a novel multi-shot NAS method to address this issue and explicitly search for robust architectures at targeted capacities. At the targeted FLOPs of 2000M, the discovered MSRobNet-2000 outperforms the recent NAS-discovered architecture RobNet-large under various criteria by a large margin of 4%-7%. And at the targeted FLOPs of 1560M, MSRobNet-1560 surpasses another NAS-discovered architecture RobNet-free by 2.3% and 1.3% in the clean and PGD-7 accuracies, respectively. All codes are available at https://github.com/walkerning/aw\_nas.
翻訳日:2021-04-26 07:34:11 公開日:2021-03-27
# SDGNN:Signed Directed Networksのためのノード表現学習

SDGNN: Learning Node Representation for Signed Directed Networks ( http://arxiv.org/abs/2101.02390v3 )

ライセンス: Link先を確認
Junjie Huang, Huawei Shen, Liang Hou, Xueqi Cheng(参考訳) ネットワーク埋め込みは、ネットワーク内のノードを低次元ベクトル表現にマッピングすることを目的としている。 グラフニューラルネットワーク(gnns)は広く注目を集め、ノード表現の学習において最先端のパフォーマンスをもたらす。 しかし、ほとんどのgnnは、ポジティブリンクのみが存在する無署名ネットワークでのみ動作する。 これらのモデルを署名された有向ネットワークに転送するのは簡単なことではないが、実世界では広く観察されているが、あまり研究されていない。 本稿では,まず2つの基本社会学理論(ステータス理論とバランス理論)をレビューし,実世界のデータセットについて実証研究を行い,有向ネットワークにおける社会的メカニズムを分析する。 関連社会学理論によって導かれたSDGNNと呼ばれる新しい符号付きグラフニューラルネットワークモデルを提案し,符号付き有向ネットワークのノード埋め込みを学習する。 提案モデルは,リンク標識,リンク方向,符号付き有向三角形を同時に再構成する。 署名付きネットワーク埋め込みのベンチマークとして一般的に使用される5つの実世界のデータセット上で,モデルの有効性を検証する。 実験により,提案モデルが,機能ベース手法,ネットワーク埋め込み手法,gnn手法など既存のモデルを上回ることを示した。

Network embedding is aimed at mapping nodes in a network into low-dimensional vector representations. Graph Neural Networks (GNNs) have received widespread attention and lead to state-of-the-art performance in learning node representations. However, most GNNs only work in unsigned networks, where only positive links exist. It is not trivial to transfer these models to signed directed networks, which are widely observed in the real world yet less studied. In this paper, we first review two fundamental sociological theories (i.e., status theory and balance theory) and conduct empirical studies on real-world datasets to analyze the social mechanism in signed directed networks. Guided by related sociological theories, we propose a novel Signed Directed Graph Neural Networks model named SDGNN to learn node embeddings for signed directed networks. The proposed model simultaneously reconstructs link signs, link directions, and signed directed triangles. We validate our model's effectiveness on five real-world datasets, which are commonly used as the benchmark for signed network embedding. Experiments demonstrate the proposed model outperforms existing models, including feature-based methods, network embedding methods, and several GNN methods.
翻訳日:2021-04-10 13:31:53 公開日:2021-03-27
# (参考訳) スケーラブルで効率的なニューラル音声符号化

Scalable and Efficient Neural Speech Coding ( http://arxiv.org/abs/2103.14776v1 )

ライセンス: CC BY 4.0
Kai Zhen, Jongmo Sung, Mi Suk Lee, Seungkwon Beak, Minje Kim(参考訳) 本稿では,スケーラブルで効率的な音声圧縮用ニューラル波形コーデック(nwc)を提案する。 音声符号化問題を自動符号化タスクとして定式化し、畳み込みニューラルネットワーク(CNN)がフィードフォワードルーチンとして符号化と復号を行う。 提案したCNNオートエンコーダは、量子化とエントロピー符号化をトレーニング可能なモジュールとして定義し、最適化プロセス中に符号化アーティファクトとビットレート制御を処理する。 我々は,完全畳み込みネットワークモデルに,ゲート残差ネットワークや奥行き分離可能な畳み込みなど,コンパクトなモデルアーキテクチャを導入することで効率を向上する。 さらに,提案モデルには拡張性のあるアーキテクチャ,クロスモジュール残差学習(CMRL)を備え,幅広いビットレートをカバーする。 そこで我々は,複数のnwc自動エンコーディングモジュールを結合し,nwcモジュールが先行するモジュールが生成した復元損失を復元するために残余符号化を行う残余符号化方式を採用している。 CMRLは、低ビットレートをカバーするためにスケールダウンし、最初のオートエンコーダとして線形予測符号化(LPC)モジュールを使用する。 我々はLPCの量子化をトレーニング可能なモジュールとして再定義し、LPCとその後続のNWCモジュール間のビット割り当てトレードオフを強化する。 他の自己回帰型デコーダベースのニューラルスピーチコーダと比較すると、このデコーダはアーキテクチャがかなり小さい。例えば、0.12億パラメータしかなく、ウェーブネットデコーダより100倍以上小さい。 LPCNetベースの音声コーデックは低ビットレートのネットワーク複雑性を低減するために音声生成モデルを利用しており、我々は高いビットレートまで拡張して透過的な性能を実現することができる。 軽量なニューラル音声符号化モデルは,低ビットレート領域でamr-wbと同等の主観的スコアを達成し,32kbpsで透過的な符号化品質を提供する。

This work presents a scalable and efficient neural waveform codec (NWC) for speech compression. We formulate the speech coding problem as an autoencoding task, where a convolutional neural network (CNN) performs encoding and decoding as its feedforward routine. The proposed CNN autoencoder also defines quantization and entropy coding as a trainable module, so the coding artifacts and bitrate control are handled during the optimization process. We achieve efficiency by introducing compact model architectures to our fully convolutional network model, such as gated residual networks and depthwise separable convolution. Furthermore, the proposed models are with a scalable architecture, cross-module residual learning (CMRL), to cover a wide range of bitrates. To this end, we employ the residual coding concept to concatenate multiple NWC autoencoding modules, where an NWC module performs residual coding to restore any reconstruction loss that its preceding modules have created. CMRL can scale down to cover lower bitrates as well, for which it employs linear predictive coding (LPC) module as its first autoencoder. We redefine LPC's quantization as a trainable module to enhance the bit allocation tradeoff between LPC and its following NWC modules. Compared to the other autoregressive decoder-based neural speech coders, our decoder has significantly smaller architecture, e.g., with only 0.12 million parameters, more than 100 times smaller than a WaveNet decoder. Compared to the LPCNet-based speech codec, which leverages the speech production model to reduce the network complexity in low bitrates, ours can scale up to higher bitrates to achieve transparent performance. Our lightweight neural speech coding model achieves comparable subjective scores against AMR-WB at the low bitrate range and provides transparent coding quality at 32 kbps.
翻訳日:2021-04-03 15:33:23 公開日:2021-03-27
# (参考訳) 必要と十分による地域説明:理論と実践の統一

Local Explanations via Necessity and Sufficiency: Unifying Theory and Practice ( http://arxiv.org/abs/2103.14651v1 )

ライセンス: CC BY 4.0
David Watson, Limor Gultchin, Ankur Taly, Luciano Floridi(参考訳) 必要と十分性は、すべての成功した説明の構成要素である。 しかし、その重要性にもかかわらず、これらの概念は概念的に過小評価され、説明可能な人工知能(XAI)に不整合的に適用されてきた。 論理学、確率論、因果論を基礎として、xaiにおける必要性と十分性の中心的役割を確立し、1つの形式的枠組みで一見異質な手法を統一する。 与えられた文脈に関して説明的因子を計算するための健全で完全なアルゴリズムを提供し、様々なタスクにおける芸術的代替品の状態に対してその柔軟性と競争力を示す。

Necessity and sufficiency are the building blocks of all successful explanations. Yet despite their importance, these notions have been conceptually underdeveloped and inconsistently applied in explainable artificial intelligence (XAI), a fast-growing research area that is so far lacking in firm theoretical foundations. Building on work in logic, probability, and causality, we establish the central role of necessity and sufficiency in XAI, unifying seemingly disparate methods in a single formal framework. We provide a sound and complete algorithm for computing explanatory factors with respect to a given context, and demonstrate its flexibility and competitive performance against state of the art alternatives on various tasks.
翻訳日:2021-04-03 15:05:41 公開日:2021-03-27
# (参考訳) CalibDNN:ディープニューラルネットワークを用いた知覚のためのマルチモーダルセンサキャリブレーション

CalibDNN: Multimodal Sensor Calibration for Perception Using Deep Neural Networks ( http://arxiv.org/abs/2103.14793v1 )

ライセンス: CC BY 4.0
Ganning Zhao, Jiesi Hu, Suya You and C.-C. Jay Kuo(参考訳) 現在の知覚システムは、しばしば2Dカメラや3D LiDARセンサーのようなマルチモーダル・イメージとセンサーを搭載している。 下流知覚課題のためのデータを融合利用するために、マルチモーダルセンサデータのロバストで正確なキャリブレーションが不可欠である。 本稿では,マルチモーダルセンサ,特にLiDAR-Cameraペア間の正確な校正のための新しいディープラーニング駆動技術(CalibDNN)を提案する。 提案した研究の重要な革新は、特定のキャリブレーションターゲットやハードウェアアシスタントを必要とせず、処理全体を1つのモデルと1つのイテレーションで完全に自動化することである。 異なる手法と異なるデータセットに対する広範な実験の結果は、最先端の性能を示している。

Current perception systems often carry multimodal imagers and sensors such as 2D cameras and 3D LiDAR sensors. To fuse and utilize the data for downstream perception tasks, robust and accurate calibration of the multimodal sensor data is essential. We propose a novel deep learning-driven technique (CalibDNN) for accurate calibration among multimodal sensor, specifically LiDAR-Camera pairs. The key innovation of the proposed work is that it does not require any specific calibration targets or hardware assistants, and the entire processing is fully automatic with a single model and single iteration. Results comparison among different methods and extensive experiments on different datasets demonstrates the state-of-the-art performance.
翻訳日:2021-04-03 14:41:44 公開日:2021-03-27
# (参考訳) LSTMを用いた暗号通貨予測のための感度解析

LSTM Based Sentiment Analysis for Cryptocurrency Prediction ( http://arxiv.org/abs/2103.14804v1 )

ライセンス: CC0 1.0
Xin Huang, Wenbin Zhang, Yiyi Huang, Xuejiao Tang, Mingli Zhang, Jayachander Surbiryala, Vasileios Iosifidis, Zhen Liu and Ji Zhang(参考訳) ビッグデータ分析と自然言語処理の最近の研究は、ソーシャルメディア情報における感情分析の自動化技術を開発している。 さらに、ソーシャルメディアのユーザベースの増加と大量の投稿もまた、暗号通貨の価格変動を予測する貴重な感情情報を提供する。 本研究は,ソーシャルメディアの感情を分析し,その相関関係を見出すことにより,暗号通貨の揮発性価格変動を予測することを目的としている。 これまでの研究は、英語のソーシャルメディア投稿の感情を分析するために開発されたものだが、最も人気のある中国のソーシャルメディアプラットフォームであるシナ・ワイボーの中国ソーシャルメディア投稿の感情を識別する方法を提案する。 Weiboのポストをキャプチャし、暗号固有の感情辞書の作成を記述したパイプラインを開発し、Long Short-term memory(LSTM)ベースのリカレントニューラルネットワークと過去の暗号価格運動を提案し、将来の時間枠の価格動向を予測する。 提案手法は, 精度18.5%, リコール15.4%の精度で, 自己回帰ベースモデルの状態を上回った。

Recent studies in big data analytics and natural language processing develop automatic techniques in analyzing sentiment in the social media information. In addition, the growing user base of social media and the high volume of posts also provide valuable sentiment information to predict the price fluctuation of the cryptocurrency. This research is directed to predicting the volatile price movement of cryptocurrency by analyzing the sentiment in social media and finding the correlation between them. While previous work has been developed to analyze sentiment in English social media posts, we propose a method to identify the sentiment of the Chinese social media posts from the most popular Chinese social media platform Sina-Weibo. We develop the pipeline to capture Weibo posts, describe the creation of the crypto-specific sentiment dictionary, and propose a long short-term memory (LSTM) based recurrent neural network along with the historical cryptocurrency price movement to predict the price trend for future time frames. The conducted experiments demonstrate the proposed approach outperforms the state of the art auto regressive based model by 18.5% in precision and 15.4% in recall.
翻訳日:2021-04-03 14:17:06 公開日:2021-03-27
# (参考訳) selfgait: 自己教師付き歩行認識のための時空間表現学習法

SelfGait: A Spatiotemporal Representation Learning Method for Self-supervised Gait Recognition ( http://arxiv.org/abs/2103.14811v1 )

ライセンス: CC BY 4.0
Yiqun Liu, Yi Zeng, Jian Pu, Hongming Shan, Peiyang He, Junping Zhang(参考訳) 歩行は距離で知覚できるユニークな生体的特徴であるため、歩行認識は人間の識別において重要な役割を果たす。 既存の歩容認識法は歩容系列から歩容特徴を異なる方法で学習することができるが、歩容認識の性能はラベル付きデータの不足に苦しむ。 多数の歩行データをラベル付けするのは非現実的です。 本研究では,多種多様な未ラベルの歩行データを事前学習プロセスとして活用し,時空間後骨の表現能力を向上させる自己教師型歩行認識手法であるSelfGaitを提案する。 具体的には,水平ピラミッドマッピング (HPM) とマイクロモーションテンプレートビルダー (MTB) を時空間バックボーンとして用いて, マルチスケール時空間表現を捉える。 casia-b および ou-mvlp ベンチマーク gait データセットを用いた実験により,提案手法の有効性が実証された。 ソースコードはhttps://github.com/EchoItLiu/SelfGaitで公開されている。

Gait recognition plays a vital role in human identification since gait is a unique biometric feature that can be perceived at a distance. Although existing gait recognition methods can learn gait features from gait sequences in different ways, the performance of gait recognition suffers from insufficient labeled data, especially in some practical scenarios associated with short gait sequences or various clothing styles. It is unpractical to label the numerous gait data. In this work, we propose a self-supervised gait recognition method, termed SelfGait, which takes advantage of the massive, diverse, unlabeled gait data as a pre-training process to improve the representation abilities of spatiotemporal backbones. Specifically, we employ the horizontal pyramid mapping (HPM) and micro-motion template builder (MTB) as our spatiotemporal backbones to capture the multi-scale spatiotemporal representations. Experiments on CASIA-B and OU-MVLP benchmark gait datasets demonstrate the effectiveness of the proposed SelfGait compared with four state-of-the-art gait recognition methods. The source code has been released at https://github.com/EchoItLiu/SelfGait.
翻訳日:2021-04-03 14:11:45 公開日:2021-03-27
# (参考訳) 実演のない共模倣学習

Co-Imitation Learning without Expert Demonstration ( http://arxiv.org/abs/2103.14823v1 )

ライセンス: CC BY 4.0
Kun-Peng Ning, Hu Xu, Kun Zhu, Sheng-Jun Huang(参考訳) 模倣学習は、専門家のデモンストレーションを利用して強化学習の効率を向上させるための主要なアプローチである。 しかし、多くの現実のシナリオでは、専門家のデモンストレーションを得るのは非常に高価か、あるいは不可能かもしれない。 この課題を克服するために,本稿では,エージェントの過去の優れた経験を専門家のデモンストレーションなしに活用するための,CoIL(Co-Imitation Learning)と呼ばれる新しい学習フレームワークを提案する。 具体的には,それぞれのエージェントが交互に環境を探索し,ピアエージェントの経験を生かして,異なるエージェントを訓練する。 経験は価値や誤解を招く可能性があるが、我々は各経験の潜在的有用性を価値関数の期待値で見積もることを提案する。 これにより、ノイズをフィルタリングしながら、より有用な体験を強調して、エージェント同士を選択的に模倣することができる。 様々な課題に対する実験結果から,提案する共励学習フレームワークは,エージェント同士が外部の監督なしに相互に利益を享受できるという有意な優位性を示した。

Imitation learning is a primary approach to improve the efficiency of reinforcement learning by exploiting the expert demonstrations. However, in many real scenarios, obtaining expert demonstrations could be extremely expensive or even impossible. To overcome this challenge, in this paper, we propose a novel learning framework called Co-Imitation Learning (CoIL) to exploit the past good experiences of the agents themselves without expert demonstration. Specifically, we train two different agents via letting each of them alternately explore the environment and exploit the peer agent's experience. While the experiences could be valuable or misleading, we propose to estimate the potential utility of each piece of experience with the expected gain of the value function. Thus the agents can selectively imitate from each other by emphasizing the more useful experiences while filtering out noisy ones. Experimental results on various tasks show significant superiority of the proposed Co-Imitation Learning framework, validating that the agents can benefit from each other without external supervision.
翻訳日:2021-04-03 14:02:17 公開日:2021-03-27
# (参考訳) アクティブクエリによる摂動レベル適応補正によるモデルのロバスト性向上

Improving Model Robustness by Adaptively Correcting Perturbation Levels with Active Queries ( http://arxiv.org/abs/2103.14824v1 )

ライセンス: CC BY 4.0
Kun-Peng Ning, Lue Tao, Songcan Chen, Sheng-Jun Huang(参考訳) 高精度に加えて、さまざまなアプリケーションにおける機械学習モデルにとって堅牢性はますます重要になっている。 近年,騒音摂動訓練によるモデルロバスト性向上に多くの研究が注がれている。 既存の研究の多くは、すべてのトレーニング例に対して一定の摂動レベルを仮定しているが、実際のタスクではそうではない。 実際、過剰な摂動は例の差別的内容を破壊するかもしれないが、不十分な摂動は堅牢性を改善するための有益な情報を提供しない。 この観察に動機づけられ,訓練過程の各例に対する摂動レベルを適応的に調整することを提案する。 具体的には、モデルが人間の専門家から正しい摂動レベルを対話的に照会できるように、新しいアクティブラーニングフレームワークを提案する。 新しいクエリタイプとともにコスト効率の高いサンプリング戦略を設計することで、いくつかのクエリでロバスト性を大幅に改善することができる。 理論的解析と実験的研究の両方が提案手法の有効性を検証する。

In addition to high accuracy, robustness is becoming increasingly important for machine learning models in various applications. Recently, much research has been devoted to improving the model robustness by training with noise perturbations. Most existing studies assume a fixed perturbation level for all training examples, which however hardly holds in real tasks. In fact, excessive perturbations may destroy the discriminative content of an example, while deficient perturbations may fail to provide helpful information for improving the robustness. Motivated by this observation, we propose to adaptively adjust the perturbation levels for each example in the training process. Specifically, a novel active learning framework is proposed to allow the model to interactively query the correct perturbation level from human experts. By designing a cost-effective sampling strategy along with a new query type, the robustness can be significantly improved with a few queries. Both theoretical analysis and experimental studies validate the effectiveness of the proposed approach.
翻訳日:2021-04-03 13:46:09 公開日:2021-03-27
# (参考訳) 空間変換器と時間変換器を用いたエンドツーエンド多目的追跡

Looking Beyond Two Frames: End-to-End Multi-Object Tracking Using Spatial and Temporal Transformers ( http://arxiv.org/abs/2103.14829v1 )

ライセンス: CC BY 4.0
Tianyu Zhu, Markus Hiller, Mahsa Ehsanpour, Rongkai Ma, Tom Drummond, Hamid Rezatofighi(参考訳) この分野の最近の進歩にもかかわらず、ビデオシーケンス内の無期限なオブジェクト数を時間とともに追跡することは課題である。 長期の時間的情報を無視して、既存のほとんどのアプローチは、閉塞のような多目的追跡の課題を適切に扱えない。 これらの欠点に対処するため、MO3TRは、真のエンドツーエンドのTransformerベースのオンラインマルチオブジェクトトラッキング(MOT)フレームワークで、明示的なデータアソシエーションモジュールやヒューリスティックス/ポスト処理を必要とせずに、オクルージョン、開始、終了の追跡を学習する。 MO3TRは、空間変換器と時間変換器を組み合わせて、オブジェクトの相互作用を長期の時間的埋め込みにエンコードし、その情報を入力データと組み合わせて再帰的に使用して、時間とともに追跡対象の状態を推定する。 空間的注意機構により,対象物と対象物との間の暗黙的な表現を学習し,時間的注意機構は過去の情報の一部に焦点をあてることで,複数のフレーム上のオクルージョンを解決することができる。 実験では,この手法の可能性を実証し,複数のMOT測定値に関する最新の結果を得た。 私たちのコードは公開されます。

Tracking a time-varying indefinite number of objects in a video sequence over time remains a challenge despite recent advances in the field. Ignoring long-term temporal information, most existing approaches are not able to properly handle multi-object tracking challenges such as occlusion. To address these shortcomings, we present MO3TR: a truly end-to-end Transformer-based online multi-object tracking (MOT) framework that learns to handle occlusions, track initiation and termination without the need for an explicit data association module or any heuristics/post-processing. MO3TR encodes object interactions into long-term temporal embeddings using a combination of spatial and temporal Transformers, and recursively uses the information jointly with the input data to estimate the states of all tracked objects over time. The spatial attention mechanism enables our framework to learn implicit representations between all the objects and the objects to the measurements, while the temporal attention mechanism focuses on specific parts of past information, allowing our approach to resolve occlusions over multiple frames. Our experiments demonstrate the potential of this new approach, reaching new state-of-the-art results on multiple MOT metrics for two popular multi-object tracking benchmarks. Our code will be made publicly available.
翻訳日:2021-04-03 13:30:58 公開日:2021-03-27
# (参考訳) LiBRe: 逆検出のための実践的ベイズ的アプローチ

LiBRe: A Practical Bayesian Approach to Adversarial Detection ( http://arxiv.org/abs/2103.14835v1 )

ライセンス: CC BY 4.0
Zhijie Deng, Xiao Yang, Shizhen Xu, Hang Su, Jun Zhu(参考訳) 魅力的な柔軟性にもかかわらず、ディープニューラルネットワーク(DNN)は敵の例に対して脆弱である。 この問題を解決するために様々な敵対的防衛戦略が提案されているが、それらは通常、普遍性、有効性、効率性に関する不可解な妥協のために制限された実用性を示している。 本研究では,bns(bayesian neural network)を敵検出に活用する目的で,より実用的な手法である軽量ベイズ改良法(libre)を提案する。 ベイズ原理に基づくタスクと攻撃非依存モデリングによって、LiBReは様々な訓練済みタスク依存のDNNを、不均一な敵攻撃を低コストで防御することができる。 We developed and integrated advanced learning technique to make LiBRe appropriate for adversarial detection。 具体的には,多層深層アンサンブルのバリエーションを構築し,LiBReの有効性と効率を高めるために,事前学習と微調整のワークフローを採用する。 さらに,逆検出指向の不確実性定量化を実現するための新たな洞察を提供する。 幅広いシナリオをカバーする大規模な実証研究は、LiBReの実用性を検証する。 モデリングと学習戦略の優位性を証明するために、徹底的なアブレーション研究も行っています。

Despite their appealing flexibility, deep neural networks (DNNs) are vulnerable against adversarial examples. Various adversarial defense strategies have been proposed to resolve this problem, but they typically demonstrate restricted practicability owing to unsurmountable compromise on universality, effectiveness, or efficiency. In this work, we propose a more practical approach, Lightweight Bayesian Refinement (LiBRe), in the spirit of leveraging Bayesian neural networks (BNNs) for adversarial detection. Empowered by the task and attack agnostic modeling under Bayes principle, LiBRe can endow a variety of pre-trained task-dependent DNNs with the ability of defending heterogeneous adversarial attacks at a low cost. We develop and integrate advanced learning techniques to make LiBRe appropriate for adversarial detection. Concretely, we build the few-layer deep ensemble variational and adopt the pre-training & fine-tuning workflow to boost the effectiveness and efficiency of LiBRe. We further provide a novel insight to realise adversarial detection-oriented uncertainty quantification without inefficiently crafting adversarial examples during training. Extensive empirical studies covering a wide range of scenarios verify the practicability of LiBRe. We also conduct thorough ablation studies to evidence the superiority of our modeling and learning strategies.
翻訳日:2021-04-03 13:12:30 公開日:2021-03-27
# (参考訳) ダウンスケーリングとアップスケーリングのための協調最適化戦略を用いたビデオリスケーリングネットワーク

Video Rescaling Networks with Joint Optimization Strategies for Downscaling and Upscaling ( http://arxiv.org/abs/2103.14858v1 )

ライセンス: CC BY 4.0
Yan-Cheng Huang, Yi-Hsin Chen, Cheng-You Lu, Hui-Po Wang, Wen-Hsiao Peng and Ching-Chun Huang(参考訳) 本稿では,映像空間解像度を個々の視聴装置に適合させる必要性から生じる映像再スケーリングタスクについて述べる。 我々は,共同作業としてビデオダウンスケーリングとアップスケーリングを共同で最適化することを目指している。 最近の研究では、時間的情報を考慮しないイメージベースのソリューションに焦点が当てられている。 結合層を持つ可逆ニューラルネットワークに基づく2つの共同最適化手法を提案する。 我々のLong Short-Term Memory Video Rescaling Network (LSTM-VRN)は、低解像度ビデオの時間情報を利用して、アップスケーリングに欠落する高周波情報の明示的な予測を形成する。 マルチインプットマルチ出力ビデオリスケーリングネットワーク(mimo-vrn)は,ビデオフレーム群を同時にダウンスケールし,スケールアップするための新しい戦略を提案する。 定量的・定性的な結果の面では,画像ベースインバータブルモデルに勝るだけでなく,共同最適化を伴わないビデオリスケーリング法よりも優れたスケールアップ品質を示す。 我々の知る限り、この研究はビデオのダウンスケーリングとアップスケーリングを共同で最適化する最初の試みである。

This paper addresses the video rescaling task, which arises from the needs of adapting the video spatial resolution to suit individual viewing devices. We aim to jointly optimize video downscaling and upscaling as a combined task. Most recent studies focus on image-based solutions, which do not consider temporal information. We present two joint optimization approaches based on invertible neural networks with coupling layers. Our Long Short-Term Memory Video Rescaling Network (LSTM-VRN) leverages temporal information in the low-resolution video to form an explicit prediction of the missing high-frequency information for upscaling. Our Multi-input Multi-output Video Rescaling Network (MIMO-VRN) proposes a new strategy for downscaling and upscaling a group of video frames simultaneously. Not only do they outperform the image-based invertible model in terms of quantitative and qualitative results, but also show much improved upscaling quality than the video rescaling methods without joint optimization. To our best knowledge, this work is the first attempt at the joint optimization of video downscaling and upscaling.
翻訳日:2021-04-03 12:52:21 公開日:2021-03-27
# (参考訳) In-Crop雑草同定のためのディープラーニング技術:概観

Deep Learning Techniques for In-Crop Weed Identification: A Review ( http://arxiv.org/abs/2103.14872v1 )

ライセンス: CC BY 4.0
Kun Hu, Zhiyong Wang, Guy Coleman, Asher Bender, Tingting Yao, Shan Zeng, Dezhen Song, Arnold Schumann, Michael Walsh(参考訳) 雑草は農業の生産性と環境にとって大きな脅威である。 持続可能な農業への需要の増加は、除草剤への依存を減らすことを目的とした正確な雑草防除技術の革新を促した。 様々な視覚タスクにおけるディープラーニングの大きな成功により、多くの有望な画像ベース雑草検出アルゴリズムが開発されている。 本稿では,画像に基づく雑草検出における深層学習技術の最近の展開について概説する。 このレビューは、雑草検出に関連する深層学習の基本を概説することから始まる。 次に, 深層雑草検出に関する最近の進歩を, 公共雑草データセットを含む研究資料について検討する。 最後に, 実際に展開可能な雑草検出手法を開発する上での課題と今後の研究の機会の議論をまとめ, この分野のタイムリーな調査を行い, 学際的な研究課題に対処する研究者を多く呼び寄せることを期待する。

Weeds are a significant threat to the agricultural productivity and the environment. The increasing demand for sustainable agriculture has driven innovations in accurate weed control technologies aimed at reducing the reliance on herbicides. With the great success of deep learning in various vision tasks, many promising image-based weed detection algorithms have been developed. This paper reviews recent developments of deep learning techniques in the field of image-based weed detection. The review begins with an introduction to the fundamentals of deep learning related to weed detection. Next, recent progresses on deep weed detection are reviewed with the discussion of the research materials including public weed datasets. Finally, the challenges of developing practically deployable weed detection methods are summarized, together with the discussions of the opportunities for future research.We hope that this review will provide a timely survey of the field and attract more researchers to address this inter-disciplinary research problem.
翻訳日:2021-04-03 12:35:35 公開日:2021-03-27
# (参考訳) 知識ドリフトのループハンドリング

Human-in-the-loop Handling of Knowledge Drift ( http://arxiv.org/abs/2103.14874v1 )

ライセンス: CC BY 4.0
Andrea Bontempelli, Fausto Giunchiglia, Andrea Passerini, Stefano Teso(参考訳) 我々は,階層的分類において発生する複雑なドリフト形式である知識ドリフト(kd)を導入し,研究する。 kdの下では、概念の語彙、個々の分布、それらの間のis-a関係は全て時間とともに変化する。 主な課題は、基底真実の概念階層が観測されていないため、異なる形式のKDを区別することは難しいことである。 例えば、2つの概念間の新しいis-a関係の導入は、これらの概念の個々の変更と混同される可能性があるが、同等とは程遠い。 正しい種類のKDを特定するのに失敗すると、分類器が使用する概念階層が損なわれ、体系的な予測エラーが生じる。 私たちのキーとなる観察は、ループ中の多くのアプリケーション(スマートパーソナルアシスタントなど)では、ユーザが最近どのようなドリフトが起こったかを知っていることです。 そこで,我々はtrckdについて紹介する。trckdは,ドリフトの自動検出と適応を,ユーザが異なる種類のkd間で曖昧さを解消するように要求するインタラクティブなステージと組み合わせた,新しいアプローチである。 さらにtrckdは、シンプルで効果的な知識認識適応戦略を実装している。 シミュレーションの結果,ユーザに対するクエリ数が少ないと,合成データと現実データの両方で予測性能が大幅に向上することがわかった。

We introduce and study knowledge drift (KD), a complex form of drift that occurs in hierarchical classification. Under KD the vocabulary of concepts, their individual distributions, and the is-a relations between them can all change over time. The main challenge is that, since the ground-truth concept hierarchy is unobserved, it is hard to tell apart different forms of KD. For instance, introducing a new is-a relation between two concepts might be confused with individual changes to those concepts, but it is far from equivalent. Failure to identify the right kind of KD compromises the concept hierarchy used by the classifier, leading to systematic prediction errors. Our key observation is that in many human-in-the-loop applications (like smart personal assistants) the user knows whether and what kind of drift occurred recently. Motivated by this, we introduce TRCKD, a novel approach that combines automated drift detection and adaptation with an interactive stage in which the user is asked to disambiguate between different kinds of KD. In addition, TRCKD implements a simple but effective knowledge-aware adaptation strategy. Our simulations show that often a handful of queries to the user are enough to substantially improve prediction performance on both synthetic and realistic data.
翻訳日:2021-04-03 12:34:17 公開日:2021-03-27
# (参考訳) ディープフィードフォワードニューラルネットワークによる異なるセルオートマトン規則の一般化

Generalization over different cellular automata rules learned by a deep feed-forward neural network ( http://arxiv.org/abs/2103.14886v1 )

ライセンス: CC BY 4.0
Marcel Aach, Jens Henrik Goebbert, Jenia Jitsev(参考訳) ディープニューラルネットワークのクラスを一般化する能力をテストするために、john conwayのgame of lifeに基づいて、2次元セルオートマトン(ca)のための多数の異なるルールセットをランダムに生成する。 これらのルールを用いて、各CAインスタンスに対する複数のトラジェクトリを計算する。 短距離および長距離のスキップ接続を持つ深層畳み込みエンコーダ・デコーダネットワークは、以前の状態から次のCA状態を予測するために、様々な生成されたCA軌道上で訓練される。 その結果、ネットワークは様々な複雑なセルオートマトン規則を学習し、見えない構成に一般化できることがわかった。 ある程度は、ネットワークはトレーニング中に全く見られなかったルールセットや近隣サイズへの一般化を示している。

To test generalization ability of a class of deep neural networks, we randomly generate a large number of different rule sets for 2-D cellular automata (CA), based on John Conway's Game of Life. Using these rules, we compute several trajectories for each CA instance. A deep convolutional encoder-decoder network with short and long range skip connections is trained on various generated CA trajectories to predict the next CA state given its previous states. Results show that the network is able to learn the rules of various, complex cellular automata and generalize to unseen configurations. To some extent, the network shows generalization to rule sets and neighborhood sizes that were not seen during the training at all.
翻訳日:2021-04-03 12:20:24 公開日:2021-03-27
# (参考訳) knowru: 多エージェント強化学習における知識蒸留による知識活用

KnowRU: Knowledge Reusing via Knowledge Distillation in Multi-agent Reinforcement Learning ( http://arxiv.org/abs/2103.14891v1 )

ライセンス: CC BY 4.0
Zijian Gao, Kele Xu, Bo Ding, Huaimin Wang, Yiying Li, Hongda Jia(参考訳) 近年,多エージェント領域における深層強化学習(RL)アルゴリズムの進歩が著しく進んでいる。 しかし、ますます複雑なタスクのトレーニングには時間がかかり、リソースが消費される。 この課題を緩和するには,過去の研究では経験の効率的な活用が不可欠であり,そのほとんどは複雑な設計と環境力学により,変分的システムにおいてこの目標を達成できない可能性がある。 本稿では,複雑な手書き設計を伴わずに,多エージェント強化学習アルゴリズムの大部分に容易に展開可能な知識再利用手法「KnowRU」を提案する。 我々は,エージェント間の知識伝達に知識蒸留パラダイムを用い,エージェントの漸近的性能を改善しつつ,新たなタスクのトレーニングフェーズを加速する目標を掲げた。 我々は,knowruのロバスト性と有効性を実証するために,協調的および競争的シナリオにおける最先端マルチエージェント強化学習(marl)アルゴリズムに関する広範囲な実験を行った。 その結果,KnowRUは近年報告されている手法よりも優れており,MARLにおける知識再利用の重要性を強調している。

Recently, deep Reinforcement Learning (RL) algorithms have achieved dramatically progress in the multi-agent area. However, training the increasingly complex tasks would be time-consuming and resources-exhausting. To alleviate this problem, efficient leveraging the historical experience is essential, which is under-explored in previous studies as most of the exiting methods may fail to achieve this goal in a continuously variational system due to their complicated design and environmental dynamics. In this paper, we propose a method, named "KnowRU" for knowledge reusing which can be easily deployed in the majority of the multi-agent reinforcement learning algorithms without complicated hand-coded design. We employ the knowledge distillation paradigm to transfer the knowledge among agents with the goal to accelerate the training phase for new tasks, while improving the asymptotic performance of agents. To empirically demonstrate the robustness and effectiveness of KnowRU, we perform extensive experiments on state-of-the-art multi-agent reinforcement learning (MARL) algorithms on collaborative and competitive scenarios. The results show that KnowRU can outperform the recently reported methods, which emphasizes the importance of the proposed knowledge reusing for MARL.
翻訳日:2021-04-03 12:11:56 公開日:2021-03-27
# (参考訳) ビオリンブリッジアドミタンスの特徴に基づく表現

Feature-based Representation for Violin Bridge Admittances ( http://arxiv.org/abs/2103.14895v1 )

ライセンス: CC BY 4.0
R. Malvermi, S. Gonzalez, M. Quintavalla, F. Antonacci, A. Sarti, J. A. Torres and R. Corradi(参考訳) 周波数応答関数(frfs)は、音楽音響実験の基礎の一つである。 楽器が様々な周波数で振動する様子を記述し、それらの間の音響的差異を予測し理解するために使用される。 バイオリンのような弦楽器の特定の場合、ブリッジで評価されたRFは全身の振動を捉えることが知られている。 これらの指標はブリッジ・アセプタンスとも呼ばれ、比較分析の文献で広く使われている。 しかし、その複雑な構造のため、定量的に比較・研究することは困難である。 本論文では,第1共鳴ピークの周波数,振幅,品質因子の影響を分離する,frf,特にバイオリンブリッジのアシタンスの違いを定量化する手法を提案する。 提案手法により,FRFとクラスター計測との距離を,この距離に応じて定義することができる。 本研究では, 有限要素解析に基づく2つのケーススタディと, 実ヴァイオリンを用いた実測値を用いて, それらの表現の有効性を実証する。 特に、シミュレーションされた橋の吸音においては、提案される距離は、連続するシミュレーション「ステップ」が特定の振動特性に与える影響を強調することができ、実際のバイオリンでは、類似のスタイルと反対のスタイルについて最初の洞察を与えることができる。

Frequency Response Functions (FRFs) are one of the cornerstones of musical acoustic experimental research. They describe the way in which musical instruments vibrate in a wide range of frequencies and are used to predict and understand the acoustic differences between them. In the specific case of stringed musical instruments such as violins, FRFs evaluated at the bridge are known to capture the overall body vibration. These indicators, also called bridge admittances, are widely used in the literature for comparative analyses. However, due to their complex structure they are rather difficult to quantitatively compare and study. In this manuscript we present a way to quantify differences between FRFs, in particular violin bridge admittances, that separates the effects in frequency, amplitude and quality factor of the first resonance peaks characterizing the responses. This approach allows us to define a distance between FRFs and clusterise measurements according to this distance. We use two case studies, one based on Finite Element Analysis and another exploiting measurements on real violins, to prove the effectiveness of such representation. In particular, for simulated bridge admittances the proposed distance is able to highlight the different impact of consecutive simulation `steps' on specific vibrational properties and, for real violins, gives a first insight on similar styles of making, as well as opposite ones.
翻訳日:2021-04-03 12:00:26 公開日:2021-03-27
# (参考訳) ベイズ微細化近似ネットワークの表現, 解析:調査

Representation, Analysis of Bayesian Refinement Approximation Network: A Survey ( http://arxiv.org/abs/2103.14896v1 )

ライセンス: CC0 1.0
Ningbo Zhu and Fei Yang(参考訳) 人工モデルによる背景減算の後、ピクセルは前景と背景としてラベル付けされている。 以前の二次処理のアプローチでは、デノナイジングの出力は通常ベイズ法のような伝統的な方法を用いる。 本稿では,修正u-netモデルを用いてベイズ法の結果を近似し,その結果を改善することに焦点を当てる。 修正されたU-Netモデルでは、他のモデルからの背景抽出の結果と、統計分布を学習するための入力としてソースイメージを組み合わせる。 これにより、ソース画像から背景減算モデルによる損失情報を復元することができる。 さらに、入力画像の部分は、既に他のバックグラウンドサブトラクションモデルの出力であるため、特徴抽出は便利であるべきであり、ノイズピクセルのラベルを変更する必要がある。 従来の方法と比較すると、深層学習の方法が優れている。

After an artificial model background subtraction, the pixels have been labelled as foreground and background. Previous approaches to secondary processing the output for denoising usually use traditional methods such as the Bayesian refinement method. In this paper, we focus on using a modified U-Net model to approximate the result of the Bayesian refinement method and improve the result. In our modified U-Net model, the result of background subtraction from other models will be combined with the source image as input for learning the statistical distribution. Thus, the losing information caused by the background subtraction model can be restored from the source image. Moreover, since the part of the input image is already the output of the other background subtraction model, the feature extraction should be convenient, it only needs to change the labels of the noise pixels. Compare with traditional methods, using deep learning methods superiority in keeping details.
翻訳日:2021-04-02 10:47:05 公開日:2021-03-27
# (参考訳) ヒト大脳皮質の周波数特異的偏析と統合:内在的機能アトラス

Frequency-specific segregation and integration of human cerebral cortex: an intrinsic functional atlas ( http://arxiv.org/abs/2103.14907v1 )

ライセンス: CC BY 4.0
Zhiguo Luo, Ling-Li Zeng, Hui Shen and Dewen Hu(参考訳) 機能的ヒト脳ネットワークの周波数特異的結合機構は、その複雑な認知機能と行動機能を支える。 それでも、人間の脳の周波数特異的な部分分割とネットワークトポロジーは明らかになっていない。 本研究では,スペクトル接続を用いてヒト大脳皮質の機能的接続を推定し,固有クラスター法と勾配法を用いて周波数特異的解析を行い,その位相構造を調べた。 7t fmriデータをhcpデータセットの184名とし, 機能的ネットワークのトポロジー特性を探索し, 周波数特異的トポロジーの安定性を確認するために, 他の890名の3t fmriデータを用いた。 7~10個の機能的ネットワークを2~4個の解離性ハブカテゴリで安定に統合し,周波数のパーセルに応じて456個のパーセルを含む内在性機能的アトラスを提案した。 その結果, 機能的ネットワークは安定な周波数特性を持つトポロジーを有しており, 機能的ユニットの役割や, より複雑な相互作用を示唆する可能性が示唆された。

The frequency-specific coupling mechanism of the functional human brain networks underpins its complex cognitive and behavioral functions. Nevertheless, it is not well unveiled what are the frequency-specific subdivisions and network topologies of the human brain. In this study, we estimated functional connectivity of the human cerebral cortex using spectral connection, and conducted frequency-specific parcellation using eigen-clustering and gradient-based methods, and then explored their topological structures. 7T fMRI data of 184 subjects in the HCP dataset were used for parcellation and exploring the topological properties of the functional networks, and 3T fMRI data of another 890 subjects were used to confirm the stability of the frequency-specific topologies. Seven to ten functional networks were stably integrated by two to four dissociable hub categories at specific frequencies, and we proposed an intrinsic functional atlas containing 456 parcels according to the parcellations across frequencies. The results revealed that the functional networks contained stable frequency-specific topologies, which may imply more abundant roles of the functional units and more complex interactions among them.
翻訳日:2021-04-02 10:40:21 公開日:2021-03-27
# (参考訳) メトリクス学習を改善するためのラベルリラクゼーションによる埋め込み転送

Embedding Transfer with Label Relaxation for Improved Metric Learning ( http://arxiv.org/abs/2103.14908v1 )

ライセンス: CC BY 4.0
Sungyeon Kim, Dongwon Kim, Minsu Cho, Suha Kwak(参考訳) 本稿では,学習した埋め込みモデルの知識を他へ伝達する,新しい埋め込み変換手法を提案する。 本手法は,ソース埋め込み空間のサンプル間の類似性を知識として活用し,対象埋め込みモデルの学習に用いる損失を伝達する。 この目的のために, 相対的損失という新たな損失を設計し, ペアの類似性を, 標本間関係のための緩和ラベルとして利用する。 我々の損失は、クラス同値を超え、より重要なペアがより訓練に寄与し、ターゲット埋め込み空間の多様体に制限を課さないような、豊富な監督信号を提供する。 計量学習ベンチマーク実験により,本手法は性能を大幅に向上させるか,ターゲットモデルのサイズや出力寸法を効果的に削減することを示した。 さらに, 自己教師あり表現の品質向上や分類モデルの性能向上にも利用できることを示した。 全ての実験において,本手法は既存の埋め込み転送技術より明らかに優れている。

This paper presents a novel method for embedding transfer, a task of transferring knowledge of a learned embedding model to another. Our method exploits pairwise similarities between samples in the source embedding space as the knowledge, and transfers them through a loss used for learning target embedding models. To this end, we design a new loss called relaxed contrastive loss, which employs the pairwise similarities as relaxed labels for inter-sample relations. Our loss provides a rich supervisory signal beyond class equivalence, enables more important pairs to contribute more to training, and imposes no restriction on manifolds of target embedding spaces. Experiments on metric learning benchmarks demonstrate that our method largely improves performance, or reduces sizes and output dimensions of target models effectively. We further show that it can be also used to enhance quality of self-supervised representation and performance of classification models. In all the experiments, our method clearly outperforms existing embedding transfer techniques.
翻訳日:2021-04-02 10:39:06 公開日:2021-03-27
# (参考訳) NeMI:新しいビュー合成のためのマルチプレーン画像を用いたニューラルラジアンス場の統合

NeMI: Unifying Neural Radiance Fields with Multiplane Images for Novel View Synthesis ( http://arxiv.org/abs/2103.14910v1 )

ライセンス: CC BY 4.0
Jiaxin Li, Zijian Feng, Qi She, Henghui Ding, Changhu Wang, Gim Hee Lee(参考訳) 本稿では,1枚の画像から高密度な3次元再構成による新しいビュー合成と深度推定を行う手法を提案する。 我々のNeMIは、ニューラル放射場(NeRF)とマルチプレーン画像(MPI)を統合する。 具体的には、NeMIは、NeRFの一般的な2次元および画像条件拡張であり、MPIの連続深さ一般化である。 入力として1つの画像が与えられた場合、任意の深さ値で4チャンネル画像(RGBと体積密度)を予測し、カメラフラストラムを共同で再構築し、隠蔽された内容を埋める。 再構成および塗布されたフラストムは、微分レンダリングを用いて、新しいRGBや奥行きビューに容易にレンダリングすることができる。 RealEstate10K, KITTI, Flowers Light Fieldsの大規模な実験により、我々のNeMIは、新しいビューの合成において大きなマージンで最先端の性能を発揮することが示された。 また,iBims-1およびNYU-v2の奥行き推定において,注釈付き奥行き監視を伴わずに競合する結果を得た。 Project page available at https://vincentfung13.github.io/ projects/nemi/

In this paper, we propose an approach to perform novel view synthesis and depth estimation via dense 3D reconstruction from a single image. Our NeMI unifies Neural radiance fields (NeRF) with Multiplane Images (MPI). Specifically, our NeMI is a general two-dimensional and image-conditioned extension of NeRF, and a continuous depth generalization of MPI. Given a single image as input, our method predicts a 4-channel image (RGB and volume density) at arbitrary depth values to jointly reconstruct the camera frustum and fill in occluded contents. The reconstructed and inpainted frustum can then be easily rendered into novel RGB or depth views using differentiable rendering. Extensive experiments on RealEstate10K, KITTI and Flowers Light Fields show that our NeMI outperforms state-of-the-art by a large margin in novel view synthesis. We also achieve competitive results in depth estimation on iBims-1 and NYU-v2 without annotated depth supervision. Project page available at https://vincentfung13.github.io/projects/nemi/
翻訳日:2021-04-02 10:21:58 公開日:2021-03-27
# (参考訳) 乱用はコンテキストであり、NLPはどうか? 乱用言語アノテーションと検出における文脈の役割

Abuse is Contextual, What about NLP? The Role of Context in Abusive Language Annotation and Detection ( http://arxiv.org/abs/2103.14916v1 )

ライセンス: CC BY 4.0
Stefano Menini, Alessio Palmero Aprosio, Sara Tonelli(参考訳) 乱用言語検出に最も広く使用されているデータセットには、メッセージの一覧(通常、ツイート)が含まれており、1つ以上のアノテータによって手動で判断され、メッセージレベルでアノテーションが実行される。 本稿では,メッセージが曖昧であり,発生の文脈で解釈される必要があることを考慮し,メッセージの憎悪コンテンツも文脈に基づいて判断した場合に何が起こるかを検討する。 英語における乱用言語検出のための広範に使用されるデータセットの一部を,まず2つの条件で再注釈した。 文脈を伴わない。 次に,これら2種類のデータセットで得られた3つの分類アルゴリズムの性能を比較し,コンテキスト認識分類はより難しいが,実際のアプリケーションシナリオに類似していると主張する。

The datasets most widely used for abusive language detection contain lists of messages, usually tweets, that have been manually judged as abusive or not by one or more annotators, with the annotation performed at message level. In this paper, we investigate what happens when the hateful content of a message is judged also based on the context, given that messages are often ambiguous and need to be interpreted in the context of occurrence. We first re-annotate part of a widely used dataset for abusive language detection in English in two conditions, i.e. with and without context. Then, we compare the performance of three classification algorithms obtained on these two types of dataset, arguing that a context-aware classification is more challenging but also more similar to a real application scenario.
翻訳日:2021-04-02 10:00:55 公開日:2021-03-27
# (参考訳) oled: コンテクストマスキングを用いた1クラス学習エンコーダ・デコーダネットワーク

OLED: One-Class Learned Encoder-Decoder Network with Adversarial Context Masking for Novelty Detection ( http://arxiv.org/abs/2103.14953v1 )

ライセンス: CC BY 4.0
John Taylor Jewell, Vahid Reza Khazaie, Yalda Mohsenzadeh(参考訳) 新規性検出は、対象クラスの分布に属さないサンプルを認識するタスクである。 訓練中、新しいクラスは欠席しており、伝統的な分類手法の使用を妨げている。 ディープオートエンコーダは多くの教師なしノベルティ検出法の基礎として広く使われている。 特にコンテキストオートエンコーダは、ランダムにマスクされた画像から元の画像を再構成することで学習するより効果的な表現により、ノベルティ検出タスクに成功している。 しかし、文脈オートエンコーダの重大な欠点は、ランダムマスキングが入力画像の重要な構造を一貫して覆うことに失敗し、特にノベルティ検出タスクにおいて、副最適表現(suboptimal representations)につながることである。 本稿では,入力マスキングを最適化するために,マスクモジュールとリコンストラクタという2つの競合するネットワークからなるフレームワークを設計した。 Mask Moduleは、画像の最も重要な部分をカバーする最適なマスクを生成するための畳み込みオートエンコーダである。 あるいは、Reconstructorは畳み込みエンコーダデコーダであり、マスクされた画像から未摂動画像を再構成することを目的としている。 ネットワークは、マスクモジュールが再構成者に与えられた画像に適用されるマスクを生成する敵対的な方法で訓練される。 このようにして、Maskモジュールは、リコンストラクタが最小化している再構築エラーを最大化する。 提案手法は,コンテキストの自動エンコーダと比較して意味的にリッチな表現を学習し,より最適なマスキングによりテスト時の新規性検出を向上させる。 mnistおよびcifar-10画像データセットの新規検出実験により,切削刃法に対する提案手法の優位性が示された。 ucsdビデオデータセットによる新奇性検出のさらなる実験において,提案手法は最先端の結果を得る。

Novelty detection is the task of recognizing samples that do not belong to the distribution of the target class. During training, the novelty class is absent, preventing the use of traditional classification approaches. Deep autoencoders have been widely used as a base of many unsupervised novelty detection methods. In particular, context autoencoders have been successful in the novelty detection task because of the more effective representations they learn by reconstructing original images from randomly masked images. However, a significant drawback of context autoencoders is that random masking fails to consistently cover important structures of the input image, leading to suboptimal representations - especially for the novelty detection task. In this paper, to optimize input masking, we have designed a framework consisting of two competing networks, a Mask Module and a Reconstructor. The Mask Module is a convolutional autoencoder that learns to generate optimal masks that cover the most important parts of images. Alternatively, the Reconstructor is a convolutional encoder-decoder that aims to reconstruct unperturbed images from masked images. The networks are trained in an adversarial manner in which the Mask Module generates masks that are applied to images given to the Reconstructor. In this way, the Mask Module seeks to maximize the reconstruction error that the Reconstructor is minimizing. When applied to novelty detection, the proposed approach learns semantically richer representations compared to context autoencoders and enhances novelty detection at test time through more optimal masking. Novelty detection experiments on the MNIST and CIFAR-10 image datasets demonstrate the proposed approach's superiority over cutting-edge methods. In a further experiment on the UCSD video dataset for novelty detection, the proposed approach achieves state-of-the-art results.
翻訳日:2021-04-01 14:12:55 公開日:2021-03-27
# (参考訳) 合成データを用いたt2強調MRIにおける前立腺全腺セグメンテーションの改善

Improving prostate whole gland segmentation in t2-weighted MRI with synthetically generated data ( http://arxiv.org/abs/2103.14955v1 )

ライセンス: CC BY 4.0
Alvaro Fernandez-Quilez and Steinar Valle Larsen and Morten Goodwin and Thor Ole Gulsurd and Svein Reidar Kjosavik and Ketil Oppedal(参考訳) 前立腺全腺(WG)分節は前立腺癌(PCa)の検出、ステージング、治療計画において重要な役割を担っている。 ディープラーニング(DL)メソッドが示す約束にもかかわらず、かなりの量の注釈付きデータの可用性に依存している。 画像の翻訳や回転などの拡張技術は、データの可用性を高める代替手段となる。 それでも、生成されたデータと原データとの相関により、変換されたデータによって提供される情報量が制限される。 本稿では,他の領域および医療領域における合成画像の生成におけるgan(generative adversarial networks)の最近の成功に基づいて,wgセグメンテーションマスクを生成し,マルチセンターデータセットに基づいた前立腺のt2強調mriを合成するパイプラインを提案する。 次に、生成されたデータをデータ拡張の形式として使用します。 その結果,標準的な拡張技術と比較してWGセグメンテーションの品質は向上した。

Whole gland (WG) segmentation of the prostate plays a crucial role in detection, staging and treatment planning of prostate cancer (PCa). Despite promise shown by deep learning (DL) methods, they rely on the availability of a considerable amount of annotated data. Augmentation techniques such as translation and rotation of images present an alternative to increase data availability. Nevertheless, the amount of information provided by the transformed data is limited due to the correlation between the generated data and the original. Based on the recent success of generative adversarial networks (GAN) in producing synthetic images for other domains as well as in the medical domain, we present a pipeline to generate WG segmentation masks and synthesize T2-weighted MRI of the prostate based on a publicly available multi-center dataset. Following, we use the generated data as a form of data augmentation. Results show an improvement in the quality of the WG segmentation when compared to standard augmentation techniques.
翻訳日:2021-04-01 13:59:21 公開日:2021-03-27
# (参考訳) 明示的な負サンプリングを伴わない自己教師付きグラフニューラルネットワーク

Self-supervised Graph Neural Networks without explicit negative sampling ( http://arxiv.org/abs/2103.14958v1 )

ライセンス: CC BY 4.0
Zekarias T. Kefato and Sarunas Girdzijauskas(参考訳) 実世界のデータはラベル付けされていないか、わずかしかラベル付けされていない。 手動でデータをラベリングするのは、非常に高価で厄介な作業です。 これにより、半教師付き/教師付き技術と同等の結果が得られるほど強力な教師なし学習技術が要求される。 対照的な自己指導型学習は強力な方向として現れており、場合によっては指導型技術よりも優れている。 本研究では,明示的なコントラスト項に依存しない,新しいコントラスト型自己教師付きグラフニューラルネットワーク (gnn) であるselfgnnを提案する。 性能を犠牲にすることなく、暗黙の対照的な項を導入するバッチ正規化を利用する。 さらに,データ拡張がコントラスト学習の鍵となるため,グラフに4つの機能拡張(fa)技術を導入する。 グラフトポロジカル・アジュメンテーション(TA)は一般的に用いられているが, 実験の結果, FAはTAと同程度の性能を示した。 さらに、FA は TA とは異なり計算オーバーヘッドを伴わず、O(N^3) の時間複雑性、N 個のノードを持つことが多い。 公開されている7つの実世界のデータに対する実証的な評価は、SelfGNNは強力で、SOTAが監督するGNNに匹敵する性能を示し、常にSOTAが監督するGNNよりも優れていることを示している。 ソースコードはhttps://github.com/zekarias-tilahun/SelfGNNで公開されている。

Real world data is mostly unlabeled or only few instances are labeled. Manually labeling data is a very expensive and daunting task. This calls for unsupervised learning techniques that are powerful enough to achieve comparable results as semi-supervised/supervised techniques. Contrastive self-supervised learning has emerged as a powerful direction, in some cases outperforming supervised techniques. In this study, we propose, SelfGNN, a novel contrastive self-supervised graph neural network (GNN) without relying on explicit contrastive terms. We leverage Batch Normalization, which introduces implicit contrastive terms, without sacrificing performance. Furthermore, as data augmentation is key in contrastive learning, we introduce four feature augmentation (FA) techniques for graphs. Though graph topological augmentation (TA) is commonly used, our empirical findings show that FA perform as good as TA. Moreover, FA incurs no computational overhead, unlike TA, which often has O(N^3) time complexity, N-number of nodes. Our empirical evaluation on seven publicly available real-world data shows that, SelfGNN is powerful and leads to a performance comparable with SOTA supervised GNNs and always better than SOTA semi-supervised and unsupervised GNNs. The source code is available at https://github.com/zekarias-tilahun/SelfGNN.
翻訳日:2021-04-01 13:37:18 公開日:2021-03-27
# (参考訳) supersense and sensibility: 前置詞の意味的アノテーションのためのプロキシタスク

Supersense and Sensibility: Proxy Tasks for Semantic Annotation of Prepositions ( http://arxiv.org/abs/2103.14961v1 )

ライセンス: CC BY 4.0
Luke Gessler, Shira Wein, Nathan Schneider(参考訳) Prepositional Supersenseアノテーションは時間がかかり、専門家のトレーニングが必要です。 そこで本稿では,表面置換と類似性判定を付与することにより,前提のスーパーセンスアノテーションを得るための2つの方法を提案する。 4つのパイロット研究により、どちらの手法も、専門家のアノテーションに匹敵する品質の暗黙のアノテーションを生成する可能性を示唆している。

Prepositional supersense annotation is time-consuming and requires expert training. Here, we present two sensible methods for obtaining prepositional supersense annotations by eliciting surface substitution and similarity judgments. Four pilot studies suggest that both methods have potential for producing prepositional supersense annotations that are comparable in quality to expert annotations.
翻訳日:2021-04-01 11:55:22 公開日:2021-03-27
# (参考訳) 粒子フィルタブリッジ補間

Particle Filter Bridge Interpolation ( http://arxiv.org/abs/2103.14963v1 )

ライセンス: CC BY 4.0
Adam Lindhe, Carl Ringqvist and Henrik Hult(参考訳) 自動符号化モデルは近年広く研究されている。 これらは、機能学習の分析だけでなく、サンプル生成のための効率的なフレームワークを提供する。 さらに、データポイント間の補間を意味的に意味のある方法で効率的に行う。 本稿では,以前に導入した正準,次元独立,確率的補間の生成法について述べる。 ここでは、補間経路の分布を、先行分布を不変分布とする潜在空間における人工ランダムデータ生成プロセスから構築されたブリッジプロセスの分布として表現する。 その結果、確率的補間経路は、前者が高い質量を持つ潜在空間の領域に存在する傾向にある。 一般的に、このような領域は意味的に有意義なサンプルを生成するため、これは望ましい特徴である。 本稿では,高い潜在表現密度の領域を正確に識別する判別器ネットワークを導入することにより,ブリッジプロセス法を拡張する。 識別器ネットワークは、基礎となる橋梁プロセスの尺度の変更として組み込まれ、シーケンシャルモンテカルロを用いて補間経路のサンプリングを行う。 得られたサンプリング手順により、補間経路のばらつきが大きくなり、データ密度の高い領域へのより強いドリフトが可能になる。

Auto encoding models have been extensively studied in recent years. They provide an efficient framework for sample generation, as well as for analysing feature learning. Furthermore, they are efficient in performing interpolations between data-points in semantically meaningful ways. In this paper, we build further on a previously introduced method for generating canonical, dimension independent, stochastic interpolations. Here, the distribution of interpolation paths is represented as the distribution of a bridge process constructed from an artificial random data generating process in the latent space, having the prior distribution as its invariant distribution. As a result the stochastic interpolation paths tend to reside in regions of the latent space where the prior has high mass. This is a desirable feature since, generally, such areas produce semantically meaningful samples. In this paper, we extend the bridge process method by introducing a discriminator network that accurately identifies areas of high latent representation density. The discriminator network is incorporated as a change of measure of the underlying bridge process and sampling of interpolation paths is implemented using sequential Monte Carlo. The resulting sampling procedure allows for greater variability in interpolation paths and stronger drift towards areas of high data density.
翻訳日:2021-04-01 11:41:49 公開日:2021-03-27
# (参考訳) 放射能確率アクティブセンシングによる透過体発見

Transmitter Discovery through Radio-Visual Probabilistic Active Sensing ( http://arxiv.org/abs/2103.14965v1 )

ライセンス: CC0 1.0
Luca Varotto, Angelo Cenedese(参考訳) マルチモーダル確率アクティブセンシング(mmpas)は、センサー融合と確率モデルを用いてロボットセンシングプラットフォームの知覚過程を制御する。 MMPASは、環境探索、協調移動ロボット、目標追跡に成功し、自律認識における高性能な保証によって育成されている。 そこで本稿では,送信機発見問題を解決するためのバイラジオ・ビジュアルPAS方式を提案する。 具体的には、まず無線と視覚の相関を利用して目標検出モデルを自己監督的に学習する。 そして、このモデルとアンテナ放射異方性を組み合わせたベイズ最適化フレームワークがプラットフォームを制御する。 提案手法は92%の精度を実現し,他の2つの確率的アクティブセンシングベースラインを上回った。

Multi-modal Probabilistic Active Sensing (MMPAS) uses sensor fusion and probabilistic models to control the perception process of robotic sensing platforms. MMPAS is successfully employed in environmental exploration, collaborative mobile robotics, and target tracking, being fostered by the high performance guarantees on autonomous perception. In this context, we propose a bi-Radio-Visual PAS scheme to solve the transmitter discovery problem. Specifically, we firstly exploit the correlation between radio and visual measurements to learn a target detection model in a self-supervised manner. Then, the model is combined with antenna radiation anisotropies into a Bayesian Optimization framework that controls the platform. We show that the proposed algorithm attains an accuracy of 92%, overcoming two other probabilistic active sensing baselines.
翻訳日:2021-04-01 11:30:59 公開日:2021-03-27
# (参考訳) 深層ニューラルネットワークを用いた体積医用画像セグメンテーションによる臨床診断パイプラインの触媒 : 過去・現在・未来

Catalyzing Clinical Diagnostic Pipelines Through Volumetric Medical Image Segmentation Using Deep Neural Networks: Past, Present, & Future ( http://arxiv.org/abs/2103.14969v1 )

ライセンス: CC BY 4.0
Teofilo E. Zosa(参考訳) ディープラーニングは、過去10年間に自然画像処理の分野に顕著な影響を与えてきた。 その結果、医療画像解析など、関連する領域における未解決タスク間でこの成功を複製することには、大きな関心がある。 医用画像分析の中核は、様々な臨床ワークフローを可能にするセグメンテーションのタスクである。 手動セグメンテーションに固有の課題のため、何十年もの間、拡張可能で自動化された専門家レベルのセグメンテーション技術を見つける研究が続けられてきた。 最近のニューラルネットワークベースの技術によって実証された画期的なパフォーマンスを考えると、ディープラーニングは歴史的に不可能だった方法を達成することができるように思える。 本稿では,最先端(sota)ニューラルネットワークに基づくセグメンテーションアルゴリズムについて,最新のアーキテクチャに着目し,各ネットワークトポロジーの貢献度と特性を比較し,比較する。 超音波検査をモチベーションの例として用いて、効果的な深層学習に基づくソリューションの臨床的意義を明らかにし、モダリティに特有の課題を明確にし、これらの課題に対応する新しいアプローチについて議論する。 最高の深層学習アプローチ(すなわち)の、一般的に観察される短命性を考える。 論文の主な貢献は、歴史的背景を持つ近代的な深層学習アーキテクチャの文脈化と、ボリューム医学画像セグメンテーション研究の現在の軌跡の解明である。

Deep learning has made a remarkable impact in the field of natural image processing over the past decade. Consequently, there is a great deal of interest in replicating this success across unsolved tasks in related domains, such as medical image analysis. Core to medical image analysis is the task of semantic segmentation which enables various clinical workflows. Due to the challenges inherent in manual segmentation, many decades of research have been devoted to discovering extensible, automated, expert-level segmentation techniques. Given the groundbreaking performance demonstrated by recent neural network-based techniques, deep learning seems poised to achieve what classic methods have historically been unable. This paper will briefly overview some of the state-of-the-art (SoTA) neural network-based segmentation algorithms with a particular emphasis on the most recent architectures, comparing and contrasting the contributions and characteristics of each network topology. Using ultrasonography as a motivating example, it will also demonstrate important clinical implications of effective deep learning-based solutions, articulate challenges unique to the modality, and discuss novel approaches developed in response to those challenges, concluding with the proposal of future directions in the field. Given the generally observed ephemerality of the best deep learning approaches (i.e. the extremely quick succession of the SoTA), the main contributions of the paper are its contextualization of modern deep learning architectures with historical background and the elucidation of the current trajectory of volumetric medical image segmentation research.
翻訳日:2021-04-01 11:19:06 公開日:2021-03-27
# (参考訳) ソーシャルメディアにおける憎悪と悪感の注釈

Annotating Hate and Offenses on Social Media ( http://arxiv.org/abs/2103.14972v1 )

ライセンス: CC BY 4.0
Francielle Alves Vargas, Isabelle Carvalho, Fabiana Rodrigues de G\'oes, Fabr\'icio Benevenuto de Souza, Thiago Alexandre Salgueiro Pardo(参考訳) This paper describes a corpus annotation process to support the identification of hate speech and offensive language in social media.The corpus was collected from Instagram pages of political personalities and manually annotated, being composed by 7,000 documents annotated according to three different layers: a binary classification (offensive versus non-offensive comments), the level of the offense (highly offensive, moderately offensive and slightly offensive messages), and the identification regarding the target of the discriminatory content (xenophobia, racism, homophobia, sexism, religion intolerance, partyism, apology to the dictatorship, antisemitism and fat phobia). 各コメントは3つの異なるアノテーションによって注釈付けされ、高いアノテーション間の合意が得られた。

This paper describes a corpus annotation process to support the identification of hate speech and offensive language in social media.The corpus was collected from Instagram pages of political personalities and manually annotated, being composed by 7,000 documents annotated according to three different layers: a binary classification (offensive versus non-offensive comments), the level of the offense (highly offensive, moderately offensive and slightly offensive messages), and the identification regarding the target of the discriminatory content (xenophobia, racism, homophobia, sexism, religion intolerance, partyism, apology to the dictatorship, antisemitism and fat phobia). Each comment was annotated by three different annotators, which achieved high inter-annotator agreement.
翻訳日:2021-04-01 10:49:09 公開日:2021-03-27
# (参考訳) 顔検出にもっと深く注ぐ:調査結果

Going Deeper Into Face Detection: A Survey ( http://arxiv.org/abs/2103.14983v1 )

ライセンス: CC BY 4.0
Shervin Minaee, Ping Luo, Zhe Lin, Kevin Bowyer(参考訳) 顔検出は多くの顔認識および顔分析システムにおいて重要な第一歩である。 初期の顔検出のアプローチは、主に、Haar CascadesやHistogram of Oriented Gradientsなどの局所画像領域から抽出された手作りの特徴の上に構築された分類器に基づいていた。 しかし、これらの手法は制御されていない環境の画像に対して高い精度を達成するには不十分であった。 2012年、ディープニューラルネットワークを用いた画像分類における画期的な取り組みにより、顔検出のパラダイムは大きく変化した。 コンピュータビジョンにおけるディープラーニングの急速な進歩に触発されて、ここ数年で顔検出のために多くのディープラーニングベースのフレームワークが提案され、精度が大幅に向上した。 本稿では,最も代表的な深層学習に基づく顔検出手法について,いくつかの主要なカテゴリに分類して概説し,その中核となる設計と評価を一般的なベンチマークで示す。 また,最も人気のある顔検出データセットについても述べる。 最後に、この分野の現在の課題について議論し、今後の研究の方向性を示唆する。

Face detection is a crucial first step in many facial recognition and face analysis systems. Early approaches for face detection were mainly based on classifiers built on top of hand-crafted features extracted from local image regions, such as Haar Cascades and Histogram of Oriented Gradients. However, these approaches were not powerful enough to achieve a high accuracy on images of from uncontrolled environments. With the breakthrough work in image classification using deep neural networks in 2012, there has been a huge paradigm shift in face detection. Inspired by the rapid progress of deep learning in computer vision, many deep learning based frameworks have been proposed for face detection over the past few years, achieving significant improvements in accuracy. In this work, we provide a detailed overview of some of the most representative deep learning based face detection methods by grouping them into a few major categories, and present their core architectural designs and accuracies on popular benchmarks. We also describe some of the most popular face detection datasets. Finally, we discuss some current challenges in the field, and suggest potential future research directions.
翻訳日:2021-04-01 10:33:42 公開日:2021-03-27
# (参考訳) ビデオからのリアルな顔アニメーション生成

Realistic face animation generation from videos ( http://arxiv.org/abs/2103.14984v1 )

ライセンス: CC0 1.0
Zihao Jian, Minshan Xie(参考訳) 3次元顔の再構成と顔のアライメントは、コンピュータビジョンにおける2つの基本的かつ高機能なトピックである。 近年,深層学習モデルを用いて3dmm係数を推定して3d顔形状を再構成する研究が始まっている。 しかし、事前に定義された顔テンプレートの制限により、パフォーマンスが制限される。 この問題に対処するために,3次元MM係数の計算を完全に回避できるエンドツーエンド手法を提案し,多くの注目を集めている。 本稿では,3次元顔再構成と顔アライメントの3つの最先端手法を紹介し,解析する。 PRNの潜在的な改善は、その精度と速度をさらに向上するために提案されている。

3D face reconstruction and face alignment are two fundamental and highly related topics in computer vision. Recently, some works start to use deep learning models to estimate the 3DMM coefficients to reconstruct 3D face geometry. However, the performance is restricted due to the limitation of the pre-defined face templates. To address this problem, some end-to-end methods, which can completely bypass the calculation of 3DMM coefficients, are proposed and attract much attention. In this report, we introduce and analyse three state-of-the-art methods in 3D face reconstruction and face alignment. Some potential improvement on PRN are proposed to further enhance its accuracy and speed.
翻訳日:2021-04-01 10:06:22 公開日:2021-03-27
# (参考訳) 確率分布の否定を生成する

Generating Negations of Probability Distributions ( http://arxiv.org/abs/2103.14986v1 )

ライセンス: CC BY 4.0
Ildar Batyrshin, Luis Alfonso Villa-Vargas, Marco Antonio Ramirez-Salinas, Moises Salinas-Rosales, Nailya Kubysheva(参考訳) 近年,確率分布の否定が導入された。 このような否定の必要性は、知識ベースのシステムが、確率分布 (pd) で表される高でないような用語を使用できる場合に生じる。 例えば、高 ProFIT や高 PRICE などが考えられる。 デンプスター・シェーファー理論におけるこの否定の応用は多くの作品で検討された。 確率分布のいくつかの否定は提案されているが、どのように他の否定を構築するかは明らかではない。 本稿では,[0,1] 上の減少関数を用いた pd の点-点変換として確率分布の否定を考える。 ネゲータの生成法と対応するpdの否定法を提案し,その特性について検討する。 線形ネガネータをヤガーと均一ネガネータの凸結合として特徴づける。

Recently it was introduced a negation of a probability distribution. The need for such negation arises when a knowledge-based system can use the terms like NOT HIGH, where HIGH is represented by a probability distribution (pd). For example, HIGH PROFIT or HIGH PRICE can be considered. The application of this negation in Dempster-Shafer theory was considered in many works. Although several negations of probability distributions have been proposed, it was not clear how to construct other negations. In this paper, we consider negations of probability distributions as point-by-point transformations of pd using decreasing functions defined on [0,1] called negators. We propose the general method of generation of negators and corresponding negations of pd, and study their properties. We give a characterization of linear negators as a convex combination of Yager and uniform negators.
翻訳日:2021-04-01 09:56:58 公開日:2021-03-27
# (参考訳) 人工ニューラルネットワークの熱流束解析結果への適用に基づく熱透過率予測

Thermal transmittance prediction based on the application of artificial neural networks on heat flux method results ( http://arxiv.org/abs/2103.14995v1 )

ライセンス: CC BY 4.0
Sanjin Gumbarevi\'c, Bojan Milovanovi\'c, Mergim Ga\v{s}i, Marina Bagari\'c(参考訳) 建設株の深いエネルギー改革は、エネルギー効率関連指令によって欧州連合(EU)に焦点が当てられた。 深層エネルギーの改修が必要な建物の多くは古いもので、設計・改修の文書が欠落している可能性がある。 熱透過率(熱透過率) u値)は、建物内包要素による伝達熱損失を決定する上で最も重要なパラメータの1つである。 それは、建築要素を形成するすべての材料の厚さと熱的性質に依存する。 in-situ u-値はiso 9869-1標準 (heat flux method - hfm) で決定できる。 それでも、hfmが改修設計プロセス開始前にフィールドテストで広く使われていない理由の一つは測定期間である。 本稿では,1つの熱流センサによる並列測定により測定時間を短縮する可能性を分析する。 この並列化は、内部および外気温度の収集に基づいて未知の熱流束を予測するために、HFM結果にニューラルネットワーク(ANN)の特定のクラスを適用することで達成できる。 満足度予測が達成されれば、HFMセンサを別の測定位置に移すことができる。 本稿では,多層型パーセプトロンと3つのニューロンを隠れ層に配置した多層型パーセプトロン,100単位の長短期記憶,100単位のゲート型リカレントユニット,50単位の長短期記憶ユニットと50個のゲート型リカレントユニットを組み合わせることで,hfm測定に適用した4例の比較を行った。 解析の結果, 2つの入力温度に基づく熱流束率の予測に有望な結果が得られた。 別の壁のさらなる分析は、このトピックについてさらなる研究の方向となる方法の限界を示した。

Deep energy renovation of building stock came more into focus in the European Union due to energy efficiency related directives. Many buildings that must undergo deep energy renovation are old and may lack design/renovation documentation, or possible degradation of materials might have occurred in building elements over time. Thermal transmittance (i.e. U-value) is one of the most important parameters for determining the transmission heat losses through building envelope elements. It depends on the thickness and thermal properties of all the materials that form a building element. In-situ U-value can be determined by ISO 9869-1 standard (Heat Flux Method - HFM). Still, measurement duration is one of the reasons why HFM is not widely used in field testing before the renovation design process commences. This paper analyzes the possibility of reducing the measurement time by conducting parallel measurements with one heat-flux sensor. This parallelization could be achieved by applying a specific class of the Artificial Neural Network (ANN) on HFM results to predict unknown heat flux based on collected interior and exterior air temperatures. After the satisfying prediction is achieved, HFM sensor can be relocated to another measuring location. Paper shows a comparison of four ANN cases applied to HFM results for a measurement held on one multi-layer wall - multilayer perceptron with three neurons in one hidden layer, long short-term memory with 100 units, gated recurrent unit with 100 units and combination of 50 long short-term memory units and 50 gated recurrent units. The analysis gave promising results in term of predicting the heat flux rate based on the two input temperatures. Additional analysis on another wall showed possible limitations of the method that serves as a direction for further research on this topic.
翻訳日:2021-04-01 09:46:47 公開日:2021-03-27
# (参考訳) eXtended Artificial Intelligence: New prospects of Human-AI Interaction Research

eXtended Artificial Intelligence: New Prospects of Human-AI Interaction Research ( http://arxiv.org/abs/2103.15004v1 )

ライセンス: CC BY 4.0
Carolin Wienrich and Marc Erich Latoschik(参考訳) 人工知能(AI)は、幅広い計算問題やユースケースをカバーしている。 それらの多くは、人間がどのように人間と対話するか、それともAIと対話すべきかについて、深く、時には複雑な質問を暗示している。 さらに、多くのユーザーや将来のユーザーはAIとは何かという抽象的な考えを持っている。 人間中心設計アプローチは、異なる実施形態が人間の知覚とaiとの相互作用に与える影響を評価することを示唆する。 現実のアプリケーション・フィールドや具体化の複雑さのため実現が難しいアプローチである。 しかし、ここでXRは人間とAIの相互作用を研究する新しい可能性を開く。 まず、XR-AI組合せの異なるアプローチの枠組みと視点として、XR-AI連続体に基づく人間-AI相互作用の理論的処理とモデルを提供する。 XR-AIの組み合わせは、先進的な人間-AIインターフェースの効果を学ぶ方法として動機付けられ、なぜXRとAIの組み合わせが人間-AIインタラクションとインタフェースの有効かつ体系的な研究に役立っているのかを示す。 第2に、この記事では、2つの異なるAIシステムに対する前述のアプローチを実証する2つの模範的な実験を提供している。 最初の実験は人間とロボットの相互作用において興味深いジェンダー効果を示し、2つ目の実験はレコメンデーターシステムのエリザ効果を示す。 本稿では、人間とAIのインタラクションとインタフェースのためのXRテストベッドの2つのパラダイム実装を紹介し、有効かつ体系的な調査方法を示す。 要約すると、記事は、XRが人間中心のAI設計と開発にどう役立つか、という新しい視点を開いている。

Artificial Intelligence (AI) covers a broad spectrum of computational problems and use cases. Many of those implicate profound and sometimes intricate questions of how humans interact or should interact with AIs. Moreover, many users or future users do have abstract ideas of what AI is, significantly depending on the specific embodiment of AI applications. Human-centered-design approaches would suggest evaluating the impact of different embodiments on human perception of and interaction with AI. An approach that is difficult to realize due to the sheer complexity of application fields and embodiments in reality. However, here XR opens new possibilities to research human-AI interactions. The article's contribution is twofold: First, it provides a theoretical treatment and model of human-AI interaction based on an XR-AI continuum as a framework for and a perspective of different approaches of XR-AI combinations. It motivates XR-AI combinations as a method to learn about the effects of prospective human-AI interfaces and shows why the combination of XR and AI fruitfully contributes to a valid and systematic investigation of human-AI interactions and interfaces. Second, the article provides two exemplary experiments investigating the aforementioned approach for two distinct AI-systems. The first experiment reveals an interesting gender effect in human-robot interaction, while the second experiment reveals an Eliza effect of a recommender system. Here the article introduces two paradigmatic implementations of the proposed XR testbed for human-AI interactions and interfaces and shows how a valid and systematic investigation can be conducted. In sum, the article opens new perspectives on how XR benefits human-centered AI design and development.
翻訳日:2021-04-01 09:37:44 公開日:2021-03-27
# (参考訳) H-GAN:手にあるガンのパワー

H-GAN: the power of GANs in your Hands ( http://arxiv.org/abs/2103.15017v1 )

ライセンス: CC BY 4.0
Sergiu Oprea, Giorgos Karvounas, Pablo Martinez-Gonzalez, Nikolaos Kyriazis, Sergio Orts-Escolano, Iason Oikonomidis, Alberto Garcia-Garcia, Aggeliki Tsoli, Jose Garcia-Rodriguez, Antonis Argyros(参考訳) 我々は,マルチスケールの知覚識別器を実装するサイクル一貫性のある逆学習手法であるHandGAN(H-GAN)を提案する。 手の合成画像を実際の領域に翻訳するように設計されている。 合成ハンドは、完全な地上アノテーションを提供するが、実際のデータのターゲット分布を表すものではない。 我々は、リアルな手の外観と合成アノテーションの完璧なブレンドを提供しようとしている。 画像から画像への翻訳を頼りに, 合成手の出現を改良し, 実画像の収集に基づく統計的分布を近似する。 H-GANは、クロスドメイントーンマッピングだけでなく、シェーディング不連続性のような局所的な領域における構造的差異に取り組む。 結果は, 従来よりも質的かつ定量的に評価された。 さらに, 生成した画像を手指分類タスクに適用することに成功した。

We present HandGAN (H-GAN), a cycle-consistent adversarial learning approach implementing multi-scale perceptual discriminators. It is designed to translate synthetic images of hands to the real domain. Synthetic hands provide complete ground-truth annotations, yet they are not representative of the target distribution of real-world data. We strive to provide the perfect blend of a realistic hand appearance with synthetic annotations. Relying on image-to-image translation, we improve the appearance of synthetic hands to approximate the statistical distribution underlying a collection of real images of hands. H-GAN tackles not only cross-domain tone mapping but also structural differences in localized areas such as shading discontinuities. Results are evaluated on a qualitative and quantitative basis improving previous works. Furthermore, we successfully apply the generated images to the hand classification task.
翻訳日:2021-04-01 09:36:36 公開日:2021-03-27
# 道に乗らないことの説明

Explaining the Road Not Taken ( http://arxiv.org/abs/2103.14973v1 )

ライセンス: Link先を確認
Hua Shen, Ting-Hao (Kenneth) Huang(参考訳) ディープニューラルネットワークモデルの既存の解釈がユーザのニーズに効果的に反応するかどうかは不明だ。 本稿では,200以上の論文で使われている自然言語処理(NLP)に関する一般的な説明形式(特徴属性,決定規則,プローブなど)を要約し,XAI質問銀行で収集されたユーザ質問と比較する。 すなわち、モデルが1つの結果を選択した理由であり、明確に定義されておらず、明らかに類似しているように思えるが、ほとんどのモデル解釈はこれらの質問に答えることができない。

It is unclear if existing interpretations of deep neural network models respond effectively to the needs of users. This paper summarizes the common forms of explanations (such as feature attribution, decision rules, or probes) used in over 200 recent papers about natural language processing (NLP), and compares them against user questions collected in the XAI Question Bank. We found that although users are interested in explanations for the road not taken - namely, why the model chose one result and not a well-defined, seemly similar legitimate counterpart - most model interpretations cannot answer these questions.
翻訳日:2021-03-30 15:30:20 公開日:2021-03-27
# グラフ学習

Graph Unlearning ( http://arxiv.org/abs/2103.14991v1 )

ライセンス: Link先を確認
Min Chen and Zhikun Zhang and Tianhao Wang and Michael Backes and Mathias Humbert and Yang Zhang(参考訳) 忘れられる権利は、データ対象がそれを格納しているエンティティからデータを消去する権利を有することを述べる。 機械学習(ML)のコンテキストにおいて、MLモデルプロバイダは、MLモデルを構築するために使用されるトレーニングセットから、データ対象のデータを削除する必要がある。 単純かつ合法ではあるが、未学習の要求を受け取ると、スクラッチからMLモデルをトレーニングすることは、トレーニングセットが大きい場合に高い計算オーバーヘッドを引き起こす。 この問題に対処するために、画像とテキストデータの領域において、SISAが最先端のソリューションである多くの近似アルゴリズムが提案されている。 トレーニングセットを複数のシャードにランダムに分割し、各シャードの構成モデルをトレーニングする。 しかし、グラフデータに直接SISAを適用すると、グラフ構造情報が著しく損なわれ、結果として得られるMLモデルの有用性が損なわれる。 本稿では,グラフデータに適した新しい機械学習手法であるGraphEraserを提案する。 その貢献には、2つの新しいグラフ分割アルゴリズムと学習に基づく集約方法が含まれる。 grapheraserの学習効率とモデルの有用性を説明するため、5つの実世界のデータセットを広範囲に実験した。 grapheraserは、スクラッチから再トレーニングするよりも、2.06$\times$ (small dataset)から35.94$\times$ (large dataset)アンラーニング時間の改善を達成している。 一方、GraphEraserはランダムパーティショニングよりも最大62.5\%高いF1スコアを達成する。 さらに,本提案手法は,多数決の集計結果よりも最大112\%のF1スコアを達成する。

The right to be forgotten states that a data subject has the right to erase their data from an entity storing it. In the context of machine learning (ML), it requires the ML model provider to remove the data subject's data from the training set used to build the ML model, a process known as \textit{machine unlearning}. While straightforward and legitimate, retraining the ML model from scratch upon receiving unlearning requests incurs high computational overhead when the training set is large. To address this issue, a number of approximate algorithms have been proposed in the domain of image and text data, among which SISA is the state-of-the-art solution. It randomly partitions the training set into multiple shards and trains a constituent model for each shard. However, directly applying SISA to the graph data can severely damage the graph structural information, and thereby the resulting ML model utility. In this paper, we propose GraphEraser, a novel machine unlearning method tailored to graph data. Its contributions include two novel graph partition algorithms, and a learning-based aggregation method. We conduct extensive experiments on five real-world datasets to illustrate the unlearning efficiency and model utility of GraphEraser. We observe that GraphEraser achieves 2.06$\times$ (small dataset) to 35.94$\times$ (large dataset) unlearning time improvement compared to retraining from scratch. On the other hand, GraphEraser achieves up to $62.5\%$ higher F1 score than that of random partitioning. In addition, our proposed learning-based aggregation method achieves up to $112\%$ higher F1 score than that of the majority vote aggregation.
翻訳日:2021-03-30 15:29:32 公開日:2021-03-27
# より良くできる! 予測をするときの理由を解明するなら

You Can Do Better! If You Elaborate the Reason When Making Prediction ( http://arxiv.org/abs/2103.14919v1 )

ライセンス: Link先を確認
Dongfang Li, Jingcong Tao, Qingcai Chen, Baotian Hu(参考訳) ニューラル予測モデルは、様々な自然言語処理タスクにおいて画期的なパフォーマンス改善を達成している。 しかしながら、ほとんどの神経予測モデルは、予測の説明可能性の欠如に悩まされ、特に医学領域において、実用性を制限する。 本稿では,大規模な事前学習言語モデルと結合して,予測を行い,それに対応する説明を同時に生成する新しいニューラルネットワーク予測フレームワークを提案する。 本研究は,中国語の医学的マルチチョイス質問応答,英語自然言語推論,コモンセンス質問応答課題に関する予備的検討を行った。 実験結果から,提案手法は,小規模の訓練説明文でも合理的に予測できることがわかった。 また,提案手法は,3つのデータセットに対する予測精度の向上を実現し,意思決定プロセスにおける説明の生成による予測のメリットを示す。

Neural predictive models have achieved groundbreaking performance improvements in various natural language processing tasks. However, most of neural predictive models suffer from the lack of explainability of predictions, limiting their practical utility, especially in the medical domain. This paper proposes a novel neural predictive framework coupled with large pre-trained language models to make a prediction and generate its corresponding explanation simultaneously. We conducted a preliminary empirical study on Chinese medical multiple-choice question answering, English natural language inference and commonsense question answering tasks. The experimental results show that the proposed approach can generate reasonable explanations for its predictions even with a small-scale training explanation text. The proposed method also achieves improved prediction accuracy on three datasets, which indicates that making predictions can benefit from generating the explanation in the decision process.
翻訳日:2021-03-30 15:26:51 公開日:2021-03-27
# 映像からテキストへの視点で見る視覚と言語 : 包括的なレビュー

Bridging Vision and Language from the Video-to-Text Perspective: A Comprehensive Review ( http://arxiv.org/abs/2103.14785v1 )

ライセンス: Link先を確認
Jesus Perez-Martin and Benjamin Bustos and Silvio Jamil F. Guimar\~aes and Ivan Sipiran and Jorge P\'erez and Grethel Coello Said(参考訳) 視覚と言語の研究は、視覚情報とテキスト情報を結びつけようとする挑戦的なトピックを含んでいる。 ビデオからテキストへの問題はこれらのトピックの1つであり、そのゴールは入力されたビデオとテキスト記述を結びつけることである。 この接続は主に、コーパスから最も重要な記述を取得するか、コンテキストビデオが与えられた新しい記述を生成することで作成できる。 これら2つの方法は、ビデオタスクからのテキスト検索とビデオキャプション/記述タスクと呼ばれる、コンピュータビジョンと自然言語処理コミュニティにとって不可欠なタスクである。 これら2つのタスクは、画像から1つの文を予測または検索するよりも、はるかに複雑である。 ビデオに含まれる時空間情報は、視覚内容と関連する言語記述の構造に関する多様性と複雑さをもたらす。 本稿では,ビデオ・トゥ・テキスト問題に対する最先端技術の分類と解説を行う。 主なvideo-to-textメソッドとそのパフォーマンス評価方法をカバーする。 我々は、最も報告されたベンチマークデータセットがどのように作成されたかを分析し、問題要件に対するその欠点と強みを示します。 また、各データセットで研究者が行った驚くべき進歩も示しており、この進歩にもかかわらず、ビデオからテキストへの変換はまだ未解決である理由を分析しています。 最先端の技術は、ビデオ記述の生成や検索において人間のようなパフォーマンスを達成するにはまだまだ長い道のりです。 この分野におけるいくつかの重要な課題を取り上げ,今後の研究方向性について論じる。

Research in the area of Vision and Language encompasses challenging topics that seek to connect visual and textual information. The video-to-text problem is one of these topics, in which the goal is to connect an input video with its textual description. This connection can be mainly made by retrieving the most significant descriptions from a corpus or generating a new one given a context video. These two ways represent essential tasks for Computer Vision and Natural Language Processing communities, called text retrieval from video task and video captioning/description task. These two tasks are substantially more complex than predicting or retrieving a single sentence from an image. The spatiotemporal information present in videos introduces diversity and complexity regarding the visual content and the structure of associated language descriptions. This review categorizes and describes the state-of-the-art techniques for the video-to-text problem. It covers the main video-to-text methods and the ways to evaluate their performance. We analyze how the most reported benchmark datasets have been created, showing their drawbacks and strengths for the problem requirements. We also show the impressive progress that researchers have made on each dataset, and we analyze why, despite this progress, the video-to-text conversion is still unsolved. State-of-the-art techniques are still a long way from achieving human-like performance in generating or retrieving video descriptions. We cover several significant challenges in the field and discuss future research directions.
翻訳日:2021-03-30 15:26:16 公開日:2021-03-27
# コード切替データの知覚分析のための教師なし自己学習

Unsupervised Self-Training for Sentiment Analysis of Code-Switched Data ( http://arxiv.org/abs/2103.14797v1 )

ライセンス: Link先を確認
Akshat Gupta, Sargam Menghani, Sai Krishna Rallabandi, Alan W Black(参考訳) 感情分析は、顧客レビュー、Twitter、Facebookフィードなどのソーシャルメディアコンテンツを理解する上で重要なタスクである。 世界中の多言語コミュニティでは、大量のソーシャルメディアのテキストがコードスイッチの存在によって特徴づけられている。 したがって、コード交換されたデータを処理できるモデルを構築することが重要になっている。 しかし、注釈付きコード切り換えデータが少なく、教師なしのモデルやアルゴリズムが必要となる。 本稿では,教師なし自己学習と呼ばれる汎用フレームワークを提案し,コード交換データの感情分析の応用例を示す。 我々は、事前学習されたBERTモデルのパワーを初期化に利用し、ゼロショット転送によって生成された擬似ラベルのみを用いて教師なしで微調整する。 我々は、アルゴリズムを複数のコードスイッチト言語でテストし、"教師なしモデルはコードスイッチト言語を理解しているのか、あるいは単に表現を学習しているのか? 我々の教師なしモデルは教師付きモデルとよく競合し、2つのクラスで訓練された教師付きモデルと比較して、その性能は1-7\%(重み付きF1スコア)以内である。

Sentiment analysis is an important task in understanding social media content like customer reviews, Twitter and Facebook feeds etc. In multilingual communities around the world, a large amount of social media text is characterized by the presence of Code-Switching. Thus, it has become important to build models that can handle code-switched data. However, annotated code-switched data is scarce and there is a need for unsupervised models and algorithms. We propose a general framework called Unsupervised Self-Training and show its applications for the specific use case of sentiment analysis of code-switched data. We use the power of pre-trained BERT models for initialization and fine-tune them in an unsupervised manner, only using pseudo labels produced by zero-shot transfer. We test our algorithm on multiple code-switched languages and provide a detailed analysis of the learning dynamics of the algorithm with the aim of answering the question - `Does our unsupervised model understand the Code-Switched languages or does it just learn its representations?'. Our unsupervised models compete well with their supervised counterparts, with their performance reaching within 1-7\% (weighted F1 scores) when compared to supervised models trained for a two class problem.
翻訳日:2021-03-30 15:25:04 公開日:2021-03-27
# 発電機規則化を伴う連続条件生成逆ネットワーク(cGAN)

Continuous Conditional Generative Adversarial Networks (cGAN) with Generator Regularization ( http://arxiv.org/abs/2103.14884v1 )

ライセンス: Link先を確認
Yufeng Zheng, Yunkai Zhang, Zeyu Zheng(参考訳) 条件付き生成逆ネットワークは、特に条件が連続かつ高次元である場合には、訓練が難しいことが知られている。 この問題を部分的に緩和するために,GAN発生器の損失をリプシッツペナルティの形で単純な生成元正規化項を提案する。 したがって、生成元が連続空間内の隣り合う条件で供給されると、正規化項は隣り合う情報を利用し、生成元を押して各隣の条件に類似した条件分布を持つサンプルを生成する。 提案する正規化項の効果を解析し,その頑健な性能が実世界の様々なタスクに与える影響を実証する。

Conditional Generative Adversarial Networks are known to be difficult to train, especially when the conditions are continuous and high-dimensional. To partially alleviate this difficulty, we propose a simple generator regularization term on the GAN generator loss in the form of Lipschitz penalty. Thus, when the generator is fed with neighboring conditions in the continuous space, the regularization term will leverage the neighbor information and push the generator to generate samples that have similar conditional distributions for each neighboring condition. We analyze the effect of the proposed regularization term and demonstrate its robust performance on a range of synthetic and real-world tasks.
翻訳日:2021-03-30 15:22:39 公開日:2021-03-27
# SceneGraphFusion:RGB-Dシーケンスからのインクリメンタル3次元Scene Graph予測

SceneGraphFusion: Incremental 3D Scene Graph Prediction from RGB-D Sequences ( http://arxiv.org/abs/2103.14898v1 )

ライセンス: Link先を確認
Shun-Cheng Wu, Johanna Wald, Keisuke Tateno, Nassir Navab and Federico Tombari(参考訳) シーングラフはコンパクトで明示的な表現であり、様々な2次元シーン理解タスクでうまく使われている。 本研究は,RGB-Dフレームのシーケンスを与えられた3次元環境から意味シーングラフをインクリメンタルに構築する手法を提案する。 この目的のために,グラフニューラルネットワークを用いて,プリミティブシーンコンポーネントからポイントネットの特徴を集約する。 また,このようなインクリメンタル・リコンストラクションシナリオに存在する部分的および欠落グラフデータに適した新しい注意機構を提案する。 提案手法はシーンのサブマップ上で実行するように設計されているが、3dシーン全体への転送も行う。 実験により、3次元シーングラフの予測手法を高いマージンで上回り,その精度は35hzで動作中の他の3dセマンティクスおよびパンオプティカルセグメンテーション法と同等であることが判明した。

Scene graphs are a compact and explicit representation successfully used in a variety of 2D scene understanding tasks. This work proposes a method to incrementally build up semantic scene graphs from a 3D environment given a sequence of RGB-D frames. To this end, we aggregate PointNet features from primitive scene components by means of a graph neural network. We also propose a novel attention mechanism well suited for partial and missing graph data present in such an incremental reconstruction scenario. Although our proposed method is designed to run on submaps of the scene, we show it also transfers to entire 3D scenes. Experiments show that our approach outperforms 3D scene graph prediction methods by a large margin and its accuracy is on par with other 3D semantic and panoptic segmentation methods while running at 35 Hz.
翻訳日:2021-03-30 15:22:28 公開日:2021-03-27
# Ensemble-in-One: 対向ロバスト性向上のためのランダムゲートネットワーク内の学習アンサンブル

Ensemble-in-One: Learning Ensemble within Random Gated Networks for Enhanced Adversarial Robustness ( http://arxiv.org/abs/2103.14795v1 )

ライセンス: Link先を確認
Yi Cai, Xuefei Ning, Huazhong Yang, Yu Wang(参考訳) 敵の攻撃は現代のディープラーニングシステムに高いセキュリティリスクをもたらしている。 敵対的トレーニングは、非ロバスト特徴を抑えることで、ニューラルネットワークモデルのロバスト性を大幅に向上させることができる。 しかし、モデルはしばしばクリーンなデータに対してかなりの精度の損失を被る。 アンサンブルトレーニング手法は、サブモデル間の脆弱性を多様化し、標準トレーニングと同等の精度を維持することによって、敵対的攻撃を防御するための有望なソリューションとして浮上している。 しかし、既存のアンサンブル法はスケーラビリティが悪く、アンサンブルにより多くのサブモデルを含める場合、複雑さが急速に増加するためである。 さらに、実世界のアプリケーションでは、ハードウェアリソースの予算とレイテンシ要件が厳しいため、複数のサブモデルでアンサンブルをデプロイすることは困難である。 本研究では、1つのランダムゲートネットワーク(RGN)内でアンサンブルを訓練する簡易かつ効率的な方法であるアンサンブル・イン・ワン(EIO)を提案する。 EIOは、パラメータ化されたレイヤをマルチパスランダムゲートブロック(RGB)に置き換えてRGNを構築することで、オリジナルのモデルを強化する。 rgn内の多数のパスの脆弱性を多様化することで、より堅牢性が達成できる。 EIOネットワーク内のパスがネットワーク深さとともに指数関数的に増加するため、高いスケーラビリティを提供する。 実験の結果,EIOは従来のアンサンブル学習手法よりも計算オーバーヘッドが小さい。

Adversarial attacks have rendered high security risks on modern deep learning systems. Adversarial training can significantly enhance the robustness of neural network models by suppressing the non-robust features. However, the models often suffer from significant accuracy loss on clean data. Ensemble training methods have emerged as promising solutions for defending against adversarial attacks by diversifying the vulnerabilities among the sub-models, simultaneously maintaining comparable accuracy as standard training. However, existing ensemble methods are with poor scalability, owing to the rapid complexity increase when including more sub-models in the ensemble. Moreover, in real-world applications, it is difficult to deploy an ensemble with multiple sub-models, owing to the tight hardware resource budget and latency requirement. In this work, we propose ensemble-in-one (EIO), a simple but efficient way to train an ensemble within one random gated network (RGN). EIO augments the original model by replacing the parameterized layers with multi-path random gated blocks (RGBs) to construct a RGN. By diversifying the vulnerability of the numerous paths within the RGN, better robustness can be achieved. It provides high scalability because the paths within an EIO network exponentially increase with the network depth. Our experiments demonstrate that EIO consistently outperforms previous ensemble training methods with even less computational overhead.
翻訳日:2021-03-30 15:14:25 公開日:2021-03-27
# 低次元知識グラフ埋め込みのための高効率ユークリッドモデル

High-efficiency Euclidean-based Models for Low-dimensional Knowledge Graph Embeddings ( http://arxiv.org/abs/2103.14930v1 )

ライセンス: Link先を確認
Kai Wang, Yu Liu, Quan Z. Sheng(参考訳) 双曲幾何学に基づく最近の知識グラフ埋め込み(KGE)モデルは、低次元の埋め込み空間において大きなポテンシャルを示している。 しかし、双曲幾何学に基づく計算はユークリッド演算よりもはるかに複雑であるため、KGEにおける双曲空間の必要性は疑問視される。 本稿では,最先端のハイパーボリックモデルであるRotHに基づいて,RotLとRot2Lという2つの軽量ユークリッドモデルを開発する。 RotLモデルは、フレキシブルな正規化効果を維持しながら、双曲演算を単純化する。 新たな2層重ね合わせ変換とRotLをベースとしたRot2Lモデルは、表現能力の向上を図っているが、RotHよりもパラメータや計算コストが低い。 リンク予測実験の結果,Rot2Lは,低次元知識グラフ埋め込みにおいて広く使用されている2つのデータセットに対して,最先端の性能を達成することが示された。 さらに、RotLはRotHと同様のパフォーマンスを達成するが、トレーニング時間の半分しか必要としない。

Recent knowledge graph embedding (KGE) models based on hyperbolic geometry have shown great potential in a low-dimensional embedding space. However, the necessity of hyperbolic space in KGE is still questionable, because the calculation based on hyperbolic geometry is much more complicated than Euclidean operations. In this paper, based on the state-of-the-art hyperbolic-based model RotH, we develop two lightweight Euclidean-based models, called RotL and Rot2L. The RotL model simplifies the hyperbolic operations while keeping the flexible normalization effect. Utilizing a novel two-layer stacked transformation and based on RotL, the Rot2L model obtains an improved representation capability, yet costs fewer parameters and calculations than RotH. The experiments on link prediction show that Rot2L achieves the state-of-the-art performance on two widely-used datasets in low-dimensional knowledge graph embeddings. Furthermore, RotL achieves similar performance as RotH but only requires half of the training time.
翻訳日:2021-03-30 15:11:54 公開日:2021-03-27
# minecraftにおけるai決済生成チャレンジ:第1回レポート

The AI Settlement Generation Challenge in Minecraft: First Year Report ( http://arxiv.org/abs/2103.14950v1 )

ライセンス: Link先を確認
Christoph Salge, Michael Cerny Green, Rodrigo Canaan, Filip Skwarski, Rafael Fritsch, Adrian Brightmoore, Shaofang Ye, Changxing Cao and Julian Togelius(参考訳) この記事では、マインクラフトでのai決済生成コンペの初年度から学んだことを概説します。マインクラフトで興味深い決済を生成できるaiプログラムのコンペティションです。 この課題は、適応的かつ総合的な手続き的コンテンツ生成の研究に焦点を当てることを目指している。 既存の地図にマインクラフトの町や村を生成することは、生成されたコンテンツが適応的、機能的、挑発的、美的であることを同時に要求するので、これに適したタスクである。 ここでは,第1回大会の結果について述べる。 評価手法を議論し,競合他社による異なる技術アプローチを提示し,オープン問題を概説する。

This article outlines what we learned from the first year of the AI Settlement Generation Competition in Minecraft, a competition about producing AI programs that can generate interesting settlements in Minecraft for an unseen map. This challenge seeks to focus research into adaptive and holistic procedural content generation. Generating Minecraft towns and villages given existing maps is a suitable task for this, as it requires the generated content to be adaptive, functional, evocative and aesthetic at the same time. Here, we present the results from the first iteration of the competition. We discuss the evaluation methodology, present the different technical approaches by the competitors, and outline the open problems.
翻訳日:2021-03-30 15:11:40 公開日:2021-03-27
# 画像表現のための直交モーメントに関する調査:理論,実装,評価

A Survey of Orthogonal Moments for Image Representation: Theory, Implementation, and Evaluation ( http://arxiv.org/abs/2103.14799v1 )

ライセンス: Link先を確認
Shuren Qi, Yushu Zhang, Chao Wang, Jiantao Zhou, Xiaochun Cao(参考訳) 画像表現はコンピュータビジョンとパターン認識において重要なトピックである。 視覚コンテンツの理解に向け、様々なアプリケーションで基本的な役割を担っている。 モーメントに基づく画像表現は、その有益な数学的性質、特に幾何学的不変性と独立性のために意味記述のコア条件を満たすのに有効であると報告されている。 本稿では,画像表現における直交モーメントの包括的調査を行い,高速/精度計算,ロバスト性/不変性最適化,定義拡張の最近の進歩について述べる。 また,様々な広範に使用されている直交モーメントのためのソフトウェアパッケージを作成し,その手法を同一ベースで評価する。 提案した理論分析,ソフトウェア実装,評価結果は,特に新しい技術開発や実世界の応用の促進において,コミュニティを支援することができる。

Image representation is an important topic in computer vision and pattern recognition. It plays a fundamental role in a range of applications towards understanding visual contents. Moment-based image representation has been reported to be effective in satisfying the core conditions of semantic description due to its beneficial mathematical properties, especially geometric invariance and independence. This paper presents a comprehensive survey of the orthogonal moments for image representation, covering recent advances in fast/accurate calculation, robustness/invariance optimization, and definition extension. We also create a software package for a variety of widely-used orthogonal moments and evaluate such methods in a same base. The presented theory analysis, software implementation, and evaluation results can support the community, particularly in developing novel techniques and promoting real-world applications.
翻訳日:2021-03-30 15:08:49 公開日:2021-03-27
# 認識用顔トランスフォーマ

Face Transformer for Recognition ( http://arxiv.org/abs/2103.14803v1 )

ライセンス: Link先を確認
Yaoyao Zhong and Weihong Deng(参考訳) 近年,Transformer は NLP だけでなく,コンピュータビジョンにおいても大きな関心を集めている。 顔認識にトランスフォーマーが使えるのか、それともCNNより優れているのか。 そこで,顔認識におけるトランスフォーマーモデルの性能について検討する。 モデルは大規模な顔認識データベースMS-Celeb-1Mでトレーニングされ、LFW、SLLFW、CALFW、CPLFW、TALFW、CFP-FP、AGEDB、IJB-Cデータベースなどの主要なベンチマークで評価される。 我々は,Transformer モデルが CNN と同等の性能を示し,パラメータ数とMAC の類似性を実証した。

Recently there has been great interests of Transformer not only in NLP but also in computer vision. We wonder if transformer can be used in face recognition and whether it is better than CNNs. Therefore, we investigate the performance of Transformer models in face recognition. The models are trained on a large scale face recognition database MS-Celeb-1M and evaluated on several mainstream benchmarks, including LFW, SLLFW, CALFW, CPLFW, TALFW, CFP-FP, AGEDB and IJB-C databases. We demonstrate that Transformer models achieve comparable performance as CNN with similar number of parameters and MACs.
翻訳日:2021-03-30 15:08:36 公開日:2021-03-27
# 合成から現実へ:動物行動推定のための教師なしドメイン適応

From Synthetic to Real: Unsupervised Domain Adaptation for Animal Pose Estimation ( http://arxiv.org/abs/2103.14843v1 )

ライセンス: Link先を確認
Chen Li, Gim Hee Lee(参考訳) 動物のポーズ推定は近年注目を集めている重要な分野である。 このタスクの主な課題はラベル付きデータの欠如である。 既存の作品は、合成データのような他のアクセスしやすいドメインのデータから生成される擬似ラベルでこの問題を回避する。 しかし、これらの擬似ラベルは、データのドメインシフトによる整合性チェックや信頼度に基づくフィルタリングであってもうるさい。 この問題を解決するために,合成データと実データ間の領域ギャップを低減するため,MDAM(Multi-scale domain adapt module)を設計する。 さらに、オンラインの粗い擬似ラベル更新戦略を導入する。 具体的には,内面粗い更新ループにおける自己蒸留モジュールと外面粗い更新ループにおける平均教師を用いて,古いものを徐々に置き換える新しい擬似ラベルを生成する。 その結果,本モデルでは,初期の擬似ラベルから学習が可能となり,徐々に新しい擬似ラベルに切り替えることで,後期における過度な適合を防止することができる。 TigDogとVisDA 2019データセットに対するアプローチを評価し、既存のアプローチを大きなマージンで上回るようにしています。 また,未発見領域と未発見動物カテゴリの両方で広範囲にテストすることにより,このモデルの一般化能力を示す。 私たちのコードはプロジェクトのWebサイトで利用可能です。

Animal pose estimation is an important field that has received increasing attention in the recent years. The main challenge for this task is the lack of labeled data. Existing works circumvent this problem with pseudo labels generated from data of other easily accessible domains such as synthetic data. However, these pseudo labels are noisy even with consistency check or confidence-based filtering due to the domain shift in the data. To solve this problem, we design a multi-scale domain adaptation module (MDAM) to reduce the domain gap between the synthetic and real data. We further introduce an online coarse-to-fine pseudo label updating strategy. Specifically, we propose a self-distillation module in an inner coarse-update loop and a mean-teacher in an outer fine-update loop to generate new pseudo labels that gradually replace the old ones. Consequently, our model is able to learn from the old pseudo labels at the early stage, and gradually switch to the new pseudo labels to prevent overfitting in the later stage. We evaluate our approach on the TigDog and VisDA 2019 datasets, where we outperform existing approaches by a large margin. We also demonstrate the generalization ability of our model by testing extensively on both unseen domains and unseen animal categories. Our code is available at the project website.
翻訳日:2021-03-30 15:08:26 公開日:2021-03-27
# 細粒度物体分類のための知識伝達グラフを用いた深層協調学習

Deep Ensemble Collaborative Learning by using Knowledge-transfer Graph for Fine-grained Object Classification ( http://arxiv.org/abs/2103.14845v1 )

ライセンス: Link先を確認
Naoki Okamoto, Soma Minami, Tsubasa Hirakawa, Takayoshi Yamashita, Hironobu Fujiyoshi(参考訳) 複数のネットワークが知識を共有して学習する相互学習は、各ネットワークのパフォーマンスを向上させる。 しかし、相互学習を施したネットワークのアンサンブルのパフォーマンスは、各ネットワークのパフォーマンスが大幅に向上したにもかかわらず、相互学習なしでは通常のアンサンブルに比べて大きくは向上しない。 これは相互学習における知識とアンサンブルにおけるネットワークの個性の関係によるものかもしれない。 本研究では,相互学習におけるネットワーク間の多様性を促進する損失設計を導入することにより,知識伝達を用いたアンサンブル手法を提案する。 我々は,ネットワークの中間層における確率分布と情報を表すアテンションマップを知識として利用する。 知識伝達手法にはネットワークと損失設計を組み合わせる多くの方法がある。 そこで,従来の相互学習・蒸留法をグラフィカルに表現し,ハイパーパラメータ探索により各要素を最適化することにより,知識伝達グラフの自動最適化を行い,様々な知識伝達法を検討する。 提案手法は,知識伝達グラフにおけるアンサンブル構築機構,注意損失,ネットワーク間の多様性を促進する損失設計から構成される。 我々は,知識伝達グラフを最適化し,アンサンブルの精度を最大化することで,最適なアンサンブル学習を探索する。 スタンフォード・ドッグス、スタンフォード・カーズ、CUB-200-2011のデータセットを用いたグラフの探索と評価実験から,提案手法が従来のアンサンブル法よりも精度が高いことを確認した。

Mutual learning, in which multiple networks learn by sharing their knowledge, improves the performance of each network. However, the performance of ensembles of networks that have undergone mutual learning does not improve significantly from that of normal ensembles without mutual learning, even though the performance of each network has improved significantly. This may be due to the relationship between the knowledge in mutual learning and the individuality of the networks in the ensemble. In this study, we propose an ensemble method using knowledge transfer to improve the accuracy of ensembles by introducing a loss design that promotes diversity among networks in mutual learning. We use an attention map as knowledge, which represents the probability distribution and information in the middle layer of a network. There are many ways to combine networks and loss designs for knowledge transfer methods. Therefore, we use the automatic optimization of knowledge-transfer graphs to consider a variety of knowledge-transfer methods by graphically representing conventional mutual-learning and distillation methods and optimizing each element through hyperparameter search. The proposed method consists of a mechanism for constructing an ensemble in a knowledge-transfer graph, attention loss, and a loss design that promotes diversity among networks. We explore optimal ensemble learning by optimizing a knowledge-transfer graph to maximize ensemble accuracy. From exploration of graphs and evaluation experiments using the datasets of Stanford Dogs, Stanford Cars, and CUB-200-2011, we confirm that the proposed method is more accurate than a conventional ensemble method.
翻訳日:2021-03-30 15:08:08 公開日:2021-03-27
# TS-CAM:弱教師付きオブジェクトローカライゼーションのためのToken Semantic Coupled Attention Map

TS-CAM: Token Semantic Coupled Attention Map for Weakly Supervised Object Localization ( http://arxiv.org/abs/2103.14862v1 )

ライセンス: Link先を確認
Wei Gao, Fang Wan, Xingjia Pan, Zhiliang Peng, Qi Tian, Zhenjun Han, Bolei Zhou, Qixiang Ye(参考訳) 弱教師付きオブジェクトローカライゼーション(WSOL)は、画像カテゴリラベルが与えられた場合に難しい問題であるが、オブジェクトローカライゼーションモデルを学ぶ必要がある。 分類のための畳み込みニューラルネットワーク(CNN)の最適化は、完全な対象範囲を無視しながら局所的な識別領域を活性化する傾向にあり、部分的な活性化問題を引き起こす。 本稿では,CNNの内在的特性によって部分的アクティベーションが生じると論じ,コンボリューション操作によって局所受容野が生成され,画素間の長距離特徴依存性を捉えることが困難になる。 長距離依存抽出のための視覚変換器における自己注意機構をフル活用するために,トークン意味結合注意マップ(TS-CAM)を導入する。 TS-CAMはまず、画像を空間埋め込みのためのパッチトークンのシーケンスに分割し、部分的なアクティベーションを避けるために長距離視覚依存の注意マップを生成する。 TS-CAMは、パッチトークンのカテゴリ関連セマンティクスを再配置し、それぞれがオブジェクトカテゴリを認識できるようにする。 TS-CAMは最終的にパッチトークンと意味認識の注意マップを結合して意味認識のローカライゼーションを実現する。 ILSVRC/CUB-200-2011データセットの実験では、TS-CAMはWSOLのCNN-CAMよりも7.1%/27.1%向上し、最先端のパフォーマンスを達成した。

Weakly supervised object localization (WSOL) is a challenging problem when given image category labels but requires to learn object localization models. Optimizing a convolutional neural network (CNN) for classification tends to activate local discriminative regions while ignoring complete object extent, causing the partial activation issue. In this paper, we argue that partial activation is caused by the intrinsic characteristics of CNN, where the convolution operations produce local receptive fields and experience difficulty to capture long-range feature dependency among pixels. We introduce the token semantic coupled attention map (TS-CAM) to take full advantage of the self-attention mechanism in visual transformer for long-range dependency extraction. TS-CAM first splits an image into a sequence of patch tokens for spatial embedding, which produce attention maps of long-range visual dependency to avoid partial activation. TS-CAM then re-allocates category-related semantics for patch tokens, enabling each of them to be aware of object categories. TS-CAM finally couples the patch tokens with the semantic-agnostic attention map to achieve semantic-aware localization. Experiments on the ILSVRC/CUB-200-2011 datasets show that TS-CAM outperforms its CNN-CAM counterparts by 7.1%/27.1% for WSOL, achieving state-of-the-art performance.
翻訳日:2021-03-30 15:07:44 公開日:2021-03-27
# 埋め込み学習に組み込まれたクラスタ数によるインスタンスセグメンテーション

Instance segmentation with the number of clusters incorporated in embedding learning ( http://arxiv.org/abs/2103.14869v1 )

ライセンス: Link先を確認
Jianfeng Cao and Hong Yan(参考訳) セマンティックとインスタンスセグメンテーションのアルゴリズムは、畳み込みニューラルネットワークを利用した2つの一般的な画像セグメンテーションのソリューションである。 セマンティックセグメンテーションはエンドツーエンドのトレーニング戦略から大きく恩恵を受けるが、インスタンスセグメンテーションは学習ベースの識別とプロセス後のクラスタリングによってサポートされたマルチステージタスクとして頻繁にフレーム化される。 サブステージ上の独立最適化は、セグメンテーションエラーの蓄積を促す。 本研究では,事前クラスタリング情報を埋め込み学習フレームワークFCRNetに組み込むことを提案し,一段階のインスタンスセグメンテーションを刺激する。 FCRNetは、クラスタリンググループの数を埋め込み空間に組み込むことで、ポストプロセスの複雑さを和らげる。 FCRNetの優れた性能を検証し、核データセットBBBC006の他の手法と比較した。

Semantic and instance segmentation algorithms are two general yet distinct image segmentation solutions powered by Convolution Neural Network. While semantic segmentation benefits extensively from the end-to-end training strategy, instance segmentation is frequently framed as a multi-stage task, supported by learning-based discrimination and post-process clustering. Independent optimizations on substages instigate the accumulation of segmentation errors. In this work, we propose to embed prior clustering information into an embedding learning framework FCRNet, stimulating the one-stage instance segmentation. FCRNet relieves the complexity of post process by incorporating the number of clustering groups into the embedding space. The superior performance of FCRNet is verified and compared with other methods on the nucleus dataset BBBC006.
翻訳日:2021-03-30 15:07:17 公開日:2021-03-27
# アクティブな輪郭セグメンテーションのための効率的結合形状と外観

An Efficiently Coupled Shape and Appearance Prior for Active Contour Segmentation ( http://arxiv.org/abs/2103.14887v1 )

ライセンス: Link先を確認
Martin Mueller and Navdeep Dahiya and Anthony Yezzi(参考訳) 本稿では,画像やビデオのオブジェクトセグメンテーションのための形状と外観の特徴に基づく新しいトレーニングモデルを提案する。 このようなモデルのほとんどは二次元の外観テンプレートや有限のディスクリプタに依存するが、外観に基づく特徴は1次元関数であり、物体のiso-輪郭に沿った強度を積分することにより、物体の形状と効率的に結合する。 これらの形状と外観の連成PCAトレーニングは、形状と外観の相関をさらに活用し、その結果のトレーニングモデルは、認識分離タスクのための能動輪郭型エネルギー関数に組み込まれる。 合成および赤外画像の実験では、この形状と外観の訓練モデルがチャン・ヴェイゼエネルギーに基づく手法と比較して精度を向上する方法が示されている。

This paper proposes a novel training model based on shape and appearance features for object segmentation in images and videos. Whereas most such models rely on two-dimensional appearance templates or a finite set of descriptors, our appearance-based feature is a one-dimensional function, which is efficiently coupled with the object's shape by integrating intensities along the object's iso-contours. Joint PCA training on these shape and appearance features further exploits shape-appearance correlations and the resulting training model is incorporated in an active-contour-type energy functional for recognition-segmentation tasks. Experiments on synthetic and infrared images demonstrate how this shape and appearance training model improves accuracy compared to methods based on the Chan-Vese energy.
翻訳日:2021-03-30 15:07:03 公開日:2021-03-27
# CrossViT:画像分類のためのクロスアテンションマルチスケール視覚変換器

CrossViT: Cross-Attention Multi-Scale Vision Transformer for Image Classification ( http://arxiv.org/abs/2103.14899v1 )

ライセンス: Link先を確認
Chun-Fu Chen, Quanfu Fan, Rameswar Panda(参考訳) 最近開発された視覚変換器(ViT)は畳み込みニューラルネットワークと比較して画像分類において有望な結果を得た。 そこで本稿では,画像分類のためのトランスフォーマモデルにおける多元的特徴表現の学習法について検討する。 そこで本研究では,異なるサイズの画像パッチ(すなわちトランスのトークン)を組み合わせて,より強力な画像特徴を生成する2分岐変換器を提案する。 提案手法では,計算複雑性の異なる2つの枝を分割して,小さなパッチと大きなパッチのトークンを処理し,これらのトークンを複数回注目して相互補完する。 さらに,クロスアテンションに基づく簡易かつ効果的なトークン融合モジュールを開発し,各ブランチに対する単一トークンをクエリとして使用し,他のブランチと情報を交換する。 提案手法は,2次時間ではなく,計算量とメモリ量の両方に線形時間を必要とする。 広範な実験により、提案手法は効率的なcnnモデルに加えて、視覚トランスフォーマーの複数の同時作業と同等か同等の性能を発揮することが証明された。 例えば、imagenet1kデータセットでは、いくつかのアーキテクチャ変更によって、最近のdeitを2対%という大きなマージンで上回っています。

The recently developed vision transformer (ViT) has achieved promising results on image classification compared to convolutional neural networks. Inspired by this, in this paper, we study how to learn multi-scale feature representations in transformer models for image classification. To this end, we propose a dual-branch transformer to combine image patches (i.e., tokens in a transformer) of different sizes to produce stronger image features. Our approach processes small-patch and large-patch tokens with two separate branches of different computational complexity and these tokens are then fused purely by attention multiple times to complement each other. Furthermore, to reduce computation, we develop a simple yet effective token fusion module based on cross attention, which uses a single token for each branch as a query to exchange information with other branches. Our proposed cross-attention only requires linear time for both computational and memory complexity instead of quadratic time otherwise. Extensive experiments demonstrate that the proposed approach performs better than or on par with several concurrent works on vision transformer, in addition to efficient CNN models. For example, on the ImageNet1K dataset, with some architectural changes, our approach outperforms the recent DeiT by a large margin of 2\%
翻訳日:2021-03-30 15:06:50 公開日:2021-03-27
# IoUアタック:ビジュアルオブジェクト追跡のための一時的にコヒーレントなブラックボックスアタックを目指す

IoU Attack: Towards Temporally Coherent Black-Box Adversarial Attack for Visual Object Tracking ( http://arxiv.org/abs/2103.14938v1 )

ライセンス: Link先を確認
Shuai Jia, Yibing Song, Chao Ma, Xiaokang Yang(参考訳) 敵の攻撃は、知覚不能な摂動によって注入された入力サンプルを知覚するディープニューラルネットワークの脆弱性によって生じる。 近年,ディープトラッカーのロバスト性を評価するために,視覚的物体追跡に対角攻撃を適用している。 ディープトラッカーのモデル構造が知られていると仮定すると、ビジュアルトラッキングに対する様々なホワイトボックス攻撃アプローチが有望な結果を示している。 しかし、ディープトラッカーに関するモデル知識は通常、実際のアプリケーションでは利用できない。 本稿では,ビジュアルオブジェクト追跡のための意思決定に基づくブラックボックス攻撃手法を提案する。 画像分類のための静的画像を扱う既存のブラックボックス対逆攻撃法とは対照的に,現在のフレームと歴史的フレームの両方から予測されたIoUスコアに基づいて逐次摂動を生成するIoU攻撃を提案する。 提案手法は,IoUスコアを小さくすることで,時間的コヒーレントなバウンディングボックス(物体の動き)の精度を低下させる。 さらに、学習した摂動を次の数フレームに移し、時間的動き攻撃を初期化する。 我々は、最先端のディープトラッカー(検出ベース、相関フィルタベース、長期トラッカー)に対するIoU攻撃を検証した。 ベンチマークデータセットの大規模な実験は、提案したIoU攻撃法の有効性を示している。 ソースコードはhttps://github.com/VISION-SJTU/IoU attackで入手できる。

Adversarial attack arises due to the vulnerability of deep neural networks to perceive input samples injected with imperceptible perturbations. Recently, adversarial attack has been applied to visual object tracking to evaluate the robustness of deep trackers. Assuming that the model structures of deep trackers are known, a variety of white-box attack approaches to visual tracking have demonstrated promising results. However, the model knowledge about deep trackers is usually unavailable in real applications. In this paper, we propose a decision-based black-box attack method for visual object tracking. In contrast to existing black-box adversarial attack methods that deal with static images for image classification, we propose IoU attack that sequentially generates perturbations based on the predicted IoU scores from both current and historical frames. By decreasing the IoU scores, the proposed attack method degrades the accuracy of temporal coherent bounding boxes (i.e., object motions) accordingly. In addition, we transfer the learned perturbations to the next few frames to initialize temporal motion attack. We validate the proposed IoU attack on state-of-the-art deep trackers (i.e., detection based, correlation filter based, and long-term trackers). Extensive experiments on the benchmark datasets indicate the effectiveness of the proposed IoU attack method. The source code is available at https://github.com/VISION-SJTU/IoUattack.
翻訳日:2021-03-30 15:06:30 公開日:2021-03-27
# HDRビデオ再構成:粗大なネットワークと実世界のベンチマークデータセット

HDR Video Reconstruction: A Coarse-to-fine Network and A Real-world Benchmark Dataset ( http://arxiv.org/abs/2103.14943v1 )

ライセンス: Link先を確認
Guanying Chen, Chaofeng Chen, Shi Guo, Zhetong Liang, Kwan-Yee K. Wong, Lei Zhang(参考訳) high dynamic range (hdr) video reconstruction from sequences capture with alternating exposures は、非常に難しい問題である。 既存の方法では、光学フローを用いて画像空間内の低ダイナミックレンジ(LDR)入力シーケンスを整列し、整列した画像をマージしてHDR出力を生成する。 しかし, 画像空間の正確なアライメントと融合は, 過剰露光領域の細部や未露光領域のノイズが不足しているため困難であり, ゴーストアーティファクトの減少を招いた。 より正確なアライメントとHDR融合を実現するため,HDRビデオ再構成のための粗い深層学習フレームワークを提案する。 まず,画像空間において粗いアライメントとピクセルブレンドを行い,粗いhdr映像を推定する。 第2に、粗いHDRビデオの特徴空間において、より洗練されたアライメントと時間的融合を行い、より良い再構成を実現する。 HDRビデオ再構成手法の定量的かつ包括的評価のための公開データセットがないことを考慮し,970ドルの静的シーンシーケンスと184回の動的シーンを含むベンチマークデータセットを収集する。 実験により,本手法は従来の最先端手法よりも優れた性能を示した。 私たちのデータセット、コード、モデルは公開されます。

High dynamic range (HDR) video reconstruction from sequences captured with alternating exposures is a very challenging problem. Existing methods often align low dynamic range (LDR) input sequence in the image space using optical flow, and then merge the aligned images to produce HDR output. However, accurate alignment and fusion in the image space are difficult due to the missing details in the over-exposed regions and noise in the under-exposed regions, resulting in unpleasing ghosting artifacts. To enable more accurate alignment and HDR fusion, we introduce a coarse-to-fine deep learning framework for HDR video reconstruction. Firstly, we perform coarse alignment and pixel blending in the image space to estimate the coarse HDR video. Secondly, we conduct more sophisticated alignment and temporal fusion in the feature space of the coarse HDR video to produce better reconstruction. Considering the fact that there is no publicly available dataset for quantitative and comprehensive evaluation of HDR video reconstruction methods, we collect such a benchmark dataset, which contains $97$ sequences of static scenes and 184 testing pairs of dynamic scenes. Extensive experiments show that our method outperforms previous state-of-the-art methods. Our dataset, code and model will be made publicly available.
翻訳日:2021-03-30 15:06:07 公開日:2021-03-27
# 自動バックエンドアウェアトレーニング後の量子化

Automated Backend-Aware Post-Training Quantization ( http://arxiv.org/abs/2103.14949v1 )

ライセンス: Link先を確認
Ziheng Jiang, Animesh Jain, Andrew Liu, Josh Fromm, Chengqian Ma, Tianqi Chen, Luis Ceze(参考訳) 量子化は、リソース要件を減らし、ニューラルネットワークデプロイメントのパフォーマンスを改善するための重要なテクニックである。 しかし、x86 CPU、NVIDIA GPU、ARM CPU、アクセラレータなどの異なるハードウェアバックエンドは、量子化されたネットワークに対する異なる実装を要求する可能性がある。 この多様性は、各ハードウェアターゲットに対して特別なトレーニング後の量子化パイプラインを構築することを求めている。 我々は、HAGOと呼ばれる自動トレーニング後量子化フレームワークでこの問題に取り組む。 HAGOは、ユーザ定義のハードウェア仕様に基づく一般的な量子化グラフ変換のセットを提供し、任意のモデルのハードウェア制約を満たしながら最適な量子化戦略を見つけるための検索メカニズムを実装している。 HAGOは,Intel Xeon Cascade Lake CPU,NVIDIA Tesla T4 GPU,ARM Cortex-A CPU,Raspberry Pi4上でそれぞれ2.9倍,1.97倍,2.48倍の高速化を実現し,各ケースで最高のトレーニング後量子化精度を維持した。

Quantization is a key technique to reduce the resource requirement and improve the performance of neural network deployment. However, different hardware backends such as x86 CPU, NVIDIA GPU, ARM CPU, and accelerators may demand different implementations for quantized networks. This diversity calls for specialized post-training quantization pipelines to built for each hardware target, an engineering effort that is often too large for developers to keep up with. We tackle this problem with an automated post-training quantization framework called HAGO. HAGO provides a set of general quantization graph transformations based on a user-defined hardware specification and implements a search mechanism to find the optimal quantization strategy while satisfying hardware constraints for any model. We observe that HAGO achieves speedups of 2.09x, 1.97x, and 2.48x on Intel Xeon Cascade Lake CPUs, NVIDIA Tesla T4 GPUs, ARM Cortex-A CPUs on Raspberry Pi4 relative to full precision respectively, while maintaining the highest reported post-training quantization accuracy in each case.
翻訳日:2021-03-30 15:05:45 公開日:2021-03-27
# Panoptic-PolarNet: 提案なしのLiDARポイントクラウドパノプティクスセグメンテーション

Panoptic-PolarNet: Proposal-free LiDAR Point Cloud Panoptic Segmentation ( http://arxiv.org/abs/2103.14962v1 )

ライセンス: Link先を確認
Zixiang Zhou, Yang Zhang, Hassan Foroosh(参考訳) panoptic segmentationは、単一のフレームワークでインスタンスセグメンテーションとセマンティクスセグメンテーションを統合することを目的として、検出とセグメンテーションの両方の利点を利用するための新しい課題を提示している。 しかし、LiDAR点雲の新興領域におけるパノプティカルセグメンテーションの効率的な解法は、まだオープンな研究問題であり、非常に未探索である。 本稿では,Panoptic-PolarNetと呼ばれる高速で堅牢なLiDAR点雲分割フレームワークを提案する。 本研究では,単一推論ネットワークにおけるセマンティックセグメンテーションとクラス非依存のインスタンスクラスタリングの両方を極鳥のアイビュー(BEV)表現を用いて学習し,都市の街路シーンにおけるインスタンス間の閉塞の問題を回避する。 また,ネットワークの学習性を向上させるために,適応型インスタンス拡張手法と,新しい逆点クラウドプルーニング手法を提案する。 実験の結果,Panoptic-PolarNetはSemanticKITTIおよびnuScenesデータセットのベースライン手法をほぼリアルタイムな推論速度で上回ることがわかった。 Panoptic-PolarNet は 54.1% の PQ を SemanticKITTI Panoptic segmentation leaderboard で達成し、nuScenes の検証セットのリードパフォーマンスを達成した。

Panoptic segmentation presents a new challenge in exploiting the merits of both detection and segmentation, with the aim of unifying instance segmentation and semantic segmentation in a single framework. However, an efficient solution for panoptic segmentation in the emerging domain of LiDAR point cloud is still an open research problem and is very much under-explored. In this paper, we present a fast and robust LiDAR point cloud panoptic segmentation framework, referred to as Panoptic-PolarNet. We learn both semantic segmentation and class-agnostic instance clustering in a single inference network using a polar Bird's Eye View (BEV) representation, enabling us to circumvent the issue of occlusion among instances in urban street scenes. To improve our network's learnability, we also propose an adapted instance augmentation technique and a novel adversarial point cloud pruning method. Our experiments show that Panoptic-PolarNet outperforms the baseline methods on SemanticKITTI and nuScenes datasets with an almost real-time inference speed. Panoptic-PolarNet achieved 54.1% PQ in the public SemanticKITTI panoptic segmentation leaderboard and leading performance for the validation set of nuScenes.
翻訳日:2021-03-30 15:05:26 公開日:2021-03-27
# Labels4Free: StyleGANを使った教師なしセグメンテーション

Labels4Free: Unsupervised Segmentation using StyleGAN ( http://arxiv.org/abs/2103.14968v1 )

ライセンス: Link先を確認
Rameen Abdal, Peihao Zhu, Niloy Mitra, Peter Wonka(参考訳) 本稿では,StyleGAN生成オブジェクトに対する教師なしセグメンテーションフレームワークを提案する。 2つの主要な観察に基づいています まず、StyleGANが生成した機能は、セグメンテーションネットワークのトレーニングに利用できる貴重な情報を保持する。 第二に、前景と背景は、大きく独立して様々な方法で合成されることが多い。 提案手法では, セグメンテーションブランチによるStyleGAN2ジェネレータアーキテクチャの拡張と, ジェネレータをフォアグラウンドとバックグラウンドネットワークに分割することを提案する。 これにより、教師なしの方法で前景オブジェクトのソフトセグメンテーションマスクを生成することができる。 複数のオブジェクトクラスにおいて、最先端の教師付きセグメンテーションネットワークに対する比較結果が報告されているが、最良の教師なしセグメンテーションアプローチに対して、質的および定量的指標の両方において明確な改善が示されている。

We propose an unsupervised segmentation framework for StyleGAN generated objects. We build on two main observations. First, the features generated by StyleGAN hold valuable information that can be utilized towards training segmentation networks. Second, the foreground and background can often be treated to be largely independent and be composited in different ways. For our solution, we propose to augment the StyleGAN2 generator architecture with a segmentation branch and to split the generator into a foreground and background network. This enables us to generate soft segmentation masks for the foreground object in an unsupervised fashion. On multiple object classes, we report comparable results against state-of-the-art supervised segmentation networks, while against the best unsupervised segmentation approach we demonstrate a clear improvement, both in qualitative and quantitative metrics.
翻訳日:2021-03-30 15:05:01 公開日:2021-03-27
# ロバストグラフ畳み込みネットワーク入門

An Introduction to Robust Graph Convolutional Networks ( http://arxiv.org/abs/2103.14807v1 )

ライセンス: Link先を確認
Mehrnaz Najafi and Philip S. Yu(参考訳) グラフ畳み込みニューラルネットワーク(gcns)は、伝統畳み込みニューラルネットワーク(cnns)を低次元正規グラフ(画像など)から高次元不規則グラフ(例えば、単語埋め込みに関するテキスト文書)に一般化する。 避けられないデータ収集装置、偽装データ操作、その他のシステムエラーのため、データはエラーに汚染される可能性がある。 ノイズのようなわずかなエラーでさえ、GCNの能力を損なう可能性があり、それらを広範囲に許容できない。 重要な課題は、誤ったデータが存在する場合にGCNを効果的かつ効率的に利用する方法である。 本稿では,複数の情報源から得られる可能性のある誤ビューや複数ビューデータに対して,ロバストグラフ畳み込みニューラルネットワークを提案する。 従来のグラフ畳み込みネットワークにAutoencodersを介して余分なレイヤを組み込むことで、典型的なエラーモデルを明示的に特徴付け、扱います。 実世界の様々なデータセットに対する実験結果から,提案モデルがベースライン法よりも優れていることや,異なるタイプのエラーに対する堅牢性を示す。

Graph convolutional neural networks (GCNs) generalize tradition convolutional neural networks (CNNs) from low-dimensional regular graphs (e.g., image) to high dimensional irregular graphs (e.g., text documents on word embeddings). Due to inevitable faulty data collection instruments, deceptive data manipulation, or other system errors, the data might be error-contaminated. Even a small amount of error such as noise can compromise the ability of GCNs and render them inadmissible to a large extent. The key challenge is how to effectively and efficiently employ GCNs in the presence of erroneous data. In this paper, we propose a novel Robust Graph Convolutional Neural Networks for possible erroneous single-view or multi-view data where data may come from multiple sources. By incorporating an extra layers via Autoencoders into traditional graph convolutional networks, we characterize and handle typical error models explicitly. Experimental results on various real-world datasets demonstrate the superiority of the proposed model over the baseline methods and its robustness against different types of error.
翻訳日:2021-03-30 14:49:02 公開日:2021-03-27
# マルチモーダル非ユークリッドデータのためのテンソルネットワーク

Tensor Networks for Multi-Modal Non-Euclidean Data ( http://arxiv.org/abs/2103.14998v1 )

ライセンス: Link先を確認
Yao Lei Xu, Kriton Konstantinidis, Danilo P. Mandic(参考訳) 現代のデータソースは、通常、大規模でマルチモーダルな性質を持ち、不規則なドメインで取得され、従来のディープラーニングモデルに深刻な課題をもたらす。 これらの問題は、既存のディープラーニングアルゴリズムをグラフを通して不規則な領域に拡張するか、あるいは次元の曲線によって課される計算ボトルネックを軽減するためにテンソル法を用いることによって部分的に緩和される。 両問題を同時に解決するために,グラフ,テンソル,ニューラルネットワークの望ましい特性を物理的に有意かつコンパクトに活用する,新しい多グラフテンソルネットワーク(MGTN)フレームワークを導入する。 これによりMGTNは、不規則なデータソースのローカル情報を、パラメータの複雑さを大幅に減らし、回帰、分類、強化学習といった幅広い学習パラダイムで活用することができる。 MGTNフレームワークの利点、特にテンソルネットワークの固有の低ランク正規化特性による過度な適合を回避する能力は、個々のテンソル、グラフ、ニューラルネットワークドメインの競合モデルに対して優れた性能で示される。

Modern data sources are typically of large scale and multi-modal natures, and acquired on irregular domains, which poses serious challenges to traditional deep learning models. These issues are partially mitigated by either extending existing deep learning algorithms to irregular domains through graphs, or by employing tensor methods to alleviate the computational bottlenecks imposed by the Curse of Dimensionality. To simultaneously resolve both these issues, we introduce a novel Multi-Graph Tensor Network (MGTN) framework, which leverages on the desirable properties of graphs, tensors and neural networks in a physically meaningful and compact manner. This equips MGTNs with the ability to exploit local information in irregular data sources at a drastically reduced parameter complexity, and over a range of learning paradigms such as regression, classification and reinforcement learning. The benefits of the MGTN framework, especially its ability to avoid overfitting through the inherent low-rank regularization properties of tensor networks, are demonstrated through its superior performance against competing models in the individual tensor, graph, and neural network domains.
翻訳日:2021-03-30 14:48:44 公開日:2021-03-27
# Androidエコシステムにおけるインタラクティブマシン学習アプリケーションのためのツールサポートに向けて

Towards Tool-Support for Interactive-Machine Learning Applications in the Android Ecosystem ( http://arxiv.org/abs/2103.14852v1 )

ライセンス: Link先を確認
Muhammad Mehran Sunny, Moritz Berghofer, Ilhan Aslan(参考訳) 消費者アプリケーションはますます賢くなってきており、そのほとんどがデバイスエコシステム上で動作しなければならない。 潜在的なメリットは、デバイス間のインタラクションやシームレスなユーザエクスペリエンスの実現などだ。 今日の高性能なスマートソリューションには、マシンラーニングモデルが不可欠です。 しかしながら、これらのモデルは特定のデバイスのためにAIエンジニアによって別々に開発され、モデルを実行しなければならないデバイスエコシステムに関連する課題や可能性を考慮しないことが多い。 私たちは、次世代のスマートインタラクティブコンシューマアプリケーションのための機械学習モデルの実装、テスト、デプロイの課題に対処するために、AIエンジニアのためのツールサポートが必要であると信じています。 本稿では,AI技術者へのインタビューや,スマートウォッチとスマートフォンを用いた対話型機械学習ユースケースの実験を含む,一連の質問の予備的結果を示す。 ユースケースに取り組むインタビューやハンズオン経験を通じてテーマを特定し、センサーからのデータ収集や、AIエンジニアのツールサポートとなるターゲットデバイス上で前処理コードを実行する際のリソース消費の簡易なテストといった機能を提案しました。

Consumer applications are becoming increasingly smarter and most of them have to run on device ecosystems. Potential benefits are for example enabling cross-device interaction and seamless user experiences. Essential for today's smart solutions with high performance are machine learning models. However, these models are often developed separately by AI engineers for one specific device and do not consider the challenges and potentials associated with a device ecosystem in which their models have to run. We believe that there is a need for tool-support for AI engineers to address the challenges of implementing, testing, and deploying machine learning models for a next generation of smart interactive consumer applications. This paper presents preliminary results of a series of inquiries, including interviews with AI engineers and experiments for an interactive machine learning use case with a Smartwatch and Smartphone. We identified the themes through interviews and hands-on experience working on our use case and proposed features, such as data collection from sensors and easy testing of the resources consumption of running pre-processing code on the target device, which will serve as tool-support for AI engineers.
翻訳日:2021-03-30 14:46:26 公開日:2021-03-27
# 感性インフォームドニューラルネットワークを用いたAC-OPFの学習

Learning to Solve the AC-OPF using Sensitivity-Informed Deep Neural Networks ( http://arxiv.org/abs/2103.14779v1 )

ライセンス: Link先を確認
Manish K. Singh, Vassilis Kekatos, and Georgios B. Giannakis(参考訳) 遅延クリティカルな電力システムアプリケーションにおいて計算負荷をリアルタイムからオフラインにシフトするために、最近の研究は、負荷要求が提示されたときのAC最適電力フロー(AC-OPF)の解を予測するためにディープニューラルネットワーク(DNN)を使用するというアイデアを楽しませている。 ネットワークトポロジが変化するにつれて、サンプル効率のよい方法でDNNを訓練する必要がある。 データ効率を向上させるため、OPFデータは単純なトレーニングラベルではなく、パラメトリック最適化問題の解を構成する。 そこで我々は、OPFオプティマイザだけでなく、OPFパラメータ(負荷)に関する偏微分も一致させるために、感度インフォームドDNN(SI-DNN)のトレーニングを提唱する。 必要なヤコビ行列は穏やかな条件下で存在し、関連する原始/双対解から容易に計算できることが示されている。 提案したSI-DNNは、非凸2次2次プログラム(QCQP)、半定値プログラム(SDP)緩和、MATPOWERを含む幅広いOPFソルバと互換性があり、SI-DNNは他の学習とOPFのスキームにシームレスに統合できる。 3つのベンチマークパワーシステムの数値実験は、SI-DNNによって予測されるOPFソリューションの高度な一般化と制約満足度を従来の訓練されたDNN、特に低データ設定で相関する。

To shift the computational burden from real-time to offline in delay-critical power systems applications, recent works entertain the idea of using a deep neural network (DNN) to predict the solutions of the AC optimal power flow (AC-OPF) once presented load demands. As network topologies may change, training this DNN in a sample-efficient manner becomes a necessity. To improve data efficiency, this work utilizes the fact OPF data are not simple training labels, but constitute the solutions of a parametric optimization problem. We thus advocate training a sensitivity-informed DNN (SI-DNN) to match not only the OPF optimizers, but also their partial derivatives with respect to the OPF parameters (loads). It is shown that the required Jacobian matrices do exist under mild conditions, and can be readily computed from the related primal/dual solutions. The proposed SI-DNN is compatible with a broad range of OPF solvers, including a non-convex quadratically constrained quadratic program (QCQP), its semidefinite program (SDP) relaxation, and MATPOWER; while SI-DNN can be seamlessly integrated in other learning-to-OPF schemes. Numerical tests on three benchmark power systems corroborate the advanced generalization and constraint satisfaction capabilities for the OPF solutions predicted by an SI-DNN over a conventionally trained DNN, especially in low-data setups.
翻訳日:2021-03-30 14:43:38 公開日:2021-03-27
# 多視点ステレオのための高能率光度特徴変換の学習

Learning Efficient Photometric Feature Transform for Multi-view Stereo ( http://arxiv.org/abs/2103.14794v1 )

ライセンス: Link先を確認
Kaizhang Kang, Cihui Xie, Ruisheng Zhu, Xiaohe Ma, Ping Tan, Hongzhi Wu and Kun Zhou(参考訳) そこで本稿では,各視点のパーピクセル光度情報を,既存の多視点ステレオパイプラインに挿入して3次元再構成を行うことのできる空間的特徴量非可変低レベル特徴に変換することを学ぶための新しい枠組みを提案する。 取得中の照明条件とその後の画素単位の特徴変換の両方を、相異なる方法で共同最適化することができる。 本フレームワークは,様々な入力データで利用可能な幾何学情報を自動的に適用し,効率的な利用を行う。 照明多重化装置で取得したデータと点灯を用いて,様々な難解な物体の高品質な3d再構成を実演する。 その結果,最先端技術と比較した。

We present a novel framework to learn to convert the perpixel photometric information at each view into spatially distinctive and view-invariant low-level features, which can be plugged into existing multi-view stereo pipeline for enhanced 3D reconstruction. Both the illumination conditions during acquisition and the subsequent per-pixel feature transform can be jointly optimized in a differentiable fashion. Our framework automatically adapts to and makes efficient use of the geometric information available in different forms of input data. High-quality 3D reconstructions of a variety of challenging objects are demonstrated on the data captured with an illumination multiplexing device, as well as a point light. Our results compare favorably with state-of-the-art techniques.
翻訳日:2021-03-30 14:41:56 公開日:2021-03-27
# ARマッピング:拡張現実のための正確かつ効率的なマッピング

AR Mapping: Accurate and Efficient Mapping for Augmented Reality ( http://arxiv.org/abs/2103.14846v1 )

ライセンス: Link先を確認
Rui Huang, Chuan Fang, Kejie Qiu, Le Cui, Zilong Dong, Siyu Zhu, Ping Tan(参考訳) 拡張現実(ar)は、研究と産業の両方のコミュニティから注目を集めている。 デジタル情報とコンテンツを物理的な世界に重ね合わせることで、arはユーザーがより有益で効率的な方法で世界を体験できる。 ARシステムの主要なビルディングブロックとして、ローカライゼーションは、既知の環境における視覚情報と深度情報からなる事前構築された「マップ」からデバイスのポーズを決定することを目的としている。 ローカライゼーション問題は文献で広く研究されているが、ARシステムにおける「マップ」はめったに議論されていない。 本稿では,1)ポーズ6自由度カラー画像,2)画像毎の濃密深度マップ,3)フルポイントクラウドマップからなる,特定のシーンのarマップについて紹介する。 次に、ARマップの生成と評価のための効率的なエンドツーエンドソリューションを提案する。 まず、効率的なデータキャプチャのために、バックパック走査装置に統一キャリブレーションパイプラインを提示する。 次に,走査装置から入力を受け取り,正確なARマップを生成するARマッピングパイプラインを提案する。 最後に,ハイエンドレーザスキャナによる高精度な再構成結果の助けを借りて,ARマップの精度を評価する手法を提案する。 私たちの知る限りでは、ARアプリケーションの効率的かつ正確なマッピングのためのエンドツーエンドソリューションを提示するのは初めてです。

Augmented reality (AR) has gained increasingly attention from both research and industry communities. By overlaying digital information and content onto the physical world, AR enables users to experience the world in a more informative and efficient manner. As a major building block for AR systems, localization aims at determining the device's pose from a pre-built "map" consisting of visual and depth information in a known environment. While the localization problem has been widely studied in the literature, the "map" for AR systems is rarely discussed. In this paper, we introduce the AR Map for a specific scene to be composed of 1) color images with 6-DOF poses; 2) dense depth maps for each image and 3) a complete point cloud map. We then propose an efficient end-to-end solution to generating and evaluating AR Maps. Firstly, for efficient data capture, a backpack scanning device is presented with a unified calibration pipeline. Secondly, we propose an AR mapping pipeline which takes the input from the scanning device and produces accurate AR Maps. Finally, we present an approach to evaluating the accuracy of AR Maps with the help of the highly accurate reconstruction result from a high-end laser scanner. To the best of our knowledge, it is the first time to present an end-to-end solution to efficient and accurate mapping for AR applications.
翻訳日:2021-03-30 14:41:45 公開日:2021-03-27
# stylegan priorを用いた数発意味画像合成

Few-shot Semantic Image Synthesis Using StyleGAN Prior ( http://arxiv.org/abs/2103.14877v1 )

ライセンス: Link先を確認
Yuki Endo and Yoshihiro Kanamori(参考訳) 本稿では,注釈付きトレーニングペアがほとんど利用できないが画素単位のアノテーションは非常にコストがかかる場合の,セマンティックレイアウトからフォトリアリスティック画像を生成するという課題に対処する。 本稿では,semantic maskの擬似ラベル付けを行うトレーニング戦略を提案する。 私たちの重要なアイデアは、semantic masksの例から、スタイルガン機能と各セマンティッククラスの単純なマッピングを構築することです。 このようなマッピングにより、ランダムノイズから無数の擬似セマンティックマスクを生成し、事前学習されたStyleGANジェネレータを制御するエンコーダを訓練することができる。 擬似セマンティックマスクは、ピクセル整列マスクを必要とする従来のアプローチでは粗いかもしれないが、我々のフレームワークは、濃密なセマンティックマスクだけでなく、ランドマークやスクリブルのようなスパース入力から高品質な画像を合成することができる。 様々なデータセットによる定性的かつ定量的な結果は、レイアウトの忠実度や視覚的品質に関して、1ショットまたは5ショットの設定で以前のアプローチよりも改善されている。

This paper tackles a challenging problem of generating photorealistic images from semantic layouts in few-shot scenarios where annotated training pairs are hardly available but pixel-wise annotation is quite costly. We present a training strategy that performs pseudo labeling of semantic masks using the StyleGAN prior. Our key idea is to construct a simple mapping between the StyleGAN feature and each semantic class from a few examples of semantic masks. With such mappings, we can generate an unlimited number of pseudo semantic masks from random noise to train an encoder for controlling a pre-trained StyleGAN generator. Although the pseudo semantic masks might be too coarse for previous approaches that require pixel-aligned masks, our framework can synthesize high-quality images from not only dense semantic masks but also sparse inputs such as landmarks and scribbles. Qualitative and quantitative results with various datasets demonstrate improvement over previous approaches with respect to layout fidelity and visual quality in as few as one- or five-shot settings.
翻訳日:2021-03-30 14:41:27 公開日:2021-03-27
# リアルタイム深層学習による個人用防護具検出

COVID-19 personal protective equipment detection using real-time deep learning methods ( http://arxiv.org/abs/2103.14878v1 )

ライセンス: Link先を確認
Shayan Khosravipour, Erfan Taghvaei, Nasrollah Moghadam Charkari(参考訳) 215カ国以上でcovid-19が急速に拡大しているため、学校や職場への安全な帰還のためにマスクや手袋を推奨する人たちもいる。 我々は人工知能とディープラーニングアルゴリズムを公共の場での顔マスクや手袋検出に利用した。 インターネットからインポートされた8250画像のデータセット上でトレーニングされた顔マスクと手袋の検出と適切な着用について,yolo (you only look once) とssd mobilenetの2つの一般的なディープラーニングアルゴリズムの有効性を調査し,評価した。 YOLOv3はDarkNetフレームワークを用いて実装され、SSD MobileNetアルゴリズムは正確なオブジェクト検出の開発に応用されている。 提案したモデルは、正確なマルチクラス検出を提供するために開発された(Mask vs. No-Mask vs. Gloves vs. No-Gloves vs. Improper)。 マスクを不適切に着用すると、不適切なクラスとして検出される。 導入されたモデルは、マルチクラス検出のための精度(YOLOは90.6%、SSDは85.5%)を提供する。 システムの結果は、マスクや手袋を着用していない人を人前で発見する効率と妥当性を示している。

The exponential spread of COVID-19 in over 215 countries has led WHO to recommend face masks and gloves for a safe return to school or work. We used artificial intelligence and deep learning algorithms for automatic face masks and gloves detection in public areas. We investigated and assessed the efficacy of two popular deep learning algorithms of YOLO (You Only Look Once) and SSD MobileNet for the detection and proper wearing of face masks and gloves trained over a data set of 8250 images imported from the internet. YOLOv3 is implemented using the DarkNet framework, and the SSD MobileNet algorithm is applied for the development of accurate object detection. The proposed models have been developed to provide accurate multi-class detection (Mask vs. No-Mask vs. Gloves vs. No-Gloves vs. Improper). When people wear their masks improperly, the method detects them as an improper class. The introduced models provide accuracies of (90.6% for YOLO and 85.5% for SSD) for multi-class detection. The systems' results indicate the efficiency and validity of detecting people who do not wear masks and gloves in public.
翻訳日:2021-03-30 14:41:10 公開日:2021-03-27
# 変調認識におけるロバストモデルの利点について

On the benefits of robust models in modulation recognition ( http://arxiv.org/abs/2103.14977v1 )

ライセンス: Link先を確認
Javier Maroto, G\'er\^ome Bovet and Pascal Frossard(参考訳) 通信システムの急速な変化と、人工知能への依存度の高さを考えると、異なる、おそらく悪質な条件下でうまく機能するモデルを持つことはますます重要である。 畳み込み層を用いたディープニューラルネットワーク(DNN)は、通信における多くのタスクにおいて最先端である。 しかし、画像分類のような他の領域では、DNNは、データに付加された時にモデルを誤分類に騙す、知覚不可能な工芸的なノイズからなる敵の摂動に弱いことが示されている。 これは、通信タスク、特に変調認識におけるDNNのセキュリティに疑問を呈する。 本稿では, 対向摂動強度が信号強度に依存し, SPR (signal to perturbation ratio) で測定される現在の最先端モデルのロバスト性を検証するための新しい枠組みを提案する。 現状のモデルがこれらの摂動に影響を受けやすいことを示す。 画像分類に関する現在の研究とは対照的に、変調認識により、星座空間を見ることで、DNNが学習した特徴の有用性について、容易に理解することができる。 これらの脆弱なモデルを分析すると、逆摂動は星座空間の最も近いクラスへシンボルをシフトしないことがわかった。 このことは、DNNがベイズ-最適変調認識モデルにとって重要な信号統計に基づくのではなく、トレーニングデータに急激な相関関係があることを示唆している。 我々の特徴分析と提案フレームワークは,コミュニケーションシステムのためのより良いモデルを見つけるのに役立つ。

Given the rapid changes in telecommunication systems and their higher dependence on artificial intelligence, it is increasingly important to have models that can perform well under different, possibly adverse, conditions. Deep Neural Networks (DNNs) using convolutional layers are state-of-the-art in many tasks in communications. However, in other domains, like image classification, DNNs have been shown to be vulnerable to adversarial perturbations, which consist of imperceptible crafted noise that when added to the data fools the model into misclassification. This puts into question the security of DNNs in communication tasks, and in particular in modulation recognition. We propose a novel framework to test the robustness of current state-of-the-art models where the adversarial perturbation strength is dependent on the signal strength and measured with the "signal to perturbation ratio" (SPR). We show that current state-of-the-art models are susceptible to these perturbations. In contrast to current research on the topic of image classification, modulation recognition allows us to have easily accessible insights on the usefulness of the features learned by DNNs by looking at the constellation space. When analyzing these vulnerable models we found that adversarial perturbations do not shift the symbols towards the nearest classes in constellation space. This shows that DNNs do not base their decisions on signal statistics that are important for the Bayes-optimal modulation recognition model, but spurious correlations in the training data. Our feature analysis and proposed framework can help in the task of finding better models for communication systems.
翻訳日:2021-03-30 14:37:11 公開日:2021-03-27
# ハイパーグラフ上の半教師付き学習のための非線形拡散法

A nonlinear diffusion method for semi-supervised learning on hypergraphs ( http://arxiv.org/abs/2103.14867v1 )

ライセンス: Link先を確認
Francesco Tudisco, Konstantin Prokopchik, Austin R. Benson(参考訳) ハイパーグラフはデータにおける多方向関係の共通モデルであり、ハイパーグラフ半教師付き学習は、ほんの数ノードのラベルを与えられたハイパーグラフ内のすべてのノードにラベルを割り当てる問題である。 拡散とラベル拡散はグラフ設定における半教師付き学習の古典的手法であり、ハイパーグラフに拡張する標準的な方法もある。 しかし、これらの手法は線形モデルであり、予測を行うためにノード機能を組み込む明確な方法を提供していない。 本稿では,ハイパーグラフ構造に従って特徴とラベルを拡散するハイパーグラフ上の非線形拡散過程を開発し,ハイパーグラフ平衡ネットワークとして解釈できる。 この過程は非線形であるが、大域収束は、解釈可能で正則化された半教師付き学習損失関数の大域的最適である幅広い非線形のクラスに対する一意な限界点を示す。 限界点は、線形モデルを用いて予測を行うノード埋め込みとして機能する。 このアプローチは、複数のハイパーグラフニューラルネットワークよりもはるかに正確で、トレーニングに要する時間も少なくなります。

Hypergraphs are a common model for multiway relationships in data, and hypergraph semi-supervised learning is the problem of assigning labels to all nodes in a hypergraph, given labels on just a few nodes. Diffusions and label spreading are classical techniques for semi-supervised learning in the graph setting, and there are some standard ways to extend them to hypergraphs. However, these methods are linear models, and do not offer an obvious way of incorporating node features for making predictions. Here, we develop a nonlinear diffusion process on hypergraphs that spreads both features and labels following the hypergraph structure, which can be interpreted as a hypergraph equilibrium network. Even though the process is nonlinear, we show global convergence to a unique limiting point for a broad class of nonlinearities, which is the global optimum of a interpretable, regularized semi-supervised learning loss function. The limiting point serves as a node embedding from which we make predictions with a linear model. Our approach is much more accurate than several hypergraph neural networks, and also takes less time to train.
翻訳日:2021-03-30 14:34:30 公開日:2021-03-27
# 強化学習を用いた自己適応トルクベクトル制御

Self-adaptive Torque Vectoring Controller Using Reinforcement Learning ( http://arxiv.org/abs/2103.14892v1 )

ライセンス: Link先を確認
Shayan Taherian, Sampo Kuutti, Marco Visca and Saber Fallah(参考訳) トルクベクタリングコントローラなどの連続ヨーモーメント制御系は、車両の安定化に欠かせない部分である。 この制御器は、一貫した安定なコーナー応答を提供することにより、車両の安定性を維持するという中心的な目的で広範囲に研究されてきた。 トルクベクトル制御器のパラメータを注意深くチューニングする能力は、車両の性能と安定性を著しく向上させることができる。 しかし、特に極端な運転条件においてパラメータを再調整する必要がない。 摩擦面が低いか 速度が速いか 車両は安定性を維持するのに失敗する 本稿では、トルクベクトル制御のためのパラメータチューニングアルゴリズムとして、DDPG(Deep Deterministic Policy Gradient)に基づく強化学習(RL)の有用性を示す。 強化学習によるパラメータチューニングによるトルクベクトル制御は, パラメータチューニングの適応アルゴリズムとしての強化学習の利点を浮き彫りにした, 様々な駆動環境, 幅広い摩擦条件, 異なる速度で良好に動作することを示す。 さらに,強化学習アルゴリズムの学習環境を超えたシナリオにおいて,ddpgアルゴリズムの頑健性を検証する。 非線形タイヤ特性を有する四輪車モデルを用いてシミュレーションを行った。 本実験では,ddpgに基づくパラメータチューニングを遺伝的アルゴリズムと従来のトルクベクトル制御器の試行錯誤チューニングと比較し,強化学習に基づくパラメータチューニングにより車両の安定性が大幅に向上することを示す。

Continuous direct yaw moment control systems such as torque-vectoring controller are an essential part for vehicle stabilization. This controller has been extensively researched with the central objective of maintaining the vehicle stability by providing consistent stable cornering response. The ability of careful tuning of the parameters in a torque-vectoring controller can significantly enhance vehicle's performance and stability. However, without any re-tuning of the parameters, especially in extreme driving conditions e.g. low friction surface or high velocity, the vehicle fails to maintain the stability. In this paper, the utility of Reinforcement Learning (RL) based on Deep Deterministic Policy Gradient (DDPG) as a parameter tuning algorithm for torque-vectoring controller is presented. It is shown that, torque-vectoring controller with parameter tuning via reinforcement learning performs well on a range of different driving environment e.g., wide range of friction conditions and different velocities, which highlight the advantages of reinforcement learning as an adaptive algorithm for parameter tuning. Moreover, the robustness of DDPG algorithm are validated under scenarios which are beyond the training environment of the reinforcement learning algorithm. The simulation has been carried out using a four wheels vehicle model with nonlinear tire characteristics. We compare our DDPG based parameter tuning against a genetic algorithm and a conventional trial-and-error tunning of the torque vectoring controller, and the results demonstrated that the reinforcement learning based parameter tuning significantly improves the stability of the vehicle.
翻訳日:2021-03-30 14:34:13 公開日:2021-03-27
# GateKeeper-GPU:ショートリードマッピングにおける高速かつ高精度な事前アライメントフィルタ

GateKeeper-GPU: Fast and Accurate Pre-Alignment Filtering in Short Read Mapping ( http://arxiv.org/abs/2103.14978v1 )

ライセンス: Link先を確認
Z\"ulal Bing\"ol, Mohammed Alser, Ozcan Ozturk, Can Alkan(参考訳) ショートリードマッピングの最終段階において、参照ゲノム上の読み取りの候補位置を検証し、シーケンスアライメントアルゴリズムを用いて対応する参照セグメントとの差を計算する。 近似文字列マッチング技術は伝統的に2次時間と空間の複雑さを持つ動的プログラミングアルゴリズムを継承するので、2つのシーケンス間の類似性や相違の計算は依然として計算コストがかかる。 高速かつ高精度な事前調整フィルタであるgatekeeper-gpuを導入することで,コストのかかるシーケンスアライメントを効率的に削減できる。 第一に、gatekeeper(最先端の軽量事前調整フィルタ)のフィルタリング精度の向上、第二に、最新のgpuの多数のgpuスレッドが提供する大規模な並列性を利用して、多数のシーケンスペアを迅速かつ同時的に検査する。 GateKeeper-GPUはシーケンスアライメントを最大2.9倍に高速化し、包括的な読み取りマッパー(mrFAST)のエンドツーエンド実行時間に最大1.4倍のスピードアップを提供する。 GateKeeper-GPUはhttps://github.com/BilkentCompGen/GateKeeper-GPUで利用可能

At the last step of short read mapping, the candidate locations of the reads on the reference genome are verified to compute their differences from the corresponding reference segments using sequence alignment algorithms. Calculating the similarities and differences between two sequences is still computationally expensive since approximate string matching techniques traditionally inherit dynamic programming algorithms with quadratic time and space complexity. We introduce GateKeeper-GPU, a fast and accurate pre-alignment filter that efficiently reduces the need for expensive sequence alignment. GateKeeper-GPU provides two main contributions: first, improving the filtering accuracy of GateKeeper(state-of-the-art lightweight pre-alignment filter), second, exploiting the massive parallelism provided by the large number of GPU threads of modern GPUs to examine numerous sequence pairs rapidly and concurrently. GateKeeper-GPU accelerates the sequence alignment by up to 2.9x and provides up to 1.4x speedup to the end-to-end execution time of a comprehensive read mapper (mrFAST). GateKeeper-GPU is available at https://github.com/BilkentCompGen/GateKeeper-GPU
翻訳日:2021-03-30 14:33:51 公開日:2021-03-27
# 非線形回帰水平制御の安定性について:幾何学的視点

On the Stability of Nonlinear Receding Horizon Control: A Geometric Perspective ( http://arxiv.org/abs/2103.15010v1 )

ライセンス: Link先を確認
Tyler Westenbroek, Max Simchowitz, Michael I. Jordan, S. Shankar Sastry(参考訳) 産業における非線形回帰水平制御(RHC)戦略の普及により、これらの手法の安定性を保証するための30年以上の研究が続けられている。 しかし、現在の理論的な保証では、各(一般的には非凸な)計画問題を(概ね)大域的最適性に解くことが必要であり、これはrhcの実用的実装で一般的に用いられる微分型局所最適化法に対する非現実的な要件である。 本稿では,一階定常点に対して内部計画問題を解く際に,非線形rhcの安定性保証を理解するための第一歩を踏み出す。 フィードバック線形化システムには特に注意が払われ、正と負の混合結果が提供される。 強条件下では、rhc に対する一階解が指数関数的に安定化する。 重要なのは、この保証は、計画問題に適用される状態コストが、ある意味ではシステムの大域的形状と「相容れない」ことを必要としており、単純な反例が、この条件の必要性を示している。 これらの結果は、最適化に基づく制御の文脈におけるグローバルジオメトリの役割を再考する必要性を浮き彫りにする。

The widespread adoption of nonlinear Receding Horizon Control (RHC) strategies by industry has led to more than 30 years of intense research efforts to provide stability guarantees for these methods. However, current theoretical guarantees require that each (generally nonconvex) planning problem can be solved to (approximate) global optimality, which is an unrealistic requirement for the derivative-based local optimization methods generally used in practical implementations of RHC. This paper takes the first step towards understanding stability guarantees for nonlinear RHC when the inner planning problem is solved to first-order stationary points, but not necessarily global optima. Special attention is given to feedback linearizable systems, and a mixture of positive and negative results are provided. We establish that, under certain strong conditions, first-order solutions to RHC exponentially stabilize linearizable systems. Crucially, this guarantee requires that state costs applied to the planning problems are in a certain sense `compatible' with the global geometry of the system, and a simple counter-example demonstrates the necessity of this condition. These results highlight the need to rethink the role of global geometry in the context of optimization-based control.
翻訳日:2021-03-30 14:33:30 公開日:2021-03-27
# 低ランク行列およびテンソル-トレイン多様体上のリーマン最適化の自動微分

Automatic differentiation for Riemannian optimization on low-rank matrix and tensor-train manifolds ( http://arxiv.org/abs/2103.14974v1 )

ライセンス: Link先を確認
Alexander Novikov, Maxim Rakhuba, Ivan Oseledets(参考訳) 科学計算や機械学習の応用において、行列やより一般的な多次元配列(テンソル)は低ランク分解の助けを借りて近似することができる。 固定階数の行列とテンソルは滑らかなリーマン多様体を形成するので、低ランク近似を求める一般的な道具の1つはリーマン最適化を使うことである。 それでも、リーマン最適化アルゴリズムで必要とされるリーマン勾配とヘッセンの効率的な実装は、実際には非自明なタスクである。 さらに、いくつかのケースでは、解析公式は利用できない。 本稿では,関数の最小化を前提として,近似リーマン Hessian と与えられたベクトルの間のリーマン勾配と行列・バイ・ベクトル積を効率的に計算する手法を提案する。

In scientific computing and machine learning applications, matrices and more general multidimensional arrays (tensors) can often be approximated with the help of low-rank decompositions. Since matrices and tensors of fixed rank form smooth Riemannian manifolds, one of the popular tools for finding the low-rank approximations is to use the Riemannian optimization. Nevertheless, efficient implementation of Riemannian gradients and Hessians, required in Riemannian optimization algorithms, can be a nontrivial task in practice. Moreover, in some cases, analytic formulas are not even available. In this paper, we build upon automatic differentiation and propose a method that, given an implementation of the function to be minimized, efficiently computes Riemannian gradients and matrix-by-vector products between approximate Riemannian Hessian and a given vector.
翻訳日:2021-03-30 14:31:46 公開日:2021-03-27