このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210806となっている論文です。

PDF登録状況(公開日: 20210806)

TitleAuthorsAbstract論文公表日・翻訳日
# 表面符号のための最適局所ユニタリ符号化回路

Optimal local unitary encoding circuits for the surface code ( http://arxiv.org/abs/2002.00362v5 )

ライセンス: Link先を確認
Oscar Higgott, Matthew Wilson, James Hefford, James Dborin, Farhan Hanif, Simon Burton, Dan E. Browne(参考訳) サーフェスコードは、その高いしきい値と既存の実験アーキテクチャとの互換性のため、主要な量子エラー訂正コードである。 bravyi et al. (2006) は、局所ユニタリ演算を用いた表面コード内の状態のエンコーディングには、少なくとも格子サイズで線形な時間を必要とすることを示したが、dennis et al. (2002) によって導入された未知の状態をエンコーディングする最も効率的な方法は、o(l^2)$ である。 ここでは、平面符号に対して最適な局所ユニタリ符号化回路を提示し、距離$l$平面符号で未知の状態を符号化するためにちょうど2l$の時間ステップを使用する。 さらに、$O(L)$複雑さの局所的ユニタリエンコーダは、$O(\log L)$-depth非局所的再正規化エンコーダの局所性を強制することによって、どのように見つけることができるかを示す。 本手法は, トーリック符号と平面符号を変換するための$O(L)$局所ユニタリ回路を提供し, 矩形, 回転, 3次元曲面符号に対して最適なエンコーダを提供する。 さらに, 平面符号の符号化回路を用いて, コンパクトマッピングにおけるフェルミオン状態の生成を行う方法を示す。これは最近導入されたフェルミオンから量子ビットへの写像であり, 表面符号の安定化構造を持ち, 特にフェルミ・ハッバードモデルのシミュレートに有効である。

The surface code is a leading candidate quantum error correcting code, owing to its high threshold, and compatibility with existing experimental architectures. Bravyi et al. (2006) showed that encoding a state in the surface code using local unitary operations requires time at least linear in the lattice size $L$, however the most efficient known method for encoding an unknown state, introduced by Dennis et al. (2002), has $O(L^2)$ time complexity. Here, we present an optimal local unitary encoding circuit for the planar surface code that uses exactly $2L$ time steps to encode an unknown state in a distance $L$ planar code. We further show how an $O(L)$ complexity local unitary encoder for the toric code can be found by enforcing locality in the $O(\log L)$-depth non-local renormalisation encoder. We relate these techniques by providing an $O(L)$ local unitary circuit to convert between a toric code and a planar code, and also provide optimal encoders for the rectangular, rotated and 3D surface codes. Furthermore, we show how our encoding circuit for the planar code can be used to prepare fermionic states in the compact mapping, a recently introduced fermion to qubit mapping that has a stabiliser structure similar to that of the surface code and is particularly efficient for simulating the Fermi-Hubbard model.
翻訳日:2023-06-05 00:28:31 公開日:2021-08-06
# ハイブリッド量子古典計算による熱力学特性の評価に関する考察

Considerations for evaluating thermodynamic properties with hybrid quantum-classical computing work-flows ( http://arxiv.org/abs/2003.02303v2 )

ライセンス: Link先を確認
Spencer T. Stober, Stuart M. Harwood, Donny Greenberg, Tanvi P. Gujarati, Sarah Mostame, Dimitar Trenev(参考訳) 量子コンピュータ上の量子化学の応用は現在、変分量子固有ソルバ(vqe)アルゴリズムに大きく依存している。 このハイブリッド量子古典アルゴリズムは、変動原理に基づく分子系の基底状態解を見つけることを目的としている。 VQE計算は、各分子の自由度に対する摂動に対して体系的に実施することができ、分子に対してボルン・オッペンハイマーポテンシャルエネルギー表面(PES)を生成する。 PESは熱力学特性の導出に利用でき、しばしば化学工学や材料設計への応用に好適である。 このプロセスから、量子化学アプリケーションは量子コンピュータを用いて実行できるステップに加えて、かなり古典的な計算要素を含んでいることは明らかである。 各ハードウェアタイプを最大限に活用した効率的なワークフローを設計するためには、量子コンピューティングから得られる高精度な電子エネルギーが熱力学特性の計算過程において妨げられないように、プロセス全体を考えることが重要である。 熱力学特性を計算するためのハイブリッド量子古典型ワークフローの要約を示す。 このワークフローには、古典的なオプティマイザ属性、アンサッツ反復数、振動モードを決定するための振動シュレーディンガー方程式の解法など、結果の効率と精度に大きな影響を及ぼす多くのオプションが含まれている。 また,実際の量子ハードウェア上でのシミュレーションや実験とともに,ロバストな統計値を用いることで,これらの選択肢の効果を解析した。 作業フローオプションを慎重に選択することで,同等の計算時間内にほぼ桁違いに精度が向上できることを示す。

Quantum chemistry applications on quantum computers currently rely heavily on the variational quantum eigensolver (VQE) algorithm. This hybrid quantum-classical algorithm aims at finding ground state solutions of molecular systems based on the variational principle. VQE calculations can be systematically implemented for perturbations to each molecular degree of freedom, generating a Born-Oppenheimer potential energy surface (PES) for the molecule. The PES can then be used to derive thermodynamic properties, which are often desirable for applications in chemical engineering and materials design. It is clear from this process that quantum chemistry applications contain a substantial classical computing component in addition to steps that can be performed using a quantum computer. In order to design efficient work-flows that take full advantage of each hardware-type, it is critical to consider the entire process so that the high-accuracy electronic energies possible from quantum computing are not squandered in the process of calculating thermodynamic properties. We present a summary of the hybrid quantum-classical work-flow to compute thermodynamic properties. This work-flow contains many options that can significantly affect the efficiency and the accuracy of the results, including classical optimizer attributes, number of ansatz repetitions, and how the vibrational Schroedinger equation is solved to determine vibrational modes. We also analyze the effects of these options by employing robust statistics along with simulations and experiments on actual quantum hardware. We show that through careful selection of work-flow options, nearly order-of-magnitude increases in accuracy are possible at equivalent computing time.
翻訳日:2023-05-31 05:06:14 公開日:2021-08-06
# 格子フェルミオンにおける量子ウェイク

Quantum wakes in lattice fermions ( http://arxiv.org/abs/2006.09469v2 )

ライセンス: Link先を確認
Matthew Wampler, Peter Schauss, Eugene B Kolomeisky, and Israel Klich(参考訳) 水中での船の追従は、動く物体の象徴的な干渉効果であり、ケルヴィン卿が記述したように、一定の普遍的な角度に含まれる。 しかし、ウェイクは他の状況や格子系でも異なる種類の移動障害を伴う可能性がある。 そこで本研究では,超低温原子のフェルミ格子ガスに対する運動障害の影響について検討し,新しい種類の覚醒パターンを解析する。 半充填時の後流角度はホッピングエネルギーと外乱の速度、および格子方向に対する運動角の比によって支配される。 さらに,移動粒子検出器の後方に残された後流と移動電位や移動粒子抽出器との差について検討した。 これらのシナリオは、理想化された検出器が消滅した後の「測定覚醒」とともに、半充填時に劇的に異なる挙動を示すが、検出器の運動は依然として「ゆらぎ覚醒」を通して痕跡を残している。 最後に、超低温フェルミオン原子の光学格子における予測を観察するための実験要件について述べる。

The wake following a vessel in water is a signature interference effect of moving bodies, and, as described by Lord Kelvin, is contained within a constant universal angle. However, wakes may accompany different kinds of moving disturbances in other situations and even in lattice systems. Here, we investigate the effect of moving disturbances on a Fermi lattice gas of ultracold atoms and analyze the novel types of wake patterns that may occur. We show how at half-filling, the wake angles are dominated by the ratio of the hopping energy to the velocity of the disturbance and on the angle of motion relative to the lattice direction. Moreover, we study the difference between wakes left behind a moving particle detector versus that of a moving potential or a moving particle extractor. We show that these scenarios exhibit dramatically different behavior at half-filling, with the "measurement wake" following an idealized detector vanishing, though the motion of the detector does still leaves a trace through a "fluctuation wake." Finally, we discuss the experimental requirements to observe our predictions in ultracold fermionic atoms in optical lattices.
翻訳日:2023-05-13 17:50:30 公開日:2021-08-06
# 超低温ボースガスにおけるアナログ宇宙再加熱

Analog cosmological reheating in an ultracold Bose gas ( http://arxiv.org/abs/2008.02290v3 )

ライセンス: Link先を確認
Aleksandr Chatrchyan, Kevin T. Geier, Markus K. Oberthaler, J\"urgen Berges and Philipp Hauke(参考訳) 宇宙論的再加熱は、インフレーション後の宇宙から熱状態への遷移を記述している。 この過程の基礎となるダイナミクスを解明するために,超低温ボース気体中での宇宙論的単一場モデルの再加熱様ダイナミクスを量子シミュレーションする。 我々の設定では、原子ボース-アインシュタイン凝縮体の上の励起は、膨張後に崩壊するインフラトン場によって生じる粒子の役割を担っている。 時空の拡大と背景振動のインフラトン場は、フェシュバッハ共鳴によって実験的に調整できる原子相互作用の時間依存性によって非相対論的極限で模倣される。 2つの空間次元の場合の古典統計学シミュレーションで示すように、原子系の力学は、パラメトリック不安定性による揺らぎの増幅や、より高いモータへのエネルギーの乱流輸送を含む、遠方平衡再加熱の特徴的な段階を示す。 輸送は、普遍的な自己相似時間進化を示す非熱的固定点と、時間依存スケーリング指数と事前スケーリングする過渡的な状態によって制御される。 古典統計学シミュレーションは弱いカップリングの力学の初期の段階のみを捉えることができるが、提案された実験は弱いカップリングの体制を超えても後期まで進化を探求する可能性がある。

Cosmological reheating describes the transition of the post-inflationary universe to a hot and thermal state. In order to shed light on the underlying dynamics of this process, we propose to quantum-simulate the reheating-like dynamics of a generic cosmological single-field model in an ultracold Bose gas. In our setup, the excitations on top of an atomic Bose-Einstein condensate play the role of the particles produced by the decaying inflaton field after inflation. Expanding spacetime as well as the background oscillating inflaton field are mimicked in the non-relativistic limit by a time dependence of the atomic interactions, which can be tuned experimentally via Feshbach resonances. As we illustrate by means of classical-statistical simulations for the case of two spatial dimensions, the dynamics of the atomic system exhibits the characteristic stages of far-from-equilibrium reheating, including the amplification of fluctuations via parametric instabilities and the subsequent turbulent transport of energy towards higher momenta. The transport is governed by a non-thermal fixed point showing universal self-similar time evolution as well as a transient regime of prescaling with time-dependent scaling exponents. While the classical-statistical simulations can capture only the earlier stages of the dynamics for weak couplings, the proposed experiment has the potential of exploring the evolution up to late times even beyond the weak coupling regime.
翻訳日:2023-05-07 02:16:17 公開日:2021-08-06
# 孤立点欠陥の振動・振動構造:ダイヤモンド中の窒素空孔中心

Vibrational and vibronic structure of isolated point defects: the nitrogen-vacancy center in diamond ( http://arxiv.org/abs/2012.04320v4 )

ライセンス: Link先を確認
Lukas Razinkovas, Marcus W. Doherty, Neil B. Manson, Chris G. Van de Walle, Audrius Alkauskas(参考訳) 第一原理密度汎関数理論計算による希薄限界における点欠陥の振動特性と振動特性に関する理論的研究を行う。 例として、多くの量子技術のプロトコルのテストベッドとして機能する固体系である負電荷の窒素空孔中心を選択する。 我々は,数万の原子を含む大型スーパーセルの動的行列を構築することにより,欠陥の有効濃度を低くする。 この論文の主な目的は、振動の自由度との結合による発光と吸収線形状の計算である。 対称$a_1$モードへの結合は、Huang-Rhys理論によって計算される。 重要なことに、$e$モードの非自明な貢献を含むために、マルチモード $e \otimes e$ jahn-teller 問題を解く効果的な方法を開発します。 その結果,ダイヤモンド中のnv中心では,e$モードの適切な処理が特に吸収に重要であることがわかった。 我々は発光と吸収の両方の実験とよく一致した。 最後に、理論的アプローチの残りの欠点を批判的にレビューする。 提案された理論的アプローチは、固体中の点欠陥の同定と将来の研究に役立つ。

We present a theoretical study of vibrational and vibronic properties of a point defect in the dilute limit by means of first-principles density functional theory calculations. As an exemplar we choose the negatively charged nitrogen-vacancy center, a solid-state system that has served as a testbed for many protocols of quantum technology. We achieve low effective concentrations of defects by constructing dynamical matrices of large supercells containing tens of thousands of atoms. The main goal of the paper is to calculate luminescence and absorption lineshapes due to coupling to vibrational degrees of freedom. The coupling to symmetric $a_1$ modes is computed via the Huang-Rhys theory. Importantly, to include a nontrivial contribution of $e$ modes we develop an effective methodology to solve the multi-mode $E \otimes e$ Jahn-Teller problem. Our results show that for NV centers in diamond a proper treatment of $e$ modes is particularly important for absorption. We obtain good agreement with experiment for both luminescence and absorption. Finally, the remaining shortcomings of the theoretical approach are critically reviewed. The presented theoretical approach will benefit identification and future studies of point defects in solids.
翻訳日:2023-04-21 18:32:33 公開日:2021-08-06
# 相互作用する位相量子記憶における動的位相誤差

Dynamical Phase Error in Interacting Topological Quantum Memories ( http://arxiv.org/abs/2101.00022v2 )

ライセンス: Link先を確認
Luuk Coopmans, Shane Dooley, Ian Jubb, Kevin Kavanagh and Graham Kells(参考訳) トポロジカル量子オーダー(TQO)を持つ局所ハミルトニアンは、強い基底状態の縮退を持ち、優れた量子メモリ候補となる。 このメモリは、状態の一部が保護された基底状態多様体を離れ、動的に付加された位相誤差で後に返される場合、破壊される。 ここでは、TQOがこの過程をいかに抑制するかを分析し、これを用いて、異なる位相領域におけるスペクトル密度が相関する程度を定量化する。 相互作用するp波超電導線をモデル化し,結果の数値的検証を行う。

A local Hamiltonian with Topological Quantum Order (TQO) has a robust ground state degeneracy that makes it an excellent quantum memory candidate. This memory can be corrupted however if part of the state leaves the protected ground state manifold and returns later with a dynamically accrued phase error. Here we analyse how TQO suppresses this process and use this to quantify the degree to which spectral densities in different topological sectors are correlated. We provide numerical verification of our results by modelling an interacting p-wave superconducting wire.
翻訳日:2023-04-18 05:31:21 公開日:2021-08-06
# 連続可変資源状態のサブシステム解析

Subsystem analysis of continuous-variable resource states ( http://arxiv.org/abs/2102.10500v2 )

ライセンス: Link先を確認
Giacomo Pantaleoni, Ben Q. Baragiola, Nicolas C. Menicucci(参考訳) 連続可変(CV)クラスタ状態は、Gottesman-Kitaev-Preskill (GKP)ボソニックコードで補完された場合、フォールトトレラント量子計算のための普遍的なリソースである。 我々は,最近導入されたボソニック符号のサブシステム分解(Phys. 125, 040501 (2020))を一般化し, CVクラスタ状態量子コンピューティングをGKP状態を用いて解析する。 具体的には、圧縮真空状態と近似GKP状態を分解して、符号化された論理情報を明らかにするとともに、CVクラスター状態量子コンピューティングに不可欠な複数のゲートを分解する。 そして,このサブシステム分解を用いて,ノイズの多いCVクラスタ状態を通じて伝送される近似GKP状態の論理情報に対する損傷を定量化する。 これらの研究はそれぞれ、エンコードされた量子ビット情報に焦点を当てるために、モードの完全なcv特性から生じる合併症を回避するためにサブシステム分解を用いる。

Continuous-variable (CV) cluster states are a universal resource for fault-tolerant quantum computation when supplemented with the Gottesman-Kitaev-Preskill (GKP) bosonic code. We generalize the recently introduced subsystem decomposition of a bosonic code [Phys. Rev. Lett. 125, 040501 (2020)], and we use it to analyze CV cluster-state quantum computing with GKP states. Specifically, we decompose squeezed vacuum states and approximate GKP states to reveal their encoded logical information, and we decompose several gates crucial to CV cluster-state quantum computing. Then, we use the subsystem decomposition to quantify damage to the logical information in approximate GKP states teleported through noisy CV cluster states. Each of these studies uses the subsystem decomposition to circumvent complications arising from the full CV nature of the mode in order to focus on the encoded qubit information.
翻訳日:2023-04-10 07:47:18 公開日:2021-08-06
# 空間重ね合わせ物体における場誘起絡み合い

Field-induced entanglement in spatially superposed objects ( http://arxiv.org/abs/2102.10792v3 )

ライセンス: Link先を確認
Akira Matsumura(参考訳) 2つの軌道の重畳における2つの物体間の磁場誘起絡み合いの発生について論じ、その物体は局所的な量子場に結合した電流を持ち、各物体の軌道周辺で電流が評価される。 これは、各物体の2つの軌道の重ね合わせにおいて、量子場が空間的な絡み合いを生じないことを意味する。

We discuss the generation of field-induced entanglement between two objects each in a superposition of two trajectories.The objects have currents coupled to local quantum fields, and the currents are evaluated around each trajectory of the objects.The fields have only dynamical degrees of freedom and satisfy the microcausality condition. We find that the superposed state of trajectories cannot be entangled when the objects are spacelike separated.This means that the quantum fields do not generate spacelike entanglement in the superposition of two trajectories of each object.
翻訳日:2023-04-10 05:59:13 公開日:2021-08-06
# 量子アニール上のSU(2)格子ゲージ理論

SU(2) lattice gauge theory on a quantum annealer ( http://arxiv.org/abs/2103.08661v2 )

ライセンス: Link先を確認
Sarmed A Rahman, Randy Lewis, Emanuele Mendicelli, Sarah Powell(参考訳) 格子ゲージ理論は、格子結果が数十年にわたって中心的な重要性を持つ量子色力学のような非アベリア場と強く相互作用するツールである。 近年の研究では、量子コンピュータは格子ゲージ理論の範囲を劇的な方法で拡張できることが示唆されているが、格子ゲージ理論における量子アニーリングハードウェアの有用性はまだ検討されていない。 本研究では、周期的境界条件を持つ数個の格子からなる格子に対して、SU(2)純ゲージ理論を量子アニール上に実装する。 これらの小包は2つの空間次元にあり、計算は時間が離散化されないハミルトンの定式化を用いる。 数値計算は、固有値、固有ベクトル、真空期待値、時間発展のためのD-Wave Advantageハードウェアの計算から得られる。 この最初の探索の成功は、量子アニールが格子ゲージ理論のいくつかの側面において有用なハードウェアプラットフォームになることを示している。

Lattice gauge theory is an essential tool for strongly interacting non-Abelian fields, such as those in quantum chromodynamics where lattice results have been of central importance for several decades. Recent studies suggest that quantum computers could extend the reach of lattice gauge theory in dramatic ways, but the usefulness of quantum annealing hardware for lattice gauge theory has not yet been explored. In this work, we implement SU(2) pure gauge theory on a quantum annealer for lattices comprising a few plaquettes in a row with a periodic boundary condition. These plaquettes are in two spatial dimensions and calculations use the Hamiltonian formulation where time is not discretized. Numerical results are obtained from calculations on D-Wave Advantage hardware for eigenvalues, eigenvectors, vacuum expectation values, and time evolution. The success of this initial exploration indicates that the quantum annealer might become a useful hardware platform for some aspects of lattice gauge theories.
翻訳日:2023-04-08 01:51:20 公開日:2021-08-06
# hidden qubit クラスタ状態

Hidden qubit cluster states ( http://arxiv.org/abs/2103.11556v3 )

ライセンス: Link先を確認
Giacomo Pantaleoni, Ben Q. Baragiola, Nicolas C. Menicucci(参考訳) 連続可変クラスタ状態(CVCS)は、Gottesman-Kitaev-Preskill(GKP)状態で補うことができ、測定ベースの方法で普遍的でフォールトトレラントな量子コンピューティングを実行する能力を持つハイブリッドクラスタ状態を形成することができる。 リソースがハイブリッドクラスタ状態を構成することは、非常に異なる性質であると述べると、自然の疑問が生じる: なぜGKP状態はCVCSとよく接するのか? この問題に対処するために、最近導入されたボソニックモードのサブシステム分解を適用し、モードを論理的およびゲージモードのサブシステムに分割し、CVCS、GKPクラスタ状態、ハイブリッドCV-GKPクラスタ状態の3種類のクラスタ状態に適用する。 それぞれが論理サブシステムにまたがる"隠れた"量子ビットクラスタ状態を含んでいて、これは測定ベースの量子コンピューティングの実用性の中心にある。 この分析手法を補完するために,隠れた量子ビットクラスタ状態とゲージモードの絡み合いを正確に表現した,これらのcvモードクラスタ状態の簡単な図式記述を導入し,これらの結果が有限圧縮状態の場合にどのように拡張されるかを概説する。 この研究は概念的に満足する重要な洞察を与え、より単純なリソース(ガウス状態など)がより複雑なリソース(GKP状態など)にいつ対応できるかといった重要な現実的な問題に対処するのに役立ち、CV量子コンピューティングで利用可能なリソースをより効率的に利用することができる。

Continuous-variable cluster states (CVCSs) can be supplemented with Gottesman-Kitaev-Preskill (GKP) states to form a hybrid cluster state with the power to execute universal, fault-tolerant quantum computing in a measurement-based fashion. As the resource states that comprise a hybrid cluster state are of a very different nature, a natural question arises: Why do GKP states interface so well with CVCSs? To answer this question, we apply the recently introduced subsystem decomposition of a bosonic mode, which divides a mode into logical and gauge-mode subsystems, to three types of cluster state: CVCSs, GKP cluster states, and hybrid CV-GKP cluster states. We find that each of these contains a "hidden" qubit cluster state across their logical subsystems, which lies at the heart of their utility for measurement-based quantum computing. To complement the analytical approach, we introduce a simple graphical description of these CV-mode cluster states that depicts precisely how the hidden qubit cluster states are entangled with the gauge modes, and we outline how these results would extend to the case of finitely squeezed states. This work provides important insight that is both conceptually satisfying and helps to address important practical issues like when a simpler resource (such as a Gaussian state) can stand in for a more complex one (like a GKP state), leading to more efficient use of the resources available for CV quantum computing.
翻訳日:2023-04-07 04:45:03 公開日:2021-08-06
# オイラーの36人の絡み合った士官:古典的に不可能な問題の量子解

Thirty-six entangled officers of Euler: Quantum solution to a classically impossible problem ( http://arxiv.org/abs/2104.05122v2 )

ライセンス: Link先を確認
Suhail Ahmad Rather, Adam Burchardt, Wojciech Bruzda, Grzegorz Rajchel-Mieldzio\'c, Arul Lakshminarayan, Karol \.Zyczkowski(参考訳) オイラーの36ドルの役人の有名な問題に対する負の解は、直交のラテン正方形が2つもないことを意味する。 警官が絡み合っている場合、この問題には解があることを示し、この大きさの直交量子ラテン四角形を構築する。 その結果、6つのレベルを持つ4つのサブシステムのうち、最大に絡み合った状態 ame$(4,6)$ の例は、同じ大きさの336$の2ドルのユニタリ行列で、この次元のすべての二成分ユニタリゲートの絡み合い力を最大化したり、あるいは4つのインデックスを持つ完全テンソルをそれぞれ1から6まで走らせる。 この特別な状態は、金比がその元素に顕著に現れるので、黄金のAME状態にふさわしい。 この結果、純粋な非加法的なquhex量子エラー検出コード$(\! (3,6,2)\! )_6$は、シングルトン境界を飽和させ、そのような状態のトリプルトに6ドルレベルの状態をエンコードすることを可能にする。

The negative solution to the famous problem of $36$ officers of Euler implies that there are no two orthogonal Latin squares of order six. We show that the problem has a solution, provided the officers are entangled, and construct orthogonal quantum Latin squares of this size. As a consequence, we find an example of the long-elusive Absolutely Maximally Entangled state AME$(4,6)$ of four subsystems with six levels each, equivalently a $2$-unitary matrix of size $36$, which maximizes the entangling power among all bipartite unitary gates of this dimension, or a perfect tensor with four indices, each running from one to six. This special state deserves the appellation golden AME state as the golden ratio appears prominently in its elements. This result allows us to construct a pure nonadditive quhex quantum error detection code $(\!(3,6,2)\!)_6$, which saturates the Singleton bound and allows one to encode a $6$-level state into a triplet of such states.
翻訳日:2023-04-04 03:50:24 公開日:2021-08-06
# 開基2次系における量子熱力学の第一法則

First Law of Quantum Thermodynamics in a Driven Open Two-Level System ( http://arxiv.org/abs/2104.10691v2 )

ライセンス: Link先を確認
Adri\'an Juan-Delgado and Aur\'elia Chenu(参考訳) 内部エネルギーの変動を熱や仕事の貢献に割り当てることは、これらの特性が軌道に依存するという事実から難しい課題である。 任意の力学に従って、オープン量子系に対して多くの提案がなされている。 ここでは, 2段階系の非平衡熱力学に注目し, 従来のアプローチに加えて, 駆動ハミルトニアンや軌道自体を基準基底として用いる古典的な作業や熱によって動機付けられた2つの定義を探索する。 まず、任意の力学に対する熱力学的性質を与え、ブロッホ球面上の結果を説明する。 そして、周期的に駆動されるキュービットが消散性および脱コヒーレンス浴と相互作用する特定の例を解く。 本研究は,熱と作業の軌道依存的な特性と,リンドブラッド方程式における散逸に対する貢献が,どのようにして働くべきコヒーレントな部分となるかを示す。

Assigning the variations of internal energy into heat or work contributions is a challenging task due to the fact that these properties are trajectory dependent. A number of proposals have been put forward for open quantum systems following an arbitrary dynamics. We here focus on non-equilibrium thermodynamics of a two-level system and explore, in addition to the conventional approach, two definitions motivated by either classical work or heat, in which the driving Hamiltonian or the trajectory itself are respectively used to set up a reference basis. We first give the thermodynamic properties for an arbitrary dynamics and illustrate the results on the Bloch sphere. Then, we solve the particular example of a periodically driven qubit interacting with a dissipative and decoherence bath. Our results illustrate the trajectory-dependent character of heat and work, and how contributions originally assigned to dissipation in the Lindblad equation can become coherent part assigned to work.
翻訳日:2023-04-03 00:11:42 公開日:2021-08-06
# 量子テレポーテーションは、量子測定の反転である

Quantum teleportation is a reversal of quantum measurement ( http://arxiv.org/abs/2104.12178v2 )

ライセンス: Link先を確認
Seung-Woo Lee, Dong-Gil Im, Yoon-Ho Kim, Hyunchul Nha, M. S. Kim(参考訳) 本稿では,量子テレポーテーションの一般化概念を,量子計測と反転演算の枠組みで紹介する。 この枠組みにより, 量子テレポーテーションの最適プロトコルを見つけることができ, 非閉定理の限界まで最大成功確率で未知の量子状態の忠実な転送が可能となる。 さらに、この一般的なアプローチで最適化されたプロトコルは、余分なキュービットリソースを必要とせずに、既存のテレポーテーションプロトコルの到達を超える量子チャネルのノイズを克服できる。 提案フレームワークは,スケーラブルな量子アーキテクチャにおける多部量子通信およびプリミティブ機能に適用可能である。

We introduce a generalized concept of quantum teleportation in the framework of quantum measurement and reversing operation. Our framework makes it possible to find an optimal protocol for quantum teleportation enabling a faithful transfer of unknown quantum states with maximum success probability up to the fundamental limit of the no-cloning theorem. Moreover, an optimized protocol in this generalized approach allows us to overcome noise in quantum channel beyond the reach of existing teleportation protocols without requiring extra qubit resources. Our proposed framework is applicable to multipartite quantum communications and primitive functionalities in scalable quantum architectures.
翻訳日:2023-04-02 11:11:00 公開日:2021-08-06
# ループギャップマイクロ波空洞に強結合した強磁性共振器の熱不安定性

Thermal instability in a ferrimagnetic resonator strongly coupled to a loop-gap microwave cavity ( http://arxiv.org/abs/2105.06102v2 )

ライセンス: Link先を確認
Cijy Mathai, Oleg Shtempluck and Eyal Buks(参考訳) 強磁性球面共振器(fsr)とマイクロ波ループギャップ共振器(lgr)の非線形応答について検討した。 弱非線形状態における測定応答は、FSRカー係数とその立方減衰率の抽出を可能にする。 システムの不安定性を示す駆動パラメータには,一定の範囲が存在することがわかった。 この範囲では、システムからの反射電力の自己持続変調が生成される。 この不安定性は、キュリー温度以上のFSRの吸収誘起加熱に起因する。

We study nonlinear response of a ferrimagnetic sphere resonator (FSR) strongly coupled to a microwave loop gap resonator (LGR). The measured response in the regime of weak nonlinearity allows the extraction of the FSR Kerr coefficient and its cubic damping rate. We find that there is a certain range of driving parameters in which the system exhibits instability. In that range, self-sustained modulation of the reflected power off the system is generated. The instability is attributed to absorption-induced heating of the FSR above its Curie temperature.
翻訳日:2023-03-31 06:43:24 公開日:2021-08-06
# ダイヤモンド中の窒素空孔中心のスペクトル安定性に及ぼす表面およびレーザー誘起ノイズの影響

Impact of surface and laser-induced noise on the spectral stability of implanted nitrogen-vacancy centers in diamond ( http://arxiv.org/abs/2105.09483v2 )

ライセンス: Link先を確認
Srivatsa Chakravarthi, Christian Pederson, Zeeshawn Kazi, Andrew Ivanov and Kai-Mei C. Fu(参考訳) ダイヤモンド中の窒素空孔中心を利用した量子ネットワーク技術のスケーラブルな実現には、光学構造と結合する表面に近い光コヒーレントなNV中心を作成する必要がある。 我々は1つのNV中心を$^{15}$Nイオン注入と高温真空焼鈍により生成する。 NV中心の起源は、窒素同位体同定のための光学的に検出された磁気共鳴分光によって確立される。 通常の実装(7$^\circ$, $\approx$100 nm deep)のほとんどの場合、寿命制限光線幅$<$ 60 MHz)は、$^{15}$NVセンターで観測される。 NV$^-$の電荷状態と放出周波数の長期安定性を示す。 nv-表面相互作用の効果は固定イオンエネルギーの注入角度を変化させることで検討され、格子損傷プロファイルが得られた。 通常のインプラント条件とは対照的に、斜め実装(85$^\circ$, $\approx$ 20 nm)のNVは、光コヒーレンスを著しく減少させる。 その結果, 浅部移植NVに対する移植損傷よりも表面の摂動源が大きいことが示唆された。 この研究は、光学安定なNV中心形成のためのイオン注入の実現性を支持する。 しかし、スケーラブルな欠陥エンジニアリングには注意深い表面準備が必要である。

Scalable realizations of quantum network technologies utilizing the nitrogen vacancy center in diamond require creation of optically coherent NV centers in close proximity to a surface for coupling to optical structures. We create single NV centers by $^{15}$N ion implantation and high-temperature vacuum annealing. Origin of the NV centers is established by optically detected magnetic resonance spectroscopy for nitrogen isotope identification. Near lifetime-limited optical linewidths ($<$ 60 MHz) are observed for the majority of the normal-implant (7$^\circ$, $\approx$ 100 nm deep) $^{15}$NV centers. Long-term stability of the NV$^-$ charge state and emission frequency is demonstrated. The effect of NV-surface interaction is investigated by varying the implantation angle for a fixed ion-energy, and thus lattice damage profile. In contrast to the normal implant condition, NVs from an oblique-implant (85$^\circ$, $\approx$ 20 nm deep) exhibit substantially reduced optical coherence. Our results imply that the surface is a larger source of perturbation than implantation damage for shallow implanted NVs. This work supports the viability of ion implantation for formation of optically stable NV centers. However, careful surface preparation will be necessary for scalable defect engineering.
翻訳日:2023-03-30 07:26:25 公開日:2021-08-06
# 単一絡み合い測度による絡み合い分類

Entanglement Classification via Single Entanglement Measure ( http://arxiv.org/abs/2106.00850v2 )

ライセンス: Link先を確認
Adam Burchardt, Gon\c{c}alo M. Quinta, Rui Andr\'e(参考訳) 我々は,SLOCC(Stochastic Local Operations with Classical Communication)の下で1つの多項式エンタングルメント測度を用いて,一般的なn-qubit状態が等価となる必要十分条件を提供する。 SLOCC演算は、ブロッホ球上のエンタングルメント測度の根上のM\"obius変換によって幾何学的に表現することができる。 さらに, 3-tangle測度の根が4-qubitジェネリックステートをいかに分類するかを示し, 無限反復手順をバイパスする4-qubit状態の正規形式を得る方法を提案する。

We provide necessary and sufficient conditions for generic n-qubit states to be equivalent under Stochastic Local Operations with Classical Communication (SLOCC) using a single polynomial entanglement measure. SLOCC operations may be represented geometrically by M\"obius transformations on the roots of the entanglement measure on the Bloch sphere. Moreover, we show how the roots of the 3-tangle measure classify 4-qubit generic states and propose a method to obtain the normal form of a 4-qubit state which bypasses the possibly infinite iterative procedure.
翻訳日:2023-03-28 03:22:42 公開日:2021-08-06
# 民間の電力と公共の関心:2021年2月にテキサス州で発生した停電のエスノグラフィーによる調査

Private Power and Public Interests: An Ethnographic Examination of the Power Outages in Texas in February 2021 ( http://arxiv.org/abs/2108.02224v2 )

ライセンス: Link先を確認
William Wagner, Siyu Xiang, Chien-Ting Chang(参考訳) 21世紀のアメリカでは、多くの観察者にとって、10億人のアメリカ人が記録的な寒さの真っ最中に何日間も電力と熱を失うというアイデアは考えられなかった。 住民に十分な電力を提供しなかったのは、おそらく世界最大のエネルギー首都の1つであるテキサスだろうという、さらに大きな驚きだった。 この論文は、停電の原因となった出来事、それを経験した人々の経験、イベントから1ヶ月から2ヶ月後のテキサス州の状況を調査している。 我々は,状況の実証的側面と,参加者の勘定や思考のより解釈的な記述の両方を捉えるために,民族誌的アプローチを採った。 このテキサスの出来事のエスノグラフィーは基礎的な証拠となりうるので、様々な状況や方法論に一般化できると考えている。

In 21st century America, to many observers, the idea that 10's of millions of Americans could lose power and heat for multiple days in the middle of a record cold snap, was unthinkable. It came as an even greater surprise that it would be Texas - arguably one of the world's energy capitals - that failed to provide sufficient power to its residents. This paper explores the events that led to the outage, the experiences of those who lived through it, and the situation in Texas one to two months after the event. We have taken an ethnographic approach to capture both the empirical aspects of the situation, and the more interpretive descriptions of the accounts and thoughts of the participants. We believe this ethnography of events in Texas can serve as foundational evidence and therefore can be generalized to a wide variety of situations and methodologies.
翻訳日:2023-03-19 22:23:59 公開日:2021-08-06
# 電子摩擦による量子力学

Quantum Dynamics with Electronic Friction ( http://arxiv.org/abs/2108.02622v2 )

ライセンス: Link先を確認
Rocco Martinazzo and Irene Burghardt(参考訳) 電子核波動関数の正確な分解法を用いて電子摩擦の理論を開発した。 独立した電子や相互作用する電子から構成される電子浴に関する仮定は行われず、原子核は量子的に扱われる。 核波動関数の次の運動方程式は、摩擦項を含む非線形schr\"{o}dinger方程式である。 結果として生じる摩擦核は、dou, miao \& subotnik (\emph{phys) によって以前に導かれた混合量子古典的結果と一致する。 Rev. Lett. } \textbf{119}, 046001 (2017) は、ここで取り除かれた後者における \emph{pseudo} の磁気的寄与を除いては例外である。 より具体的には、電子動力学は一般的に断熱力学で現れる\emph{ gauge} 場を洗い流すことが示されている。 しかし、T=0 Kでは、核力学の遅い時間スケールで電子が迅速に反応する典型的な状況(マルコフ極限)において、emph{pseudo}-磁気力は完全に再確立される。 したがって、電子摩擦の存在下でもベリーの位相効果は観測可能であり、非自明な幾何学的位相は金属磁性表面上の分子に対して達成可能であるべきである。

A theory of electronic friction is developed using the exact factorization of the electron-nuclear wavefunction. No assumption is made regarding the electronic bath, which can be made of independent or interacting electrons, and the nuclei are treated quantally. The ensuing equation of motion for the nuclear wavefunction is a non-linear Schr\"{o}dinger equation including a friction term. The resulting friction kernel agrees with a previously derived mixed quantum-classical result by Dou, Miao \& Subotnik (\emph{Phys. Rev. Lett.} \textbf{119}, 046001 (2017)), except for a \emph{pseudo}-magnetic contribution in the latter that is here removed. More specifically, it is shown that the electron dynamics generally washes out the\emph{ gauge} fields appearing in the adiabatic dynamics. However, at T=0 K, the \emph{pseudo}-magnetic force is fully re-established in the typical situation where the electrons respond rapidy on the slow time-scale of the nuclear dynamics (Markov limit). Hence, we predict Berry's phase effects to be observable also in the presence of electronic friction, and non-trivial geometric phases should be attainable for molecules on metallic magnetic surfaces.
翻訳日:2023-03-19 07:26:16 公開日:2021-08-06
# Googlingが機能しないとき:スマートホームデバイスのセキュリティアドバイスを見つけるという課題

When Googling it doesn't work: The challenge of finding security advice for smart home devices ( http://arxiv.org/abs/2108.03107v1 )

ライセンス: Link先を確認
Sarah Turner and Jason R.C. Nurse and Shujun Li(参考訳) ユーザーがインターネットに接続されたデバイスを家庭に導入するにつれて、正確で関連するサイバーセキュリティ情報にアクセスできることが、安全な使用を確保する基本的な手段となる。 購入時に多くのデバイスで提供される情報量を考えると,本論文は,iot(home internet of things)やスマートデバイスユーザに対して,インターネット上でサイバーセキュリティの慣行を伝えるためのアドバイスのタイプについて,批判的な研究を行っている。 我々は、セキュリティ脅威や関連するサイバーセキュリティアドバイスに関する情報を提示する234の組織から427のWebページを分析した。 その結果,オンライン情報検索の利用者は,信頼性と妥当性の異なる様々な情報源からのアドバイスやニュースを受けやすいことがわかった。 ユーザが脅威を関連するものとしてどのように評価するかを明確に説明しなければ、どのアドバイスが彼らの状況において最も効果的かを理解することは難しくなる。 ユーザアクセスと理解を改善するために、認識されたソースからのガイダンスの明確さ、一貫性、可用性を改善するために推奨される。

As users increasingly introduce Internet-connected devices into their homes, having access to accurate and relevant cyber security information is a fundamental means of ensuring safe use. Given the paucity of information provided with many devices at the time of purchase, this paper engages in a critical study of the type of advice that home Internet of Things (IoT) or smart device users might be presented with on the Internet to inform their cyber security practices. We base our research on an analysis of 427 web pages from 234 organisations that present information on security threats and relevant cyber security advice. The results show that users searching online for information are subject to an enormous range of advice and news from various sources with differing levels of credibility and relevance. With no clear explanation of how a user may assess the threats as they are pertinent to them, it becomes difficult to understand which pieces of advice would be the most effective in their situation. Recommendations are made to improve the clarity, consistency and availability of guidance from recognised sources to improve user access and understanding.
翻訳日:2023-03-19 05:14:25 公開日:2021-08-06
# 偏光選択型マイケルソン干渉計におけるブロードバンドカオス光の2光子サブ波長干渉観測

Observing two-photon subwavelength interference of broadband chaotic light in polarization-selective Michelson interferometer ( http://arxiv.org/abs/2108.03071v1 )

ライセンス: Link先を確認
Sheng Luo, Yu Zhou, Huaibin Zheng, Wanting Xu, Jianbin Liu, Hui Chen, Yuchen He, Shuanghao Zhang, Fuli Li, Zhuo Xu(参考訳) 従来のサブ波長干渉法とは異なり、偏光選択型ミシェルソン干渉計と超高速2光子吸収検出器において、広帯域カオス光の2光子サブ波長干渉効果を初めて実証し、干渉に関与する2光子確率振幅を操作することで達成した。 理論上、二光子偏光コヒーレンス行列と確率振幅行列を組み合わせて偏光二光子干渉項を開発し、実験結果をうまく説明する。 また,この干渉計を用いてサブ波長効果を生成するために,可視性と偏光誤差の程度との関係を明らかにするために,一連の誤差解析を行った。 我々の実験的および理論的結果は、量子力学に基づくベクトル光場の2光子干渉理論の発展に光を当てる2光子サブ波長干渉を理解するのに役立つ。 これらの実験結果は将来の光干渉法、光偏光法、波長下リソグラフィーの開発に役立つかもしれない。

Differing from the traditional method of achieving subwavelength interference, we have demonstrated the two-photon subwavelength interference effect of broadband chaotic light in a polarization-selective Michelson interferometer with an ultrafast two-photon absorption detector the first time, which is achieved by manipulating two-photon probability amplitudes involved in the interference. In theory, the two-photon polarization coherence matrix and probability amplitudes matrix are combined to develop polarized two-photon interference terms, which explains the experimental results well. In order to make better use of this interferometer to produce the subwavelength effect, we also make a series of error analyses to find out the relationship between the visibility and the degree of polarization error. Our experimental and theoretical results are helpful to understand the two-photon subwavelength interference, which sheds light on the development of the two-photon interference theory of vector light field based on quantum mechanics. These experimental results may help to develop future optical interferometry, optical polarimetry, and subwavelength lithography.
翻訳日:2023-03-19 05:13:44 公開日:2021-08-06
# サブバリア量子トンネル--MacColl-Hartmanパラドックスの除去

Sub-barrier quantum tunneling: eliminating the MacColl-Hartman paradox ( http://arxiv.org/abs/2108.03054v1 )

ライセンス: Link先を確認
Atom Zhora Muradyan(参考訳) 私は、maccoll-hartman効果、すなわち、バリア幅の関数としてのサブバリア量子トンネルの群遅延時間の飽和は、より基本的な概念である定常波動関数の位相の飽和挙動に由来することを示した。 飽和の説明は、定常波動関数を波動数のスペクトルに分解し、入射物質波の伝播方向の初期条件を定式化することに基づく。 また、マクコールとハートマンの飽和台地は実際には無限に継続せず、長さが有限であることが示されている。 台地後、電位の幅が大きくなるにつれてサブバリアトンネル時間は単調に増加し、これはウェーブパケットの最大値と平均トンネル時間の両方に適用される。

I show that the MacColl-Hartman effect, namely, the saturation of the group delay time of sub-barrier quantum tunneling as a function of the barrier width, comes from the saturating behavior of a more fundamental concept - the phase of the stationary wave function. The explanation of saturation is given based on the decomposition of the stationary wave function into the spectrum of wave numbers and formulation of the initial condition for the direction of propagation of the incident matter wave. It is also shown that the saturation plateau of MacColl and Hartman actually doesn't continue indefinitely, but has a finite length. After the plateau, the sub-barrier tunneling time monotonically increases with increasing width of the potential, and this applies both to the maximum's of the wave packet and to the average tunneling time.
翻訳日:2023-03-19 05:13:25 公開日:2021-08-06
# 2+1次元の量子エンタングル状態に対するアハルノフ・ボームおよびアハルノフ・カッシャー位相相の研究

Investigation of the Aharonov-Bohm and Aharonov-Casher Topological Phases for Quantum Entangled States in 2+1 Dimensions ( http://arxiv.org/abs/2108.03050v1 )

ライセンス: Link先を確認
H.O. Cildiroglu and A.U.Yilmazer(参考訳) Aharonov-Bohm (AB) と Aharonov-Casher (AC) の効果は2+1次元で完全に相対論的に処理される。 絡み合ったスピン1/2系における関連する幾何学的および位相的位相の影響について検討した。 acの場合、スピン測定の特定の選択に対するchsh不等式(英語版)の相関関数は、ac位相に依存することが示されている。

Aharonov-Bohm (AB) and Aharonov-Casher (AC) effects are treated fully relativistically in 2+1 dimensions. The influences of the relevant geometric and topological phases on an entangled spin-1/2 system are studied. It is shown that for the AC case the correlation function of the Clauser-Horne-Shimony-Holt (CHSH) inequality for certain choices of the spin measurements depends on the AC phase explicitly.
翻訳日:2023-03-19 05:13:10 公開日:2021-08-06
# 量子コンピューティング、ディープラーニング、格子モンテカルロを用いた行列モデルシミュレーション

Matrix Model simulations using Quantum Computing, Deep Learning, and Lattice Monte Carlo ( http://arxiv.org/abs/2108.02942v1 )

ライセンス: Link先を確認
Enrico Rinaldi, Xizhi Han, Mohammad Hassan, Yuan Feng, Franco Nori, Michael McGuigan, Masanori Hanada(参考訳) マトリックス量子力学は、量子ブラックホールのホログラフィック記述など、理論物理学において様々な重要な役割を果たす。 量子ブラックホールの理解とホログラフィック設定における絡み合いの役割は、より良い量子アルゴリズム(量子誤り訂正符号)の開発と重力量子論の実現において最も重要なものである。 量子コンピューティングとディープラーニングは、行列量子力学の力学を研究するための潜在的に有用なアプローチを提供する。 本稿では,行列量子力学に対する量子コンピューティングとディープラーニングのアプローチに関する体系的な調査を行い,それを格子モンテカルロシミュレーションと比較する。 特に,低エネルギースペクトルを計算し,各手法の性能を検証した。

Matrix quantum mechanics plays various important roles in theoretical physics, such as a holographic description of quantum black holes. Understanding quantum black holes and the role of entanglement in a holographic setup is of paramount importance for the development of better quantum algorithms (quantum error correction codes) and for the realization of a quantum theory of gravity. Quantum computing and deep learning offer us potentially useful approaches to study the dynamics of matrix quantum mechanics. In this paper we perform a systematic survey for quantum computing and deep learning approaches to matrix quantum mechanics, comparing them to Lattice Monte Carlo simulations. In particular, we test the performance of each method by calculating the low-energy spectrum.
翻訳日:2023-03-19 05:13:03 公開日:2021-08-06
# クロス共振ゲートにおける非共振誤差の緩和

Mitigating off-resonant error in the cross-resonance gate ( http://arxiv.org/abs/2108.03223v1 )

ライセンス: Link先を確認
Moein Malekakhlagh and Easwar Magesan(参考訳) 駆動された量子システムのオフ共振誤差は、不要な系遷移と非ゼロスペクトル重なりを持つ入力ドライブによる相互作用を指す。 クロス共振ゲートには、リークや、制御キュービット上のビットフリップエラーにつながる非対角的な計算相互作用が含まれる。 本研究は,直接CNOTゲート実装において,非対角制御相互作用に重点を置いて,非共振誤差の定量化を行う。 この結果は力学の数値シミュレーションに基づいており、時間依存シュリーファー・ウルフ理論とマグヌス摂動理論との関連を実証する。 このような誤りを抑える2つの方法を提案する。 まず、オフ共振遷移周波数がパルススペクトルサイドバンドによる局所ミニマと一致するようにパルスパラメータを最適化する必要がある。 第二に、オフ共振誤差を緩和する制御キュービットに$Y$-DRAGパルスの利点を示す。 qubit-qubitデチューニングにより、提案手法は、直接cnot校正のための10^{-4}$レベルに近い約10^{-3}$の平均オフ共振誤差を改善できる。

Off-resonant error for a driven quantum system refers to interactions due to the input drives having non-zero spectral overlap with unwanted system transitions. For the cross-resonance gate, this includes leakage as well as off-diagonal computational interactions that lead to bit-flip error on the control qubit. In this work, we quantify off-resonant error, with more focus on the less studied off-diagonal control interactions, for a direct CNOT gate implementation. Our results are based on numerical simulation of the dynamics, while we demonstrate the connection to time-dependent Schrieffer-Wolff and Magnus perturbation theories. We present two methods for suppressing such error terms. First, pulse parameters need to be optimized so that off-resonant transition frequencies coincide with the local minima due to the pulse spectrum sidebands. Second, we show the advantage of a $Y$-DRAG pulse on the control qubit in mitigating off-resonant error. Depending on qubit-qubit detuning, the proposed methods can improve the average off-resonant error from approximately $10^{-3}$ closer to the $10^{-4}$ level for a direct CNOT calibration.
翻訳日:2023-03-19 05:06:56 公開日:2021-08-06
# プログラミングスキル開発のための色とレインボーの学習活動

Learning Activities in Colours and Rainbows for Programming Skill Development ( http://arxiv.org/abs/2108.03162v1 )

ライセンス: Link先を確認
Jonathan C. Roberts(参考訳) 私たちは、虹、色、光、光学効果に焦点を当てた、バイリンガル(英語とウェールズ語)のSTEM活動のシリーズを作成しました。 この活動は、新型コロナウイルスのパンデミック(covid-19)の始まりに国民保健サービス(nhs)の支援として、英国のウィンドウに現れた多くの虹に動機づけられた。 虹は希望に満ちており、不確かさの時にポジティブな象徴的なイメージとして使われるのにとても適しています。 本稿では,色,コンピュータグラフィックス,コンピュータプログラミングを中心に,その活動の展開と組織化について説明する。 各レッスンには1つ以上のアクティビティが含まれており、学習においてアクティブな役割を担える。 我々は,そのテーマにおける異なる活動の創造と公開を学術研究員に指導するために,いくつかのプロセスを用意し,整理した。 つまり、アクティビティは同様に構造化されており、一貫した方法で分類して検索することができる。 この構造は、他の人がフォローし、独自のオンラインコースを開発するための青写真として振る舞うことができる。 この活動は、色、虹、プログラムの計画、設計、および、プロセス.orgに基づく単純なコンピュータグラフィックスの原則を用いて色豊かな画像を作成するための戦略を通じて、徐々に人々を惹きつける。

We present how we have created a series of bilingual (English and Welsh) STEM activities focusing on rainbows, colours, light and optical effects. The activities were motivated by the many rainbows that appeared in windows in the UK, in support of the National Health Service at the start of the coronavirus pandemic. Rainbows are hopeful and are very fitting to be used as a positive iconic image at a time of much uncertainty. In this paper we explain how we have developed and organised the activities, focusing on colours, computer graphics and computer programming. Each lesson contains one or more activities, which enable people to take an active role in their learning. We have carefully prepared and organised several processes to guide academic colleagues to create and publish different activities in the theme. Which means that the activities appear similarly structured, can be categorised and searched in a consistent way. This structure can act as a blueprint for others to follow and apply to develop their own online course. The activities incrementally take people through learning about colour, rainbows, planning what to program, design and strategies to create colourful pictures using simple computer graphics principles based in processing.org.
翻訳日:2023-03-19 05:05:49 公開日:2021-08-06
# fittestの代替:共進化遺伝的アルゴリズムにおける離脱緩和のための新しいアプローチ

Substitution of the Fittest: A Novel Approach for Mitigating Disengagement in Coevolutionary Genetic Algorithms ( http://arxiv.org/abs/2108.03156v1 )

ライセンス: Link先を確認
Hugo Alcaraz-Herrera and John Cartlidge(参考訳) 本稿では,二集団間競争共進化的遺伝的アルゴリズムにおける離脱問題に対処するために設計された新しい手法である fittest (sf) の置換を提案する。 提案するアプローチはドメイン非依存であり、キャリブレーションを必要としない。 最小限のドメインでは、エンゲージメントを維持する能力と最適解を見つける能力の制御された評価を行う。 結果として、SFのソリューション発見性能は文献上の他のテクニックと同等であり、SFはエンゲージメントの維持能力やより単純なメカニズムなどのメリットも提供することが示された。

We propose substitution of the fittest (SF), a novel technique designed to counteract the problem of disengagement in two-population competitive coevolutionary genetic algorithms. The approach presented is domain-independent and requires no calibration. In a minimal domain, we perform a controlled evaluation of the ability to maintain engagement and the capacity to discover optimal solutions. Results demonstrate that the solution discovery performance of SF is comparable with other techniques in the literature, while SF also offers benefits including a greater ability to maintain engagement and a much simpler mechanism.
翻訳日:2023-03-19 05:05:29 公開日:2021-08-06
# 拡張性は量子プロセッサの性能を制限する

Extendibility limits the performance of quantum processors ( http://arxiv.org/abs/2108.03137v1 )

ライセンス: Link先を確認
Eneet Kaur, Siddhartha Das, Mark M. Wilde, and Andreas Winter(参考訳) 量子情報科学における資源理論は、量子システムを含む情報処理タスクのパフォーマンスの研究と定量化に有用である。 例えば、絡み合いとコヒーレンスに関する資源理論は、量子力学における量子熱力学と記憶効果の研究において、利用と影響を見出した。 本稿では、与えられた量子状態における量子エンタングルメントを複数のパーティに拡張できないことに関連する、拡張不可能性の資源理論を紹介する。 この資源理論における自由状態はk-extendible状態であり、自由チャネルはk-extendible channelであり、k-extendible状態のクラスを保存する。 我々は、この資源理論を用いて、任意の量子チャネルを有限回利用し、k伸縮性チャネルの補助を無償で行うことにより、量子通信や絡み合い保存が可能な速度の、漸近的でない上限を導出する。 次に、得られた境界は、デポーラライズチャネルと消去チャネルの両方上の量子通信の既知境界よりもかなりタイトであることを示す。

Resource theories in quantum information science are helpful for the study and quantification of the performance of information-processing tasks that involve quantum systems. These resource theories also find applications in other areas of study; e.g., the resource theories of entanglement and coherence have found use and implications in the study of quantum thermodynamics and memory effects in quantum dynamics. In this paper, we introduce the resource theory of unextendibility, which is associated to the inability of extending quantum entanglement in a given quantum state to multiple parties. The free states in this resource theory are the k-extendible states, and the free channels are k-extendible channels, which preserve the class of k-extendible states. We make use of this resource theory to derive non-asymptotic, upper bounds on the rate at which quantum communication or entanglement preservation is possible by utilizing an arbitrary quantum channel a finite number of times, along with the assistance of k-extendible channels at no cost. We then show that the bounds obtained are significantly tighter than previously known bounds for quantum communication over both the depolarizing and erasure channels.
翻訳日:2023-03-19 05:05:18 公開日:2021-08-06
# 2つの捕捉イオン量子ビットの資源効率良く散逸する絡み合い

Resource-efficient dissipative entanglement of two trapped-ion qubits ( http://arxiv.org/abs/2108.03136v1 )

ライセンス: Link先を確認
Daniel C. Cole, Stephen D. Erickson, Giorgio Zarantonello, Karl P. Horn, Pan-Yu Hou, Jenny J. Wu, Daniel H. Slichter, Florentin Reiter, Christiane P. Koch, and Dietrich Leibfried(参考訳) 2つの捕捉イオン量子ビットの絡み合い状態の散逸生成の簡便な方法を示す。 本実装は,従来の散逸エンタングルメント生成のデモンストレーションよりも高速かつ高い忠実度でターゲット状態を生成し,補助イオンの必要性を解消する。 絡み合った一重項状態は、0.949(4)の忠実度で$\sim$7msで生成される。 不忠実な主な原因は光子散乱である。 本稿では,この誤差源とその緩和戦略について論じる。

We demonstrate a simplified method for dissipative generation of an entangled state of two trapped-ion qubits. Our implementation produces its target state faster and with higher fidelity than previous demonstrations of dissipative entanglement generation and eliminates the need for auxiliary ions. The entangled singlet state is generated in $\sim$7 ms with a fidelity of 0.949(4). The dominant source of infidelity is photon scattering. We discuss this error source and strategies for its mitigation.
翻訳日:2023-03-19 05:04:59 公開日:2021-08-06
# レッドフィールド量子マスター方程式の導出とボゴリューボフ法による補正

Derivation of the Redfield quantum master equation and corrections to it by the Bogoliubov method ( http://arxiv.org/abs/2108.03128v1 )

ライセンス: Link先を確認
Anton Trushechkin(参考訳) N. N. Bogoliubov が古典的および量子的非線形方程式の導出に用いたアイデアに従い、オープン量子系の理論において広く用いられるレッドフィールド量子線型マスター方程式の代替的導出とそれに対する高階補正を与える。 この導出は、前回の系保存力学から生じる初期相関系保存状態を自然に考慮する。 この場合、レッドフィールド方程式はいかなる修正も必要としないことがわかった。 高階補正の表現は他の方法による表現よりも単純である。

Following the ideas N. N. Bogoliubov used to derive the classical and quantum nonlinear kinetic equations, we give an alternative derivation of the Redfield quantum linear master equation, which is widely used in the theory of open quantum systems, as well as higher-order corrections to it. This derivation naturally considers initially correlated system-reservoir states arising from the previous system-reservoir dynamics. It turns out that the Redfield equation does not require any modifications in this case. The expressions of higher-order corrections are simpler than those obtained by other methods.
翻訳日:2023-03-19 05:04:52 公開日:2021-08-06
# 正準量子化の単純因子は量子重力においてもアフィン量子化をもたらす

A Simple Factor in Canonical Quantization yields Affine Quantization Even for Quantum Gravity ( http://arxiv.org/abs/2108.04083v1 )

ライセンス: Link先を確認
John R. Klauder(参考訳) 正準量子化(CQ)は$[Q,P]=i\hbar1\! \! 1ドル、アフィン量子化(AQ)は$[Q,D]=i\hbar\,Q$で、$D\equiv(PQ+QP)/2$である。 基本 CQ 作用素は $-\infty<P, Q <\infty$ でなければならないが、基本 AQ 作用素は $-\infty<P<\infty$ と $ 0<Q<\infty$, $-\infty <Q<0$ あるいは $-\infty<Q\neq0<\infty$ でもよい。 我々の単純な概要が示すように、AQは量子重力の鍵でもある。

Canonical quantization (CQ) is built around $[Q,P]=i\hbar1\!\!1$, while affine quantization (AQ) is built around $[Q,D]=i\hbar\,Q$, where $D\equiv(PQ+QP)/2$. The basic CQ operators must fit $-\infty< P, Q <\infty$, while the basic AQ operators can fit $-\infty<P<\infty$ and $ 0<Q<\infty$, $-\infty <Q<0$, or even $-\infty<Q\neq0<\infty$. AQ can also be the key to quantum gravity, as our simple outline demonstrates.
翻訳日:2023-03-19 04:58:27 公開日:2021-08-06
# 量子コヒーレンスの不連続な目撃

Incoherent witnessing of quantum coherence ( http://arxiv.org/abs/2108.04070v1 )

ライセンス: Link先を確認
Sahar Basiri-Esfahani and Farid Shahandeh(参考訳) 理論的および実験的研究により、量子コヒーレンスが光起電力および光ハーベスティング複合分子系の性能に関連があることが示唆されている。 しかし、そのようなシステムにおける一貫性についてできる声明の妥当性については曖昧さがある。 ここでは、量子系におけるコヒーレンス検出の一般的な手順を分析し、入力および出力プローブ状態が完全に非コヒーレントであるとき、量子系の初期コヒーレンスを検出する反直観的な現象を示す。 我々の分析は、直接アクセス不能なシステムのコヒーレンスに関する妥当なクレームに必要かつ十分な条件をもたらす。 さらに,これらの条件を満たす量子コヒーレンスを検出するために,絡み合ったプローブを用いた原理実証プロトコルを提案し,コヒーレンス検出の能力について検討する。

Theoretical and experimental studies have suggested the relevance of quantum coherence to the performance of photovoltaic and light-harvesting complex molecular systems. However, there are ambiguities regarding the validity of statements we can make about the coherence in such systems. Here we analyze the general procedure for coherence detection in quantum systems and show the counterintuitive phenomenon of detecting a quantum system's initial coherence when both the input and output probe states are completely incoherent. Our analysis yields the necessary and sufficient conditions for valid claims regarding the coherence of directly inaccessible systems. We further provide a proof-of-principle protocol that uses entangled probes to detect quantum coherence satisfying these conditions, and discuss its potency for detecting coherence.
翻訳日:2023-03-19 04:57:59 公開日:2021-08-06
# 相関光子対を用いた単一実験結果からのエントロピー生成の2点測定

Two-point measurement of entropy production from the outcomes of a single experiment with correlated photon pairs ( http://arxiv.org/abs/2108.03289v1 )

ライセンス: Link先を確認
Gabriel H. Aguilar, Tha\'is L. Silva, Thiago E. Guimar\~aes, Rodrigo S. Piera, Lucas C. C\'eleri, and Gabriel T. Landi(参考訳) ゆらぎ定理は非平衡熱力学の柱の1つである。 広く言えば、熱、仕事、エントロピー生産などの量の統計的な分布を懸念している。 しかし、量子実験は通常これらの分布を間接的にしか評価できない。 本稿では,光実験の結果(クリック)から直接エントロピー生成の分布を求める量子揺らぎ定理の実験的実証を行う。 設定は絡み合った光子対で構成され、そのうちの1つは有限温度振幅減衰装置をエミュレートした干渉計を送る。 干渉計の特定の経路を塞ぐことは、貯水池の構成を制限するためタンタマウントである。 そして、その絡み合った対を計測することで、2点測定方式を直接実装できるので、光検出の破壊的な性質を回避できる。

Fluctuation theorems are one of the pillars of non-equilibrium thermodynamics. Broadly speaking, they concern the statistical distribution of quantities such as heat, work or entropy production. Quantum experiments, however, usually can only assess these distributions indirectly. In this letter we provide an experimental demonstration of a quantum fluctuation theorem where the distribution of entropy production is obtained directly from the outcomes (clicks) of an optical experiment. The setup consists of entangled photon pairs, one of which is sent an interferometer emulating a finite temperature amplitude damping device. Blocking specific paths of the interferometer is tantamount to restricting the possible configurations of the reservoir. And by measuring its entangled pair, we can directly implement the two-point measurement scheme, thus avoiding the destructive nature of photo-detection.
翻訳日:2023-03-19 04:57:34 公開日:2021-08-06
# 制約最適化問題に対するQAOA回路深さのグローバル最適化

Globally optimizing QAOA circuit depth for constrained optimization problems ( http://arxiv.org/abs/2108.03281v1 )

ライセンス: Link先を確認
Rebekah Herrman, Lorna Treffert, James Ostrowski, Phillip C. Lotshaw, Travis S. Humble, George Siopsis(参考訳) 我々は、組合せ最適化問題におけるn$-variable monomialsを、より少ない変数のmonomialsを持つ等価インスタンスに還元する大域変数置換法を開発した。 この手法を$3$-SAT に適用し,量子近似最適化アルゴリズムを用いて低減した問題を解くために必要な最適量子回路深さを解析する。 ベンチマーク3ドルのsat問題では、問題を積として定式化した場合、回路の深さの上限が小さいことが分かり、分解を必要としない線形定式化で問題を記述する場合よりも、置換法を用いてゲートを分解する。

We develop a global variable substitution method that reduces $n$-variable monomials in combinatorial optimization problems to equivalent instances with monomials in fewer variables. We apply this technique to $3$-SAT and analyze the optimal quantum circuit depth needed to solve the reduced problem using the quantum approximate optimization algorithm. For benchmark $3$-SAT problems, we find that the upper bound of the circuit depth is smaller when the problem is formulated as a product and uses the substitution method to decompose gates than when the problem is written in the linear formulation, which requires no decomposition.
翻訳日:2023-03-19 04:56:48 公開日:2021-08-06
# ほぼフラストレーションのない地盤状態の準備

Nearly-frustration-free ground state preparation ( http://arxiv.org/abs/2108.03249v1 )

ライセンス: Link先を確認
Matthew Thibodeau, Bryan K. Clark(参考訳) 量子基底状態の解法は量子多体系の性質を理解する上で重要であり、量子コンピュータは量子基底状態の解法に適している可能性がある。 最近の研究は、量子コンピュータ上で完全に汎用的なハミルトン多様体の基底状態を作成するのにほぼ最適なスキームを示しており、クエリの複雑性は$\delta^{-1}$、すなわち、その正規化されたギャップでスケールする。 ここでは、基底状態の準備問題はハミルトンの特別な部分集合に制限され、「ほとんどフラストレーションのない」と言うものを含む: ブロックエンコードされ、従って正規化されたハミルトンの$\alpha^{-1}H$が$\delta^y$ of -1内にあるハミルトニアンのクラス、$\delta$は$\alpha^{-1}H$と$0 \leq y \leq 1$のスペクトルギャップである。 このサブクラスについて、ギャップへの依存が漸近的によいアルゴリズムを記述し、$\delta^{y/2-1}$ とスケーリングし、この新しい依存が$\log \delta$ まで最適であることを示す。 さらに,このサブクラスに居住する物理的動機づけのあるハミルトニアンの例を示す。 最後に, フラストレーションをほとんど含まない者に対して, 一般ハミルトニアンに対しても, 基底状態の場合と同様の高速化で, 励起状態の調製を可能にする手法の拡張について述べる。

Solving for quantum ground states is important for understanding the properties of quantum many-body systems, and quantum computers are potentially well-suited for solving for quantum ground states. Recent work has presented a nearly optimal scheme that prepares ground states on a quantum computer for completely generic Hamiltonians, whose query complexity scales as $\delta^{-1}$, i.e. inversely with their normalized gap. Here we consider instead the ground state preparation problem restricted to a special subset of Hamiltonians, which includes those which we term "nearly-frustration-free": the class of Hamiltonians for which the ground state energy of their block-encoded and hence normalized Hamiltonian $\alpha^{-1}H$ is within $\delta^y$ of -1, where $\delta$ is the spectral gap of $\alpha^{-1}H$ and $0 \leq y \leq 1$. For this subclass, we describe an algorithm whose dependence on the gap is asymptotically better, scaling as $\delta^{y/2-1}$, and show that this new dependence is optimal up to factors of $\log \delta$. In addition, we give examples of physically motivated Hamiltonians which live in this subclass. Finally, we describe an extension of this method which allows the preparation of excited states both for generic Hamiltonians as well as, at a similar speedup as the ground state case, for those which are nearly frustration-free.
翻訳日:2023-03-19 04:56:11 公開日:2021-08-06
# DriveML: ドライバレス機械学習のためのRパッケージ

DriveML: An R Package for Driverless Machine Learning ( http://arxiv.org/abs/2005.00478v3 )

ライセンス: Link先を確認
Sayan Putatunda, Dayananda Ubrangala, Kiran Rama, Ravi Kondapalli(参考訳) 近年,自動機械学習の概念が広く普及している。 自動機械学習(automl)は、ランダムフォレスト、勾配ブースティング、ニューラルネットワークなど、さまざまなアルゴリズムのモデル選択とハイパーパラメータ最適化のための自動化手法を主に指している。 本稿では,自動機械学習のための新しいパッケージであるDriveMLを紹介する。 DriveMLは、自動化されたデータ準備、機能エンジニアリング、モデル構築、そして長いRコードを記述する代わりに関数を実行することによってモデル説明など、自動化された機械学習パイプラインのいくつかの柱を実装するのに役立つ。 DriveMLパッケージはCRANで入手できる。 我々は、drivemlパッケージをcran/githubの他の関連するパッケージと比較し、drivemlが異なるパラメータで最高のパフォーマンスを示す。 また、実世界のデータセットにデフォルト設定のDriveMLパッケージを適用することで、イラストも提供します。 全体として、drivemlの主な利点は、開発時間の節約、開発者のエラーの低減、機械学習モデルの最適チューニング、再現性である。

In recent years, the concept of automated machine learning has become very popular. Automated Machine Learning (AutoML) mainly refers to the automated methods for model selection and hyper-parameter optimization of various algorithms such as random forests, gradient boosting, neural networks, etc. In this paper, we introduce a new package i.e. DriveML for automated machine learning. DriveML helps in implementing some of the pillars of an automated machine learning pipeline such as automated data preparation, feature engineering, model building and model explanation by running the function instead of writing lengthy R codes. The DriveML package is available in CRAN. We compare the DriveML package with other relevant packages in CRAN/Github and find that DriveML performs the best across different parameters. We also provide an illustration by applying the DriveML package with default configuration on a real world dataset. Overall, the main benefits of DriveML are in development time savings, reduce developer's errors, optimal tuning of machine learning models and reproducibility.
翻訳日:2022-12-07 23:08:55 公開日:2021-08-06
# 特例免除の公正性:対実的・観察的措置

Fairness Under Feature Exemptions: Counterfactual and Observational Measures ( http://arxiv.org/abs/2006.07986v2 )

ライセンス: Link先を確認
Sanghamitra Dutta, Praveen Venkatesh, Piotr Mardziel, Anupam Datta, Pulkit Grover(参考訳) 高度に連続したドメインにおけるMLの利用の増加に伴い、保護された属性(例えば、性別、人種など)に対する格差の定量化が重要である。 格差の定量化は不可欠であるが、時として職業のニーズは、それらによって説明できる不一致を除外する必要がある方法で重要な特定の特徴の使用を必要とすることがある。 例えば、安全クリティカルなアプリケーションのためにソフトウェアエンジニアを雇う場合、コーディングスキルは強く重み付けされるが、名前、zipコード、リファレンスレターは、相違点を付加しない程度でしか使用できない。 そこで,本研究では,不平等(反事実的公平性に触発された定量化)を,重要な特徴に説明できない部分を定量化する非免除成分と,残った不平等を定量化する免除成分の2つの構成要素に情報理論的に分解する。 この分解により、不一致が(異質な影響法のビジネスニーズの防御から着想を得て)純粋に生じたかどうかを確認でき、必要に応じて不要なコンポーネントを選択的に削除することができる。 この分解は、非例外格差の尺度が満たすべき望ましい性質(公理)の集合に導かれる標準的な例を通して達成される。 我々の提案はそれらすべてを満たす。 我々の定量化は因果性、シンプソンのパラドックス、および部分的情報分解と呼ばれる情報理論からの成果の体系を橋渡しする。 また,観測測度が望まれるすべての特性を満足することができないことを示し,目的を緩和し,観測測度のみを満足させる結果を得た。 非免除格差を減らしながら、モデルを監査/トレーニングする方法を示すケーススタディを実行します。

With the growing use of ML in highly consequential domains, quantifying disparity with respect to protected attributes, e.g., gender, race, etc., is important. While quantifying disparity is essential, sometimes the needs of an occupation may require the use of certain features that are critical in a way that any disparity that can be explained by them might need to be exempted. E.g., in hiring a software engineer for a safety-critical application, coding-skills may be weighed strongly, whereas name, zip code, or reference letters may be used only to the extent that they do not add disparity. In this work, we propose an information-theoretic decomposition of the total disparity (a quantification inspired from counterfactual fairness) into two components: a non-exempt component which quantifies the part that cannot be accounted for by the critical features, and an exempt component that quantifies the remaining disparity. This decomposition allows one to check if the disparity arose purely due to the critical features (inspired from the business necessity defense of disparate impact law) and also enables selective removal of the non-exempt component if desired. We arrive at this decomposition through canonical examples that lead to a set of desirable properties (axioms) that a measure of non-exempt disparity should satisfy. Our proposed measure satisfies all of them. Our quantification bridges ideas of causality, Simpson's paradox, and a body of work from information theory called Partial Information Decomposition. We also obtain an impossibility result showing that no observational measure can satisfy all the desirable properties, leading us to relax our goals and examine observational measures that satisfy only some of them. We perform case studies to show how one can audit/train models while reducing non-exempt disparity.
翻訳日:2022-11-21 12:55:52 公開日:2021-08-06
# 最適復号による近似勾配符号化

Approximate Gradient Coding with Optimal Decoding ( http://arxiv.org/abs/2006.09638v4 )

ライセンス: Link先を確認
Margalit Glasgow, Mary Wootters(参考訳) 分散最適化問題において、データポイントの複製を含む勾配符号化と呼ばれる手法が、ストラグリングマシンの効果を軽減するために用いられている。 近年の研究では、データの複製係数が低すぎて完全な勾配を正確に回復できないような符号化スキームに関する近似勾配符号化が研究されている。 我々の研究は、逆モデルと確率モデルの両方で同時に機能する近似勾配符号化スキームを作成するという課題に動機づけられている。 そこで我々は,各マシンが正確に2ブロックのデータポイントを受信する拡張器グラフに基づく,新しい近似勾配符号を導入する。 最適復号係数を用いた場合,ランダムおよび逆ストラグラー設定における復号誤差を解析した。 ランダムな設定では、我々のスキームは複製係数で指数関数的に減衰する勾配の誤差を達成する。 逆の設定では、エラーは既存のどのコードよりも2倍近く小さく、ランダムな設定では同様の性能を持つ。 我々の符号を用いた標準仮定の下で、勾配降下のランダムおよび逆の設定において収束境界を示す。 ランダムな設定では、収束率はブロックボックス境界によって改善される。 逆方向設定では、勾配に対する逆方向誤差と線形にスケールするノイズフロアに勾配降下が収束できることが示される。 提案手法は, 最適復号係数を使用しないアルゴリズムよりも高速に, ランダム設定においてほぼ最適誤差が得られることを示す。

In distributed optimization problems, a technique called gradient coding, which involves replicating data points, has been used to mitigate the effect of straggling machines. Recent work has studied approximate gradient coding, which concerns coding schemes where the replication factor of the data is too low to recover the full gradient exactly. Our work is motivated by the challenge of creating approximate gradient coding schemes that simultaneously work well in both the adversarial and stochastic models. To that end, we introduce novel approximate gradient codes based on expander graphs, in which each machine receives exactly two blocks of data points. We analyze the decoding error both in the random and adversarial straggler setting, when optimal decoding coefficients are used. We show that in the random setting, our schemes achieve an error to the gradient that decays exponentially in the replication factor. In the adversarial setting, the error is nearly a factor of two smaller than any existing code with similar performance in the random setting. We show convergence bounds both in the random and adversarial setting for gradient descent under standard assumptions using our codes. In the random setting, our convergence rate improves upon block-box bounds. In the adversarial setting, we show that gradient descent can converge down to a noise floor that scales linearly with the adversarial error to the gradient. We demonstrate empirically that our schemes achieve near-optimal error in the random setting and converge faster than algorithms which do not use the optimal decoding coefficients.
翻訳日:2022-11-19 20:18:06 公開日:2021-08-06
# sofgan:動的なスタイリングを備えたポートレートイメージジェネレータ

SofGAN: A Portrait Image Generator with Dynamic Styling ( http://arxiv.org/abs/2007.03780v2 )

ライセンス: Link先を確認
Anpei Chen, Ruiyang Liu, Ling Xie, Zhang Chen, Hao Su, Jingyi Yu(参考訳) 近年,画像生成にGAN(Generative Adversarial Networks)が広く利用されている。 しかし、GANが学習した潜伏空間では、ポーズ、形状、テクスチャスタイルなどの異なる属性が一般的に絡み合っており、特定の属性の明示的な制御が困難である。 この問題に対処するために,ポートレートの潜在空間を幾何学空間とテクスチャ空間の2つの部分空間に分離するsofgan画像生成器を提案する。 2つの部分空間からサンプリングされた潜伏符号は2つのネットワーク分岐に別々に供給され、1つは正正のポーズで肖像画の3次元幾何を生成し、もう1つはテクスチャを生成する。 整列した3Dジオメトリは意味的部分のセグメンテーションも伴い、意味的占有場(SOF)として符号化される。 SOFは任意のビューで一貫した2次元セマンティックセグメンテーションマップのレンダリングを可能にし、生成したテクスチャマップと融合し、セマンティックインスタンスワイズ(SIW)モジュールを使用してポートレート写真にスタイリングする。 広範囲にわたる実験により, 形状とテクスチャ特性を独立に制御可能な高品質なポートレート画像が生成できることを実証した。 また、外観一貫性のある顔アニメーションや動的スタイリングなど、様々な用途でよく一般化されている。

Recently, Generative Adversarial Networks (GANs)} have been widely used for portrait image generation. However, in the latent space learned by GANs, different attributes, such as pose, shape, and texture style, are generally entangled, making the explicit control of specific attributes difficult. To address this issue, we propose a SofGAN image generator to decouple the latent space of portraits into two subspaces: a geometry space and a texture space. The latent codes sampled from the two subspaces are fed to two network branches separately, one to generate the 3D geometry of portraits with canonical pose, and the other to generate textures. The aligned 3D geometries also come with semantic part segmentation, encoded as a semantic occupancy field (SOF). The SOF allows the rendering of consistent 2D semantic segmentation maps at arbitrary views, which are then fused with the generated texture maps and stylized to a portrait photo using our semantic instance-wise (SIW) module. Through extensive experiments, we show that our system can generate high quality portrait images with independently controllable geometry and texture attributes. The method also generalizes well in various applications such as appearance-consistent facial animation and dynamic styling.
翻訳日:2022-11-12 20:27:00 公開日:2021-08-06
# ニューロモルフィック応用のための一般化強反転CMOS回路

A Generalized Strong-Inversion CMOS Circuitry for Neuromorphic Applications ( http://arxiv.org/abs/2007.13941v2 )

ライセンス: Link先を確認
Hamid Soleimani and Emmanuel. M. Drakakis(参考訳) 生物学的モデルをアナログ電子回路に体系的に翻訳することは、ニューロモルフィック分野において常に課題であった。 本稿では, CMOS回路の強反転動作により, 生体モデルを便利に実装できる汎用回路設計プラットフォームを提案する。 この方法の応用は、比較的複雑な2次元(2次元)非線形ニューロンモデルを合成することによって証明される。 提案手法の有効性は,市販のAMS 0.35 um技術を用いて,現実的なプロセスパラメータを用いた実例シミュレーションにより検証した。 回路シミュレーションの結果, 正則的なスパイキング応答が, 数学的な結果とよく一致していることがわかった。

It has always been a challenge in the neuromorphic field to systematically translate biological models into analog electronic circuitry. In this paper, a generalized circuit design platform is introduced where biological models can be conveniently implemented using CMOS circuitry operating in strong-inversion. The application of the method is demonstrated by synthesizing a relatively complex two-dimensional (2-D) nonlinear neuron model. The validity of our approach is verified by nominal simulated results with realistic process parameters from the commercially available AMS 0.35 um technology. The circuit simulation results exhibit regular spiking responses in good agreement with their mathematical counterpart.
翻訳日:2022-11-06 02:19:54 公開日:2021-08-06
# 勾配-descent法を迅速化する反復前条件法:分散線形最小二乗問題

Iterative Pre-Conditioning for Expediting the Gradient-Descent Method: The Distributed Linear Least-Squares Problem ( http://arxiv.org/abs/2008.02856v2 )

ライセンス: Link先を確認
Kushal Chakrabarti, Nirupam Gupta, Nikhil Chopra(参考訳) 本稿では,サーバエージェントネットワークにおけるマルチエージェント線形最小二乗問題を考える。 この問題において、システムは複数のエージェントから構成され、それぞれがサーバに接続されたローカルデータポイントのセットを持つ。 エージェントの目標は、個々のローカルデータポイントを共有することなく、すべてのエージェントが保持する集団データポイントに最適な線形数学的モデルを計算することである。 このゴールは、原則として、従来の反復勾配差分法(英語版)のサーバエージェント変種を用いて達成できる。 勾配差分法は解に線形に収束し、その収束率はエージェントの集合データポイントの条件付けによって下界となる。 データポイントが不条件の場合、勾配拡散法は多数のイテレーションを収束させる必要がある。 本研究では,データ点のコンディショニングが勾配-希薄化法の収束率に与える影響を緩和する反復前処理手法を提案する。 提案した反復的事前条件付きプレコンディショニングにより,最小二乗問題に一意解が存在する場合の超線形収束を実現する。 一般に、収束は従来の勾配descent法や最先端加速勾配descent法と比較して、収束速度が向上した線形である。 さらに,ノイズフリー,ノイズの多い両計算環境における実世界の最小二乗問題に対する実験を通じて,提案アルゴリズムの収束率の改善について述べる。

This paper considers the multi-agent linear least-squares problem in a server-agent network. In this problem, the system comprises multiple agents, each having a set of local data points, that are connected to a server. The goal for the agents is to compute a linear mathematical model that optimally fits the collective data points held by all the agents, without sharing their individual local data points. This goal can be achieved, in principle, using the server-agent variant of the traditional iterative gradient-descent method. The gradient-descent method converges linearly to a solution, and its rate of convergence is lower bounded by the conditioning of the agents' collective data points. If the data points are ill-conditioned, the gradient-descent method may require a large number of iterations to converge. We propose an iterative pre-conditioning technique that mitigates the deleterious effect of the conditioning of data points on the rate of convergence of the gradient-descent method. We rigorously show that the resulting pre-conditioned gradient-descent method, with the proposed iterative pre-conditioning, achieves superlinear convergence when the least-squares problem has a unique solution. In general, the convergence is linear with improved rate of convergence in comparison to the traditional gradient-descent method and the state-of-the-art accelerated gradient-descent methods. We further illustrate the improved rate of convergence of our proposed algorithm through experiments on different real-world least-squares problems in both noise-free and noisy computation environment.
翻訳日:2022-11-02 07:13:37 公開日:2021-08-06
# オープンドメイン質問応答のための世代別検索

Generation-Augmented Retrieval for Open-domain Question Answering ( http://arxiv.org/abs/2009.08553v4 )

ライセンス: Link先を確認
Yuning Mao, Pengcheng He, Xiaodong Liu, Yelong Shen, Jianfeng Gao, Jiawei Han, Weizhu Chen(参考訳) 本稿では,オープンドメインの質問に対して,外部リソースを監視対象とせず,テキスト生成を通じてクエリを増強するジェネレーションAugmented Retrieval(GAR)を提案する。 生成したコンテキストがクエリのセマンティクスを著しく豊かにし、スパース表現(BM25)によるGARがDPRのような最先端の高密度検索手法と同等あるいは優れていることを示す。 クエリの多様なコンテキストを生成することは,結果の融合によって検索精度が向上する点において有益であることを示す。 さらに、スパース表現や密度表現はしばしば相補的であるため、GARはDPRと簡単に組み合わせてより優れた性能を実現することができる。 GARは、抽出読取装置を備えた場合、抽出QA設定下でのNatural QuestionsおよびTriviaQAデータセットの最先端性能を達成し、同じ生成読取装置を使用する場合、他の検索方法よりも一貫して優れる。

We propose Generation-Augmented Retrieval (GAR) for answering open-domain questions, which augments a query through text generation of heuristically discovered relevant contexts without external resources as supervision. We demonstrate that the generated contexts substantially enrich the semantics of the queries and GAR with sparse representations (BM25) achieves comparable or better performance than state-of-the-art dense retrieval methods such as DPR. We show that generating diverse contexts for a query is beneficial as fusing their results consistently yields better retrieval accuracy. Moreover, as sparse and dense representations are often complementary, GAR can be easily combined with DPR to achieve even better performance. GAR achieves state-of-the-art performance on Natural Questions and TriviaQA datasets under the extractive QA setup when equipped with an extractive reader, and consistently outperforms other retrieval methods when the same generative reader is used.
翻訳日:2022-10-17 11:56:24 公開日:2021-08-06
# 因果好奇心:因果表現学習のための自己指導実験を発見するRLエージェント

Causal Curiosity: RL Agents Discovering Self-supervised Experiments for Causal Representation Learning ( http://arxiv.org/abs/2010.03110v4 )

ライセンス: Link先を確認
Sumedh A. Sontakke, Arash Mehrjou, Laurent Itti, Bernhard Sch\"olkopf(参考訳) 動物は相互作用を通じて世界の規則性を学ぶ生来の能力を示す。 彼らの環境で実験を行うことで、変動の原因を識別し、それが世界の力学に与える影響を推測することができる。 そこで本研究では,強化学習エージェントに,ロールアウトトラジェクタの分類を容易にする実験を行い,その後,環境の因果要因を階層的に推測する能力を持たせることを試みた。 我々は,新たな内在的な報酬である"em causal curiosity"を導入し,エージェントが行動の最適なシーケンスを学習し,環境のダイナミクスにおける因果的要因の発見を可能にすることを示す。 学習された振る舞いにより、エージェントは各環境における基底真理因果因子のバイナリ量子化表現を推論することができる。 さらに、これらの実験行動は意味論的に意味があり(例えば、エージェントはブロックを持ち上げて重みによって分類する)、従来の教師付きプランナーよりも約2.5倍少ないデータで自己監督的に学習される。 これらの振る舞いは、再目的化や微調整(例えば、リフトからプッシュ、その他の下流タスク)が可能であることを示す。 最後に,因果因子表現の知識がより複雑なタスクに対してゼロショット学習を支援することを示す。 webサイトはhttps://sites.google.com/usc.edu/causal-curiosity/homeを参照。

Animals exhibit an innate ability to learn regularities of the world through interaction. By performing experiments in their environment, they are able to discern the causal factors of variation and infer how they affect the world's dynamics. Inspired by this, we attempt to equip reinforcement learning agents with the ability to perform experiments that facilitate a categorization of the rolled-out trajectories, and to subsequently infer the causal factors of the environment in a hierarchical manner. We introduce {\em causal curiosity}, a novel intrinsic reward, and show that it allows our agents to learn optimal sequences of actions and discover causal factors in the dynamics of the environment. The learned behavior allows the agents to infer a binary quantized representation for the ground-truth causal factors in every environment. Additionally, we find that these experimental behaviors are semantically meaningful (e.g., our agents learn to lift blocks to categorize them by weight), and are learnt in a self-supervised manner with approximately 2.5 times less data than conventional supervised planners. We show that these behaviors can be re-purposed and fine-tuned (e.g., from lifting to pushing or other downstream tasks). Finally, we show that the knowledge of causal factor representations aids zero-shot learning for more complex tasks. Visit https://sites.google.com/usc.edu/causal-curiosity/home for website.
翻訳日:2022-10-09 22:46:32 公開日:2021-08-06
# グラフニューラルネットワークを用いた多エージェント深部強化学習による道路網上の大規模艦隊管理の最適化

Optimizing Large-Scale Fleet Management on a Road Network using Multi-Agent Deep Reinforcement Learning with Graph Neural Network ( http://arxiv.org/abs/2011.06175v2 )

ライセンス: Link先を確認
Juhyeon Kim, Kihyun Kim(参考訳) 本稿では,マルチエージェント強化学習とグラフニューラルネットワークを組み合わせることで,艦隊管理を最適化する手法を提案する。 配車サービスを実現するには、動的リソースと空間領域に対する要求を最適化する必要がある。 空間構造は従来は正則格子で近似していたが,本手法は道路網をグラフで表現し,基盤となる幾何学的構造をよりよく反映する。 動的リソース割り当てはマルチエージェント強化学習として定式化され、その作用値関数(Q関数)はグラフニューラルネットワークで近似される。 我々は,グラフ上に深いQ-networks(DQN)を持つ確率的ポリシー更新ルールを使用し,欲求的なポリシー更新よりも優れた結果を得る。 経験的なタクシー通話データをエミュレートする現実的なシミュレータを設計し,提案モデルの有効性を各種条件下で確認する。

We propose a novel approach to optimize fleet management by combining multi-agent reinforcement learning with graph neural network. To provide ride-hailing service, one needs to optimize dynamic resources and demands over spatial domain. While the spatial structure was previously approximated with a regular grid, our approach represents the road network with a graph, which better reflects the underlying geometric structure. Dynamic resource allocation is formulated as multi-agent reinforcement learning, whose action-value function (Q function) is approximated with graph neural networks. We use stochastic policy update rule over the graph with deep Q-networks (DQN), and achieve superior results over the greedy policy update. We design a realistic simulator that emulates the empirical taxi call data, and confirm the effectiveness of the proposed model under various conditions.
翻訳日:2022-09-26 08:02:28 公開日:2021-08-06
# PSD2 Credit Scoringのための説明可能なAIモデル

PSD2 Explainable AI Model for Credit Scoring ( http://arxiv.org/abs/2011.10367v3 )

ライセンス: Link先を確認
Neus Llop Torrent (1 and 2), Giorgio Visani (2 and 3), Enrico Bagli (2) ((1) Politecnico di Milano Graduate School of Business, (2) CRIF S.p.A, (3) University of Bologna School of Informatics and Engineering)(参考訳) 本研究の目的は、信用リスクモデルの予測精度を向上させるための高度な分析手法の開発と試験であり、モデル解釈可能性と同時に保存することである。 特にこのプロジェクトは、銀行関連のデータベースに説明可能な機械学習モデルを適用することに焦点を当てている。 入力データはオープンデータから得られた。 実証されたモデル全体で、CatBoostは最高のパフォーマンスを示している。 アルゴリズムの実装は、ハイパーパラメータをチューニングした後、0.68のGINIを生成する。 SHAPパッケージは、モデル予測のグローバルかつ局所的な解釈を提供し、意思決定アルゴリズムを理解するための人間的なアプローチを定式化するために使用される。 最も重要な20の機能は、Shapley値を使用して選択され、モデルの予測に個人の属性がどのように関連しているかを明らかにする完全な人間理解可能なモデルが提示される。

The aim of this project is to develop and test advanced analytical methods to improve the prediction accuracy of Credit Risk Models, preserving at the same time the model interpretability. In particular, the project focuses on applying an explainable machine learning model to bank-related databases. The input data were obtained from open data. Over the total proven models, CatBoost has shown the highest performance. The algorithm implementation produces a GINI of 0.68 after tuning the hyper-parameters. SHAP package is used to provide a global and local interpretation of the model predictions to formulate a human-comprehensive approach to understanding the decision-maker algorithm. The 20 most important features are selected using the Shapley values to present a full human-understandable model that reveals how the attributes of an individual are related to its model prediction.
翻訳日:2022-09-23 05:13:48 公開日:2021-08-06
# PredaTOR: オーバーラップの少ない3Dポイントクラウドの登録

PREDATOR: Registration of 3D Point Clouds with Low Overlap ( http://arxiv.org/abs/2011.13005v3 )

ライセンス: Link先を確認
Shengyu Huang, Zan Gojcic, Mikhail Usvyatsov, Andreas Wieser, Konrad Schindler(参考訳) 我々は,重なり領域に深く注意を向けた,ペアワイズポイントクラウド登録モデルであるprefeerを紹介する。 これまでの作業とは違って,私たちのモデルは,オーバーラップの少ない(あるいは)ポイントクラウドペアを処理するように特別に設計されています。 その重要な特徴は、2点雲の潜在エンコーディング間での初期情報交換のための重複注意ブロックである。 このようにして、後続の潜在表現を各他方の点クラウド上で点ごとにデコードすることで、どの点が有望であるかを予測できるだけでなく、2つの点クラウド間の重なり領域にも位置する。 プレデターは、低オーバーラップシナリオにおいて、成功した登録率を20%以上増加させ、また89%の登録リコールを持つ3dmatchベンチマークの新たな最先端を設定する。

We introduce PREDATOR, a model for pairwise point-cloud registration with deep attention to the overlap region. Different from previous work, our model is specifically designed to handle (also) point-cloud pairs with low overlap. Its key novelty is an overlap-attention block for early information exchange between the latent encodings of the two point clouds. In this way the subsequent decoding of the latent representations into per-point features is conditioned on the respective other point cloud, and thus can predict which points are not only salient, but also lie in the overlap region between the two point clouds. The ability to focus on points that are relevant for matching greatly improves performance: PREDATOR raises the rate of successful registrations by more than 20% in the low-overlap scenario, and also sets a new state of the art for the 3DMatch benchmark with 89% registration recall.
翻訳日:2022-09-21 03:40:09 公開日:2021-08-06
# 曲線フレームにおける疎度を用いた光音響再構成:画像対データ領域

Photoacoustic Reconstruction Using Sparsity in Curvelet Frame: Image versus Data Domain ( http://arxiv.org/abs/2011.13080v2 )

ライセンス: Link先を確認
Bolin Pan, Simon R. Arridge, Felix Lucka, Ben T. Cox, Nam Huynh, Paul C. Beard, Edward Z. Zhang, Marta M. Betcke(参考訳) 曲線フレームは光音響トモグラフィー(PAT)において特に重要である。 画像空間とデータ空間における波面方向の1対1の写像を導出し、カーベレットフレームの間隔を仮定する際の圧縮・サブサンプリング測定から初期圧力の回復とPATデータとのほぼ同値性を示唆する。 後者の方が計算が容易であるため,本論文においてこの等価性がどの程度実施されているかは,極めて実用的である。 そこで,本研究では,サブサンプリングデータから光音響データの全容を回復し,音響インバージョンを行う2段階のアプローチと,サブサンプリングデータから光音響画像(初期圧力,p0)を直接復元する1段階のアプローチp0rとを比較した。 光音響データの効果的な表現には、光音響フォワードオペレータの範囲に基づいて定義された基礎が必要である。 この目的のために,このような基礎を構築することができる曲線レット変換の新たなくさび制限を提案する。 両方のリカバリ問題は変分フレームワークで定式化されている。 曲線フレームは非常に過度に決定されるので、解の空間性を高めるためにreweighted l1 norm penalties を用いる。 データ再構成問題DRは、ADMM型アルゴリズムであるSALSAを用いて、標準圧縮されたセンシングリカバリ問題である。 その後、k波ツールボックスに実装された時間反転を用いて初期圧力を回復する。 p0Rは、非負性制約を含む場合、FISTAまたはADMMを介して直接光音響像を復元することを目的としている。 両手法の相対的メリットを比較検討し, 公平かつ厳密な方法で2次元実データと3次元実データについて説明する。

Curvelet frame is of special significance for photoacoustic tomography (PAT) due to its sparsifying and microlocalisation properties. We derive a one-to-one map between wavefront directions in image and data spaces in PAT which suggests near equivalence between the recovery of the initial pressure and PAT data from compressed/subsampled measurements when assuming sparsity in Curvelet frame. As the latter is computationally more tractable, investigation to which extent this equivalence holds conducted in this paper is of immediate practical significance. To this end we formulate and compare DR, a two step approach based on the recovery of the complete volume of the photoacoustic data from the subsampled data followed by the acoustic inversion, and p0R, a one step approach where the photoacoustic image (the initial pressure, p0) is directly recovered from the subsampled data. Effective representation of the photoacoustic data requires basis defined on the range of the photoacoustic forward operator. To this end we propose a novel wedge-restriction of Curvelet transform which enables us to construct such basis. Both recovery problems are formulated in a variational framework. As the Curvelet frame is heavily overdetermined, we use reweighted l1 norm penalties to enhance the sparsity of the solution. The data reconstruction problem DR is a standard compressed sensing recovery problem, which we solve using an ADMMtype algorithm, SALSA. Subsequently, the initial pressure is recovered using time reversal as implemented in the k-Wave Toolbox. The p0 reconstruction problem, p0R, aims to recover the photoacoustic image directly via FISTA, or ADMM when in addition including a non-negativity constraint. We compare and discuss the relative merits of the two approaches and illustrate them on 2D simulated and 3D real data in a fair and rigorous manner.
翻訳日:2022-09-20 12:44:56 公開日:2021-08-06
# (参考訳) クラス不均衡パターン分類問題に対するSMOTified-GAN

SMOTified-GAN for class imbalanced pattern classification problems ( http://arxiv.org/abs/2108.03235v1 )

ライセンス: CC BY 4.0
Anuraganand Sharma, Prabhat Kumar Singh, Rohitash Chandra(参考訳) データセット内のクラス不均衡は、大多数のトレーニングデータセットに対して、高いtrue positive rate (tpr) でも低true negative rate (tnr) の予測が不十分な分類器の主要な問題である。 一般に、マイノリティクラス(es)のオーバーサンプリングの前処理技術は、この不足を克服するために用いられる。 我々の焦点は、クラス不均衡問題に対処するために、GAN(Generative Adversarial Network)とSMOTE(Synthetic Minority Over-Sampling Technique)のハイブリッド化を利用することである。 本稿では,SMOTEとGANの相乗効果を持つ2相オーバーサンプリング手法を提案する。 SMOTEが生成したマイノリティクラスの初期データは、より高品質なサンプルを生成するGANによってさらに強化される。 我々はSMOTified-GANと命名し、サンプル自体をランダムに生成するのではなく、SMOTEが生成したマイノリティデータを事前サンプリングした。 実験の結果,様々なベンチマークデータセットにおいて,マイノリティクラス(es)のサンプル品質が向上していることが証明された。 その性能は、f1-score測定でテストされた次の最良のアルゴリズムから最大9\%向上する。 その時間複雑性は、逐次アルゴリズムに対しておよそ$O(N^2d^2T)$である。

Class imbalance in a dataset is a major problem for classifiers that results in poor prediction with a high true positive rate (TPR) but a low true negative rate (TNR) for a majority positive training dataset. Generally, the pre-processing technique of oversampling of minority class(es) are used to overcome this deficiency. Our focus is on using the hybridization of Generative Adversarial Network (GAN) and Synthetic Minority Over-Sampling Technique (SMOTE) to address class imbalanced problems. We propose a novel two-phase oversampling approach that has the synergy of SMOTE and GAN. The initial data of minority class(es) generated by SMOTE is further enhanced by GAN that produces better quality samples. We named it SMOTified-GAN as GAN works on pre-sampled minority data produced by SMOTE rather than randomly generating the samples itself. The experimental results prove the sample quality of minority class(es) has been improved in a variety of tested benchmark datasets. Its performance is improved by up to 9\% from the next best algorithm tested on F1-score measurements. Its time complexity is also reasonable which is around $O(N^2d^2T)$ for a sequential algorithm.
翻訳日:2021-08-12 07:02:26 公開日:2021-08-06
# (参考訳) 第四次ハーディフィルタによるロバストレーン検出

A Robust Lane Detection Associated with Quaternion Hardy Filter ( http://arxiv.org/abs/2108.04356v1 )

ライセンス: CC0 1.0
Wenshan Bi, Dong Cheng, Kit Ian Kou(参考訳) 本稿では,四元数ハーディフィルタに基づくロバストなカラーエッジ特徴抽出法を提案する。 Quaternion Hardyフィルタは新たなエッジ検出理論である。 ポアソンと共役ポアソンは、様々な種類のノイズを処理するためにカーネルを平滑化する。 The Quaternion Hardy filter, Jin's color gradient operator and Hough transform, the color-edge feature detection algorithm is proposed and applied to the lane marking detection。 提案アルゴリズムの有効性を示す実験を行った。 結果は複雑な環境レーンマーキングに関して正確かつ堅牢である。

In this article, a robust color-edge feature extraction method based on the Quaternion Hardy filter is proposed. The Quaternion Hardy filter is an emerging edge detection theory. It is along with the Poisson and conjugate Poisson smoothing kernels to handle various types of noise. Combining with the Quaternion Hardy filter, Jin's color gradient operator and Hough transform, the color-edge feature detection algorithm is proposed and applied to the lane marking detection. Experiments are presented to demonstrate the validity of the proposed algorithm. The results are accurate and robust with respect to the complex environment lane markings.
翻訳日:2021-08-12 06:45:08 公開日:2021-08-06
# (参考訳) igibson 2.0: 日常生活タスクのロボット学習のためのオブジェクト中心シミュレーション

IGibson 2.0: Object-Centric Simulation for Robot Learning of Everyday Household Tasks ( http://arxiv.org/abs/2108.03272v1 )

ライセンス: CC BY 4.0
Chengshu Li, Fei Xia, Roberto Mart\'in-Mart\'in, Michael Lingelbach, Sanjana Srivastava, Bokui Shen, Kent Vainio, Cem Gokmen, Gokul Dharan, Tanish Jain, Andrey Kurenkov, Karen Liu, Hyowon Gweon, Jiajun Wu, Li Fei-Fei, Silvio Savarese(参考訳) 近年,ロボット学習手法の開発と訓練にシミュレーション環境を用いることで,AIの具体化に関する最近の研究が進められている。 しかし、シミュレーションの使用は、ロボットシミュレーターがシミュレートできるもの(モーションと物理的接触)だけを必要とするタスクに注意を向けている。 提案するiGibson 2.0は,3つの重要なイノベーションを通じて,より多様な家庭用タスクのシミュレーションを支援する,オープンソースのシミュレーション環境である。 まず、iGibson 2.0は、温度、湿性レベル、清潔度レベル、および幅広いタスクをカバーするために必要なトグルおよびスライス状態を含むオブジェクト状態をサポートする。 第2に、iGibson 2.0は述語論理関数のセットを実装し、シミュレータ状態をCookedやSoakedのような論理状態にマッピングする。 さらに、論理状態が与えられた場合、iGibson 2.0はそれを満たす有効な物理状態をサンプリングすることができる。 この機能は、ユーザから最小限の労力で、潜在的に無限のタスクインスタンスを生成することができる。 サンプリング機構により、シーンは意味的に意味のある場所にある小さなオブジェクトでより密集している。 第3に、iGibson 2.0にはバーチャルリアリティ(VR)インターフェースがあり、人間をシーンに浸してデモを収集する。 その結果,人間による新しいタスクのデモを収集し,模倣学習に利用することができる。 igibson 2.0の新たな能力を評価して,新しいタスクのロボット学習を可能にし,具体化aiにおける新たな研究を支援する新たなシミュレータの可能性を示すことを期待する。 iGibson 2.0とその新しいデータセットはhttp://svl.stanford.edu/igibson/で公開される。

Recent research in embodied AI has been boosted by the use of simulation environments to develop and train robot learning approaches. However, the use of simulation has skewed the attention to tasks that only require what robotics simulators can simulate: motion and physical contact. We present iGibson 2.0, an open-source simulation environment that supports the simulation of a more diverse set of household tasks through three key innovations. First, iGibson 2.0 supports object states, including temperature, wetness level, cleanliness level, and toggled and sliced states, necessary to cover a wider range of tasks. Second, iGibson 2.0 implements a set of predicate logic functions that map the simulator states to logic states like Cooked or Soaked. Additionally, given a logic state, iGibson 2.0 can sample valid physical states that satisfy it. This functionality can generate potentially infinite instances of tasks with minimal effort from the users. The sampling mechanism allows our scenes to be more densely populated with small objects in semantically meaningful locations. Third, iGibson 2.0 includes a virtual reality (VR) interface to immerse humans in its scenes to collect demonstrations. As a result, we can collect demonstrations from humans on these new types of tasks, and use them for imitation learning. We evaluate the new capabilities of iGibson 2.0 to enable robot learning of novel tasks, in the hope of demonstrating the potential of this new simulator to support new research in embodied AI. iGibson 2.0 and its new dataset will be publicly available at http://svl.stanford.edu/igibson/.
翻訳日:2021-08-12 05:28:43 公開日:2021-08-06
# (参考訳) インスタンスセグメンテーションに向けたセマンティックセグメンテーションと物体検出:乳癌の同定

Semantic Segmentation and Object Detection Towards Instance Segmentation: Breast Tumor Identification ( http://arxiv.org/abs/2108.03287v1 )

ライセンス: CC BY 4.0
Mohamed Mejri and Aymen Mejri and Oumayma Mejri and Chiraz Fekih(参考訳) 乳癌は女性の死亡率を上昇させる要因の1つである。 この地質学的疾患の診断に最も広く用いられる方法、すなわち 乳がんは超音波スキャンです。 超音波検査で捉えた腫瘍の滑らかさや質感などの重要な特徴は、乳腺腫瘍(良性腫瘍)の異常をコードしている。 しかし、超音波検査はしばしばノイズが多く、乳房の無関係な部分が含まれ、最終的には腫瘍の分節に偏っている可能性がある。 本稿では,腫瘍の領域(すなわち,腫瘍の境界ボックス)を抽出し,その分類(悪性または良性)に基づいて1つのセグメンテーションエンコーダ・デコーダ構造にフィードフォワードする。 プロセス全体は、セグメンテーションセグメンタとオブジェクト検出器からインスタンスベースのセグメンタを構築することを目的としている。

Breast cancer is one of the factors that cause the increase of mortality of women. The most widely used method for diagnosing this geological disease i.e. breast cancer is the ultrasound scan. Several key features such as the smoothness and the texture of the tumor captured through ultrasound scans encode the abnormality of the breast tumors (malignant from benign). However, ultrasound scans are often noisy and include irrelevant parts of the breast that may bias the segmentation of eventual tumors. In this paper, we are going to extract the region of interest ( i.e, bounding boxes of the tumors) and feed-forward them to one semantic segmentation encoder-decoder structure based on its classification (i.e, malignant or benign). the whole process aims to build an instance-based segmenter from a semantic segmenter and an object detector.
翻訳日:2021-08-12 05:03:51 公開日:2021-08-06
# (参考訳) 協調型ap探索とスケジューリング:コンテキストバンディットによるアプローチ

Joint AP Probing and Scheduling: A Contextual Bandit Approach ( http://arxiv.org/abs/2108.03297v1 )

ライセンス: CC BY 4.0
Tianyi Xu, Ding Zhang, Parth H. Pathak, Zizhan Zheng(参考訳) 我々は、モバイルクライアントと協調して機能する未知のデータレートを持つAPについて検討する。 各リンクのデータレートは i.i.d. である。 事前性が不明な分布からサンプリングする。 不確実性のある従来のリンクスケジューリング問題とは対照的に、各タイムステップにおいて、どのリンクを使用するかを決定する前にリンクのサブセットを探索できると仮定する。 本稿では,この問題を探索問題(CBwP)としてモデル化し,効率的なアルゴリズムを提案する。 我々はBernoulliデータレートとリンクするアルゴリズムの後悔をさらに証明する。 我々のCBwPモデルは、古典的な文脈的バンディットモデルの新たな拡張であり、共同探索と不確実性の下でのプレーを含む、シーケンシャルな意思決定問題に応用できる可能性がある。

We consider a set of APs with unknown data rates that cooperatively serve a mobile client. The data rate of each link is i.i.d. sampled from a distribution that is unknown a priori. In contrast to traditional link scheduling problems under uncertainty, we assume that in each time step, the device can probe a subset of links before deciding which one to use. We model this problem as a contextual bandit problem with probing (CBwP) and present an efficient algorithm. We further establish the regret of our algorithm for links with Bernoulli data rates. Our CBwP model is a novel extension of the classic contextual bandit model and can potentially be applied to a large class of sequential decision-making problems that involve joint probing and play under uncertainty.
翻訳日:2021-08-12 04:54:18 公開日:2021-08-06
# (参考訳) 不完全3次元境界ボックスを用いた医用画像分割

Medical image segmentation with imperfect 3D bounding boxes ( http://arxiv.org/abs/2108.03300v1 )

ライセンス: CC BY 4.0
Ekaterina Redekop, Alexey Chernyavskiy(参考訳) 高品質な医用画像分割アルゴリズムの開発は、ピクセルレベルのラベルを持つ大規模データセットの可用性に依存する。 このようなデータセットを集めること、特に3Dボリュームの場合の課題は、入手しやすい他のタイプのラベルから学習できるアプローチを開発することにある。 バウンディングボックス。 我々は,3次元の医療画像に対応する3次元境界ボックスを,スライス当たりの2次元境界ボックスのシリーズと見なす。 2dバウンディングボックスを弱いラベルとして使用する現在の弱い教師付きアプローチは医用画像セグメンテーションに適用できるが、バウンディングボックスのタイト性に関する仮定が破られる場合、その成功は限定的である。 本稿では,ピクセルレベルアノテーションの小さなセットで学習し,より大きなバウンディングボックスアノテーションのタイト性を改善する新しいバウンディングボックス補正フレームワークを提案する。 本手法の有効性は,提案する境界ボックス補正アルゴリズムを使わずに既知の弱教師付きセグメンテーション手法を評価することで実証された。 解法により密着性が向上すると, 弱教師付きセグメント化の結果は, 完全教師付きセグメントよりもはるかに近いものとなる。

The development of high quality medical image segmentation algorithms depends on the availability of large datasets with pixel-level labels. The challenges of collecting such datasets, especially in case of 3D volumes, motivate to develop approaches that can learn from other types of labels that are cheap to obtain, e.g. bounding boxes. We focus on 3D medical images with their corresponding 3D bounding boxes which are considered as series of per-slice non-tight 2D bounding boxes. While current weakly-supervised approaches that use 2D bounding boxes as weak labels can be applied to medical image segmentation, we show that their success is limited in cases when the assumption about the tightness of the bounding boxes breaks. We propose a new bounding box correction framework which is trained on a small set of pixel-level annotations to improve the tightness of a larger set of non-tight bounding box annotations. The effectiveness of our solution is demonstrated by evaluating a known weakly-supervised segmentation approach with and without the proposed bounding box correction algorithm. When the tightness is improved by our solution, the results of the weakly-supervised segmentation become much closer to those of the fully-supervised one.
翻訳日:2021-08-12 04:34:49 公開日:2021-08-06
# (参考訳) 深層学習と伝達学習による攻撃言語とヘイトスピーチ検出

Offensive Language and Hate Speech Detection with Deep Learning and Transfer Learning ( http://arxiv.org/abs/2108.03305v1 )

ライセンス: CC BY 4.0
Bencheng Wei, Jason Li, Ajay Gupta, Hafiza Umair, Atsu Vovor, Natalie Durzynski(参考訳) 近年,様々な文化や教育的背景を持つ人々によるインターネット利用の急増により,有害なオンラインスピーチが重要な問題となっている。 テキストメッセージがヘイトスピーチや攻撃的言語に属するかどうかを区別することは、有害なテキストコンテンツの自動検出において重要な課題である。 本稿では,ツイートを自動的に3つのクラスに分類する手法を提案する。 公開ツイートデータセットを使用して、まず空の埋め込みからBI-LSTMモデルを構築する実験を行い、トレーニング済みのGlove埋め込みと同じニューラルネットワークアーキテクチャを試しました。 次に,既存の事前学習型言語モデルBERT (Bidirectional Encoder Representations from Transformers), DistilBert (Distilled Version of BERT), GPT-2 (Generative Pre-Training) を用いたヘイトスピーチ検出のための伝達学習手法を提案する。 我々は,ニューラルネットワークアーキテクチャ,学習速度,正規化手法などを考慮した,最良のモデル(BI-LSTM)のハイパーパラメータチューニング分析を行う。 モデルのチューニングとパラメータの最適な組み合わせによって、テストデータで評価することで、92%以上の精度を達成しました。 また、テキスト分類、感情チェック、テキストデータ拡張を含む主要な機能を含むクラスモジュールも作成します。 このモデルは、ユーザーとTwitterの間の中間モジュールとして機能する。

Toxic online speech has become a crucial problem nowadays due to an exponential increase in the use of internet by people from different cultures and educational backgrounds. Differentiating if a text message belongs to hate speech and offensive language is a key challenge in automatic detection of toxic text content. In this paper, we propose an approach to automatically classify tweets into three classes: Hate, offensive and Neither. Using public tweet data set, we first perform experiments to build BI-LSTM models from empty embedding and then we also try the same neural network architecture with pre-trained Glove embedding. Next, we introduce a transfer learning approach for hate speech detection using an existing pre-trained language model BERT (Bidirectional Encoder Representations from Transformers), DistilBert (Distilled version of BERT) and GPT-2 (Generative Pre-Training). We perform hyper parameters tuning analysis of our best model (BI-LSTM) considering different neural network architectures, learn-ratings and normalization methods etc. After tuning the model and with the best combination of parameters, we achieve over 92 percent accuracy upon evaluating it on test data. We also create a class module which contains main functionality including text classification, sentiment checking and text data augmentation. This model could serve as an intermediate module between user and Twitter.
翻訳日:2021-08-12 04:27:17 公開日:2021-08-06
# (参考訳) BEHAVIOR:バーチャル・インタラクティブ・エコロジー環境における日々の家庭活動のベンチマーク

BEHAVIOR: Benchmark for Everyday Household Activities in Virtual, Interactive, and Ecological Environments ( http://arxiv.org/abs/2108.03332v1 )

ライセンス: CC BY 4.0
Sanjana Srivastava, Chengshu Li, Michael Lingelbach, Roberto Mart\'in-Mart\'in, Fei Xia, Kent Vainio, Zheng Lian, Cem Gokmen, Shyamal Buch, C. Karen Liu, Silvio Savarese, Hyowon Gweon, Jiajun Wu, Li Fei-Fei(参考訳) 本研究は,身体化されたaiのシミュレーションを対象とし,クリーニングやメンテナンス,食品準備など,日常生活の雑用を対象とする行動分析手法を提案する。 これらの活動は現実的で多様で複雑であり、エージェントが現実世界で直面する課題を再現することを目的としている。 このようなベンチマークの構築は、定義(時間、場所、人によって異なる)、シミュレータでのインスタンス化、評価の3つの基本的な問題を引き起こす。 BEHAVIORはこれらに3つのイノベーションで対処する。 まず,アクティビティの初期および目標条件を表現し,任意のアクティビティに対して多様なインスタンスを生成するための,オブジェクト中心の述語論理に基づく記述言語を提案する。 第2に、BEHAVIORをサポートする環境において必要となるシミュレータ非依存の特徴を特定し、その実現を1つのシミュレータで示す。 第3に、タスクの進捗と効率、絶対的かつ人間デモに対する相対的な測定値のセットを導入する。 われわれは、バーチャルリアリティー(VR)における500件の人間デモを含む。 我々の実験は、最先端のAIソリューションでさえ、我々のベンチマークのアクティビティによって課される現実主義、多様性、複雑さのレベルに苦しむことを示した。 我々はBEHAVIORを Behavior.stanford.edu で公開し、新しい組込みAIソリューションの開発を容易にし、校正する。

We introduce BEHAVIOR, a benchmark for embodied AI with 100 activities in simulation, spanning a range of everyday household chores such as cleaning, maintenance, and food preparation. These activities are designed to be realistic, diverse, and complex, aiming to reproduce the challenges that agents must face in the real world. Building such a benchmark poses three fundamental difficulties for each activity: definition (it can differ by time, place, or person), instantiation in a simulator, and evaluation. BEHAVIOR addresses these with three innovations. First, we propose an object-centric, predicate logic-based description language for expressing an activity's initial and goal conditions, enabling generation of diverse instances for any activity. Second, we identify the simulator-agnostic features required by an underlying environment to support BEHAVIOR, and demonstrate its realization in one such simulator. Third, we introduce a set of metrics to measure task progress and efficiency, absolute and relative to human demonstrators. We include 500 human demonstrations in virtual reality (VR) to serve as the human ground truth. Our experiments demonstrate that even state of the art embodied AI solutions struggle with the level of realism, diversity, and complexity imposed by the activities in our benchmark. We make BEHAVIOR publicly available at behavior.stanford.edu to facilitate and calibrate the development of new embodied AI solutions.
翻訳日:2021-08-12 04:25:47 公開日:2021-08-06
# (参考訳) 交叉型固有値を用いたグラフ次元の推定

Estimating Graph Dimension with Cross-validated Eigenvalues ( http://arxiv.org/abs/2108.03336v1 )

ライセンス: CC BY 4.0
Fan Chen, Sebastien Roch, Karl Rohe, Shuqi Yu(参考訳) 応用多変量統計学において、潜在次元数やクラスタ数の推定は基本的かつ反復的な問題である。 一般的な診断は、データマトリックスの最大の固有値を示すscreeプロットであり、ユーザは、減少する固有値の"ギャップ"や"肘"を検索するが、残念ながら、これらのパターンはサンプル固有値のバイアスの下に隠れる可能性がある。 なぜなら、多くの状況では、$k$の集団次元/固有ベクトルのサブセットを検出するのに十分な信号しか存在しないからである。 この状況では、$k$ の正しい選択は検出可能な次元の数であると主張することができる。 我々はこれらの問題をクロスバリデード固有値で緩和する。 パラメトリックな仮定なしに、ランダムグラフモデルの大きなクラスの下で、各サンプル固有ベクトルに対してp値を提供する。 これは、このサンプル固有ベクトルが真の潜在次元に直交する(すなわち非相関)という零仮説をテストする。 このアプローチは、ある次元が統計的に検出できない問題に自然に適応する。 すべての$k$次元を推定できるシナリオでは、我々の手順が一貫して$k$を推定することを証明する。 シミュレーションとデータ例において、提案する推定器は、計算と統計のパフォーマンスの両方において、代替手法と好適に比較される。

In applied multivariate statistics, estimating the number of latent dimensions or the number of clusters is a fundamental and recurring problem. One common diagnostic is the scree plot, which shows the largest eigenvalues of the data matrix; the user searches for a "gap" or "elbow" in the decreasing eigenvalues; unfortunately, these patterns can hide beneath the bias of the sample eigenvalues. This methodological problem is conceptually difficult because, in many situations, there is only enough signal to detect a subset of the $k$ population dimensions/eigenvectors. In this situation, one could argue that the correct choice of $k$ is the number of detectable dimensions. We alleviate these problems with cross-validated eigenvalues. Under a large class of random graph models, without any parametric assumptions, we provide a p-value for each sample eigenvector. It tests the null hypothesis that this sample eigenvector is orthogonal to (i.e., uncorrelated with) the true latent dimensions. This approach naturally adapts to problems where some dimensions are not statistically detectable. In scenarios where all $k$ dimensions can be estimated, we prove that our procedure consistently estimates $k$. In simulations and a data example, the proposed estimator compares favorably to alternative approaches in both computational and statistical performance.
翻訳日:2021-08-12 04:23:17 公開日:2021-08-06
# 1次元時系列振動データを用いた深部ニューラルネットワークのアンサンブル強化

Ensemble Augmentation for Deep Neural Networks Using 1-D Time Series Vibration Data ( http://arxiv.org/abs/2108.03288v1 )

ライセンス: Link先を確認
Atik Faysal, Ngui Wai Keng, M. H. Lim(参考訳) 時系列データは、データ駆動技術で使用される生データ表現の基本的なタイプの1つである。 機械状態監視では、時系列振動データはディープニューラルネットワークのデータマイニングで過剰に使用される。 一般に、振動データはディープニューラルネットワーク(dnn)を使用して画像に変換され、スカルグラムは画像表現の最も効果的な形態である。 しかし、dnn分類器は最適な性能に達するために膨大なラベル付きトレーニングサンプルを必要とする。 したがって、トレーニングサンプルの欠如を補うために、分類器に多くの種類のデータ拡張技術が適用される。 しかしながら、スカルグラムはグラフィカルな意味を変えるか、物理的な意味を変えるサンプルにノイズが多すぎるため、既存の拡張技法が苦しむグラフィカルな表現である。 本研究では,この制限を克服するために,アンサンブル拡張というデータ拡張手法を提案する。 この拡張法は、原サンプルのアンサンブルに付加された白色雑音のパワーを用いて実状サンプルを生成する。 信号をアンサンブルで平均化すると、元の信号の特徴を含む新しい信号が得られる。 アンサンブル拡張のためのパラメータは、シミュレーション信号を用いて検証される。 提案手法は,inception-v3,mobilenet-v2,resnet50の3モデルを用いた10種類の振動データを用いて評価した。 増量サンプルは、トレーニングサンプルと同数の偽サンプルを生成する第1インクリメントと、第2インクリメントでは、徐々に増量される2つのインクリメントで生成される。 提案手法から得られる出力は, 増大しない, 深部畳み込み生成逆数ネットワーク(DCGAN)による増大, 幾何的変換に基づく増大などと比較される。

Time-series data are one of the fundamental types of raw data representation used in data-driven techniques. In machine condition monitoring, time-series vibration data are overly used in data mining for deep neural networks. Typically, vibration data is converted into images for classification using Deep Neural Networks (DNNs), and scalograms are the most effective form of image representation. However, the DNN classifiers require huge labeled training samples to reach their optimum performance. So, many forms of data augmentation techniques are applied to the classifiers to compensate for the lack of training samples. However, the scalograms are graphical representations where the existing augmentation techniques suffer because they either change the graphical meaning or have too much noise in the samples that change the physical meaning. In this study, a data augmentation technique named ensemble augmentation is proposed to overcome this limitation. This augmentation method uses the power of white noise added in ensembles to the original samples to generate real-like samples. After averaging the signal with ensembles, a new signal is obtained that contains the characteristics of the original signal. The parameters for the ensemble augmentation are validated using a simulated signal. The proposed method is evaluated using 10 class bearing vibration data using three state-of-the-art Transfer Learning (TL) models, namely, Inception-V3, MobileNet-V2, and ResNet50. Augmented samples are generated in two increments: the first increment generates the same number of fake samples as the training samples, and in the second increment, the number of samples is increased gradually. The outputs from the proposed method are compared with no augmentation, augmentations using deep convolution generative adversarial network (DCGAN), and several geometric transformation-based augmentations...
翻訳日:2021-08-10 15:48:42 公開日:2021-08-06
# ロボットマニピュレーションのためのオフライン人間デモから学ぶこと

What Matters in Learning from Offline Human Demonstrations for Robot Manipulation ( http://arxiv.org/abs/2108.03298v1 )

ライセンス: Link先を確認
Ajay Mandlekar, Danfei Xu, Josiah Wong, Soroush Nasiriany, Chen Wang, Rohun Kulkarni, Li Fei-Fei, Silvio Savarese, Yuke Zhu, Roberto Mart\'in-Mart\'in(参考訳) 人間のデモを模倣することは、様々な操作能力を備えたロボットを支援できる有望なアプローチである。 模倣学習やバッチ(オフライン)強化学習における最近の進歩は、オープンソースの人間データセットや再現可能な学習方法の欠如によって、この分野の状態の評価が困難になっている。 本稿では,ロボット操作のための6つのオフライン学習アルゴリズムについて,複雑さの異なる5つの実世界のマルチステージ操作タスクと,品質の異なるデータセットについて,詳細な研究を行う。 本研究は、オフラインの人的データから学習する際の最も重要な課題を分析した。 本研究は,異なるアルゴリズム設計選択に対する感受性,実演の質への依存性,学習と評価の異なる目的による停止基準に基づく変動性などの一連の教訓を導出した。 また、現在の強化学習手法の範囲を超えて、挑戦的かつ多段階的なタスクに関する熟練したポリシーを学ぶ能力や、生の知覚信号しか利用できない自然な実世界の操作シナリオに容易にスケールできる能力など、人間のデータセットから学ぶ機会も強調する。 当社はデータセットとすべてのアルゴリズム実装をオープンソース化し、将来の研究と人間のデモンストレーションデータからの学習における公平な比較を促進しました。 コードベース、データセット、トレーニングされたモデルなど、https://arise-initiative.github.io/robomimic-web/

Imitating human demonstrations is a promising approach to endow robots with various manipulation capabilities. While recent advances have been made in imitation learning and batch (offline) reinforcement learning, a lack of open-source human datasets and reproducible learning methods make assessing the state of the field difficult. In this paper, we conduct an extensive study of six offline learning algorithms for robot manipulation on five simulated and three real-world multi-stage manipulation tasks of varying complexity, and with datasets of varying quality. Our study analyzes the most critical challenges when learning from offline human data for manipulation. Based on the study, we derive a series of lessons including the sensitivity to different algorithmic design choices, the dependence on the quality of the demonstrations, and the variability based on the stopping criteria due to the different objectives in training and evaluation. We also highlight opportunities for learning from human datasets, such as the ability to learn proficient policies on challenging, multi-stage tasks beyond the scope of current reinforcement learning methods, and the ability to easily scale to natural, real-world manipulation scenarios where only raw sensory signals are available. We have open-sourced our datasets and all algorithm implementations to facilitate future research and fair comparisons in learning from human demonstration data. Codebase, datasets, trained models, and more available at https://arise-initiative.github.io/robomimic-web/
翻訳日:2021-08-10 15:43:19 公開日:2021-08-06
# Facebook AI WMT21ニュース翻訳タスクの提出

Facebook AI WMT21 News Translation Task Submission ( http://arxiv.org/abs/2108.03265v1 )

ライセンス: Link先を確認
Chau Tran, Shruti Bhosale, James Cross, Philipp Koehn, Sergey Edunov, Angela Fan(参考訳) ニュース翻訳におけるWMT2021共有課題に対するFacebookの多言語モデル提出について述べる。 我々は、チェコ語、ドイツ語、ハウサ語、アイスランド語、日本語、ロシア語、中国語の14の言語方向に参加している。 これらすべての方向をカバーするシステムを開発するために,多言語モデルに焦点をあてる。 wmt、大規模データマイニング、ドメイン内バックトランスレーションといった、利用可能なすべてのソースからのデータを使用して、高品質なバイリンガルおよび多言語ベースラインを作成します。 次に,8言語すべてで高品質な表現に十分な能力を持つような多言語モデルサイズをスケールするための戦略を検討する。 最終提出は密集した多言語翻訳モデルの集合であり、その後、ドメイン内のニュースデータとノイズチャネルの再分類を行った。 前年度の受賞者と比較して,多言語システムは全言語方向の翻訳品質が向上し,平均2.0 bleuが向上した。 WMT2021タスクでは,自動評価に基づいて10方向にランク付けする。

We describe Facebook's multilingual model submission to the WMT2021 shared task on news translation. We participate in 14 language directions: English to and from Czech, German, Hausa, Icelandic, Japanese, Russian, and Chinese. To develop systems covering all these directions, we focus on multilingual models. We utilize data from all available sources --- WMT, large-scale data mining, and in-domain backtranslation --- to create high quality bilingual and multilingual baselines. Subsequently, we investigate strategies for scaling multilingual model size, such that one system has sufficient capacity for high quality representations of all eight languages. Our final submission is an ensemble of dense and sparse Mixture-of-Expert multilingual translation models, followed by finetuning on in-domain news data and noisy channel reranking. Compared to previous year's winning submissions, our multilingual system improved the translation quality on all language directions, with an average improvement of 2.0 BLEU. In the WMT2021 task, our system ranks first in 10 directions based on automatic evaluation.
翻訳日:2021-08-10 15:38:56 公開日:2021-08-06
# ゼロショット言語モデリングに向けて

Towards Zero-shot Language Modeling ( http://arxiv.org/abs/2108.03334v1 )

ライセンス: Link先を確認
Edoardo Maria Ponti, Ivan Vuli\'c, Ryan Cotterell, Roi Reichart, and Anna Korhonen(参考訳) 人間の言語を学ぶために帰納的にバイアスがかかるニューラルモデルを構築することができるか? この課題に動機づけられた我々は,文字レベル言語モデリングのタスクにおいて,保留言語に迅速に適応するために,神経重みよりも情報的優先を構築することを目的としている。 この分布をラプラス近似を用いてタイポロジー的に多様な訓練言語のサンプルから推測する。 このような先行モデルの使用は、ゼロショット設定と少数ショット設定の両方において、非インフォーマルな事前(いわゆる「微調整」)を持つベースラインモデルよりも優れている。 これは、前者は普遍的な音韻学の知識に埋もれていることを示している。 さらに,保留言語の遠隔監視として,追加的な言語固有のサイド情報を活用する。 具体的には,タイポロジーデータベースの特徴に言語モデルを適用し,それを隠れ状態に結合するか,ハイパーネットで重みを生成する。 これらの機能は、数ショット設定では有益に見えるが、ゼロショット設定では役に立たない。 デジタルテキストの汎性は世界の言語の大部分に影響を与えるため、これらの発見が言語技術の応用範囲を広げる助けになることを期待している。

Can we construct a neural model that is inductively biased towards learning human languages? Motivated by this question, we aim at constructing an informative prior over neural weights, in order to adapt quickly to held-out languages in the task of character-level language modeling. We infer this distribution from a sample of typologically diverse training languages via Laplace approximation. The use of such a prior outperforms baseline models with an uninformative prior (so-called "fine-tuning") in both zero-shot and few-shot settings. This shows that the prior is imbued with universal phonological knowledge. Moreover, we harness additional language-specific side information as distant supervision for held-out languages. Specifically, we condition language models on features from typological databases, by concatenating them to hidden states or generating weights with hyper-networks. These features appear beneficial in the few-shot setting, but not in the zero-shot setting. Since the paucity of digital texts affects the majority of the world's languages, we hope that these findings will help broaden the scope of applications for language technology.
翻訳日:2021-08-10 15:38:40 公開日:2021-08-06
# コード解析に対するスマートで防御的なヒューマンマシンアプローチ

A Smart and Defensive Human-Machine Approach to Code Analysis ( http://arxiv.org/abs/2108.03294v1 )

ライセンス: Link先を確認
Fitzroy D. Nembhard, Marco M. Carvalho(参考訳) 静的解析は、貧弱または脆弱なプログラムコードを検出して修正する最も一般的なアプローチの1つである。 これは、エラー、開発標準違反、その他の問題を特定するためのコードリスト、テスト結果、または他のドキュメントの検査を含み、システムとソフトウェアが可能な限り安全になるようにこれらのエラーを修正する究極のゴールである。 静的解析ツールが多数存在するため、企業やプログラマがプログラムコードを分析するツールを選択するのが難しくなっている。 セキュリティリスクを軽減するために、サイバーディフェンダーがコード解析を活用できるように、コード解析を改善する方法を見つけることが不可欠である。 本研究では,仮想アシスタントを用いてプログラマと協力し,安全上重要なシステムをデータ漏洩やその他の攻撃から保護するために,ソフトウェアが可能な限り安全であることを保証する手法を提案する。 pro-posdメソッドは、さまざまなメトリクスを使用して、プログラマがプロジェクトに最も適切なコード解析ツールを選択し、分析プロセスを通じてそれらをガイドするレコメンダシステムを採用している。 このシステムは、推奨プラクティスの採用に関するユーザの行動をさらに追跡する。

Static analysis remains one of the most popular approaches for detecting and correcting poor or vulnerable program code. It involves the examination of code listings, test results, or other documentation to identify errors, violations of development standards, or other problems, with the ultimate goal of fixing these errors so that systems and software are as secure as possible. There exists a plethora of static analysis tools, which makes it challenging for businesses and programmers to select a tool to analyze their program code. It is imperative to find ways to improve code analysis so that it can be employed by cyber defenders to mitigate security risks. In this research, we propose a method that employs the use of virtual assistants to work with programmers to ensure that software are as safe as possible in order to protect safety-critical systems from data breaches and other attacks. The pro- posed method employs a recommender system that uses various metrics to help programmers select the most appropriate code analysis tool for their project and guides them through the analysis process. The system further tracks the user's behavior regarding the adoption of the recommended practices.
翻訳日:2021-08-10 15:37:40 公開日:2021-08-06
# semantic tracklets:ビジュアルマルチエージェント強化学習のためのオブジェクト中心表現

Semantic Tracklets: An Object-Centric Representation for Visual Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2108.03319v1 )

ライセンス: Link先を確認
Iou-Jen Liu, Zhongzheng Ren, Raymond A. Yeh, Alexander G. Schwing(参考訳) 複雑な現実のタスク、例えば自律的な艦隊制御の解決には、強化学習を通じて視覚的な入力から戦略を学ぶ複数のエージェントからなる協調チームが必要となる。 しかし、既存のマルチエージェント強化学習(MARL)アルゴリズムの多くは、エージェントが視覚入力を操作する環境にスケールしない。 この問題に対処するため、アルゴリズムによって、最近の研究は非定常性と探索に焦点を当てている。 対照的に,不整合表現によるスケーラビリティの実現についても検討する。 この目的のために、我々は、対象中心の中間表現を明示的に構築し、環境の状態を特徴付け、それを「意味トラックレット」と呼ぶ。 本研究では,視覚マルチエージェント粒子環境 (vmpe) および挑戦的な視覚マルチエージェントgfootball環境において,'semantic tracklets'を評価する。 セマンティックトラックレット」はVMPEのベースラインを一貫して上回り、GFootballのベースラインよりも+2.4高いスコア差が得られる。 特に,この手法は視覚データのみを用いて,GFootball環境における5人のプレイヤーの戦略を学習した最初の方法である。

Solving complex real-world tasks, e.g., autonomous fleet control, often involves a coordinated team of multiple agents which learn strategies from visual inputs via reinforcement learning. Many existing multi-agent reinforcement learning (MARL) algorithms however don't scale to environments where agents operate on visual inputs. To address this issue, algorithmically, recent works have focused on non-stationarity and exploration. In contrast, we study whether scalability can also be achieved via a disentangled representation. For this, we explicitly construct an object-centric intermediate representation to characterize the states of an environment, which we refer to as `semantic tracklets.' We evaluate `semantic tracklets' on the visual multi-agent particle environment (VMPE) and on the challenging visual multi-agent GFootball environment. `Semantic tracklets' consistently outperform baselines on VMPE, and achieve a +2.4 higher score difference than baselines on GFootball. Notably, this method is the first to successfully learn a strategy for five players in the GFootball environment using only visual data.
翻訳日:2021-08-10 15:37:25 公開日:2021-08-06
# 話す権利:オーディオ・ビジュアル・トランスフォーマーのアプローチ

The Right to Talk: An Audio-Visual Transformer Approach ( http://arxiv.org/abs/2108.03256v1 )

ライセンス: Link先を確認
Thanh-Dat Truong, Chi Nhan Duong, The De Vu, Hoang Anh Pham, Bhiksha Raj, Ngan Le, Khoa Luu(参考訳) ターンテイクは会話の規制の構造化において重要な役割を担ってきた。 主話者(適切に話し方を取っている)と割り込み者(主話者の発声を中断または反応している)を識別する作業は依然として難しい課題である。 以前の手法では部分的にこの問題に対処したものの、まだいくつかの制限が残っている。 第一に、音声と視覚の特徴の直接の関連は、異なるモダリティのために抽出される相関を制限する可能性がある。 第二に、時間セグメント間の関係は、局所化、分離、会話コンテキストの一貫性を維持するのに有効ではない。 最後に、通常追跡を含む話者間の相互作用と、新しい話者への移行に関する予測的決定は通常無視される。 そこで本研究では,マルチスピーカー対話ビデオの音声・映像チャネルにおける主話者の局所化と強調化の問題に対して,新たな音声・視覚トランスフォーマーを導入する。 提案手法は,視覚信号と音声信号の両方で表される様々な種類の相関関係を利用する。 トランスフォーマ構造における自己保持機構を用いて,空間空間間の時間的音声・視覚的関係を予測し,最適化する。 さらに、主話者検出のために新たに収集したデータセットも導入する。 我々の知る限りでは、マルチスピーカー会話ビデオにおいて、視覚と音声の両方で主話者を自動的にローカライズし、ハイライトすることができる最初の研究の1つである。

Turn-taking has played an essential role in structuring the regulation of a conversation. The task of identifying the main speaker (who is properly taking his/her turn of speaking) and the interrupters (who are interrupting or reacting to the main speaker's utterances) remains a challenging task. Although some prior methods have partially addressed this task, there still remain some limitations. Firstly, a direct association of Audio and Visual features may limit the correlations to be extracted due to different modalities. Secondly, the relationship across temporal segments helping to maintain the consistency of localization, separation, and conversation contexts is not effectively exploited. Finally, the interactions between speakers that usually contain the tracking and anticipatory decisions about the transition to a new speaker are usually ignored. Therefore, this work introduces a new Audio-Visual Transformer approach to the problem of localization and highlighting the main speaker in both audio and visual channels of a multi-speaker conversation video in the wild. The proposed method exploits different types of correlations presented in both visual and audio signals. The temporal audio-visual relationships across spatial-temporal space are anticipated and optimized via the self-attention mechanism in a Transformerstructure. Moreover, a newly collected dataset is introduced for the main speaker detection. To the best of our knowledge, it is one of the first studies that is able to automatically localize and highlight the main speaker in both visual and audio channels in multi-speaker conversation videos.
翻訳日:2021-08-10 15:33:58 公開日:2021-08-06
# (単に)リファインメントのスポンジが登録エラーの解消に役立ちます

(Just) A Spoonful of Refinements Helps the Registration Error Go Down ( http://arxiv.org/abs/2108.03257v1 )

ライセンス: Link先を確認
S\'ergio Agostinho, Aljo\v{s}a O\v{s}ep, Alessio Del Bue, Laura Leal-Taix\'e(参考訳) データ駆動型3dポイントクラウド登録に取り組む。 与えられた点対応により、標準カブシュアルゴリズムは最適な回転推定を提供する。 これにより、SVD操作を区別することで、エンドツーエンドで登録モデルをトレーニングすることができる。 しかし, カブシュが提供した初期回転推定値から, モデル学習時の点対応学習を, 元の最適化問題を拡張して改善できることを示す。 特に、回転行列の制御制約を線形化し、結果として得られる方程式の線形系を解く。 次に、初期推定値を更新して、反復的に新しい解を生成する。 実験により,既存の学習ベース登録手法に微分可能な層を接続することにより,対応マッチング品質が向上することを示す。 これにより、対応ベースのデータ駆動登録方式では、回転誤差が7%減少する。

We tackle data-driven 3D point cloud registration. Given point correspondences, the standard Kabsch algorithm provides an optimal rotation estimate. This allows to train registration models in an end-to-end manner by differentiating the SVD operation. However, given the initial rotation estimate supplied by Kabsch, we show we can improve point correspondence learning during model training by extending the original optimization problem. In particular, we linearize the governing constraints of the rotation matrix and solve the resulting linear system of equations. We then iteratively produce new solutions by updating the initial estimate. Our experiments show that, by plugging our differentiable layer to existing learning-based registration methods, we improve the correspondence matching quality. This yields up to a 7% decrease in rotation error for correspondence-based data-driven registration methods.
翻訳日:2021-08-10 15:33:36 公開日:2021-08-06
# bimal: bijective maximum likelihood approach to domain adaptation in semantic scene segmentation

BiMaL: Bijective Maximum Likelihood Approach to Domain Adaptation in Semantic Scene Segmentation ( http://arxiv.org/abs/2108.03267v1 )

ライセンス: Link先を確認
Thanh-Dat Truong, Chi Nhan Duong, Ngan Le, Son Lam Phung, Chase Rainwater, Khoa Luu(参考訳) セマンティックセグメンテーションはピクセルレベルのラベルを予測することを目的としている。 様々なコンピュータビジョンアプリケーションで一般的なタスクとなっている。 完全教師付きセグメンテーション手法は大規模ビジョンデータセットでは高い精度を実現しているが、新しいテスト環境や新しいドメインをうまく一般化することはできない。 本研究では、まず、教師なしの方法で新しい対象領域における学習モデルの効率を測定するために、新しいUn-aligned Domain Scoreを導入する。 次に, 画素独立性を仮定することなく, 対数エントロピー最小化の一般化形式であるBiMaL(Bijective Maximum Likelihood)の損失を新たに提示する。 提案したBiMaLを2つの領域で評価した。 提案したBiMaLアプローチは、"SyNTHIA to Cityscapes"、"GTA5 to Cityscapes"、"SyNTHIA to Vistas"といった経験的実験において、SOTA法よりも一貫して優れている。

Semantic segmentation aims to predict pixel-level labels. It has become a popular task in various computer vision applications. While fully supervised segmentation methods have achieved high accuracy on large-scale vision datasets, they are unable to generalize on a new test environment or a new domain well. In this work, we first introduce a new Un-aligned Domain Score to measure the efficiency of a learned model on a new target domain in unsupervised manner. Then, we present the new Bijective Maximum Likelihood(BiMaL) loss that is a generalized form of the Adversarial Entropy Minimization without any assumption about pixel independence. We have evaluated the proposed BiMaL on two domains. The proposed BiMaL approach consistently outperforms the SOTA methods on empirical experiments on "SYNTHIA to Cityscapes", "GTA5 to Cityscapes", and "SYNTHIA to Vistas".
翻訳日:2021-08-10 15:33:25 公開日:2021-08-06
# 特徴教師付き動作モダリティ転送

Feature-Supervised Action Modality Transfer ( http://arxiv.org/abs/2108.03329v1 )

ライセンス: Link先を確認
Fida Mohammad Thoker, Cees G. M. Snoek(参考訳) 本稿では,RGBや深度マップ,あるいは3D-スケルトンシーケンスなどのビデオモダリティにおける動作認識と検出を,限定されたモダリティ指定例のみが利用できる場合に行う。 rgbおよび派生光フローでは、多くの大規模ラベル付きデータセットが利用可能である。 ラベル付きサンプルが限られているRGBデータセットから新しいアクションを認識または検出する場合、これらは事実上事前トレーニング選択となっている。 残念ながら、他のモダリティのための大規模ラベル付きアクションデータセットは、事前トレーニングでは利用できない。 本稿では,大規模ラベル付きRGBデータから学習することで,RGB以外の動画モダリティの限られた例から行動を認識することを目的とする。 そこで本研究では,RGB学習者ネットワークから行動表現知識を抽出し,非RGB学習者ネットワークに適応させる2段階の学習プロセスを提案する。 (ii)次に、対象モダリティのラベル付き例を用いて転送モデルを微調整する。 知識伝達には,教師から学生ネットワークへ特徴レベルの表現を伝達するための2つのモダリティ(RGBとターゲットモダリティ)のラベル付けされていないペアに依存した特徴スーパービジョン戦略を導入する。 2つのRGBソースデータセットと2つのRGBターゲットデータセットによるアブレーションと一般化は、光学フロー教師が異なるターゲットドメインで評価された場合や、異なるタスクで評価されたとしても、深度マップと3D骨格の両方でRGBよりも優れたアクション転送機能を提供することを示す。 代替のクロスモーダル・アクション・トランスファー法と比較すると、特にラベル付き非RGBの学習例が乏しい場合、優れた性能向上を示す。

This paper strives for action recognition and detection in video modalities like RGB, depth maps or 3D-skeleton sequences when only limited modality-specific labeled examples are available. For the RGB, and derived optical-flow, modality many large-scale labeled datasets have been made available. They have become the de facto pre-training choice when recognizing or detecting new actions from RGB datasets that have limited amounts of labeled examples available. Unfortunately, large-scale labeled action datasets for other modalities are unavailable for pre-training. In this paper, our goal is to recognize actions from limited examples in non-RGB video modalities, by learning from large-scale labeled RGB data. To this end, we propose a two-step training process: (i) we extract action representation knowledge from an RGB-trained teacher network and adapt it to a non-RGB student network. (ii) we then fine-tune the transfer model with available labeled examples of the target modality. For the knowledge transfer we introduce feature-supervision strategies, which rely on unlabeled pairs of two modalities (the RGB and the target modality) to transfer feature level representations from the teacher to the student network. Ablations and generalizations with two RGB source datasets and two non-RGB target datasets demonstrate that an optical-flow teacher provides better action transfer features than RGB for both depth maps and 3D-skeletons, even when evaluated on a different target domain, or for a different task. Compared to alternative cross-modal action transfer methods we show a good improvement in performance especially when labeled non-RGB examples to learn from are scarce
翻訳日:2021-08-10 15:33:07 公開日:2021-08-06
# Google Earth画像の深層学習による半自動サンプルラベリングによる地球規模の森林マッピングの改善

Improving Global Forest Mapping by Semi-automatic Sample Labeling with Deep Learning on Google Earth Images ( http://arxiv.org/abs/2108.04173v1 )

ライセンス: Link先を確認
Qian Shi, Xiaolei Qin, Lingyu Sun, Zitao Shen, Xiaoping Liu, Xiaocong Xu, Jiaxin Tian, Rong Liu, Andrea Marinoni(参考訳) 世界の森林被覆は、特定の生態系のサービスの提供に欠かせない。 google earth engine cloud platformの登場により、ファインレゾリューションのグローバル土地被覆マッピングタスクは、何年もではなく数日で完了することができる。 世界の森林被覆(GFC)生産量はここ数十年で着実に増加している。 しかし,これらの製品間の差異が大きいため,ユーザが適切な製品を選択することは困難であり,gfc製品の精度はグローバルスケールでは確認されていない。 ユーザとプロデューサのためのガイドラインを提供するには,グローバルレベルでの検証サンプルの作成が急務である。 しかし、このラベル付け作業は時間と労力の消費であり、地球規模の土地被覆地図作成の進展の主な障害となっている。 本研究では,森林,低木,草原,不耕起地など395280点の散在試料を含む,最大規模の森林試料セット(fss)を構築するための,労働効率の高い半自動的枠組みを提案する。 一方,ユーザに対してガイドラインを提供するため,既存の30m gfc製品の局所的およびグローバル的マッピング精度を包括的に検証し,それらの合意を解析・マッピングした。 さらに, 生産者を対象に, 地球規模の森林分類を改善するための最適サンプリング戦略を提案した。 さらに、globeforest2020と呼ばれる新しいグローバル森林カバーが作成され、以前の最先端のアキュラティ(gong et al.、2017年)を不確定格子で2.77%、特定の格子で1.11%改善した。

Global forest cover is critical to the provision of certain ecosystem services. With the advent of the google earth engine cloud platform, fine resolution global land cover mapping task could be accomplished in a matter of days instead of years. The amount of global forest cover (GFC) products has been steadily increasing in the last decades. However, it's hard for users to select suitable one due to great differences between these products, and the accuracy of these GFC products has not been verified on global scale. To provide guidelines for users and producers, it is urgent to produce a validation sample set at the global level. However, this labeling task is time and labor consuming, which has been the main obstacle to the progress of global land cover mapping. In this research, a labor-efficient semi-automatic framework is introduced to build a biggest ever Forest Sample Set (FSS) contained 395280 scattered samples categorized as forest, shrubland, grassland, impervious surface, etc. On the other hand, to provide guidelines for the users, we comprehensively validated the local and global mapping accuracy of all existing 30m GFC products, and analyzed and mapped the agreement of them. Moreover, to provide guidelines for the producers, optimal sampling strategy was proposed to improve the global forest classification. Furthermore, a new global forest cover named GlobeForest2020 has been generated, which proved to improve the previous highest state-of-the-art accuracies (obtained by Gong et al., 2017) by 2.77% in uncertain grids and by 1.11% in certain grids.
翻訳日:2021-08-10 15:15:39 公開日:2021-08-06
# smooth symbolic regression: transform of symbolic regression to a real-valued optimization problem

Smooth Symbolic Regression: Transformation of Symbolic Regression into a Real-valued Optimization Problem ( http://arxiv.org/abs/2108.03274v1 )

ライセンス: Link先を確認
Erik Pitzer, Gabriel Kronberger(参考訳) シンボリック回帰の典型的な方法は解候補の急激な変化をもたらす。 そこで本研究では,典型的な解析手法では有意義な結果が得られない状況から,典型的かつ非常にスムーズな実数値問題に比較可能な状況へと,象徴的回帰を最適化問題から転換する試みを行った。 頑丈さは最適化の性能を妨げないかもしれないが、分析の可能性を制限する。 本稿では,変換のさまざまな側面を考察し,シンボル回帰問題から実数値最適化問題を生成するための簡単な手順を提案する。

The typical methods for symbolic regression produce rather abrupt changes in solution candidates. In this work, we have tried to transform symbolic regression from an optimization problem, with a landscape that is so rugged that typical analysis methods do not produce meaningful results, to one that can be compared to typical and very smooth real-valued problems. While the ruggedness might not interfere with the performance of optimization, it restricts the possibilities of analysis. Here, we have explored different aspects of a transformation and propose a simple procedure to create real-valued optimization problems from symbolic regression problems.
翻訳日:2021-08-10 15:14:23 公開日:2021-08-06
# バングラデシュにおける作物選択と収量予測のためのディープニューラルネットワークアプローチ

A Deep Neural Network Approach for Crop Selection and Yield Prediction in Bangladesh ( http://arxiv.org/abs/2108.03320v1 )

ライセンス: Link先を確認
Tanhim Islam, Tanjir Alam Chisty, Amitabha Chakrabarty(参考訳) 農業は生活の主要な源である人類にとって必須の材料である。 バングラデシュの農業は主に、経済に直接影響を及ぼす古い方法で行われている。 さらに、農業機関は、作物の選択と収量予測の適切なソリューションを提供しないマニュアルデータに取り組んでいる。 本稿では,最小コストと労力で作物の選択と収量予測の最良の方法を示す。 ニューラルネットワークはモデリングや予測にロバストなツールだと考えられている。 このアルゴリズムは、より良い出力と予測と、サポートベクターマシン、ロジスティック回帰、ランダムフォレストアルゴリズムを目的とし、精度と誤差率を比較する。 さらに、これらのアルゴリズムはすべて、0.3百万を超えるデータセットに対して、どれだけうまく機能したかを確認するためだけに使われる。 我々は, 最大および最低気温, 平均降雨量, 湿度, 気候, 土地の種類, 化学肥料の種類, 土壌の種類, 土壌構造, 土壌組成, 土壌水分, 土壌水分, 土壌反応, 土壌テクスチャなど46のパラメータを収集し, 予測プロセスに適用した。 本稿では,農業作物の選択と収量予測にディープニューラルネットワークを用いることを提案する。

Agriculture is the essential ingredients to mankind which is a major source of livelihood. Agriculture work in Bangladesh is mostly done in old ways which directly affects our economy. In addition, institutions of agriculture are working with manual data which cannot provide a proper solution for crop selection and yield prediction. This paper shows the best way of crop selection and yield prediction in minimum cost and effort. Artificial Neural Network is considered robust tools for modeling and prediction. This algorithm aims to get better output and prediction, as well as, support vector machine, Logistic Regression, and random forest algorithm is also considered in this study for comparing the accuracy and error rate. Moreover, all of these algorithms used here are just to see how well they performed for a dataset which is over 0.3 million. We have collected 46 parameters such as maximum and minimum temperature, average rainfall, humidity, climate, weather, and types of land, types of chemical fertilizer, types of soil, soil structure, soil composition, soil moisture, soil consistency, soil reaction and soil texture for applying into this prediction process. In this paper, we have suggested using the deep neural network for agricultural crop selection and yield prediction.
翻訳日:2021-08-10 15:14:10 公開日:2021-08-06
# 可変相互作用ネットワークを用いたコンセプトドリフト検出

Concept Drift Detection with Variable Interaction Networks ( http://arxiv.org/abs/2108.03273v1 )

ライセンス: Link先を確認
Jan Zenisek, Gabriel Kronberger, Josef Wolfartsberger, Norbert Wild, Michael Affenzeller(参考訳) 今日の生産産業のシームレスなセンサーベースのモニタリングに向けた開発は、予測メンテナンスのような概念への道を開く。 この方法では、将来の生産ラインにおける植物や製品の状態は、あらゆる種類の破壊を予測し、積極的に予防行動を起こす目的とともに継続的に分析される。 このような野心的な予測は、機械学習アルゴリズムをサポートすることで一般的に行われる。 本研究では,これらのアルゴリズムを用いて,生産プラントなどの複雑なシステムのモデル化を行う。 この貢献の中核は、特定された相互作用の変化を検出するために設計されたスライディングウィンドウベースのアルゴリズムである。 本アルゴリズムの詳細な記述に加えて, 安定および漂流系の挙動を模擬した合成力学系の実験結果も提示する。

The current development of today's production industry towards seamless sensor-based monitoring is paving the way for concepts such as Predictive Maintenance. By this means, the condition of plants and products in future production lines will be continuously analyzed with the objective to predict any kind of breakdown and trigger preventing actions proactively. Such ambitious predictions are commonly performed with support of machine learning algorithms. In this work, we utilize these algorithms to model complex systems, such as production plants, by focusing on their variable interactions. The core of this contribution is a sliding window based algorithm, designed to detect changes of the identified interactions, which might indicate beginning malfunctions in the context of a monitored production plant. Besides a detailed description of the algorithm, we present results from experiments with a synthetic dynamical system, simulating stable and drifting system behavior.
翻訳日:2021-08-10 15:04:27 公開日:2021-08-06
# 未知の誘引子のモデルフリー推論:貯水池計算を用いた単一ノイズ軌道からの位相空間特徴の再構成

Model-free inference of unseen attractors: Reconstructing phase space features from a single noisy trajectory using reservoir computing ( http://arxiv.org/abs/2108.04074v1 )

ライセンス: Link先を確認
Andr\'e R\"ohm and Daniel J. Gauthier and Ingo Fischer(参考訳) 貯水池コンピュータはカオス時系列予測のための強力なツールである。 それらは位相空間の流れを近似するよう訓練することができ、したがって将来の値を高い精度で予測し、またモデルを必要とすることなくカオス的アトラクタの一般特性を再構築することができる。 本研究では, 複雑な系のダイナミクスを学習する能力が, 共存するアトラクタを持つ系にも拡張できることを示し, よく知られているロレンツカオス系の4次元拡張を示す。 適切に訓練された貯水池コンピュータは、トレーニング中に接近したことのない誘引器の存在を予測でき、したがって見当たらないものとしてラベル付けされる。 本研究では,1つの雑音軌跡のみを訓練し,アトラクタ推定を行う例を示す。

Reservoir computers are powerful tools for chaotic time series prediction. They can be trained to approximate phase space flows and can thus both predict future values to a high accuracy, as well as reconstruct the general properties of a chaotic attractor without requiring a model. In this work, we show that the ability to learn the dynamics of a complex system can be extended to systems with co-existing attractors, here a 4-dimensional extension of the well-known Lorenz chaotic system. We demonstrate that a reservoir computer can infer entirely unexplored parts of the phase space: a properly trained reservoir computer can predict the existence of attractors that were never approached during training and therefore are labelled as unseen. We provide examples where attractor inference is achieved after training solely on a single noisy trajectory.
翻訳日:2021-08-10 15:01:43 公開日:2021-08-06
# ニューラルクロスドメイン探索のための蒸留変圧器

Distilling Transformers for Neural Cross-Domain Search ( http://arxiv.org/abs/2108.03322v1 )

ライセンス: Link先を確認
Colin B. Clement, Chen Wu, Dawn Drain, Neel Sundaresan(参考訳) 事前学習されたトランスフォーマーは、最近自然言語タスクの領域でトップスポットを獲得し、ソフトウェアエンジニアリングタスクのソリューションの先駆者となった。 情報検索でさえ変圧器の魅力には影響しないが、その大きさとコストは一般的に展開の障壁である。 生産用のトランスフォーマーアーキテクチャの合理化、キャッシュ、修正には多くの作業があったが、ここでは新しい方向性を探る: 大きなトレーニング済みの翻訳モデルを軽量なバイエンコーダに蒸留し、効率よくキャッシュし、クエリすることができる。 我々は、シーケンス・ツー・シーケンス・モデルが概念的には理想である、という確率論的観点から論じる。 我々は,データ拡張スキームとして,新しい蒸留目標を導出する。 自然言語ソースコード検索をクロスドメイン検索のケーススタディとして用い,近年の自然言語コード検索ベンチマークであるCodeSearchNetチャレンジの現在のリーダを大きく改善することで,このアイデアの有効性を実証する。

Pre-trained transformers have recently clinched top spots in the gamut of natural language tasks and pioneered solutions to software engineering tasks. Even information retrieval has not been immune to the charm of the transformer, though their large size and cost is generally a barrier to deployment. While there has been much work in streamlining, caching, and modifying transformer architectures for production, here we explore a new direction: distilling a large pre-trained translation model into a lightweight bi-encoder which can be efficiently cached and queried. We argue from a probabilistic perspective that sequence-to-sequence models are a conceptually ideal---albeit highly impractical---retriever. We derive a new distillation objective, implementing it as a data augmentation scheme. Using natural language source code search as a case study for cross-domain search, we demonstrate the validity of this idea by significantly improving upon the current leader of the CodeSearchNet challenge, a recent natural language code search benchmark.
翻訳日:2021-08-10 14:58:48 公開日:2021-08-06
# (参考訳) インテリジェント反射型D2D通信のための深部強化学習

Deep Reinforcement Learning for Intelligent Reflecting Surface-assisted D2D Communications ( http://arxiv.org/abs/2108.02892v1 )

ライセンス: CC BY 4.0
Khoi Khac Nguyen, Antonino Masaracchia, Cheng Yin, Long D. Nguyen, Octavia A. Dobre, and Trung Q. Duong(参考訳) 本稿では,知的反射面(IRS)をサポートしたデバイス間通信(D2D)において,ネットワークの総和レートの最適化問題を解決するための深層強化学習(DRL)手法を提案する。 IRSは干渉を緩和し、D2D送信機と関連するD2D受信機の間の信号を強化する。 我々の目的は、D2D送信機における送信電力とIRSにおける位相シフト行列を共同で最適化し、ネットワーク総和率を最大化することである。 マルコフ決定過程を定式化し、最大化ゲームを解決するための近似ポリシー最適化を提案する。 シミュレーションの結果は達成可能な速度と処理時間で印象的な性能を示した。

In this paper, we propose a deep reinforcement learning (DRL) approach for solving the optimisation problem of the network's sum-rate in device-to-device (D2D) communications supported by an intelligent reflecting surface (IRS). The IRS is deployed to mitigate the interference and enhance the signal between the D2D transmitter and the associated D2D receiver. Our objective is to jointly optimise the transmit power at the D2D transmitter and the phase shift matrix at the IRS to maximise the network sum-rate. We formulate a Markov decision process and then propose the proximal policy optimisation for solving the maximisation game. Simulation results show impressive performance in terms of the achievable rate and processing time.
翻訳日:2021-08-09 23:06:13 公開日:2021-08-06
# (参考訳) 光、カメラ、アクション! OCR文書のNLP精度向上のためのフレームワーク

Lights, Camera, Action! A Framework to Improve NLP Accuracy over OCR documents ( http://arxiv.org/abs/2108.02899v1 )

ライセンス: CC BY-SA 4.0
Amit Gupte, Alexey Romanov, Sahitya Mantravadi, Dalitso Banda, Jianjie Liu, Raza Khan, Lakshmanan Ramu Meenal, Benjamin Han, Soundar Srinivasan(参考訳) 社会のデジタルトランスフォーメーションには文書のデジタル化が不可欠だが、その過程における重要なステップである光学文字認識(OCR)はまだ完璧ではない。 商用のOCRシステムでさえ、スキャンした文書の忠実度に応じて疑わしい出力を生成することができる。 本稿では,NER(Named Entity Recognition)を例として,下流のNLPタスクにおけるOCRエラーの軽減に有効なフレームワークを提案する。 まず, 文書合成パイプラインを構築し, nerラベルを用いた現実的な, 劣化したデータを生成することで, モデル学習のためのデータ不足問題に対処する。 劣化レベルでのNER精度低下を計測し、劣化データに基づいてトレーニングされたテキスト復元モデルが、ドメイン外データセットを含むOCRエラーによるNER精度ギャップを著しく短縮することを示す。 コミュニティの利益のために、私たちはドキュメント合成パイプラインをオープンソースプロジェクトとして利用可能にしました。

Document digitization is essential for the digital transformation of our societies, yet a crucial step in the process, Optical Character Recognition (OCR), is still not perfect. Even commercial OCR systems can produce questionable output depending on the fidelity of the scanned documents. In this paper, we demonstrate an effective framework for mitigating OCR errors for any downstream NLP task, using Named Entity Recognition (NER) as an example. We first address the data scarcity problem for model training by constructing a document synthesis pipeline, generating realistic but degraded data with NER labels. We measure the NER accuracy drop at various degradation levels and show that a text restoration model, trained on the degraded data, significantly closes the NER accuracy gaps caused by OCR errors, including on an out-of-domain dataset. For the benefit of the community, we have made the document synthesis pipeline available as an open-source project.
翻訳日:2021-08-09 22:56:39 公開日:2021-08-06
# (参考訳) LadRa-Net: 文セマンティックマッチングのための局所認識動的再読み取り注意ネット

LadRa-Net: Locally-Aware Dynamic Re-read Attention Net for Sentence Semantic Matching ( http://arxiv.org/abs/2108.02915v1 )

ライセンス: CC BY 4.0
Kun Zhang, Guangyi Lv, Le Wu, Enhong Chen, Qi Liu, Meng Wang(参考訳) 文の意味マッチングには、自然言語推論(NLI)やパラフレーズ識別(PI)など、さまざまな自然言語タスクで広く使われている2つの文間の意味的関係を決定するエージェントが必要である。 この領域では、特に注意に基づく手法や事前訓練された言語モデルに基づく手法が近年進歩している。 しかし、これらの手法のほとんどは静的な方法で文のすべての重要な部分に焦点を当て、単語がクエリにとってどれほど重要であるかのみを強調し、注意機構の能力を抑制する。 そこで本研究では,この問題を克服し,注意機構の性能を高めるために,各ステップの1つの小領域に注意を向け,より優れた文表現のための重要な部分を再読み込むことのできる,新しい動的再読出注意を提案する。 この特徴に基づいて,文意味マッチングのための動的再読ネットワーク(DRr-Net)を開発した。 さらに、動的再読上げ注意における1つの小さな領域の選択は文の意味論では不十分であり、入力エンコーダとして事前学習された言語モデルを採用すると、不完全で脆弱な表現の問題が生じる。 この目的のために、DRrNetをローカルに認識する動的再読注意網(LadRa-Net)に拡張し、文の局所構造を用いて、事前学習された言語モデルにおけるByte-Pair Encoding(BPE)の欠点を緩和し、動的再読注意力を高める。 2つの一般的な文意味マッチングタスクに関する大規模な実験により、DRr-Netは文意味マッチングの性能を大幅に改善できることを示した。 一方、LadRa-Netは、文の局所構造を考慮することで、より良いパフォーマンスを実現することができる。 また,我々の実験におけるいくつかの発見が,心理学的研究のいくつかの発見と一致していることは極めて興味深い。

Sentence semantic matching requires an agent to determine the semantic relation between two sentences, which is widely used in various natural language tasks, such as Natural Language Inference (NLI), Paraphrase Identification (PI), and so on. Much recent progress has been made in this area, especially attention-based methods and pre-trained language model based methods. However, most of these methods focus on all the important parts in sentences in a static way and only emphasize how important the words are to the query, inhibiting the ability of attention mechanism. In order to overcome this problem and boost the performance of attention mechanism, we propose a novel dynamic re-read attention, which can pay close attention to one small region of sentences at each step and re-read the important parts for better sentence representations. Based on this attention variation, we develop a novel Dynamic Re-read Network (DRr-Net) for sentence semantic matching. Moreover, selecting one small region in dynamic re-read attention seems insufficient for sentence semantics, and employing pre-trained language models as input encoders will introduce incomplete and fragile representation problems. To this end, we extend DRrNet to Locally-Aware Dynamic Re-read Attention Net (LadRa-Net), in which local structure of sentences is employed to alleviate the shortcoming of Byte-Pair Encoding (BPE) in pre-trained language models and boost the performance of dynamic reread attention. Extensive experiments on two popular sentence semantic matching tasks demonstrate that DRr-Net can significantly improve the performance of sentence semantic matching. Meanwhile, LadRa-Net is able to achieve better performance by considering the local structures of sentences. In addition, it is exceedingly interesting that some discoveries in our experiments are consistent with some findings of psychological research.
翻訳日:2021-08-09 22:42:31 公開日:2021-08-06
# (参考訳) 認知的注意ネットワークを用いた解釈可能な視覚理解

Interpretable Visual Understanding with Cognitive Attention Network ( http://arxiv.org/abs/2108.02924v1 )

ライセンス: CC0 1.0
Xuejiao Tang, Wenbin Zhang, Yi Yu, Kea Turner, Tyler Derr, Mengyu Wang and Eirini Ntoutsi(参考訳) 認識レベルの画像理解は飛躍的な進歩を遂げているが、信頼性の高い視覚シーン理解には認識レベルでの総合的な画像理解が必要であるだけでなく、多元情報の活用を求める認知レベルも必要となる。 本稿では,視覚コモンセンス推論のための新しい認知的注意ネットワーク(can)を提案する。 具体的には,まず画像とテキストから情報を融合するイメージテキスト融合モジュールを導入する。 第二に、画像、クエリ、レスポンスのコモンセンスを符号化する新しい推論モジュールが設計されている。 大規模visual commonsense reasoning(vcr)ベンチマークデータセットに関する広範な実験により,本手法の有効性が示された。 実装はhttps://github.com/tanjatang/CANで公開されている。

While image understanding on recognition-level has achieved remarkable advancements, reliable visual scene understanding requires comprehensive image understanding on recognition-level but also cognition-level, which calls for exploiting the multi-source information as well as learning different levels of understanding and extensive commonsense knowledge. In this paper, we propose a novel Cognitive Attention Network (CAN) for visual commonsense reasoning to achieve interpretable visual understanding. Specifically, we first introduce an image-text fusion module to fuse information from images and text collectively. Second, a novel inference module is designed to encode commonsense among image, query and response. Extensive experiments on large-scale Visual Commonsense Reasoning (VCR) benchmark dataset demonstrate the effectiveness of our approach. The implementation is publicly available at https://github.com/tanjatang/CAN
翻訳日:2021-08-09 22:11:56 公開日:2021-08-06
# (参考訳) 偽物か? 南アフリカのニュースサイトにおけるニュース偽情報検出

Is it Fake? News Disinformation Detection on South African News Websites ( http://arxiv.org/abs/2108.02941v1 )

ライセンス: CC BY 4.0
Harm de Wet, Vukosi Marivate(参考訳) 偽ニュースによる偽ニュースは、我々の社会で進行中の問題であり、ソーシャルメディアで簡単に拡散している。 大量のデータをフィルタリングする最もコストと時間効率のよい方法は、人間と技術的な介入を組み合わせてそれを識別することだ。 技術的観点からは、自然言語処理(NLP)は偽ニュースの検出に広く用いられている。 ソーシャルメディア企業は、偽ニュースを識別し、ユーザーに警告するためにNLP技術を使っているが、偽ニュースはまだ発見されていない可能性がある。 これは特に(アメリカ合衆国以外で)より局所的な状況において問題となっている。 偽ニュース検出システムをどのように調整し、南アフリカのようなローカルな状況でよりうまく機能させるか。 本研究では南アフリカのウェブサイトで偽ニュースを検出する。 南アフリカの偽ニュースのデータセットをキュレートし、検出モデルをトレーニングします。 これは、広く利用可能なフェイクニュースデータセット(主に米国ウェブサイトから)を使用することとは対照的です。 また、それらを組み合わせることでデータセットをより多様にし、解釈可能な機械学習を用いて各国のフェイクニュース間での書き込みの振る舞いの違いを観察する。

Disinformation through fake news is an ongoing problem in our society and has become easily spread through social media. The most cost and time effective way to filter these large amounts of data is to use a combination of human and technical interventions to identify it. From a technical perspective, Natural Language Processing (NLP) is widely used in detecting fake news. Social media companies use NLP techniques to identify the fake news and warn their users, but fake news may still slip through undetected. It is especially a problem in more localised contexts (outside the United States of America). How do we adjust fake news detection systems to work better for local contexts such as in South Africa. In this work we investigate fake news detection on South African websites. We curate a dataset of South African fake news and then train detection models. We contrast this with using widely available fake news datasets (from mostly USA website). We also explore making the datasets more diverse by combining them and observe the differences in behaviour in writing between nations' fake news using interpretable machine learning.
翻訳日:2021-08-09 22:00:19 公開日:2021-08-06
# (参考訳) 疑似属性による偏見表現の教師なし学習

Unsupervised Learning of Debiased Representations with Pseudo-Attributes ( http://arxiv.org/abs/2108.02943v1 )

ライセンス: CC BY 4.0
Seonguk Seo, Joon-Young Lee, Bohyung Han(参考訳) データセットバイアスは機械学習における重要な課題であり、モデルが意図しない決定ルールをスパイラルな相関で捉えると、その負の影響が増す。 既存の作品は人間の監督を使ってこの問題を扱うことが多いが、適切なアノテーションが利用できることは現実的ではなく非現実的である。 この課題をよりよく解決するため,我々は教師なしの方法で,単純かつ効果的なデバイアス手法を提案する。 具体的には,特徴埋め込み空間上でクラスタリングを行い,明示的な属性の監督なしにもクラスタリング結果を利用して疑似属性を識別する。 次に,不偏表現を学習するための新しいクラスタベース再重み付け方式を採用することにより,マイノリティグループによる損失の最小化を防止し,最悪の一般化に望ましい。 大規模な実験は、複数の標準ベンチマークに対する我々のアプローチの卓越した性能を実証している。

Dataset bias is a critical challenge in machine learning, and its negative impact is aggravated when models capture unintended decision rules with spurious correlations. Although existing works often handle this issue using human supervision, the availability of the proper annotations is impractical and even unrealistic. To better tackle this challenge, we propose a simple but effective debiasing technique in an unsupervised manner. Specifically, we perform clustering on the feature embedding space and identify pseudoattributes by taking advantage of the clustering results even without an explicit attribute supervision. Then, we employ a novel cluster-based reweighting scheme for learning debiased representation; this prevents minority groups from being discounted for minimizing the overall loss, which is desirable for worst-case generalization. The extensive experiments demonstrate the outstanding performance of our approach on multiple standard benchmarks, which is even as competitive as the supervised counterpart.
翻訳日:2021-08-09 21:45:49 公開日:2021-08-06
# (参考訳) 補助クラスに基づく複数選択学習

Auxiliary Class Based Multiple Choice Learning ( http://arxiv.org/abs/2108.02949v1 )

ライセンス: CC BY 4.0
Sihwan Kim, Dae Yon Jung, Taejang Park(参考訳) アンサンブル学習の利点は、単一の入力で多くの個々のモデルから異なる出力、すなわちベースモデルの多様性を持つことにある。 各モデルがデータセット全体の異なるサブセットに特化されている場合、高い品質の多様性が達成できる。 さらに、各モデルがどのサブセットであるかを明示的に知ると、多様性を改善する機会が増える。 本稿では,マルチチョイス学習(mcl)の枠組みの下で各モデルを最終的に特殊化するための,補助クラスベースマルチチョイス学習(amcl)と呼ばれる高度なアンサンブル手法を提案する。 AMCLの進展は,(1)ラベルを通してより明確な情報を提供する補助クラスの概念,2)入力とモデル間の関連性を決定するためのメモリベースの割り当て,3)特徴融合モジュールを一般化した特徴として,フレームワークを異なる方向から制御する3つの新しい技術に起因している。 MCL法の全変種と比較して,本手法の性能を実証するため,画像分類と分割タスクについて広範な実験を行った。 全体として、AMCLのパフォーマンスは、アンサンブルのメンバーとしてさまざまなネットワークでトレーニングされた公開データセットのほとんどで、他のすべてのものを上回る。

The merit of ensemble learning lies in having different outputs from many individual models on a single input, i.e., the diversity of the base models. The high quality of diversity can be achieved when each model is specialized to different subsets of the whole dataset. Moreover, when each model explicitly knows to which subsets it is specialized, more opportunities arise to improve diversity. In this paper, we propose an advanced ensemble method, called Auxiliary class based Multiple Choice Learning (AMCL), to ultimately specialize each model under the framework of multiple choice learning (MCL). The advancement of AMCL is originated from three novel techniques which control the framework from different directions: 1) the concept of auxiliary class to provide more distinct information through the labels, 2) the strategy, named memory-based assignment, to determine the association between the inputs and the models, and 3) the feature fusion module to achieve generalized features. To demonstrate the performance of our method compared to all variants of MCL methods, we conduct extensive experiments on the image classification and segmentation tasks. Overall, the performance of AMCL exceeds all others in most of the public datasets trained with various networks as members of the ensembles.
翻訳日:2021-08-09 21:32:40 公開日:2021-08-06
# (参考訳) 非スムース凸最適化による深度データからの滑らかなメッシュ推定

Smooth Mesh Estimation from Depth Data using Non-Smooth Convex Optimization ( http://arxiv.org/abs/2108.02957v1 )

ライセンス: CC BY 4.0
Antoni Rosinol, Luca Carlone(参考訳) メッシュは、軽量ながらシーンのトポロジをエンコードするため、一般的に3dマップとして使用される。 残念ながら、3Dメッシュは、結合性と離散性のために、直接扱うのが数学的に難しい。 したがって、ほとんどの手法はボリュームや他の表現を用いて深度データを融合した後、シーンの3Dメッシュを生成する。 それでも、容積融合は速度とメモリの両面で計算的に高価である。 本稿では,これらの中間表現を跳躍し,視覚オドメトリーで三角測量した深度マップとスパースランドマークから直接3次元メッシュを構築する。 この目的のために、原始双対法を用いて解く非滑らか凸最適化問題を定式化する。 提案手法は,リアルタイム動作時の直接メッシュ再構成の最先端を大幅に改善する,滑らかで正確な3dメッシュを生成する。

Meshes are commonly used as 3D maps since they encode the topology of the scene while being lightweight. Unfortunately, 3D meshes are mathematically difficult to handle directly because of their combinatorial and discrete nature. Therefore, most approaches generate 3D meshes of a scene after fusing depth data using volumetric or other representations. Nevertheless, volumetric fusion remains computationally expensive both in terms of speed and memory. In this paper, we leapfrog these intermediate representations and build a 3D mesh directly from a depth map and the sparse landmarks triangulated with visual odometry. To this end, we formulate a non-smooth convex optimization problem that we solve using a primal-dual method. Our approach generates a smooth and accurate 3D mesh that substantially improves the state-of-the-art on direct mesh reconstruction while running in real-time.
翻訳日:2021-08-09 21:29:17 公開日:2021-08-06
# (参考訳) 半教師付き群衆カウントにおける空間ラベリング冗長性低減

Reducing Spatial Labeling Redundancy for Semi-supervised Crowd Counting ( http://arxiv.org/abs/2108.02970v1 )

ライセンス: CC BY 4.0
Yongtuo Liu, Sucheng Ren, Liangyu Chai, Hanjie Wu, Jing Qin, Dan Xu, Shengfeng He(参考訳) ラベリングは、群衆画像中の各個人に注釈を付けるため、群衆を数えるのに一役買う。 近年,ラベル付けの取り組みを減らそうとする半監督群集カウント法が提案されている。 限られたラベル付け予算が与えられた場合、彼らは通常、いくつかの群衆画像を選択し、それぞれの個人を密にラベル付けする。 有望な結果にもかかわらず、各群集画像中の濃密なラベル付き個体はよく似ているが、巨大なラベルなし群集画像は、完全に多様な個人を含む可能性があるため、None-or-Allラベル付け戦略は最適ではない。 そこで本研究では,従来の手法のラベリングチェーンを分割し,半教師付き群衆数における空間ラベリング冗長性を低減する最初の試みを提案する。 まず,各群集画像中のすべての領域にアノテートするのではなく,代表領域のみにアノテートすることを提案する。 垂直方向と水平方向の両方から領域代表性を解析し,ガウス混合モデルのクラスター中心として定式化する。 さらに,各群集画像中の各個体間の類似性を利用して,従来手法で用いた誤り発生ラベルの伝搬ではなく,特徴伝播による特徴伝達を直接監督する。 このようにして、個々の類似性に起因する元の空間ラベリング冗長性を、ラベルなし領域の効果的な監督信号に転送することができる。 広範に使用されているベンチマーク実験により,提案手法は従来のベストアプローチよりも大きなマージンで優れていることが示された。

Labeling is onerous for crowd counting as it should annotate each individual in crowd images. Recently, several methods have been proposed for semi-supervised crowd counting to reduce the labeling efforts. Given a limited labeling budget, they typically select a few crowd images and densely label all individuals in each of them. Despite the promising results, we argue the None-or-All labeling strategy is suboptimal as the densely labeled individuals in each crowd image usually appear similar while the massive unlabeled crowd images may contain entirely diverse individuals. To this end, we propose to break the labeling chain of previous methods and make the first attempt to reduce spatial labeling redundancy for semi-supervised crowd counting. First, instead of annotating all the regions in each crowd image, we propose to annotate the representative ones only. We analyze the region representativeness from both vertical and horizontal directions, and formulate them as cluster centers of Gaussian Mixture Models. Additionally, to leverage the rich unlabeled regions, we exploit the similarities among individuals in each crowd image to directly supervise the unlabeled regions via feature propagation instead of the error-prone label propagation employed in the previous methods. In this way, we can transfer the original spatial labeling redundancy caused by individual similarities to effective supervision signals on the unlabeled regions. Extensive experiments on the widely-used benchmarks demonstrate that our method can outperform previous best approaches by a large margin.
翻訳日:2021-08-09 21:10:55 公開日:2021-08-06
# (参考訳) 点由来セグメンテーションによるきめ細かいドメイン適応群カウント

Fine-grained Domain Adaptive Crowd Counting via Point-derived Segmentation ( http://arxiv.org/abs/2108.02980v1 )

ライセンス: CC BY 4.0
Yongtuo Liu, Dan Xu, Sucheng Ren, Hanjie Wu, Hongmin Cai, Shengfeng He(参考訳) 各群集画像全体に対する既存領域適応手法により,群集と背景における領域の相違を同時に低減する。 しかし,これらの手法は群集や背景が全く異なる特徴を持ち,背景が異なる群集シーンで劇的に変化するため,準最適であると主張する(図参照)。 これにより、群衆は全体的方法で背景とともにドメイン間でうまく整合しない。 そこで本研究では,群衆画像から群衆と背景を切り離し,群衆カウントのための細粒度ドメイン適応法を設計することを提案する。 領域ベースの細粒度アノテーション(セグメントやバウンディングボックスなど)を持つ他のタスクとは異なり、群衆のカウントは人間の頭部の1点のみに注釈を付け、細粒度適応メソッドの実装を妨げる。 そこで本研究では,複数インスタンス学習の文脈において,ポイントレベル群数アノテーションから群集セグメンテーションを学ぶための,新規かつ効果的なスキーマを提案する。 さらに、得られたセグメントを活用して、群集カウントのための細粒度ドメイン適応フレームワークを提案する。これは、2つの新しい適応モジュール、すなわち、CRT(Crowd Region Transfer)とCDA(Crowd Density Alignment)から構成される。 具体的には、CRTモジュールは、背景の乱れを超えた領域間での群衆の移動を誘導するために設計されており、CDAモジュールはターゲット領域の群集密度分布の制限に重点を置いている。 複数のクロスドメイン設定(Synthetic $\rightarrow$ Real, Fixed $\rightarrow$ Fickle, Normal $\rightarrow$ BadWeather)に対する大規模な実験は、最先端の手法と比較して提案手法の優位性を実証している。

Existing domain adaptation methods for crowd counting view each crowd image as a whole and reduce domain discrepancies on crowds and backgrounds simultaneously. However, we argue that these methods are suboptimal, as crowds and backgrounds have quite different characteristics and backgrounds may vary dramatically in different crowd scenes (see Fig.~\ref{teaser}). This makes crowds not well aligned across domains together with backgrounds in a holistic manner. To this end, we propose to untangle crowds and backgrounds from crowd images and design fine-grained domain adaption methods for crowd counting. Different from other tasks which possess region-based fine-grained annotations (e.g., segments or bounding boxes), crowd counting only annotates one point on each human head, which impedes the implementation of fine-grained adaptation methods. To tackle this issue, we propose a novel and effective schema to learn crowd segmentation from point-level crowd counting annotations in the context of Multiple Instance Learning. We further leverage the derived segments to propose a crowd-aware fine-grained domain adaptation framework for crowd counting, which consists of two novel adaptation modules, i.e., Crowd Region Transfer (CRT) and Crowd Density Alignment (CDA). Specifically, the CRT module is designed to guide crowd features transfer across domains beyond background distractions, and the CDA module dedicates to constraining the target-domain crowd density distributions. Extensive experiments on multiple cross-domain settings (i.e., Synthetic $\rightarrow$ Real, Fixed $\rightarrow$ Fickle, Normal $\rightarrow$ BadWeather) demonstrate the superiority of the proposed method compared with state-of-the-art methods.
翻訳日:2021-08-09 20:53:25 公開日:2021-08-06
# (参考訳) QR分解と$L_{2,1}$ノルム最小化に基づく高速かつ高精度な低ランクテンソル補完法

Fast and Accurate Low-Rank Tensor Completion Methods Based on QR Decomposition and $L_{2,1}$ Norm Minimization ( http://arxiv.org/abs/2108.03002v1 )

ライセンス: CC BY 4.0
HongBing Zhang, XinYi Liu, HongTao Fan, YaJing Li, Yinlin Ye(参考訳) 最近では、行列完全問題に対するカタール・リヤル(QR)分解(CSVD-QR)法に基づく近似SVDが提示されており、その計算複雑性は$O(r^2(m+n))$であり、主に$r$が$\min\{m,n\}$よりはるかに小さいためである。 特に興味深いのは、核ノルムをこの分解に基づいて提案された$L_{2,1}$ノルムに置き換えた後に、核ノルムの上界として、その分解における中間行列$D$が対角行列に近いとき、その分解は核ノルムに収束し、$D$行列が対角行列と等しいとき、完全に等しい。 我々の知る限りでは、テンソル完全問題の解法を一般化して適用する文献は存在しない。 このことから着想を得た本論文では, テンソル完全問題に対する$L_{2,1}$ノルムとCSVD-QR法に基づくテンソル最小化モデルのクラスを提案する。

More recently, an Approximate SVD Based on Qatar Riyal (QR) Decomposition (CSVD-QR) method for matrix complete problem is presented, whose computational complexity is $O(r^2(m+n))$, which is mainly due to that $r$ is far less than $\min\{m,n\}$, where $r$ represents the largest number of singular values of matrix $X$. What is particularly interesting is that after replacing the nuclear norm with the $L_{2,1}$ norm proposed based on this decomposition, as the upper bound of the nuclear norm, when the intermediate matrix $D$ in its decomposition is close to the diagonal matrix, it will converge to the nuclear norm, and is exactly equal, when the $D$ matrix is equal to the diagonal matrix, to the nuclear norm, which ingeniously avoids the calculation of the singular value of the matrix. To the best of our knowledge, there is no literature to generalize and apply it to solve tensor complete problems. Inspired by this, in this paper we propose a class of tensor minimization model based on $L_{2,1}$ norm and CSVD-QR method for the tensor complete problem, which is convex and therefore has a global minimum solution.
翻訳日:2021-08-09 20:35:42 公開日:2021-08-06
# (参考訳) 視覚的分析による銀行信用格付けプロセスの検査

Inspecting the Process of Bank Credit Rating via Visual Analytics ( http://arxiv.org/abs/2108.03011v1 )

ライセンス: CC BY 4.0
Qiangqiang Liu, Quan Li, Zhihua Zhu, Tangzhi Ye and Xiaojuan Ma(参考訳) 銀行信用格付けは、公開および内部情報に基づいて銀行を異なるレベルに分類し、金融リスク管理において重要なインプットとなる。 しかし、ドメインの専門家は、異なる銀行信用格付け方式を探求し比較するという曖昧な考えを持っている。 主観的・定量的分析と適切な指標重み決定の難しさの緩やかな関係は、銀行信用格付けの理解を曖昧にしている。 さらに、既存のモデルは、すべての銀行に統一された指標重みを適用すれば、銀行のタイプを考慮できない。 我々は、さまざまな銀行信用格付け手法を調査・比較する専門家を支援するため、RatingVisを提案する。 ドメイン知識を取り入れることで、銀行の指標重み付けをインタラクティブに推論し、分析ループで銀行の種類を検討する。 本研究では,RatingVisの有効性を検証するために,実世界の銀行データを用いてケーススタディを行う。 専門家からのフィードバックは、私たちのアプローチは、異なる評価体系をより理解するのに役立ちます。

Bank credit rating classifies banks into different levels based on publicly disclosed and internal information, serving as an important input in financial risk management. However, domain experts have a vague idea of exploring and comparing different bank credit rating schemes. A loose connection between subjective and quantitative analysis and difficulties in determining appropriate indicator weights obscure understanding of bank credit ratings. Furthermore, existing models fail to consider bank types by just applying a unified indicator weight set to all banks. We propose RatingVis to assist experts in exploring and comparing different bank credit rating schemes. It supports interactively inferring indicator weights for banks by involving domain knowledge and considers bank types in the analysis loop. We conduct a case study with real-world bank data to verify the efficacy of RatingVis. Expert feedback suggests that our approach helps them better understand different rating schemes.
翻訳日:2021-08-09 20:10:36 公開日:2021-08-06
# (参考訳) 手の衛生段階の特徴検出

Feature Detection for Hand Hygiene Stages ( http://arxiv.org/abs/2108.03015v1 )

ライセンス: CC BY 4.0
Rashmi Bakshi, Jane Courtney, Damon Berry, Graham Gavin(参考訳) 手洗いの過程は複雑な手の動きを伴う。 世界保健機関(WHO)のガイドラインでは、手を洗うための主要なステップが6つある。 本稿では,強固な手洗いデータセットを作成するためのアルミニウム製リグ構造の詳細な説明について述べる。 画像処理とコンピュータビジョンアルゴリズムによる手ポーズ抽出と,ハリス検出器,シトマシ,SIFTなどの特徴検出による予備的な結果が示された。 手の衛生ポーズ-手のひらから手のひらまでを全ての実験を実行するための入力画像として捉えた。 今後の研究は、手の動きのビデオ記録の処理と、手衛生段階の分類のためのディープラーニングソリューションの適用に焦点を当てる。

The process of hand washing involves complex hand movements. There are six principal sequential steps for washing hands as per the World Health Organisation (WHO) guidelines. In this work, a detailed description of an aluminium rig construction for creating a robust hand-washing dataset is discussed. The preliminary results with the help of image processing and computer vision algorithms for hand pose extraction and feature detection such as Harris detector, Shi-Tomasi and SIFT are demonstrated. The hand hygiene pose- Rub hands palm to palm was captured as an input image for running all the experiments. The future work will focus upon processing the video recordings of hand movements captured and applying deep-learning solutions for the classification of hand-hygiene stages.
翻訳日:2021-08-09 20:00:29 公開日:2021-08-06
# (参考訳) 確率的完全性制約を持つ非基底帰納論理プログラミング

Non-ground Abductive Logic Programming with Probabilistic Integrity Constraints ( http://arxiv.org/abs/2108.03033v1 )

ライセンス: CC BY 4.0
Elena Bellodi, Marco Gavanelli, Riccardo Zese, Evelina Lamma, Fabrizio Riguzzi(参考訳) アプリケーションフィールドの数が増えるにつれて、不確実な情報が考慮されている。 一方、誘拐は仮説的推論と不完全知識を扱う強力なツールであることが証明されている。 確率論的論理モデルは不確実な情報を扱うのに適したフレームワークであり、過去10年間に多くの確率論的論理言語が提案されてきた。 帰納論理プログラミング(ALP)の領域では、様々な証明手順が定義されている。 本稿では,変数の確率的推論に対処し,よりリッチな論理言語を考える。 特に、整合性制約「a la IFF」に富んだALPプログラムを、確率値でアノテートしたものと考える。 まず,全帰納的言語とその意味論を分布意味論に基づいて提示する。 次に,前述したものを拡張して得られた証明手順を導入し,その健全性と完全性を証明する。

Uncertain information is being taken into account in an increasing number of application fields. In the meantime, abduction has been proved a powerful tool for handling hypothetical reasoning and incomplete knowledge. Probabilistic logical models are a suitable framework to handle uncertain information, and in the last decade many probabilistic logical languages have been proposed, as well as inference and learning systems for them. In the realm of Abductive Logic Programming (ALP), a variety of proof procedures have been defined as well. In this paper, we consider a richer logic language, coping with probabilistic abduction with variables. In particular, we consider an ALP program enriched with integrity constraints `a la IFF, possibly annotated with a probability value. We first present the overall abductive language, and its semantics according to the Distribution Semantics. We then introduce a proof procedure, obtained by extending one previously presented, and prove its soundness and completeness.
翻訳日:2021-08-09 19:56:23 公開日:2021-08-06
# (参考訳) ハイブリッドASPシステムのセマンティクスを目指して

Towards a Semantics for Hybrid ASP systems ( http://arxiv.org/abs/2108.03061v1 )

ライセンス: CC0 1.0
Pedro Cabalar and Jorge Fandinno and Torsten Schaub and Philipp Wanko(参考訳) 過去数十年にわたり、aspの開発は、高度に高性能なシステムによる表現力のあるモデリング言語をもたらした。 同時に、結果のコンストラクトと推論をキャプチャするセマンティックアンダーピンニングを提供するのがますます難しくなっています。 これは、現実世界のアプリケーションを扱うためにしばしば必要となるハイブリッドasp言語とシステムに関してさらに厳しいものである。 この課題に対処し、ASP.NETと統合する上での正式な詳細化を可能にする抽象的および構造化理論の概念を導入します。 次に、この概念を用いて、Clingoの理論推論フレームワークのセマンティックキャラクタリゼーションを正確に評価し、制約付きHere-and-thereの論理と対応性を確立する。 これにより、ClingCON、ClingOM[DL]、ClingO[LP]といった既存のClingOのハイブリダイゼーションの形式的性質を詳細化できるフォーマルなフレームワークが提供されます。

Over the last decades the development of ASP has brought about an expressive modeling language powered by highly performant systems. At the same time, it gets more and more difficult to provide semantic underpinnings capturing the resulting constructs and inferences. This is even more severe when it comes to hybrid ASP languages and systems that are often needed to handle real-world applications. We address this challenge and introduce the concept of abstract and structured theories that allow us to formally elaborate upon their integration with ASP. We then use this concept to make precise the semantic characterization of CLINGO's theory-reasoning framework and establish its correspondence to the logic of Here-and-there with constraints. This provides us with a formal framework in which we can elaborate formal properties of existing hybridizations of CLINGO such as CLINGCON, CLINGOM[DL], and CLINGO[LP].
翻訳日:2021-08-09 19:37:23 公開日:2021-08-06
# (参考訳) ビデオにおける表情の時空間的コントラスト学習

Spatiotemporal Contrastive Learning of Facial Expressions in Videos ( http://arxiv.org/abs/2108.03064v1 )

ライセンス: CC BY-SA 4.0
Shuvendu Roy, Ali Etemad(参考訳) ビデオにおける表情認識(FER)のための自己教師付きコントラスト学習手法を提案する。 本稿では,コントラスト学習に使用される標準的な空間拡張に加えて,新しい時間的サンプリングに基づく増補法を提案する。 提案手法は,(1)純ランダムサンプリング,(2)一様サンプリング,(3)逐次サンプリングの3つの手法のうちの1つからランダムに抽出する。 これに続いて、最大3つの標準空間拡張が組み合わされる。 次に、FERのために深いR(2+1)Dネットワークを使用し、拡張に基づいて自己教師付きで訓練し、その後微調整する。 Oulu-CASIAデータセットで実験を行い、FERの他の研究と比較する。 以上の結果から,本手法は89.4%の精度を実現し,他の手法を上回って新たな最先端の手法を考案した。 さらなる実験と分析により、提案する時間的増補と既存の空間的増補の有意な寄与が確認された。

We propose a self-supervised contrastive learning approach for facial expression recognition (FER) in videos. We propose a novel temporal sampling-based augmentation scheme to be utilized in addition to standard spatial augmentations used for contrastive learning. Our proposed temporal augmentation scheme randomly picks from one of three temporal sampling techniques: (1) pure random sampling, (2) uniform sampling, and (3) sequential sampling. This is followed by a combination of up to three standard spatial augmentations. We then use a deep R(2+1)D network for FER, which we train in a self-supervised fashion based on the augmentations and subsequently fine-tune. Experiments are performed on the Oulu-CASIA dataset and the performance is compared to other works in FER. The results indicate that our method achieves an accuracy of 89.4%, setting a new state-of-the-art by outperforming other works. Additional experiments and analysis confirm the considerable contribution of the proposed temporal augmentation versus the existing spatial ones.
翻訳日:2021-08-09 18:56:11 公開日:2021-08-06
# (参考訳) 地域別twitterコールアウトからの偽情報洞察の導出

Deriving Disinformation Insights from Geolocalized Twitter Callouts ( http://arxiv.org/abs/2108.03067v1 )

ライセンス: CC BY-SA 4.0
David Tuxworth, Dimosthenis Antypas, Luis Espinosa-Anke, Jose Camacho-Collados, Alun Preece, David Rogers(参考訳) 本稿では,複数の言語にまたがる地理空間分類と埋め込み型言語モデリングの組み合わせを応用して,偽情報に関連するソーシャルメディアデータから洞察を得る2段階の手法を示す。 特に分析は、英語、フランス語、スペイン語の3つのヨーロッパの言語について、twitterと偽情報を中心に行われた。 まず、TwitterデータはBERTを使用してヨーロッパと非ヨーロッパに分類される。 第二に、Word2vecは分類されたテキストに適用され、3つのターゲット言語に対するデータのユーロ中心、非ユーロ中心、およびグローバル表現をもたらす。 この比較分析は, 分類法の有効性だけでなく, 地理的, 時間的, 言語的差異を浮き彫りにした。 i)新しい言語非依存のトランスフォーマーベースの位置情報法 (ii) 語彙特異性と単語埋め込みを利用してユーザー生成コンテンツに疑問を呈する分析的アプローチ (iii) 英語、フランス語、スペイン語における3600万の偽情報関連ツイートのデータセット。

This paper demonstrates a two-stage method for deriving insights from social media data relating to disinformation by applying a combination of geospatial classification and embedding-based language modelling across multiple languages. In particular, the analysis in centered on Twitter and disinformation for three European languages: English, French and Spanish. Firstly, Twitter data is classified into European and non-European sets using BERT. Secondly, Word2vec is applied to the classified texts resulting in Eurocentric, non-Eurocentric and global representations of the data for the three target languages. This comparative analysis demonstrates not only the efficacy of the classification method but also highlights geographic, temporal and linguistic differences in the disinformation-related media. Thus, the contributions of the work are threefold: (i) a novel language-independent transformer-based geolocation method; (ii) an analytical approach that exploits lexical specificity and word embeddings to interrogate user-generated content; and (iii) a dataset of 36 million disinformation related tweets in English, French and Spanish.
翻訳日:2021-08-09 18:39:23 公開日:2021-08-06
# (参考訳) SWSR: オンライン性行為検出のための中国のデータセットとレキシコン

SWSR: A Chinese Dataset and Lexicon for Online Sexism Detection ( http://arxiv.org/abs/2108.03070v1 )

ライセンス: CC BY 4.0
Aiqi Jiang, Xiaohan Yang, Yang Liu, Arkaitz Zubiaga(参考訳) オンライン性差別は、インターネットの健全な発展に影響を及ぼし、社会に悪影響を及ぼす可能性があるため、ソーシャルメディアプラットフォームにおける関心が高まっている。 セクシズム検出領域の研究は増えているが、この研究のほとんどは英語を言語として、twitterをプラットフォームとして焦点を当てている。 本研究の目的は,sina weiboの中国語を考慮し,この研究の範囲を広げることである。 中国初の性差別データセットであるSina Weibo Sexism Review(SWSR)データセットと、虐待的およびジェンダー関連の用語で作られた大きな中国のレキシコンSexHateLexを提案する。 我々は,データ収集とアノテーションのプロセスを導入し,その品質を検証するためにデータセットの特徴を探索的に分析し,中国語で性差別がどのように現れるかを示す。 swsrデータセットは、(i)性差別または非性差別、(ii)性差別カテゴリーおよび(iii)ターゲットタイプを含む、異なるレベルの粒度のラベルを提供する。 最先端機械学習モデルを用いた3つの性差別分類タスクについて実験を行った。 以上の結果から,中国語における性差別検出のベンチマークや,中国語nlpのさらなる研究を必要とするオープン課題を強調するエラー分析を行った。 SWSRデータセットとSexHateLex lexiconが公開されている。

Online sexism has become an increasing concern in social media platforms as it has affected the healthy development of the Internet and can have negative effects in society. While research in the sexism detection domain is growing, most of this research focuses on English as the language and on Twitter as the platform. Our objective here is to broaden the scope of this research by considering the Chinese language on Sina Weibo. We propose the first Chinese sexism dataset -- Sina Weibo Sexism Review (SWSR) dataset --, as well as a large Chinese lexicon SexHateLex made of abusive and gender-related terms. We introduce our data collection and annotation process, and provide an exploratory analysis of the dataset characteristics to validate its quality and to show how sexism is manifested in Chinese. The SWSR dataset provides labels at different levels of granularity including (i) sexism or non-sexism, (ii) sexism category and (iii) target type, which can be exploited, among others, for building computational methods to identify and investigate finer-grained gender-related abusive language. We conduct experiments for the three sexism classification tasks making use of state-of-the-art machine learning models. Our results show competitive performance, providing a benchmark for sexism detection in the Chinese language, as well as an error analysis highlighting open challenges needing more research in Chinese NLP. The SWSR dataset and SexHateLex lexicon are publicly available.
翻訳日:2021-08-09 18:24:07 公開日:2021-08-06
# (参考訳) ユーラーk-平均と超越

Rectified Euler k-means and Beyond ( http://arxiv.org/abs/2108.03081v1 )

ライセンス: CC BY 4.0
Yunxia Lin, Songcan chen(参考訳) オイラー k-平均 (Euler k-means, EulerK) は、まずデータを等次元空間の単位超球面に、ロバストなオイラー核を誘導する複素写像によってマッピングし、次に人気のある$k$-means を用いる。 したがって、大規模データセットに対する単純さやスケーラビリティといったk-meansの特質を享受するだけでなく、EulerKはノイズや外れ値にも頑丈である。 しかし、オイラーKによって捕獲された中心体は単位超球面から逸脱し、したがって厳密な分布感覚で、実際は外れ値である。 この奇妙な現象は、いくつかのジェネリックカーネルクラスタリング手法でも起こります。 直感的には、このような外れたセントロイドを使うのはあまり合理的ではないが、ほとんど参加しない。 偏差をなくすために,データ構造をよりよく特徴付けるために,地図上に存在する実遠心域を取得しながら,オイラーKの利点を保ちながら,REK1とREK2の2つの定形オイラーk平均法を提案する。 具体的には、REK1は中心体に制約を課すことでオイラーKを修正し、REK2は各中心体を元の空間における前像から写像された像とみなし、これらの前像をオイラー核誘導空間で最適化する。 提案したREKは方法論的に拡張して,そのようなカテゴリの問題を解決することができる。 最後に、実験はREK1とREK2の有効性を検証する。

Euler k-means (EulerK) first maps data onto the unit hyper-sphere surface of equi-dimensional space via a complex mapping which induces the robust Euler kernel and next employs the popular $k$-means. Consequently, besides enjoying the virtues of k-means such as simplicity and scalability to large data sets, EulerK is also robust to noises and outliers. Although so, the centroids captured by EulerK deviate from the unit hyper-sphere surface and thus in strict distributional sense, actually are outliers. This weird phenomenon also occurs in some generic kernel clustering methods. Intuitively, using such outlier-like centroids should not be quite reasonable but it is still seldom attended. To eliminate the deviation, we propose two Rectified Euler k-means methods, i.e., REK1 and REK2, which retain the merits of EulerK while acquire real centroids residing on the mapped space to better characterize the data structures. Specifically, REK1 rectifies EulerK by imposing the constraint on the centroids while REK2 views each centroid as the mapped image from a pre-image in the original space and optimizes these pre-images in Euler kernel induced space. Undoubtedly, our proposed REKs can methodologically be extended to solve problems of such a category. Finally, the experiments validate the effectiveness of REK1 and REK2.
翻訳日:2021-08-09 18:22:41 公開日:2021-08-06
# (参考訳) 多言語社会イベント検出のための知識蒸留

Transferring Knowledge Distillation for Multilingual Social Event Detection ( http://arxiv.org/abs/2108.03084v1 )

ライセンス: CC BY 4.0
Jiaqian Ren and Hao Peng and Lei Jiang and Jia Wu and Yongxin Tong and Lihong Wang and Xu Bai and Bo Wang and Qiang Yang(参考訳) 最近発表されたグラフニューラルネットワーク(GNN)は、ソーシャルイベント検出タスクにおける有望なパフォーマンスを示している。 しかし、ほとんどの研究は、豊富なトレーニングサンプルを持つ言語における単言語データに向けられている。 これは、より一般的な多言語設定と、比較的未熟な話し言葉を残している。 本稿では,多言語データストリームにおけるイベント検出のための言語間埋め込みを組み込んだgnnを提案する。 最初のエクスプロイトは、GNNを多言語データで動作させることである。 このために、ノードレベルとセマンティックレベルの両方で異なる言語でメッセージを整列する構築戦略を概説する。 メッセージ間の関係は、同一だが異なる言語で参照されるエンティティをマージすることによって確立される。 非英語のメッセージ表現は、言語間埋め込みによって英語意味空間に変換される。 得られたメッセージグラフは、GNNモデルによって一様に符号化される。 より少ない言語を検出する必要がある特別な場合、CLKDと呼ばれる新しい言語間知識蒸留フレームワークは、英語の類似スレッドから学んだ事前知識を活用して、注釈付きデータの曖昧さを補う。 合成データと実世界のデータセットの両方の実験により、このフレームワークは多言語データとトレーニングサンプルが不足している言語の両方で検出に非常に効果的であることが示されている。

Recently published graph neural networks (GNNs) show promising performance at social event detection tasks. However, most studies are oriented toward monolingual data in languages with abundant training samples. This has left the more common multilingual settings and lesser-spoken languages relatively unexplored. Thus, we present a GNN that incorporates cross-lingual word embeddings for detecting events in multilingual data streams. The first exploit is to make the GNN work with multilingual data. For this, we outline a construction strategy that aligns messages in different languages at both the node and semantic levels. Relationships between messages are established by merging entities that are the same but are referred to in different languages. Non-English message representations are converted into English semantic space via the cross-lingual word embeddings. The resulting message graph is then uniformly encoded by a GNN model. In special cases where a lesser-spoken language needs to be detected, a novel cross-lingual knowledge distillation framework, called CLKD, exploits prior knowledge learned from similar threads in English to make up for the paucity of annotated data. Experiments on both synthetic and real-world datasets show the framework to be highly effective at detection in both multilingual data and in languages where training samples are scarce.
翻訳日:2021-08-09 18:01:35 公開日:2021-08-06
# (参考訳) ソーシャルメディアにおけるヘイトスピーチ検出のための言語間カプセルネットワーク

Cross-lingual Capsule Network for Hate Speech Detection in Social Media ( http://arxiv.org/abs/2108.03089v1 )

ライセンス: CC BY 4.0
Aiqi Jiang, Arkaitz Zubiaga(参考訳) ほとんどのヘイトスピーチ検出研究は単一の言語(一般的には英語)に焦点を当てており、他の言語への一般化性を制限する。 本稿では,言語間ヘイトスピーチ検出タスクについて検討し,ヘイトスピーチの資源を言語から他の言語に適応させることで課題に取り組む。 本稿では,ヘイトスピーチ(CCNL-Ex)のための言語間カプセルネットワーク学習モデルを提案する。 我々のモデルは、AMI@Evalita2018とAMI@Ibereval2018のベンチマークデータセット上での最先端のパフォーマンスを達成する。

Most hate speech detection research focuses on a single language, generally English, which limits their generalisability to other languages. In this paper we investigate the cross-lingual hate speech detection task, tackling the problem by adapting the hate speech resources from one language to another. We propose a cross-lingual capsule network learning model coupled with extra domain-specific lexical semantics for hate speech (CCNL-Ex). Our model achieves state-of-the-art performance on benchmark datasets from AMI@Evalita2018 and AMI@Ibereval2018 involving three languages: English, Spanish and Italian, outperforming state-of-the-art baselines on all six language pairs.
翻訳日:2021-08-09 17:34:18 公開日:2021-08-06
# (参考訳) 確率線形リカレントニューラルネットワークによる経路分類

Path classification by stochastic linear recurrent neural networks ( http://arxiv.org/abs/2108.03090v1 )

ライセンス: CC BY 4.0
Wiebke Bartolomaeus, Youness Boutaib, Sandra Nestler, Holger Rauhut(参考訳) 本稿では, 統計学習理論をモデルとした生体ニューラルネットワークを, 識別活性化機能付き連続時間確率的リカレントニューラルネットワーク (RNN) として, 簡易な設定で機能する方法について検討する。 純粋に確率的(ロバスト)な理論では、高い確率を持つ一般化誤差境界を与え、経験的リスク最小化がクラス内で最良の仮説であることを示す。 トレーニングや分類作業に利用されるユニークな情報として,RNNが供給される経路の部分的なシグネチャを保持することを示す。 これらのRNNは訓練が容易で堅牢であり、これらの観測を合成データと実データの両方で数値実験で裏付ける。 また、精度と堅牢性のトレードオフ現象も示しています。

We investigate the functioning of a classifying biological neural network from the perspective of statistical learning theory, modelled, in a simplified setting, as a continuous-time stochastic recurrent neural network (RNN) with identity activation function. In the purely stochastic (robust) regime, we give a generalisation error bound that holds with high probability, thus showing that the empirical risk minimiser is the best-in-class hypothesis. We show that RNNs retain a partial signature of the paths they are fed as the unique information exploited for training and classification tasks. We argue that these RNNs are easy to train and robust and back these observations with numerical experiments on both synthetic and real data. We also exhibit a trade-off phenomenon between accuracy and robustness.
翻訳日:2021-08-09 17:21:41 公開日:2021-08-06
# (参考訳) ペアワイズアフィニティによる1次元非パラメトリック潜在空間モデルの局在

Localization in 1D non-parametric latent space models from pairwise affinities ( http://arxiv.org/abs/2108.03098v1 )

ライセンス: CC BY 4.0
Christophe Giraud and Yann Issartel and Nicolas Verzelen(参考訳) 対の親和性から一次元トーラスにおける潜伏位置を推定する問題を考察する。 一対のアイテム間の観測された親和性は、トーラス上の2つのアイテムの潜在位置$x^*_{i},x^*_{j}$の関数$f(x^*_{i},x^*_{j})$のノイズ観測としてモデル化される。 アフィニティ関数 $f$ は未知であり、$x$ と $y$ の間の距離が小さいと$f(x,y)$ が大きいことを保証するいくつかの形状制約を満たすと仮定される。 この非パラメトリックモデリングは、データに適合する優れた柔軟性を提供します。 我々は、高い確率で$\sqrt{\log(n)/n}$の順序の最大誤差で、潜在位置を確実にローカライズする推定手順を導入する。 この速度はミニマックス最適であることが証明されている。 この手順の計算効率の良い変種は、より制限的な仮定の下でも解析される。 我々の一般的な結果は、統計セレーションの問題によりインスタンス化することができ、順序付けにおける最大誤差に対する新たな境界が導かれる。

We consider the problem of estimating latent positions in a one-dimensional torus from pairwise affinities. The observed affinity between a pair of items is modeled as a noisy observation of a function $f(x^*_{i},x^*_{j})$ of the latent positions $x^*_{i},x^*_{j}$ of the two items on the torus. The affinity function $f$ is unknown, and it is only assumed to fulfill some shape constraints ensuring that $f(x,y)$ is large when the distance between $x$ and $y$ is small, and vice-versa. This non-parametric modeling offers a good flexibility to fit data. We introduce an estimation procedure that provably localizes all the latent positions with a maximum error of the order of $\sqrt{\log(n)/n}$, with high-probability. This rate is proven to be minimax optimal. A computationally efficient variant of the procedure is also analyzed under some more restrictive assumptions. Our general results can be instantiated to the problem of statistical seriation, leading to new bounds for the maximum error in the ordering.
翻訳日:2021-08-09 16:46:52 公開日:2021-08-06
# (参考訳) TS4Net:オブジェクトの回転検出のための2段階サンプル選択戦略

TS4Net: Two-Stage Sample Selective Strategy for Rotating Object Detection ( http://arxiv.org/abs/2108.03116v1 )

ライセンス: CC BY 4.0
Kai Feng, Weixing Li, Jun Han, Feng Pan, Dongdong Zheng(参考訳) 回転物体検出は、空中写真、リモートセンシング画像、UAV等に広く応用されている。 現在、回転する物体検出データセットのほとんどはリモートセンシングの分野に焦点を当てており、これらの画像は通常高高度のシーンで撮影される。 しかし、低高度で撮影された画像データセット、例えばドローンベースのデータセットも考慮すべきである。 そこで我々は、回転物体検出とUAV応用の研究開発を促進するために、UAV-RODという低高度ドローンベースのデータセットを提案する。 UAV-RODは1577枚の画像と30,090個の車種からなる。 特に、UAV-RODは、回転物体検出、車両の向き認識、物体カウントタスクに利用できる。 水平方向の物体検出と比較すると、回転検出の回帰段階は難しい問題である。 本稿では、アンカーリファインメントモジュール(ARM)と2段階サンプル選択戦略(TS4)を含む回転物体検出器TS4Netを提案する。 ARMは、予め設定された水平アンカーを、2段のアンカーの改良により高品質なローテーションアンカーに変換することができる。 TS4モジュールは、異なる段階の回帰タスクに適応する正と負のサンプルを割り当てるために、異なる制約されたサンプル選択戦略を利用する。 アームとts4の利点により、ts4netは1つのプリセットされた水平アンカーのみで回転物体検出に優れた性能を達成できる。 uav-rodデータセットと3つのリモートセンシングデータセットに関する広範囲な実験結果から,本手法が最先端手法と競合する性能を実現することを証明した。

Rotating object detection has wide applications in aerial photographs, remote sensing images, UAVs, etc. At present, most of the rotating object detection datasets focus on the field of remote sensing, and these images are usually shot in high-altitude scenes. However, image datasets captured at low-altitude areas also should be concerned, such as drone-based datasets. So we present a low-altitude dronebased dataset, named UAV-ROD, aiming to promote the research and development in rotating object detection and UAV applications. The UAV-ROD consists of 1577 images and 30,090 instances of car category annotated by oriented bounding boxes. In particular, The UAV-ROD can be utilized for the rotating object detection, vehicle orientation recognition and object counting tasks. Compared with horizontal object detection, the regression stage of the rotation detection is a tricky problem. In this paper, we propose a rotating object detector TS4Net, which contains anchor refinement module (ARM) and two-stage sample selective strategy (TS4). The ARM can convert preseted horizontal anchors into high-quality rotated anchors through twostage anchor refinement. The TS4 module utilizes different constrained sample selective strategies to allocate positive and negative samples, which is adaptive to the regression task in different stages. Benefiting from the ARM and TS4, the TS4Net can achieve superior performance for rotating object detection solely with one preseted horizontal anchor. Extensive experimental results on UAV-ROD dataset and three remote sensing datasets DOTA, HRSC2016 and UCAS-AOD demonstrate that our method achieves competitive performance against most state-of-the-art methods.
翻訳日:2021-08-09 16:45:21 公開日:2021-08-06
# (参考訳) 肺超音波の分節化とcovid-19と市中肺炎の適応

Lung Ultrasound Segmentation and Adaptation between COVID-19 and Community-Acquired Pneumonia ( http://arxiv.org/abs/2108.03138v1 )

ライセンス: CC0 1.0
Harry Mason, Lorenzo Cristoni, Andrew Walden, Roberto Lazzari, Thomas Pulimood, Louis Grandjean, Claudia AM Gandini Wheeler-Kingshott, Yipeng Hu, Zachary MC Baum(参考訳) 肺超音波検査は間質性肺炎の典型的なパターンを検出するのに有効であることが、COVID-19および他の地域性肺炎(CAP)患者のポイント・オブ・ケア・ツールとして示されている。 本研究では,ハイパーエコーb線分節化タスクに注目する。 深層ニューラルネットワークを用いて病理に敏感なアーチファクトとその超音波パターンを示す領域を自動的に概説する。 実世界のデータスカースシナリオでは、COVID-19とCAP肺超音波データを用いてネットワークをトレーニングする手法について検討し、微調整と教師なしドメイン適応の比較を行った。 いずれのタイプの肺条件を推論において分割することは、流行の進行段階において様々な臨床応用をサポートするが、資源制約された臨床シナリオの価値も示す。 実際の臨床データをCAP患者に適応させることで、Diceのスコアは0.60から0.87(p < 0.001)に、独立したCOVID-19患者では0.43から0.71(p < 0.001)に改善した。 臨床実践において機械学習モデルをデプロイするための一般的な制約であるトレーニングデータセットと適応データセットの両方において、少量のデータだけで改善が実証されたことは実用的価値である。 また,ラベル付きCAPデータから未ラベルのCOVID-19データへの逆適応は,いずれの条件においても改善しなかったことも報告した。 さらに, このポイント・オブ・ケア肺超音波応用において, セグメンテーション性能とラベルの一貫性, データ領域の多様性を相関させる可能性を示す。

Lung ultrasound imaging has been shown effective in detecting typical patterns for interstitial pneumonia, as a point-of-care tool for both patients with COVID-19 and other community-acquired pneumonia (CAP). In this work, we focus on the hyperechoic B-line segmentation task. Using deep neural networks, we automatically outline the regions that are indicative of pathology-sensitive artifacts and their associated sonographic patterns. With a real-world data-scarce scenario, we investigate approaches to utilize both COVID-19 and CAP lung ultrasound data to train the networks; comparing fine-tuning and unsupervised domain adaptation. Segmenting either type of lung condition at inference may support a range of clinical applications during evolving epidemic stages, but also demonstrates value in resource-constrained clinical scenarios. Adapting real clinical data acquired from COVID-19 patients to those from CAP patients significantly improved Dice scores from 0.60 to 0.87 (p < 0.001) and from 0.43 to 0.71 (p < 0.001), on independent COVID-19 and CAP test cases, respectively. It is of practical value that the improvement was demonstrated with only a small amount of data in both training and adaptation data sets, a common constraint for deploying machine learning models in clinical practice. Interestingly, we also report that the inverse adaptation, from labelled CAP data to unlabeled COVID-19 data, did not demonstrate an improvement when tested on either condition. Furthermore, we offer a possible explanation that correlates the segmentation performance to label consistency and data domain diversity in this point-of-care lung ultrasound application.
翻訳日:2021-08-09 16:28:30 公開日:2021-08-06
# (参考訳) ELSED: 線画の強化

ELSED: Enhanced Line SEgment Drawing ( http://arxiv.org/abs/2108.03144v1 )

ライセンス: CC BY 4.0
Iago Su\'arez, Jos\'e M. Buenaposada, Luis Baumela(参考訳) コーナー、セグメント、ブロブなどのローカル機能を検出することは、多くのコンピュータビジョンアプリケーションのパイプラインの最初のステップである。 リアルタイムアプリケーションにはスピードが不可欠だ。 本稿では,文献中で最速の線分検出器である elsed について述べる。 その効率の鍵は、小さな不連続の存在下で勾配アラインされたピクセルを接続する局所セグメント成長アルゴリズムである。 提案したアルゴリズムは、非常にローエンドなハードウェアを持つデバイスで動作するだけでなく、手作業に応じて短いセグメントや長いセグメントの検出を促進するためにパラメータ化することもできる。 セグメント検出器の精度と再現性を評価するための新しい指標も導入する。 公開ベンチマークの異なる実験では,本手法が文献において最も効率的であることを証明し,その精度を定量的に評価した。

Detecting local features, such as corners, segments or blobs, is the first step in the pipeline of many Computer Vision applications. Its speed is crucial for real time applications. In this paper we present ELSED, the fastest line segment detector in the literature. The key for its efficiency is a local segment growing algorithm that connects gradient aligned pixels in presence of small discontinuities. The proposed algorithm not only runs in devices with very low end hardware, but may also be parametrized to foster the detection of short or longer segments, depending on the task at hand. We also introduce new metrics to evaluate the accuracy and repeatability of segment detectors. In our experiments with different public benchmarks we prove that our method is the most efficient in the literature and quantify the accuracy traded for such gain.
翻訳日:2021-08-09 16:19:39 公開日:2021-08-06
# (参考訳) 自律ロボットにおける高レベルデバッグのための特徴パラメータ空間の到達領域

Attainment Regions in Feature-Parameter Space for High-Level Debugging in Autonomous Robots ( http://arxiv.org/abs/2108.03150v1 )

ライセンス: CC BY 4.0
Sim\'on C. Smith, Subramanian Ramamoorthy(参考訳) 異なるシナリオでコントローラのパフォーマンスを理解することは、安全クリティカルなタスクにデプロイされるロボットにとって非常に重要です。 もし我々が世界の力学のモデルを持っていなければ、複雑な領域ではよくあることだが、環境との相互作用に基づいてロボットの性能関数を近似する必要があるかもしれない。 このようなパフォーマンス機能は、ロボットの動作に関する洞察を与え、手動でコントローラを微調整することを可能にする。 作用状態空間が大きい高次元系では、制御器の微調整は非自明である。 そこで本研究では,コントローラの外部特徴とパラメータによってドメインが定義される性能関数を提案する。 達成領域は、特徴パラメータペアによって定義されたそのようなドメイン上で定義され、タスクの実行を成功させるために役立ちます。 特徴パラメータ空間の使用 - 作用状態空間とは対照的に、より単純な(低次元空間)上でコントローラを適応、説明、微調整することができる。 ロボットがタスクをうまく実行した場合、達成領域を使用して、コントローラの限界とその堅牢性に関する洞察を得る。 ロボットがタスクを実行に失敗した場合、リージョンを使用してコントローラをデバッグし、ソリューションに対する適応的かつ反則的な変更を見つけます。 このアプローチのもう1つの利点は、高次元空間における性能関数のガウス過程回帰を用いて一般化できることである。 提案手法をテストするために,移動ロボットが異なる地形条件を走行しながら,シミュレーションにおける性能関数の近似を学習した。 そして,サンプル効率のよい手法により,同様の環境下での達成領域を物理ロボットに伝達する。

Understanding a controller's performance in different scenarios is crucial for robots that are going to be deployed in safety-critical tasks. If we do not have a model of the dynamics of the world, which is often the case in complex domains, we may need to approximate a performance function of the robot based on its interaction with the environment. Such a performance function gives us insights into the behaviour of the robot, allowing us to fine-tune the controller with manual interventions. In high-dimensionality systems, where the actionstate space is large, fine-tuning a controller is non-trivial. To overcome this problem, we propose a performance function whose domain is defined by external features and parameters of the controller. Attainment regions are defined over such a domain defined by feature-parameter pairs, and serve the purpose of enabling prediction of successful execution of the task. The use of the feature-parameter space -in contrast to the action-state space- allows us to adapt, explain and finetune the controller over a simpler (i.e., lower dimensional space). When the robot successfully executes the task, we use the attainment regions to gain insights into the limits of the controller, and its robustness. When the robot fails to execute the task, we use the regions to debug the controller and find adaptive and counterfactual changes to the solutions. Another advantage of this approach is that we can generalise through the use of Gaussian processes regression of the performance function in the high-dimensional space. To test our approach, we demonstrate learning an approximation to the performance function in simulation, with a mobile robot traversing different terrain conditions. Then, with a sample-efficient method, we propagate the attainment regions to a physical robot in a similar environment.
翻訳日:2021-08-09 16:00:55 公開日:2021-08-06
# (参考訳) ビデオオブジェクトセグメンテーションのためのフルダブル戦略

Full-Duplex Strategy for Video Object Segmentation ( http://arxiv.org/abs/2108.03151v1 )

ライセンス: CC BY 4.0
Ge-Peng Ji, Keren Fu, Zhe Wu, Deng-Ping Fan, Jianbing Shen, Ling Shao(参考訳) 出現と動きはビデオオブジェクトセグメンテーション(VOS)における2つの重要な情報源である。 従来の手法は主に単純なソリューションの使用に重点を置いており、これらの2つのキュー間の機能コラボレーションの上限を低くしている。 本稿では, FSNet (Full-duplex Strategy Network) と呼ばれる新しいフレームワークについて検討し, 埋め込みサブ空間間の双方向メッセージ伝達を実現するために, RCAM (Relational Cross-attention Module) を設計する。 さらに,両方向浄化モジュール(BPM)を導入し,空間的・時間的埋め込み間の不整合性を更新し,モデルロバスト性を効果的に向上する。 我々のFSNetは、全二重戦略における相互拘束を考慮し、融合・復号ステージの前に同時にクロスモーダルな特徴通過(すなわち、伝送と受信)を行い、VOSの様々な挑戦シナリオ(例えば、動きのぼやけ、閉塞)に対して堅牢である。 一般的な5つのベンチマーク(DAVIS$_{16}$、FBMS、MCL、SegTrack-V2、DAVSOD$_{19}$)の大規模な実験は、我々のFSNetがVOSとビデオの精細なオブジェクト検出タスクの両方において、他の最先端技術よりも優れていることを示している。

Appearance and motion are two important sources of information in video object segmentation (VOS). Previous methods mainly focus on using simplex solutions, lowering the upper bound of feature collaboration among and across these two cues. In this paper, we study a novel framework, termed the FSNet (Full-duplex Strategy Network), which designs a relational cross-attention module (RCAM) to achieve the bidirectional message propagation across embedding subspaces. Furthermore, the bidirectional purification module (BPM) is introduced to update the inconsistent features between the spatial-temporal embeddings, effectively improving the model robustness. By considering the mutual restraint within the full-duplex strategy, our FSNet performs the cross-modal feature-passing (i.e., transmission and receiving) simultaneously before the fusion and decoding stage, making it robust to various challenging scenarios (e.g., motion blur, occlusion) in VOS. Extensive experiments on five popular benchmarks (i.e., DAVIS$_{16}$, FBMS, MCL, SegTrack-V2, and DAVSOD$_{19}$) show that our FSNet outperforms other state-of-the-arts for both the VOS and video salient object detection tasks.
翻訳日:2021-08-09 15:50:09 公開日:2021-08-06
# (参考訳) GLASS:形状空間の幾何学的潜在拡張

GLASS: Geometric Latent Augmentation for Shape Spaces ( http://arxiv.org/abs/2108.03225v1 )

ライセンス: CC BY 4.0
Sanjeev Muralikrishnan (1), Siddhartha Chaudhuri (2 and 3), Noam Aigerman (2), Vladimir Kim (2), Matthew Fisher (2) and Niloy Mitra (1 and 2) ((1) University College London, (2) Adobe Research, (3) IIT Bombay)(参考訳) 本研究では, 非常にスパースな3次元モデルによる生成モデルの訓練の問題点について検討する。 幾何学的に動機づけられたエネルギーを用いて拡張し、サンプル(トレーニング)モデルのスパースコレクションを増強する。 本研究では,ARAP(as-rigid-as-possible)エネルギーのヘシアンを解析し,基礎となる(局所的な)形状空間に投射し,拡張データセットを用いて可変オートエンコーダ(VAE)のトレーニングを行う。 我々は,vaeの潜在空間の構築と関連するデータセットの拡張を繰り返すことで,幾何学的かつ意味的に有効なサンプルを作成するための,より豊かで表現力豊かな生成空間を徐々に明らかにする。 当社のフレームワークでは,高品質な3Dモデルの小さなセットであっても,生成可能な3Dモデルをトレーニングすることが可能です。 本手法は強力なベースラインに対して広範囲に評価し, アブレーション研究を行い, 形状対応の確立への応用を示す。 3~10のトレーニング形状から始めても,興味深く有意義な形状変化を示す複数の例を示す。

We investigate the problem of training generative models on a very sparse collection of 3D models. We use geometrically motivated energies to augment and thus boost a sparse collection of example (training) models. We analyze the Hessian of the as-rigid-as-possible (ARAP) energy to sample from and project to the underlying (local) shape space, and use the augmented dataset to train a variational autoencoder (VAE). We iterate the process of building latent spaces of VAE and augmenting the associated dataset, to progressively reveal a richer and more expressive generative space for creating geometrically and semantically valid samples. Our framework allows us to train generative 3D models even with a small set of good quality 3D models, which are typically hard to curate. We extensively evaluate our method against a set of strong baselines, provide ablation studies and demonstrate application towards establishing shape correspondences. We present multiple examples of interesting and meaningful shape variations even when starting from as few as 3-10 training shapes.
翻訳日:2021-08-09 15:10:53 公開日:2021-08-06
# 時間的抽象部分モデル

Temporally Abstract Partial Models ( http://arxiv.org/abs/2108.03213v1 )

ライセンス: Link先を確認
Khimya Khetarpal, Zafarali Ahmed, Gheorghe Comanici, Doina Precup(参考訳) 人間と動物は、様々な行動の過程を多くの時間スケールで推論し予測する能力を持っている。 強化学習において、オプションモデル(Sutton, Precup \& Singh, 1999; Precup, 2000)は、このような時間的抽象的な予測と推論の枠組みを提供する。 自然知的エージェントは、特定の状況において関連する、あるいは実現可能な行動コースに注目し、時には手頃な行動と呼ばれることもある。 本稿では,選択肢の余裕の概念を定義し,ある状況においてのみ選択肢が手頃な価格であることを考慮して,時間的に抽象的な部分的オプションモデルを開発する。 このようなモデルを用いた場合の計画と学習における推定誤差と近似誤差のトレードオフを分析し、興味深い特別なケースを特定する。 さらに、部分的オプションモデルが計画の効率に与える影響を実証的に示す。

Humans and animals have the ability to reason and make predictions about different courses of action at many time scales. In reinforcement learning, option models (Sutton, Precup \& Singh, 1999; Precup, 2000) provide the framework for this kind of temporally abstract prediction and reasoning. Natural intelligent agents are also able to focus their attention on courses of action that are relevant or feasible in a given situation, sometimes termed affordable actions. In this paper, we define a notion of affordances for options, and develop temporally abstract partial option models, that take into account the fact that an option might be affordable only in certain situations. We analyze the trade-offs between estimation and approximation error in planning and learning when using such models, and identify some interesting special cases. Additionally, we demonstrate empirically the potential impact of partial option models on the efficiency of planning.
翻訳日:2021-08-09 14:45:03 公開日:2021-08-06
# 心臓血管疾患に対するAIを用いた大動脈血管木切開術

AI-based Aortic Vessel Tree Segmentation for Cardiovascular Diseases Treatment: Status Quo ( http://arxiv.org/abs/2108.02998v1 )

ライセンス: Link先を確認
Yuan Jin, Antonio Pepe, Jianning Li, Christina Gsaxner, Fen-hua Zhao, Jens Kleesiek, Alejandro F. Frangi, Jan Egger(参考訳) 大動脈管木は大動脈とその分岐動脈から構成され、全身に血液を供給する上で重要な役割を果たす。 動脈瘤や解離などの大動脈疾患は大動脈破裂を引き起こすことがあるが、開腹手術による治療は非常に危険である。 したがって、患者は、画像による血管の定期的な検査を必要とする定常的な監視の下で、一般的に薬物治療を受ける。 診断・監視のための標準的な画像モダリティをCT(CT)と算出し、造影剤と組み合わせれば大動脈とその分岐血管の詳細な画像が得られ、CT血管造影(CTA)が生じる。 最適に、連続するctaからの大動脈血管ツリーの形状をオーバーレイして比較する。 これにより大動脈の変化を検出できるだけでなく、原発性病理や新規に発達した末梢血管木の変化も検出できる。 この再建には、手作業で行う場合、スライス・スライス・コントーリングが必要であり、1本の大動脈管木で一日を要し、臨床での使用は不可能である。 一方、自動的または半自動的な容器木分割アルゴリズムは、手動の実行時間のごく一部でこのタスクを完了し、臨床医の臨床ルーチンと並行して実行することができる。 本稿では,大動脈管ツリーの自動的および半自動的なセグメンテーションのための計算手法を体系的に検討する。 このレビューは、これらの最先端のアプローチが臨床実践への応用にどの程度近いか、そしてこの研究分野がどれほど活発であるかについて、出版物、データセット、課題の数を考慮して詳細に議論することで締めくくくっている。

The aortic vessel tree is composed of the aorta and its branching arteries, and plays a key role in supplying the whole body with blood. Aortic diseases, like aneurysms or dissections, can lead to an aortic rupture, whose treatment with open surgery is highly risky. Therefore, patients commonly undergo drug treatment under constant monitoring, which requires regular inspections of the vessels through imaging. The standard imaging modality for diagnosis and monitoring is computed tomography (CT), which can provide a detailed picture of the aorta and its branching vessels if combined with a contrast agent, resulting in a CT angiography (CTA). Optimally, the whole aortic vessel tree geometry from consecutive CTAs, are overlaid and compared. This allows to not only detect changes in the aorta, but also more peripheral vessel tree changes, caused by the primary pathology or newly developed. When performed manually, this reconstruction requires slice by slice contouring, which could easily take a whole day for a single aortic vessel tree and, hence, is not feasible in clinical practice. Automatic or semi-automatic vessel tree segmentation algorithms, on the other hand, can complete this task in a fraction of the manual execution time and run in parallel to the clinical routine of the clinicians. In this paper, we systematically review computing techniques for the automatic and semi-automatic segmentation of the aortic vessel tree. The review concludes with an in-depth discussion on how close these state-of-the-art approaches are to an application in clinical practice and how active this research field is, taking into account the number of publications, datasets and challenges.
翻訳日:2021-08-09 14:43:39 公開日:2021-08-06
# StrucTexT:マルチモーダル変換器による構造化テキスト理解

StrucTexT: Structured Text Understanding with Multi-Modal Transformers ( http://arxiv.org/abs/2108.02923v1 )

ライセンス: Link先を確認
Yulin Li and Yuxi Qian and Yuchen Yu and Xiameng Qin and Chengquan Zhang and Yan Liu and Kun Yao and Junyu Han and Jingtuo Liu and Errui Ding(参考訳) Visually Rich Documents (VRD)における構造化テキスト理解は、ドキュメントインテリジェンスの重要な部分である。 VRDにおけるコンテンツとレイアウトの複雑さのため、構造化されたテキスト理解は難しい課題でした。 既存の研究の多くは、この問題をエンティティラベリングとエンティティリンクという2つのサブタスクに分離している。 しかし、異なるレベルから効率的に構造化データを抽出するソリューションに関する作業はほとんどなかった。 本稿では,両サブタスクを柔軟かつ効果的に処理できる,structext という統一フレームワークを提案する。 具体的には、変換器に基づいて、異なるレベルの粒度でエンティティラベリングやエンティティリンクタスクを扱うセグメントツーケン整列エンコーダを導入する。 さらに,よりリッチな表現を学ぶために,3つの自己監督タスクを用いた新しい事前学習戦略を設計する。 StrucTexTは、既存のMasked Visual Language Modelingタスクと、Sentence Longngth PredictionとPaired Boxes Directionタスクを使用して、テキスト、画像、レイアウトにマルチモーダル情報を組み込む。 本手法は,セグメントレベルとトークンレベルで構造化テキスト理解を行い,funsd,sroie,ephoieデータセットにおいて,最先端のテキスト理解よりも優れた性能を示す。

Structured text understanding on Visually Rich Documents (VRDs) is a crucial part of Document Intelligence. Due to the complexity of content and layout in VRDs, structured text understanding has been a challenging task. Most existing studies decoupled this problem into two sub-tasks: entity labeling and entity linking, which require an entire understanding of the context of documents at both token and segment levels. However, little work has been concerned with the solutions that efficiently extract the structured data from different levels. This paper proposes a unified framework named StrucTexT, which is flexible and effective for handling both sub-tasks. Specifically, based on the transformer, we introduce a segment-token aligned encoder to deal with the entity labeling and entity linking tasks at different levels of granularity. Moreover, we design a novel pre-training strategy with three self-supervised tasks to learn a richer representation. StrucTexT uses the existing Masked Visual Language Modeling task and the new Sentence Length Prediction and Paired Boxes Direction tasks to incorporate the multi-modal information across text, image, and layout. We evaluate our method for structured text understanding at segment-level and token-level and show it outperforms the state-of-the-art counterparts with significantly superior performance on the FUNSD, SROIE, and EPHOIE datasets.
翻訳日:2021-08-09 14:43:13 公開日:2021-08-06
# AceNAS: ウェイトシェアの弱スーパービジョンでニューラルネットワークのランク付けを学ぶ

AceNAS: Learning to Rank Ace Neural Architectures with Weak Supervision of Weight Sharing ( http://arxiv.org/abs/2108.03001v1 )

ライセンス: Link先を確認
Yuge Zhang and Chenqian Yan and Quanlu Zhang and Li Lyna Zhang and Yaming Yang and Xiaotian Gao and Yuqing Yang(参考訳) アーキテクチャ性能予測器はニューラルアーキテクチャサーチ(NAS)で広く使われている。 それらは単純かつ効果的であることが示されているが、従来の芸術の最適化目的(例えば、空間内のすべてのアーキテクチャの正確な精度推定や完全なランキング)はNASのランク付けの性質を捉えていなかった。 さらに、信頼性の高い予測器を構築するには、多くの接地アーキテクチャと精度のペアが必要であり、計算コストが高すぎる。 そこで本稿では,NASを新たな視点から検討し,Learning to Rank(LTR)手法を導入して,空間から最高の(最悪の)アーキテクチャを選択する。 具体的には,正規化割引累積ゲイン(ndcg)を目標メトリックとして,ラムダランクをトレーニングアルゴリズムとして使用することを提案する。 また,スーパーネットから得られた弱いラベルに対するアーキテクチャ表現を事前トレーニングし,スクラッチからトレーニングした少数のアーキテクチャを用いてランキングモデルを微調整することにより,重量分散による弱い監督を活用することを提案する。 NASベンチマークと大規模検索空間の大規模な実験により,提案手法はSOTAよりも大幅にコストを削減した。

Architecture performance predictors have been widely used in neural architecture search (NAS). Although they are shown to be simple and effective, the optimization objectives in previous arts (e.g., precise accuracy estimation or perfect ranking of all architectures in the space) did not capture the ranking nature of NAS. In addition, a large number of ground-truth architecture-accuracy pairs are usually required to build a reliable predictor, making the process too computationally expensive. To overcome these, in this paper, we look at NAS from a novel point of view and introduce Learning to Rank (LTR) methods to select the best (ace) architectures from a space. Specifically, we propose to use Normalized Discounted Cumulative Gain (NDCG) as the target metric and LambdaRank as the training algorithm. We also propose to leverage weak supervision from weight sharing by pretraining architecture representation on weak labels obtained from the super-net and then finetuning the ranking model using a small number of architectures trained from scratch. Extensive experiments on NAS benchmarks and large-scale search spaces demonstrate that our approach outperforms SOTA with a significantly reduced search cost.
翻訳日:2021-08-09 14:42:27 公開日:2021-08-06
# アクティブラーニングによる運転シナリオ軌跡の分析

Analysis of Driving Scenario Trajectories with Active Learning ( http://arxiv.org/abs/2108.03217v1 )

ライセンス: Link先を確認
Sanna Jarl and Sadegh Rahrovani and Morteza Haghir Chehreghani(参考訳) 明示的なルール(すなわち知識に基づく手法)に基づいて、駆動シナリオの軌跡を注釈付けすることは、2つのシナリオクラスの境界にあるシナリオの偽陽性/負の分類、未知のシナリオクラス、および異常といった誤りを負う可能性がある。 一方、アノテーションによるラベルの検証はコスト効率が良くない。 この目的のために、アクティブラーニング(al)は、アノテーション/エキスパートを効率的に含むことによって、アノテーション手順を改善する可能性がある。 本研究では,運転軌跡時系列データをアノテートする能動的学習フレームワークを開発する。 最初のステップでは、時系列の軌跡を潜時空間に埋め込み、時間的性質を抽出する。 本研究では,多変量時間列t-Distributed Stochastic Neighbor Embedding (mTSNE), Recurrent Auto-Encoder (RAE), Variational Recurrent Auto-Encoder (VRAE)の3種類の遅延空間表現について検討する。 次に、異なる分類モデルを持つ異なるアクティブラーニングパラダイムを組込みデータに適用する。 特に,2つの分類器であるニューラルネットワーク(nn)とサポートベクターマシン(svm)について,3つのアクティブラーニングクエリ戦略(エントロピー,マージン,ランダム)について検討した。 以下に、未知のクラスを発見するためのフレームワークの可能性について検討し、クラス外軌道の識別にどのように使用できるかを示す。

Annotating the driving scenario trajectories based only on explicit rules (i.e., knowledge-based methods) can be subject to errors, such as false positive/negative classification of scenarios that lie on the border of two scenario classes, missing unknown scenario classes, and also anomalies. On the other side, verifying the labels by the annotators is not cost-efficient. For this purpose, active learning (AL) could potentially improve the annotation procedure by inclusion of an annotator/expert in an efficient way. In this study, we develop an active learning framework to annotate driving trajectory time-series data. At the first step, we compute an embedding of the time-series trajectories into a latent space in order to extract the temporal nature. For this purpose, we study three different latent space representations: multivariate Time Series t-Distributed Stochastic Neighbor Embedding (mTSNE), Recurrent Auto-Encoder (RAE) and Variational Recurrent Auto-Encoder (VRAE). We then apply different active learning paradigms with different classification models to the embedded data. In particular, we study the two classifiers Neural Network (NN) and Support Vector Machines (SVM), with three active learning query strategies (i.e., entropy, margin and random). In the following, we explore the possibilities of the framework to discover unknown classes and demonstrate how it can be used to identify the out-of-class trajectories.
翻訳日:2021-08-09 14:41:51 公開日:2021-08-06
# 同定可能なエネルギーに基づく表現:不均一因果効果推定への応用

Identifiable Energy-based Representations: An Application to Estimating Heterogeneous Causal Effects ( http://arxiv.org/abs/2108.03039v1 )

ライセンス: Link先を確認
Yao Zhang and Jeroen Berrevoets and Mihaela van der Schaar(参考訳) 条件付き平均治療効果(CATEs)は、多数の個体における異種性の影響を理解するのに役立つ。 しかし、典型的なCATE学習者は、CATEが識別可能であるために、すべての共起変数が測定されていると仮定する。 多くの場合、この要件はCATEを推定するためのサンプルの複雑さの増加を犠牲にして、単に多くの変数を収集することで満たされる。 これに対抗するために,ノイズコントラッシブ損失関数を用いて変数の低次元表現を学習するエネルギーベースモデル(EBM)を提案する。 EBMでは、既存のモデルや学習者がCATEを推定するために開発した学習者の次元的呪いを緩和する前処理のステップを導入します。 我々は、ebmが表現を部分的に普遍定数まで識別でき、またモデルの誤特定から過剰な情報損失を避けるための普遍近似能力を持つことを証明している。 実験は表現の収束を実証し、また様々なベンチマーク次元の低減法によって得られた変数や表現よりも、表現のキャットの推定が優れていることを示した。

Conditional average treatment effects (CATEs) allow us to understand the effect heterogeneity across a large population of individuals. However, typical CATE learners assume all confounding variables are measured in order for the CATE to be identifiable. Often, this requirement is satisfied by simply collecting many variables, at the expense of increased sample complexity for estimating CATEs. To combat this, we propose an energy-based model (EBM) that learns a low-dimensional representation of the variables by employing a noise contrastive loss function. With our EBM we introduce a preprocessing step that alleviates the dimensionality curse for any existing model and learner developed for estimating CATE. We prove that our EBM keeps the representations partially identifiable up to some universal constant, as well as having universal approximation capability to avoid excessive information loss from model misspecification; these properties combined with our loss function, enable the representations to converge and keep the CATE estimation consistent. Experiments demonstrate the convergence of the representations, as well as show that estimating CATEs on our representations performs better than on the variables or the representations obtained via various benchmark dimensionality reduction methods.
翻訳日:2021-08-09 14:41:17 公開日:2021-08-06
# 不確実性に基づく医用セグメンテーションのための動的グラフ近傍

Uncertainty-Based Dynamic Graph Neighborhoods For Medical Segmentation ( http://arxiv.org/abs/2108.03117v1 )

ライセンス: Link先を確認
Ufuk Demir, Atahan Ozer, Yusuf H. Sahin, Gozde Unal(参考訳) 近年,深層学習に基づく手法は,セグメンテーションなどの重要な医用画像解析タスクに成功している。 セグメンテーションの結果の処理と精錬は、セグメンテーションネットワークに由来する誤分類を減らす一般的なプラクティスである。 セグメント化された体積/面積の構造に焦点を当てた条件ランダム場(CRF)のような広く使われている手法に加えて、グラフベースの最近のアプローチでは、グラフ内の特定の不確実点を利用し、小さなグラフ畳み込みネットワーク(GCN)に従ってセグメント化を洗練する。 しかし、このアプローチの欠点は2つあり、グラフのエッジのほとんどはランダムに割り当てられ、gcnはセグメンテーションネットワークから独立してトレーニングされる。 これらの問題に対処するために,特徴距離に応じて新しい隣接選択機構を定義し,学習手順における2つのネットワークを結合する。 CT(CT)画像による膵分画実験の結果,定量値の改善が示された。 また,提案手法が生成する動的近傍を調べることで,意味的に類似した画像部分間のエッジが観察される。 提案手法は,視覚的結果に示すように,セグメンテーションマップの質的拡張も示す。

In recent years, deep learning based methods have shown success in essential medical image analysis tasks such as segmentation. Post-processing and refining the results of segmentation is a common practice to decrease the misclassifications originating from the segmentation network. In addition to widely used methods like Conditional Random Fields (CRFs) which focus on the structure of the segmented volume/area, a graph-based recent approach makes use of certain and uncertain points in a graph and refines the segmentation according to a small graph convolutional network (GCN). However, there are two drawbacks of the approach: most of the edges in the graph are assigned randomly and the GCN is trained independently from the segmentation network. To address these issues, we define a new neighbor-selection mechanism according to feature distances and combine the two networks in the training procedure. According to the experimental results on pancreas segmentation from Computed Tomography (CT) images, we demonstrate improvement in the quantitative measures. Also, examining the dynamic neighbors created by our method, edges between semantically similar image parts are observed. The proposed method also shows qualitative enhancements in the segmentation maps, as demonstrated in the visual results.
翻訳日:2021-08-09 14:40:35 公開日:2021-08-06
# selm:siamese extreme learning machineと顔バイオメトリックスへの応用

SELM: Siamese Extreme Learning Machine with Application to Face Biometrics ( http://arxiv.org/abs/2108.03140v1 )

ライセンス: Link先を確認
Wasu Kudisthalert, Kitsuchart Pasupa, Aythami Morales, Julian Fierrez(参考訳) Extreme Learning Machineは、競争力のある既存の分類手法である。 訓練は非常に速い。 しかしながら、顔認証タスクは、同時に2人の顔画像を比較し、同一人物を識別するかどうかを判断する必要があるため、顔認証タスクを適切に実行することはできない。 Extreme Leaning Machineの構造は、2つの入力データストリームを同時に供給するように設計されていないため、2つの入力シナリオでは、Extreme Learning Machineメソッドは通常、連結入力を使用して適用される。 しかし、このセットアップは2倍の計算資源を消費し、分離可能な距離メトリックの学習が重要となる認識タスクには最適化されない。 これらの理由から,我々はSamese Extreme Learning Machine (SELM) を提案し,開発する。 SELMは2つのデータストリームを同時に供給するように設計された。 余分な siamese 層でデュアルストリームの siamese 条件を使用してデータを変換し、それを隠れた層に渡す。 さらに,特定の集団でのみ訓練された性倫理依存三重項特徴を提案する。 この機能は、各グループの有用な顔の特徴の学習と抽出を可能にする。 実験により,SELM,Extreme Learning Machine,DCNNの性能を評価し,比較した。 実験の結果,提案手法は97.87%の精度と99.45%のaucで正確な分類が可能であった。 また、提案された特徴とselmを併用することで98.31%の精度と99.72%のaucが得られることを示した。 彼らはよく知られたDCNNとExtreme Leaning Machineの手法を幅広いマージンで上回った。

Extreme Learning Machine is a powerful classification method very competitive existing classification methods. It is extremely fast at training. Nevertheless, it cannot perform face verification tasks properly because face verification tasks require comparison of facial images of two individuals at the same time and decide whether the two faces identify the same person. The structure of Extreme Leaning Machine was not designed to feed two input data streams simultaneously, thus, in 2-input scenarios Extreme Learning Machine methods are normally applied using concatenated inputs. However, this setup consumes two times more computational resources and it is not optimized for recognition tasks where learning a separable distance metric is critical. For these reasons, we propose and develop a Siamese Extreme Learning Machine (SELM). SELM was designed to be fed with two data streams in parallel simultaneously. It utilizes a dual-stream Siamese condition in the extra Siamese layer to transform the data before passing it along to the hidden layer. Moreover, we propose a Gender-Ethnicity-Dependent triplet feature exclusively trained on a variety of specific demographic groups. This feature enables learning and extracting of useful facial features of each group. Experiments were conducted to evaluate and compare the performances of SELM, Extreme Learning Machine, and DCNN. The experimental results showed that the proposed feature was able to perform correct classification at 97.87% accuracy and 99.45% AUC. They also showed that using SELM in conjunction with the proposed feature provided 98.31% accuracy and 99.72% AUC. They outperformed the well-known DCNN and Extreme Leaning Machine methods by a wide margin.
翻訳日:2021-08-09 14:40:14 公開日:2021-08-06
# サブグループ発見を伴うブラックボックスインシデントトリージングの解釈可能な要約

Interpretable Summaries of Black Box Incident Triaging with Subgroup Discovery ( http://arxiv.org/abs/2108.03013v1 )

ライセンス: Link先を確認
Youcef Remil, Anes Bendimerad, Marc Plantevit, C\'eline Robardet, Mehdi Kaytoue(参考訳) 予測メンテナンスの必要性は、監視システムや機器/ソフトウェアユーザによって報告されるインシデントの増加に伴う。 最前線では、オンコールエンジニア(OCE)は、インシデントの深刻度を迅速に評価し、どのサービスにコンタクトして修正行動を行うかを決定する必要がある。 これらの決定を自動化するために、いくつかの予測モデルが提案されているが、最も効率的なモデルは不透明である(例えばブラックボックス)。 本稿では,過去7年間に当社に報告された170kインシデントに基づく効率的なブラックボックスモデルを提案するとともに,当社製品を実行している数千台のサーバ上で,インシデントが大規模に報告された場合のトリアージの自動化の必要性を強調する。 最近の説明可能な人工知能(xai)の開発は、モデルにグローバルな説明を提供するだけでなく、モデル予測/アウトカム毎にローカルな説明を提供するのにも役立ちます。 残念なことに、毎日の重要な数の予測を扱う場合、各結果の説明を人間に提供することは不可能である。 この問題に対処するために,ブラックボックスの予測に類似した説明を共有したオブジェクトをグループ化する自然なパターンマイニング手法であるSubgroup Discoveryをルーツとする独自のデータマイニング手法を提案する。 我々は,この手法を評価し,OCEの効果的な採用を期待できる予備的な結果を提示する。 このアプローチは、モデルに依存しない結果説明の問題を解決する新しい方法を提供すると信じています。

The need of predictive maintenance comes with an increasing number of incidents reported by monitoring systems and equipment/software users. In the front line, on-call engineers (OCEs) have to quickly assess the degree of severity of an incident and decide which service to contact for corrective actions. To automate these decisions, several predictive models have been proposed, but the most efficient models are opaque (say, black box), strongly limiting their adoption. In this paper, we propose an efficient black box model based on 170K incidents reported to our company over the last 7 years and emphasize on the need of automating triage when incidents are massively reported on thousands of servers running our product, an ERP. Recent developments in eXplainable Artificial Intelligence (XAI) help in providing global explanations to the model, but also, and most importantly, with local explanations for each model prediction/outcome. Sadly, providing a human with an explanation for each outcome is not conceivable when dealing with an important number of daily predictions. To address this problem, we propose an original data-mining method rooted in Subgroup Discovery, a pattern mining technique with the natural ability to group objects that share similar explanations of their black box predictions and provide a description for each group. We evaluate this approach and present our preliminary results which give us good hope towards an effective OCE's adoption. We believe that this approach provides a new way to address the problem of model agnostic outcome explanation.
翻訳日:2021-08-09 14:39:50 公開日:2021-08-06
# ai経済学を用いたデータ駆動、解釈可能、ロバストなポリシー設計の基礎の構築

Building a Foundation for Data-Driven, Interpretable, and Robust Policy Design using the AI Economist ( http://arxiv.org/abs/2108.02904v1 )

ライセンス: Link先を確認
Alexander Trott, Sunil Srinivasa, Douwe van der Wal, Sebastien Haneuse, Stephan Zheng(参考訳) 経済政策や公共政策の最適化は、社会経済問題やトレードオフ、例えば平等、生産性、ウェルネスの改善に不可欠であり、複雑なメカニズム設計の問題を引き起こす。 ポリシーデザイナーは、個々の目的のために最適化する戦略的なアクターから、複数の目的、ポリシーレバー、行動応答を考慮する必要がある。 さらに、現実世界のポリシーは、例えばキャリブレーションの問題により、シミュレーションと現実のギャップに対して説明可能で堅牢であるべきである。 既存のアプローチは、測定が難しい、明示的な最適方針を導き出さない、戦略的行動を考慮しない、政策レバーや目的の狭いセットに限定されることが多い。 したがって、現実のシナリオでポリシーを最適化することは依然として困難である。 ここでは,2段階強化学習(rl)とデータ駆動シミュレーションを用いて,ai economistフレームワークが効果的で柔軟で解釈可能なポリシ設計を可能にすることを示す。 我々は、新型コロナウイルス(covid-19)のパンデミックにおける米国の州政策と連邦補助金の厳格性を、実データに適合したシミュレーションを用いて最適化する枠組みを検証する。 rlを用いて訓練したログリニア政策は,公衆衛生と経済効果の両方に基づいて,過去の成果と比較して社会福祉を著しく改善することが判明した。 それらの行動は、例えば、回復率や予防接種率の変化に強く反応する良好な政策など、説明できる。 また、過小評価または過小評価される感染率など、校正エラーに対しても堅牢である。 現時点では、RLやAI駆動のシミュレーションを含む機械学習手法が広く採用されているわけではない。 この結果から,実世界の複雑さの中で,政策設計を指導し,社会福祉を改善するAIの可能性が示唆された。

Optimizing economic and public policy is critical to address socioeconomic issues and trade-offs, e.g., improving equality, productivity, or wellness, and poses a complex mechanism design problem. A policy designer needs to consider multiple objectives, policy levers, and behavioral responses from strategic actors who optimize for their individual objectives. Moreover, real-world policies should be explainable and robust to simulation-to-reality gaps, e.g., due to calibration issues. Existing approaches are often limited to a narrow set of policy levers or objectives that are hard to measure, do not yield explicit optimal policies, or do not consider strategic behavior, for example. Hence, it remains challenging to optimize policy in real-world scenarios. Here we show that the AI Economist framework enables effective, flexible, and interpretable policy design using two-level reinforcement learning (RL) and data-driven simulations. We validate our framework on optimizing the stringency of US state policies and Federal subsidies during a pandemic, e.g., COVID-19, using a simulation fitted to real data. We find that log-linear policies trained using RL significantly improve social welfare, based on both public health and economic outcomes, compared to past outcomes. Their behavior can be explained, e.g., well-performing policies respond strongly to changes in recovery and vaccination rates. They are also robust to calibration errors, e.g., infection rates that are over or underestimated. As of yet, real-world policymaking has not seen adoption of machine learning methods at large, including RL and AI-driven simulations. Our results show the potential of AI to guide policy design and improve social welfare amidst the complexity of the real world.
翻訳日:2021-08-09 14:38:53 公開日:2021-08-06
# テキスト生成のための文セマンティック回帰

Sentence Semantic Regression for Text Generation ( http://arxiv.org/abs/2108.02984v1 )

ライセンス: Link先を確認
Wei Wang, Piji Li, Hai-Tao Zheng(参考訳) 古典的なテキスト生成作業を思い出すと、生成フレームワークは二段階に分けることができる: \textbf{idea reasoning} と \textbf{surface realization} である。 アイデア推論の目標は、次の会話/書き込み期間で提示される主要なアイデアを理解することである。 表面実現は、主観から抽出した情報を描写し伝達するために最も適切な文を配置することを目的としている。 しかし、現在の一般的なトークン単位のテキスト生成手法はこの決定的なプロセスを無視し、アイデア/トピックドリフトのような深刻な問題に悩まされている。 この問題に取り組み,この二相パラダイムを実現するために,文レベルの言語モデルに基づく文意味回帰(\textbf{ssr})という新しい枠組みを提案する。 アイデア推論では、2つのアーキテクチャ \textbf{SSR-AR} と \textbf{SSR-NonAR} は文の意味論的回帰(GPT2/3)と双方向(BERT)を自動回帰的に実行するように設計されている。 表層実現の段階では、予測文レベルの主アイデアと先行する文脈トークンレベルの情報とを併用することにより、より一貫性のあるテキストを生成するように、混合粒度文デコーダが設計されている。 物語終末予測,物語終末生成,対話生成,文入力の4つのタスクについて実験を行った。 その結果,ssrは自動計測と人的評価の面で優れた性能を得ることができた。

Recall the classical text generation works, the generation framework can be briefly divided into two phases: \textbf{idea reasoning} and \textbf{surface realization}. The target of idea reasoning is to figure out the main idea which will be presented in the following talking/writing periods. Surface realization aims to arrange the most appropriate sentence to depict and convey the information distilled from the main idea. However, the current popular token-by-token text generation methods ignore this crucial process and suffer from many serious issues, such as idea/topic drift. To tackle the problems and realize this two-phase paradigm, we propose a new framework named Sentence Semantic Regression (\textbf{SSR}) based on sentence-level language modeling. For idea reasoning, two architectures \textbf{SSR-AR} and \textbf{SSR-NonAR} are designed to conduct sentence semantic regression autoregressively (like GPT2/3) and bidirectionally (like BERT). In the phase of surface realization, a mixed-granularity sentence decoder is designed to generate text with better consistency by jointly incorporating the predicted sentence-level main idea as well as the preceding contextual token-level information. We conduct experiments on four tasks of story ending prediction, story ending generation, dialogue generation, and sentence infilling. The results show that SSR can obtain better performance in terms of automatic metrics and human evaluation.
翻訳日:2021-08-09 14:37:30 公開日:2021-08-06
# 効率的な転校学習のための基礎スケーリングとダブルプルーニング

Basis Scaling and Double Pruning for Efficient Transfer Learning ( http://arxiv.org/abs/2108.02893v1 )

ライセンス: Link先を確認
Ken C. L. Wong, Satyananda Kashyap, Mehdi Moradi(参考訳) 転送学習は、限られたデータで新しいデータセットでディープラーニング機能を再利用可能にする。 しかし、結果として得られるモデルは不必要に大きいため、非効率である。 ネットワークプルーニングは推論効率を改善するために応用できるが、既存のアルゴリズムは通常微調整が必要であり、小さなデータセットには適さない。 本稿では,畳み込み重みをモデルが刈り取られる正規直交基底の部分空間に変換するアルゴリズムを提案する。 特異値分解を用いて畳み込み層を2つの層に分解する: 正規直交基底ベクトルをフィルタとする畳み込み層と、特徴の再スケーリングと元の空間への変換を行うbasisscalingconvと呼ばれる層。 各変換層のフィルタは既知の相対的重要性と線形独立であるため、プルーニングはより効果的で安定であり、個々の重みの微調整は不要である。 さらに、元の畳み込み層の入出力チャネルの数も変化しないため、ベースプルーニングは事実上全てのネットワークアーキテクチャに適用できる。 ベイシプルーニングは、既存のプルーニングアルゴリズムと組み合わせてダブルプルーニングすることで、プルーニング能力をさらに向上させることができる。 分類精度が1%未満では、パラメータの98.9%、FLOPの98.6%のプルーニング比が得られる。

Transfer learning allows the reuse of deep learning features on new datasets with limited data. However, the resulting models could be unnecessarily large and thus inefficient. Although network pruning can be applied to improve inference efficiency, existing algorithms usually require fine-tuning and may not be suitable for small datasets. In this paper, we propose an algorithm that transforms the convolutional weights into the subspaces of orthonormal bases where a model is pruned. Using singular value decomposition, we decompose a convolutional layer into two layers: a convolutional layer with the orthonormal basis vectors as the filters, and a layer that we name "BasisScalingConv", which is responsible for rescaling the features and transforming them back to the original space. As the filters in each transformed layer are linearly independent with known relative importance, pruning can be more effective and stable, and fine tuning individual weights is unnecessary. Furthermore, as the numbers of input and output channels of the original convolutional layer remain unchanged, basis pruning is applicable to virtually all network architectures. Basis pruning can also be combined with existing pruning algorithms for double pruning to further increase the pruning capability. With less than 1% reduction in the classification accuracy, we can achieve pruning ratios up to 98.9% in parameters and 98.6% in FLOPs.
翻訳日:2021-08-09 14:35:35 公開日:2021-08-06
# DOLG:局所的特徴とグローバル的特徴の深い直交融合による単段階画像検索

DOLG: Single-Stage Image Retrieval with Deep Orthogonal Fusion of Local and Global Features ( http://arxiv.org/abs/2108.02927v1 )

ライセンス: Link先を確認
Min Yang, Dongliang He, Miao Fan, Baorong Shi, Xuetong Xue, Fu Li, Errui Ding, Jizhou Huang(参考訳) Image Retrievalは、データベースからクエリに似たイメージを取得するための基本的なタスクである。 一般的な画像検索手法は、まず、グローバルな画像特徴を用いた類似性検索により候補画像を検索し、その局所的特徴を活用して候補を再ランクする。 従来の学習に基づく研究は主に、検索課題に取り組むためのグローバルまたはローカルな画像表現学習に焦点を当てていた。 本稿では,2段階のパラダイムを捨て,画像内の局所的・大域的情報をコンパクトな画像表現に統合することにより,効果的な単一ステージソリューションの設計を目指す。 具体的には,エンド・ツー・エンド画像検索のための深層直交局所およびグローバル情報融合フレームワークを提案する。 マルチアトラスな畳み込みと自己注意で代表的ローカル情報を注意深く抽出する。 次に、グローバル画像表現と直交するコンポーネントをローカル情報から抽出する。 最終的に直交成分は、大域表現と相補表現として連結され、次に最終的な表現を生成するために集約が行われる。 フレームワーク全体はエンドツーエンドの微分可能で、イメージレベルのラベルでトレーニングすることができる。 提案手法の有効性を検証し,再訪したオックスフォードおよびパリのデータセットにおいて,最先端の画像検索性能を実現することを実証した。

Image Retrieval is a fundamental task of obtaining images similar to the query one from a database. A common image retrieval practice is to firstly retrieve candidate images via similarity search using global image features and then re-rank the candidates by leveraging their local features. Previous learning-based studies mainly focus on either global or local image representation learning to tackle the retrieval task. In this paper, we abandon the two-stage paradigm and seek to design an effective single-stage solution by integrating local and global information inside images into compact image representations. Specifically, we propose a Deep Orthogonal Local and Global (DOLG) information fusion framework for end-to-end image retrieval. It attentively extracts representative local information with multi-atrous convolutions and self-attention at first. Components orthogonal to the global image representation are then extracted from the local information. At last, the orthogonal components are concatenated with the global representation as a complementary, and then aggregation is performed to generate the final representation. The whole framework is end-to-end differentiable and can be trained with image-level labels. Extensive experimental results validate the effectiveness of our solution and show that our model achieves state-of-the-art image retrieval performances on Revisited Oxford and Paris datasets.
翻訳日:2021-08-09 14:35:14 公開日:2021-08-06
# VinaFood21:ベトナムの食品認識を評価するための新しいデータセット

VinaFood21: A Novel Dataset for Evaluating Vietnamese Food Recognition ( http://arxiv.org/abs/2108.02929v1 )

ライセンス: Link先を確認
Thuan Trong Nguyen, Thuan Q. Nguyen, Dung Vo, Vi Nguyen, Ngoc Ho, Nguyen D. Vo, Kiet Van Nguyen, Khang Nguyen(参考訳) ベトナムは非常に魅力的な観光地であり、印象的かつ原始的な景観と、ユニークな飲食が特徴である。 何千ものベトナム料理の中で、外国人や先住民は食味や料理のレシピに興味を持ち、合理的な価格、口水味、人気がある。 多様性とほぼすべての料理に顕著な類似性と品質のベトナム料理データセットの欠如のため、ベトナム料理を分類するオートシステムを実装することは困難であり、ベトナム料理の発見が容易である。 そこで本稿では,ベトナムにおける21の料理に対応する13,950の画像からなる新しい食品データセットvinafood21について紹介する。 モデルトレーニングには10,044画像,vinafood21データセットでは6,682画像を用い,cnn efficientnet-b0で平均74.81%の精度を得た。 (https://github.com/nguyenvd-uit/uit-together-dataset)

Vietnam is such an attractive tourist destination with its stunning and pristine landscapes and its top-rated unique food and drink. Among thousands of Vietnamese dishes, foreigners and native people are interested in easy-to-eat tastes and easy-to-do recipes, along with reasonable prices, mouthwatering flavors, and popularity. Due to the diversity and almost all the dishes have significant similarities and the lack of quality Vietnamese food datasets, it is hard to implement an auto system to classify Vietnamese food, therefore, make people easier to discover Vietnamese food. This paper introduces a new Vietnamese food dataset named VinaFood21, which consists of 13,950 images corresponding to 21 dishes. We use 10,044 images for model training and 6,682 test images to classify each food in the VinaFood21 dataset and achieved an average accuracy of 74.81% when fine-tuning CNN EfficientNet-B0. (https://github.com/nguyenvd-uit/uit-together-dataset)
翻訳日:2021-08-09 14:34:54 公開日:2021-08-06
# 単一画像からの詳細なアバター回収

Detailed Avatar Recovery from Single Image ( http://arxiv.org/abs/2108.02931v1 )

ライセンス: Link先を確認
Hao Zhu and Xinxin Zuo and Haotian Yang and Sen Wang and Xun Cao and Ruigang Yang(参考訳) 本稿では,単一画像からemph{detailed} アバターを回収するための新しい枠組みを提案する。 人間の形、身体のポーズ、テクスチャ、視点のバリエーションなどの要因があるため、これは難しい課題である。 従来の方法は、表面の詳細を欠いたパラメトリックベースのテンプレートを使用して人体の形状を復元しようとする。 結果として体型は衣服がないように見える。 本稿では,パラメトリックモデルのロバスト性と自由形状の3次元変形の柔軟性を組み合わせた,新しい学習基盤フレームワークを提案する。 我々は,深層ニューラルネットワークを用いて階層的メッシュ変形(hmd)フレームワークにおける3次元形状を洗練し,ボディジョイントやシルエット,ピクセル毎のシェーディング情報の制約を生かした。 本手法はスキンモデル以上の完全なテクスチャで人体の詳細な形状を復元する。 実験により, 2次元iou数と3次元距離の両方において, 従来手法よりも精度が向上したことを示す。

This paper presents a novel framework to recover \emph{detailed} avatar from a single image. It is a challenging task due to factors such as variations in human shapes, body poses, texture, and viewpoints. Prior methods typically attempt to recover the human body shape using a parametric-based template that lacks the surface details. As such resulting body shape appears to be without clothing. In this paper, we propose a novel learning-based framework that combines the robustness of the parametric model with the flexibility of free-form 3D deformation. We use the deep neural networks to refine the 3D shape in a Hierarchical Mesh Deformation (HMD) framework, utilizing the constraints from body joints, silhouettes, and per-pixel shading information. Our method can restore detailed human body shapes with complete textures beyond skinned models. Experiments demonstrate that our method has outperformed previous state-of-the-art approaches, achieving better accuracy in terms of both 2D IoU number and 3D metric distance.
翻訳日:2021-08-09 14:34:35 公開日:2021-08-06
# 合成からリアルへ:ラベルなしのリアルデータでコラボレートする画像

From Synthetic to Real: Image Dehazing Collaborating with Unlabeled Real Data ( http://arxiv.org/abs/2108.02934v1 )

ライセンス: Link先を確認
Ye Liu and Lei Zhu and Shunda Pei and Huazhu Fu and Jing Qin and Qing Zhang and Liang Wan and Wei Feng(参考訳) 単一画像のデハージングは難しい作業であり、合成トレーニングデータと実世界のテストイメージとのドメインシフトは通常、既存のメソッドの劣化につながる。 この問題に対処するために,ラベルのない実データと協調する新しい画像デハジングフレームワークを提案する。 まず,特徴表現を3つの成分マップ(DID-Net)に切り離す不整形画像デハージングネットワーク(DID-Net)を開発する。 潜在ヘイズフリー画像、透過マップ、大域的な大気光の推定は、ヘイズ過程の物理モデルに依拠する。 我々のDID-Netは,3つのコンポーネントマップを段階的に拡張して予測し,独立したリファインメントネットワークを渡すことで各マップを洗練する。 そして、無ラベルの実データと協調して単一画像のデハージングを促進するために、不整合平均教師ネットワーク(DMT-Net)を用いる。 具体的には,無ラベル実データに対する一貫性損失を用いて,学生と教師のネットワーク間で,各不連続成分の粗い予測と改良を両立させることを推奨する。 我々は,新たに収集したデータセット(Haze4K)と広く使用されている2つのデハージングデータセット(SOTSとHazeRD)の13の最先端デハージング手法と実世界のハズー画像との比較を行った。 実験の結果,既存の手法よりも定量的で質的な改善が見られた。

Single image dehazing is a challenging task, for which the domain shift between synthetic training data and real-world testing images usually leads to degradation of existing methods. To address this issue, we propose a novel image dehazing framework collaborating with unlabeled real data. First, we develop a disentangled image dehazing network (DID-Net), which disentangles the feature representations into three component maps, i.e. the latent haze-free image, the transmission map, and the global atmospheric light estimate, respecting the physical model of a haze process. Our DID-Net predicts the three component maps by progressively integrating features across scales, and refines each map by passing an independent refinement network. Then a disentangled-consistency mean-teacher network (DMT-Net) is employed to collaborate unlabeled real data for boosting single image dehazing. Specifically, we encourage the coarse predictions and refinements of each disentangled component to be consistent between the student and teacher networks by using a consistency loss on unlabeled real data. We make comparison with 13 state-of-the-art dehazing methods on a new collected dataset (Haze4K) and two widely-used dehazing datasets (i.e., SOTS and HazeRD), as well as on real-world hazy images. Experimental results demonstrate that our method has obvious quantitative and qualitative improvements over the existing methods.
翻訳日:2021-08-09 14:34:19 公開日:2021-08-06
# CNNによるシェーディングからの高周波形状回復と領域適応

High-frequency shape recovery from shading by CNN and domain adaptation ( http://arxiv.org/abs/2108.02937v1 )

ライセンス: Link先を確認
Kodai Tokieda, Takafumi Iwaguchi, Hiroshi Kawasaki(参考訳) 簡易なシステム構成と移動物体を捕捉する能力により、構造化光を用いたワンショット走査技術の重要性が高まっている。 この手法の厳しい制限の一つは、空間情報を符号化するために射影パターンの特定の領域を必要とするため、スパース形状のみをキャプチャできるが、高周波形状ではないことである。 本稿では,単一カメラを用いた構造光に基づいて1ショットのRGB-Dセンサで撮影するシェーディング情報を用いて,高周波形状の復元手法を提案する。 カラー画像は物体表面のシェーディング情報を含むため、シェーディング技術から高周波形状を復元することができる。 シェーディング技術から形状に異なる照明位置の複数の画像が必要であるが, 単一画像から形状を復元するための学習ベースアプローチを提案する。 さらに,訓練のための十分な量のデータを準備する問題を克服するために,合成データとドメイン適応を用いた高周波形状のための新しいデータ拡張法を提案する。 実験の結果,提案手法の有効性が確認された。

Importance of structured-light based one-shot scanning technique is increasing because of its simple system configuration and ability of capturing moving objects. One severe limitation of the technique is that it can capture only sparse shape, but not high frequency shapes, because certain area of projection pattern is required to encode spatial information. In this paper, we propose a technique to recover high-frequency shapes by using shading information, which is captured by one-shot RGB-D sensor based on structured light with single camera. Since color image comprises shading information of object surface, high-frequency shapes can be recovered by shape from shading techniques. Although multiple images with different lighting positions are required for shape from shading techniques, we propose a learning based approach to recover shape from a single image. In addition, to overcome the problem of preparing sufficient amount of data for training, we propose a new data augmentation method for high-frequency shapes using synthetic data and domain adaptation. Experimental results are shown to confirm the effectiveness of the proposed method.
翻訳日:2021-08-09 14:33:54 公開日:2021-08-06
# ilvr:拡散確率モデルに対する条件付け方法

ILVR: Conditioning Method for Denoising Diffusion Probabilistic Models ( http://arxiv.org/abs/2108.02938v1 )

ライセンス: Link先を確認
Jooyoung Choi, Sungwon Kim, Yonghyun Jeong, Youngjune Gwon, Sungroh Yoon(参考訳) 非条件画像生成において拡散確率モデル(DDPM)は顕著な性能を示した。 しかし、DDPMにおける生成過程の確率性のため、所望のセマンティクスで画像を生成することは困難である。 本研究では,ddpmにおける生成過程を誘導し,与えられた参照画像に基づいて高品質な画像を生成する反復的潜在変数リファインメント(ilvr)を提案する。 ここでは、DDPMにおける生成過程の洗練により、単一のDDPMが参照画像によって指示された様々な集合の画像をサンプリングすることができる。 提案手法は,生成を制御しながら高品質な画像を生成する。 本手法の制御性は,様々なダウンサンプリング要因からの生成,多領域画像変換,ペイントツーイメージ,スクリブルによる編集など,様々な画像生成タスクで追加学習することなく,単一のddpmを適応させることができる。

Denoising diffusion probabilistic models (DDPM) have shown remarkable performance in unconditional image generation. However, due to the stochasticity of the generative process in DDPM, it is challenging to generate images with the desired semantics. In this work, we propose Iterative Latent Variable Refinement (ILVR), a method to guide the generative process in DDPM to generate high-quality images based on a given reference image. Here, the refinement of the generative process in DDPM enables a single DDPM to sample images from various sets directed by the reference image. The proposed ILVR method generates high-quality images while controlling the generation. The controllability of our method allows adaptation of a single DDPM without any additional learning in various image generation tasks, such as generation from various downsampling factors, multi-domain image translation, paint-to-image, and editing with scribbles.
翻訳日:2021-08-09 14:33:38 公開日:2021-08-06
# 視覚に基づく自律走行車の運転安全に対する敵意攻撃の評価

Evaluating Adversarial Attacks on Driving Safety in Vision-Based Autonomous Vehicles ( http://arxiv.org/abs/2108.02940v1 )

ライセンス: Link先を確認
Jindi Zhang, Yang Lou, Jianping Wang, Kui Wu, Kejie Lu, Xiaohua Jia(参考訳) 近年、自動運転に多くのディープラーニングモデルが採用されている。 同時に、これらのモデルは自動運転車の安全性を損なう可能性のある新しい脆弱性を導入している。 特に最近の研究では、敵対攻撃がディープラーニングに基づく3次元物体検出モデルの検出精度を著しく低下させることが示されている。 運転安全は自動運転の究極の関心事であるが、ディープラーニングモデルのパフォーマンスと、敵対的攻撃による自動運転車の運転安全性の関連性に関する包括的研究は行われていない。 本稿では,深層学習モデルの検出精度よりも,視覚に基づく自律走行車両の運転安全性に及ぼす摂動攻撃とパッチ攻撃の2つの主な相反攻撃の影響について検討する。 特に,視覚に基づく3次元物体検出ではステレオr-cnnとdsgnという2つの最先端モデルが検討されている。 運転安全性を評価するため,運転安全性能指標のセットを用いたエンドツーエンド評価フレームワークを提案する。 評価実験の結果から,(1)自動運転車の運転安全性に対する攻撃の影響と3次元物体検出器の精度に対する攻撃の影響は分離され,(2)DSGNモデルはステレオR-CNNモデルよりも強い敵攻撃に対する強靭性を示すことがわかった。 また,この2つの研究の背景となる要因についても検討した。 本研究は,敵対的攻撃を評価し,自律運転における深層学習モデルの選択を導く新しい視点を提供する。

In recent years, many deep learning models have been adopted in autonomous driving. At the same time, these models introduce new vulnerabilities that may compromise the safety of autonomous vehicles. Specifically, recent studies have demonstrated that adversarial attacks can cause a significant decline in detection precision of deep learning-based 3D object detection models. Although driving safety is the ultimate concern for autonomous driving, there is no comprehensive study on the linkage between the performance of deep learning models and the driving safety of autonomous vehicles under adversarial attacks. In this paper, we investigate the impact of two primary types of adversarial attacks, perturbation attacks and patch attacks, on the driving safety of vision-based autonomous vehicles rather than the detection precision of deep learning models. In particular, we consider two state-of-the-art models in vision-based 3D object detection, Stereo R-CNN and DSGN. To evaluate driving safety, we propose an end-to-end evaluation framework with a set of driving safety performance metrics. By analyzing the results of our extensive evaluation experiments, we find that (1) the attack's impact on the driving safety of autonomous vehicles and the attack's impact on the precision of 3D object detectors are decoupled, and (2) the DSGN model demonstrates stronger robustness to adversarial attacks than the Stereo R-CNN model. In addition, we further investigate the causes behind the two findings with an ablation study. The findings of this paper provide a new perspective to evaluate adversarial attacks and guide the selection of deep learning models in autonomous driving.
翻訳日:2021-08-09 14:33:24 公開日:2021-08-06
# 自動食事評価のための視覚に基づく食品分析

Vision-Based Food Analysis for Automatic Dietary Assessment ( http://arxiv.org/abs/2108.02947v1 )

ライセンス: Link先を確認
Wei Wang, Weiqing Min, Tianhao Li, Xiaoxiao Dong, Haisheng Li and Shuqiang Jiang(参考訳) 背景:健康な食事を維持することは、栄養不足、肥満、多くの非感染性疾患などの健康問題を避けるために不可欠である。 健康食の欠かせない部分は食事アセスメントである。 従来の手動記録手法は重荷であり、かなりのバイアスと誤りを含んでいる。 近年の人工知能、特にコンピュータビジョン技術の進歩により、食事の自動評価ソリューションの開発が可能になった。 スコープとアプローチ:本稿では,食品画像解析,容積推定,栄養素導出の3段階からなる,統一視覚に基づく食事アセスメント(vbda)フレームワークについて紹介する。 食品の認識,検出,セグメンテーションなど,視覚に基づく食品分析手法を体系的に要約し,容積推定法や栄養素の導出法も与えている。 深層学習の繁栄により、VBDAは徐々にエンドツーエンドの実装へと移行し、単一のネットワークに食品画像を適用して栄養を直接見積もる。 最近提案されたエンドツーエンドの手法についても論じている。 既存の食事アセスメントデータセットをさらに分析し,1つの大規模ベンチマークが緊急に必要であることを示すとともに,最終的にvbdaの重要な課題と今後のトレンドを浮き彫りにする。 重要な発見と結論: 徹底的な調査の結果、マルチタスクのエンドツーエンドのディープラーニングアプローチがVBDAの重要なトレンドであることがわかった。 研究の進展にもかかわらず、食事の複雑さのためにvbdaには多くの課題が残っている。 また,食品分析や正確な体積推定など,vbdaの今後の展開に向けた最新のアイデアを提供する。 この調査は、研究者にvbdaのより実用的なソリューションの提案を促すことを目的としている。

Background: Maintaining a healthy diet is vital to avoid health-related issues, e.g., undernutrition, obesity and many non-communicable diseases. An indispensable part of the health diet is dietary assessment. Traditional manual recording methods are burdensome and contain substantial biases and errors. Recent advances in Artificial Intelligence, especially computer vision technologies, have made it possible to develop automatic dietary assessment solutions, which are more convenient, less time-consuming and even more accurate to monitor daily food intake. Scope and approach: This review presents one unified Vision-Based Dietary Assessment (VBDA) framework, which generally consists of three stages: food image analysis, volume estimation and nutrient derivation. Vision-based food analysis methods, including food recognition, detection and segmentation, are systematically summarized, and methods of volume estimation and nutrient derivation are also given. The prosperity of deep learning makes VBDA gradually move to an end-to-end implementation, which applies food images to a single network to directly estimate the nutrition. The recently proposed end-to-end methods are also discussed. We further analyze existing dietary assessment datasets, indicating that one large-scale benchmark is urgently needed, and finally highlight key challenges and future trends for VBDA. Key findings and conclusions: After thorough exploration, we find that multi-task end-to-end deep learning approaches are one important trend of VBDA. Despite considerable research progress, many challenges remain for VBDA due to the meal complexity. We also provide the latest ideas for future development of VBDA, e.g., fine-grained food analysis and accurate volume estimation. This survey aims to encourage researchers to propose more practical solutions for VBDA.
翻訳日:2021-08-09 14:32:58 公開日:2021-08-06
# 内視鏡映像における深層学習に基づく生体解剖学的ランドマーク検出

Deep Learning-based Biological Anatomical Landmark Detection in Colonoscopy Videos ( http://arxiv.org/abs/2108.02948v1 )

ライセンス: Link先を確認
Kaiwei Che, Chengwei Ye, Yibing Yao, Nachuan Ma, Ruo Zhang, Jiankun Wang, and Max Q.-H. Meng(参考訳) 大腸内視鏡は、病変領域を捉えるために患者の消化管全体(gi)を可視化する標準的なイメージングツールである。 しかし,大腸内視鏡ビデオから抽出した多数の画像の精査には臨床医の時間を要する。 これにより,大腸内の生物学的解剖学的所見の自動検出が要求され,病変部位の案内情報を提供することで臨床医の負担を軽減することができる。 本稿では,大腸内視鏡ビデオにおける生体解剖学的ランドマークを検出するための,新しい深層学習に基づくアプローチを提案する。 まず、生の大腸内視鏡ビデオシーケンスを前処理して干渉フレームを拒否する。 次に、ResNet-101ベースのネットワークを用いて、3つの生物学的解剖学的ランドマークを別々に検出し、中間検出結果を得る。 第3に,ビデオ全体のランドマーク期間のより信頼性の高いローカライズを実現するため,時間分布に基づいて不正確な予測フレームを特定し,適切なクラスに再割り当てすることで,中間検出結果を後処理することを提案する。 最後に、平均検出精度は99.75\%に達する。 一方、平均の0.91のIoUは、予測されるランドマーク期間と地上の真実との間に高い類似性を示す。 実験の結果,本モデルは大腸内視鏡映像から生体解剖学的ランドマークを高精度に検出・局在化できることがわかった。

Colonoscopy is a standard imaging tool for visualizing the entire gastrointestinal (GI) tract of patients to capture lesion areas. However, it takes the clinicians excessive time to review a large number of images extracted from colonoscopy videos. Thus, automatic detection of biological anatomical landmarks within the colon is highly demanded, which can help reduce the burden of clinicians by providing guidance information for the locations of lesion areas. In this article, we propose a novel deep learning-based approach to detect biological anatomical landmarks in colonoscopy videos. First, raw colonoscopy video sequences are pre-processed to reject interference frames. Second, a ResNet-101 based network is used to detect three biological anatomical landmarks separately to obtain the intermediate detection results. Third, to achieve more reliable localization of the landmark periods within the whole video period, we propose to post-process the intermediate detection results by identifying the incorrectly predicted frames based on their temporal distribution and reassigning them back to the correct class. Finally, the average detection accuracy reaches 99.75\%. Meanwhile, the average IoU of 0.91 shows a high degree of similarity between our predicted landmark periods and ground truth. The experimental results demonstrate that our proposed model is capable of accurately detecting and localizing biological anatomical landmarks from colonoscopy videos.
翻訳日:2021-08-09 14:32:32 公開日:2021-08-06
# 数ショット意味セグメンテーションのためのメタクラスメモリの学習

Learning Meta-class Memory for Few-Shot Semantic Segmentation ( http://arxiv.org/abs/2108.02958v1 )

ライセンス: Link先を確認
Zhonghua Wu, Xiangxi Shi, Guosheng lin, Jianfei Cai(参考訳) 現在、最先端手法は、各クラスが独立であると仮定して、条件付き前景・後景セグメンテーション問題として、数少ない意味セグメンテーションタスクを扱う。 本稿では、メタクラスの概念、すなわちメタ情報(例えば、メタクラス)について紹介する。 特定のミドルレベルの特徴) すべてのクラスで共有できる。 そこで我々は,メタクラス学習時にメタクラス情報を記憶し,推論段階に新しいクラスに転送する学習可能なメモリ埋め込みのセットを導入する,メタクラスメモリベースのマイクロショットセグメンテーション手法(MM-Net)を提案する。 さらに,k$-shot シナリオでは,支援画像の集合から画像を選択するための新しい画像品質測定モジュールを提案する。 品質測定値に基づいて, 画像特徴量の重み付けで高品質なプロトタイプを得ることができた。 PASCAL-$5^i$とCOCOデータセットの両方で実験した結果,提案手法は1ショットと5ショットの両方で最先端の結果を得られることがわかった。 特に,提案するmm-netは,従来よりも5.1\%高い1ショット設定でcocoデータセット上で37.5\%miouを達成する。

Currently, the state-of-the-art methods treat few-shot semantic segmentation task as a conditional foreground-background segmentation problem, assuming each class is independent. In this paper, we introduce the concept of meta-class, which is the meta information (e.g. certain middle-level features) shareable among all classes. To explicitly learn meta-class representations in few-shot segmentation task, we propose a novel Meta-class Memory based few-shot segmentation method (MM-Net), where we introduce a set of learnable memory embeddings to memorize the meta-class information during the base class training and transfer to novel classes during the inference stage. Moreover, for the $k$-shot scenario, we propose a novel image quality measurement module to select images from the set of support images. A high-quality class prototype could be obtained with the weighted sum of support image features based on the quality measure. Experiments on both PASCAL-$5^i$ and COCO dataset shows that our proposed method is able to achieve state-of-the-art results in both 1-shot and 5-shot settings. Particularly, our proposed MM-Net achieves 37.5\% mIoU on the COCO dataset in 1-shot setting, which is 5.1\% higher than the previous state-of-the-art.
翻訳日:2021-08-09 14:32:12 公開日:2021-08-06
# Dual-Tuning:互換性のある特徴学習のための共同プロトタイプ転送と構造規則化

Dual-Tuning: Joint Prototype Transfer and Structure Regularization for Compatible Feature Learning ( http://arxiv.org/abs/2108.02959v1 )

ライセンス: Link先を確認
Yan Bai, Jile Jiao, Shengsen Wu, Yihang Lou, Jun Liu, Xuetao Feng, and Ling-Yu Duan(参考訳) ビジュアル検索システムは頻繁なモデル更新とデプロイに直面している。 機能互換性により、学習した新しい視覚的機能をデータベースに格納された古い機能と直接比較することができる。 このようにして、デプロイされたモデルを更新すると、柔軟性と時間を要する機能の再抽出プロセスを回避できます。 しかし、互換性を持つ必要がある古い特徴空間は理想的ではなく、異なる監督損失に起因する新しい空間との分布差問題に直面している。 本研究では,異なるネットワークと損失に対する機能互換性を得るために,グローバル最適化のデュアルチューニング手法を提案する。 グローバルなプロトタイプ情報を転送することで,2種類の埋め込み機能を明示的に整列させる特徴レベルプロトタイプの損失を提案する。 さらに,特徴固有構造を暗黙的に最適化するために,コンポーネントレベルの相互構造規則化を設計する。 百万のデータセットに対する実験結果から、Dual-Tuningはパフォーマンスを犠牲にすることなく機能互換性を得ることができることが示された。 (私たちのコードはhttps://github.com/yanbai 1993/Dual-Tuning)

Visual retrieval system faces frequent model update and deployment. It is a heavy workload to re-extract features of the whole database every time.Feature compatibility enables the learned new visual features to be directly compared with the old features stored in the database. In this way, when updating the deployed model, we can bypass the inflexible and time-consuming feature re-extraction process. However, the old feature space that needs to be compatible is not ideal and faces the distribution discrepancy problem with the new space caused by different supervision losses. In this work, we propose a global optimization Dual-Tuning method to obtain feature compatibility against different networks and losses. A feature-level prototype loss is proposed to explicitly align two types of embedding features, by transferring global prototype information. Furthermore, we design a component-level mutual structural regularization to implicitly optimize the feature intrinsic structure. Experimental results on million-scale datasets demonstrate that our Dual-Tuning is able to obtain feature compatibility without sacrificing performance. (Our code will be avaliable at https://github.com/yanbai1993/Dual-Tuning)
翻訳日:2021-08-09 14:31:49 公開日:2021-08-06
# 特徴変換の可視化によるコントラスト学習の改善

Improving Contrastive Learning by Visualizing Feature Transformation ( http://arxiv.org/abs/2108.02982v1 )

ライセンス: Link先を確認
Rui Zhu, Bingchen Zhao, Jingen Liu, Zhenglong Sun, Chang Wen Chen(参考訳) 負ペア間の距離を最小化しつつ、負ペア間の距離を最大化することを目的としたコントラスト学習は、正ペアと負ペア(pos/neg)の設計が鍵の1つである教師なし特徴学習において、広く成功している。 本稿では,データ拡張と異なる特徴レベルのデータ操作を考案し,汎用的なコントラスト的自己教師付き学習の強化を試みる。 この目的のために,まずpos/negスコアの可視化手法を設計する(pos/negスコアはpos/negペアのコサイン類似性を示す)。 分散 – 学習プロセスの解析,解釈,理解を可能にします。 私たちの知る限りでは、これはその種の最初の試みです。 さらに重要なことは、このツールを活用することで、いくつかの重要な観察が得られ、ポジティブな外挿を含む新しい特徴変換の提案に刺激を与えます。 この操作は、よりビュー不変なモデルを可能にするため、学習を促進するために難しいポジティブを生成する。 さらに,多角的否定を与え,モデルの識別性を高める負の補間法を提案する。 両方の課題を同時に対処する最初の試みである。 その結果,MoCoベースライン上でのImageNet-100の精度は少なくとも6.0%向上し,MoCoV2ベースライン上でのImageNet-1Kの精度は約2.0%向上した。 ダウンストリームタスクへの転送は、我々のモデルをうまく実証し、タスクバイアスを減らします。 視覚化ツールとコード https://github.com/DTennant/CL-Visualizing-Feature-Transformation 。

Contrastive learning, which aims at minimizing the distance between positive pairs while maximizing that of negative ones, has been widely and successfully applied in unsupervised feature learning, where the design of positive and negative (pos/neg) pairs is one of its keys. In this paper, we attempt to devise a feature-level data manipulation, differing from data augmentation, to enhance the generic contrastive self-supervised learning. To this end, we first design a visualization scheme for pos/neg score (Pos/neg score indicates cosine similarity of pos/neg pair.) distribution, which enables us to analyze, interpret and understand the learning process. To our knowledge, this is the first attempt of its kind. More importantly, leveraging this tool, we gain some significant observations, which inspire our novel Feature Transformation proposals including the extrapolation of positives. This operation creates harder positives to boost the learning because hard positives enable the model to be more view-invariant. Besides, we propose the interpolation among negatives, which provides diversified negatives and makes the model more discriminative. It is the first attempt to deal with both challenges simultaneously. Experiment results show that our proposed Feature Transformation can improve at least 6.0% accuracy on ImageNet-100 over MoCo baseline, and about 2.0% accuracy on ImageNet-1K over the MoCoV2 baseline. Transferring to the downstream tasks successfully demonstrate our model is less task-bias. Visualization tools and codes https://github.com/DTennant/CL-Visualizing-Feature-Transformation .
翻訳日:2021-08-09 14:31:33 公開日:2021-08-06
# 医用画像の臨床評価中に誤予測を訂正するための効率的かつ汎用的な対話的セグメンテーションフレームワーク

Efficient and Generic Interactive Segmentation Framework to Correct Mispredictions during Clinical Evaluation of Medical Images ( http://arxiv.org/abs/2108.02996v1 )

ライセンス: Link先を確認
Bhavani Sambaturu, Ashutosh Gupta, C.V. Jawahar, Chetan Arora(参考訳) 医療画像のセマンティックセグメンテーションは多くの用途においてコンピュータ支援診断システムにおいて重要な第一歩である。 しかし、多くの異なる画像モダリティと患者データ固有の変動を考えると、現代のディープニューラルネットワーク(DNN)を用いて常に高い精度を達成することは困難である。 これにより、医学の専門家がdnnの出力を所望の精度でインタラクティブに補正できるインタラクティブな画像分割手法が提案されている。 しかしながら、これらの技術は、しばしば関連する人間の相互作用と個別のトレーニングデータを必要とし、様々な疾患や種類の医療画像に一般化しない。 本稿では、医療専門家の介入をテスト時間制約とし、これらの制約に基づいて推論を行うdnnの新しい条件付き推論手法を提案する。 我々の技術は、あらゆるモダリティの医療画像に利用することができる。 他の手法とは異なり、複数の構造を同時に修正し、最初のセグメンテーションで見逃された構造を追加することができる。 核, 多発細胞, 肝, 腫瘍, 臓器, 脳セグメンテーションの総アノテーションよりも, ユーザアノテーションの13.3, 12.5, 17.8, 10.2, 12.4倍の改善が見られた。 他のインタラクティブセグメンテーション技術と比較して,2.8,3.0,1.9,4.4,8.6倍の時間節約が報告されている。 本手法は, 専門医の介入が最小限で, 診断および術後経過観察に有用である。 ソースコードと詳細な結果は、ここ[1]にある。

Semantic segmentation of medical images is an essential first step in computer-aided diagnosis systems for many applications. However, given many disparate imaging modalities and inherent variations in the patient data, it is difficult to consistently achieve high accuracy using modern deep neural networks (DNNs). This has led researchers to propose interactive image segmentation techniques where a medical expert can interactively correct the output of a DNN to the desired accuracy. However, these techniques often need separate training data with the associated human interactions, and do not generalize to various diseases, and types of medical images. In this paper, we suggest a novel conditional inference technique for DNNs which takes the intervention by a medical expert as test time constraints and performs inference conditioned upon these constraints. Our technique is generic can be used for medical images from any modality. Unlike other methods, our approach can correct multiple structures simultaneously and add structures missed at initial segmentation. We report an improvement of 13.3, 12.5, 17.8, 10.2, and 12.4 times in user annotation time than full human annotation for the nucleus, multiple cells, liver and tumor, organ, and brain segmentation respectively. We report a time saving of 2.8, 3.0, 1.9, 4.4, and 8.6 fold compared to other interactive segmentation techniques. Our method can be useful to clinicians for diagnosis and post-surgical follow-up with minimal intervention from the medical expert. The source-code and the detailed results are available here [1].
翻訳日:2021-08-09 14:31:06 公開日:2021-08-06
# MmWaveレーダとビジョンフュージョンを用いた自律走行物体検出:サーベイ

MmWave Radar and Vision Fusion based Object Detection for Autonomous Driving: A Survey ( http://arxiv.org/abs/2108.03004v1 )

ライセンス: Link先を確認
Zhiqing Wei, Fengkai Zhang, Shuo Chang, Yangyang Liu, Huici Wu, Zhiyong Feng(参考訳) 自動運転が急速に発展する中、複雑なシナリオにおける正確な物体検出は、自動運転の安全性を確保するために広く注目を集めている。 ミリ波レーダーと視覚融合は、正確な障害物検出のための主流のソリューションである。 本稿では,mmWaveレーダと視覚融合による障害物検出手法に関する詳細な調査を行う。 まず,自律運転における物体検出のタスク,評価基準,データセットを紹介する。 次に、mmwaveレーダとvision fusionのプロセスについて、センサ配置、センサキャリブレーション、センサフュージョンの3部に分けて総括的に検討する。 特に,融合法をデータレベル,決定レベル,特徴レベルの融合法に分類する。 さらに,障害物検出,物体分類,道路セグメント化の両面において,ライダーの融合と自律運転のビジョンを導入し,将来有望である。 最後に、この記事をまとめる。

With autonomous driving developing in a booming stage, accurate object detection in complex scenarios attract wide attention to ensure the safety of autonomous driving. Millimeter wave (mmWave) radar and vision fusion is a mainstream solution for accurate obstacle detection. This article presents a detailed survey on mmWave radar and vision fusion based obstacle detection methods. Firstly, we introduce the tasks, evaluation criteria and datasets of object detection for autonomous driving. Then, the process of mmWave radar and vision fusion is divided into three parts: sensor deployment, sensor calibration and sensor fusion, which are reviewed comprehensively. Especially, we classify the fusion methods into data level, decision level and feature level fusion methods. Besides, we introduce the fusion of lidar and vision in autonomous driving in the aspects of obstacle detection, object classification and road segmentation, which is promising in the future. Finally, we summarize this article.
翻訳日:2021-08-09 14:30:41 公開日:2021-08-06
# 潜在表現の分離によるセグメンテーションネットワークの新たなドメインへの適応

Adapting Segmentation Networks to New Domains by Disentangling Latent Representations ( http://arxiv.org/abs/2108.03021v1 )

ライセンス: Link先を確認
Francesco Barbato, Umberto Michieli, Marco Toldo and Pietro Zanuttigh(参考訳) ディープラーニングモデルはセマンティックセグメンテーションにおいて顕著な精度を達成するが、最適化には大量のラベル付きデータが必要である。 したがって、ラベル関連ソースドメインから取得した知識を関連するラベル関連ターゲットドメインに転送するために、ドメイン適応アプローチが採用されている。 しかし、そのようなモデルは、トレーニングサンプルのものと完全に一致しない統計特性を持つデータに対してうまく一般化しない。 本研究では,意味セグメンテーションにおけるドメイン間差異を低減すべく,複数の潜在空間形成規則化戦略を設計・慎重に分析する。 特に、ドメインアライメントを向上させるための機能クラスタリング戦略、現在のバッチに存在しないものを含む、異なる意味クラスに属するspace apart機能に対する機能垂直性制約、アクティブチャネルと非アクティブチャネルを分離する機能規範アライメント戦略を考案する。 さらに,教師付き学習と比較して適応戦略の相対的効果を捉えるための新しいパフォーマンス指標を提案する。 提案手法の有効性を検証し,複数の路面ベンチマークにおける従来の最先端手法と異なるバックボーンを用いて評価した。

Deep learning models achieve outstanding accuracy in semantic segmentation, however they require a huge amount of labeled data for their optimization. Hence, domain adaptation approaches have come into play to transfer knowledge acquired on a label-abundant source domain to a related label-scarce target domain. However, such models do not generalize well to data with statistical properties not perfectly matching the ones of the training samples. In this work, we design and carefully analyze multiple latent space-shaping regularization strategies that work in conjunction to reduce the domain discrepancy in semantic segmentation. In particular, we devise a feature clustering strategy to increase domain alignment, a feature perpendicularity constraint to space apart feature belonging to different semantic classes, including those not present in the current batch, and a feature norm alignment strategy to separate active and inactive channels. Additionally, we propose a novel performance metric to capture the relative efficacy of an adaptation strategy compared to supervised training. We verify the effectiveness of our framework in synthetic-to-real and real-to-real adaptation scenarios, outperforming previous state-of-the-art methods on multiple road scenes benchmarks and using different backbones.
翻訳日:2021-08-09 14:30:26 公開日:2021-08-06
# よりシンプルに:分類器重み変換による数ショットセマンティクスセグメンテーション

Simpler is Better: Few-shot Semantic Segmentation with Classifier Weight Transformer ( http://arxiv.org/abs/2108.03032v1 )

ライセンス: Link先を確認
Zhihe lu, Sen He, Xiatian Zhu, Li Zhang, Yi-Zhe Song, Tao Xiang(参考訳) 数ショットのセマンティックセグメンテーションモデルは通常、CNNエンコーダ、CNNデコーダ、および単純な分類器(前景と背景画素を分離する)で構成される。 既存のほとんどのメソッドは、新しいクラスに迅速に適応するために、3つのモデルコンポーネント全てをメタ学習する。 しかし、単一のサポートセットイメージが利用可能であることを考えれば、新しいクラスへの3つのコンポーネントの効果的なモデル適応は極めて困難である。 本稿では,最も単純なコンポーネントである分類器にのみ焦点を合わせながら,エンコーダとデコーダを事前学習に残しながら,メタラーニングタスクの簡略化を提案する。 十分なアノテーションを持つ多様なトレーニングクラスに対して、オフザシェルフセグメンテーションモデルを事前訓練した場合、エンコーダとデコーダは、任意の未確認クラスに適用可能なリッチな識別的特徴をキャプチャし、その後のメタ学習段階を不要にする、という仮説を立てる。 分類器メタラーニングでは,各問合せ画像に対して,学習した分類器の重みを動的に適応するように設計された分類器重み変換器(CWT)を導入する。 2つの標準ベンチマークの大規模な実験は、その単純さにもかかわらず、我々のメソッドは最先端の代替手法よりも優れていることを示している。

A few-shot semantic segmentation model is typically composed of a CNN encoder, a CNN decoder and a simple classifier (separating foreground and background pixels). Most existing methods meta-learn all three model components for fast adaptation to a new class. However, given that as few as a single support set image is available, effective model adaption of all three components to the new class is extremely challenging. In this work we propose to simplify the meta-learning task by focusing solely on the simplest component, the classifier, whilst leaving the encoder and decoder to pre-training. We hypothesize that if we pre-train an off-the-shelf segmentation model over a set of diverse training classes with sufficient annotations, the encoder and decoder can capture rich discriminative features applicable for any unseen classes, rendering the subsequent meta-learning stage unnecessary. For the classifier meta-learning, we introduce a Classifier Weight Transformer (CWT) designed to dynamically adapt the supportset trained classifier's weights to each query image in an inductive way. Extensive experiments on two standard benchmarks show that despite its simplicity, our method outperforms the state-of-the-art alternatives, often by a large margin.Code is available on https://github.com/zhiheLu/CWTfor-FSS.
翻訳日:2021-08-09 14:30:05 公開日:2021-08-06
# STR-GQN:空間変換ルーティングに基づく未知カメラのシーン表現とレンダリング

STR-GQN: Scene Representation and Rendering for Unknown Cameras Based on Spatial Transformation Routing ( http://arxiv.org/abs/2108.03072v1 )

ライセンス: Link先を確認
Wen-Cheng Chen, Min-Chun Hu, Chu-Song Chen(参考訳) ジオメトリアウェアモジュールは、シーン表現とレンダリングのための最近のディープラーニングアーキテクチャで広く適用されている。 しかし、これらのモジュールは、正確に取得できない固有のカメラ情報を必要とする。 本稿では,空間特性を幾何学的事前を適用することなくモデル化する空間変換ルーティング(STR)機構を提案する。 STR機構は、空間変換をメッセージパッシングプロセスとして扱い、ビューポーズとルーティングウェイトの関係をエンドツーエンドのトレーニング可能なニューラルネットワークでモデル化する。 さらに、シーン融合プロセスに説明可能な理性を提供するために、OCM(Occupancy Concept Mapping)フレームワークが提案されている。 本研究では,いくつかのデータセットについて実験を行い,提案するstr機構が生成型クエリネットワーク(gqn)の性能を向上させることを示した。 可視化の結果,観測された情報をあるビューのある場所から他のビューの関連する場所に渡すことができ,空間認知の観点から提案したモデルの利点が示されることがわかった。

Geometry-aware modules are widely applied in recent deep learning architectures for scene representation and rendering. However, these modules require intrinsic camera information that might not be obtained accurately. In this paper, we propose a Spatial Transformation Routing (STR) mechanism to model the spatial properties without applying any geometric prior. The STR mechanism treats the spatial transformation as the message passing process, and the relation between the view poses and the routing weights is modeled by an end-to-end trainable neural network. Besides, an Occupancy Concept Mapping (OCM) framework is proposed to provide explainable rationals for scene-fusion processes. We conducted experiments on several datasets and show that the proposed STR mechanism improves the performance of the Generative Query Network (GQN). The visualization results reveal that the routing process can pass the observed information from one location of some view to the associated location in the other view, which demonstrates the advantage of the proposed model in terms of spatial cognition.
翻訳日:2021-08-09 14:29:37 公開日:2021-08-06
# 心エコー図の表示分類のためのコントラスト学習

Contrastive Learning for View Classification of Echocardiograms ( http://arxiv.org/abs/2108.03124v1 )

ライセンス: Link先を確認
Agisilaos Chartsias, Shan Gao, Angela Mumith, Jorge Oliveira, Kanwal Bhatia, Bernhard Kainz, Arian Beqiri(参考訳) 心臓機能定量化のための定期的な臨床実践において、心臓超音波画像の解析が一般的である。 その自動化の増大は、病気の予測や画像特徴の検出を訓練されたディープラーニングネットワークを頻繁に採用している。 しかし、そのようなモデルは極めてデータ不足であり、経験豊富な臨床医による何千もの画像のラベル付けを必要とする。 本稿では,ラベリングボトルネックを軽減するためのコントラスト学習手法を提案する。 不均衡心エコーデータセットのビュー分類モデルを訓練し、最小のラベル付きデータが得られるビュー/クラスの性能向上を示す。 評価基準モデルと比較すると,各視点におけるF1スコアは最大26%向上し,十分にラベル付けされたトレーニング観察を施したビューに対する最先端性能を維持した。

Analysis of cardiac ultrasound images is commonly performed in routine clinical practice for quantification of cardiac function. Its increasing automation frequently employs deep learning networks that are trained to predict disease or detect image features. However, such models are extremely data-hungry and training requires labelling of many thousands of images by experienced clinicians. Here we propose the use of contrastive learning to mitigate the labelling bottleneck. We train view classification models for imbalanced cardiac ultrasound datasets and show improved performance for views/classes for which minimal labelled data is available. Compared to a naive baseline model, we achieve an improvement in F1 score of up to 26% in those views while maintaining state-of-the-art performance for the views with sufficiently many labelled training observations.
翻訳日:2021-08-09 14:29:20 公開日:2021-08-06
# 画像分割のためのソースフリー領域適応

Source-Free Domain Adaptation for Image Segmentation ( http://arxiv.org/abs/2108.03152v1 )

ライセンス: Link先を確認
Mathilde Bateson, Jose Dolz, Hoel Kervadec, Herv\'e Lombaert, Ismail Ben Ayed(参考訳) ドメイン適応(da)は、ラベル付きソースデータでトレーニングされたモデルを異なるドメインからラベル付きまたは弱いラベル付きターゲットデータに対してうまく適用する能力に対して高い関心を集めている。 ほとんどのDA技術では、ソースとターゲットドメインの両方の入力画像に同時アクセスする必要がある。 しかし、実際には、プライバシの懸念は、適応フェーズにおけるソースイメージの可用性を妨げることが多い。 これは医療画像における非常に頻繁なDAシナリオであり、例えば、ソースとターゲットの画像は異なる臨床現場から来る可能性がある。 画像セグメンテーションのためのソースフリーなドメイン適応を導入する。 我々の定式化は、ターゲットドメインデータ上に定義されたラベルフリーエントロピー損失を最小化することに基づいており、セグメンテーション領域に先立ってドメイン不変量でガイドする。 多くの先行情報は解剖学的情報から導き出すことができる。 ここでは、解剖学的な知識から事前のクラス比を推定し、全体的な損失関数におけるKL(Kullback Leibler)分散の形で統合する。 さらに,対象画像間の相互情報とラベル予測を最大化するための興味深いリンクにより,全体の損失を動機付けている。 我々は, 様々な領域適応シナリオにおいて, 脊椎, 前立腺, 心臓分画など, 様々な形態と応用を前提とした事前認識エントロピー最小化の有効性を示す。 本手法は,画像が適応段階に完全に欠落しているため,より少ない情報にアクセスできるにもかかわらず,いくつかの技術適応手法に匹敵する結果が得られる。 我々の直接的な適応戦略は、ソースフリーなda設定には適用できない一般的な敵技術とは対照的に、1つのネットワークのみを使用する。 私たちのフレームワークはセグメンテーションの問題で簡単に使えますし、コードも公開されています: https://github.com/mathilde-b/SFDA

Domain adaptation (DA) has drawn high interest for its capacity to adapt a model trained on labeled source data to perform well on unlabeled or weakly labeled target data from a different domain. Most common DA techniques require concurrent access to the input images of both the source and target domains. However, in practice, privacy concerns often impede the availability of source images in the adaptation phase. This is a very frequent DA scenario in medical imaging, where, for instance, the source and target images could come from different clinical sites. We introduce a source-free domain adaptation for image segmentation. Our formulation is based on minimizing a label-free entropy loss defined over target-domain data, which we further guide with a domain-invariant prior on the segmentation regions. Many priors can be derived from anatomical information. Here, a class ratio prior is estimated from anatomical knowledge and integrated in the form of a Kullback Leibler (KL) divergence in our overall loss function. Furthermore, we motivate our overall loss with an interesting link to maximizing the mutual information between the target images and their label predictions. We show the effectiveness of our prior aware entropy minimization in a variety of domain-adaptation scenarios, with different modalities and applications, including spine, prostate, and cardiac segmentation. Our method yields comparable results to several state of the art adaptation techniques, despite having access to much less information, as the source images are entirely absent in our adaptation phase. Our straightforward adaptation strategy uses only one network, contrary to popular adversarial techniques, which are not applicable to a source-free DA setting. Our framework can be readily used in a breadth of segmentation problems, and our code is publicly available: https://github.com/mathilde-b/SFDA
翻訳日:2021-08-09 14:29:11 公開日:2021-08-06
# 無限データのためのインクリメンタル特徴学習

Incremental Feature Learning For Infinite Data ( http://arxiv.org/abs/2108.02932v1 )

ライセンス: Link先を確認
Armin Sadreddin and Samira Sadaoui(参考訳) 本研究では,機密情報を含む金融取引を膨大な額の学習に蓄積してはならない,クレジットカード不正検出環境の実態について述べる。 新たな適応学習アプローチを導入し,新たなトランザクションチャンクに頻繁かつ効率的に適応し,各チャンクを段階的なトレーニングステップ後に破棄する。 我々のアプローチは、伝達学習と漸進的特徴学習を組み合わせている。 前者はその後のチャンクの特徴的関連性を改善し、後者は新たなパラダイムであり、新しいチャンクごとに最適なネットワークアーキテクチャを動的に決定することでトレーニング中の精度を向上させる。 過去のインクリメンタルなアプローチのアーキテクチャは固定されているため、新しいチャンクでは精度が向上しない可能性がある。 本手法の有効性と優位性を実際の不正データセット上で実験的に示す。

This study addresses the actual behavior of the credit-card fraud detection environment where financial transactions containing sensitive data must not be amassed in an enormous amount to conduct learning. We introduce a new adaptive learning approach that adjusts frequently and efficiently to new transaction chunks; each chunk is discarded after each incremental training step. Our approach combines transfer learning and incremental feature learning. The former improves the feature relevancy for subsequent chunks, and the latter, a new paradigm, increases accuracy during training by determining the optimal network architecture dynamically for each new chunk. The architectures of past incremental approaches are fixed; thus, the accuracy may not improve with new chunks. We show the effectiveness and superiority of our approach experimentally on an actual fraud dataset.
翻訳日:2021-08-09 14:28:20 公開日:2021-08-06
# タブラルニューラルネットワーク改善のための簡単な修正

Simple Modifications to Improve Tabular Neural Networks ( http://arxiv.org/abs/2108.03214v1 )

ライセンス: Link先を確認
James Fiedler(参考訳) グラフデータに対するニューラルネットワークアーキテクチャへの関心が高まっている。 多くの汎用の表型ディープラーニングモデルが最近導入されており、時として勾配ブースト決定木(gbdts)に匹敵するパフォーマンスがある。 これらの最近のモデルは、GBDT、ファクトリゼーションマシン、他のアプリケーションドメインからのニューラルネットワークなど、さまざまなソースからインスピレーションを得ている。 従来の表型ニューラルネットワークも描画されるが、特に特定の表型問題に関連するモデルについては、考慮されていない可能性がある。 本稿では,いくつかのモデルに着目し,性能改善のための修正を提案する。 これらのモデルが修正されると、GBDTを含む主要な汎用表形式モデルと競合することが示されている。

There is growing interest in neural network architectures for tabular data. Many general-purpose tabular deep learning models have been introduced recently, with performance sometimes rivaling gradient boosted decision trees (GBDTs). These recent models draw inspiration from various sources, including GBDTs, factorization machines, and neural networks from other application domains. Previous tabular neural networks are also drawn upon, but are possibly under-considered, especially models associated with specific tabular problems. This paper focuses on several such models, and proposes modifications for improving their performance. When modified, these models are shown to be competitive with leading general-purpose tabular models, including GBDTs.
翻訳日:2021-08-09 14:28:08 公開日:2021-08-06
# エンコーダ・デコーダを用いたエンドツーエンド歌声合成に関する経験的研究

An Empirical Study on End-to-End Singing Voice Synthesis with Encoder-Decoder Architectures ( http://arxiv.org/abs/2108.03008v1 )

ライセンス: Link先を確認
Dengfeng Ke and Yuxing Lu and Xudong Liu and Yanyan Xu and Jing Sun and Cheng-Hao Cai(参考訳) ニューラルネットワークアーキテクチャと音声処理モデルの急速な発展に伴い、ニューラルネットワークを用いた歌声合成がデジタル音楽制作の最先端技術になりつつある。 本研究では,歌唱音声合成の品質と効率を改善するために,エンコーダ・デコーダ・ニューラルモデルと多数のボコーダを用いて歌唱音声合成を実現する。 実声に近いスムーズで明快で自然な歌唱音声を生成することができることを実証するため,本実験では,ピッチ情報,歌詞,ビート情報を含む音声データを用いてモデルを訓練する実験を行った。 モデルがエンドツーエンドで機能するので、ドメインの専門家でないユーザーはピッチ、歌詞、ビートを並べることで、直接歌声を生成できる。

With the rapid development of neural network architectures and speech processing models, singing voice synthesis with neural networks is becoming the cutting-edge technique of digital music production. In this work, in order to explore how to improve the quality and efficiency of singing voice synthesis, in this work, we use encoder-decoder neural models and a number of vocoders to achieve singing voice synthesis. We conduct experiments to demonstrate that the models can be trained using voice data with pitch information, lyrics and beat information, and the trained models can produce smooth, clear and natural singing voice that is close to real human voice. As the models work in the end-to-end manner, they allow users who are not domain experts to directly produce singing voice by arranging pitches, lyrics and beats.
翻訳日:2021-08-09 14:27:46 公開日:2021-08-06
# 代数測度を用いた解集合プログラミングによるマルチリレーショナル文脈階層の推論

Reasoning on Multi-Relational Contextual Hierarchies via Answer Set Programming with Algebraic Measures ( http://arxiv.org/abs/2108.03100v1 )

ライセンス: Link先を確認
Loris Bozzato, Thomas Eiter, Rafael Kiesel(参考訳) 文脈依存的な知識を扱うことは、文脈の概念の形式化に繋がる。 このフレームワークは記述ロジックに根ざしているが、論理プログラムと特に解集合プログラミング(asp)に強く関連している。 CKRフレームワークは、コンテキスト内の非実現可能な公理と例外を推論するために機能し、カバレッジ(特異性)階層内のコンテキスト間での知識継承にまで拡張された。 しかしながら、このアプローチは、この単一のタイプのコンテキスト関係のみをサポートし、推論手順は制限された階層に対してのみ機能する。 本稿では,これらの制約を克服し,複数の文脈的関係に対するCKR階層の一般化と,デファジブルな公理と選好の解釈を提案する。 論理的測度を持つASPは、半環上の重み付き公式を持つ最近のASPの拡張であり、命題原子の真理値に依存する解釈と量とを関連付けることができる。 特に、複数のコンテキスト関係を持つCKR階層の関連する断片に対して、クエリ応答は一般的なasprinフレームワークで実現できることを示す。 代数測度アプローチはより強力で、例えば、有効である。 CKR上でのエピステマティッククエリによる推論は、他のアプリケーションで定量的ASP拡張を使用するための興味深い視点を開放する。 論理プログラミング(tplp)の理論と実践における受容について考察する。

Dealing with context dependent knowledge has led to different formalizations of the notion of context. Among them is the Contextualized Knowledge Repository (CKR) framework, which is rooted in description logics but links on the reasoning side strongly to logic programs and Answer Set Programming (ASP) in particular. The CKR framework caters for reasoning with defeasible axioms and exceptions in contexts, which was extended to knowledge inheritance across contexts in a coverage (specificity) hierarchy. However, the approach supports only this single type of contextual relation and the reasoning procedures work only for restricted hierarchies, due to non-trivial issues with model preference under exceptions. In this paper, we overcome these limitations and present a generalization of CKR hierarchies to multiple contextual relations, along with their interpretation of defeasible axioms and preference. To support reasoning, we use ASP with algebraic measures, which is a recent extension of ASP with weighted formulas over semirings that allows one to associate quantities with interpretations depending on the truth values of propositional atoms. Notably, we show that for a relevant fragment of CKR hierarchies with multiple contextual relations, query answering can be realized with the popular asprin framework. The algebraic measures approach is more powerful and enables e.g. reasoning with epistemic queries over CKRs, which opens interesting perspectives for the use of quantitative ASP extensions in other applications. Under consideration for acceptance in Theory and Practice of Logic Programming (TPLP).
翻訳日:2021-08-09 14:27:32 公開日:2021-08-06
# 自分についての物語:ショッピング体験と自己満足の言葉

Tell me a story about yourself: The words of shopping experience and self-satisfaction ( http://arxiv.org/abs/2108.03016v1 )

ライセンス: Link先を確認
L Petruzzellis, A Fronzetti Colladon, M Visentin, J.-C. Chebat(参考訳) そこで本研究では,店舗入店時の気分を自発的に表現するように依頼した客のサンプルから得られた,買い物体験の言語表現について検討する。 テキストマイニングとソーシャル・ネットワーク分析の新たなツールを用いて,ショッピング体験や満足度,参加者の自己満足感や自己同一性との関連性を理解するために,インタビューを分析した。 その結果,購入前のショッピング体験に関する談話における感情の顕著な役割と,自己への内向き的なつながりが示された。 また, 現代の小売業環境は, 楽しみ, ファンタジー, 気分, 感情の両面から, ヘドニックなショッピング体験を高めることが示唆された。

In this paper we investigate the verbal expression of shopping experience obtained by a sample of customers asked to freely verbalize how they felt when entering a store. Using novel tools of Text Mining and Social Network Analysis, we analyzed the interviews to understand the connection between the emotions aroused during the shopping experience, satisfaction and the way participants link these concepts to self-satisfaction and self-identity. The results show a prominent role of emotions in the discourse about the shopping experience before purchasing and an inward-looking connection to the self. Our results also suggest that modern retail environment should enhance the hedonic shopping experience in terms of fun, fantasy, moods, and emotions.
翻訳日:2021-08-09 14:27:08 公開日:2021-08-06
# 微小信号シナリオの削減を超えて -機械学習によるスヌートリノ検出性の向上

Beyond Cuts in Small Signal Scenarios - Enhanced Sneutrino Detectability Using Machine Learning ( http://arxiv.org/abs/2108.03125v1 )

ライセンス: Link先を確認
Daniel Alvestad, Nikolai Fomin, J\"orn Kersten, Steffen Maeland, Inga Str\"umke(参考訳) 本研究では,LHCにおける新しい物理探索の感度を高めるために,背景支配の機械学習と,観測可能な信号と背景との高い重なり合いについて検討する。 xgboost と deep neural network の2つの異なるモデルを用いて,観測可能性間の相関を活用し,このアプローチを従来のカット・アンド・カウント法と比較した。 モデルの出力を分析する異なる手法を検討し、テンプレートが一般的に単純なカットよりも優れていることを発見した。 Shapley分解により、イベントキネマティクスと機械学習モデル出力の関係について、さらなる知見を得る。 我々は準安定スヌートリノを具体例として超対称シナリオを考えるが、この方法論はより広い超対称モデルのクラスに適用できる。

We investigate enhancing the sensitivity of new physics searches at the LHC by machine learning in the case of background dominance and a high degree of overlap between the observables for signal and background. We use two different models, XGBoost and a deep neural network, to exploit correlations between observables and compare this approach to the traditional cut-and-count method. We consider different methods to analyze the models' output, finding that a template fit generally performs better than a simple cut. By means of a Shapley decomposition, we gain additional insight into the relationship between event kinematics and the machine learning model output. We consider a supersymmetric scenario with a metastable sneutrino as a concrete example, but the methodology can be applied to a much wider class of supersymmetric models.
翻訳日:2021-08-09 14:26:56 公開日:2021-08-06
# Image-to-class Sparse similarity Encodingによる教師なしドメイン適応

Few-shot Unsupervised Domain Adaptation with Image-to-class Sparse Similarity Encoding ( http://arxiv.org/abs/2108.02953v1 )

ライセンス: Link先を確認
Shengqi Huang, Wanqi Yang, Lei Wang, Luping Zhou, Ming Yang(参考訳) 本稿では,文献で十分に研究されていないfs-udaと呼ばれる貴重な設定について検討する。 この設定では、ソースドメインデータはラベル付けされるが、カテゴリ毎のショット数は少なく、ターゲットドメインデータはラベル付けされない。 FS-UDA設定に対処するため,カテゴリごとのラベル付き少数ショットデータと,サポートセットとクエリセット間のドメイン適応という,2つの主要な課題を解決するための一般UDAモデルを開発した。 我々のモデルは、一度訓練すれば、同じソースとターゲットドメインから様々なFS-UDAタスクに適用できるという一般的なモデルです。 近年のローカルディスクリプタによるマイクロショット学習(FSL)に触発されて,画像分類とドメイン適応のためのローカルディスクリプタ(LD)をベースとした一般UDAモデルを構築した。 類似パターン(SP)と呼ばれる新しい概念を提案することにより,従来のFSL法で無視されたLDの空間的関係を効果的に考察するだけでなく,学習された画像の類似性が要求領域アライメントに役立てることができる。 具体的には,IMSE(IMage-to-class sparse similarity Encoding)法を提案する。 SPsを学習して、分類のための局所的な識別情報を抽出し、一方、SPsの共分散行列をドメイン適応のために整列させる。 また、LD上では、ドメイン敵トレーニングとマルチスケールローカル特徴マッチングを行う。 マルチドメインベンチマークデータセットであるDomainNetで実施された大規模な実験は、新しいFS-UDA設定のためのIMSEの最先端性能を示す。 さらに、FSLでは、IMSEはMiniImageNet上の最近のFSL手法よりも優れた性能を示すことができる。

This paper investigates a valuable setting called few-shot unsupervised domain adaptation (FS-UDA), which has not been sufficiently studied in the literature. In this setting, the source domain data are labelled, but with few-shot per category, while the target domain data are unlabelled. To address the FS-UDA setting, we develop a general UDA model to solve the following two key issues: the few-shot labeled data per category and the domain adaptation between support and query sets. Our model is general in that once trained it will be able to be applied to various FS-UDA tasks from the same source and target domains. Inspired by the recent local descriptor based few-shot learning (FSL), our general UDA model is fully built upon local descriptors (LDs) for image classification and domain adaptation. By proposing a novel concept called similarity patterns (SPs), our model not only effectively considers the spatial relationship of LDs that was ignored in previous FSL methods, but also makes the learned image similarity better serve the required domain alignment. Specifically, we propose a novel IMage-to-class sparse Similarity Encoding (IMSE) method. It learns SPs to extract the local discriminative information for classification and meanwhile aligns the covariance matrix of the SPs for domain adaptation. Also, domain adversarial training and multi-scale local feature matching are performed upon LDs. Extensive experiments conducted on a multi-domain benchmark dataset DomainNet demonstrates the state-of-the-art performance of our IMSE for the novel setting of FS-UDA. In addition, for FSL, our IMSE can also show better performance than most of recent FSL methods on miniImageNet.
翻訳日:2021-08-09 14:26:17 公開日:2021-08-06
# 3次元シーンフローと閉形式ベイズ推論を用いた動的意味空間マッピング

Dynamic Semantic Occupancy Mapping using 3D Scene Flow and Closed-Form Bayesian Inference ( http://arxiv.org/abs/2108.03180v1 )

ライセンス: Link先を確認
Aishwarya Unnikrishnan, Joseph Wilson, Lu Gan, Andrew Capodieci, Paramsothy Jayakumar, Kira Barton, Maani Ghaffari(参考訳) 本稿では,3次元シーンフロー計測を閉じたベイズ推定モデルに組み込む動的意味マッピングフレームワークについて報告する。 環境中の動的オブジェクトの存在は、現在のマッピングアルゴリズムにおけるアーティファクトやトレースを引き起こし、不整合写像の後部につながる。 深層学習を用いた最新技術セマンティックセマンティックセグメンテーションと3次元フロー推定を利用して,マップ推論の計測を行う。 連続的(すなわち任意の解像度でクエリできる)ベイズモデルを開発し、シーンをフローで伝播させ、静的モデルよりも優れたパフォーマンスで3次元意味的占有マップを推定する。 公開データセットを用いた実験結果から,提案するフレームワークは前者を一般化し,深層ニューラルネットワークからの直接測定を継続的に改善することが示された。

This paper reports on a dynamic semantic mapping framework that incorporates 3D scene flow measurements into a closed-form Bayesian inference model. Existence of dynamic objects in the environment cause artifacts and traces in current mapping algorithms, leading to an inconsistent map posterior. We leverage state-of-the-art semantic segmentation and 3D flow estimation using deep learning to provide measurements for map inference. We develop a continuous (i.e., can be queried at arbitrary resolution) Bayesian model that propagates the scene with flow and infers a 3D semantic occupancy map with better performance than its static counterpart. Experimental results using publicly available data sets show that the proposed framework generalizes its predecessors and improves over direct measurements from deep neural networks consistently.
翻訳日:2021-08-09 14:25:49 公開日:2021-08-06
# 単眼前頭視野画像を用いた鳥眼視パンオプティカルセグメンテーション

Bird's-Eye-View Panoptic Segmentation Using Monocular Frontal View Images ( http://arxiv.org/abs/2108.03227v1 )

ライセンス: Link先を確認
Nikhil Gosala and Abhinav Valada(参考訳) bird's-eye-view (bev) マップは、解釈や処理が容易なリッチな空間的コンテキストを提供する能力から、シーン理解のための最も強力な表現の1つとして登場した。 しかし、BEVマップの生成には、深度推定、地平面推定、セマンティックセグメンテーションといった一連の異なるタスクをカプセル化する複雑な多段階パラダイムが必要である。 これらのサブタスクは、モデルが全体論的推論を妨げ、誤ったBEVマップをもたらすような、相補的な方法でしばしば学習される。 さらに、既存のアルゴリズムはBEV空間のセマンティクスのみを予測するため、オブジェクトインスタンスの概念が重要なアプリケーションでの使用を制限する。 本研究では,前景(FV)に1つの単眼画像が与えられた場合,BEV内の高密度パノプティカルセグメンテーションマップを直接予測するエンド・ツー・エンドの学習手法を提案する。 我々のアーキテクチャはトップダウンのパラダイムに従っており、FVからBEVへの入力画像の垂直領域と平坦領域を独立にマッピングすることを学ぶ2つの異なるトランスフォーマーからなる新しい高密度トランスフォーマーモジュールを組み込んでいる。 さらに、FV-BEV変換の感度を数学的に定式化することで、BEV空間の画素をインテリジェントに重み付けし、FV画像の様々な記述性を考慮することができる。 KITTI-360データセットとnuScenesデータセットの広範囲な評価は、我々のアプローチがPQ測定の最先端を3.61 ppと4.93 ppで上回っていることを示している。

Bird's-Eye-View (BEV) maps have emerged as one of the most powerful representations for scene understanding due to their ability to provide rich spatial context while being easy to interpret and process. However, generating BEV maps requires complex multi-stage paradigms that encapsulate a series of distinct tasks such as depth estimation, ground plane estimation, and semantic segmentation. These sub-tasks are often learned in a disjoint manner which prevents the model from holistic reasoning and results in erroneous BEV maps. Moreover, existing algorithms only predict the semantics in the BEV space, which limits their use in applications where the notion of object instances is critical. In this work, we present the first end-to-end learning approach for directly predicting dense panoptic segmentation maps in the BEV, given a single monocular image in the frontal view (FV). Our architecture follows the top-down paradigm and incorporates a novel dense transformer module consisting of two distinct transformers that learn to independently map vertical and flat regions in the input image from the FV to the BEV. Additionally, we derive a mathematical formulation for the sensitivity of the FV-BEV transformation which allows us to intelligently weight pixels in the BEV space to account for the varying descriptiveness across the FV image. Extensive evaluations on the KITTI-360 and nuScenes datasets demonstrate that our approach exceeds the state-of-the-art in the PQ metric by 3.61 pp and 4.93 pp respectively.
翻訳日:2021-08-09 14:25:34 公開日:2021-08-06
# 樹幅を用いたてんかん論理プログラムの定量的推論

Utilizing Treewidth for Quantitative Reasoning on Epistemic Logic Programs ( http://arxiv.org/abs/2108.03022v1 )

ライセンス: Link先を確認
Viktor Besin, Markus Hecher, Stefan Woltran(参考訳) イントロスペクティブ推論能力による一般的なAnswer Set Programming(ASP)パラダイムの拡張は、ここ数年で関心を集めています。 認識論理プログラム(ELP)の形式には特に注意が払われており、標準規則には、既知のまたは可能なリテラルの条件、すなわち、すべてまたはいくつかの回答セットにそれぞれ含めるモダル演算子が備わっている。 ELPはワールドビューとして知られる複数の回答セットを提供する。 これまでの推論問題に対するELPの利用は主に、世界観の標準的な決定問題(複雑度解析)と列挙(システム開発)に限られてきた。 本稿では、まず、あるリテラルの受け入れが、そのセットと互換性のある世界ビューの数(分布)に依存する、ALPの量的推論を確立する。 第2に,このような量的推論問題に答えるために必要な計数問題を効率的に解くことができる新しいシステムを提案する。 本システムでは,木幅をグラフベースで表し,ELPプログラムの抽象表現(グラフ)を反復的に探索し,精算する。 これらの抽象化の上に、(e)clingoのような既存の検索ベースの解法と組み合わせた動的プログラミングを、解法中に現れるハードコンビネータサブプロブレムに適用する。 私たちのアプローチは、最近導入された既存のシステムと競合しています。 この研究はTPLPの受け入れを検討中である。

Extending the popular Answer Set Programming (ASP) paradigm by introspective reasoning capacities has received increasing interest within the last years. Particular attention is given to the formalism of epistemic logic programs (ELPs) where standard rules are equipped with modal operators which allow to express conditions on literals for being known or possible, i.e., contained in all or some answer sets, respectively. ELPs thus deliver multiple collections of answer sets, known as world views. Employing ELPs for reasoning problems so far has mainly been restricted to standard decision problems (complexity analysis) and enumeration (development of systems) of world views. In this paper, we take a next step and contribute to epistemic logic programming in two ways: First, we establish quantitative reasoning for ELPs, where the acceptance of a certain set of literals depends on the number (proportion) of world views that are compatible with the set. Second, we present a novel system that is capable of efficiently solving the underlying counting problems required to answer such quantitative reasoning problems. Our system exploits the graph-based measure treewidth and works by iteratively finding and refining (graph) abstractions of an ELP program. On top of these abstractions, we apply dynamic programming that is combined with utilizing existing search-based solvers like (e)clingo for hard combinatorial subproblems that appear during solving. It turns out that our approach is competitive with existing systems that were introduced recently. This work is under consideration for acceptance in TPLP.
翻訳日:2021-08-09 14:25:07 公開日:2021-08-06
# 量子量子力学:時間列生成のための確率微分方程式の解法

Quantum Quantile Mechanics: Solving Stochastic Differential Equations for Generating Time-Series ( http://arxiv.org/abs/2108.03190v1 )

ライセンス: Link先を確認
Annie E. Paine, Vincent E. Elfving, Oleksandr Kyriienko(参考訳) 本稿では,確率微分方程式(SDE)の解からサンプリングする量子アルゴリズムを提案する。 潜在変数の特徴写像を符号化した微分可能量子回路(DQC)を用いて、基礎となる確率分布の量子関数を表現し、サンプルをDQC期待値として抽出する。 量子力学を用いてシステムを時間的に伝播し、時系列生成を可能にする。 財務分析やデータセット拡張に必要となるように,Ornstein-Uhlenbeckプロセスのシミュレーションを行い,初期点と時折異なるサンプリングを行う。 さらに, 連続量子生成逆数ネットワーク (qGANs) の解析を行い, 効率的な時間伝搬を阻害する修正(順序付け)形状の量子関数を表すことを示す。 その結果,量子量子力学(QQM)とqGANsのSDE分布の関連性に光を当て,最近の物理情報ニューラルネットワークの成功と類似して,モデルトレーニングにおける差分制約の重要性を指摘した。

We propose a quantum algorithm for sampling from a solution of stochastic differential equations (SDEs). Using differentiable quantum circuits (DQCs) with a feature map encoding of latent variables, we represent the quantile function for an underlying probability distribution and extract samples as DQC expectation values. Using quantile mechanics we propagate the system in time, thereby allowing for time-series generation. We test the method by simulating the Ornstein-Uhlenbeck process and sampling at times different from the initial point, as required in financial analysis and dataset augmentation. Additionally, we analyse continuous quantum generative adversarial networks (qGANs), and show that they represent quantile functions with a modified (reordered) shape that impedes their efficient time-propagation. Our results shed light on the connection between quantum quantile mechanics (QQM) and qGANs for SDE-based distributions, and point the importance of differential constraints for model training, analogously with the recent success of physics informed neural networks.
翻訳日:2021-08-09 14:24:40 公開日:2021-08-06
# データセット障害の緩和にはスチュワードシップが必要だ:1000の論文から学ぶ

Mitigating dataset harms requires stewardship: Lessons from 1000 papers ( http://arxiv.org/abs/2108.02922v1 )

ライセンス: Link先を確認
Kenny Peng and Arunesh Mathur and Arvind Narayanan(参考訳) プライバシ、バイアス、有害なアプリケーションに関する懸念は、マシンラーニングデータセットの倫理に光を当て、さらにはDukeMTMC、MS-Celeb-1M、TinyImages、VGGFace2といった著名なデータセットの削除につながった。 これに対し、機械学習コミュニティは、データセット作成プロセスにおけるより高い倫理基準、透明性の取り組み、技術的な修正を要求している。 私たちの研究の前提は、研究コミュニティで実際にデータセットがどのように使われているかを理解することで、これらの取り組みがより効果的になるということです。 我々は,DukeMTMC, MS-Celeb-1M, Labeled Faces in the Wild (LFW) の3つの影響力のある顔および人物認識データセットについて,1000近い論文を引用して分析した。 我々は、デリバティブデータセットとモデルの作成、より広範な技術と社会の変化、ライセンスの明確さの欠如、データセット管理プラクティスが幅広い倫理的懸念をもたらすことを見出した。 我々は、これらの害を軽減し、データセット作成者、カンファレンスプログラム委員会、データセットユーザ、そして幅広い研究コミュニティに推奨する分散アプローチを提案する。

Concerns about privacy, bias, and harmful applications have shone a light on the ethics of machine learning datasets, even leading to the retraction of prominent datasets including DukeMTMC, MS-Celeb-1M, TinyImages, and VGGFace2. In response, the machine learning community has called for higher ethical standards, transparency efforts, and technical fixes in the dataset creation process. The premise of our work is that these efforts can be more effective if informed by an understanding of how datasets are used in practice in the research community. We study three influential face and person recognition datasets - DukeMTMC, MS-Celeb-1M, and Labeled Faces in the Wild (LFW) - by analyzing nearly 1000 papers that cite them. We found that the creation of derivative datasets and models, broader technological and social change, the lack of clarity of licenses, and dataset management practices can introduce a wide range of ethical concerns. We conclude by suggesting a distributed approach that can mitigate these harms, making recommendations to dataset creators, conference program committees, dataset users, and the broader research community.
翻訳日:2021-08-09 14:24:02 公開日:2021-08-06
# ディープラーニングによる要件の検出 - 経験,課題,今後の課題

Detecting Requirements Smells With Deep Learning: Experiences, Challenges and Future Work ( http://arxiv.org/abs/2108.03087v1 )

ライセンス: Link先を確認
Mohammad Kasra Habib, Stefan Wagner, Daniel Graziotin(参考訳) 要件工学(RE)は、ソフトウェアシステムを構築するための最初のステップです。 ソフトウェアプロジェクトの成功や失敗は、自然言語を使用するステークホルダ間のコミュニケーションに基づいて、このフェーズにしっかりと結びついています。 自然言語の問題は、関係する利害関係者によって正確に表現されていない場合、それが容易に異なる理解を導き、結果として期待するものと異なる製品を構築することである。 従来,ISO 29148の要件言語基準に基づいて,言語エラーを検出するソフトウェア要件の品質向上が提案されていた。 既存のソリューションは、古典自然言語処理(NLP)を用いて検出する。 NLPには、一般化能力の低下をもたらす領域依存性など、いくつかの制限がある。 そこで本研究は,手作業によるラベル付きデータセットの作成とアンサンブル学習,深層学習(DL),単語埋め込みや伝達学習といった手法を用いて,従来のNLPと結びついた一般化問題を克服し,手作業によるラベル付きデータセットによる精度向上とメトリクスのリコールを目標とする。 現在の調査結果は、データセットが不均衡であり、どのクラスの例を追加すべきかを示している。 たとえデータセットがかなり代表的でなくても、アルゴリズムを訓練するのは魅力的です。 機械学習では、この問題はデータセットにより多くのインスタンスを追加し、ラベルの品質を改善し、ノイズを除去し、この研究のために計画されている学習アルゴリズムの複雑さを減らすことで解決される。

Requirements Engineering (RE) is the initial step towards building a software system. The success or failure of a software project is firmly tied to this phase, based on communication among stakeholders using natural language. The problem with natural language is that it can easily lead to different understandings if it is not expressed precisely by the stakeholders involved, which results in building a product different from the expected one. Previous work proposed to enhance the quality of the software requirements detecting language errors based on ISO 29148 requirements language criteria. The existing solutions apply classical Natural Language Processing (NLP) to detect them. NLP has some limitations, such as domain dependability which results in poor generalization capability. Therefore, this work aims to improve the previous work by creating a manually labeled dataset and using ensemble learning, Deep Learning (DL), and techniques such as word embeddings and transfer learning to overcome the generalization problem that is tied with classical NLP and improve precision and recall metrics using a manually labeled dataset. The current findings show that the dataset is unbalanced and which class examples should be added more. It is tempting to train algorithms even if the dataset is not considerably representative. Whence, the results show that models are overfitting; in Machine Learning this issue is solved by adding more instances to the dataset, improving label quality, removing noise, and reducing the learning algorithms complexity, which is planned for this research.
翻訳日:2021-08-09 14:23:40 公開日:2021-08-06
# てんかん性ECoGにおけるシフト不変波形学習

Shift-invariant waveform learning on epileptic ECoG ( http://arxiv.org/abs/2108.03177v1 )

ライセンス: Link先を確認
Carlos H. Mendoza-Cardenas and Austin J. Brockmeier(参考訳) セイズール検出アルゴリズムは、様々な条件下で正常な神経活動からの発作に関連する異常な神経活動を識別しなければならない。 本手法は、てんかん患者に対する脳波記録(ecog)において、後続発作(preictal)と非敗血症(non-seizure segment)(interictal)の異なる形態の時空間波形を求めることである。 これらの波形を見つけるために、空間フィルタされた信号のセグメントにシフト不変k平均アルゴリズムを適用し、原型波形のコードブックを学習する。 コードブックからのクラスタラベルの頻度は、テストecogセグメントのクラス(前または間期)を予測するバイナリ分類器をトレーニングするために使用される。 我々はマシューズ相関係数を用いて分類器の性能とコードブックの品質を評価する。 発作予測のための解釈可能な特徴を構築でき,生理的にも有意な非正弦波波形が繰り返し現れることがわかった。

Seizure detection algorithms must discriminate abnormal neuronal activity associated with a seizure from normal neural activity in a variety of conditions. Our approach is to seek spatiotemporal waveforms with distinct morphology in electrocorticographic (ECoG) recordings of epileptic patients that are indicative of a subsequent seizure (preictal) versus non-seizure segments (interictal). To find these waveforms we apply a shift-invariant k-means algorithm to segments of spatially filtered signals to learn codebooks of prototypical waveforms. The frequency of the cluster labels from the codebooks is then used to train a binary classifier that predicts the class (preictal or interictal) of a test ECoG segment. We use the Matthews correlation coefficient to evaluate the performance of the classifier and the quality of the codebooks. We found that our method finds recurrent non-sinusoidal waveforms that could be used to build interpretable features for seizure prediction and that are also physiologically meaningful.
翻訳日:2021-08-09 14:23:17 公開日:2021-08-06
# ロボット政策学習におけるディセンスとスパース(視覚)リワードに関する研究

A Study on Dense and Sparse (Visual) Rewards in Robot Policy Learning ( http://arxiv.org/abs/2108.03222v1 )

ライセンス: Link先を確認
Abdalkarim Mohtasib, Gerhard Neumann and Heriberto Cuayahuitl(参考訳) 深層強化学習(DRL)はロボットに新しい行動を教えるための有望なアプローチである。 しかし、主な制限の1つは、専門家による手書き報酬信号の必要性である。 我々は,ロボットに新たなスキルを教えるために,報酬学習プロセスを自動化することが重要であると論じている。 このような自動化に対処するために,視覚的観察を用いてタスク成功度を推定するタスク成功分類器を検討する。 そこで本研究では,Dense, Sparse, Visual Dense, Visual Sparseの3種類の報奨によって,最先端の深層強化学習アルゴリズムの性能を評価する。 様々なシミュレーションタスク(Pendulum, Reacher, Pusher, Fetch Reach)における実験により,DRLエージェントは目標が識別可能であった場合の視覚的報酬を用いて,良好な動作を学習できるが,タスク目標が明確に見えない場合には,その性能が低下する可能性が示唆された。 また,視覚的疎度報酬は視覚的疎度報酬よりも優れており,全てのタスクに最適なアルゴリズムが存在しないことを示す。

Deep Reinforcement Learning (DRL) is a promising approach for teaching robots new behaviour. However, one of its main limitations is the need for carefully hand-coded reward signals by an expert. We argue that it is crucial to automate the reward learning process so that new skills can be taught to robots by their users. To address such automation, we consider task success classifiers using visual observations to estimate the rewards in terms of task success. In this work, we study the performance of multiple state-of-the-art deep reinforcement learning algorithms under different types of reward: Dense, Sparse, Visual Dense, and Visual Sparse rewards. Our experiments in various simulation tasks (Pendulum, Reacher, Pusher, and Fetch Reach) show that while DRL agents can learn successful behaviours using visual rewards when the goal targets are distinguishable, their performance may decrease if the task goal is not clearly visible. Our results also show that visual dense rewards are more successful than visual sparse rewards and that there is no single best algorithm for all tasks.
翻訳日:2021-08-09 14:22:59 公開日:2021-08-06
# ACTSの表面予測のための機械学習

Machine learning for surface prediction in ACTS ( http://arxiv.org/abs/2108.03068v1 )

ライセンス: Link先を確認
Benjamin Huth, Andreas Salzburger, Tilo Wettig(参考訳) 我々は、トラック再構築に使用される検出器を通した機械学習支援ナビゲーションのための研究開発活動を行っている。 本研究では,表面予測のためのニューラルネットワークのトレーニング手法について検討し,その結果を比較した。 この研究はACTSトラッキングツールキットの文脈で行われている。

We present an ongoing R&D activity for machine-learning-assisted navigation through detectors to be used for track reconstruction. We investigate different approaches of training neural networks for surface prediction and compare their results. This work is carried out in the context of the ACTS tracking toolkit.
翻訳日:2021-08-09 14:21:02 公開日:2021-08-06
# (参考訳) mdpsによるアクティブ強化学習

Active Reinforcement Learning over MDPs ( http://arxiv.org/abs/2108.02323v2 )

ライセンス: CC BY 4.0
Qi Yang, Peng Yang, Ke Tang(参考訳) 過去10年で強化学習が急速に発展し、多くのトレーニングリソースで素晴らしいパフォーマンスを得られるようになった。 しかしながら、rlの最大の課題の1つは、一般化効率(単位時間における一般化性能)である。 本稿では,インスタンス選択による限られた資源の一般化効率を向上させるために,MDP上でのアクティブ強化学習(ARL)の枠組みを提案する。 多数のインスタンスが与えられた場合、アルゴリズムはポリシーのトレーニング中にトレーニングセットとして貴重なインスタンスを選択し、リソースを少なくする。 既存のアプローチとは異なり、与えられたすべてのデータをトレーニングするのではなく、トレーニングデータを積極的に選択して使用しようとします。 さらに、フレームワークに一般的なインスタンス評価指標と選択メカニズムを導入します。 実験結果から,ポリシオプティマイザとしてプロクティマルポリシーオプティマイザが提案するフレームワークは,選択されていない手法やバイアスのない手法よりも効果的に一般化効率を向上できることがわかった。

The past decade has seen the rapid development of Reinforcement Learning, which acquires impressive performance with numerous training resources. However, one of the greatest challenges in RL is generalization efficiency (i.e., generalization performance in a unit time). This paper proposes a framework of Active Reinforcement Learning (ARL) over MDPs to improve generalization efficiency in a limited resource by instance selection. Given a number of instances, the algorithm chooses out valuable instances as training sets while training the policy, thereby costing fewer resources. Unlike existing approaches, we attempt to actively select and use training data rather than train on all the given data, thereby costing fewer resources. Furthermore, we introduce a general instance evaluation metrics and selection mechanism into the framework. Experiments results reveal that the proposed framework with Proximal Policy Optimization as policy optimizer can effectively improve generalization efficiency than unselect-ed and unbiased selected methods.
翻訳日:2021-08-09 12:06:08 公開日:2021-08-06
# (参考訳) mfusenet:学習型多眼融合によるロバスト深さ推定

MFuseNet: Robust Depth Estimation with Learned Multiscopic Fusion ( http://arxiv.org/abs/2108.02448v2 )

ライセンス: CC BY 4.0
Weihao Yuan, Rui Fan, Michael Yu Wang, Qifeng Chen(参考訳) 低コストの単眼RGBカメラを用いて正確な深度推定を行うマルチスコープビジョンシステムの設計を行う。 制約のないカメラポーズで撮影された画像を持つマルチビューステレオとは異なり、提案システムはカメラの動きを制御し、水平または垂直に並んだ位置の画像を同じパララックスで撮影する。 本システムでは,参照画像と周辺画像の間に複数のコストボリュームを融合する新しいヒューリスティック法と頑健な学習ベース手法を提案する。 トレーニングデータを得るために,多次元画像を用いた合成データセットを構築する。 実世界のミドルベリーデータセットと実ロボットによる実演実験により,本システムは従来の2フレームステレオマッチング手法よりも奥行き推定において優れていることが示された。 私たちのコードとデータセットはhttps://sites.google.com/view/multiscopic.comで利用可能です。

We design a multiscopic vision system that utilizes a low-cost monocular RGB camera to acquire accurate depth estimation. Unlike multi-view stereo with images captured at unconstrained camera poses, the proposed system controls the motion of a camera to capture a sequence of images in horizontally or vertically aligned positions with the same parallax. In this system, we propose a new heuristic method and a robust learning-based method to fuse multiple cost volumes between the reference image and its surrounding images. To obtain training data, we build a synthetic dataset with multiscopic images. The experiments on the real-world Middlebury dataset and real robot demonstration show that our multiscopic vision system outperforms traditional two-frame stereo matching methods in depth estimation. Our code and dataset are available at https://sites.google.com/view/multiscopic.
翻訳日:2021-08-09 11:53:09 公開日:2021-08-06
# M2IOSR: 最大相互情報開集合認識

M2IOSR: Maximal Mutual Information Open Set Recognition ( http://arxiv.org/abs/2108.02373v2 )

ライセンス: Link先を確認
Xin Sun, Henghui Ding, Chi Zhang, Guosheng Lin, Keck-Voon Ling(参考訳) 本研究では,オープンセット認識(OSR)の課題に対処することを目的とする。 近年のOSR法の多くは、自動エンコーダを使用して、再構成戦略によってクラス固有の特徴を抽出し、入力画像をピクセルレベルで復元する必要がある。 クラス固有の機能は一般的にすべてのピクセルではなくターゲットオブジェクトに含まれているため、この戦略はosrの要求過剰である。 ここでは,画素レベルの再構築戦略を捨て,クラス固有の特徴抽出の有効性向上により多くの注意を払う。 本稿では,M2IOSR (Maximal Mutual Information Open Set Recognition) を用いた相互情報ベース手法を提案する。 提案したM2IOSRは,与えられた入力と潜在特徴との相互情報を複数のスケールで最大化することにより,クラス固有の特徴を抽出するエンコーダのみを使用する。 一方、開空間リスクをさらに低減するために、潜在特徴は KL-発散損失関数によってクラス条件ガウス分布に制約される。 このようにして、ネットワークが同様の潜在特徴に異なる観測結果がマッピングされることを防止し、所望の統計特性を持つクラス固有の特徴を抽出する。 提案手法は, ベースラインの性能を著しく向上させ, 連続したベンチマークによる新しい最先端結果を実現する。

In this work, we aim to address the challenging task of open set recognition (OSR). Many recent OSR methods rely on auto-encoders to extract class-specific features by a reconstruction strategy, requiring the network to restore the input image on pixel-level. This strategy is commonly over-demanding for OSR since class-specific features are generally contained in target objects, not in all pixels. To address this shortcoming, here we discard the pixel-level reconstruction strategy and pay more attention to improving the effectiveness of class-specific feature extraction. We propose a mutual information-based method with a streamlined architecture, Maximal Mutual Information Open Set Recognition (M2IOSR). The proposed M2IOSR only uses an encoder to extract class-specific features by maximizing the mutual information between the given input and its latent features across multiple scales. Meanwhile, to further reduce the open space risk, latent features are constrained to class conditional Gaussian distributions by a KL-divergence loss function. In this way, a strong function is learned to prevent the network from mapping different observations to similar latent features and help the network extract class-specific features with desired statistical characteristics. The proposed method significantly improves the performance of baselines and achieves new state-of-the-art results on several benchmarks consistently.
翻訳日:2021-08-09 11:39:02 公開日:2021-08-06
# セマンティックセマンティックセグメンテーションのためのグローバルおよび局所テクスチャランダム化

Global and Local Texture Randomization for Synthetic-to-Real Semantic Segmentation ( http://arxiv.org/abs/2108.02376v2 )

ライセンス: Link先を確認
Duo Peng, Yinjie Lei, Lingqiao Liu, Pingping Zhang, and Jun Liu(参考訳) セマンティックセグメンテーションは、画像の各ピクセルを対応するラベルに分類する重要な画像理解タスクである。 地表面のピクセル単位のラベリングは退屈で手間がかかるため、実際の用途では、合成画像を利用して実語画像意味セグメンテーション(srss)のモデルを訓練する作品が多い。 しかしながら、ソース合成データでトレーニングされた深層畳み込みニューラルネットワーク(cnns)は、ターゲットとする現実世界のデータにうまく一般化できない可能性がある。 本研究では,グローバルテクスチャランダム化 (gtr) とローカルテクスチャランダム化 (ltr) の2つの簡易かつ効果的なテクスチャランダム化機構を提案する。 GTRは、ソース画像のテクスチャを多様な非現実的なテクスチャスタイルにランダム化する。 ネットワークのテクスチャへの依存を軽減するとともに,ドメイン不変の学習を促進することを目的としている。 また,画像全体においてテクスチャの違いは必ずしも発生せず,一部の地域のみに現れる可能性がある。 そこで本研究では,ソース画像を部分的にスタイリングするために,多様な局所領域を生成するLTR機構を提案する。 最後に、GTRとLTR(CGL)の整合性の規則化を実装し、トレーニング中の2つのメカニズムの調和を図る。 各種SRSS設定(GTA5/SyNTHIA to Cityscapes/BDDS/Mapillary)を用いた5つの公開データセット(GTA5,SynTHIA,Cityscapes,BDDS,Mapillary)の大規模な実験により、提案手法はドメイン一般化に基づくSRSSの最先端手法よりも優れていることが示された。

Semantic segmentation is a crucial image understanding task, where each pixel of image is categorized into a corresponding label. Since the pixel-wise labeling for ground-truth is tedious and labor intensive, in practical applications, many works exploit the synthetic images to train the model for real-word image semantic segmentation, i.e., Synthetic-to-Real Semantic Segmentation (SRSS). However, Deep Convolutional Neural Networks (CNNs) trained on the source synthetic data may not generalize well to the target real-world data. In this work, we propose two simple yet effective texture randomization mechanisms, Global Texture Randomization (GTR) and Local Texture Randomization (LTR), for Domain Generalization based SRSS. GTR is proposed to randomize the texture of source images into diverse unreal texture styles. It aims to alleviate the reliance of the network on texture while promoting the learning of the domain-invariant cues. In addition, we find the texture difference is not always occurred in entire image and may only appear in some local areas. Therefore, we further propose a LTR mechanism to generate diverse local regions for partially stylizing the source images. Finally, we implement a regularization of Consistency between GTR and LTR (CGL) aiming to harmonize the two proposed mechanisms during training. Extensive experiments on five publicly available datasets (i.e., GTA5, SYNTHIA, Cityscapes, BDDS and Mapillary) with various SRSS settings (i.e., GTA5/SYNTHIA to Cityscapes/BDDS/Mapillary) demonstrate that the proposed method is superior to the state-of-the-art methods for domain generalization based SRSS.
翻訳日:2021-08-09 11:38:40 公開日:2021-08-06