このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200401となっている論文です。

PDF登録状況(公開日: 20200401)

TitleAuthorsAbstract論文公表日・翻訳日
# 政治的に間違っていた4chanポストの3.5年を振り返ってみた

Raiders of the Lost Kek: 3.5 Years of Augmented 4chan Posts from the Politically Incorrect Board ( http://arxiv.org/abs/2001.07487v2 )

ライセンス: Link先を確認
Antonis Papasavva, Savvas Zannettou, Emiliano De Cristofaro, Gianluca Stringhini, Jeremy Blackburn(参考訳) 本稿では,約3.5年間(2016年6月~2019年11月)に投稿された,イメージボードフォーラム4chanの政治的不正確なボード(/pol/)からの3.3m以上のスレッドと134.5mの投稿からなるデータセットを提案する。 私たちの知る限り、これは公開可能な4chanデータセットとしては最大であり、コミュニティに4chanから永久に削除されたポストのアーカイブを提供する。 我々は、有害度スコアや各投稿に記載された名前付きエンティティを含む一連の追加ラベルでデータを増強する。 また、データセットの統計分析を行い、その利用に興味のある研究者が期待できる内容の概要と、最も著名な議論トピック、言及されている最も人気のあるエンティティ、各投稿の毒性レベルについて解説する。 全体としては、私たちの研究が4chanの研究と理解、そしてより大きなwebにおけるその役割を動機づけ、支援してくれると確信しています。 例えば、このデータセットがソーシャルメディアのクロスプラットフォーム研究に使われ、自然言語処理のような他のタイプの研究に有用であることを期待しています。 最後に、我々のデータセットは、特定の物語、出来事、社会理論の詳細なケーススタディに焦点を当てた定性的な作業を支援することができる。

This paper presents a dataset with over 3.3M threads and 134.5M posts from the Politically Incorrect board (/pol/) of the imageboard forum 4chan, posted over a period of almost 3.5 years (June 2016-November 2019). To the best of our knowledge, this represents the largest publicly available 4chan dataset, providing the community with an archive of posts that have been permanently deleted from 4chan and are otherwise inaccessible. We augment the data with a set of additional labels, including toxicity scores and the named entities mentioned in each post. We also present a statistical analysis of the dataset, providing an overview of what researchers interested in using it can expect, as well as a simple content analysis, shedding light on the most prominent discussion topics, the most popular entities mentioned, and the toxicity level of each post. Overall, we are confident that our work will motivate and assist researchers in studying and understanding 4chan, as well as its role on the greater Web. For instance, we hope this dataset may be used for cross-platform studies of social media, as well as being useful for other types of research like natural language processing. Finally, our dataset can assist qualitative work focusing on in-depth case studies of specific narratives, events, or social theories.
翻訳日:2023-06-06 11:31:21 公開日:2020-04-01
# バイオコンパスを実現する磁気ノイズ

Magnetic Noise Enabled Biocompass ( http://arxiv.org/abs/2003.13816v2 )

ライセンス: Link先を確認
Da-Wu Xiao, Wen-Hui Hu, Yunfeng Cai and Nan Zhao(参考訳) 磁気タンパク質の発見は、分子レベルでのバイオコンパスの新しい理解を提供する。 しかし、磁気タンパク質がバイオコンパスを可能にするメカニズムは、主に室温で磁気タンパク質に永久的な磁性がないため、いまだ議論が続いている。 本稿では,バイオコンパスのラジカルペアモデルに基づいて,生体環境下での磁気タンパク質の有限磁化を伴わずにバイオコンパスを動作させることができる顕微鏡機構を提案する。 磁気タンパク質の構造により、磁気タンパク質の磁気揺らぎは永久磁石ではなく、磁気揺らぎによって地磁気センシングが可能となることを示した。 我々の微視的モデルの量子力学解析は、最適感度に必要な条件を明らかにする。 本研究は、磁性タンパク質がバイオコンパスを可能にするメカニズムを明らかにする。

The discovery of magnetic protein provides a new understanding of a biocompass at the molecular level. However, the mechanism by which magnetic protein enables a biocompass is still under debate, mainly because of the absence of permanent magnetism in the magnetic protein at room temperature. Here, based on a widely accepted radical pair model of a biocompass, we propose a microscopic mechanism that allows the biocompass to operate without a finite magnetization of the magnetic protein in a biological environment. With the structure of the magnetic protein, we show that the magnetic fluctuation, rather than the permanent magnetism, of the magnetic protein can enable geomagnetic field sensing. An analysis of the quantum dynamics of our microscopic model reveals the necessary conditions for optimal sensitivity. Our work clarifies the mechanism by which magnetic protein enables a biocompass.
翻訳日:2023-05-30 03:08:01 公開日:2020-04-01
# 量子鍵分布のためのコヒーレント一方向プロトコルに対する古典的攻撃

A classical attack on the coherent one way protocol for quantum key distribution ( http://arxiv.org/abs/2003.07198v2 )

ライセンス: Link先を確認
Michail Stoilov(参考訳) 本稿では,コヒーレントなワンウェイプロトコルによって生成されたセキュアな鍵を,量子チャネルに送信された情報を読み取ることなく検索する方法を提案する。

We propose a way to retrieve the secure key generated by the coherent one way protocol without reading the information transmitted on the quantum channel.
翻訳日:2023-05-29 08:18:42 公開日:2020-04-01
# オプトエレクトロメカニクスシステムに基づく連続可変対絡み合い

Continuous-variable pairwise entanglement based on optoelectromechanical system ( http://arxiv.org/abs/2003.12708v2 )

ライセンス: Link先を確認
Qi-Zhi Cai, Jin-Kun Liao, and Qiang Zhou(参考訳) 本研究では, マイクロ波モード間の連続的に変化する対の絡み合いを, 複数対のマイクロ波超伝導回路が機械共振器を介して相互に共振し, 定常ミラーとともにファブリー・P・エロト空洞を形成するハイブリッド電気機械システムに基づいて解析する。 実験的に到達可能なパラメータ設定では、ペア番号が10まで上がると所望の絡み合いが緩和され、拡張性とインターグリゲーションの需要が継続的に増大している量子技術において有用となる可能性がある。

Inspired by the discrete-variable pairwise entanglement, in this work, we in theory analyze the continuous-variable pairwise entanglement between microwave modes based on a hybrid optoelectromechanical system, where the multi-pair microwave superconducting circuits simutaneously interact with each other via a mechanical resonator, which forms a Fabry-P\'erot cavity along with a standing mirror. With experimentally reachable parameter settings, wanted entanglement can be acheived when the pair number up to 10, and more is also available, which has the potential to be useful in quantum technologies where the demand for scalability and intergration is continuously increasing.
翻訳日:2023-05-27 16:17:10 公開日:2020-04-01
# 超伝導フラックス量子ビットによる環境スピン偏極の探索

Probing Environmental Spin Polarization with Superconducting Flux Qubits ( http://arxiv.org/abs/2003.14244v2 )

ライセンス: Link先を確認
T. Lanting, M. H. Amin, C. Baron, M. Babcock, J. Boschee, S. Boixo, V. N. Smelyanskiy, M. Foygel, A. G. Petukhov(参考訳) 本研究では,rf帯磁束量子ビットの自由度に結合した偏光磁気環境のダイナミクスの測定を行う。 クビットは、偏光場と環境偏光検出器の両方の源として使用される。 我々は5ドルから5msまでの時間スケールと12.5~22mkの温度でのダイナミクスを調査した。 測定された分極と温度は、5.7\pm 0.3$ mKの温度での相転移の強い証拠となる。 さらに、環境偏光は最初$\sqrt{t}$として成長し、スピン拡散力学と一致する。 しかし、スピン拡散モデルは長い時間スケールでデータから逸脱し、異なる現象が低周波の挙動の原因であることを示唆している。 単純な1/f$モデルは、すべての時間スケールでデータに適合するが、実証的な低周波および高周波の遮断が必要である。 これらの結果は、クラスタ内の高速スピン拡散ダイナミクスと、クラスタの全モーメントの緩やかなゆらぎを伴うランダムなスピンクラスタからなる環境と一致している。

We present measurements of the dynamics of a polarized magnetic environment coupled to the flux degree of freedom of rf-SQUID flux qubits. The qubits are used as both sources of polarizing field and detectors of the environmental polarization. We probe dynamics at timescales from 5 $\mu$s to 5 ms and at temperatures between 12.5 and 22 mK. The measured polarization versus temperature provides strong evidence for a phase transition at a temperature of $5.7\pm 0.3$ mK. Furthermore, the environmental polarization grows initially as $\sqrt{t}$, consistent with spin diffusion dynamics. However, spin diffusion model deviates from data at long timescales, suggesting that a different phenomenon is responsible for the low-frequency behavior. A simple $1/f$ model can fit the data at all time scales but it requires empirical low- and high-frequency cutoffs. We argue that these results are consistent with an environment comprised of random clusters of spins, with fast spin diffusion dynamics within the clusters and slow fluctuations of the total moments of the clusters.
翻訳日:2023-05-27 07:41:21 公開日:2020-04-01
# 量子論から古典理論へ

From a quantum theory to a classical one ( http://arxiv.org/abs/2004.00301v1 )

ライセンス: Link先を確認
Alessandro Coppo, Alessandro Cuccoli, Caterina Foti, Paola Verrucchi(参考訳) 一般化されたコヒーレント状態の群論的構成に基づく量子対古典的交叉を記述するための形式的アプローチを提案し,議論する。 この手法は1982年にL. Yaffeによって、大額の量子場理論に取り組むために導入されたもので、近年では、環境がマクロ的になる一方、古典的な振る舞いを示さないかもしれないオープン量子システムの研究に使われている。 本稿では、これらの最近の発展を参考に、標準量子力学の枠組みにおいて、yaffesのアプローチの本質的要素を提供し、量子場理論を使わずにどのようにこのアプローチが使用できるかを明らかにする。 さらに、元の量子論の大きな n$ 極限を形式的によく定義された古典理論に流すのに、可能な大域的対称性が果たす役割に対処し、特に角運動量の量子-古典クロスオーバーを考える。 また、N$自由一次元スピンレス粒子のパラダイム的な例についても詳細に述べる。 最後に、古典的な記述は、最終的に基礎となる量子論から派生すべきであり、しかし、古典的な記述自体の量子化手順によって得られるものと混同すべきではないという基本的な要件について論じる。

We present and discuss a formal approach for describing the quantum to classical crossover based on the group-theoretic construction of generalized coherent states. The method was originally introduced by L. Yaffe in 1982 for tackling large-$N$ quantum field theories, and has been recently used for studying open quantum systems whose environment, while becoming macroscopic, may or may not display a classical behaviour. Referring to these recent developments, in this paper we provide the essential elements of Yaffes's approach in the framework of standard quantum mechanics, so as to clarify how the approach can be used without referring to quantum field theory. Moreover, we address the role played by a possible global symmetry in making the large-$N$ limit of the original quantum theory to flow into a formally well defined classical theory, and we specifically consider the quantum-to-classical crossover of angular momentum. We also give details of a paradigmatic example, namely that of $N$ free one-dimensional spinless particles. Finally, we discuss upon the foundational requirement that any classical description should ultimately be derived from an underlying quantum theory, that however is not, and should never be confused with, the one obtained via some quantization procedure of the classical description itself.
翻訳日:2023-05-27 05:39:42 公開日:2020-04-01
# サブショットノイズイメージングにおける分解能感度トレードオフの改善

Improving resolution-sensitivity trade off in sub-shot noise imaging ( http://arxiv.org/abs/2004.00250v1 )

ライセンス: Link先を確認
I. Ruo Berchera, A. Meda, E. Losero, A. Avella, N. Samantaray, and M. Genovese(参考訳) 量子技術の課題の1つは、デコヒーレンスと非効率性に対処しなければならない理想的システムにおいて予測される量子優位性を実現することである。 量子気象学において、サブショットノイズイメージング(SSNI)とセンシング法は、現実的な状況において真の量子エンハンスメントを提供する。 しかし、これまで認識された広視野のssniスキームは、解像度と感度ゲインのトレードオフに苦しめられている:小さなピクセルや集積領域は高い撮像解像度を達成するために必要だが、より大きなピクセルは量子相関の検出効率が向上し、量子的な優位性が大きくなる。 ここでは、SSNIプロトコルが、感度の量子的優位性を諦めることなく、分解能を大幅に改善するためにどのように最適化できるかを示す。 従来の実演で使用される単純なプロトコルに関して,線形分解能の向上(第3因子まで)を示す。

One of the challenges of quantum technologies is realising the quantum advantage, predicted for ideal systems, in real applications, which have to cope with decoherence and inefficiencies. In quantum metrology, sub-shot-noise imaging (SSNI) and sensing methods can provide genuine quantum enhancement in realistic situations. However, wide field SSNI schemes realized so far suffer a trade-off between the resolution and the sensitivity gain over classical counterpart: small pixels or integrating area, are necessary to achieve high imaging resolution, but larger pixels allow a better detection efficiency of quantum correlations, which means a larger quantum advantage. Here we show how the SSNI protocol can be optimized to significantly improve the resolution without giving up the quantum advantage in the sensitivity. We show a linear resolution improvement (up to a factor 3) with respect to the simple protocol used in previous demonstrations.
翻訳日:2023-05-27 05:39:18 公開日:2020-04-01
# デコヒーレンスとトランザクション解釈

Decoherence and the Transactional Interpretation ( http://arxiv.org/abs/2004.00220v1 )

ライセンス: Link先を確認
R. E. Kastner(参考訳) 本稿では, トランザクション解釈(TI)で発生する物理的に現実的な非一意性,すなわち「客観的還元」から生じるデコヒーレンスの分析を行う。 デコヒーレンスプロセスの2つの異なる側面は特定され、曖昧である。 一 研究中の観測可能なものに関する基本的な計測相互作用の解決、及び (ii)計測相互作用の繰り返しの計測系への影響 TIで記述された測定相互作用は、通常のユニタリ・オンリー・アカウントと同様のデコヒーレンス関数の定量的な表現につながることが示されている。 しかし、ユニタリリーのみのアプローチとは異なり、tiの下では、測定系における密度演算子の低減は、実際の測定結果の発生を表すものとして正当に解釈することができる。

This paper presents an analysis of decoherence resulting from the physically real non-unitarity, or 'objective reduction,' that occurs in the Transactional Interpretation (TI). Two distinct aspects of the decoherence process are identified and disambiguated; specifically, (i) the resolution of the basic measurement interaction with respect to the observable under study, and (ii) the effect on the measured system of repetition of the measurement interaction. It is shown that the measurement interaction as described in TI leads naturally to the same quantitative expression for the decoherence function as in the standard unitary-only account. However, unlike in the unitary-only approach, under TI, the reduced density operator for the measured system can legitimately be interpreted as representing the occurrence of an actual measurement result.
翻訳日:2023-05-27 05:39:01 公開日:2020-04-01
# 可逆作品における量子コヒーレンスと臨界性

Quantum coherence and criticality in irreversible work ( http://arxiv.org/abs/2004.00616v1 )

ライセンス: Link先を確認
Adalberto D. Varizi, Andr\'e P. Vieira, Cecilia Cormick, Raphael C. Drumond and Gabriel T. Landi(参考訳) 駆動プロトコル中の不可逆作用は、エントロピー生成のプロキシを構成するため、非平衡熱力学において最も広く研究されている尺度の一つである。 量子システムでは、駆動プロトコルが生成したコヒーレンスにより、不可逆的な研究が、真に量子力学的貢献をもたらすことが示されている。 本研究の目的は、量子相転移を行うシステムにおけるこの貢献を検討することである。 近年、作業プロトコルにおける量子臨界性の役割を理解するためにかなりの努力がなされている。 しかし、実際にコヒーレンスがどのように貢献するかは分かっていない。 この問題に光を当てるために, 1次元xyモデルの無限小クエンチにおけるエントロピー生成の研究を行った。 横磁場のクエンチの場合、有限温度ではコヒーレンスからの寄与は、ある場合において、実質的にエントロピー生成の全てを考慮することができる。 しかし、低温では、コヒーレンスは臨界点に有限の尖点を示し、エントロピー生成は対数的に発散する。 あるいは、クエンチが異方性パラメータで実行される場合、全てのエントロピーが量子コヒーレンスに起因する状況が存在することが分かる。

The irreversible work during a driving protocol constitutes one of the most widely studied measures in non-equilibrium thermodynamics, as it constitutes a proxy for entropy production. In quantum systems, it has been shown that the irreversible work has an additional, genuinely quantum mechanical contribution, due to coherence produced by the driving protocol. The goal of this paper is to explore this contribution in systems that undergo a quantum phase transition. Substantial effort has been dedicated in recent years to understand the role of quantum criticality in work protocols. However, practically nothing is known about how coherence contributes to it. To shed light on this issue, we study the entropy production in infinitesimal quenches of the one-dimensional XY model. For quenches in the transverse field, we find that for finite temperatures the contribution from coherence can, in certain cases, account for practically all of the entropy production. At low temperatures, however, the coherence presents a finite cusp at the critical point, whereas the entropy production diverges logarithmically. Alternatively, if the quench is performed in the anisotropy parameter, we find that there are situations where all of the entropy produced is due to quantum coherences.
翻訳日:2023-05-27 05:35:30 公開日:2020-04-01
# 幾何学的フラストレーションクラスタにおけるコンパクト局在状態と相互作用する多体ハミルトニアンの構成法

Methods for the construction of interacting many-body Hamiltonians with compact localized states in geometrically frustrated clusters ( http://arxiv.org/abs/2004.00596v1 )

ライセンス: Link先を確認
F. D. R. Santos, R. G. Dias(参考訳) 幾何学的にフラストレーションされた格子の多体ハミルトニアンに相互作用を加えると、しばしば局所化された状態の部分空間が減少する。 本稿では、これらの部分空間を保存または拡張する非相互作用的強結合ハミルトン多様体から、相互作用する多体ハミルトン多様体を構築する方法を示す。 提示された方法は、これらのハミルトンの新たな相互作用項を生成する多体ハミルトニアンの一体ネットワーク表現の変更を含む。 多粒子局在状態の部分空間は、相互作用項を多体拡大状態の部分空間に投影するか、ネットワークに折り紙規則を適用する相互作用的ハミルトン則を構築することによって、相互作用するハミルトニアンに保存することができる。 局所状態の拡張部分空間は、粒子の数が異なる部分空間を混合する相互作用項が導入されたときに見つかる。 さらに, 相互作用するハミルトニアンの完全な対角化によって得られるものよりも, より大きなクラスターや粒子数に対処できる多体局所状態を決定するための数値的手法を提案する。 これらの手法は、ネットワーク内のコンパクト局在状態の概念の一般化に依存している。 最後に,ネットワークのかなりの部分を利用する局所状態を決定する手法を提案する。

Adding interactions to many-body Hamiltonians of geometrically frustrated lattices often leads to diminished subspaces of localized states. In this paper, we show how to construct interacting many-body Hamiltonians, starting from the non-interacting tight-binding Hamiltonians, that preserve or even expand these subspaces. The methods presented involve modifications in the one-body network representation of the many-body Hamiltonians which generate new interacting terms in these Hamiltonians. The subspace of many-particle localized states can be preserved in the interacting Hamiltonian, by projecting the interacting terms onto the subspace of many-body extended states or by constructing the interacting Hamiltonian applying origami rules to the network. Expanded subspaces of localized states are found if interacting terms that mix subspaces with different number of particles are introduced. Furthermore, we present numerical methods for the determination of many-body localized states that allows one to address larger clusters and larger number of particles than those accessible by full diagonalization of the interacting Hamiltonian. These methods rely on the generalization of the concept of compact localized state in the network. Finally, we suggest a method to determine localized states that use a considerable fraction of the network.
翻訳日:2023-05-27 05:35:10 公開日:2020-04-01
# 非エルミート格子ダイナミクスを用いた指数的量子センシング

Exponentially-enhanced quantum sensing with non-Hermitian lattice dynamics ( http://arxiv.org/abs/2004.00585v1 )

ライセンス: Link先を確認
Alexander McDonald, Aashish A. Clerk(参考訳) 完全量子環境でのハミルトニアンパラメータ推定を改善するために、非エルミート格子系の特異な特徴をいかに活用できるかについて検討する。 いわゆる非エルミート皮膚効果は明確な利点を示さないが、代替効果は劇的な増強をもたらす。 我々は、$\mathbb{Z}_2$対称性を持つある種の非対称非エルミート強結合モデルが顕著な感度の優位性をもたらすことを示した。 これらの利点は、非マルコフ的および非摂動的効果が重要になる体制に留まっている。 私たちのセットアップは、様々な量子光学および超伝導回路プラットフォームと直接互換性があり、すでに3つの格子サイトを持つ強力な拡張が得られています。

We study how unique features of non-Hermitian lattice systems can be harnessed to improve Hamiltonian parameter estimation in a fully quantum setting. While the so-called non-Hermitian skin effect does not provide any distinct advantage, alternate effects yield dramatic enhancements. We show that certain asymmetric non-Hermitian tight-binding models with a $\mathbb{Z}_2$ symmetry yield a pronounced sensing advantage: the quantum Fisher information per photon increases exponentially with system size. We find that these advantages persist in regimes where non-Markovian and non-perturbative effects become important. Our setup is directly compatible with a variety of quantum optical and superconducting circuit platforms, and already yields strong enhancements with as few as three lattice sites.
翻訳日:2023-05-27 05:34:49 公開日:2020-04-01
# 量子ドット中の暗い電子-ホール対の光合成

Photocreation of a dark electron-hole pair in a quantum dot ( http://arxiv.org/abs/2004.00573v1 )

ライセンス: Link先を確認
Shiue-Yuan Shiau, Benoit Eble, Valia Voliotis, Monique Combescot(参考訳) 半導体中の光子吸収は、非常に早く光子に再結合する明るい励起子を生成する。 ここでは、pドープ型貯水池に近い量子ドット集合において、この吸収は暗いデュオ、すなわち光を放出しない電子ホール対を生成できることを示す。 この予期しない効果は、ホールの波動関数が電子よりも小さい有限障壁ドットから漏れるという事実に依存する。 この差は、フィールド効果装置で印加されたバイアス電圧をチューニングすることにより、ドット内の正電荷のトリオを不安定にすることができる。 正電荷を持つドットの光子吸収によって生じる不安定なトリオは、2つの穴のうちの1つを放出しなければならない。 残りのデュオは、線形偏光子を持つ数回のポンプサイクルの後、100%に近い確率で暗くすることができる。

Photon absorption in a semiconductor produces bright excitons that recombine very fast into photons. We here show that in a quantum dot set close to a p-doped reservoir, this absorption can produce a dark duo, i.e., an electron-hole pair that does not emit light. This unexpected effect relies on the fact that the wave function for a hole leaks out of a finite-barrier dot less than for electron. This difference can render the positively charged trio unstable in the dot by tuning the applied bias voltage in a field-effect device. The unstable trio that would result from photon absorption in a positively charged dot, has to eject one of its two holes. The remaining duo can be made dark with a probability close to 100% after a few pumping cycles with linearly polarized photons, in this way engineering long-lived initial states for quantum information processing.
翻訳日:2023-05-27 05:34:31 公開日:2020-04-01
# 設計バイアスによる表面GKP符号の耐雑音性の向上

Enhanced noise resilience of the surface-GKP code via designed bias ( http://arxiv.org/abs/2004.00541v1 )

ライセンス: Link先を確認
Lisa H\"anggli, Margret Heinze, and Robert Koenig(参考訳) 単一モードの標準 Gottesman-Kitaev-Preskill (GKP) コードと曲面コードとを結合して得られたコードについて検討する。 本稿では,この表面GKP符号の(ガウス的)変位誤差に対する雑音耐性が,論理的パウリ演算子による二次の同定が適切であるとして,各モードに単一モードのスキーズユニタリを適用した場合に向上することを示す。 我々は,GKP症候群情報を使わずに,表面コードがデコードされた場合,最大$\sigma\approx 0.58$シフトエラー標準偏差の耐雑音閾値を観測する。 対照的に、福井らによる以前の結果とVuillotらは、標準のGKP符号に対して$\sigma\approx 0.54$と$\sigma\approx 0.55$の閾値を報告している。 修正された表面GKP符号は、GKP量子ビット上の論理レベルノイズを偏り、モードレベルの物理ノイズを非対称に効果的にレンダリングする。 これにより、バイアスドノイズに対する表面コードのレジリエンスを享受することができる。 我々はbravyiらによる近似最大度復号アルゴリズムを用いてしきい値推定を行う。 全体として、計測がノイズなく、GKP状態が理想となる理想的なシナリオを考える。 我々の研究は、個別モードのガウス符号化が連結符号を強化することを実証している。

We study the code obtained by concatenating the standard single-mode Gottesman-Kitaev-Preskill (GKP) code with the surface code. We show that the noise tolerance of this surface-GKP code with respect to (Gaussian) displacement errors improves when a single-mode squeezing unitary is applied to each mode assuming that the identification of quadratures with logical Pauli operators is suitably modified. We observe noise-tolerance thresholds of up to $\sigma\approx 0.58$ shift-error standard deviation when the surface code is decoded without using GKP syndrome information. In contrast, prior results by Fukui et al. and Vuillot et al. report a threshold between $\sigma\approx 0.54$ and $\sigma\approx 0.55$ for the standard (toric-, respectively) surface-GKP code. The modified surface-GKP code effectively renders the mode-level physical noise asymmetric, biasing the logical-level noise on the GKP-qubits. The code can thus benefit from the resilience of the surface code against biased noise. We use the approximate maximum likelihood decoding algorithm of Bravyi et al. to obtain our threshold estimates. Throughout, we consider an idealized scenario where measurements are noiseless and GKP states are ideal. Our work demonstrates that Gaussian encodings of individual modes can enhance concatenated codes.
翻訳日:2023-05-27 05:34:15 公開日:2020-04-01
# 実装可能なハイブリッド絡み合い証人

Implementable Hybrid Entanglement Witness ( http://arxiv.org/abs/2004.00492v1 )

ライセンス: Link先を確認
G. Masse, T. Coudreau, A. Keller, P. Milman(参考訳) 量子情報のハイブリッド符号化は、光量子プロトコルの実現に向けた有望なアプローチである。 これは、高効率性などの連続変数符号化の利点と、高忠実性のような離散変数の利点を組み合わせる。 特に、絡み合ったハイブリッド状態は量子情報プロトコルの貴重な再資源であることが示されている。 本研究では,現在利用可能な実験で実装可能であり,量子光学的セットアップで観測されている雑音にロバストなハイブリッドな絡み合い証人を提案する。 提案された証人は、真にハイブリッドな観測物の測定に基づいている。 私たちが考えるノイズモデルが一般的です。 ハイブリッド系は有限次元基底で表現できるので、クラウス作用素で正式に特徴付けられる。 目撃者の現実的な利点は、いくつかの実験可能な可観測物を測定することでテストできることである。

Hybrid encoding of quantum information is a promising approach towards the realisation of optical quantum protocols. It combines advantages of continuous variables encoding, such as high efficiencies, with those of discrete variables, such as high fidelities. In particular, entangled hybrid states were shown to be a valuable ressource for quantum information protocols. In this work, we present a hybrid entanglement witness that can be implemented on currently available experiments and is robust to noise currently observed in quantum optical set-ups. The proposed witness is based on measurements of genuinely hybrid observables. The noise model we consider is general. It is formally characterised with Kraus operators since the considered hybrid system can be expressed in a finite dimension basis. A practical advantage of the witness is that it can be tested by measuring just a few experimentally available observables.
翻訳日:2023-05-27 05:33:48 公開日:2020-04-01
# プライバシー規制を超えて:交通におけるデータ利用への倫理的アプローチ

Beyond privacy regulations: an ethical approach to data usage in transportation ( http://arxiv.org/abs/2004.00491v1 )

ライセンス: Link先を確認
Johannes M. van Hulst, Mattia Zeni, Alexander Kr\"oller, Cassandra Moons, Pierluigi Casale(参考訳) 近年のビジネス技術の飛躍的な進歩により、データ駆動型意思決定がほとんどの産業の中核となっている。 欧州連合(eu)の一般データ保護規則(general data protection regulation)や米国のカリフォルニア州消費者プライバシ法(california consumer privacy act)などの新しいプライバシー規制が高まり、個人データを扱う企業はこれらの変更に準拠し、それに従ってプロセスを適用する必要があった。 これには明らかに交通業界が位置情報を使っていた。 反対の側面では、ユーザーはプライバシーを妥協することなく、パーソナライゼーションの形式を期待している。 このため、業界全体にわたる企業は、競争上の優位性として、製品に大規模なプライバシー保護技術を適用し始めた。 本稿では,フェデレーション機械学習を交通分野に適用する方法について述べる。 我々は,フェデレートラーニングが輸送に有益であるユースケースと,そのような技術を使用するために必要な新製品ライフサイクルについて述べる。 フェデレートラーニングは、プライバシに敏感なデータを処理し、ユーザのプライバシを尊重すると同時に、プライバシ規制を越えて倫理的なデータ利用の世界へと導く方法であると考えています。

With the exponential advancement of business technology in recent years, data-driven decision making has become the core of most industries. With the rise of new privacy regulations such as the General Data Protection Regulation in the European Union and the California Consumer Privacy Act in the United States, companies dealing with personal data had to conform to these changes and adapt their processes accordingly. This obviously included the transportation industry with their use of location data. At the other side of the spectrum, users still expect a form of personalization, without having to compromise on their privacy. For this reason, companies across the industries started applying privacy-enhancing or preserving technologies at scale in their products as a competitive advantage. In this paper, we describe how Federated Machine Learning can be applied to the transportation sector. We present use-cases for which Federated Learning is beneficial in transportation and the new product lifecycle that is required for using such a technology. We see Federated Learning as a method that enables us to process privacy-sensitive data, while respecting customer's privacy and one that guides us beyond privacy-regulations and into the world of ethical data-usage.
翻訳日:2023-05-27 05:33:35 公開日:2020-04-01
# 2つの2部絡み合い状態による純三部絡み検出

Detection of genuine tripartite entanglement by two bipartite entangled states ( http://arxiv.org/abs/2004.00352v1 )

ライセンス: Link先を確認
Yize Sun and Lin Chen(参考訳) 2つの二部交絡状態の集合的利用に基づいて、真の三部交絡状態を構築することは興味深い問題である。 状態が2量子のヴェルナー状態である場合を考えると、三成分状態が真に絡み合うようにヴェルナー状態のパラメータの間隔を構成する。 さらに,実験において現在の手法を用いて,三部体の真の絡み合いを検出する方法を提案する。 また、真の多部絡み合いの低い境界についても検討する。

It is an interesting problem to construct genuine tripartite entangled states based on the collective use of two bipartite entangled states. We consider the case that the states are two-qubit Werner states, we construct the interval of parameter of Werner states such that the tripartite state is genuine entangled. Further, we present the way of detecting the tripartite genuine entanglement using current techniques in experiments. We also investigate the lower bound of genuine multipartite entanglement concurrence.
翻訳日:2023-05-27 05:32:50 公開日:2020-04-01
# 分子固体をスケールアップ量子として使う

Using Molecular Solids as Scaled-up Qubits ( http://arxiv.org/abs/2004.01638v1 )

ライセンス: Link先を確認
Malcolm P. Roberts(参考訳) 提案したスケールアップ量子ビットは、非常に低温で大きな振幅運動を示す分子とそれらをトラップするマトリックスである。 これらはキセノンマトリックス中の四フェニルホウ酸アンモニウム(ATPB)やメタン希釈のようなイオン性固体を含む。 このように、開始から膨大な数の量子ビットが存在する。 各種類の量子ビットは、10から3300 cm-1の周波数で様々な確立された実験技術を用いて観測される(外部磁場、超低温または超高真空条件を必要としない)興味の遷移の多重性を有する。 詳細はATPBの変遷を参照のこと。 以下を含む。 i) テトラフェニルホウ酸塩マトリックス内のC3軸にほぼ自由に回転するアンモニウムイオン量子ビットのIRN-H非対称振動。 これにより、最初の3つの配向準位の間の核スピン凍結により非常に低温でも複数のバンドを示すマルチレベル振動配向が得られる。 指向レベルと量子ビット間距離を制御する可能性の間のアクセシブルトンネル周波数は、様々な実験的なセットアップにおいて、この量子ビットを同時に大きな絡み合いと安定な重ね合わせを生成する強い候補となる。 (II) ラマンはテトラフェニルホウ酸アニオン量子ビットの正規モードを許容した。 これらは300kまでの極低温から実験的に解決され、さらに量子ビットの例や興味のある遷移が研究されている。 このアプローチにより、所定の場所や複数の場所に複数結晶配列を持つ実験的なセットアップが可能になる。

The scaled-up qubits proposed are molecules which display large amplitude motions at very low temperatures and the matrix that traps them. These comprise ionic solids such as ammonium tetraphenylborate (ATPB) or methane dilute in a xenon matrix. In this manner, an enormous number qubits are present from inception. Each kind of qubit has a multiplicity of transitions of interest which are observed (without the need of external fields, ultra-low temperatures or ultra-high vacuum conditions) using diverse well established experimental techniques at frequencies ranging from 10 to 3300 cm-1. Described in detail are the transitions in ATPB. These include: (i) the IR N-H asymmetric vibration of the ammonium ion qubit which nearly freely rotate about their C3 axes inside the tetraphenylborate matrix. This results in a multi-level vibration-orientation which exhibits multiple bands even at very low temperatures due to nuclear spin freezing between the first three orientation levels. Accessible tunneling frequencies between the orientation levels and the possibility to control inter-qubit distance make this qubit a strong candidate to generate concurrently large entanglement and stable superposition in diverse experimental set-ups; and (ii) the Raman allowed normal modes of the tetraphenylborate anion qubit. These are experimentally resolved from very low temperatures up to 300 K. Further qubit examples and transitions of interest are examined. Experimental setups with multi-crystal arrays, both in a given or several locations, become possible using this approach.
翻訳日:2023-05-27 05:24:15 公開日:2020-04-01
# 第9回量子シミュレーションと量子ウォーク国際会議

Proceedings 9th International Conference on Quantum Simulation and Quantum Walks ( http://arxiv.org/abs/2004.01061v1 )

ライセンス: Link先を確認
Giuseppe Di Molfetta (Aix-Marseille University), Vivien Kendon (Durham University), Yutaka Shikano (Keio University & Chapman University)(参考訳) この巻は第9回量子シミュレーションと量子ウォークに関する国際会議(QSQW)で発表された一連の論文を含んでいる。 このイベントの間、我々は、標準量子場理論、量子重力と宇宙モデル、散逸的量子コンピューティング、複雑な量子ネットワークの探索、およびマルチ量子量子ウォークのトポロジ的分類に関する相互関係の問題を解決するために、量子ウォークと量子シミュレーションモデルに基づく理論の開発に取り組んだ。

This volume contains a selection of papers presented at the 9th in a series of international conferences on Quantum Simulation and Quantum Walks (QSQW). During this event, we worked on the development of theories based upon quantum walks and quantum simulation models, in order to solve interrelated problems concerning the simulation of standard quantum field theory, quantum gravity and cosmological models, dissipative quantum computing, searching on complex quantum networks, and the topological classification of multi-particle quantum walks.
翻訳日:2023-05-27 05:23:30 公開日:2020-04-01
# 減音雑音下でのマルチパラメータ量子推定

Multiparameter quantum estimation under dephasing noise ( http://arxiv.org/abs/2004.00720v1 )

ライセンス: Link先を確認
Le Bin Ho, Hideaki Hakoshima, Yuichiro Matsuzaki, Masayuki Matsuzaki, Yasushi Kondo(参考訳) 近年、複数のパラメータの同時量子推定が量子メトロロジーにおいて必須となっている。 ノイズのない環境におけるマルチパラメータ量子推定の究極の感度は、全ての古典的センサが有界である標準量子限界を上回ることができるが、現実的なノイズ下では量子センサが古典的センサーよりも優れているかどうかは不明である。 本研究では,特定の雑音環境下での複数のパラメータと量子センサを同時推定する枠組みを提案する。 推定される複数のパラメータは、外部磁場の3つの成分であり、ノイズが強調されるだけであると考える。 雑音環境には最適な感知時間があり、ノイズ環境が非マルコフ環境の場合、感度が標準量子限界を超える可能性があることを示す。

Simultaneous quantum estimation of multiple parameters has recently become essential in quantum metrology. Although the ultimate sensitivity of a multiparameter quantum estimation in noiseless environments can beat the standard quantum limit that every classical sensor is bounded by, it is unclear whether the quantum sensor has an advantage over the classical one under realistic noise. In this work, we present a framework of the simultaneous estimation of multiple parameters with quantum sensors in a certain noisy environment. Our multiple parameters to be estimated are three components of an external magnetic field, and we consider the noise that causes only dephasing. We show that there is an optimal sensing time in the noisy environment and the sensitivity can beat the standard quantum limit when the noisy environment is non-Markovian.
翻訳日:2023-05-27 05:22:47 公開日:2020-04-01
# 連続時間進化を用いた量子コンピューティング

Quantum computing using continuous-time evolution ( http://arxiv.org/abs/2004.00704v1 )

ライセンス: Link先を確認
Viv Kendon(参考訳) 計算手法は、複雑な生物学的システムの特性を調べるための科学的実験以外に、我々が持っている最も効果的なツールである。 デジタルシリコンコンピュータが速度の限界に達しているため、進歩は減速している。 ニューロモルフィックや量子を含む、根本的に異なるアーキテクチャを用いた他のタイプの計算は、スピードと効率の両方でブレークスルーを約束する。 量子コンピューティングは、量子システムのコヒーレンスと重ね合わせ特性を利用して、多くの計算経路を並列に探索する。 これは、いくつかの種類の計算問題を解くための根本的なより効率的な経路を提供する。 特に、凸と非凸の両方の最適化問題は、タンパク質の折り畳みや分子動力学を含む多くの生物学的モデルに特徴付けられる。 初期の量子コンピュータは、デジタルシリコンコンピューティングの初期を思い起こさせる小さなものになるだろう。 第一世代の量子ハードウェアをどう活用するかを理解することは、生物シミュレーションと次世代の量子コンピュータの開発の進展に不可欠である。 本稿では,量子コンピューティングの現状と今後の展望を概説するとともに,生物シミュレーションにおけるボトルネックの迅速化に応用する方法と今後の展望について述べる。

Computational methods are the most effective tools we have besides scientific experiments to explore the properties of complex biological systems. Progress is slowing because digital silicon computers have reached their limits in terms of speed. Other types of computation using radically different architectures, including neuromorphic and quantum, promise breakthroughs in both speed and efficiency. Quantum computing exploits the coherence and superposition properties of quantum systems to explore many possible computational paths in parallel. This provides a fundamentally more efficient route to solving some types of computational problems, including several of relevance to biological simulations. In particular, optimisation problems, both convex and non-convex, feature in many biological models, including protein folding and molecular dynamics. Early quantum computers will be small, reminiscent of the early days of digital silicon computing. Understanding how to exploit the first generation of quantum hardware is crucial for making progress in both biological simulation and the development of the next generations of quantum computers. This review outlines the current state-of-the-art and future prospects for quantum computing, and provides some indications of how and where to apply it to speed up bottlenecks in biological simulation.
翻訳日:2023-05-27 05:22:35 公開日:2020-04-01
# リアルタイムインスタンスセグメンテーションのためのdeep snake

Deep Snake for Real-Time Instance Segmentation ( http://arxiv.org/abs/2001.01629v3 )

ライセンス: Link先を確認
Sida Peng, Wen Jiang, Huaijin Pi, Xiuli Li, Hujun Bao, Xiaowei Zhou(参考訳) 本稿では,リアルタイムインスタンスセグメンテーションのための新しい輪郭ベースアプローチであるdeep snakeを提案する。 画像からオブジェクト境界点の座標を直接後退させる最近の方法とは異なり、deep snakeはニューラルネットワークを使用して、オブジェクト境界にマッチする初期輪郭を反復的に変形させ、スネークアルゴリズムの古典的なアイデアを学習ベースのアプローチで実装している。 本稿では,輪郭上の構造的特徴学習のために,輪郭のサイクルグラフ構造を汎用グラフ畳み込みと比較し,ディープスネークにおける円形畳み込みの利用を提案する。 ディープ・スネークをベースとして,初期輪郭提案と輪郭変形という2段階のパイプラインを構築し,オブジェクトの局所化における誤差の処理を行う。 実験の結果、提案手法はCityscapes, KINS, SBD, COCOデータセット上での競合性能を実現し、1080 Ti GPU上での512$\times$512の高速32.3 fpsのリアルタイムアプリケーションに効率的であることが示された。 コードはhttps://github.com/zju3dv/snake/で入手できる。

This paper introduces a novel contour-based approach named deep snake for real-time instance segmentation. Unlike some recent methods that directly regress the coordinates of the object boundary points from an image, deep snake uses a neural network to iteratively deform an initial contour to match the object boundary, which implements the classic idea of snake algorithms with a learning-based approach. For structured feature learning on the contour, we propose to use circular convolution in deep snake, which better exploits the cycle-graph structure of a contour compared against generic graph convolution. Based on deep snake, we develop a two-stage pipeline for instance segmentation: initial contour proposal and contour deformation, which can handle errors in object localization. Experiments show that the proposed approach achieves competitive performances on the Cityscapes, KINS, SBD and COCO datasets while being efficient for real-time applications with a speed of 32.3 fps for 512$\times$512 images on a 1080Ti GPU. The code is available at https://github.com/zju3dv/snake/.
翻訳日:2023-01-14 02:36:38 公開日:2020-04-01
# Neural Data Server: 学習データ転送のための大規模検索エンジン

Neural Data Server: A Large-Scale Search Engine for Transfer Learning Data ( http://arxiv.org/abs/2001.02799v3 )

ライセンス: Link先を確認
Xi Yan, David Acuna, Sanja Fidler(参考訳) トランスファーラーニングは、ほとんどトレーニングデータがないドメインでディープラーニングモデルをトレーニングする成功技術であることが証明されている。 支配的なアプローチは、imagenetのような大きなジェネリックデータセット上でモデルを事前トレーニングし、ターゲットドメインで重みを微調整することです。 しかし、増え続ける膨大なデータセットの新時代において、事前トレーニングのための関連するデータを選択することが重要な問題である。 我々は,ターゲットドメインに最も有用な転送学習データを見つけるための大規模検索エンジンであるNeural Data Server (NDS)を紹介した。 ndsは、いくつかの大きな人気のあるイメージデータセットをインデックスするデータサーバで構成されており、クライアントにデータを推奨することを目的としている。 データサーバは、よりコンパクトなMix-of-expertsモデルで大規模なデータセットを表現し、計算コストの低い一連のデータサーバ-クライアントトランザクションでデータ検索を行う。 我々は,NDSの様々な伝達学習シナリオにおける有効性を示し,いくつかのターゲットデータセットや画像分類,オブジェクト検出,インスタンス分割といったタスクに対して最先端の性能を示す。 Neural Data Serverはhttp://aidemos.cs.toronto.edu/nds/でWebサービスとして利用できる。

Transfer learning has proven to be a successful technique to train deep learning models in the domains where little training data is available. The dominant approach is to pretrain a model on a large generic dataset such as ImageNet and finetune its weights on the target domain. However, in the new era of an ever-increasing number of massive datasets, selecting the relevant data for pretraining is a critical issue. We introduce Neural Data Server (NDS), a large-scale search engine for finding the most useful transfer learning data to the target domain. NDS consists of a dataserver which indexes several large popular image datasets, and aims to recommend data to a client, an end-user with a target application with its own small labeled dataset. The dataserver represents large datasets with a much more compact mixture-of-experts model, and employs it to perform data search in a series of dataserver-client transactions at a low computational cost. We show the effectiveness of NDS in various transfer learning scenarios, demonstrating state-of-the-art performance on several target datasets and tasks such as image classification, object detection and instance segmentation. Neural Data Server is available as a web-service at http://aidemos.cs.toronto.edu/nds/.
翻訳日:2023-01-13 04:30:29 公開日:2020-04-01
# 弱教師付き物体定位法を正しく評価する

Evaluating Weakly Supervised Object Localization Methods Right ( http://arxiv.org/abs/2001.07437v2 )

ライセンス: Link先を確認
Junsuk Choe, Seong Joon Oh, Seungho Lee, Sanghyuk Chun, Zeynep Akata, Hyunjung Shim(参考訳) 画像レベルのラベルだけでローカライズモデルをトレーニングすることを約束するWSOL(Weakly-supervised Object Localization)が近年人気を集めている。 The seminal WSOL work of class activation mapping (CAM) 以来、この分野はより広範に対象をカバーし、よりローカライズするために注意領域を拡張する方法に焦点を当ててきた。 しかし、これらの戦略は、ハイパーパラメータの検証とモデル選択のための完全なローカライゼーションの監督に依存しており、WSOL設定では原則として禁止されている。 本稿では,WSOLタスクはイメージレベルのラベルだけでは不十分であるとの論じ,テストセットと重複しない小さな保持セットにのみ完全な監督が制限される新たな評価プロトコルを提案する。 我々は、我々のプロトコルの下で、最新の5つのWSOLメソッドがCAMベースラインを大きく改善していないことを観察した。 さらに,検証時の全スーパービジョンをモデルトレーニングに使用する場合,既存のwsol手法がマイナショット学習ベースラインに達していないことも報告した。 そこで本研究では,WSOLの今後の方向性について述べる。

Weakly-supervised object localization (WSOL) has gained popularity over the last years for its promise to train localization models with only image-level labels. Since the seminal WSOL work of class activation mapping (CAM), the field has focused on how to expand the attention regions to cover objects more broadly and localize them better. However, these strategies rely on full localization supervision to validate hyperparameters and for model selection, which is in principle prohibited under the WSOL setup. In this paper, we argue that WSOL task is ill-posed with only image-level labels, and propose a new evaluation protocol where full supervision is limited to only a small held-out set not overlapping with the test set. We observe that, under our protocol, the five most recent WSOL methods have not made a major improvement over the CAM baseline. Moreover, we report that existing WSOL methods have not reached the few-shot learning baseline, where the full-supervision at validation time is used for model training instead. Based on our findings, we discuss some future directions for WSOL.
翻訳日:2023-01-07 23:34:16 公開日:2020-04-01
# resnetsにおける変分深度探索

Variational Depth Search in ResNets ( http://arxiv.org/abs/2002.02797v4 )

ライセンス: Link先を確認
Javier Antor\'an, James Urquhart Allingham, Jos\'e Miguel Hern\'andez-Lobato(参考訳) ワンショットニューラルネットワーク検索は、重み付けとネットワークアーキテクチャの合同学習を可能にし、計算コストを削減する。 我々は,探索空間を残差ネットワークの深さに限定し,一発で偏りのない近似的な奥行きを求める解析的変分目標を定式化する。 我々は,この分布に基づいてネットワークを損なうヒューリスティックを提案する。 MNIST, Fashion-MNIST, SVHNデータセットのネットワーク深度を手動で探索する手法の比較を行った。 破断されたネットワークは予測性能を損なわず、未破断されたネットワークと競合する精度を得る。 マージナリシングにより、通常のネットワークよりも優れた校正されたテスト時間不確実性推定を、単一のフォワードパスで得ることができる。

One-shot neural architecture search allows joint learning of weights and network architecture, reducing computational cost. We limit our search space to the depth of residual networks and formulate an analytically tractable variational objective that allows for obtaining an unbiased approximate posterior over depths in one-shot. We propose a heuristic to prune our networks based on this distribution. We compare our proposed method against manual search over network depths on the MNIST, Fashion-MNIST, SVHN datasets. We find that pruned networks do not incur a loss in predictive performance, obtaining accuracies competitive with unpruned networks. Marginalising over depth allows us to obtain better-calibrated test-time uncertainty estimates than regular networks, in a single forward pass.
翻訳日:2023-01-03 10:02:56 公開日:2020-04-01
# DSNAS:パラメータリトレーニングなしの直接ニューラルアーキテクチャ探索

DSNAS: Direct Neural Architecture Search without Parameter Retraining ( http://arxiv.org/abs/2002.09128v2 )

ライセンス: Link先を確認
Shoukang Hu, Sirui Xie, Hehui Zheng, Chunxiao Liu, Jianping Shi, Xunying Liu, Dahua Lin(参考訳) NASメソッドがソリューションである場合、問題は何か? 既存のNAS手法の多くは2段階のパラメータ最適化を必要とする。 しかし、2つの段階における同じアーキテクチャのパフォーマンスは相関性が低い。 本研究では,この観測に基づいて,タスク固有のエンドツーエンドであるNASの新しい問題定義を提案する。 我々は、NAS法が期待されるコンピュータビジョンタスクを考えると、この定義はあいまいに定義されたNAS評価を減らすことができると論じる。 一 この作業の正確性及び正確性 二 計算総量を用いて、最終的に精度を満足するモデルを得ること。 既存の手法が直接この問題を解決しないのを見て,我々は,低バイアスモンテカルロ推定でアーキテクチャとパラメータを同時に最適化する効率的な微分可能なnasフレームワークであるdsnasを提案する。 DSNASから派生した子ネットワークはパラメータ再トレーニングなしで直接デプロイできる。 2段階の手法と比較すると、dsnasはimagenetで同等の精度(74.4%)のネットワークを420gpu時間で発見し、合計時間を34%以上削減した。 実装はhttps://github.com/SNAS-Series/SNAS-Seriesで公開しています。

If NAS methods are solutions, what is the problem? Most existing NAS methods require two-stage parameter optimization. However, performance of the same architecture in the two stages correlates poorly. In this work, we propose a new problem definition for NAS, task-specific end-to-end, based on this observation. We argue that given a computer vision task for which a NAS method is expected, this definition can reduce the vaguely-defined NAS evaluation to i) accuracy of this task and ii) the total computation consumed to finally obtain a model with satisfying accuracy. Seeing that most existing methods do not solve this problem directly, we propose DSNAS, an efficient differentiable NAS framework that simultaneously optimizes architecture and parameters with a low-biased Monte Carlo estimate. Child networks derived from DSNAS can be deployed directly without parameter retraining. Comparing with two-stage methods, DSNAS successfully discovers networks with comparable accuracy (74.4%) on ImageNet in 420 GPU hours, reducing the total time by more than 34%. Our implementation is available at https://github.com/SNAS-Series/SNAS-Series.
翻訳日:2022-12-30 00:33:02 公開日:2020-04-01
# rmp-snn:高精度・低遅延スパイクニューラルネットワークのための残留膜電位ニューロン

RMP-SNN: Residual Membrane Potential Neuron for Enabling Deeper High-Accuracy and Low-Latency Spiking Neural Network ( http://arxiv.org/abs/2003.01811v2 )

ライセンス: Link先を確認
Bing Han, Gopalakrishnan Srinivasan, and Kaushik Roy(参考訳) スパイキングニューラルネットワーク(SNN)は最近、低消費電力のイベント駆動データ分析を可能にする第3世代の人工知能ニューラルネットワークとして、大きな研究関心を集めている。 画像認識タスクに最適なSNNは、Rectified Linear Units (ReLU) からなる訓練されたアナログニューラルネットワーク(ANN)を「適切な」発射閾値を持つ統合および発射ニューロンからなるSNNに変換することで得られる。 変換されたsnは、典型的には元の ann のものと比べ精度の低下を生じさせ、最適な精度を達成するためにかなりの数の推論時間ステップを必要とする。 変換されたSNNの性能劣化は、膜電位が発射しきい値を超えたときにリセット電位を固定するために駆動される「ハードリセット」スパイキングニューロンの使用によるものであり、SNN推論時の情報損失につながる。 本稿では, 残感膜電位(Residual membrane potential, RMP)と呼ばれる, 発火瞬間の閾値以上の「残留性」膜電位を保持するスパイリングニューロンモデルを用いて, ANN-SNN変換を提案する。 我々は、CIFAR-10 (93.63% top-1), CIFAR-100 (70.93% top-1), ImageNet (73.09% top-1 accuracy) などの挑戦的なデータセットに対して、VGG-16, ResNet-20, ResNet-34 SNN の RMP ニューロンを用いたほぼロスレス ANN-SNN 変換を示す。 また,RMP-SNNは,ネットワークアーキテクチャやデータセットの2~8倍の時間ステップで「ハードリセット」スパイキングニューロンを用いた変換SNNの最高の推論精度を上回ることを示した。

Spiking Neural Networks (SNNs) have recently attracted significant research interest as the third generation of artificial neural networks that can enable low-power event-driven data analytics. The best performing SNNs for image recognition tasks are obtained by converting a trained Analog Neural Network (ANN), consisting of Rectified Linear Units (ReLU), to SNN composed of integrate-and-fire neurons with "proper" firing thresholds. The converted SNNs typically incur loss in accuracy compared to that provided by the original ANN and require sizable number of inference time-steps to achieve the best accuracy. We find that performance degradation in the converted SNN stems from using "hard reset" spiking neuron that is driven to fixed reset potential once its membrane potential exceeds the firing threshold, leading to information loss during SNN inference. We propose ANN-SNN conversion using "soft reset" spiking neuron model, referred to as Residual Membrane Potential (RMP) spiking neuron, which retains the "residual" membrane potential above threshold at the firing instants. We demonstrate near loss-less ANN-SNN conversion using RMP neurons for VGG-16, ResNet-20, and ResNet-34 SNNs on challenging datasets including CIFAR-10 (93.63% top-1), CIFAR-100 (70.93% top-1), and ImageNet (73.09% top-1 accuracy). Our results also show that RMP-SNN surpasses the best inference accuracy provided by the converted SNN with "hard reset" spiking neurons using 2-8 times fewer inference time-steps across network architectures and datasets.
翻訳日:2022-12-28 20:17:42 公開日:2020-04-01
# 数千の最適化タスクを用いたハイパーパラメータ探索戦略の学習

Using a thousand optimization tasks to learn hyperparameter search strategies ( http://arxiv.org/abs/2002.11887v3 )

ライセンス: Link先を確認
Luke Metz, Niru Maheswaranathan, Ruoxi Sun, C. Daniel Freeman, Ben Poole, Jascha Sohl-Dickstein(参考訳) トレーニングやオプティマイザ評価に使用するタスクのデータセットであるTaskSetを提示する。 tasksetはサイズと多様性においてユニークであり、完全連結または畳み込みニューラルネットワークによる画像分類から変分オートエンコーダ、さまざまなデータセット上の非ボリューム保存フローまで、数千以上のタスクを含んでいる。 このようなデータセットのサンプルアプリケーションとして、逐次的に試行するハイパーパラメータの順序リストをメタラーニングします。 TaskSetを用いて生成されたデータからこのハイパーパラメータリストを学習することにより、ランダム検索よりもサンプル効率を大幅に高速化する。 次に、タスクセットの多様性とハイパーパラメータリストの学習手法を用いて、resnet50によるimagenet分類やトランスフォーマによるlm1b言語モデリングなど、さまざまな設定における新しい最適化タスクへのリストの一般化を実証的に検討する。 この作業の一環として、すべてのタスクのコードをオープンソース化し、これらの問題とそれに対応するハイパーパラメータのトレーニング曲線は約2900万に達しました。

We present TaskSet, a dataset of tasks for use in training and evaluating optimizers. TaskSet is unique in its size and diversity, containing over a thousand tasks ranging from image classification with fully connected or convolutional neural networks, to variational autoencoders, to non-volume preserving flows on a variety of datasets. As an example application of such a dataset we explore meta-learning an ordered list of hyperparameters to try sequentially. By learning this hyperparameter list from data generated using TaskSet we achieve large speedups in sample efficiency over random search. Next we use the diversity of the TaskSet and our method for learning hyperparameter lists to empirically explore the generalization of these lists to new optimization tasks in a variety of settings including ImageNet classification with Resnet50 and LM1B language modeling with transformers. As part of this work we have opensourced code for all tasks, as well as ~29 million training curves for these problems and the corresponding hyperparameters.
翻訳日:2022-12-28 07:39:45 公開日:2020-04-01
# ゲームAI最適化のためのNTBEAの軽量化

Weighting NTBEA for Game AI Optimisation ( http://arxiv.org/abs/2003.10378v2 )

ライセンス: Link先を確認
James Goodman and Simon Lucas(参考訳) N-Tuple Bandit Evolutionary Algorithm (NTBEA)は、ゲームAIにおけるアルゴリズムパラメータの最適化に非常に効果的であることが証明されている。 潜在的な弱点は、モデル内のすべてのコンポーネントタプルの単純な平均を使用することである。 本研究では,NTBEAにおけるN-Tupleモデルの改良について,それらの情報量と一致の特異性によって重み付けすることで検討した。 モデルに重み付け関数を導入して重み付けntbeaを取得し、4つのベンチマーク関数と2つのゲーム環境でテストする。 これらのテストは、バニラNTBEAがテストされたアルゴリズムの中で最も信頼性が高くパフォーマンスが高いことを示している。 さらに、イテレーション予算が与えられたら、いくつかの独立したNTBEA実行を実行し、予算の一部を使ってこれらの実行から最高のレコメンデーションを見つけるほうがよいことを示す。

The N-Tuple Bandit Evolutionary Algorithm (NTBEA) has proven very effective in optimising algorithm parameters in Game AI. A potential weakness is the use of a simple average of all component Tuples in the model. This study investigates a refinement to the N-Tuple model used in NTBEA by weighting these component Tuples by their level of information and specificity of match. We introduce weighting functions to the model to obtain Weighted- NTBEA and test this on four benchmark functions and two game environments. These tests show that vanilla NTBEA is the most reliable and performant of the algorithms tested. Furthermore we show that given an iteration budget it is better to execute several independent NTBEA runs, and use part of the budget to find the best recommendation from these runs.
翻訳日:2022-12-21 00:06:34 公開日:2020-04-01
# マルコフランダム性下における確率勾配の有限時間解析

Finite-Time Analysis of Stochastic Gradient Descent under Markov Randomness ( http://arxiv.org/abs/2003.10973v2 )

ライセンス: Link先を確認
Thinh T. Doan, Lam M. Nguyen, Nhan H. Pham, Justin Romberg(参考訳) 本稿では,強化学習と機械学習の幅広い応用に動機づけられ,対象関数の勾配がマルコフ過程からサンプリングされた場合の一般的な確率的勾配降下(sgd)について考察する。 このマルコフサンプリングは勾配サンプルに偏りがあり、独立ではない。 マルコフランダム性の下でのSGDの収束に関する既存の結果は、しばしば反復あるいは勾配サンプルの有界性に関する仮定の下で確立される。 目的関数の異なる種類のsgdの有限時間収束について,これらの仮定を必要とせずに検討する。 SGDはマルコフ勾配試料と独立勾配試料とほぼ同じ速度で収束することを示す。 唯一の違いは、マルコフ連鎖の混合時間を説明する対数係数である。

Motivated by broad applications in reinforcement learning and machine learning, this paper considers the popular stochastic gradient descent (SGD) when the gradients of the underlying objective function are sampled from Markov processes. This Markov sampling leads to the gradient samples being biased and not independent. The existing results for the convergence of SGD under Markov randomness are often established under the assumptions on the boundedness of either the iterates or the gradient samples. Our main focus is to study the finite-time convergence of SGD for different types of objective functions, without requiring these assumptions. We show that SGD converges nearly at the same rate with Markovian gradient samples as with independent gradient samples. The only difference is a logarithmic factor that accounts for the mixing time of the Markov chain.
翻訳日:2022-12-20 09:44:56 公開日:2020-04-01
# 重量減少の自然一般化としてのボラミゼーション

Volumization as a Natural Generalization of Weight Decay ( http://arxiv.org/abs/2003.11243v2 )

ライセンス: Link先を確認
Liu Ziyin, Zihao Wang, Makoto Yamada, Masahito Ueda(参考訳) 本稿では,ニューラルネットワークのための新しい正規化法である \textit{volumization}を提案する。 物理学に触発されて、ニューラルネットワークの重みパラメータの物理量を定義し、ニューラルネットワークを正則化する効果的な方法であることを示す。 直感的には、この方法は$L_2$と$L_\infty$正規化の間を補間する。 そのため, 提案アルゴリズムでは, 減量と減量が特別な場合となる。 おもちゃの例では,本手法の本質が偏差トレードオフを制御する正規化手法であることを証明している。 本手法は,ネットワークの一般化や記憶の防止など,標準重み減衰法がうまく機能するカテゴリにおいて有効であることが示されている。 さらに,重みが二元性あるいは三元性であるニューラルネットワークを訓練するための単純な方法が,ボルミゼーションによってもたらされる可能性を示した。

We propose a novel regularization method, called \textit{volumization}, for neural networks. Inspired by physics, we define a physical volume for the weight parameters in neural networks, and we show that this method is an effective way of regularizing neural networks. Intuitively, this method interpolates between an $L_2$ and $L_\infty$ regularization. Therefore, weight decay and weight clipping become special cases of the proposed algorithm. We prove, on a toy example, that the essence of this method is a regularization technique to control bias-variance tradeoff. The method is shown to do well in the categories where the standard weight decay method is shown to work well, including improving the generalization of networks and preventing memorization. Moreover, we show that the volumization might lead to a simple method for training a neural network whose weight is binary or ternary.
翻訳日:2022-12-20 02:49:13 公開日:2020-04-01
# 生成的対向ネットによる予測的ビジネスプロセスモニタリング:次のイベント予測の場合

Predictive Business Process Monitoring via Generative Adversarial Nets: The Case of Next Event Prediction ( http://arxiv.org/abs/2003.11268v2 )

ライセンス: Link先を確認
Farbod Taymouri, Marcello La Rosa, Sarah Erfani, Zahra Dasht Bozorgi, Ilya Verenich(参考訳) 予測プロセス監視は、ケース結果や残りのタイムスタンプなど、進行中のプロセスケースの将来の特性を予測することを目的としている。 近年,Long Short-Term MemoryやConvolutional Neural Networkといった,ディープラーニングに基づく予測プロセス監視手法が提案されている。 しかしながら、トレーニングデータ不足やネットワーク構成やアーキテクチャが最適でないため、これらのアプローチは問題に対して十分に一般化していない。 本稿では,GAN(Generative Adversarial Networks)を時系列データ領域に適応させることにより,この欠点に対処する新たな逆トレーニングフレームワークを提案する。 トレーニングは、一方のニューラルネットワークを2人のプレイヤーのゲーム(敵対的な性質)に配置することで、地上の真理と区別できない予測へと導く。 我々は,提案手法の最悪の精度が,非逆条件下で達成された精度と少なくとも等しいことを示す。 実験結果から,単純なネットワークアーキテクチャとナイーブな特徴符号化を用いても,提案手法は予測の正確さと補聴性の両方において,すべてのベースラインを体系的に上回ることがわかった。 さらに、その精度はケースの長さの変動の影響を受けないため、アプローチはより堅牢である。

Predictive process monitoring aims to predict future characteristics of an ongoing process case, such as case outcome or remaining timestamp. Recently, several predictive process monitoring methods based on deep learning such as Long Short-Term Memory or Convolutional Neural Network have been proposed to address the problem of next event prediction. However, due to insufficient training data or sub-optimal network configuration and architecture, these approaches do not generalize well the problem at hand. This paper proposes a novel adversarial training framework to address this shortcoming, based on an adaptation of Generative Adversarial Networks (GANs) to the realm of sequential temporal data. The training works by putting one neural network against the other in a two-player game (hence the adversarial nature) which leads to predictions that are indistinguishable from the ground truth. We formally show that the worst-case accuracy of the proposed approach is at least equal to the accuracy achieved in non-adversarial settings. From the experimental evaluation it emerges that the approach systematically outperforms all baselines both in terms of accuracy and earliness of the prediction, despite using a simple network architecture and a naive feature encoding. Moreover, the approach is more robust, as its accuracy is not affected by fluctuations over the case length.
翻訳日:2022-12-20 02:48:32 公開日:2020-04-01
# 3次元物体検出ニューラルネットワークシステムの安全性向上

Safety-Aware Hardening of 3D Object Detection Neural Network Systems ( http://arxiv.org/abs/2003.11242v3 )

ライセンス: Link先を確認
Chih-Hong Cheng(参考訳) 単段パイプラインを用いた3次元物体検出のための最先端ニューラルネットワークの安全性について検討した。 まず、3次元入力空間を臨界度で分割する安全仕様(他のコンポーネントの能力を反映する)から始め、臨界領域は摂動下でのロバスト性、バウンディングボックスの品質、トレーニングセットで実証された偽陰性に対する耐性を別々に基準として採用する。 アーキテクチャ設計では,特徴レベルの摂動を許容するシンボリックなエラー伝搬を考える。 次に,(1)安全仕様,(2)単一ステージ検出アーキテクチャの使用,(3)摂動下でのロバスト性の評価を反映した特殊な損失関数を導入する。 また、ニューラルネットワークが生成する安全性クレームを維持するために、一般的に見なされる非マックス抑制後処理アルゴリズムを安全認識非マックス排除アルゴリズムに置き換える。 この概念は、鳥の目視で物体の境界ボックスを点雲からの入力で生成する最先端のPIXOR検出器を拡張して詳述している。

We study how state-of-the-art neural networks for 3D object detection using a single-stage pipeline can be made safety aware. We start with the safety specification (reflecting the capability of other components) that partitions the 3D input space by criticality, where the critical area employs a separate criterion on robustness under perturbation, quality of bounding boxes, and the tolerance over false negatives demonstrated on the training set. In the architecture design, we consider symbolic error propagation to allow feature-level perturbation. Subsequently, we introduce a specialized loss function reflecting (1) the safety specification, (2) the use of single-stage detection architecture, and finally, (3) the characterization of robustness under perturbation. We also replace the commonly seen non-max-suppression post-processing algorithm by a safety-aware non-max-inclusion algorithm, in order to maintain the safety claim created by the neural network. The concept is detailed by extending the state-of-the-art PIXOR detector which creates object bounding boxes in bird's eye view with inputs from point clouds.
翻訳日:2022-12-20 02:29:20 公開日:2020-04-01
# suphx: 深層強化学習によるmahjongのマスタリング

Suphx: Mastering Mahjong with Deep Reinforcement Learning ( http://arxiv.org/abs/2003.13590v2 )

ライセンス: Link先を確認
Junjie Li, Sotetsu Koyamada, Qiwei Ye, Guoqing Liu, Chao Wang, Ruihan Yang, Li Zhao, Tao Qin, Tie-Yan Liu, Hsiao-Wuen Hon(参考訳) 人工知能(AI)は多くの領域で大きな成功を収めており、ゲームAIはAIの誕生以来、そのビーチヘッドと見なされている。 近年、ゲームAIの研究は、比較的単純な環境(例えば、囲碁、チェス、ショギのような完全情報ゲーム)からより複雑な環境(例えば、マルチプレイヤーのテキサスホールドエムやスタートクラフトIIのようなマルチプレイヤーの不完全情報ゲーム)へと徐々に進化してきた。 Mahjongは世界中のマルチプレイヤーの不完全な情報ゲームだが、複雑なプレイ/スコーリングルールと豊富な隠れ情報のために、AI研究にとって非常に難しい。 私たちは、global reward prediction、oracle guideing、run-time policy adaptationといった新しい技術を使って、深層強化学習に基づいて、mahjongのためのaiを設計します。 suphxは、ほとんどのトッププレイヤーよりも安定したランクで高いパフォーマンスを示しており、天宝プラットフォームにおける公式の人間プレイヤーの99.99%を上回っている。 コンピュータープログラムが麻雀で最も上位の人間プレイヤーを上回ったのは今回が初めてだ。

Artificial Intelligence (AI) has achieved great success in many domains, and game AI is widely regarded as its beachhead since the dawn of AI. In recent years, studies on game AI have gradually evolved from relatively simple environments (e.g., perfect-information games such as Go, chess, shogi or two-player imperfect-information games such as heads-up Texas hold'em) to more complex ones (e.g., multi-player imperfect-information games such as multi-player Texas hold'em and StartCraft II). Mahjong is a popular multi-player imperfect-information game worldwide but very challenging for AI research due to its complex playing/scoring rules and rich hidden information. We design an AI for Mahjong, named Suphx, based on deep reinforcement learning with some newly introduced techniques including global reward prediction, oracle guiding, and run-time policy adaptation. Suphx has demonstrated stronger performance than most top human players in terms of stable rank and is rated above 99.99% of all the officially ranked human players in the Tenhou platform. This is the first time that a computer program outperforms most top human players in Mahjong.
翻訳日:2022-12-18 07:35:09 公開日:2020-04-01
# 帯域制限チャネルを用いたニューラル通信システム

Neural Communication Systems with Bandwidth-limited Channel ( http://arxiv.org/abs/2003.13367v2 )

ライセンス: Link先を確認
Karen Ullrich, Fabio Viola, Danilo Jimenez Rezende(参考訳) ノイズチャネルによる情報損失にもかかわらず、信頼できるメッセージ送信は、情報理論の中核的な問題である。 現実世界のコミュニケーションの最も重要な側面の1つ、例えばwi-fiは、様々なレベルの情報転送で発生する可能性がある。 帯域幅制限チャネルはこの現象をモデル化する。 本研究では,帯域制限チャネル(bwlc)を用いた学習符号化について検討する。 近年,ソース圧縮の課題に対して,変分オートエンコーダなどのニューラル通信モデルが研究されている。 我々は,BWLCを用いたニューラル通信システムの研究により,この研究を基礎にしている。 具体的には、期待される情報損失に関係する3つのモデル選択を見出す。 まず,圧縮(ソースコーディング)と誤り訂正(チャネルコーディング)のサブタスクを分離する代わりに,両者を共同でモデル化することを提案する。 ニューラルネットワークのようなフレキシブルな学習可能な関数近似器によって符号化を行う場合、結合系は相違点よりも優れていると結論付けている。 学習を容易にするために,帯域幅制限チャネルの微分可能かつ計算効率の良いバージョンを提案する。 第2に,情報欠落を事前にモデル化し,これをチャネルモデルに組み込む設計を提案する。 そして、デコーダに補助的潜在変数を導入することにより、ジョイントモデルからのサンプリングを改善する。 実験結果は, 歪みとfidスコアの改善により, 設計決定の有効性を正当化する。

Reliably transmitting messages despite information loss due to a noisy channel is a core problem of information theory. One of the most important aspects of real world communication, e.g. via wifi, is that it may happen at varying levels of information transfer. The bandwidth-limited channel models this phenomenon. In this study we consider learning coding with the bandwidth-limited channel (BWLC). Recently, neural communication models such as variational autoencoders have been studied for the task of source compression. We build upon this work by studying neural communication systems with the BWLC. Specifically,we find three modelling choices that are relevant under expected information loss. First, instead of separating the sub-tasks of compression (source coding) and error correction (channel coding), we propose to model both jointly. Framing the problem as a variational learning problem, we conclude that joint systems outperform their separate counterparts when coding is performed by flexible learnable function approximators such as neural networks. To facilitate learning, we introduce a differentiable and computationally efficient version of the bandwidth-limited channel. Second, we propose a design to model missing information with a prior, and incorporate this into the channel model. Finally, sampling from the joint model is improved by introducing auxiliary latent variables in the decoder. Experimental results justify the validity of our design decisions through improved distortion and FID scores.
翻訳日:2022-12-18 07:19:40 公開日:2020-04-01
# DPGN:Few-shot Learningのための分散伝搬グラフネットワーク

DPGN: Distribution Propagation Graph Network for Few-shot Learning ( http://arxiv.org/abs/2003.14247v2 )

ライセンス: Link先を確認
Ling Yang, Liangliang Li, Zilun Zhang, Xinyu Zhou, Erjin Zhou, and Yu Liu(参考訳) ほとんどのグラフネットワークベースのメタ学習は、例のインスタンスレベルの関係をモデル化する。 この考えをさらに拡張して、ある例の分布レベル関係を 1-vs-N の方法で他のすべての例に明示的にモデル化する。 本稿では,分散伝播グラフネットワーク (DPGN) という新しい手法を提案する。 数発の学習タスクにおいて、分布レベル関係とインスタンスレベル関係の両方を伝達する。 すべての例に対する分布レベル関係とインスタンスレベル関係を組み合わせるために,各ノードが例に立つ点グラフと分布グラフからなる2つの完全グラフネットワークを構築した。 デュアルグラフアーキテクチャを備えたDPGNは、ラベル付き例からラベルなし例まで、いくつかの更新世代でラベル情報を伝搬する。 数ショットの学習ベンチマークに関する広範な実験では、DPGNは最先端の結果よりも5%$\sim$12%、7%$\sim$13%で大きなマージンを達成している。 コードはリリースされる。

Most graph-network-based meta-learning approaches model instance-level relation of examples. We extend this idea further to explicitly model the distribution-level relation of one example to all other examples in a 1-vs-N manner. We propose a novel approach named distribution propagation graph network (DPGN) for few-shot learning. It conveys both the distribution-level relations and instance-level relations in each few-shot learning task. To combine the distribution-level relations and instance-level relations for all examples, we construct a dual complete graph network which consists of a point graph and a distribution graph with each node standing for an example. Equipped with dual graph architecture, DPGN propagates label information from labeled examples to unlabeled examples within several update generations. In extensive experiments on few-shot learning benchmarks, DPGN outperforms state-of-the-art results by a large margin in 5% $\sim$ 12% under supervised setting and 7% $\sim$ 13% under semi-supervised setting. Code will be released.
翻訳日:2022-12-18 01:34:55 公開日:2020-04-01
# TransMoMo: 分散駆動型教師なしビデオモーションリターゲティング

TransMoMo: Invariance-Driven Unsupervised Video Motion Retargeting ( http://arxiv.org/abs/2003.14401v2 )

ライセンス: Link先を確認
Zhuoqian Yang, Wentao Zhu, Wayne Wu, Chen Qian, Qiang Zhou, Bolei Zhou, Chen Change Loy(参考訳) 対象者の別の映像に対して、ソース映像中の人の動きを現実的に伝達することのできる軽量な動画モーション再ターゲティング手法であるtransmomoを提案する。 提案手法は,2組のデータを用いなくても,動き,構造,ビューアングルを含む3つの直交因子の不変性を生かして,教師なしで訓練することができる。 具体的には,不均一性に基づく損失関数を注意深く導出することにより,音源と対象ビデオクリップの潜在表現を分離する自動エンコーダを訓練する。 これにより、ソースとターゲット間の構造的およびビューアングルの相違にもかかわらず、ソースビデオから抽出した動きをターゲットビデオにシームレスに転送することができる。 ペア化データのゆるやかな仮定は,ソースとターゲットのペアリングの手動アノテーションを必要とせず,膨大な量のビデオでトレーニングを行うことを可能にし,大きな構造変化に対する堅牢性やビデオの極端な動きを改善させる。 本研究では,最先端手法に対する提案手法の有効性を示す。 コード、モデル、データはプロジェクトページで公開されている(https://yzhq97.github.io/transmomo)。

We present a lightweight video motion retargeting approach TransMoMo that is capable of transferring motion of a person in a source video realistically to another video of a target person. Without using any paired data for supervision, the proposed method can be trained in an unsupervised manner by exploiting invariance properties of three orthogonal factors of variation including motion, structure, and view-angle. Specifically, with loss functions carefully derived based on invariance, we train an auto-encoder to disentangle the latent representations of such factors given the source and target video clips. This allows us to selectively transfer motion extracted from the source video seamlessly to the target video in spite of structural and view-angle disparities between the source and the target. The relaxed assumption of paired data allows our method to be trained on a vast amount of videos needless of manual annotation of source-target pairing, leading to improved robustness against large structural variations and extreme motion in videos. We demonstrate the effectiveness of our method over the state-of-the-art methods. Code, model and data are publicly available on our project page (https://yzhq97.github.io/transmomo).
翻訳日:2022-12-18 01:33:34 公開日:2020-04-01
# 深層学習を用いた美術史の文字認識

Recognizing Characters in Art History Using Deep Learning ( http://arxiv.org/abs/2003.14171v2 )

ライセンス: Link先を確認
Prathmesh Madhu, Ronak Kosti, Lara M\"uhrenberg, Peter Bell, Andreas Maier, Vincent Christlein(参考訳) 美術史の分野において、芸術作品とその文脈のイメージは、基礎となる意味的情報を理解するための核心である。 しかし、これらの芸術作品の非常に複雑で洗練された表現は、専門家にとっても、現場の分析を困難にしている。 コンピュータビジョンの観点からは、このようなアートワークを分析するタスクはボトムアップアプローチを用いてサブプロブレムに分割することができる。 本稿では,美術史における文字認識の問題に焦点をあてる。 図1:$annunciation $of$$the$ $ $lord$(図1)では、主要な主人公の表現である$mary$と$gabriel$を異なるアートワークとスタイルにまたがって考える。 顔画像から抽出した特徴に基づいて文字分類器の訓練を行った結果について検討した。 この方法の限界と、$gabriel$の表現に固有のあいまいさは、文字を認識するために、それらの体(より大きな文脈)を分析することを動機付けました。 mary$と$gabriel$でトレーニングされた畳み込みニューラルネットワーク(cnn)は、人に関連する特徴を学習し、最終的に文字認識のパフォーマンスを向上させることができる。 我々は、類似したスタイルでより多くのデータを生成し、類似したドメインで効率的にデータを生成する新しい技術を導入する。 本稿では,3つの異なるモデルについて実験と分析を行い,ドメイン関連データで学習したモデルがキャラクタ認識に最適な性能を与えることを示す。 さらに,ネットワーク予測のための局所画像領域の解析を行う。 コードはhttps://github.com/prathmeshrmadhu/recognize_characters_art_historyで公開されている。 id=3357242。

In the field of Art History, images of artworks and their contexts are core to understanding the underlying semantic information. However, the highly complex and sophisticated representation of these artworks makes it difficult, even for the experts, to analyze the scene. From the computer vision perspective, the task of analyzing such artworks can be divided into sub-problems by taking a bottom-up approach. In this paper, we focus on the problem of recognizing the characters in Art History. From the iconography of $Annunciation$ $of$ $the$ $Lord$ (Figure 1), we consider the representation of the main protagonists, $Mary$ and $Gabriel$, across different artworks and styles. We investigate and present the findings of training a character classifier on features extracted from their face images. The limitations of this method, and the inherent ambiguity in the representation of $Gabriel$, motivated us to consider their bodies (a bigger context) to analyze in order to recognize the characters. Convolutional Neural Networks (CNN) trained on the bodies of $Mary$ and $Gabriel$ are able to learn person related features and ultimately improve the performance of character recognition. We introduce a new technique that generates more data with similar styles, effectively creating data in the similar domain. We present experiments and analysis on three different models and show that the model trained on domain related data gives the best performance for recognizing character. Additionally, we analyze the localized image regions for the network predictions. Code is open-sourced and available at https://github.com/prathmeshrmadhu/recognize_characters_art_history and the link to the published peer-reviewed article is https://dl.acm.org/citation.cfm?id=3357242.
翻訳日:2022-12-18 01:24:11 公開日:2020-04-01
# 都市交通予測のための時空間予測フレームワーク

A Spatio-Temporal Spot-Forecasting Framework for Urban Traffic Prediction ( http://arxiv.org/abs/2003.13977v2 )

ライセンス: Link先を確認
Rodrigo de Medrano, Jos\'e L. Aznarte(参考訳) 時空間予測は、指数関数的に成長しているオープン研究分野である。 本研究では,時間的トラヒック予測のための複雑な深層ニューラルネットワークフレームワークの作成に焦点をあて,高い性能と時間的トラヒック予測の理解と解釈の容易さを保ちながら,時空間的条件に適応できることを示す。 提案手法は,重要な時空間時系列成分を捉えるために複数のモジュールを結合した,解釈可能なアテンションベースニューラルネットワークに基づく。 広範な実験を通じて,我々のアプローチの結果が,他の最先端の代替製品よりも安定して優れたものであることを示す。

Spatio-temporal forecasting is an open research field whose interest is growing exponentially. In this work we focus on creating a complex deep neural framework for spatio-temporal traffic forecasting with comparatively very good performance and that shows to be adaptable over several spatio-temporal conditions while remaining easy to understand and interpret. Our proposal is based on an interpretable attention-based neural network in which several modules are combined in order to capture key spatio-temporal time series components. Through extensive experimentation, we show how the results of our approach are stable and better than those of other state-of-the-art alternatives.
翻訳日:2022-12-18 00:30:48 公開日:2020-04-01
# モジュール型ニューラルネットワークを用いたMIMO信号検出のためのディープラーニング手法

A Modular Neural Network Based Deep Learning Approach for MIMO Signal Detection ( http://arxiv.org/abs/2004.00404v1 )

ライセンス: Link先を確認
Songyan Xue, Yi Ma, Na Yi, and Terence E. Dodgson(参考訳) 本稿では,人工ニューラルネットワーク(ANN)を用いたマルチインプット多重出力(MIMO)信号検出が,基本的には連成統計チャネル量子化と信号量子化の手順であるMIMO-VQと呼ばれるANN支援損失ベクトル量子化(VQ)としてモデル化できることを明らかにする。 量子化損失は送信アンテナ数とともに直線的に増加し,MIMO-VQはMIMOの規模に劣る。 この発見に動機づけられ、mnnetと呼ばれる新しいモジュラーニューラルネットワークベースのアプローチを提案し、ネットワーク全体が事前定義されたannモジュールのセットで形成される。 annモジュールの設計の鍵は、mnnetにおける並列干渉キャンセルの統合にある。これは、フィードフォワード伝播に沿った干渉(または、同等数の送信アンテナ)を量子化損失として線形に減少させる。 シミュレーションの結果,mnnetアプローチは様々なケースにおいて,ほぼ最適に近い性能でディープラーニング能力を大幅に向上させることがわかった。 mnnetは高度にモジュール化されているため、学習手順はネットワーク全体に適用される必要はなく、モジュールレベルで適用される。 このため、MNNetは、他のディープラーニングベースのMIMO検出アプローチよりもはるかに低い学習複雑性の利点がある。

In this paper, we reveal that artificial neural network (ANN) assisted multiple-input multiple-output (MIMO) signal detection can be modeled as ANN-assisted lossy vector quantization (VQ), named MIMO-VQ, which is basically a joint statistical channel quantization and signal quantization procedure. It is found that the quantization loss increases linearly with the number of transmit antennas, and thus MIMO-VQ scales poorly with the size of MIMO. Motivated by this finding, we propose a novel modular neural network based approach, termed MNNet, where the whole network is formed by a set of pre-defined ANN modules. The key of ANN module design lies in the integration of parallel interference cancellation in the MNNet, which linearly reduces the interference (or equivalently the number of transmit-antennas) along the feed-forward propagation; and so as the quantization loss. Our simulation results show that the MNNet approach largely improves the deep-learning capacity with near-optimal performance in various cases. Provided that MNNet is well modularized, the learning procedure does not need to be applied on the entire network as a whole, but rather at the modular level. Due to this reason, MNNet has the advantage of much lower learning complexity than other deep-learning based MIMO detection approaches.
翻訳日:2022-12-17 19:37:44 公開日:2020-04-01
# 異なる採餌環境に適応する人工学習エージェントにおける群行動の発達

Development of swarm behavior in artificial learning agents that adapt to different foraging environments ( http://arxiv.org/abs/2004.00552v1 )

ライセンス: Link先を確認
Andrea L\'opez-Incera, Katja Ried, Thomas M\"uller, Hans J. Briegel(参考訳) 集団行動、特に群の形成は、生物学から物理学まで、様々な分野の様々な視点から研究されてきた。 本研究は,各個人を,隣人や周囲と対話し,意思決定を行い,そこから学ぶための人工学習エージェントとしてモデル化するために,投影シミュレーションを適用する。 強化学習フレームワークでは,エージェントが食料資源に報奨を受ける必要がある1次元学習シナリオについて議論する。 我々は,エージェントが資源に到達するのに必要な距離に応じて,異なる種類の集団運動がどのように出現するかを観察した。 例えば、食品源がエージェントが最初に配置された地域から遠く離れたところに置かれると、強く整列する群れが現れる。 さらに,創発的集団力学の異なる種類において生じる個々の軌跡の特性について検討した。 遠くの資源を見つけるために訓練されたエージェントは、集団的な動きの結果、L'evyのような特徴を持つ個々の軌道を示す。

Collective behavior, and swarm formation in particular, has been studied from several perspectives within a large variety of fields, ranging from biology to physics. In this work, we apply Projective Simulation to model each individual as an artificial learning agent that interacts with its neighbors and surroundings in order to make decisions and learn from them. Within a reinforcement learning framework, we discuss one-dimensional learning scenarios where agents need to get to food resources to be rewarded. We observe how different types of collective motion emerge depending on the distance the agents need to travel to reach the resources. For instance, strongly aligned swarms emerge when the food source is placed far away from the region where agents are situated initially. In addition, we study the properties of the individual trajectories that occur within the different types of emergent collective dynamics. Agents trained to find distant resources exhibit individual trajectories with L\'evy-like characteristics as a consequence of the collective motion, whereas agents trained to reach nearby resources present Brownian-like trajectories.
翻訳日:2022-12-17 19:37:01 公開日:2020-04-01
# dawプラグインとしての可変オートエンコーダ型リズムジェネレータのai設計による音楽制作の民主化に向けて

Towards democratizing music production with AI-Design of Variational Autoencoder-based Rhythm Generator as a DAW plugin ( http://arxiv.org/abs/2004.01525v1 )

ライセンス: Link先を確認
Nao Tokui(参考訳) 深層学習を利用した音楽生成技術は大きな進歩を遂げている。 しかし、ミュージシャンやアーティストが日々の音楽制作にこれらの技法を使うことは依然として困難である。 本稿では,音楽家たちがMIDIファイルを選択するだけで深層学習モデルを訓練し,そのモデルで様々なリズムを生成できる変動型オートエンコーダ(VAE)ベースのリズム生成システムを提案する。 著者らはDAW(Digital Audio Workstation)のプラグインソフトウェアとして,Ableton Live用のMax for Liveデバイスとして実装した。 プロ/セミプロのミュージシャンや音楽プロデューサーがプラグインを使っており、このプラグインは音楽を創造的にするための便利なツールであることが証明された。 プラグイン、ソースコード、デモビデオはオンラインで入手できる。

There has been significant progress in the music generation technique utilizing deep learning. However, it is still hard for musicians and artists to use these techniques in their daily music-making practice. This paper proposes a Variational Autoencoder\cite{Kingma2014}(VAE)-based rhythm generation system, in which musicians can train a deep learning model only by selecting target MIDI files, then generate various rhythms with the model. The author has implemented the system as a plugin software for a DAW (Digital Audio Workstation), namely a Max for Live device for Ableton Live. Selected professional/semi-professional musicians and music producers have used the plugin, and they proved that the plugin is a useful tool for making music creatively. The plugin, source code, and demo videos are available online.
翻訳日:2022-12-17 19:36:43 公開日:2020-04-01
# 危険地帯のロボット:エンゲージメントによる公衆の認識を探る

Robots in the Danger Zone: Exploring Public Perception through Engagement ( http://arxiv.org/abs/2004.00689v1 )

ライセンス: Link先を確認
David A. Robb, Muneeb I. Ahmad, Carlo Tiseo, Simona Aracri, Alistair C. McConnell, Vincent Page, Christian Dondrup, Francisco J. Chiyah Garcia, Hai-Nguyen Nguyen, \`Eric Pairet, Paola Ard\'on Ram\'irez, Tushar Semwal, Hazel M. Taylor, Lindsay J. Wilson, David Lane, Helen Hastie, Katrin Lohan(参考訳) ロボットと人工知能(RAI)に対する大衆の認識は、この技術の受容、取り込み、政府の規制、研究資金において重要である。 近年の研究では、国民のraiに対する理解が否定的あるいは不正確であることが示されている。 効果的な市民参加は、世論がより良く伝えられることを保証するのに役立つと信じています。 本稿では,高スループットな個人内エンゲージメント活動の最初のイテレーションについて述べる。 本稿では,実地調査参加を参加に組み込むための,ライトタッチクイズ形式の調査装置の使用について述べるとともに,参加戦略の有効性と,オフショアエネルギー部門など,危険な環境で作業するロボットや人間の将来の役割に関する一般の認識の両方について検討する。 我々は,我々の手法を批判し,危険な環境におけるロボット工学とaiの将来観における世代差について興味深い結果を共有する。 これらの結果から, 危険環境におけるロボットの将来に対する高齢者の見解は, 展示物への露出によって揺るがされなかったが, 若者の視点は展示物に影響され, 今後, 高齢者とより効果的に関わり, 知らせる方法について, 慎重に検討した。

Public perceptions of Robotics and Artificial Intelligence (RAI) are important in the acceptance, uptake, government regulation and research funding of this technology. Recent research has shown that the public's understanding of RAI can be negative or inaccurate. We believe effective public engagement can help ensure that public opinion is better informed. In this paper, we describe our first iteration of a high throughput in-person public engagement activity. We describe the use of a light touch quiz-format survey instrument to integrate in-the-wild research participation into the engagement, allowing us to probe both the effectiveness of our engagement strategy, and public perceptions of the future roles of robots and humans working in dangerous settings, such as in the off-shore energy sector. We critique our methods and share interesting results into generational differences within the public's view of the future of Robotics and AI in hazardous environments. These findings include that older peoples' views about the future of robots in hazardous environments were not swayed by exposure to our exhibit, while the views of younger people were affected by our exhibit, leading us to consider carefully in future how to more effectively engage with and inform older people.
翻訳日:2022-12-17 19:33:46 公開日:2020-04-01
# リカレント変分オートエンコーダを用いたボットネット検出

Botnet Detection Using Recurrent Variational Autoencoder ( http://arxiv.org/abs/2004.00234v1 )

ライセンス: Link先を確認
Jeeyung Kim, Alex Sim, Jinoh Kim, Kesheng Wu(参考訳) ボットネットは悪役によってますます利用され、多くのインターネットユーザーに対する脅威が高まっている。 この増大する危険に対処するために、ボットネット、特にシグネチャベースのものや既存の異常ベースのものなど、一般的に使われる方法では捕捉が難しいものを検出する方法を研究することを提案する。 より具体的には、ボットネットによる攻撃を含むネットワークトラフィックフローデータの逐次特性を通じてボットネットを検出するための、recurrent variational autoencoder(rvae)という新しい機械学習ベースの手法を提案する。 CTU-13データセットでは、トレーニングデータセットとは異なるタイプのボットネットを持つテストデータセットを選択しました。 RVAEは文献で発表された最もよく知られた結果と同じ精度でボットネットを検出することができる。 さらに,確率分布に基づいて異常スコアを割り当てる手法を提案し,新たなネットワーク統計が利用可能になると,ストリーミングモードでボットネットを検出する。 このオンライン検出機能は未知のボットネットのリアルタイム検出を可能にする。

Botnets are increasingly used by malicious actors, creating increasing threat to a large number of internet users. To address this growing danger, we propose to study methods to detect botnets, especially those that are hard to capture with the commonly used methods, such as the signature based ones and the existing anomaly-based ones. More specifically, we propose a novel machine learning based method, named Recurrent Variational Autoencoder (RVAE), for detecting botnets through sequential characteristics of network traffic flow data including attacks by botnets. We validate robustness of our method with the CTU-13 dataset, where we have chosen the testing dataset to have different types of botnets than those of training dataset. Tests show that RVAE is able to detect botnets with the same accuracy as the best known results published in literature. In addition, we propose an approach to assign anomaly score based on probability distributions, which allows us to detect botnets in streaming mode as the new networking statistics becomes available. This on-line detection capability would enable real-time detection of unknown botnets.
翻訳日:2022-12-17 19:31:53 公開日:2020-04-01
# 意味的粒度が地理情報検索支援に与える影響

Impact of Semantic Granularity on Geographic Information Search Support ( http://arxiv.org/abs/2004.00293v1 )

ライセンス: Link先を確認
Noemi Mauro, Liliana Ardissono, Laura Di Rocco, Michela Bertolotto and Giovanna Guerrini(参考訳) 情報検索研究は、正確な検索結果を提供するために意味論を用いたが、概念抽象の分析は主に情報統合に焦点を当てている。 地理情報検索におけるセッションベースの問合せ拡張について検討し,意味的粒度(概念表現の特異性)が検索対象の情報型の提案に与える影響について検討する。 本研究では,知識表現における詳細レベルの違いが,複雑な情報空間の探索においてユーザを導く能力にどのように影響するかを検討する。 異なる意味的粒度レベルで定義された3つの空間的オントロジーを用いたクエリ拡張モデルの性能比較分析により,細粒度表現がリコールを促進することが明らかとなった。 しかし、正確には、オントロジーが人々の概念化や地理的空間の表現にいかに近いかに依存する。

The Information Retrieval research has used semantics to provide accurate search results, but the analysis of conceptual abstraction has mainly focused on information integration. We consider session-based query expansion in Geographical Information Retrieval, and investigate the impact of semantic granularity (i.e., specificity of concepts representation) on the suggestion of relevant types of information to search for. We study how different levels of detail in knowledge representation influence the capability of guiding the user in the exploration of a complex information space. A comparative analysis of the performance of a query expansion model, using three spatial ontologies defined at different semantic granularity levels, reveals that a fine-grained representation enhances recall. However, precision depends on how closely the ontologies match the way people conceptualize and verbally describe the geographic space.
翻訳日:2022-12-17 19:31:24 公開日:2020-04-01
# sketch guided progressive growing gans による超音波画像の合成と編集

Synthesis and Edition of Ultrasound Images via Sketch Guided Progressive Growing GANs ( http://arxiv.org/abs/2004.00226v1 )

ライセンス: Link先を確認
Jiamin Liang, Xin Yang, Haoming Li, Yi Wang, Manh The Van, Haoran Dou, Chaoyu Chen, Jinghui Fang, Xiaowen Liang, Zixin Mai, Guowen Zhu, Zhiyi Chen, Dong Ni(参考訳) 超音波(US)は解剖学的構造検査のための臨床で広く受け入れられている。 しかし、米国のスキャンを実践するリソースが不足しているため、初心者はしばしば手術スキルを学ぶのに苦労する。 また、ディープラーニング時代には、注釈付きサンプルの欠如により、自動US画像解析が制限される。 リアル、編集可能、高解像度の画像の効率的な合成は、この問題を解決できる。 タスクは難しく、以前のメソッドは部分的にしか完了できません。 本稿では,米国における画像合成のための新しい枠組みを考案する。 特に,まず,対象マスクに背景スケッチを導入するためのスケッチ生成対向ネットワーク(Sgan)を,条件付き生成対向ネットワークに導入する。 スケッチを豊かにすることで、sganは、編集可能できめ細かい構造の詳細を持つリアルな米国画像を生成することができる。 効果はあるものの、Sganは高解像度のUS画像を生成するのが難しい。 これを実現するために、我々はさらにSganをプログレッシブ成長スキーム(PGSgan)に移植する。 pgsganは、発電機と判別器の両方をスムーズに成長させることで、低解像度から高解像度の画像を徐々に合成することができる。 卵巣と卵胞のUS画像の合成により,広範囲な知覚評価,ユーザスタディ,セグメンテーションの結果から,提案したPGSganの有効性と有効性が確認された。

Ultrasound (US) is widely accepted in clinic for anatomical structure inspection. However, lacking in resources to practice US scan, novices often struggle to learn the operation skills. Also, in the deep learning era, automated US image analysis is limited by the lack of annotated samples. Efficiently synthesizing realistic, editable and high resolution US images can solve the problems. The task is challenging and previous methods can only partially complete it. In this paper, we devise a new framework for US image synthesis. Particularly, we firstly adopt a sketch generative adversarial networks (Sgan) to introduce background sketch upon object mask in a conditioned generative adversarial network. With enriched sketch cues, Sgan can generate realistic US images with editable and fine-grained structure details. Although effective, Sgan is hard to generate high resolution US images. To achieve this, we further implant the Sgan into a progressive growing scheme (PGSgan). By smoothly growing both generator and discriminator, PGSgan can gradually synthesize US images from low to high resolution. By synthesizing ovary and follicle US images, our extensive perceptual evaluation, user study and segmentation results prove the promising efficacy and efficiency of the proposed PGSgan.
翻訳日:2022-12-17 19:22:34 公開日:2020-04-01
# softsmpl:パラメトリック人体に対する非線形ソフトトイップダイナミクスのデータ駆動モデリング

SoftSMPL: Data-driven Modeling of Nonlinear Soft-tissue Dynamics for Parametric Humans ( http://arxiv.org/abs/2004.00326v1 )

ライセンス: Link先を確認
Igor Santesteban, Elena Garces, Miguel A. Otaduy, Dan Casas(参考訳) 本稿では,身体形状と運動の関数として,リアルなソフトトイップダイナミクスをモデル化する学習ベース手法であるsoftsmplを提案する。 このようなタスクを学習するためのデータセットは少なく、生成コストがかかるため、トレーニングモデルが過度に適合しやすくなる。 提案手法のコアには3つの重要なコントリビューションがあり、同じデータをトレーニングしながら、高度に現実的なダイナミクスをモデル化し、最先端の手法よりも優れた一般化能力を実現できる。 第1に、主観的な特徴を除去して標準ポーズ表現を歪ませる新しい動き記述子、第2に、目に見えない形状や動きに一般化するニューラルネットベースのリカレント回帰子、第3に、任意の形状の軟形状変形を表現できる高効率な非線形変形部分空間。 本研究では,既存の手法に対する質的,定量的な改善を示すとともに,各種モーションキャプチャデータベース上でのロバスト性を示す。

We present SoftSMPL, a learning-based method to model realistic soft-tissue dynamics as a function of body shape and motion. Datasets to learn such task are scarce and expensive to generate, which makes training models prone to overfitting. At the core of our method there are three key contributions that enable us to model highly realistic dynamics and better generalization capabilities than state-of-the-art methods, while training on the same data. First, a novel motion descriptor that disentangles the standard pose representation by removing subject-specific features; second, a neural-network-based recurrent regressor that generalizes to unseen shapes and motions; and third, a highly efficient nonlinear deformation subspace capable of representing soft-tissue deformations of arbitrary shapes. We demonstrate qualitative and quantitative improvements over existing methods and, additionally, we show the robustness of our method on a variety of motion capture databases.
翻訳日:2022-12-17 19:22:18 公開日:2020-04-01
# PIFuHD:高分解能3次元人体デジタル化のための多層カメラアライメントインシシシット機能

PIFuHD: Multi-Level Pixel-Aligned Implicit Function for High-Resolution 3D Human Digitization ( http://arxiv.org/abs/2004.00452v1 )

ライセンス: Link先を確認
Shunsuke Saito, Tomas Simon, Jason Saragih, Hanbyul Joo(参考訳) 画像に基づく3次元人物形状推定の最近の進歩は、ディープニューラルネットワークによる表現力の大幅な向上によるものである。 現在のアプローチでは、実世界の設定においてその可能性を実証しているが、入力画像にしばしば現れる詳細レベルで再現することができない。 正確な予測には大きなコンテキストを必要とするが、正確な予測には高解像度が必要である。 現在のハードウェアにおけるメモリの制限のため、以前のアプローチでは、大きな空間的コンテキストをカバーするために低解像度のイメージを入力とし、結果として正確な(または低解像度の)3d推定を生成する傾向があった。 我々は、エンドツーエンドのトレーニング可能なマルチレベルアーキテクチャを定式化することで、この制限に対処する。 粗いレベルは、画像全体を低い解像度で観察し、全体論に焦点をあてる。 これにより、高解像度の画像を観察することで、高度に詳細な幾何学を推定できる。 提案手法は,1k分解能入力画像の完全活用により,既存の画像形状復元技術よりも優れていることを示す。

Recent advances in image-based 3D human shape estimation have been driven by the significant improvement in representation power afforded by deep neural networks. Although current approaches have demonstrated the potential in real world settings, they still fail to produce reconstructions with the level of detail often present in the input images. We argue that this limitation stems primarily form two conflicting requirements; accurate predictions require large context, but precise predictions require high resolution. Due to memory limitations in current hardware, previous approaches tend to take low resolution images as input to cover large spatial context, and produce less precise (or low resolution) 3D estimates as a result. We address this limitation by formulating a multi-level architecture that is end-to-end trainable. A coarse level observes the whole image at lower resolution and focuses on holistic reasoning. This provides context to an fine level which estimates highly detailed geometry by observing higher-resolution images. We demonstrate that our approach significantly outperforms existing state-of-the-art techniques on single image human shape reconstruction by fully leveraging 1k-resolution input images.
翻訳日:2022-12-17 19:21:36 公開日:2020-04-01
# 白黒ボックス攻撃によるディープフェイク画像の検出

Evading Deepfake-Image Detectors with White- and Black-Box Attacks ( http://arxiv.org/abs/2004.00622v1 )

ライセンス: Link先を確認
Nicholas Carlini, Hany Farid(参考訳) 現在、存在していない人々の非常に現実的なイメージを合成することが可能である。 このようなコンテンツは、例えば、非情報キャンペーンに責任を負う不正なソーシャルメディアプロファイルの作成に関係している。 したがって、合成コンテンツを検出するために、重要な取り組みが展開されている。 ある一般的な法医学的アプローチは、ニューラルネットワークを訓練し、実際の合成内容と区別する。 このような法医学的分類器は,分類器の精度をほぼ0%に低下させるような攻撃に対して脆弱であることを示す。 我々は,既存の画像生成装置のほぼ全てにおいて,OC曲線(AUC)0.95以下の領域を達成できる最先端の分類器の攻撃事例を5つ開発する。 分類器の完全なアクセスにより、画像中の各画素の最低ビットをめくって分類器のaucを0.00005に、画像領域の1%を摂動させ、分類器のaucを0.08に減らしたり、シンセサイザーの潜在空間に単一のノイズパターンを追加して分類器のaucを0.17に減らすことができる。 また,対象の分類器にアクセスせず,aucを0.22に減らすブラックボックス攻撃を開発した。 これらの攻撃は、特定の画像法定分類器の重大な脆弱性を示す。

It is now possible to synthesize highly realistic images of people who don't exist. Such content has, for example, been implicated in the creation of fraudulent social-media profiles responsible for dis-information campaigns. Significant efforts are, therefore, being deployed to detect synthetically-generated content. One popular forensic approach trains a neural network to distinguish real from synthetic content. We show that such forensic classifiers are vulnerable to a range of attacks that reduce the classifier to near-0% accuracy. We develop five attack case studies on a state-of-the-art classifier that achieves an area under the ROC curve (AUC) of 0.95 on almost all existing image generators, when only trained on one generator. With full access to the classifier, we can flip the lowest bit of each pixel in an image to reduce the classifier's AUC to 0.0005; perturb 1% of the image area to reduce the classifier's AUC to 0.08; or add a single noise pattern in the synthesizer's latent space to reduce the classifier's AUC to 0.17. We also develop a black-box attack that, with no access to the target classifier, reduces the AUC to 0.22. These attacks reveal significant vulnerabilities of certain image-forensic classifiers.
翻訳日:2022-12-17 19:21:20 公開日:2020-04-01
# ファイングルーフショット認識のための再検討

Revisiting Pose-Normalization for Fine-Grained Few-Shot Recognition ( http://arxiv.org/abs/2004.00705v1 )

ライセンス: Link先を確認
Luming Tang, Davis Wertheimer, Bharath Hariharan(参考訳) わずかながらきめ細かな分類は、いくつかの画像だけで異なるクラス(例えば鳥)の微妙できめ細かな区別を学習するモデルを必要とする。 これは、ポーズ、調音、背景に顕著な不変性を必要とする。 解決策は、ポーズ正規化表現を使用することで、まず各画像のセマンティックな部分をローカライズし、次に各部分の外観を特徴付けて画像を記述する。 このような表現は完全な教師付き分類には好ましくないが、数発のきめ細かい分類には極めて有効であることを示す。 モデルキャパシティの最小化により、ポーズ正規化は浅層および深層アーキテクチャの精度を10から20ポイント改善し、新しいドメインを一般化し、複数の数ショットアルゴリズムとネットワークバックボーンに有効である。 コードはhttps://github.com/Tsingularity/PoseNorm_Fewshotで入手できる。

Few-shot, fine-grained classification requires a model to learn subtle, fine-grained distinctions between different classes (e.g., birds) based on a few images alone. This requires a remarkable degree of invariance to pose, articulation and background. A solution is to use pose-normalized representations: first localize semantic parts in each image, and then describe images by characterizing the appearance of each part. While such representations are out of favor for fully supervised classification, we show that they are extremely effective for few-shot fine-grained classification. With a minimal increase in model capacity, pose normalization improves accuracy between 10 and 20 percentage points for shallow and deep architectures, generalizes better to new domains, and is effective for multiple few-shot algorithms and network backbones. Code is available at https://github.com/Tsingularity/PoseNorm_Fewshot
翻訳日:2022-12-17 19:13:46 公開日:2020-04-01
# IRV で RLA を実行できる

You can do RLAs for IRV ( http://arxiv.org/abs/2004.00235v1 )

ライセンス: Link先を確認
Michelle Blom, Andrew Conway, Dan King, Laurent Sandrolini, Philip B. Stark, Peter J. Stuckey and Vanessa Teague(参考訳) サンフランシスコ市とカウンティ・オブ・サンフランシスコは2004年からいくつかの選挙でインスタント・ルノフ投票(Instant Runoff Voting、IRV)を使っている。 本報告では、2019年11月のサンフランシスコ地区検事選挙において、IRVのリスク制限監査を初めて実施したプロセスパイロットについて述べる。 投票結果は,200票に過ぎなかったため,0.05のリスク制限の下で効率よく評価できることが分かった。 パイロットのために開発したソフトウェアはすべてオープンソースです。

The City and County of San Francisco, CA, has used Instant Runoff Voting (IRV) for some elections since 2004. This report describes the first ever process pilot of Risk Limiting Audits for IRV, for the San Francisco District Attorney's race in November, 2019. We found that the vote-by-mail outcome could be efficiently audited to well under the 0.05 risk limit given a sample of only 200 ballots. All the software we developed for the pilot is open source.
翻訳日:2022-12-17 19:12:13 公開日:2020-04-01
# meta-updaterを用いた高性能長期追跡

High-Performance Long-Term Tracking with Meta-Updater ( http://arxiv.org/abs/2004.00305v1 )

ライセンス: Link先を確認
Kenan Dai, Yunhua Zhang, Dong Wang, Jianhua Li, Huchuan Lu, and Xiaoyun Yang(参考訳) 短期追跡よりも実用的な用途に近いため、長期視覚追跡が注目されている。 ほとんどのトップクラスの長期追跡者はオフラインで訓練されたsiameseアーキテクチャを採用するため、オンラインアップデートによる短期追跡装置の大幅な進歩の恩恵を受けることはできない。 しかし、長期的な不確実でノイズの多い観測のため、オンライン更新ベースのトラッカーを簡単に導入することは極めて危険である。 そこで本研究では,重要だが未解決な問題に対処するために,オフラインで学習した新しいメタ更新器を提案する。 提案したメタアップダッタは, 幾何学的, 識別的, 外観的キューを逐次的に統合し, 設計したLSTMモジュールを用いてシーケンシャル情報をマイニングすることができる。 我々のメタアップダッタは、トラッカーの更新をガイドするバイナリ出力を学習し、異なるトラッカーに簡単に埋め込むことができる。 また、オンラインローカルトラッカー、オンライン検証器、SiamRPNベースの再検出器、および我々のメタアップダッタからなる長期追跡フレームワークを導入する。 VOT2018LT, VOT2019LT, OxUvALT, TLP, LaSOTベンチマークにおける多くの実験結果から, トラッカーは他の競合アルゴリズムよりもはるかに優れた性能を示した。 私たちのプロジェクトは、Webサイト(https://github.com/Daikenan/LTMU)で利用可能です。

Long-term visual tracking has drawn increasing attention because it is much closer to practical applications than short-term tracking. Most top-ranked long-term trackers adopt the offline-trained Siamese architectures, thus, they cannot benefit from great progress of short-term trackers with online update. However, it is quite risky to straightforwardly introduce online-update-based trackers to solve the long-term problem, due to long-term uncertain and noisy observations. In this work, we propose a novel offline-trained Meta-Updater to address an important but unsolved problem: Is the tracker ready for updating in the current frame? The proposed meta-updater can effectively integrate geometric, discriminative, and appearance cues in a sequential manner, and then mine the sequential information with a designed cascaded LSTM module. Our meta-updater learns a binary output to guide the tracker's update and can be easily embedded into different trackers. This work also introduces a long-term tracking framework consisting of an online local tracker, an online verifier, a SiamRPN-based re-detector, and our meta-updater. Numerous experimental results on the VOT2018LT, VOT2019LT, OxUvALT, TLP, and LaSOT benchmarks show that our tracker performs remarkably better than other competing algorithms. Our project is available on the website: https://github.com/Daikenan/LTMU.
翻訳日:2022-12-17 19:05:14 公開日:2020-04-01
# 多人数3次元ポーズ推定のための圧縮体積熱マップ

Compressed Volumetric Heatmaps for Multi-Person 3D Pose Estimation ( http://arxiv.org/abs/2004.00329v1 )

ライセンス: Link先を確認
Matteo Fabbri, Fabio Lanzi, Simone Calderara, Stefano Alletto, Rita Cucchiara(参考訳) 本稿では,単眼型rgb画像を用いたボトムアップ型多人数3次元ポーズ推定手法を提案する。 本稿では,高分解能な体積熱マップを用いて関節位置をモデル化し,この表現の規模を大幅に削減する簡易かつ効率的な圧縮法を提案する。 提案手法のコアとなるのは,地中熱マップを高密度中間表現に圧縮する完全畳み込みネットワークであるボリュームヒートマップオートエンコーダである。 第2のモデルであるcode predictorは、これらのコードを予測するために訓練され、テスト時にデ圧縮して元の表現を再観察することができる。 実験により,本手法は,複数人・1人の人物のポーズ推定データに比較して良好に動作することを示すとともに,新たな圧縮戦略により,シーン内の被写体数に関わらず8fpsのフルHD画像を一定実行時に処理できることがわかった。 コードとモデルはhttps://github.com/fabbrimatteo/locoで入手できる。

In this paper we present a novel approach for bottom-up multi-person 3D human pose estimation from monocular RGB images. We propose to use high resolution volumetric heatmaps to model joint locations, devising a simple and effective compression method to drastically reduce the size of this representation. At the core of the proposed method lies our Volumetric Heatmap Autoencoder, a fully-convolutional network tasked with the compression of ground-truth heatmaps into a dense intermediate representation. A second model, the Code Predictor, is then trained to predict these codes, which can be decompressed at test time to re-obtain the original representation. Our experimental evaluation shows that our method performs favorably when compared to state of the art on both multi-person and single-person 3D human pose estimation datasets and, thanks to our novel compression strategy, can process full-HD images at the constant runtime of 8 fps regardless of the number of subjects in the scene. Code and models available at https://github.com/fabbrimatteo/LoCO .
翻訳日:2022-12-17 19:04:49 公開日:2020-04-01
# 畳み込みニューラルネットワークを用いたディジット認識

Digit Recognition Using Convolution Neural Network ( http://arxiv.org/abs/2004.00331v1 )

ライセンス: Link先を確認
Kajol Gupta(参考訳) パターン認識では、桁認識は常に非常に難しい課題である。 本稿では,文字認識の精度を高めるために,正しい特徴を抽出することを目的とする。 正当なユーザ識別を認識するために、パスワード、銀行小切手処理等におけるデジタル認識の応用。 従来、複数の研究者がパターン認識、すなわちkn、svm、rfcでさまざまな機械学習アルゴリズムを使用してきた。 この研究の主な目的は、畳み込みニューラルネットワーク(CNN)を使用してデータセットの過剰な前処理を行わずに桁を認識することにより、99.15%の精度を得ることである。

In pattern recognition, digit recognition has always been a very challenging task. This paper aims to extracting a correct feature so that it can achieve better accuracy for recognition of digits. The applications of digit recognition such as in password, bank check process, etc. to recognize the valid user identification. Earlier, several researchers have used various different machine learning algorithms in pattern recognition i.e. KNN, SVM, RFC. The main objective of this work is to obtain highest accuracy 99.15% by using convolution neural network (CNN) to recognize the digit without doing too much pre-processing of dataset.
翻訳日:2022-12-17 19:04:30 公開日:2020-04-01
# イベントカメラを用いた単一画像光フロー推定

Single Image Optical Flow Estimation with an Event Camera ( http://arxiv.org/abs/2004.00347v1 )

ライセンス: Link先を確認
Liyuan Pan, Miaomiao Liu and Richard Hartley(参考訳) イベントカメラはバイオインスパイアされたセンサーで、マイクロ秒解像度の強度変化を非同期に報告する。 DAVISはシーンの高ダイナミックスをキャプチャし、同時に高時間分解能イベントと低フレームレートの強度画像を生成する。 本稿では,単一画像(潜在的にぼやけた)とイベントに基づく光フロー推定手法を提案する。 まず、フロー推定を改善するためにイベントをどのように使用できるかを示す。 この目的のために, フローとイベントの関係を, イベントベースのフォトメトリック一貫性の定式化により効果的にエンコードする。 そこで,視覚環境における高ダイナミックスによる画像のぼかしの特殊な事例を考察し,このモデルにおけるぼかしの生成がフロー推定をさらに制約することを示す。 これは、ぼやけた画像を無視した既存の作業とは対照的に、私たちの定式化では、ぼやけた画像や鋭い画像を自然に処理し、正確なフロー推定を実現できます。 最後に,本手法を用いた目的関数の代替最適化問題に対して,フロー推定と画像デブラリングを削減した。 合成データと実データ(ぼやけた画像と非青色画像の両方)の実験的結果は、最先端のアプローチと比較して、我々のモデルの優位性を示している。

Event cameras are bio-inspired sensors that asynchronously report intensity changes in microsecond resolution. DAVIS can capture high dynamics of a scene and simultaneously output high temporal resolution events and low frame-rate intensity images. In this paper, we propose a single image (potentially blurred) and events based optical flow estimation approach. First, we demonstrate how events can be used to improve flow estimates. To this end, we encode the relation between flow and events effectively by presenting an event-based photometric consistency formulation. Then, we consider the special case of image blur caused by high dynamics in the visual environments and show that including the blur formation in our model further constrains flow estimation. This is in sharp contrast to existing works that ignore the blurred images while our formulation can naturally handle either blurred or sharp images to achieve accurate flow estimation. Finally, we reduce flow estimation, as well as image deblurring, to an alternative optimization problem of an objective function using the primal-dual algorithm. Experimental results on both synthetic and real data (with blurred and non-blurred images) show the superiority of our model in comparison to state-of-the-art approaches.
翻訳日:2022-12-17 19:04:21 公開日:2020-04-01
# 学習可能な帯域通過フィルタによる画像復調

Image Demoireing with Learnable Bandpass Filters ( http://arxiv.org/abs/2004.00406v1 )

ライセンス: Link先を確認
Bolun Zheng, Shanxin Yuan, Gregory Slabaugh, Ales Leonardis(参考訳) 画像復調は、テクスチャと色復元の両方を含む多面的な画像復元作業である。 本稿では,この問題に対処するために,マルチスケールバンドパス畳み込みニューラルネットワーク(mbcnn)を提案する。 エンドツーエンドのソリューションとして、MBCNNは2つのサブプロブレムをそれぞれ解決する。 テクスチャ復元のために,moireテクスチャ除去前の周波数を学習するための学習可能なバンドパスフィルタ(lbf)を提案する。 色復元のために,まずグローバルな色変化の補正にグローバルなトーンマッピングを適用する2段階のトーンマッピング戦略を提案し,その後,画素ごとの局所的な微調整を行う。 アブレーション研究を通じて,MBCNNの異なる成分の有効性を実証した。 2つの公開データセットによる実験結果から,提案手法はPSNRにおいて2dB以上で最先端の手法よりも優れていた。

Image demoireing is a multi-faceted image restoration task involving both texture and color restoration. In this paper, we propose a novel multiscale bandpass convolutional neural network (MBCNN) to address this problem. As an end-to-end solution, MBCNN respectively solves the two sub-problems. For texture restoration, we propose a learnable bandpass filter (LBF) to learn the frequency prior for moire texture removal. For color restoration, we propose a two-step tone mapping strategy, which first applies a global tone mapping to correct for a global color shift, and then performs local fine tuning of the color per pixel. Through an ablation study, we demonstrate the effectiveness of the different components of MBCNN. Experimental results on two public datasets show that our method outperforms state-of-the-art methods by a large margin (more than 2dB in terms of PSNR).
翻訳日:2022-12-17 19:04:04 公開日:2020-04-01
# 医用Deep Curriculum Learningによる骨折分類の改善

Medical-based Deep Curriculum Learning for Improved Fracture Classification ( http://arxiv.org/abs/2004.00482v1 )

ライセンス: Link先を確認
Amelia Jim\'enez-S\'anchez, Diana Mateus, Sonja Kirchhoff, Chlodwig Kirchhoff, Peter Biberthaler, Nassir Navab, Miguel A. Gonz\'alez Ballester, Gemma Piella(参考訳) 現在のディープラーニングベースの手法は、臨床プロトコルに簡単には統合されず、医療知識を十分に活用することもできない。 本研究では,x線画像から大腿骨近位部骨折の分類を支援するために,カリキュラム学習に依拠するいくつかの戦略を提案し,比較する。 私たちの戦略は、医療判断木や複数の専門家の注釈の不整合といった知識から導き出され、各トレーニングサンプルに難易度を割り当てることができます。 私たちは、"簡単な"例を学習して"ハード"に移行すれば、少ないデータでもモデルがよりよいパフォーマンスに到達できることを実証します。 約1000x線画像の臨床的データセットの分類について評価を行った。 以上の結果から, 専門知識をベースとしたカリキュラムは, 集団一様戦略やランダム戦略に比べ, 精度が最大15%向上し, 経験豊富な外傷外科医の成績が得られた。

Current deep-learning based methods do not easily integrate to clinical protocols, neither take full advantage of medical knowledge. In this work, we propose and compare several strategies relying on curriculum learning, to support the classification of proximal femur fracture from X-ray images, a challenging problem as reflected by existing intra- and inter-expert disagreement. Our strategies are derived from knowledge such as medical decision trees and inconsistencies in the annotations of multiple experts, which allows us to assign a degree of difficulty to each training sample. We demonstrate that if we start learning "easy" examples and move towards "hard", the model can reach a better performance, even with fewer data. The evaluation is performed on the classification of a clinical dataset of about 1000 X-ray images. Our results show that, compared to class-uniform and random strategies, the proposed medical knowledge-based curriculum, performs up to 15% better in terms of accuracy, achieving the performance of experienced trauma surgeons.
翻訳日:2022-12-17 19:03:12 公開日:2020-04-01
# 物体検出のための特徴駆動超解像

Feature-Driven Super-Resolution for Object Detection ( http://arxiv.org/abs/2004.00554v1 )

ライセンス: Link先を確認
Bin Wang, Tao Lu, Yanduo Zhang(参考訳) 一部の畳み込みニューラルネットワーク(cnns)ベースのスーパーレゾリューション(sr)アルゴリズムは、最近の単一の画像で優れた視覚性能をもたらす。 その多くは完全な知覚品質に重点を置いているが、その後の検出タスクの特定のニーズを無視している。 本稿では,低解像度(LR)画像の検出性能を向上させるために,シンプルだが強力な機能駆動型超解像(FDSR)を提案する。 まず,既存の検出器バックボーンから抽出した特徴領域を用いてHR画像再構成を誘導する手法を提案する。 次に、整列した機能により、FDSRはSRパラメータを更新し、検出性能を向上する。 いくつかの最先端のSRアルゴリズムと4$\times$scale factorと比較すると、FDSRはMS COCOバリデーションにおける検出性能mAPよりも優れており、VOC2007データベースは他の検出ネットワークによく一般化されている。

Although some convolutional neural networks (CNNs) based super-resolution (SR) algorithms yield good visual performances on single images recently. Most of them focus on perfect perceptual quality but ignore specific needs of subsequent detection task. This paper proposes a simple but powerful feature-driven super-resolution (FDSR) to improve the detection performance of low-resolution (LR) images. First, the proposed method uses feature-domain prior which extracts from an existing detector backbone to guide the HR image reconstruction. Then, with the aligned features, FDSR update SR parameters for better detection performance. Comparing with some state-of-the-art SR algorithms with 4$\times$ scale factor, FDSR outperforms the detection performance mAP on MS COCO validation, VOC2007 databases with good generalization to other detection networks.
翻訳日:2022-12-17 19:02:46 公開日:2020-04-01
# 点雲からの1段3次元物体検出のための境界認識線量特徴指標

Boundary-Aware Dense Feature Indicator for Single-Stage 3D Object Detection from Point Clouds ( http://arxiv.org/abs/2004.00186v1 )

ライセンス: Link先を確認
Guodong Xu, Wenxiao Wang, Zili Liu, Liang Xie, Zheng Yang, Haifeng Liu, Deng Cai(参考訳) ポイントクラウドに基づく3Dオブジェクト検出がますます人気になっている。 いくつかの方法は、情報損失を避けるために、生の点雲から直接3Dオブジェクトをローカライズすることを提案する。 しかし、これらの手法には複雑な構造と計算オーバーヘッドが伴い、リアルタイムシナリオにおけるより広範な応用が制限される。 いくつかの方法は、点雲データをまずコンパクトなテンソルに変換し、オフザシェルフ2D検出器を利用して3Dオブジェクトを提案する。 しかし, 2d と 3d のデータとの矛盾から, コンパクトテンソルを用いた 3d 検出器の性能は, 対応する修正を伴わずに 2d 検出器を使用する場合に限られている。 特に、点雲の分布は不均一であり、ほとんどの点が物体の境界に集まり、2dデータの検出器は常に特徴を均等に抽出する。 この観測によって得られたDENFI(DENse Feature Indicator)は、3次元検出器が境界認識で点雲の最も密集した領域に焦点を合わせるのに役立つ普遍的なモジュールである。 さらに、DENFIは軽量で、3Dオブジェクト検出器に適用した場合のリアルタイム速度を保証する。 KITTIデータセットの実験では、DENFIはベースライン単段検出器の性能を著しく改善し、34FPS検出速度のmAPを用いて、従来の3D検出器の2段・複数センサー融合法を含む新しい最先端性能を実現する。

3D object detection based on point clouds has become more and more popular. Some methods propose localizing 3D objects directly from raw point clouds to avoid information loss. However, these methods come with complex structures and significant computational overhead, limiting its broader application in real-time scenarios. Some methods choose to transform the point cloud data into compact tensors first and leverage off-the-shelf 2D detectors to propose 3D objects, which is much faster and achieves state-of-the-art results. However, because of the inconsistency between 2D and 3D data, we argue that the performance of compact tensor-based 3D detectors is restricted if we use 2D detectors without corresponding modification. Specifically, the distribution of point clouds is uneven, with most points gather on the boundary of objects, while detectors for 2D data always extract features evenly. Motivated by this observation, we propose DENse Feature Indicator (DENFI), a universal module that helps 3D detectors focus on the densest region of the point clouds in a boundary-aware manner. Moreover, DENFI is lightweight and guarantees real-time speed when applied to 3D object detectors. Experiments on KITTI dataset show that DENFI improves the performance of the baseline single-stage detector remarkably, which achieves new state-of-the-art performance among previous 3D detectors, including both two-stage and multi-sensor fusion methods, in terms of mAP with a 34FPS detection speed.
翻訳日:2022-12-17 18:56:32 公開日:2020-04-01
# 被占領者ReIDに対するPose-Guided Visible Part Matching

Pose-guided Visible Part Matching for Occluded Person ReID ( http://arxiv.org/abs/2004.00230v1 )

ライセンス: Link先を確認
Shang Gao, Jingya Wang, Huchuan Lu, Zimo Liu(参考訳) 特に群衆のシナリオでは、見かけが様々な障害物によって大きく変化するため、オクルードされた人物の再識別は難しい課題である。 そこで本研究では,ポーズガイド付き注意で識別特徴を共同学習し,エンド・ツー・エンドのフレームワークで部分視認性を自己損なうポーズガイド可視部マッチング(pvpm)手法を提案する。 具体的には,提案するPVPMには2つの重要な要素がある。 1) より差別的な局所的特徴を活用する部分的特徴プールのためのポーズ誘導注意法(PGA) 2) 咬合に苦しむか否かを推定するポーズ誘導可視性予測装置(pvp)。 有意な部分に対する基礎的真理学習用アノテーションは存在せず、正のペアにおける部分対応の特徴を活用し、グラフマッチングによる対応スコアの自己マイニングを行う。 生成された対応スコアは、可視性予測(PVP)のための擬似ラベルとして使用される。 3つのoccludedベンチマークにおける実験結果から,提案手法は最先端手法と競合する性能が得られることがわかった。 ソースコードはhttps://github.com/hh23333/PVPMで入手できる。

Occluded person re-identification is a challenging task as the appearance varies substantially with various obstacles, especially in the crowd scenario. To address this issue, we propose a Pose-guided Visible Part Matching (PVPM) method that jointly learns the discriminative features with pose-guided attention and self-mines the part visibility in an end-to-end framework. Specifically, the proposed PVPM includes two key components: 1) pose-guided attention (PGA) method for part feature pooling that exploits more discriminative local features; 2) pose-guided visibility predictor (PVP) that estimates whether a part suffers the occlusion or not. As there are no ground truth training annotations for the occluded part, we turn to utilize the characteristic of part correspondence in positive pairs and self-mining the correspondence scores via graph matching. The generated correspondence scores are then utilized as pseudo-labels for visibility predictor (PVP). Experimental results on three reported occluded benchmarks show that the proposed method achieves competitive performance to state-of-the-art methods. The source codes are available at https://github.com/hh23333/PVPM
翻訳日:2022-12-17 18:55:55 公開日:2020-04-01
# 識別追跡のための進行多段階学習

Progressive Multi-Stage Learning for Discriminative Tracking ( http://arxiv.org/abs/2004.00255v1 )

ライセンス: Link先を確認
Weichao Li, Xi Li, Omar Elfarouk Bourahla, Fuxian Huang, Fei Wu, Wei Liu, Zhiheng Wang, and Hongmin Liu(参考訳) 視覚追跡は通常、オンラインモデル適応に高品質なサンプルを必要とする差別的な学習問題として解決される。 過去の予測から収集したトレーニングサンプルを評価し,その品質によるサンプル選択をモデルに導入することは,批判的かつ困難な問題である。 そこで本研究では,ロバストな視覚追跡のためのサンプル選択の進行的多段階最適化ポリシーを用いた判別学習方式を提案する。 提案手法は,クラス間分離性を維持しながら比較的大きなクラス内変動を許容できる,時間重み付き,検出誘導型自己ペース学習戦略を提案する。 このような自己評価学習戦略は、識別的追跡プロセスと共同で最適化され、堅牢な追跡結果をもたらす。 ベンチマークデータセットを用いた実験により,提案手法の有効性が示された。

Visual tracking is typically solved as a discriminative learning problem that usually requires high-quality samples for online model adaptation. It is a critical and challenging problem to evaluate the training samples collected from previous predictions and employ sample selection by their quality to train the model. To tackle the above problem, we propose a joint discriminative learning scheme with the progressive multi-stage optimization policy of sample selection for robust visual tracking. The proposed scheme presents a novel time-weighted and detection-guided self-paced learning strategy for easy-to-hard sample selection, which is capable of tolerating relatively large intra-class variations while maintaining inter-class separability. Such a self-paced learning strategy is jointly optimized in conjunction with the discriminative tracking process, resulting in robust tracking results. Experiments on the benchmark datasets demonstrate the effectiveness of the proposed learning framework.
翻訳日:2022-12-17 18:55:34 公開日:2020-04-01
# ペアワイズ製品によるCapsNetsの効率的な合意機構

An Efficient Agreement Mechanism in CapsNets By Pairwise Product ( http://arxiv.org/abs/2004.00272v1 )

ライセンス: Link先を確認
Lei Zhao, Xiaohui Wang, and Lei Huang(参考訳) カプセルネットワーク(CapsNets)は、"routing-by-agreement"メカニズムによって実現される視覚的階層関係をモデル化することができる。 本稿では, ファクトリゼーションマシン(FM)の特徴的相互作用に着想を得て, カプセル構築のための相互合意機構を提案する。 提案手法は計算複雑性がはるかに低い。 さらに,残差ネットワークの強みと低レベルの視覚特徴とcapsnetを組み合わせることで,部品と全体の関係をモデル化する新しいcapsnetアーキテクチャを提案する。 提案手法は,従来のCapsNetアーキテクチャと提案手法の両方に基づいて,動的ルーティングやEMルーティング,提案したFMアライアンスなどのルーティングアルゴリズムを総合的に比較し,様々な状況下で優れた性能と効率を達成することを示す。

Capsule networks (CapsNets) are capable of modeling visual hierarchical relationships, which is achieved by the "routing-by-agreement" mechanism. This paper proposes a pairwise agreement mechanism to build capsules, inspired by the feature interactions of factorization machines (FMs). The proposed method has a much lower computation complexity. We further proposed a new CapsNet architecture that combines the strengths of residual networks in representing low-level visual features and CapsNets in modeling the relationships of parts to wholes. We conduct comprehensive experiments to compare the routing algorithms, including dynamic routing, EM routing, and our proposed FM agreement, based on both architectures of original CapsNet and our proposed one, and the results show that our method achieves both excellent performance and efficiency under a variety of situations.
翻訳日:2022-12-17 18:55:19 公開日:2020-04-01
# 画像テキストマッチングのためのグラフ構造化ネットワーク

Graph Structured Network for Image-Text Matching ( http://arxiv.org/abs/2004.00277v1 )

ライセンス: Link先を確認
Chunxiao Liu, Zhendong Mao, Tianzhu Zhang, Hongtao Xie, Bin Wang, Yongdong Zhang(参考訳) 画像テキストマッチングは、視覚と言語を橋渡しし、関心が高まっている。 重要な課題は、画像とテキストの対応を学習する方法にある。 既存の作品は、オブジェクトの共起統計に基づいて粗い対応を学習する一方で、きめ細かいフレーズ対応を学習しない。 本稿では,細粒度対応を学習するための新しいグラフ構造化マッチングネットワーク(gsmn)を提案する。 gsmnは、オブジェクト、関係、属性を構造化句として明示的にモデル化し、オブジェクト、関係、属性の対応を別々に学習できるだけでなく、構造化句のきめ細かい対応を学ぶことができる。 これはノードレベルのマッチングと構造レベルのマッチングによって実現される。 ノードレベルのマッチングは、各ノードがオブジェクト、リレーション、属性となる他のモダリティから関連するノードと関連付ける。 関連ノードは、構造レベルのマッチングで近傍の関連を融合することにより、粒度の細かい対応を共同で推論する。 総合的な実験によると、GSMNはベンチマークで最先端のメソッドよりも優れており、相対的なRecall@1の改善はFlickr30KとMSCOCOでそれぞれ7%と2%に近い。 コードはhttps://github.com/crossmodalgroup/gsmnでリリースされる。

Image-text matching has received growing interest since it bridges vision and language. The key challenge lies in how to learn correspondence between image and text. Existing works learn coarse correspondence based on object co-occurrence statistics, while failing to learn fine-grained phrase correspondence. In this paper, we present a novel Graph Structured Matching Network (GSMN) to learn fine-grained correspondence. The GSMN explicitly models object, relation and attribute as a structured phrase, which not only allows to learn correspondence of object, relation and attribute separately, but also benefits to learn fine-grained correspondence of structured phrase. This is achieved by node-level matching and structure-level matching. The node-level matching associates each node with its relevant nodes from another modality, where the node can be object, relation or attribute. The associated nodes then jointly infer fine-grained correspondence by fusing neighborhood associations at structure-level matching. Comprehensive experiments show that GSMN outperforms state-of-the-art methods on benchmarks, with relative Recall@1 improvements of nearly 7% and 2% on Flickr30K and MSCOCO, respectively. Code will be released at: https://github.com/CrossmodalGroup/GSMN.
翻訳日:2022-12-17 18:55:05 公開日:2020-04-01
# 無から何かを作る:クロスモーダルハッシュのための教師なし知識蒸留

Creating Something from Nothing: Unsupervised Knowledge Distillation for Cross-Modal Hashing ( http://arxiv.org/abs/2004.00280v1 )

ライセンス: Link先を確認
Hengtong Hu, Lingxi Xie, Richang Hong, Qi Tian(参考訳) 近年,クロスモーダル・ハッシュ(CMH)が注目されているのは,特に視覚や言語など,異なるモーダルから同じ空間にコンテンツをマッピングできる可能性から,クロスモーダルデータ検索の効率が向上している点である。 CMHには2つの主要なフレームワークがある。 教師なしメソッドと比較すると、教師なしメソッドはより正確な結果を享受することが多いが、データアノテーションにはるかに重い労力を必要とする。 本稿では,教師なし手法によって生成された出力を用いて教師付きメソッドを誘導する手法を提案する。 具体的には,教師-学生最適化を知識の伝播に活用する。 MIRFlickrとNUS-WIDEデータセットという2つの人気のあるCMHベンチマークで実験が行われる。 我々の手法は、既存の教師なし手法を大きなマージンで上回る。

In recent years, cross-modal hashing (CMH) has attracted increasing attentions, mainly because its potential ability of mapping contents from different modalities, especially in vision and language, into the same space, so that it becomes efficient in cross-modal data retrieval. There are two main frameworks for CMH, differing from each other in whether semantic supervision is required. Compared to the unsupervised methods, the supervised methods often enjoy more accurate results, but require much heavier labors in data annotation. In this paper, we propose a novel approach that enables guiding a supervised method using outputs produced by an unsupervised method. Specifically, we make use of teacher-student optimization for propagating knowledge. Experiments are performed on two popular CMH benchmarks, i.e., the MIRFlickr and NUS-WIDE datasets. Our approach outperforms all existing unsupervised methods by a large margin.
翻訳日:2022-12-17 18:54:43 公開日:2020-04-01
# CurricularFace:ディープラーニングのための適応型カリキュラム学習損失

CurricularFace: Adaptive Curriculum Learning Loss for Deep Face Recognition ( http://arxiv.org/abs/2004.00288v1 )

ライセンス: Link先を確認
Yuge Huang, Yuhan Wang, Ying Tai, Xiaoming Liu, Pengcheng Shen, Shaoxin Li, Jilin Li, Feiyue Huang(参考訳) 顔認識における新たなトピックとして、マージンに基づく損失関数の設計は、識別性を高めるために異なるクラス間の特徴マージンを増加させることができる。 近年,鉱業戦略の考え方が誤分類標本を強調するために採用され,有望な結果が得られた。 しかしながら、トレーニングプロセス全体において、事前の手法は、十分に活用されていないハードサンプルの重要さに基づいてサンプルを明示的に強調しないか、あるいは、収束問題につながる可能性のある初期のトレーニング段階でもセミハード/ハードサンプルの効果を明確に強調する。 そこで本研究では,教育課程学習のアイデアを損失関数に組み込んだ新しい適応型カリキュラム学習損失(curricularface)を提案する。 具体的には,異なるトレーニングステージにおいて,簡便でハードなサンプルの相対的重要性を適応的に調整する。 それぞれの段階において、異なるサンプルが対応する困難度に応じて異なる重要度で割り当てられる。 人気のあるベンチマークの広範な実験結果は、最先端の競争相手よりも、私たちのカーキュリーフェイスが優れていることを示している。

As an emerging topic in face recognition, designing margin-based loss functions can increase the feature margin between different classes for enhanced discriminability. More recently, the idea of mining-based strategies is adopted to emphasize the misclassified samples, achieving promising results. However, during the entire training process, the prior methods either do not explicitly emphasize the sample based on its importance that renders the hard samples not fully exploited; or explicitly emphasize the effects of semi-hard/hard samples even at the early training stage that may lead to convergence issue. In this work, we propose a novel Adaptive Curriculum Learning loss (CurricularFace) that embeds the idea of curriculum learning into the loss function to achieve a novel training strategy for deep face recognition, which mainly addresses easy samples in the early training stage and hard ones in the later stage. Specifically, our CurricularFace adaptively adjusts the relative importance of easy and hard samples during different training stages. In each stage, different samples are assigned with different importance according to their corresponding difficultness. Extensive experimental results on popular benchmarks demonstrate the superiority of our CurricularFace over the state-of-the-art competitors.
翻訳日:2022-12-17 18:54:30 公開日:2020-04-01
# トウモロコシサイレージにおけるカーネルフラグメント認識のためのモデル選択の評価

Evaluation of Model Selection for Kernel Fragment Recognition in Corn Silage ( http://arxiv.org/abs/2004.00292v1 )

ライセンス: Link先を確認
Christoffer B{\o}gelund Rasmussen and Thomas B. Moeslund(参考訳) 特定のユースケースのためにディープラーニングシステムを設計する際のモデル選択は、多くのオプションが存在するため、難しい作業になり得る。 そこで本研究では,収穫したトウモロコシサイレージのカーネル断片化を計測するためのCNNモデルの現状について検討する。 モデルの複雑さ、精度、速度のトレードオフに基づいて最適なモデル設計選択を決定するために、モデルを複数の特徴抽出器と画像サイズで評価する。 画像サイズを小さくすることで,より複雑なメタアーキテクチャで精度を向上でき,精度をわずかに損なうことなく速度を最適化できることを示す。 さらに, 比較検討の結果, 平均精度を最大20ポイントの0.5以上で向上させるとともに, 従来よりも推定時間を短縮することを示した。 このモデル選択の改善により、収穫中のサイレージの品質向上を支援するシステムを構築することができる。

Model selection when designing deep learning systems for specific use-cases can be a challenging task as many options exist and it can be difficult to know the trade-off between them. Therefore, we investigate a number of state of the art CNN models for the task of measuring kernel fragmentation in harvested corn silage. The models are evaluated across a number of feature extractors and image sizes in order to determine optimal model design choices based upon the trade-off between model complexity, accuracy and speed. We show that accuracy improvements can be made with more complex meta-architectures and speed can be optimised by decreasing the image size with only slight losses in accuracy. Additionally, we show improvements in Average Precision at an Intersection over Union of 0.5 of up to 20 percentage points while also decreasing inference time in comparison to previously published work. This result for better model selection enables opportunities for creating systems that can aid farmers in improving their silage quality while harvesting.
翻訳日:2022-12-17 18:54:10 公開日:2020-04-01
# メタデータを用いた農業における光度現象の伝達学習

Transfer Learning of Photometric Phenotypes in Agriculture Using Metadata ( http://arxiv.org/abs/2004.00303v1 )

ライセンス: Link先を確認
Dan Halbersberg, Aharon Bar Hillel, Shon Mendelson, Daniel Koster, Lena Karol, and Boaz Lerner(参考訳) 実地条件下での測光植物表現型(例えば、hue、shine、chroma)の推定は、期待収量品質、果実の熟度、さらに育種の必要性を決定する上で重要である。 照明条件,影,センサ特性のばらつきが大きいため,これらを画像から推定することは困難である。 ネットワークに埋め込まれた条件の取得に関する画像とメタデータを組み合わせて、異なる条件間のより正確な推定と転送を可能にします。 最先端の深層CNNと人間の専門家と比較して、メタデータの埋め込みはトマトの色調と色調の推定を改善する。

Estimation of photometric plant phenotypes (e.g., hue, shine, chroma) in field conditions is important for decisions on the expected yield quality, fruit ripeness, and need for further breeding. Estimating these from images is difficult due to large variances in lighting conditions, shadows, and sensor properties. We combine the image and metadata regarding capturing conditions embedded into a network, enabling more accurate estimation and transfer between different conditions. Compared to a state-of-the-art deep CNN and a human expert, metadata embedding improves the estimation of the tomato's hue and chroma.
翻訳日:2022-12-17 18:53:56 公開日:2020-04-01
# パーソナライズされたタグレコメンデーションのための逆学習

Adversarial Learning for Personalized Tag Recommendation ( http://arxiv.org/abs/2004.00698v1 )

ライセンス: Link先を確認
Erik Quintanilla, Yogesh Rawat, Andrey Sakryukin, Mubarak Shah, Mohan Kankanhalli(参考訳) 近年,深層畳み込みニューラルネットワークの成功と大規模データセットの利用により,画像分類が大きな進歩を遂げている。 既存の作品のほとんどがシングルラベル画像の分類に焦点を当てている。 しかし、通常は画像に関連付けられた複数のタグがある。 既存のマルチラベル分類の研究は主に実験室のラベルに基づいている。 人間は、主に自分の興味や個人的なタグ付け行動に基づいて、イメージに異なるタグを割り当てる。 本稿では,パーソナライズされたタグレコメンデーションの問題に対処し,大規模データセット上でトレーニング可能なエンドツーエンドのディープネットワークを提案する。 ユーザ参照は、ネットワーク内でユーザ参照と視覚的エンコーディングの協調最適化を行う教師なしの方法で学習される。 ユーザ参照とビジュアルエンコーディングの合同トレーニングにより、より優れたユーザレコメンデーションのために、視覚的な好みとタグ付け動作を効率的に統合することができる。 さらに,ユーザ生成タグに類似したタグの予測をネットワークに強制する逆学習の利用を提案する。 提案モデルの有効性を,YFCC100M と NUS-WIDE の2つの大規模および公開データセットで示す。 提案手法は, ベースラインおよび他の最先端手法と比較して, 両方のデータセットの性能を著しく向上させる。 コードはhttps://github.com/vyzuer/ALTReco.comで公開されている。

We have recently seen great progress in image classification due to the success of deep convolutional neural networks and the availability of large-scale datasets. Most of the existing work focuses on single-label image classification. However, there are usually multiple tags associated with an image. The existing works on multi-label classification are mainly based on lab curated labels. Humans assign tags to their images differently, which is mainly based on their interests and personal tagging behavior. In this paper, we address the problem of personalized tag recommendation and propose an end-to-end deep network which can be trained on large-scale datasets. The user-preference is learned within the network in an unsupervised way where the network performs joint optimization for user-preference and visual encoding. A joint training of user-preference and visual encoding allows the network to efficiently integrate the visual preference with tagging behavior for a better user recommendation. In addition, we propose the use of adversarial learning, which enforces the network to predict tags resembling user-generated tags. We demonstrate the effectiveness of the proposed model on two different large-scale and publicly available datasets, YFCC100M and NUS-WIDE. The proposed method achieves significantly better performance on both the datasets when compared to the baselines and other state-of-the-art methods. The code is publicly available at https://github.com/vyzuer/ALTReco.
翻訳日:2022-12-17 18:47:33 公開日:2020-04-01
# 多視点表現学習による皮質アーキテクチャの個人差のマッピング

Mapping individual differences in cortical architecture using multi-view representation learning ( http://arxiv.org/abs/2004.02804v1 )

ライセンス: Link先を確認
Akrem Sellami (QARMA, LIS, INT), Fran\c{c}ois-Xavier Dup\'e (QARMA, LIS), Bastien Cagna (INT), Hachem Kadri (QARMA, LIS), St\'ephane Ayache (QARMA, LIS), Thierry Arti\`eres (QARMA, LIS, ECM), Sylvain Takerkart (INT)(参考訳) 神経科学において、個体間差の理解は、機能的磁気共鳴イメージング(fMRI)が重要視されている主要な課題として最近出現している。 このために、神経科学者は、単一脳の特徴と認知タスクにおける疾患の重症度または被験者のパフォーマンスを定量化するスコアとの間の一変量線形相関のような基本的な方法に頼る。 しかし、この日までにタスクfMRIと静止状態fMRIは、それらを効果的に組み合わせる手法が欠如しているため、別々に利用されてきた。 本稿では,これら2つのfmriプロトコルで測定したアクティベーション・アンド・コネクティビティに基づく情報を組み合わせて,脳の機能的構造における個人差のマーカーを同定する新しい機械学習手法を提案する。 マルチビューディープ・オートエンコーダは、2つのfMRIモダリティを、患者を特徴づけるスカラースコアを推測するために予測モデルが訓練されたジョイント表現空間に融合させるように設計されている。 実験の結果,提案手法が競争的アプローチを上回り,解釈可能かつ生物学的に有理な結果を生み出す可能性を実証した。

In neuroscience, understanding inter-individual differences has recently emerged as a major challenge, for which functional magnetic resonance imaging (fMRI) has proven invaluable. For this, neuroscientists rely on basic methods such as univariate linear correlations between single brain features and a score that quantifies either the severity of a disease or the subject's performance in a cognitive task. However, to this date, task-fMRI and resting-state fMRI have been exploited separately for this question, because of the lack of methods to effectively combine them. In this paper, we introduce a novel machine learning method which allows combining the activation-and connectivity-based information respectively measured through these two fMRI protocols to identify markers of individual differences in the functional organization of the brain. It combines a multi-view deep autoencoder which is designed to fuse the two fMRI modalities into a joint representation space within which a predictive model is trained to guess a scalar score that characterizes the patient. Our experimental results demonstrate the ability of the proposed method to outperform competitive approaches and to produce interpretable and biologically plausible results.
翻訳日:2022-12-17 18:47:10 公開日:2020-04-01
# 畳み込みニューラルネットワークに関するサーベイ:解析,応用,展望

A Survey of Convolutional Neural Networks: Analysis, Applications, and Prospects ( http://arxiv.org/abs/2004.02806v1 )

ライセンス: Link先を確認
Zewen Li, Wenjie Yang, Shouheng Peng, Fan Liu(参考訳) 畳み込みニューラルネットワーク(cnn)は、ディープラーニング分野で最も重要なネットワークの1つである。 CNNはコンピュータビジョンや自然言語処理に限らず、多くの分野で目覚ましい業績を残したため、ここ数年で産業と学界の両方に大きな注目を集めた。 既存のレビューは主に、CNNを一般的な視点から考えることなく、さまざまなシナリオにおけるCNNの適用に焦点を当てている。 本稿では、この急成長分野における新しいアイデアと展望をできるだけ早く提供することを目的とする。 また、2次元の畳み込みだけでなく、1次元および多次元の畳み込みも関与する。 まず、このレビューはCNNの歴史に関する簡単な紹介から始まる。 次に、CNNの概要を紹介する。 第3に、古典的なcnnモデルと先進的なcnnモデルが紹介され、特にそのキーポイントが最先端の結果に到達している。 第4に,実験分析により,いくつかの結論を導き,機能選択のためのいくつかの規則を提示する。 五つ目は、一次元、二次元、多次元の畳み込みの応用についてである。 最後に、今後の作業のガイドラインとして、いくつかのオープンな問題とCNNの有望な方向性について論じる。

Convolutional Neural Network (CNN) is one of the most significant networks in the deep learning field. Since CNN made impressive achievements in many areas, including but not limited to computer vision and natural language processing, it attracted much attention both of industry and academia in the past few years. The existing reviews mainly focus on the applications of CNN in different scenarios without considering CNN from a general perspective, and some novel ideas proposed recently are not covered. In this review, we aim to provide novel ideas and prospects in this fast-growing field as much as possible. Besides, not only two-dimensional convolution but also one-dimensional and multi-dimensional ones are involved. First, this review starts with a brief introduction to the history of CNN. Second, we provide an overview of CNN. Third, classic and advanced CNN models are introduced, especially those key points making them reach state-of-the-art results. Fourth, through experimental analysis, we draw some conclusions and provide several rules of thumb for function selection. Fifth, the applications of one-dimensional, two-dimensional, and multi-dimensional convolution are covered. Finally, some open issues and promising directions for CNN are discussed to serve as guidelines for future work.
翻訳日:2022-12-17 18:46:49 公開日:2020-04-01
# 未知構造を持つ離散問題に対する非エリート進化アルゴリズムの自己適応

Self-adaptation in non-Elitist Evolutionary Algorithms on Discrete Problems with Unknown Structure ( http://arxiv.org/abs/2004.00327v1 )

ライセンス: Link先を確認
Brendan Case and Per Kristian Lehre(参考訳) 進化的アルゴリズムを効果的に利用するための重要な課題は、パラメータの適切な設定を選択することである。 しかし、適切なパラメータ設定は一般に最適化問題の構造に依存し、これはユーザにとってしばしば未知である。 非決定論的パラメータ制御機構は、進化過程から得られた情報を用いてパラメータを調整する。 パラメータの設定が個人の染色体にエンコードされ、突然変異と交叉を通じて進化する自己適応は、進化戦略において一般的なパラメータ制御メカニズムである。 しかし、自己適応が効果的であるという理論的証拠はほとんどなく、自己適応は離散進化計算コミュニティによって無視されている。 本稿では,その変異率を自己適応する非エリート的離散的進化アルゴリズムが,ユリーディングオンの静的突然変異率を用いるeasを上回っているだけでなく,最先端の制御機構を用いてea上で漸近的に改善することを示す。 この問題の構造はパラメータ $k$ に依存し、これはアルゴリズムに未知の値であり、固定された突然変異率を適切に設定するために必要である。 自己適応型EAは、前もってこのパラメータがアルゴリズムに知られていたのと同じ漸近的ランタイムを達成する。 突然変異率の進化に関する実験的研究は、それらが様々な問題構造に適切に反応することを示している。 これらの結果から,自己適応は離散的・非楕円進化アルゴリズムにおいてパラメータ制御機構として広く採用されるべきであることが示唆された。

A key challenge to make effective use of evolutionary algorithms is to choose appropriate settings for their parameters. However, the appropriate parameter setting generally depends on the structure of the optimisation problem, which is often unknown to the user. Non-deterministic parameter control mechanisms adjust parameters using information obtained from the evolutionary process. Self-adaptation -- where parameter settings are encoded in the chromosomes of individuals and evolve through mutation and crossover -- is a popular parameter control mechanism in evolutionary strategies. However, there is little theoretical evidence that self-adaptation is effective, and self-adaptation has largely been ignored by the discrete evolutionary computation community. Here we show through a theoretical runtime analysis that a non-elitist, discrete evolutionary algorithm which self-adapts its mutation rate not only outperforms EAs which use static mutation rates on \leadingones, but also improves asymptotically on an EA using a state-of-the-art control mechanism. The structure of this problem depends on a parameter $k$, which is \emph{a priori} unknown to the algorithm, and which is needed to appropriately set a fixed mutation rate. The self-adaptive EA achieves the same asymptotic runtime as if this parameter was known to the algorithm beforehand, which is an asymptotic speedup for this problem compared to all other EAs previously studied. An experimental study of how the mutation-rates evolve show that they respond adequately to a diverse range of problem structures. These results suggest that self-adaptation should be adopted more broadly as a parameter control mechanism in discrete, non-elitist evolutionary algorithms.
翻訳日:2022-12-17 18:46:11 公開日:2020-04-01
# 粒子群最適化:任意係数分布下におけるNインフォーマを用いた安定性解析

Particle Swarm Optimization: Stability Analysis using N-Informers under Arbitrary Coefficient Distributions ( http://arxiv.org/abs/2004.00476v1 )

ライセンス: Link先を確認
Christopher W Cleghorn, Belinda Stapelberg(参考訳) 本稿では, 最小モデリング仮定の下で, 粒子群最適化 (pso) の共通クラスに対して, オーダー-$$ とオーダー-$2$ の安定基準を得るための簡単な定理を導出する。 具体的には、粒子の位置と群情報器の間の確率的に重み付けされた差分ベクトルの有限和として書き直すことができるpso変種を定理でカバーする。 さらに、導出定理を用いることで、PSO実践者は制御係数間の関係に関する人工的な制限を含まない安定性基準を得ることができる。 以前のPSO安定化結果のほとんど全てが、社会的および認知的制御係数が等しいという制限の下で安定性基準を提供しており、この制限は導出定理を用いても存在しない。 導出定理を用いて、その使いやすさの実証として、3つの一般的なpso変種に対する制御係数の関係に制限を課すことなく安定性基準を導出する。

This paper derives, under minimal modelling assumptions, a simple to use theorem for obtaining both order-$1$ and order-$2$ stability criteria for a common class of particle swarm optimization (PSO) variants. Specifically, PSO variants that can be rewritten as a finite sum of stochastically weighted difference vectors between a particle's position and swarm informers are covered by the theorem. Additionally, the use of the derived theorem allows a PSO practitioner to obtain stability criteria that contains no artificial restriction on the relationship between control coefficients. Almost all previous PSO stability results have provided stability criteria under the restriction that the social and cognitive control coefficients are equal; such restrictions are not present when using the derived theorem. Using the derived theorem, as demonstration of its ease of use, stability criteria are derived without the imposed restriction on the relation between the control coefficients for three popular PSO variants.
翻訳日:2022-12-17 18:45:28 公開日:2020-04-01
# 新しい挑戦:テトリスリンクとaiへのアプローチ

A New Challenge: Approaching Tetris Link with AI ( http://arxiv.org/abs/2004.00377v1 )

ライセンス: Link先を確認
Matthias Muller-Brockhausen, Mike Preuss, Aske Plaat(参考訳) チェスや囲碁などのゲームのためのコンピュータプログラムの開発には、長年の研究が注がれている。 本稿では,新しいゲームであるtetris linkに注目し,科学的解析に乏しいボードゲームについて述べる。 Tetris Linkには大きな分岐要素があり、従来のヒューリスティックな計画アプローチを妨げる。 ヒューリスティックな計画と強化学習,モンテカルロ木探索の2つのアプローチについて検討した。 我々のアプローチを文書化し、トーナメントにおける相対的なパフォーマンスを報告します。 おかしなことに、ヒューリスティックなアプローチは、計画/学習アプローチよりも強い。 しかし、経験豊富な人間プレイヤーは、ヒューリスティックな計画AIに対する試合の過半数を容易に勝ち取ることができる。 したがって、テトリスリンクは予想以上に難しいと推測する。 改善する上での課題として、私たちの発見をコミュニティに提供します。

Decades of research have been invested in making computer programs for playing games such as Chess and Go. This paper focuses on a new game, Tetris Link, a board game that is still lacking any scientific analysis. Tetris Link has a large branching factor, hampering a traditional heuristic planning approach. We explore heuristic planning and two other approaches: Reinforcement Learning, Monte Carlo tree search. We document our approach and report on their relative performance in a tournament. Curiously, the heuristic approach is stronger than the planning/learning approaches. However, experienced human players easily win the majority of the matches against the heuristic planning AIs. We, therefore, surmise that Tetris Link is more difficult than expected. We offer our findings to the community as a challenge to improve upon.
翻訳日:2022-12-17 18:45:13 公開日:2020-04-01
# 深さの端:セグメンテーションと深さの明確な制約

The Edge of Depth: Explicit Constraints between Segmentation and Depth ( http://arxiv.org/abs/2004.00171v1 )

ライセンス: Link先を確認
Shengjie Zhu, Garrick Brazil, Xiaoming Liu(参考訳) 本研究では,画像からの自己教師付き深度推定とセマンティックセグメンテーションという2つの共通コンピュータビジョンタスクの相互利益について検討する。 例えば、教師なし単眼深度推定を支援するために、機能共有や変換といった意味セグメンテーションからの制約が暗黙的に検討されている。 対照的に,ネットワークを局所最適解に向けて反復的に監督することにより,セグメンテーションと深さの境界の一貫性を明示的に測定し,それを最小限に抑えることを提案する。 このことは,限定的真実(KITTIの200枚の画像)で訓練したセマンティックセマンティックセグメンテーションが,どの(眼球やステレオ)画像よりも正確な境界を推定できるという我々の観察に動機づけられている。 広範な実験を通じて,提案手法はキティの非教師なし単眼深度推定技術の発展に寄与する。

In this work we study the mutual benefits of two common computer vision tasks, self-supervised depth estimation and semantic segmentation from images. For example, to help unsupervised monocular depth estimation, constraints from semantic segmentation has been explored implicitly such as sharing and transforming features. In contrast, we propose to explicitly measure the border consistency between segmentation and depth and minimize it in a greedy manner by iteratively supervising the network towards a locally optimal solution. Partially this is motivated by our observation that semantic segmentation even trained with limited ground truth (200 images of KITTI) can offer more accurate border than that of any (monocular or stereo) image-based depth estimation. Through extensive experiments, our proposed approach advances the state of the art on unsupervised monocular depth estimation in the KITTI.
翻訳日:2022-12-17 18:45:05 公開日:2020-04-01
# 先行知識: 上位知識を持たないデータセットのクロスモーダル知識一般化

Knowledge as Priors: Cross-Modal Knowledge Generalization for Datasets without Superior Knowledge ( http://arxiv.org/abs/2004.00176v1 )

ライセンス: Link先を確認
Long Zhao, Xi Peng, Yuxiao Chen, Mubbasir Kapadia, Dimitris N. Metaxas(参考訳) クロスモーダルな知識蒸留は、優れたモーダル (Teacher) で訓練されたモデルから弱いモーダル (Student) で訓練された別のモデルへ知識を伝達する。 既存のアプローチでは、両方のモードにペアトレーニングの例が必要です。 しかし、優れたモダリティからデータにアクセスすることは、必ずしも実現可能であるとは限らない。 例えば、3Dハンドポーズ推定、深度マップ、点雲、ステレオ画像の場合、通常、RGB画像よりも優れた手構造をキャプチャするが、そのほとんどは収集に費用がかかる。 本稿では,教師が利用できないターゲットデータセットにおいて,学生を訓練するための新しいスキームを提案する。 我々のキーとなる考え方は、両方のモダリティからペア化されたサンプルを含むソースデータセットから得られた蒸留されたクロスモーダル知識を、学生のパラメータの事前知識としてモデル化することでターゲットデータセットに一般化することである。 本手法をクロスモーダル・ナレッジ・ジェネライゼーション (cross-modal knowledge generalization) と命名し, 標準ベンチマークデータセットにおける3次元ハンドポーズ推定の性能を比較検討した。

Cross-modal knowledge distillation deals with transferring knowledge from a model trained with superior modalities (Teacher) to another model trained with weak modalities (Student). Existing approaches require paired training examples exist in both modalities. However, accessing the data from superior modalities may not always be feasible. For example, in the case of 3D hand pose estimation, depth maps, point clouds, or stereo images usually capture better hand structures than RGB images, but most of them are expensive to be collected. In this paper, we propose a novel scheme to train the Student in a Target dataset where the Teacher is unavailable. Our key idea is to generalize the distilled cross-modal knowledge learned from a Source dataset, which contains paired examples from both modalities, to the Target dataset by modeling knowledge as priors on parameters of the Student. We name our method "Cross-Modal Knowledge Generalization" and demonstrate that our scheme results in competitive performance for 3D hand pose estimation on standard benchmark datasets.
翻訳日:2022-12-17 18:44:48 公開日:2020-04-01
# 多物体相互作用による時空間行動検出

Spatio-Temporal Action Detection with Multi-Object Interaction ( http://arxiv.org/abs/2004.00180v1 )

ライセンス: Link先を確認
Huijuan Xu, Lizhi Yang, Stan Sclaroff, Kate Saenko, Trevor Darrell(参考訳) ビデオにおける時空間的行動検出は、アクションを「アクションチューブ」の形で空間的かつ時間的にローカライズする必要がある。 現在、ほとんどの時空間行動検出データセット(UCF101-24、AVA、DALYなど)には、アクションを実行する1人の人物を含むアクションチューブが注釈付けされているため、主要なアクション検出モデルは、単に人物検出と追跡パイプラインを使用してローカライゼーションを行う。 しかし、アクションが複数のオブジェクト間の相互作用として定義される場合、アクションチューブ内の各バウンディングボックスが1人ではなく複数のオブジェクトを含んでいるため、そのようなメソッドは失敗する可能性がある。 本稿では,マルチオブジェクトインタラクションを用いた時空間的行動検出問題について検討する。 マルチオブジェクトインタラクションを含むアクションチューブを付加した新しいデータセットを提案する。 さらに,空間的・時間的回帰を同時に行うエンドツーエンドの時空間行動検出モデルを提案する。 我々の空間回帰は、その行動に参加する複数の物体を囲むかもしれない。 テスト期間中は、単純なヒューリスティックを用いて、回帰境界ボックスを予測時間内に単純に接続する。 本稿では,提案手法のベースライン結果について報告するとともに,RGB入力のみを用いた標準ベンチマークUCF101-24の競合結果を示す。

Spatio-temporal action detection in videos requires localizing the action both spatially and temporally in the form of an "action tube". Nowadays, most spatio-temporal action detection datasets (e.g. UCF101-24, AVA, DALY) are annotated with action tubes that contain a single person performing the action, thus the predominant action detection models simply employ a person detection and tracking pipeline for localization. However, when the action is defined as an interaction between multiple objects, such methods may fail since each bounding box in the action tube contains multiple objects instead of one person. In this paper, we study the spatio-temporal action detection problem with multi-object interaction. We introduce a new dataset that is annotated with action tubes containing multi-object interactions. Moreover, we propose an end-to-end spatio-temporal action detection model that performs both spatial and temporal regression simultaneously. Our spatial regression may enclose multiple objects participating in the action. During test time, we simply connect the regressed bounding boxes within the predicted temporal duration using a simple heuristic. We report the baseline results of our proposed model on this new dataset, and also show competitive results on the standard benchmark UCF101-24 using only RGB input.
翻訳日:2022-12-17 18:44:29 公開日:2020-04-01
# 深層学習に基づくUNGA解像度のマルチラベルテキスト分類

Deep Learning Based Multi-Label Text Classification of UNGA Resolutions ( http://arxiv.org/abs/2004.03455v1 )

ライセンス: Link先を確認
Francesco Sovrano, Monica Palmirani, Fabio Vitali(参考訳) この研究の主な目的は、国連(UN)のための有用なソフトウェアを作ることで、持続可能な開発目標(SDG)に続く国連文書の認定プロセスのスピードアップに役立ち、貧困、差別、気候変動と戦うための世界レベルでの進歩を監視することである。 実際には、影響のあるコーパスのサイズを考えると、国連文書の人間のラベル付けは厄介な作業になるでしょう。 したがって、自動ラベリングは、少なくとも多段階プロセスの第1段階として採用され、カタログ化と分類の全体的な労力を削減する必要がある。 deep learning (dl)は、現在、このタスクのための最先端(sota)aiのための最も強力なツールの1つだが、非常に多く、高価でエラーやすいトレーニングセットの作成コストがかかる。 ドメイン特化テキストの多ラベルテキスト分類の場合,大容量のドメイン特化トレーニングセットがなければ,DLを効果的に適用することはできないと考えられる。 本稿では,これは必ずしも真実ではないことを示す。 実際、TF-IDFのような統計学を通じて、従来のトランスファー学習やその他高価な訓練手順を必要とせずに、事前訓練されたSOTA DLモデル(Universal Sentence Encoderなど)を活用できる新しい手法を提案する。 我々は,最も関連性の高いSDGに基づいて国連決議を分類し,法的な文脈で本手法の有効性を示す。

The main goal of this research is to produce a useful software for United Nations (UN), that could help to speed up the process of qualifying the UN documents following the Sustainable Development Goals (SDGs) in order to monitor the progresses at the world level to fight poverty, discrimination, climate changes. In fact human labeling of UN documents would be a daunting task given the size of the impacted corpus. Thus, automatic labeling must be adopted at least as a first step of a multi-phase process to reduce the overall effort of cataloguing and classifying. Deep Learning (DL) is nowadays one of the most powerful tools for state-of-the-art (SOTA) AI for this task, but very often it comes with the cost of an expensive and error-prone preparation of a training-set. In the case of multi-label text classification of domain-specific text it seems that we cannot effectively adopt DL without a big-enough domain-specific training-set. In this paper, we show that this is not always true. In fact we propose a novel method that is able, through statistics like TF-IDF, to exploit pre-trained SOTA DL models (such as the Universal Sentence Encoder) without any need for traditional transfer learning or any other expensive training procedure. We show the effectiveness of our method in a legal context, by classifying UN Resolutions according to their most related SDGs.
翻訳日:2022-12-17 18:38:29 公開日:2020-04-01
# 連合型ディープラーニングによるプライバシ攻撃と防御戦略の概要

An Overview of Federated Deep Learning Privacy Attacks and Defensive Strategies ( http://arxiv.org/abs/2004.04676v1 )

ライセンス: Link先を確認
David Enthoven and Zaid Al-Ars(参考訳) データプライバシに対する注意と規制の高まりに伴い、コラボレーティブ機械学習(ML)アルゴリズムは、処理に使用されるプライベートデータの保護を保証するために開発されている。 フェデレートラーニング(FL)は,共有モデルの協調トレーニングを容易にすることで,集中型サーバとプライベートデータを交換することなく,プライバシ保護を実現する手法として最も一般的な方法である。 むしろ、機械学習モデルの更新という形でデータの抽象化が送信される。 最近の研究によると、そのようなモデル更新は依然として非常によく個人情報を漏らす可能性があるため、より構造化されたリスク評価が必要である。 本稿では,flの既存脆弱性を分析し,flプライバシ保護機能を対象とした攻撃手法について文献レビューを行う。 これらの攻撃方法は基本分類法によって分類される。 さらに,これらの攻撃を克服しようとするflの最近の防御戦略とアルゴリズムについて文献的研究を行った。 これらの防衛戦略は、それぞれの防御原則によって分類される。 本論文は, 単一防御戦略の適用は, 全ての攻撃方法に対して適切な保護を提供するには不十分である,と結論づける。

With the increased attention and legislation for data-privacy, collaborative machine learning (ML) algorithms are being developed to ensure the protection of private data used for processing. Federated learning (FL) is the most popular of these methods, which provides privacy preservation by facilitating collaborative training of a shared model without the need to exchange any private data with a centralized server. Rather, an abstraction of the data in the form of a machine learning model update is sent. Recent studies showed that such model updates may still very well leak private information and thus more structured risk assessment is needed. In this paper, we analyze existing vulnerabilities of FL and subsequently perform a literature review of the possible attack methods targetingFL privacy protection capabilities. These attack methods are then categorized by a basic taxonomy. Additionally, we provide a literature study of the most recent defensive strategies and algorithms for FL aimed to overcome these attacks. These defensive strategies are categorized by their respective underlying defence principle. The paper concludes that the application of a single defensive strategy is not enough to provide adequate protection to all available attack methods.
翻訳日:2022-12-17 18:38:04 公開日:2020-04-01
# 学習型グラフ畳み込みネットワークを用いた半監督型頚椎変性症分類

Semi-Supervised Cervical Dysplasia Classification With Learnable Graph Convolutional Network ( http://arxiv.org/abs/2004.00191v1 )

ライセンス: Link先を確認
Yanglan Ou, Yuan Xue, Ye Yuan, Tao Xu, Vincent Pisztora, Jia Li, Xiaolei Huang(参考訳) 子宮頸癌は、現在女性に影響を及ぼす2番目に多いがんである。 子宮頸癌の早期発見はスクリーニングや前臨床検査に大きく依存しているため,特に低コストでアクセスが容易な低リソース領域において,初回検診や補助検診ツールとして大きな可能性を秘めている。 頚椎脱臼の自動検出システムは望ましいが, 従来の完全監督訓練では大量の注釈データが必要であり, 収集に手間がかかることが多い。 手動のアノテーションの必要性を軽減するため、より少ないアノテーションでトレーニングできる新しいグラフ畳み込みネットワーク(GCN)に基づく半教師付き分類モデルを提案する。 既存のgcnでは、グラフは固定された機能で構築されており、学習プロセスでは更新できない。 これにより、グラフ畳み込み中に学んだ新機能を利用する能力が制限される。 本稿では,学習中に隣接行列を適応的に更新する特徴エンコーダを備えた,新しい,より柔軟なgcnモデルを提案する。 頚椎異形成症分類データセットにおける実験結果から,提案フレームワークは,特にラベル付きサンプルが不足している場合において,半教師付き設定下では従来手法よりも優れていた。

Cervical cancer is the second most prevalent cancer affecting women today. As the early detection of cervical carcinoma relies heavily upon screening and pre-clinical testing, digital cervicography has great potential as a primary or auxiliary screening tool, especially in low-resource regions due to its low cost and easy access. Although an automated cervical dysplasia detection system has been desirable, traditional fully-supervised training of such systems requires large amounts of annotated data which are often labor-intensive to collect. To alleviate the need for much manual annotation, we propose a novel graph convolutional network (GCN) based semi-supervised classification model that can be trained with fewer annotations. In existing GCNs, graphs are constructed with fixed features and can not be updated during the learning process. This limits their ability to exploit new features learned during graph convolution. In this paper, we propose a novel and more flexible GCN model with a feature encoder that adaptively updates the adjacency matrix during learning and demonstrate that this model design leads to improved performance. Our experimental results on a cervical dysplasia classification dataset show that the proposed framework outperforms previous methods under a semi-supervised setting, especially when the labeled samples are scarce.
翻訳日:2022-12-17 18:37:49 公開日:2020-04-01
# ビット平面間の特徴整合性向上による対向ロバスト性の実現に向けて

Towards Achieving Adversarial Robustness by Enforcing Feature Consistency Across Bit Planes ( http://arxiv.org/abs/2004.00306v1 )

ライセンス: Link先を確認
Sravanti Addepalli, Vivek B.S., Arya Baburaj, Gaurang Sriramanan, R. Venkatesh Babu(参考訳) 人間として、我々は本質的にその特徴に基づいてイメージを知覚し、低ビット平面に埋め込まれたノイズを無視する。 逆にDeep Neural Networksは、人間の目にはほとんど知覚できない、細心の注意を払って作られた摂動で、画像の分類を確実に間違えることが知られている。 本研究では、高ビット平面の情報に基づいて粗い印象を形成するネットワークを訓練し、低ビット平面を用いて予測を洗練させることによってこの問題に対処する。 異なる量子化画像で学習した表現に一貫性を付与することで、通常訓練されたモデルと比較して、ネットワークの敵対的ロバスト性が大幅に向上することを示す。 現在、敵攻撃に対する最先端の防御は、ネットワークを計算的にコストがかかる敵のサンプルを使って明示的に訓練する必要がある。 本研究は, 対人訓練を併用した手法が最善を尽くす一方で, 対人サンプルを明示的に訓練することなく, 頑健性を達成するための道筋をたどるものである。 したがって、提案されたアプローチはより高速で、人間の自然学習プロセスに近い。

As humans, we inherently perceive images based on their predominant features, and ignore noise embedded within lower bit planes. On the contrary, Deep Neural Networks are known to confidently misclassify images corrupted with meticulously crafted perturbations that are nearly imperceptible to the human eye. In this work, we attempt to address this problem by training networks to form coarse impressions based on the information in higher bit planes, and use the lower bit planes only to refine their prediction. We demonstrate that, by imposing consistency on the representations learned across differently quantized images, the adversarial robustness of networks improves significantly when compared to a normally trained model. Present state-of-the-art defenses against adversarial attacks require the networks to be explicitly trained using adversarial samples that are computationally expensive to generate. While such methods that use adversarial training continue to achieve the best results, this work paves the way towards achieving robustness without having to explicitly train on adversarial samples. The proposed approach is therefore faster, and also closer to the natural learning process in humans.
翻訳日:2022-12-17 18:36:50 公開日:2020-04-01
# 2ショット空間変動BRDFと形状推定

Two-shot Spatially-varying BRDF and Shape Estimation ( http://arxiv.org/abs/2004.00403v1 )

ライセンス: Link先を確認
Mark Boss, Varun Jampani, Kihwan Kim, Hendrik P.A. Lensch, Jan Kautz(参考訳) 画像からオブジェクトの形状と空間変化の外観(SVBRDF)をキャプチャすることは、コンピュータビジョンとグラフィックスの両方に応用できる難しいタスクである。 従来の最適化ベースのアプローチは、制御された環境で複数のビューから取られた大量の画像を必要とすることが多い。 より新しいディープラーニングベースのアプローチでは、少数の入力イメージしか必要としないが、再構築品質は最適化手法と同等ではない。 形状とSVBRDFを段階的に推定した新しいディープラーニングアーキテクチャを提案する。 従来の予測はそれぞれの推定を導いており、共同改良ネットワークは後にSVBRDFと形状の両方を精査する。 我々は,実用的なモバイル画像キャプチャ設定に従い,非整合な2ショットフラッシュとノーフラッシュイメージを入力として使用する。 2ショットの画像キャプチャとネットワーク推論の両方を、モバイルハードウェア上で実行できます。 また、ドメインランダム化された幾何学と現実的な材料を用いた大規模合成学習データセットを作成する。 合成データセットと実世界のデータセットの両方に関する広範な実験は、合成データセットでトレーニングされたネットワークが実世界の画像にうまく一般化できることを示しています。 近年のアプローチとの比較では,提案手法の優れた性能を示す。

Capturing the shape and spatially-varying appearance (SVBRDF) of an object from images is a challenging task that has applications in both computer vision and graphics. Traditional optimization-based approaches often need a large number of images taken from multiple views in a controlled environment. Newer deep learning-based approaches require only a few input images, but the reconstruction quality is not on par with optimization techniques. We propose a novel deep learning architecture with a stage-wise estimation of shape and SVBRDF. The previous predictions guide each estimation, and a joint refinement network later refines both SVBRDF and shape. We follow a practical mobile image capture setting and use unaligned two-shot flash and no-flash images as input. Both our two-shot image capture and network inference can run on mobile hardware. We also create a large-scale synthetic training dataset with domain-randomized geometry and realistic materials. Extensive experiments on both synthetic and real-world datasets show that our network trained on a synthetic dataset can generalize well to real-world images. Comparisons with recent approaches demonstrate the superior performance of the proposed approach.
翻訳日:2022-12-17 18:36:31 公開日:2020-04-01
# EPOS: 対称性でオブジェクトの6Dポスを推定する

EPOS: Estimating 6D Pose of Objects with Symmetries ( http://arxiv.org/abs/2004.00605v1 )

ライセンス: Link先を確認
Tomas Hodan, Daniel Barath, Jiri Matas(参考訳) 本稿では,単一のrgb入力画像から3dモデルを用いた剛体物体の6次元ポーズ推定法を提案する。 この方法は、大域的あるいは部分的対称性を持つ挑戦的な対象を含む幅広い対象に適用できる。 オブジェクトは、体系的な方法で対称性を扱うことができるコンパクトな表面フラグメントによって表現される。 エンコーダデコーダネットワークを用いて,高密度サンプリング画素とフラグメントの対応性を予測する。 各ピクセルで、ネットワークは次のように予測します。 (i)各物体の存在の確率 (ii)対象物の存在が与えられた断片の確率、及び (iii)各断片の正確な3d位置。 画素毎に対応する3d位置のデータ依存数を選択し、pnp-ransacアルゴリズムのロバストで効率的な変種を用いて複数のオブジェクトインスタンスのポーズを推定する。 BOP Challenge 2019では、この手法はT-LESSおよびLM-Oデータセット上で全RGBおよびほとんどのRGB-DおよびDメソッドを上回っている。 YCB-Vデータセットでは、すべての競合より優れており、2番目に高いRGB法よりも大きなマージンを持つ。 ソースコードは: cmp.felk.cvut.cz/epos。

We present a new method for estimating the 6D pose of rigid objects with available 3D models from a single RGB input image. The method is applicable to a broad range of objects, including challenging ones with global or partial symmetries. An object is represented by compact surface fragments which allow handling symmetries in a systematic manner. Correspondences between densely sampled pixels and the fragments are predicted using an encoder-decoder network. At each pixel, the network predicts: (i) the probability of each object's presence, (ii) the probability of the fragments given the object's presence, and (iii) the precise 3D location on each fragment. A data-dependent number of corresponding 3D locations is selected per pixel, and poses of possibly multiple object instances are estimated using a robust and efficient variant of the PnP-RANSAC algorithm. In the BOP Challenge 2019, the method outperforms all RGB and most RGB-D and D methods on the T-LESS and LM-O datasets. On the YCB-V dataset, it is superior to all competitors, with a large margin over the second-best RGB method. Source code is at: cmp.felk.cvut.cz/epos.
翻訳日:2022-12-17 18:35:42 公開日:2020-04-01
# フーリエからクープマン:長期時系列予測のためのスペクトル法

From Fourier to Koopman: Spectral Methods for Long-term Time Series Prediction ( http://arxiv.org/abs/2004.00574v1 )

ライセンス: Link先を確認
Henning Lange, Steven L. Brunton, Nathan Kutz(参考訳) 線形および非線形準周期力学系から発生する時間信号の長期予測のためのスペクトル法を提案する。 線形信号に対して、フーリエ変換と類似性を持つアルゴリズムを導入するが、周期性仮定には依存せず、任意のサンプリング間隔の予測が可能となる。 次に、このアルゴリズムをkoopman理論を利用して非線形性を扱うように拡張する。 結果のアルゴリズムは非線形なデータ依存ベースでスペクトル分解を行う。 両アルゴリズムの最適化目標は極めて非凸である。 しかし、その目的を周波数領域で表現することで、高速フーリエ変換の計算特性を利用して、エラー表面のグローバルな最適化をスケーラブルで効率的な方法で計算することができる。 ベイズスペクトル解析との密接な関係から、不確かさの定量化指標はスペクトル予測法の自然な副産物である。 我々は,これらのアルゴリズムを,実世界の電力システムや流体流の文脈だけでなく,様々な合成実験において,他の先行予測手法と比較した。

We propose spectral methods for long-term forecasting of temporal signals stemming from linear and nonlinear quasi-periodic dynamical systems. For linear signals, we introduce an algorithm with similarities to the Fourier transform but which does not rely on periodicity assumptions, allowing for forecasting given potentially arbitrary sampling intervals. We then extend this algorithm to handle nonlinearities by leveraging Koopman theory. The resulting algorithm performs a spectral decomposition in a nonlinear, data-dependent basis. The optimization objective for both algorithms is highly non-convex. However, expressing the objective in the frequency domain allows us to compute global optima of the error surface in a scalable and efficient manner, partially by exploiting the computational properties of the Fast Fourier Transform. Because of their close relation to Bayesian Spectral Analysis, uncertainty quantification metrics are a natural byproduct of the spectral forecasting methods. We extensively benchmark these algorithms against other leading forecasting methods on a range of synthetic experiments as well as in the context of real-world power systems and fluid flows.
翻訳日:2022-12-17 18:27:46 公開日:2020-04-01
# 非パラメトリックユーティリティを用いた連続アクショングラフィカルゲーム学習のための確率的サンプル複雑度保証

Provable Sample Complexity Guarantees for Learning of Continuous-Action Graphical Games with Nonparametric Utilities ( http://arxiv.org/abs/2004.01022v1 )

ライセンス: Link先を確認
Adarsh Barik, Jean Honorio(参考訳) 本稿では,非パラメトリック効用関数を用いた連続アクションゲームの厳密な構造を学習する問題について検討する。 我々は,回収されたユーティリティのフーリエ変換係数のスパース性を促進する$\ell_1$正規化手法を提案する。 提案手法は非常に少数のnash平衡とノイズの多いユーティリティにアクセスすることで機能する。 特定の技術的条件下では、この手法はこれらの効用関数の正確な構造、つまりゲームの正確な構造を回復する。 さらに,本手法では,選手数と多項式時間で実行されるサンプルの対数しか必要としない。 我々は、証明可能な理論的保証を提供するための原始二重証人枠組みに従う。

In this paper, we study the problem of learning the exact structure of continuous-action games with non-parametric utility functions. We propose an $\ell_1$ regularized method which encourages sparsity of the coefficients of the Fourier transform of the recovered utilities. Our method works by accessing very few Nash equilibria and their noisy utilities. Under certain technical conditions, our method also recovers the exact structure of these utility functions, and thus, the exact structure of the game. Furthermore, our method only needs a logarithmic number of samples in terms of the number of players and runs in polynomial time. We follow the primal-dual witness framework to provide provable theoretical guarantees.
翻訳日:2022-12-17 18:27:09 公開日:2020-04-01
# 階層的注意と時間的rnnを用いたリンク予測のための動的ヘテロジニアスネットワークのモデル化

Modeling Dynamic Heterogeneous Network for Link Prediction using Hierarchical Attention with Temporal RNN ( http://arxiv.org/abs/2004.01024v1 )

ライセンス: Link先を確認
Hansheng Xue, Luwei Yang, Wen Jiang, Yi Wei, Yi Hu, and Yu Lin(参考訳) ネットワーク埋め込みは、ネットワークの構造情報を捉えながら、ノードの低次元表現を学ぶことを目的としている。 リンク予測やノード分類といったネットワーク解析の多くのタスクにおいて大きな成功を収めた。 既存のネットワーク埋め込みアルゴリズムのほとんどは、静的な均質ネットワークを効果的に学習する方法に焦点を当てている。 しかし、現実世界のネットワークはより複雑であり、例えば、ネットワークはいくつかの種類のノードとエッジ(異種情報と呼ばれる)で構成され、動的ノードとエッジ(進化パターンと呼ばれる)の観点で時間とともに変化する可能性がある。 動的異種ネットワークのネットワーク埋め込みには,進化的情報と異種情報の両方を同時に学習することが困難である。 本稿では,階層的注意を応用して異種情報を学習し,時間的注意で再帰的ニューラルネットワークを取り入れ,進化的パターンを捉える新しい動的ヘテロジニアスネットワーク埋め込み手法dyhatrを提案する。 リンク予測のための4つの実世界のデータセットをベンチマークする。 実験の結果,DyHATRはいくつかの最先端のベースラインよりも優れていた。

Network embedding aims to learn low-dimensional representations of nodes while capturing structure information of networks. It has achieved great success on many tasks of network analysis such as link prediction and node classification. Most of existing network embedding algorithms focus on how to learn static homogeneous networks effectively. However, networks in the real world are more complex, e.g., networks may consist of several types of nodes and edges (called heterogeneous information) and may vary over time in terms of dynamic nodes and edges (called evolutionary patterns). Limited work has been done for network embedding of dynamic heterogeneous networks as it is challenging to learn both evolutionary and heterogeneous information simultaneously. In this paper, we propose a novel dynamic heterogeneous network embedding method, termed as DyHATR, which uses hierarchical attention to learn heterogeneous information and incorporates recurrent neural networks with temporal attention to capture evolutionary patterns. We benchmark our method on four real-world datasets for the task of link prediction. Experimental results show that DyHATR significantly outperforms several state-of-the-art baselines.
翻訳日:2022-12-17 18:26:58 公開日:2020-04-01
# DeepSIBA:化学構造に基づく生物変化の推測

DeepSIBA: Chemical Structure-based Inference of Biological Alterations ( http://arxiv.org/abs/2004.01028v1 )

ライセンス: Link先を確認
C. Fotis, N. Meimetis, A. Sardis and L.G. Alexopoulos(参考訳) 化学構造が所望の生物学的効果を持つかどうかを予測することは、初期の薬物発見におけるin-silico化合物のスクリーニングに大きな影響を与える可能性がある。 本研究では,複合構造をグラフとして表現し,その生物足跡と関連づけた深層学習モデルを開発した。 この複雑な問題を計算可能なものにするために、シアムグラフ畳み込みニューラルネットワークを用いて生体効果変化に複合差をマッピングした。 提案モデルは、化学構造から新しい表現を学習し、類似した生物学的過程に高い精度で影響を及ぼす構造的に異なる化合物を同定することができた。 さらに, 深層アンサンブルを用いて不確実性を推定することにより, トレーニング中に使用するものとは大きく異なる, 信頼性が高く正確な化学構造予測を行うことができた。 最後に, その化学構造のみを入力として, 特定の細胞系における化合物摂動によって影響を受けるシグナル伝達経路を, 学習モデルを用いて推定する新しい推論手法を提案する。 この手法は、FDAが承認した抗がん剤によるシグナル伝達経路の推測に用いられた。

Predicting whether a chemical structure shares a desired biological effect can have a significant impact for in-silico compound screening in early drug discovery. In this study, we developed a deep learning model where compound structures are represented as graphs and then linked to their biological footprint. To make this complex problem computationally tractable, compound differences were mapped to biological effect alterations using Siamese Graph Convolutional Neural Networks. The proposed model was able to learn new representations from chemical structures and identify structurally dissimilar compounds that affect similar biological processes with high precision. Additionally, by utilizing deep ensembles to estimate uncertainty, we were able to provide reliable and accurate predictions for chemical structures that are very different from the ones used during training. Finally, we present a novel inference approach, where the trained models are used to estimate the signaling pathways affected by a compound perturbation in a specific cell line, using only its chemical structure as input. As a use case, this approach was used to infer signaling pathways affected by FDA-approved anticancer drugs.
翻訳日:2022-12-17 18:26:42 公開日:2020-04-01
# オーバー完全分布による一般化ゼロショット学習

Generalized Zero-Shot Learning Via Over-Complete Distribution ( http://arxiv.org/abs/2004.00666v1 )

ライセンス: Link先を確認
Rohit Keshari, Richa Singh, Mayank Vatsa(参考訳) 十分に訓練され、一般化されたディープニューラルネットワーク(DNN)は、目に見えないクラスと見えないクラスの両方に対して堅牢であるべきである。 しかし、既存の教師付きDNNアルゴリズムの性能は、トレーニングセットにはないクラスで低下する。 ゼロショット学習(ZSL)設定で優れた性能を示す識別型分類器を学習するために,条件付き変分オートエンコーダ(CVAE)を用いてオーバーコンプリート分布(OCD)を生成することを提案する。 クラス間の分離性を強制し,クラス散乱を低減するために,生成されたOCDにOBTL(Online Batch Triplet Loss)とCL(Center Loss)を用いることを提案する。 このフレームワークの有効性は、SUN、CUB、AWA2の3つの公開ベンチマークデータベース上で、Zero-Shot LearningとGeneralized Zero-Shot Learningプロトコルの両方を用いて評価される。 その結果,オーバーコンプリート分布を生成し,非オーバーラップ分布への変換関数の学習を分類器に強制することで,見掛けたクラスと見当たらないクラスの両方のパフォーマンスを向上させることができた。

A well trained and generalized deep neural network (DNN) should be robust to both seen and unseen classes. However, the performance of most of the existing supervised DNN algorithms degrade for classes which are unseen in the training set. To learn a discriminative classifier which yields good performance in Zero-Shot Learning (ZSL) settings, we propose to generate an Over-Complete Distribution (OCD) using Conditional Variational Autoencoder (CVAE) of both seen and unseen classes. In order to enforce the separability between classes and reduce the class scatter, we propose the use of Online Batch Triplet Loss (OBTL) and Center Loss (CL) on the generated OCD. The effectiveness of the framework is evaluated using both Zero-Shot Learning and Generalized Zero-Shot Learning protocols on three publicly available benchmark databases, SUN, CUB and AWA2. The results show that generating over-complete distributions and enforcing the classifier to learn a transform function from overlapping to non-overlapping distributions can improve the performance on both seen and unseen classes.
翻訳日:2022-12-17 18:21:20 公開日:2020-04-01
# 暴力の対象:人権調査における実践的MLのための合成データ

Objects of violence: synthetic data for practical ML in human rights investigations ( http://arxiv.org/abs/2004.01030v1 )

ライセンス: Link先を確認
Lachlan Kermode, Jan Freyberg, Alican Akturk, Robert Trafford, Denis Kochetkov, Rafael Pardinas, Eyal Weizman, and Julien Cornebise(参考訳) 興味のある対象に限られた訓練データが存在する場合でも、軍需品、武器、軍需品の映像や映像を検索、識別し、有意義にトリアージする機械学習ワークフローを導入する。 このワークフローは、人権調査におけるOSINT(オープンソースインテリジェンス)の研究を迅速化するように設計されている。 トレーニングデータの欠如を補う合成データセットの自動レンダリングと注釈付け、写真と合成データの組み合わせから画像分類器を訓練する、そしてこれらの分類器が公開ドメインメディアをトリアージするためのデプロイをオーケストレーションするオープンソースソフトウェアであるmtriage、Webインターフェースでの予測を視覚化する3つのコンポーネントで構成されている。 合成データは、分類器をより効果的に訓練し、あるアプローチが異なるアーキテクチャに対してより良い結果をもたらすことを示す。 我々は、市民に対する三段式催涙ガスグレネードの使用と、2014年のウクライナにおける軍事的存在の疑惑の検証という2つの実世界の人権調査で、我々のワークフローを実証した。

We introduce a machine learning workflow to search for, identify, and meaningfully triage videos and images of munitions, weapons, and military equipment, even when limited training data exists for the object of interest. This workflow is designed to expedite the work of OSINT ("open source intelligence") researchers in human rights investigations. It consists of three components: automatic rendering and annotating of synthetic datasets that make up for a lack of training data; training image classifiers from combined sets of photographic and synthetic data; and mtriage, an open source software that orchestrates these classifiers' deployment to triage public domain media, and visualise predictions in a web interface. We show that synthetic data helps to train classifiers more effectively, and that certain approaches yield better results for different architectures. We then demonstrate our workflow in two real-world human rights investigations: the use of the Triple-Chaser tear gas grenade against civilians, and the verification of allegations of military presence in Ukraine in 2014.
翻訳日:2022-12-17 18:21:03 公開日:2020-04-01
# ディープニューラルネットワークの漸進的進化と開発

Incremental Evolution and Development of Deep Artificial Neural Networks ( http://arxiv.org/abs/2004.00302v1 )

ライセンス: Link先を確認
Filipe Assun\c{c}\~ao, Nuno Louren\c{c}o, Bernardete Ribeiro, Penousal Machado(参考訳) NeuroEvolution(NE)法は、ニューラルネットワーク(ANN)の最適化に進化計算を適用することで知られている。 非熟練のユーザに対してANNの設計とトレーニングを支援する一方で、NEアプローチの大多数は、他のタスクの解決時に収集された知識を無視している。 この欠点を克服するため、我々はFast Deep Evolutionary Network Structured Representation (Fast-DENSER)をインクリメンタル開発に拡張した。 従来のタスクから得た知識を転送することで、優れた結果とスピードアップの進化を達成できると仮定する。 その結果, インクリメンタル開発によるモデルの平均性能は, 非インクリメンタルな平均性能よりも統計的に優れていることがわかった。 インクリメンタル開発による評価が非インクリメンタル開発による評価よりも少ない場合、達成された結果がパフォーマンスに似ており、インクリメンタル開発が進化を加速することを示している。 最後に、インクリメンタル開発を用いて生成されたモデルはより一般化され、さらなる進化なしに、目に見えない問題に対して優れた性能を報告します。

NeuroEvolution (NE) methods are known for applying Evolutionary Computation to the optimisation of Artificial Neural Networks(ANNs). Despite aiding non-expert users to design and train ANNs, the vast majority of NE approaches disregard the knowledge that is gathered when solving other tasks, i.e., evolution starts from scratch for each problem, ultimately delaying the evolutionary process. To overcome this drawback, we extend Fast Deep Evolutionary Network Structured Representation (Fast-DENSER) to incremental development. We hypothesise that by transferring the knowledge gained from previous tasks we can attain superior results and speedup evolution. The results show that the average performance of the models generated by incremental development is statistically superior to the non-incremental average performance. In case the number of evaluations performed by incremental development is smaller than the performed by non-incremental development the attained results are similar in performance, which indicates that incremental development speeds up evolution. Lastly, the models generated using incremental development generalise better, and thus, without further evolution, report a superior performance on unseen problems.
翻訳日:2022-12-17 18:20:42 公開日:2020-04-01
# 複雑なタスクに対する制約空間最適化と強化学習

Constrained-Space Optimization and Reinforcement Learning for Complex Tasks ( http://arxiv.org/abs/2004.00716v1 )

ライセンス: Link先を確認
Ya-Yen Tsai, Bo Xiao, Edward Johns, Guang-Zhong Yang(参考訳) Demonstrationからの学習は、オペレータ操作スキルをロボットに転送するためにますます利用されている。 実際には、安全上の制約だけでなく、限られたデータと不完全な人間のデモンストレーションに対応することが重要です。 本稿では,複雑なタスクを管理するための制約空間最適化と強化学習手法を提案する。 拘束空間内の相互作用により、強化学習エージェントは、所定の報酬関数に従って操作スキルを最適化するように訓練される。 学習後、最適な方針は訓練された強化学習エージェントから導き出され、専門家のデモンストレーションに類似したタスクをロボットに指導するために実装される。 提案手法の有効性をロボット縫合作業で検証し, 学習した方針が, 関節運動の滑らかさ, 終末効果の軌跡, 全体の作業完了時間において, 専門家のデモンストレーションよりも優れていることを示した。

Learning from Demonstration is increasingly used for transferring operator manipulation skills to robots. In practice, it is important to cater for limited data and imperfect human demonstrations, as well as underlying safety constraints. This paper presents a constrained-space optimization and reinforcement learning scheme for managing complex tasks. Through interactions within the constrained space, the reinforcement learning agent is trained to optimize the manipulation skills according to a defined reward function. After learning, the optimal policy is derived from the well-trained reinforcement learning agent, which is then implemented to guide the robot to conduct tasks that are similar to the experts' demonstrations. The effectiveness of the proposed method is verified with a robotic suturing task, demonstrating that the learned policy outperformed the experts' demonstrations in terms of the smoothness of the joint motion and end-effector trajectories, as well as the overall task completion time.
翻訳日:2022-12-17 18:19:48 公開日:2020-04-01
# 正方形ヒンジによる完全補正勾配昇降:高速学習と早期停止

Fully-Corrective Gradient Boosting with Squared Hinge: Fast Learning Rates and Early Stopping ( http://arxiv.org/abs/2004.00179v1 )

ライセンス: Link先を確認
Jinshan Zeng, Min Zhang and Shao-Bo Lin(参考訳) boostingは、機械学習における弱い学習者の正確性を改善するためのよく知られた方法である。 しかし、理論上の一般化保証は文献に欠けている。 本稿では,二元分類の理論的一般化を保証した効率的なブースティング手法を提案する。 提案手法の主な要素は次の3つである。 a) ブースティング手順における \textit{fully-corrective greedy} (FCG) の更新 b) 微分可能な \textit{squaredhinge} ( \textit{truncated quadratic} とも呼ばれる) は損失関数として機能し、 c) FCG最適化のための乗算器アルゴリズム(ADMM)の効率的な交互方向法。 使用済みの2乗ヒンジ損失は、外れ値を持つ分類においてよく知られたヒンジ損失のロバスト性を継承するだけでなく、計算の実装と理論的正当化にもいくつかの利点をもたらす。 あるスパースネス仮定の下では、提案されたブースティング法に対して、${\cal O}((m/\log m)^{-1/4})$の高速学習率を導出し、さらに${\cal O}((m/\log m)^{-1/2})$に改善することができる。 両方の派生学習率は、分類のためのブースティング型手法の既存の一般化結果の中で最良のものである。 さらに,提案手法に対して効率的な早期停止方式を提案する。 提案手法の有効性を実証するために,一連の玩具シミュレーションと実データ実験を行った。

Boosting is a well-known method for improving the accuracy of weak learners in machine learning. However, its theoretical generalization guarantee is missing in literature. In this paper, we propose an efficient boosting method with theoretical generalization guarantees for binary classification. Three key ingredients of the proposed boosting method are: a) the \textit{fully-corrective greedy} (FCG) update in the boosting procedure, b) a differentiable \textit{squared hinge} (also called \textit{truncated quadratic}) function as the loss function, and c) an efficient alternating direction method of multipliers (ADMM) algorithm for the associated FCG optimization. The used squared hinge loss not only inherits the robustness of the well-known hinge loss for classification with outliers, but also brings some benefits for computational implementation and theoretical justification. Under some sparseness assumption, we derive a fast learning rate of the order ${\cal O}((m/\log m)^{-1/4})$ for the proposed boosting method, which can be further improved to ${\cal O}((m/\log m)^{-1/2})$ if certain additional noise assumption is imposed, where $m$ is the size of sample set. Both derived learning rates are the best ones among the existing generalization results of boosting-type methods for classification. Moreover, an efficient early stopping scheme is provided for the proposed method. A series of toy simulations and real data experiments are conducted to verify the developed theories and demonstrate the effectiveness of the proposed method.
翻訳日:2022-12-17 18:19:24 公開日:2020-04-01
# NetDP: Ant Credit Payにおけるデフォルト予測のための産業規模の分散ネットワーク表現フレームワーク

NetDP: An Industrial-Scale Distributed Network Representation Framework for Default Prediction in Ant Credit Pay ( http://arxiv.org/abs/2004.00201v1 )

ライセンス: Link先を確認
Jianbin Lin, Zhiqiang Zhang, Jun Zhou, Xiaolong Li, Jingli Fang, Yanming Fang, Quan Yu, Yuan Qi(参考訳) Ant Credit Payは、Ant Financial Service Groupの消費者向けクレジットサービスである。 クレジットカードと同様、ローンのデフォルトはこの信用商品の主要なリスクの1つだ。 したがって、デフォルト予測のための効果的なアルゴリズムは、企業の損失削減と利益増の鍵となる。 しかし、われわれのシナリオで直面する課題は、従来のクレジットカードサービスとは異なる。 ひとつはスケーラビリティです。 Ant Financialの大量のユーザとその行動は、産業規模のデータを処理し、モデルトレーニングを効率的に行う能力を必要とする。 第2の課題は、コールドスタート問題である。 従来の銀行でのクレジットカードアプリケーションの手動レビューとは異なり、Ant Credit Payのクレジット制限は、ビッグデータから学んだ知識に基づいてユーザーに自動的に提供される。 しかし、新規ユーザーのデフォルトの予測は十分な信用行動の欠如に苦しんでいる。 提案には、コールドスタート問題を緩和するために、他の新しいデータソースを活用する必要がある。 上記の課題とantファイナンシャルの特別なシナリオを考慮して,ネットワーク情報にデフォルト予測を組み込むことにより,コールドスタート問題を軽減する。 本稿では、Ant Credit Payのデフォルト予測のために、NetDPと呼ばれる産業規模の分散ネットワーク表現フレームワークを提案する。 本提案は,ユーザ間のさまざまなインタラクションによって生成されたネットワーク情報を探索し,非教師なし,教師なしのネットワーク表現を既定予測問題のための統一フレームワークにブレンドする。 さらに,提案手法のパラメータサーバベースの分散実装を行い,スケーラビリティの課題に対処する。 実験の結果,特にコールドスタート問題における提案の有効性と,産業規模データセットの効率性が示された。

Ant Credit Pay is a consumer credit service in Ant Financial Service Group. Similar to credit card, loan default is one of the major risks of this credit product. Hence, effective algorithm for default prediction is the key to losses reduction and profits increment for the company. However, the challenges facing in our scenario are different from those in conventional credit card service. The first one is scalability. The huge volume of users and their behaviors in Ant Financial requires the ability to process industrial-scale data and perform model training efficiently. The second challenges is the cold-start problem. Different from the manual review for credit card application in conventional banks, the credit limit of Ant Credit Pay is automatically offered to users based on the knowledge learned from big data. However, default prediction for new users is suffered from lack of enough credit behaviors. It requires that the proposal should leverage other new data source to alleviate the cold-start problem. Considering the above challenges and the special scenario in Ant Financial, we try to incorporate default prediction with network information to alleviate the cold-start problem. In this paper, we propose an industrial-scale distributed network representation framework, termed NetDP, for default prediction in Ant Credit Pay. The proposal explores network information generated by various interaction between users, and blends unsupervised and supervised network representation in a unified framework for default prediction problem. Moreover, we present a parameter-server-based distributed implement of our proposal to handle the scalability challenge. Experimental results demonstrate the effectiveness of our proposal, especially in cold-start problem, as well as the efficiency for industrial-scale dataset.
翻訳日:2022-12-17 18:18:58 公開日:2020-04-01
# 特徴選択のための一般化OMPアルゴリズムと遺伝子発現データへの応用

A generalised OMP algorithm for feature selection with application to gene expression data ( http://arxiv.org/abs/2004.00281v1 )

ライセンス: Link先を確認
Michail Tsagris, Zacharias Papadovasilakis, Kleanthi Lakiotaki and Ioannis Tsamardinos(参考訳) 予測分析のための機能選択は、関心のある結果の最大予測となる機能の最小サイズのサブセットを特定する問題である。 分子データに適用するには、機能選択アルゴリズムを数万の機能にスケーラブルにする必要がある。 本稿では,複数方向の直交マッチング型特徴選択アルゴリズムの高スケール化であるgOMPを提案する。 (a)連続性、二項性、名目性、時間と時間などの異なる種類の結果 (b)異なる種類の予測モデル(例えば、線形最小二乗、ロジスティック回帰) (c)異なる種類の予測的特徴(連続的、カテゴリー的)、及び (d)異なる統計に基づく停止基準。 提案アルゴリズムを,高次元データに対して広範に使用されるアルゴリズムであるlassoと比較する。 多数のシミュレーションデータセット、および実際の遺伝子発現データセットでは、gOMPは、ケースコントロールバイナリ分類、定量化結果(回帰)、および(検閲された)生存時間(時間からイベント)分析においてLASSOより優れている。 gompには理論上の利点もいくつかある。 gOMPは、非常に単純で基本的な統計的概念に基づいており、実装や一般化が容易であるが、バイオインフォマティクス解析の設定にも非常に有効であることを示す。

Feature selection for predictive analytics is the problem of identifying a minimal-size subset of features that is maximally predictive of an outcome of interest. To apply to molecular data, feature selection algorithms need to be scalable to tens of thousands of available features. In this paper, we propose gOMP, a highly-scalable generalisation of the Orthogonal Matching Pursuit feature selection algorithm to several directions: (a) different types of outcomes, such as continuous, binary, nominal, and time-to-event, (b) different types of predictive models (e.g., linear least squares, logistic regression), (c) different types of predictive features (continuous, categorical), and (d) different, statistical-based stopping criteria. We compare the proposed algorithm against LASSO, a prototypical, widely used algorithm for high-dimensional data. On dozens of simulated datasets, as well as, real gene expression datasets, gOMP is on par, or outperforms LASSO for case-control binary classification, quantified outcomes (regression), and (censored) survival times (time-to-event) analysis. gOMP has also several theoretical advantages that are discussed. While gOMP is based on quite simple and basic statistical ideas, easy to implement and to generalize, we also show in an extensive evaluation that it is also quite effective in bioinformatics analysis settings.
翻訳日:2022-12-17 18:18:08 公開日:2020-04-01
# マルチアンテナシステムのブラインド変調分類に基づく時間周波数解析

Time-Frequency Analysis based Blind Modulation Classification for Multiple-Antenna Systems ( http://arxiv.org/abs/2004.00378v1 )

ライセンス: Link先を確認
Weiheng Jiang, Xiaogang Wu, Bolin Chen, Wenjiang Feng, Yi Jin(参考訳) ブラインド変調分類は、認知無線ネットワークを実装するための重要なステップである。 マルチインプット・マルチアウトプット(MIMO)技術は、軍事や民間の通信システムで広く使われている。 チャネルパラメータに関する事前情報やMIMOシステムにおける信号の重複のため、従来の可能性ベースおよび特徴ベースアプローチはこれらのシナリオに直接適用できない。 そこで本稿では,MIMOシステムにおけるブラインド変調分類の問題を解決するため,時間領域変調信号の時間周波数特性を分析するために,窓面ショートタイムフーリエ変換に基づく時間周波数解析手法を用いる。 そして、抽出した時間周波数特性をRGBスペクトログラム画像に変換し、転送学習に基づく畳み込みニューラルネットワークを適用して、RGBスペクトログラム画像に基づいて変調型を分類する。 最後に、決定融合モジュールを使用して、全ての受信アンテナの分類結果を融合する。 シミュレーションにより,snr(signal-to-noise ratio)の異なる分類性能を解析した結果,siso(single-input single-output)ネットワークでは,snrでは92.37%,snrでは99.12%,snrでは4dbと10dbで分類精度が向上した。 MIMOネットワークでは, 平均分類精度は80.42%, 87.92%, 平均分類精度は4dB, 10dBであった。 これは、ベースバンド信号に基づく既存の分類方法よりも優れている。

Blind modulation classification is an important step to implement cognitive radio networks. The multiple-input multiple-output (MIMO) technique is widely used in military and civil communication systems. Due to the lack of prior information about channel parameters and the overlapping of signals in the MIMO systems, the traditional likelihood-based and feature-based approaches cannot be applied in these scenarios directly. Hence, in this paper, to resolve the problem of blind modulation classification in MIMO systems, the time-frequency analysis method based on the windowed short-time Fourier transform is used to analyse the time-frequency characteristics of time-domain modulated signals. Then the extracted time-frequency characteristics are converted into RGB spectrogram images, and the convolutional neural network based on transfer learning is applied to classify the modulation types according to the RGB spectrogram images. Finally, a decision fusion module is used to fuse the classification results of all the receive antennas. Through simulations, we analyse the classification performance at different signal-to-noise ratios (SNRs), the results indicate that, for the single-input single-output (SISO) network, our proposed scheme can achieve 92.37% and 99.12% average classification accuracy at SNRs of -4 dB and 10 dB, respectively. For the MIMO network, our scheme achieves 80.42% and 87.92% average classification accuracy at -4 dB and 10 dB, respectively. This outperforms the existing classification methods based on baseband signals.
翻訳日:2022-12-17 18:17:48 公開日:2020-04-01
# 有限状態機械とリカレントニューラルネットワーク間の距離と等価性:計算結果

Distance and Equivalence between Finite State Machines and Recurrent Neural Networks: Computational results ( http://arxiv.org/abs/2004.00478v1 )

ライセンス: Link先を確認
Reda Marzouk and Colin de la Higuera(参考訳) ディープラーニング(DL)モデルを解釈する必要性は、過去数年間、この問題に関連する作業の急増につながっている。 DLモデルにおいて、情報がどのように内部的に表現されるかを示すことを目的とした戦略の中で、その振舞いをうまく近似するコネクショナリストモデルからシンボリックルールベースのマシンを抽出する。 これらの近似戦略がどの程度妥当かをよりよく理解するためには、近似の質を測る計算の複雑さを知る必要がある。 本稿では、訓練されたRNN言語モデルから有限状態マシン(FSM)ベースのモデルを抽出する問題に関連する計算結果について述べる。 より正確には、下記のとおりです。 a) 単一の隠蔽層とReLuアクティベーションを持つ一般的なRNN-LMの場合: - PDFA/PFA/WFAと重み付き一階RNN-LMの等価性問題は決定不能; - 概要として、PDFA/PFA/WFAと重み付きRNN-LMの言語間の距離問題は再帰的; - DFAと重み付きRNN-LMのカット言語との交点は決定不能; - PDFA/PFA/WFAと重み付きRNN-LMの有限サポートにおける等価性はEXP-Hard; (b) 計算可能な活性化関数を持つ一貫したウェイト RNN-LM に対して、 - チェベチェフ距離近似は決定可能である; - 有限支持におけるチェベチェフ距離近似は NP-Hard である。 さらに,本手法は, LSTM/RNN などの他の RNN アーキテクチャや, 有限精度の RNN にも適用可能である。

The need of interpreting Deep Learning (DL) models has led, during the past years, to a proliferation of works concerned by this issue. Among strategies which aim at shedding some light on how information is represented internally in DL models, one consists in extracting symbolic rule-based machines from connectionist models that are supposed to approximate well their behaviour. In order to better understand how reasonable these approximation strategies are, we need to know the computational complexity of measuring the quality of approximation. In this article, we will prove some computational results related to the problem of extracting Finite State Machine (FSM) based models from trained RNN Language models. More precisely, we'll show the following: (a) For general weighted RNN-LMs with a single hidden layer and a ReLu activation: - The equivalence problem of a PDFA/PFA/WFA and a weighted first-order RNN-LM is undecidable; - As a corollary, the distance problem between languages generated by PDFA/PFA/WFA and that of a weighted RNN-LM is not recursive; -The intersection between a DFA and the cut language of a weighted RNN-LM is undecidable; - The equivalence of a PDFA/PFA/WFA and weighted RNN-LM in a finite support is EXP-Hard; (b) For consistent weight RNN-LMs with any computable activation function: - The Tcheybechev distance approximation is decidable; - The Tcheybechev distance approximation in a finite support is NP-Hard. Moreover, our reduction technique from 3-SAT makes this latter fact easily generalizable to other RNN architectures (e.g. LSTMs/RNNs), and RNNs with finite precision.
翻訳日:2022-12-17 18:11:19 公開日:2020-04-01
# 学習を伴わないディープネットワークを用いた迷路内の経路生成

Generation of Paths in a Maze using a Deep Network without Learning ( http://arxiv.org/abs/2004.00540v1 )

ライセンス: Link先を確認
Tomas Kulvicius, Sebastian Herzog, Minija Tamosiunaite and Florentin W\"org\"otter(参考訳) トラジェクトリやパスプランニングは、幅広いアプリケーションにおいて基本的な問題である。 本稿では,複数の開始点と終了点の経路計画を最大プール層のみで構成されるネットワークで効率的に解くことが可能であり,ネットワークトレーニングは不要であることを示す。 競合するアプローチとは異なり、50億以上のノードを含む非常に大きな迷路は、密な障害設定と数千のパスエンドポイントを持つため、並列ハードウェア上で非常に短時間で解くことができる。

Trajectory- or path-planning is a fundamental issue in a wide variety of applications. Here we show that it is possible to solve path planning for multiple start- and end-points highly efficiently with a network that consists only of max pooling layers, for which no network training is needed. Different from competing approaches, very large mazes containing more than half a billion nodes with dense obstacle configuration and several thousand path end-points can this way be solved in very short time on parallel hardware.
翻訳日:2022-12-17 18:10:31 公開日:2020-04-01
# 動的モデル型推薦のためのマルチラベル学習

Multi-label learning for dynamic model type recommendation ( http://arxiv.org/abs/2004.00558v1 )

ライセンス: Link先を確認
Mariana A. Souza, Robert Sabourin, George D. C. Cavalcanti and Rafael M. O. Cruz(参考訳) 動的選択手法は、各テストサンプルの周辺、特にその分類を行うための地域の専門家を選ぶことを目的としている。 ローカルスコープで分類器を生成することで、オンラインローカルプール(OLP)技術のように、局所的な有能なものを歌い出すのが容易になるが、不均一な分布で同じベース分類器モデルを使用すると、各領域は、他の領域よりも1つのモデルを好むデータ分布を持つため、局所的な能力のレベルを制限することができる。 そこで本研究では,OLP手法における問題に依存しない動的ベースクラス化モデルの提案を提案する。 提案するフレームワークは,各テストサンプルを取り巻く領域の局所的データ複雑さに基づいて,関連するモデル型のセットを推奨するマルチラベルメタ分類器を構築する。 OLP手法は、メタ分類器の最高確率スコアを得るモデルを持つ局所プールを生成する。 実験の結果、異なるデータ分布は局所的な範囲で異なるモデルタイプを好んだ。 さらに、理想的なモデルタイプセレクタの性能に基づいて、テストインスタンスごとに関連するモデルタイプを選択することに明確な利点があることが観察された。 全体として,提案するモデル型レコメンダシステムは,固定ベース分類モデルを用いたオリジナルのolpと統計的に類似した性能を示した。 提案手法の斬新さと,提案するフレームワークと理想的なセレクタとの間の性能のギャップを考えると,これを有望な研究方向とみなす。 github.com/marianaasouza/dynamic-model-recommenderで利用可能なコード。

Dynamic selection techniques aim at selecting the local experts around each test sample in particular for performing its classification. While generating the classifier on a local scope may make it easier for singling out the locally competent ones, as in the online local pool (OLP) technique, using the same base-classifier model in uneven distributions may restrict the local level of competence, since each region may have a data distribution that favors one model over the others. Thus, we propose in this work a problem-independent dynamic base-classifier model recommendation for the OLP technique, which uses information regarding the behavior of a portfolio of models over the samples of different problems to recommend one (or several) of them on a per-instance manner. Our proposed framework builds a multi-label meta-classifier responsible for recommending a set of relevant model types based on the local data complexity of the region surrounding each test sample. The OLP technique then produces a local pool with the model that yields the highest probability score of the meta-classifier. Experimental results show that different data distributions favored different model types on a local scope. Moreover, based on the performance of an ideal model type selector, it was observed that there is a clear advantage in choosing a relevant model type for each test instance. Overall, the proposed model type recommender system yielded a statistically similar performance to the original OLP with fixed base-classifier model. Given the novelty of the approach and the gap in performance between the proposed framework and the ideal selector, we regard this as a promising research direction. Code available at github.com/marianaasouza/dynamic-model-recommender.
翻訳日:2022-12-17 18:10:24 公開日:2020-04-01
# 完全畳み込みニューラルネットワークを用いたマルチエージェントシステムのワンショット経路計画

One-shot path planning for multi-agent systems using fully convolutional neural network ( http://arxiv.org/abs/2004.00568v1 )

ライセンス: Link先を確認
Tomas Kulvicius, Sebastian Herzog, Timo L\"uddecke, Minija Tamosiunaite and Florentin W\"org\"otter(参考訳) 経路計画は、行動が実行される前に、特定の行動の経路や動きの軌跡を定義する必要があるため、ロボットの行動実行において重要な役割を果たす。 現在のアプローチのほとんどは、現在の状態に基づいて次の状態を予測して軌道を反復的に生成する反復的手法である。 さらに、マルチエージェントシステムの場合、各エージェントに対して個別にパスを計画する。 それとは対照的に,1回の予測ステップで複数のエージェント,すなわち1つのエージェントに対しても完全なパス生成を可能にする,完全畳み込みニューラルネットワークを用いた新しい手法を提案する。 本手法は,単一経路予測の場合の98\%以上において最適経路あるいは最適経路に近い経路を効果的に生成できることを実証する。 さらに、ネットワークはマルチパス計画においてトレーニングされていないが、2つのパスを生成する場合の85.7\%と65.4\%で最適な経路または近い経路を生成することが可能であることを示す。

Path planning plays a crucial role in robot action execution, since a path or a motion trajectory for a particular action has to be defined first before the action can be executed. Most of the current approaches are iterative methods where the trajectory is generated iteratively by predicting the next state based on the current state. Moreover, in case of multi-agent systems, paths are planned for each agent separately. In contrast to that, we propose a novel method by utilising fully convolutional neural network, which allows generation of complete paths, even for more than one agent, in one-shot, i.e., with a single prediction step. We demonstrate that our method is able to successfully generate optimal or close to optimal paths in more than 98\% of the cases for single path predictions. Moreover, we show that although the network has never been trained on multi-path planning it is also able to generate optimal or close to optimal paths in 85.7\% and 65.4\% of the cases when generating two and three paths, respectively.
翻訳日:2022-12-17 18:09:55 公開日:2020-04-01
# 3次元超音波によるランドマーク検出のためのグラフ優先とIoUベース損失付き領域提案ネットワーク

Region Proposal Network with Graph Prior and IoU-Balance Loss for Landmark Detection in 3D Ultrasound ( http://arxiv.org/abs/2004.00207v1 )

ライセンス: Link先を確認
Chaoyu Chen, Xin Yang, Ruobing Huang, Wenlong Shi, Shengfeng Liu, Mingrong Lin, Yuhao Huang, Yong Yang, Yuanji Zhang, Huanjia Luo, Yankai Huang, Yi Xiong, Dong Ni(参考訳) 3d超音波(us)は胎児発育モニタリングのための詳細な出生前検査を容易にする。 3DUSボリュームを解析するためには、評価された臓器の解剖学的ランドマークを正確に同定することが基本である。 典型的なディープラーニング手法は、座標を直接回帰するか、ヒートマップマッチングを含む。 しかし、これらの方法は、大きな大きさの体積や、胎児の位置や方向の高度化に苦しむ。 本研究では,3次元顔USボリュームのランドマークを検出するために,物体検出フレームワークを利用する。 ランドマーク中心のバウンディングボックス(Bボックス)の複数のパラメータを厳格な基準で回帰することにより、提案モデルはターゲットのランドマークの正確な位置を特定できる。 具体的には、3D領域提案ネットワーク(RPN)を用いて3D候補領域を生成し、次に複数の3D分類枝で最適な候補を選択する。 また、学習プロセスの恩恵を受けるブランチ間のコミュニケーションを改善するために、IoUバランスの損失も採用している。 さらに、トレーニングを正則化する前に距離ベースのグラフを活用し、偽陽性の予測を減らすのに役立つ。 提案フレームワークの性能を3DUSデータセットで評価し,5つの重要な胎児の顔のランドマークを検出する。 その結果,提案手法は最先端手法の有効性と効率を上回っていることがわかった。

3D ultrasound (US) can facilitate detailed prenatal examinations for fetal growth monitoring. To analyze a 3D US volume, it is fundamental to identify anatomical landmarks of the evaluated organs accurately. Typical deep learning methods usually regress the coordinates directly or involve heatmap-matching. However, these methods struggle to deal with volumes with large sizes and the highly-varying positions and orientations of fetuses. In this work, we exploit an object detection framework to detect landmarks in 3D fetal facial US volumes. By regressing multiple parameters of the landmark-centered bounding box (B-box) with a strict criteria, the proposed model is able to pinpoint the exact location of the targeted landmarks. Specifically, the model uses a 3D region proposal network (RPN) to generate 3D candidate regions, followed by several 3D classification branches to select the best candidate. It also adopts an IoU-balance loss to improve communications between branches that benefits the learning process. Furthermore, it leverages a distance-based graph prior to regularize the training and helps to reduce false positive predictions. The performance of the proposed framework is evaluated on a 3D US dataset to detect five key fetal facial landmarks. Results showed the proposed method outperforms some of the state-of-the-art methods in efficacy and efficiency.
翻訳日:2022-12-17 18:09:10 公開日:2020-04-01
# クラス増分学習のための意味的ドリフト補償

Semantic Drift Compensation for Class-Incremental Learning ( http://arxiv.org/abs/2004.00440v1 )

ライセンス: Link先を確認
Lu Yu, Bart{\l}omiej Twardowski, Xialei Liu, Luis Herranz, Kai Wang, Yongmei Cheng, Shangling Jui, Joost van de Weijer(参考訳) ディープネットワークのクラス増分学習は、分類対象のクラス数を順次増加させる。 トレーニング中、ネットワークは一度に1つのタスクのデータのみにアクセスでき、各タスクには複数のクラスが含まれている。 この設定では、ネットワークは過去のタスクにおけるパフォーマンスの劇的な低下を意味する壊滅的な忘れに苦しむ。 大部分の方法がこのシナリオを分類ネットワークで研究しており、新しいタスクごとにネットワークの分類層を新たに追加されたクラスに余地を与えるために追加の重み付けを加える必要がある。 埋め込みネットワークは、新しい重みを加えることなく、自然に新しいクラスをネットワークに組み込むことができるという利点がある。 そこで,組込みネットワークにおけるインクリメンタル学習について検討する。 さらに,特徴のセマンティックドリフト(セマンティックドリフト)と呼ばれるドリフトを推定し,その補正を行う新しい手法を提案する。 現在のタスクデータで経験したドリフトに基づいて,前回のタスクのドリフトを近似する。 細粒度データセットCIFAR100とImageNet-Subsetの実験を行った。 我々は,組込みネットワークが壊滅的な忘れに苦しむことを実証する。 我々は,模範を記憶する手法と比較して,模範を必要とせず,競争力のある結果が得られる既存手法より優れている。 さらに,提案するsdcと既存手法を組み合わせることで,結果が一貫して改善されることを防止できることを示す。

Class-incremental learning of deep networks sequentially increases the number of classes to be classified. During training, the network has only access to data of one task at a time, where each task contains several classes. In this setting, networks suffer from catastrophic forgetting which refers to the drastic drop in performance on previous tasks. The vast majority of methods have studied this scenario for classification networks, where for each new task the classification layer of the network must be augmented with additional weights to make room for the newly added classes. Embedding networks have the advantage that new classes can be naturally included into the network without adding new weights. Therefore, we study incremental learning for embedding networks. In addition, we propose a new method to estimate the drift, called semantic drift, of features and compensate for it without the need of any exemplars. We approximate the drift of previous tasks based on the drift that is experienced by current task data. We perform experiments on fine-grained datasets, CIFAR100 and ImageNet-Subset. We demonstrate that embedding networks suffer significantly less from catastrophic forgetting. We outperform existing methods which do not require exemplars and obtain competitive results compared to methods which store exemplars. Furthermore, we show that our proposed SDC when combined with existing methods to prevent forgetting consistently improves results.
翻訳日:2022-12-17 18:08:49 公開日:2020-04-01
# 属性オブジェクト合成における対称性とグループ

Symmetry and Group in Attribute-Object Compositions ( http://arxiv.org/abs/2004.00587v1 )

ライセンス: Link先を確認
Yong-Lu Li, Yue Xu, Xiaohan Mao, Cewu Lu(参考訳) 属性とオブジェクトは多様な構成を構成できる。 これらの一般的な概念の構成的性質をモデル化するには、カップリングやデカップリングといった変換を通じてそれらを学ぶのがよい選択です。 しかし、複雑な変換は合理性を保証するために特定の原則を満たす必要がある。 本稿では,属性-オブジェクト変換の原理である対称性を最初に提案する。 例えば、ピールされたアップルと属性のピールを結合すると、ピールされたアップルになるでしょう。 対称性の原理を取り入れ、群論にインスパイアされた変換フレームワーク、すなわちSymNetが構築される。 SymNet は Coupling Network と Decoupling Network の2つのモジュールで構成されている。 グループ公理と対称性特性を目的として,SymNetの実装にDeep Neural Networksを採用し,エンドツーエンドのパラダイムでトレーニングする。 さらに,属性パターン自体ではなく属性変化を利用して属性を分類する相対移動距離(RMD)に基づく認識手法を提案する。 我々の対称性学習は、コンポジションゼロショット学習タスクに利用することができ、広く使用されているベンチマークで最先端の性能を発揮する。 コードはhttps://github.com/DirtyHarryLYL/SymNetで入手できる。

Attributes and objects can compose diverse compositions. To model the compositional nature of these general concepts, it is a good choice to learn them through transformations, such as coupling and decoupling. However, complex transformations need to satisfy specific principles to guarantee the rationality. In this paper, we first propose a previously ignored principle of attribute-object transformation: Symmetry. For example, coupling peeled-apple with attribute peeled should result in peeled-apple, and decoupling peeled from apple should still output apple. Incorporating the symmetry principle, a transformation framework inspired by group theory is built, i.e. SymNet. SymNet consists of two modules, Coupling Network and Decoupling Network. With the group axioms and symmetry property as objectives, we adopt Deep Neural Networks to implement SymNet and train it in an end-to-end paradigm. Moreover, we propose a Relative Moving Distance (RMD) based recognition method to utilize the attribute change instead of the attribute pattern itself to classify attributes. Our symmetry learning can be utilized for the Compositional Zero-Shot Learning task and outperforms the state-of-the-art on widely-used benchmarks. Code is available at https://github.com/DirtyHarryLYL/SymNet.
翻訳日:2022-12-17 18:08:28 公開日:2020-04-01
# 集約ラベルからの極端多重ラベル分類

Extreme Multi-label Classification from Aggregated Labels ( http://arxiv.org/abs/2004.00198v1 )

ライセンス: Link先を確認
Yanyao Shen, Hsiang-fu Yu, Sujay Sanghavi, Inderjit Dhillon(参考訳) 極端多重ラベル分類 (extreme multi-label classification, xmc) は、可能なラベルの非常に大きな宇宙から、入力の関連するラベルを見つける問題である。 xmcは、サンプルのグループのみにラベルを利用できるが、個々のグループにはない設定だと考えています。 現在のXMCアプローチは、Multi-instance Multi-label(MIML)トレーニングデータに対して構築されておらず、MIMLアプローチはXMCサイズにスケールしない。 我々は,グループラベルから個々のサンプルラベルをインプットする,新しいスケーラブルなアルゴリズムを開発した。 軽度仮定下でのアルゴリズムの統計的特性を特徴付け,mimlの新たなエンドツーエンドフレームワークを拡張として提供する。 XMCタスクとMIMLタスクを集約した実験は、既存のアプローチよりも優れていることを示す。

Extreme multi-label classification (XMC) is the problem of finding the relevant labels for an input, from a very large universe of possible labels. We consider XMC in the setting where labels are available only for groups of samples - but not for individual ones. Current XMC approaches are not built for such multi-instance multi-label (MIML) training data, and MIML approaches do not scale to XMC sizes. We develop a new and scalable algorithm to impute individual-sample labels from the group labels; this can be paired with any existing XMC method to solve the aggregated label problem. We characterize the statistical properties of our algorithm under mild assumptions, and provide a new end-to-end framework for MIML as an extension. Experiments on both aggregated label XMC and MIML tasks show the advantages over existing approaches.
翻訳日:2022-12-17 18:01:44 公開日:2020-04-01
# 特徴抽出と一般化における深部ReLUネットの深さ選択

Depth Selection for Deep ReLU Nets in Feature Extraction and Generalization ( http://arxiv.org/abs/2004.00245v1 )

ライセンス: Link先を確認
Zhi Han, Siquan Yu, Shao-Bo Lin, Ding-Xuan Zhou(参考訳) 深層学習は、人間の創発性や事前知識を活用することによって、エレガントな特徴工学技術を必要とすることなく、表現学習とパターン認識の深い特徴を発見することができると認識されている。 これにより、機械学習とパターン認識における膨大な研究活動が引き起こされた。 深層学習における最も重要な課題の1つは、特徴と深層ニューラルネットワーク(略して深層ネット)の深さの関係を解明し、深層の必要性を反映させることである。 本研究の目的は,特徴抽出と一般化における特徴量対応の定量化である。 単一特徴量と複合特徴量の両方を抽出する際の奥行きパラメータトレードオフを示すことにより,特徴量の深度と逆方向への適応性を示す。 これらの結果から,従来の経験的リスク最小化をディープネットに実装することで,多数の学習課題に対して最適な一般化性能が得られることを示す。 本理論は,おもちゃシミュレーションや地震震度予測の応用を含む一連の数値実験によって検証された。

Deep learning is recognized to be capable of discovering deep features for representation learning and pattern recognition without requiring elegant feature engineering techniques by taking advantage of human ingenuity and prior knowledge. Thus it has triggered enormous research activities in machine learning and pattern recognition. One of the most important challenge of deep learning is to figure out relations between a feature and the depth of deep neural networks (deep nets for short) to reflect the necessity of depth. Our purpose is to quantify this feature-depth correspondence in feature extraction and generalization. We present the adaptivity of features to depths and vice-verse via showing a depth-parameter trade-off in extracting both single feature and composite features. Based on these results, we prove that implementing the classical empirical risk minimization on deep nets can achieve the optimal generalization performance for numerous learning tasks. Our theoretical results are verified by a series of numerical experiments including toy simulations and a real application of earthquake seismic intensity prediction.
翻訳日:2022-12-17 18:01:29 公開日:2020-04-01
# 薬物障害グラフ:臨床データを用いたグラフニューラルネットワークによる副作用の予測

Drug-disease Graph: Predicting Adverse Drug Reaction Signals via Graph Neural Network with Clinical Data ( http://arxiv.org/abs/2004.00407v1 )

ライセンス: Link先を確認
Heeyoung Kwak, Minwoo Lee, Seunghyun Yoon, Jooyoung Chang, Sangmin Park, Kyomin Jung(参考訳) 副作用(adr)は世界中で大きな公衆衛生上の懸念である。 プリマーケティングフェーズにおけるADR予測のためのバイオメディカルグラフに多くのグラフベースの手法が適用されている。 市販後監視におけるADR検出は, 市販前評価に劣らず重要であり, 近年, 大規模臨床データによるADR検出が注目されている。 しかし、処方薬のペアであるadr信号を検出するための臨床データからのグラフ構造や、潜在的なadrとなる可能性のある診断についての研究はあまり多くない。 本研究では,医療クレームデータを用いたADR信号検出のための新しいグラフベースのフレームワークを開発する。 医用コードを表すノードを持つ薬物放出グラフを構築した。 エッジは2つのコード間の関係として与えられ、データを使って計算される。 そこで我々は,Side Effect Resourceデータベースのラベルを用いて,ADR信号の予測にグラフニューラルネットワークを適用した。 このモデルでは、他のアルゴリズムと比較して0.795と0.775のAUROCとAUPRCの性能が改善されており、それらの関係を表すノード表現をうまく学習している。 さらに,既存のADRデータベースには存在しないADRペアを予測し,ADRデータベースを補完する機能を示す。

Adverse Drug Reaction (ADR) is a significant public health concern world-wide. Numerous graph-based methods have been applied to biomedical graphs for predicting ADRs in pre-marketing phases. ADR detection in post-market surveillance is no less important than pre-marketing assessment, and ADR detection with large-scale clinical data have attracted much attention in recent years. However, there are not many studies considering graph structures from clinical data for detecting an ADR signal, which is a pair of a prescription and a diagnosis that might be a potential ADR. In this study, we develop a novel graph-based framework for ADR signal detection using healthcare claims data. We construct a Drug-disease graph with nodes representing the medical codes. The edges are given as the relationships between two codes, computed using the data. We apply Graph Neural Network to predict ADR signals, using labels from the Side Effect Resource database. The model shows improved AUROC and AUPRC performance of 0.795 and 0.775, compared to other algorithms, showing that it successfully learns node representations expressive of those relationships. Furthermore, our model predicts ADR pairs that do not exist in the established ADR database, showing its capability to supplement the ADR database.
翻訳日:2022-12-17 18:00:32 公開日:2020-04-01
# 不定時系列における異常検出:最新技術に関する調査

Anomaly Detection in Univariate Time-series: A Survey on the State-of-the-Art ( http://arxiv.org/abs/2004.00433v1 )

ライセンス: Link先を確認
Mohammad Braei and Sebastian Wagner(参考訳) 時系列データの異常検出は,長年にわたって重要な研究分野であった。 異常検出法に関する精巧な研究は統計的アプローチに焦点が当てられている。 近年,時系列の異常を検出する機械学習アルゴリズムが開発されている。 その後、研究者たちは(深い)ニューラルネットワークを使ってこれらの技術を改善しようとした。 異常検出法の増加に照らして、統計学、機械学習、深層学習法の広範な比較評価を欠いている。 本報告では,全3カテゴリから20種類の一変量異常検出手法について検討する。 評価は公開データセット上で行われ、時系列異常検出のベンチマークとして機能する。 アルゴリズムの計算時間だけでなく各手法の精度を解析することにより、特定の種類のデータにどの手法が適合するかという一般的な概念とともに、これらの異常検出手法の性能に関する詳細な洞察を提供する。

Anomaly detection for time-series data has been an important research field for a long time. Seminal work on anomaly detection methods has been focussing on statistical approaches. In recent years an increasing number of machine learning algorithms have been developed to detect anomalies on time-series. Subsequently, researchers tried to improve these techniques using (deep) neural networks. In the light of the increasing number of anomaly detection methods, the body of research lacks a broad comparative evaluation of statistical, machine learning and deep learning methods. This paper studies 20 univariate anomaly detection methods from the all three categories. The evaluation is conducted on publicly available datasets, which serve as benchmarks for time-series anomaly detection. By analyzing the accuracy of each method as well as the computation time of the algorithms, we provide a thorough insight about the performance of these anomaly detection approaches, alongside some general notion of which method is suited for a certain type of data.
翻訳日:2022-12-17 18:00:13 公開日:2020-04-01
# 回帰問題における概念ドリフトの扱い -- 誤差交叉アプローチ

Handling Concept Drifts in Regression Problems -- the Error Intersection Approach ( http://arxiv.org/abs/2004.00438v1 )

ライセンス: Link先を確認
Lucas Baier (1), Marcel Hofmann (2), Niklas K\"uhl (1), Marisa Mohr (2 and 3) and Gerhard Satzger (1) ((1) Karlsruhe Institute of Technology, Karlsruhe, Germany, (2) inovex GmbH, Karlsruhe, Germany (3) University of L\"ubeck, L\"ubeck, Germany)(参考訳) 機械学習モデルは、ビッグデータの予測に最適である。 デプロイされたモデルの課題のひとつは、時間とともにデータを変更することだ。 正しく扱わなければ、概念のドリフトは重大な誤予測につながる可能性がある。 本稿では, 回帰タスクに対する単純な機械学習モデルと複雑な機械学習モデルの適用を切り替える戦略を記述した, コンセプトドリフトハンドリングのための新しいアプローチについて検討する。 提案手法は各モデルの個々の強みを生かし,ドリフトが発生するとより単純なモデルに切り換え,典型的な状況では複雑なモデルに切り換える。 ニューヨーク市のタクシー需要の現実的なデータセットに対するアプローチをインスタンス化し、ブリュザードの気象現象など複数のドリフトが発生しやすいため、突然タクシー需要が減少する。 提案したアプローチがベースラインを著しく上回ることを示すことができます。

Machine learning models are omnipresent for predictions on big data. One challenge of deployed models is the change of the data over time, a phenomenon called concept drift. If not handled correctly, a concept drift can lead to significant mispredictions. We explore a novel approach for concept drift handling, which depicts a strategy to switch between the application of simple and complex machine learning models for regression tasks. We assume that the approach plays out the individual strengths of each model, switching to the simpler model if a drift occurs and switching back to the complex model for typical situations. We instantiate the approach on a real-world data set of taxi demand in New York City, which is prone to multiple drifts, e.g. the weather phenomena of blizzards, resulting in a sudden decrease of taxi demand. We are able to show that our suggested approach outperforms all regarded baselines significantly.
翻訳日:2022-12-17 17:59:59 公開日:2020-04-01
# ディープトランスフォーメーションモデル:ニューラルネットワークに基づくトランスフォーメーションモデルによる複雑な回帰問題に取り組む

Deep transformation models: Tackling complex regression problems with neural network based transformation models ( http://arxiv.org/abs/2004.00464v1 )

ライセンス: Link先を確認
Beate Sick, Torsten Hothorn, Oliver D\"urr(参考訳) 確率回帰のための深層変換モデルを提案する。 深層学習は複雑なデータに対する顕著な精度の予測で知られているが、回帰タスクでは、1つの数だけを予測するために主に使用される。 これはほとんどのタスクの非決定論的特徴を無視します。 特に重要な決定が医学的応用のように予測に基づいている場合は、予測の不確かさを定量化することが不可欠である。 提案したディープラーニング変換モデルは、結果の不確実性を捉える最も徹底的な方法である条件付き確率分布全体を推定する。 統計的変換モデル(おそらくは変換)のアイデアと、ディープラーニング(正規化フロー)の最近の変換モデルを組み合わせて、複雑な結果分布を予測する。 この手法のコアはパラメータ化変換関数であり、勾配降下を用いて通常の最大度フレームワークで訓練することができる。 この手法は既存のディープラーニングアーキテクチャと組み合わせることができる。 小規模機械学習ベンチマークデータセットの場合、ほとんどのデータセットにおけるアートパフォーマンスの状態を報告し、その性能を部分的に上回っています。 本手法は,画像データにcnnアーキテクチャを用いることにより,複雑な入力データに対して動作する。

We present a deep transformation model for probabilistic regression. Deep learning is known for outstandingly accurate predictions on complex data but in regression tasks, it is predominantly used to just predict a single number. This ignores the non-deterministic character of most tasks. Especially if crucial decisions are based on the predictions, like in medical applications, it is essential to quantify the prediction uncertainty. The presented deep learning transformation model estimates the whole conditional probability distribution, which is the most thorough way to capture uncertainty about the outcome. We combine ideas from a statistical transformation model (most likely transformation) with recent transformation models from deep learning (normalizing flows) to predict complex outcome distributions. The core of the method is a parameterized transformation function which can be trained with the usual maximum likelihood framework using gradient descent. The method can be combined with existing deep learning architectures. For small machine learning benchmark datasets, we report state of the art performance for most dataset and partly even outperform it. Our method works for complex input data, which we demonstrate by employing a CNN architecture on image data.
翻訳日:2022-12-17 17:59:45 公開日:2020-04-01
# 深度, 位置, 外観を考慮した物体中心画像生成

Object-Centric Image Generation with Factored Depths, Locations, and Appearances ( http://arxiv.org/abs/2004.00642v1 )

ライセンス: Link先を確認
Titas Anciukevicius, Christoph H. Lampert, Paul Henderson(参考訳) 我々は,画像の生成モデルを示し,それらが示す対象の集合を明示的に理由付けする。 我々のモデルは、対象を互いに背景から分離する構造化された潜在表現を学習し、従来の作品とは異なり、各対象の2次元位置と深さを明示的に表現し、また、そのセグメンテーションマスクと外観を埋め込みます。 モデルは、オブジェクトマスクや深度情報を必要とせずに、純粋に教師なしの方法で画像からトレーニングすることができる。 さらに、トレーニング画像のかなりの部分が閉塞を含むにもかかわらず、常に完全なオブジェクトを生成する。 最後に,本モデルは,奥行き順序の正確な予測やオクルード部分のセグメンテーションを含む,新しい画像の分解をその構成対象に推定できることを示す。

We present a generative model of images that explicitly reasons over the set of objects they show. Our model learns a structured latent representation that separates objects from each other and from the background; unlike prior works, it explicitly represents the 2D position and depth of each object, as well as an embedding of its segmentation mask and appearance. The model can be trained from images alone in a purely unsupervised fashion without the need for object masks or depth information. Moreover, it always generates complete objects, even though a significant fraction of training images contain occlusions. Finally, we show that our model can infer decompositions of novel images into their constituent objects, including accurate prediction of depth ordering and segmentation of occluded parts.
翻訳日:2022-12-17 17:53:52 公開日:2020-04-01
# 類似した無線カプセル内視鏡画像のスクリーニングにおける視覚的サルエント領域の構造的類似性解析と階層的クラスタリングの応用

Application of Structural Similarity Analysis of Visually Salient Areas and Hierarchical Clustering in the Screening of Similar Wireless Capsule Endoscopic Images ( http://arxiv.org/abs/2004.02805v1 )

ライセンス: Link先を確認
Rui Nie (2), Huan Yang (1), Hejuan Peng (2), Wenbin Luo (2), Weiya Fan (2), Jie Zhang (2), Jing Liao (2), Fang Huang (2), Yufeng Xiao (1) ((1) Depatment of Gastroenterology, Second Affiliated Hospital, Army Medical University (Third Military Medical University), Chongqing, China. (2) Chongqing Jinshan Science & Technology (Group) Co., Ltd., Chongqing, China.)(参考訳) 小腸内腔内視鏡は小腸病変の検査の主流であるが,1回の小腸内腔内視鏡では6万~12万の画像が生成される。 医師がこれらの画像から病変を識別するのに2~3時間かかる。 このことは誤診の可能性を増大させ,医師が長期にわたって類似した画像に焦点を合わせながら視覚疲労を経験しがちなことから,構造的類似性分析と視覚的に有意なサブイメージブロックの階層的クラスタリングに基づく類似したワイヤレスカプセル内視鏡(WCE)画像スクリーニング手法を提案する。 画像の類似性クラスタリングは画像の色相,彩度,値 (HSV) の空間色特性に基づいて階層的クラスタリングによって自動的に識別され, キーフレーム画像は視覚的に有意なサブイメージブロックの構造的類似性に基づいて抽出され, 同様の小さな腸内膜内視鏡像を正確に識別およびスクリーニングする。 提案手法をカプセル内視鏡撮影用ワークステーションに適用した。 17種類の小腸病変を被覆した52例からi型オモム小腸カプセル内視鏡で収集された全データから類似画像のスクリーニングを行った結果,病変のリコール率は100%,平均で76%であった。 同様の画像をチェックアウトし、OMOMイメージワークステーションの平均再生時間は18分であり、医師が画像を見る時間を大幅に短縮した。

Small intestinal capsule endoscopy is the mainstream method for inspecting small intestinal lesions,but a single small intestinal capsule endoscopy will produce 60,000 - 120,000 images, the majority of which are similar and have no diagnostic value. It takes 2 - 3 hours for doctors to identify lesions from these images. This is time-consuming and increase the probability of misdiagnosis and missed diagnosis since doctors are likely to experience visual fatigue while focusing on a large number of similar images for an extended period of time.In order to solve these problems, we proposed a similar wireless capsule endoscope (WCE) image screening method based on structural similarity analysis and the hierarchical clustering of visually salient sub-image blocks. The similarity clustering of images was automatically identified by hierarchical clustering based on the hue,saturation,value (HSV) spatial color characteristics of the images,and the keyframe images were extracted based on the structural similarity of the visually salient sub-image blocks, in order to accurately identify and screen out similar small intestinal capsule endoscopic images. Subsequently, the proposed method was applied to the capsule endoscope imaging workstation. After screening out similar images in the complete data gathered by the Type I OMOM Small Intestinal Capsule Endoscope from 52 cases covering 17 common types of small intestinal lesions, we obtained a lesion recall of 100% and an average similar image reduction ratio of 76%. With similar images screened out, the average play time of the OMOM image workstation was 18 minutes, which greatly reduced the time spent by doctors viewing the images.
翻訳日:2022-12-17 17:53:39 公開日:2020-04-01
# 最適輸送による回転の確率の同期化

Synchronizing Probability Measures on Rotations via Optimal Transport ( http://arxiv.org/abs/2004.00663v1 )

ライセンス: Link先を確認
Tolga Birdal, Michael Arbel, Umut \c{S}im\c{s}ekli, and Leonidas Guibas(参考訳) 測定値エッジとグラフを同期するための新しいパラダイムである$\textit{measure sync}$を導入する。 この問題を相対回転上の確率測度の空間におけるサイクル一貫性の最大化として定式化する。 特に、四元数のリーマン多様体上で定義される$\textit{conditional}$ 1 を同期させることにより、絶対配向の辺分布を推定することを目指す。 このような分布上のグラフの最適化は、SLAM、SfM、オブジェクトポーズ推定などの多くのコンピュータビジョンアプリケーションで生じる多重モード仮説、曖昧さ、不確かさの自然な処理を可能にする。 まず、この問題を古典的な回転グラフ同期の一般化として正式に定義し、この場合、頂点は回転上の確率測度を表す。 次にシンクホーン発散を用いて同期の質を測り、ワッサーシュタイン距離や極限の場合の平均差の最大値といった他の一般的な指標に還元する。 この問題を解決するために,非パラメトリックリーマン粒子最適化手法を提案する。 この問題は非凸であるが,最近提案されたスパース最適化手法に接続することで,特定の条件下での問題の特別な場合において,提案アルゴリズムがグローバル最適化に収束することを示す。 定性的かつ定量的な実験は、我々のアプローチの有効性を示し、同期の研究に新たな視点をもたらす。

We introduce a new paradigm, $\textit{measure synchronization}$, for synchronizing graphs with measure-valued edges. We formulate this problem as maximization of the cycle-consistency in the space of probability measures over relative rotations. In particular, we aim at estimating marginal distributions of absolute orientations by synchronizing the $\textit{conditional}$ ones, which are defined on the Riemannian manifold of quaternions. Such graph optimization on distributions-on-manifolds enables a natural treatment of multimodal hypotheses, ambiguities and uncertainties arising in many computer vision applications such as SLAM, SfM, and object pose estimation. We first formally define the problem as a generalization of the classical rotation graph synchronization, where in our case the vertices denote probability measures over rotations. We then measure the quality of the synchronization by using Sinkhorn divergences, which reduces to other popular metrics such as Wasserstein distance or the maximum mean discrepancy as limit cases. We propose a nonparametric Riemannian particle optimization approach to solve the problem. Even though the problem is non-convex, by drawing a connection to the recently proposed sparse optimization methods, we show that the proposed algorithm converges to the global optimum in a special case of the problem under certain conditions. Our qualitative and quantitative experiments show the validity of our approach and we bring in new perspectives to the study of synchronization.
翻訳日:2022-12-17 17:53:08 公開日:2020-04-01
# 動的構造的文法進化を伴うsfkit-learnパイプラインの進化

Evolution of Scikit-Learn Pipelines with Dynamic Structured Grammatical Evolution ( http://arxiv.org/abs/2004.00307v1 )

ライセンス: Link先を確認
Filipe Assun\c{c}\~ao, Nuno Louren\c{c}o, Bernardete Ribeiro, and Penousal Machado(参考訳) 機械学習(ML)モデルのデプロイは、データ前処理から機能の設計と抽出、MLアルゴリズムの選択とそのパラメータ化に至るまで、一連のシーケンシャルで相関したタスクを含む、困難で時間のかかる作業である。 このタスクは、機能の設計が多くの場合問題に特化しており、ドメインの専門知識を必要とするため、さらに困難である。 これらの制限を克服するために、Automated Machine Learning (AutoML)メソッドは、人間の介入がほとんど、あるいは全くなく、パイプラインの設計、すなわち、生データに適用しなければならないメソッドのシーケンスの選択を自動化する。 これらの手法は、非専門家ユーザーがmlを使用できる可能性があり、専門家ユーザーに考えられるようなソリューションを提供する。 特に、Scikit-Learn分類パイプラインの進化に動的構造化文法進化(DSGE)を適用する新しい文法ベースのフレームワークであるAutoML-DSGEについて述べる。 実験結果は,AutoML-DSGEと他の文法ベースのAutoMLフレームワークであるResilient ClassificationPipeline Evolution (RECIPE)を比較し,AutoML-DSGEが生成する分類パイプラインの平均性能がRECIPEの平均性能よりも常に優れていることを示す。

The deployment of Machine Learning (ML) models is a difficult and time-consuming job that comprises a series of sequential and correlated tasks that go from the data pre-processing, and the design and extraction of features, to the choice of the ML algorithm and its parameterisation. The task is even more challenging considering that the design of features is in many cases problem specific, and thus requires domain-expertise. To overcome these limitations Automated Machine Learning (AutoML) methods seek to automate, with few or no human-intervention, the design of pipelines, i.e., automate the selection of the sequence of methods that have to be applied to the raw data. These methods have the potential to enable non-expert users to use ML, and provide expert users with solutions that they would unlikely consider. In particular, this paper describes AutoML-DSGE - a novel grammar-based framework that adapts Dynamic Structured Grammatical Evolution (DSGE) to the evolution of Scikit-Learn classification pipelines. The experimental results include comparing AutoML-DSGE to another grammar-based AutoML framework, Resilient ClassificationPipeline Evolution (RECIPE), and show that the average performance of the classification pipelines generated by AutoML-DSGE is always superior to the average performance of RECIPE; the differences are statistically significant in 3 out of the 10 used datasets.
翻訳日:2022-12-17 17:52:48 公開日:2020-04-01
# 制約付き最適化によるフラクショナルディープニューラルネットワーク

Fractional Deep Neural Network via Constrained Optimization ( http://arxiv.org/abs/2004.00719v1 )

ライセンス: Link先を確認
Harbir Antil, Ratna Khatri, Rainald L\"ohner, and Deepanshu Verma(参考訳) 本稿では,ディープニューラルネットワーク(dnn)のための新たなアルゴリズムフレームワークを提案する。数学的に厳密な方法では,ネットワークに履歴(あるいはメモリ)を組み込むことで,すべてのレイヤが相互に接続されることを保証する。 この DNN は Fractional-DNN と呼ばれ、時間非線形常微分方程式 (ODE) における分数の時間差分化と見なすことができる。 学習問題は、その分数ODEを制約とする最小化問題である。 従来の DNN と ODE の類似性は,標準時間微分で現在までによく知られていることを強調する。 私たちの仕事の焦点は分数dnnです。 ラグランジュ的手法を用いて、後方伝播と設計方程式の導出を提供する。 分類問題に対するいくつかのデータセット上でネットワークをテストする。 Fractional-DNNは既存のDNNに対して様々な利点を提供している。 主な利点は、メモリ効果による消失する勾配問題に対する大幅な改善と、非滑らかな関数を近似するネットワークの能力による非滑らかなデータの処理の改善である。

This paper introduces a novel algorithmic framework for a deep neural network (DNN), which in a mathematically rigorous manner, allows us to incorporate history (or memory) into the network -- it ensures all layers are connected to one another. This DNN, called Fractional-DNN, can be viewed as a time-discretization of a fractional in time nonlinear ordinary differential equation (ODE). The learning problem then is a minimization problem subject to that fractional ODE as constraints. We emphasize that an analogy between the existing DNN and ODEs, with standard time derivative, is well-known by now. The focus of our work is the Fractional-DNN. Using the Lagrangian approach, we provide a derivation of the backward propagation and the design equations. We test our network on several datasets for classification problems. Fractional-DNN offers various advantages over the existing DNN. The key benefits are a significant improvement to the vanishing gradient issue due to the memory effect, and better handling of nonsmooth data due to the network's ability to approximate non-smooth functions.
翻訳日:2022-12-17 17:52:22 公開日:2020-04-01
# 画像テキストマッチングモデルによる地上画像のキャプション向上

More Grounded Image Captioning by Distilling Image-Text Matching Model ( http://arxiv.org/abs/2004.00390v1 )

ライセンス: Link先を確認
Yuanen Zhou, Meng Wang, Daqing Liu, Zhenzhen Hu, Hanwang Zhang(参考訳) 視覚的注意は、画像キャプションの性能を向上させるだけでなく、キャプションの合理性とモデルの透明性を定性的に測定する視覚的解釈としても機能する。 具体的には、キャプタが対応する単語を生成しながら、正しい対象に対して注意深い視線を固定できることを期待する。 この能力は接地画像キャプションとしても知られる。 しかし、既存の字幕の接地精度は満足のいくものではない。 キャプション品質を維持しつつ接地精度を向上させるため、単語領域のアライメントを強い監督力として収集する。 そこで本研究では,より接地的な画像キャプションのための効果的な知識蒸留法として,画像テキストマッチングモデル(SCAN \cite{lee2018stacked}): POS-SCANを提案する。 利点は2つあります。 1) 文及び画像が与えられた場合,POS-SCANは,SCANよりも正確にオブジェクトをグラウンドすることができる。 2)POS-SCANはキャプタの視覚的注意モジュールの単語領域アライメント規則化として機能する。 ベンチマーク実験の結果から,pos-scanを用いた従来の画像キャプションは,強い監督を伴わずにグラウンドング精度を大幅に向上できることを示す。 最後に、不必要な自己批判的シーケンストレーニング (scst) \cite{rennie_2017_cvpr} をグラウンドド画像キャプションの文脈で検討し、画像テキストマッチングスコアがよりグラウンドドキャプションの報酬となることを示した。

Visual attention not only improves the performance of image captioners, but also serves as a visual interpretation to qualitatively measure the caption rationality and model transparency. Specifically, we expect that a captioner can fix its attentive gaze on the correct objects while generating the corresponding words. This ability is also known as grounded image captioning. However, the grounding accuracy of existing captioners is far from satisfactory. To improve the grounding accuracy while retaining the captioning quality, it is expensive to collect the word-region alignment as strong supervision. To this end, we propose a Part-of-Speech (POS) enhanced image-text matching model (SCAN \cite{lee2018stacked}): POS-SCAN, as the effective knowledge distillation for more grounded image captioning. The benefits are two-fold: 1) given a sentence and an image, POS-SCAN can ground the objects more accurately than SCAN; 2) POS-SCAN serves as a word-region alignment regularization for the captioner's visual attention module. By showing benchmark experimental results, we demonstrate that conventional image captioners equipped with POS-SCAN can significantly improve the grounding accuracy without strong supervision. Last but not the least, we explore the indispensable Self-Critical Sequence Training (SCST) \cite{Rennie_2017_CVPR} in the context of grounded image captioning and show that the image-text matching score can serve as a reward for more grounded captioning \footnote{https://github.com/YuanEZhou/Grounded-Image-Captioning}.
翻訳日:2022-12-17 17:52:06 公開日:2020-04-01
# 句読点復元のための逆転置学習

Adversarial Transfer Learning for Punctuation Restoration ( http://arxiv.org/abs/2004.00248v1 )

ライセンス: Link先を確認
Jiangyan Yi, Jianhua Tao, Ye Bai, Zhengkun Tian, Cunhang Fan(参考訳) 従来の研究では,単語の埋め込みとPOSタグが句読解作業に役立つことが示されている。 しかし、2つの欠点がある。 1つは、単語埋め込みは一方向言語モデリングの目的によって事前訓練されていることである。 したがって、単語埋め込みは、左から右のコンテキスト情報のみを含む。 もう1つは、POSタグが外部POSタグによって提供されることです。 したがって、計算コストが増大し、誤った予測タグがデコード中の句読点の復元性能に影響する可能性がある。 本稿では,これらの問題に対処する逆転学習を提案する。 変圧器(BERT)モデルからの事前訓練された双方向エンコーダ表現を用いて、句読点モデルを初期化する。 このように、転送されたモデルパラメータは、左右の両方の表現を持つ。 さらに,句読点予測のためのタスク不変知識を学習するために,逆多タスク学習を導入する。 我々は、句読点予測タスクのトレーニングを支援するために追加のPOSタグタスクを使用します。 対人訓練を用いて、共有パラメータがタスク固有の情報を含むのを防止する。 句読点予測タスクを使用して、復号段階でマークを復元するだけです。 したがって、余分な計算をする必要はなく、POSタグから間違ったタグを導入する必要もない。 IWSLT2011データセットを用いて実験を行った。 その結果,POSタグ付けタスクからタスク不変知識を用いて,句読点予測モデルによりさらなる性能向上が得られた。 我々の最良のモデルは、テストセットで最大9.2%の絶対的なF_1スコアでトレーニングされた以前の最先端モデルよりも優れています。

Previous studies demonstrate that word embeddings and part-of-speech (POS) tags are helpful for punctuation restoration tasks. However, two drawbacks still exist. One is that word embeddings are pre-trained by unidirectional language modeling objectives. Thus the word embeddings only contain left-to-right context information. The other is that POS tags are provided by an external POS tagger. So computation cost will be increased and incorrect predicted tags may affect the performance of restoring punctuation marks during decoding. This paper proposes adversarial transfer learning to address these problems. A pre-trained bidirectional encoder representations from transformers (BERT) model is used to initialize a punctuation model. Thus the transferred model parameters carry both left-to-right and right-to-left representations. Furthermore, adversarial multi-task learning is introduced to learn task invariant knowledge for punctuation prediction. We use an extra POS tagging task to help the training of the punctuation predicting task. Adversarial training is utilized to prevent the shared parameters from containing task specific information. We only use the punctuation predicting task to restore marks during decoding stage. Therefore, it will not need extra computation and not introduce incorrect tags from the POS tagger. Experiments are conducted on IWSLT2011 datasets. The results demonstrate that the punctuation predicting models obtain further performance improvement with task invariant knowledge from the POS tagging task. Our best model outperforms the previous state-of-the-art model trained only with lexical features by up to 9.2% absolute overall F_1-score on test set.
翻訳日:2022-12-17 17:51:38 公開日:2020-04-01
# Igbo-English Machine Translation: 評価ベンチマーク

Igbo-English Machine Translation: An Evaluation Benchmark ( http://arxiv.org/abs/2004.00648v1 )

ライセンス: Link先を確認
Ignatius Ezeani, Paul Rayson, Ikechukwu Onyenwe, Chinedu Uchechukwu, Mark Hepple(参考訳) 研究者や実践者は、NLPツールや手法の限界を押し上げ、能力を高めているが、アフリカ言語の研究は遅れている。 英語、日本語、ドイツ語、フランス語、ロシア語、中国語など、リソースの豊富な言語に重点を置いている。 世界の7000言語のうち、アフリカ語を含む97%以上の言語は、NLPのリソースが乏しく、つまり、NLP研究のためのデータ、ツール、技術がほとんど、あるいは全くない。 例えば、2018年のACL、NAACL、EMNLP、COling、CoNLLの5つの主要なカンファレンスから抽出されたACLアンソロジーの全文の著者のうち、2965人中5人、0.19%のみがアフリカの機関に属している。 本稿では,ナイジェリアの3大言語のひとつであるIgboの標準機械翻訳ベンチマークデータセットの構築に向けた取り組みについて論じる。 イグボ語は全世界で5000万人以上が話しており、話者の50%以上がナイジェリア南東部に住んでいる。 Igboは低資源だが、音声タグ付けやダイアクリティカル修復など、IgboNLPの開発に向けた取り組みがいくつかある。

Although researchers and practitioners are pushing the boundaries and enhancing the capacities of NLP tools and methods, works on African languages are lagging. A lot of focus on well resourced languages such as English, Japanese, German, French, Russian, Mandarin Chinese etc. Over 97% of the world's 7000 languages, including African languages, are low resourced for NLP i.e. they have little or no data, tools, and techniques for NLP research. For instance, only 5 out of 2965, 0.19% authors of full text papers in the ACL Anthology extracted from the 5 major conferences in 2018 ACL, NAACL, EMNLP, COLING and CoNLL, are affiliated to African institutions. In this work, we discuss our effort toward building a standard machine translation benchmark dataset for Igbo, one of the 3 major Nigerian languages. Igbo is spoken by more than 50 million people globally with over 50% of the speakers are in southeastern Nigeria. Igbo is low resourced although there have been some efforts toward developing IgboNLP such as part of speech tagging and diacritic restoration
翻訳日:2022-12-17 17:51:19 公開日:2020-04-01
# DSTC8-AVSD:検索型ワードジェネレータを用いたマルチモーダルセマンティックトランスネットワーク

DSTC8-AVSD: Multimodal Semantic Transformer Network with Retrieval Style Word Generator ( http://arxiv.org/abs/2004.08299v1 )

ライセンス: Link先を確認
Hwanhee Lee, Seunghyun Yoon, Franck Dernoncourt, Doo Soon Kim, Trung Bui and Kyomin Jung(参考訳) オーディオ・ビジュアル・シーン・アウェア・ダイアログ(AVSD)は、あるシーン、ビデオ、オーディオ、ダイアログの前のターン履歴で質問に対する応答を生成するタスクである。 このタスクの既存のシステムは、エンコーダ-デコーダフレームワークでトランスフォーマーまたはリカレントニューラルネットワークベースのアーキテクチャを使用している。 これらのテクニックは、このタスクに優れたパフォーマンスを示すが、大きな制限がある。モデルは、文法パターンを記憶するためにのみ、容易に過剰に適合する。 この問題を解決するために,マルチモーダル意味変換ネットワークを提案する。 トランスフォーマーベースのアーキテクチャとアテンションベースの単語埋め込み層を採用し、単語埋め込みをクエリすることで単語を生成する。 この設計により、我々のモデルは生成段階における単語の意味を考慮し続けている。 実験結果から,AVSDタスクにおける従来の作業の多くを上回り,提案モデルが優れていることを示す。

Audio Visual Scene-aware Dialog (AVSD) is the task of generating a response for a question with a given scene, video, audio, and the history of previous turns in the dialog. Existing systems for this task employ the transformers or recurrent neural network-based architecture with the encoder-decoder framework. Even though these techniques show superior performance for this task, they have significant limitations: the model easily overfits only to memorize the grammatical patterns; the model follows the prior distribution of the vocabularies in a dataset. To alleviate the problems, we propose a Multimodal Semantic Transformer Network. It employs a transformer-based architecture with an attention-based word embedding layer that generates words by querying word embeddings. With this design, our model keeps considering the meaning of the words at the generation stage. The empirical results demonstrate the superiority of our proposed model that outperforms most of the previous works for the AVSD task.
翻訳日:2022-12-17 17:50:57 公開日:2020-04-01
# オントロジーに基づくテキストデータの解釈型機械学習

Ontology-based Interpretable Machine Learning for Textual Data ( http://arxiv.org/abs/2004.00204v1 )

ライセンス: Link先を確認
Phung Lai, NhatHai Phan, Han Hu, Anuja Badeti, David Newman, Dejing Dou(参考訳) 本稿では,オントロジーに基づくサンプリング手法を用いて解釈可能なモデルを学習し,未知の予測モデルを説明する新しい解釈フレームワークを提案する。 既存の手法と異なり,本アルゴリズムはドメイン知識オントロジーに記述された単語間の文脈的相関を考慮し,意味的説明を生成する。 長く複雑なテキストデータの大きな問題である説明のための検索空間を狭めるために,学習可能なアンカーアルゴリズムを設計し,説明を局所的に抽出する。 さらに、学習された解釈可能な表現とアンカーを組み合わせることで理解可能な意味的説明を生成する一連の規則が導入された。 2つの実世界のデータセットに対して行われた広範な実験により、我々のアプローチはベースラインアプローチよりも正確で洞察に富んだ説明を生成する。

In this paper, we introduce a novel interpreting framework that learns an interpretable model based on an ontology-based sampling technique to explain agnostic prediction models. Different from existing approaches, our algorithm considers contextual correlation among words, described in domain knowledge ontologies, to generate semantic explanations. To narrow down the search space for explanations, which is a major problem of long and complicated text data, we design a learnable anchor algorithm, to better extract explanations locally. A set of regulations is further introduced, regarding combining learned interpretable representations with anchors to generate comprehensible semantic explanations. An extensive experiment conducted on two real-world datasets shows that our approach generates more precise and insightful explanations compared with baseline approaches.
翻訳日:2022-12-17 17:43:37 公開日:2020-04-01
# 準最適デモからスパース逆転課題を学習する

Learning Sparse Rewarded Tasks from Sub-Optimal Demonstrations ( http://arxiv.org/abs/2004.00530v1 )

ライセンス: Link先を確認
Zhuangdi Zhu, Kaixiang Lin, Bo Dai, and Jiayu Zhou(参考訳) モデルフリー深部強化学習(RL)は多くの複雑な逐次決定問題においてその優位性を証明している。 しかし、高密度報酬と高サンプリング複雑度への強い依存は、これらの手法を現実のシナリオで広く採用することを妨げている。 一方で、模倣学習(il)は、既存の専門家のデモンストレーションを活用して、疎結合なタスクで効果的に学習する。 実際には、十分な量の専門家によるデモンストレーションの収集は違法にコストがかかり、デモの質は一般的に学習ポリシーのパフォーマンスを制限します。 本研究では,比較的難易度の高い報酬タスクに対して,限られた数の準最適実演のみを前提として,(ほぼ)最適性能を達成できる自己適応的模倣学習(SAIL)を提案する。 SAIL は IL と RL の利点を橋渡ししてサンプルの複雑さを大幅に減らし、超最適実験を効果的に活用し、実演性能を超える環境を効率的に探索する。 大規模な実験結果から、SAILはサンプル効率を大幅に向上するだけでなく、さまざまな連続制御タスクにおける最終的なパフォーマンスも向上することが示された。

Model-free deep reinforcement learning (RL) has demonstrated its superiority on many complex sequential decision-making problems. However, heavy dependence on dense rewards and high sample-complexity impedes the wide adoption of these methods in real-world scenarios. On the other hand, imitation learning (IL) learns effectively in sparse-rewarded tasks by leveraging the existing expert demonstrations. In practice, collecting a sufficient amount of expert demonstrations can be prohibitively expensive, and the quality of demonstrations typically limits the performance of the learning policy. In this work, we propose Self-Adaptive Imitation Learning (SAIL) that can achieve (near) optimal performance given only a limited number of sub-optimal demonstrations for highly challenging sparse reward tasks. SAIL bridges the advantages of IL and RL to reduce the sample complexity substantially, by effectively exploiting sup-optimal demonstrations and efficiently exploring the environment to surpass the demonstrated performance. Extensive empirical results show that not only does SAIL significantly improve the sample-efficiency but also leads to much better final performance across different continuous control tasks, comparing to the state-of-the-art.
翻訳日:2022-12-17 17:43:24 公開日:2020-04-01
# ファウショット分類のためのベースクラス選択学習

Learning to Select Base Classes for Few-shot Classification ( http://arxiv.org/abs/2004.00315v1 )

ライセンス: Link先を確認
Linjun Zhou, Peng Cui, Xu Jia, Shiqiang Yang, Qi Tian(参考訳) 近年,ショット学習が集中的な研究の注目を集めている。 提供されるベースクラスから新しいクラスへ学習したモデルを一般化する多くの手法が提案されているが、以前の研究ではベースクラスの選択方法や、異なるベースクラスが学習モデルの異なる一般化性能をもたらすかどうかが研究されていない。 本稿では,数ショットモデルの一般化性能を示す指標として,単純で効果的な類似度比を用いる。 次に、類似度比に対する部分モジュラー最適化問題として基底クラス選択問題を定式化する。 さらに、異なる最適化手法の最適化下限に関する理論的解析を行い、異なる実験環境において最も適切なアルゴリズムを同定することができる。 imagenet、caltech256、cub-200-2011に関する広範な実験は、提案手法がより良いベースデータセットの選択に有効であることを示している。

Few-shot learning has attracted intensive research attention in recent years. Many methods have been proposed to generalize a model learned from provided base classes to novel classes, but no previous work studies how to select base classes, or even whether different base classes will result in different generalization performance of the learned model. In this paper, we utilize a simple yet effective measure, the Similarity Ratio, as an indicator for the generalization performance of a few-shot model. We then formulate the base class selection problem as a submodular optimization problem over Similarity Ratio. We further provide theoretical analysis on the optimization lower bound of different optimization methods, which could be used to identify the most appropriate algorithm for different experimental settings. The extensive experiments on ImageNet, Caltech256 and CUB-200-2011 demonstrate that our proposed method is effective in selecting a better base dataset.
翻訳日:2022-12-17 17:41:57 公開日:2020-04-01