このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20201208となっている論文です。

PDF登録状況(公開日: 20201208)

TitleAuthorsAbstract論文公表日・翻訳日
# ダイヤモンド中のNV中心のロバスト全光シングルショット読み出し

Robust All-Optical Single-Shot Readout of NV Centers in Diamond ( http://arxiv.org/abs/2006.02938v2 )

ライセンス: Link先を確認
Dominik M. Irber, Francesco Poggiali, Fei Kong, Michael Kieschnick, Tobias L\"uhmann, Damian Kwiatkowski, Jan Meijer, Jiangfeng Du, Fazhan Shi, Friedemann Reinhard(参考訳) 単一実験繰り返しにおける量子ビット状態の高忠実な射影読み出しは、センシングと計算の様々な量子プロトコルの前提条件である。 シングルショットの読み出しは、固体量子ビットでは難しい。 ダイヤモンド中の窒素空洞(NV)中心では、低温での核記憶や共鳴励起を用いて実現されている。 これらの既存のアプローチには、厳格な実験的要求がある。 特に、入射光学やオールダイアモンドマイクロ光学のような高い効率の光子収集を必要とする。 低温環境における浅いNV中心の移植など、最も関連性の高い応用では、これらのツールは利用できない。 ここでは、光子コレクションが貧弱である場合でも(秒間10$^3$クリック以下)、単発の忠実性を実現する全光スピン読み出し方式を示す。 このスキームは、スピン依存共鳴励起とスピン-電荷変換を組み合わせることで、脆弱な電子スピン状態を安定な電荷状態にマッピングする。 この手法は, センシングとスケーラブルなnvベースの量子レジスタを必要とするため, 浅いnvセンタで動作できることを実証する。

High-fidelity projective readout of a qubit's state in a single experimental repetition is a prerequisite for various quantum protocols of sensing and computing. Achieving single-shot readout is challenging for solid-state qubits. For Nitrogen-Vacancy (NV) centers in diamond, it has been realized using nuclear memories or resonant excitation at cryogenic temperature. All of these existing approaches have stringent experimental demands. In particular, they require a high efficiency of photon collection, such as immersion optics or all-diamond micro-optics. For some of the most relevant applications, such as shallow implanted NV centers in a cryogenic environment, these tools are unavailable. Here we demonstrate an all-optical spin readout scheme that achieves single-shot fidelity even if photon collection is poor (delivering less than 10$^3$ clicks/second). The scheme is based on spin-dependent resonant excitation at cryogenic temperature combined with spin-to-charge conversion, mapping the fragile electron spin states to the stable charge states. We prove this technique to work on shallow implanted NV centers as they are required for sensing and scalable NV-based quantum registers.
翻訳日:2023-05-17 04:23:12 公開日:2020-12-08
# 共振4波混合に基づく量子周波数変換

Quantum frequency conversion based on resonant four-wave mixing ( http://arxiv.org/abs/2009.11021v2 )

ライセンス: Link先を確認
Chin-Yao Cheng, Jia-Juan Lee, Zi-Yu Liu, Jiun-Shiuan Shiu, and Yong-Fan Chen(参考訳) フォトニック量子情報科学における重要な技術である量子周波数変換(qfc)では、周波数変換された光子の量子特性は色以外の入力光子と同じでなければならない。 非線形光学では、変換された光子の量子状態が効果的に破壊されるのを防ぐため、共振条件から遠く離れた波動混合効果がQFCを実現するためにしばしば用いられる。 共鳴から遠く離れた条件下では、実験は通常、高効率なQFCを達成するために大きな非線形相互作用を生成するために強いポンプ光を必要とする。 しかし、強いポンプ光はしばしば自発的なラマン変換やパラメトリック変換によって追加のノイズ光子を生成する。 本稿では, 共振4波混合系に基づく別の効率の良いqfc方式について理論的に検討する。 電磁誘導透過(EIT)の影響により、この共振QFC方式は低光レベルの真空場ノイズを大幅に抑制することができ、変換された光子は入力光子の量子状態を高い忠実度で受け継ぐことができる。 我々の研究は、EITベースのQFCの変換効率が100%に近い場合、変換された光子の波動関数と二次分散は入力プローブ光子のほぼ同じであることを示した。

Quantum frequency conversion (QFC), a critical technology in photonic quantum information science, requires that the quantum characteristics of the frequency-converted photon must be the same as the input photon except for the color. In nonlinear optics, the wave mixing effect far away from the resonance condition is often used to realize QFC because it can prevent the vacuum field reservoir from destroying the quantum state of the converted photon effectively. Under conditions far away from resonance, experiments typically require strong pump light to generate large nonlinear interactions to achieve high-efficiency QFC. However, strong pump light often generates additional noise photons through spontaneous Raman or parametric conversion processes. Herein, we theoretically study another efficient QFC scheme based on a resonant four-wave mixing system. Due to the effect of electromagnetically induced transparency (EIT), this resonant QFC scheme can greatly suppress vacuum field noise at low light levels; consequently, the converted photon can inherit the quantum state of the input photon with high fidelity. Our research demonstrates that if the conversion efficiency of the EIT-based QFC is close to 100%, the wave function and quadrature variance of the converted photon are almost the same as the input probe photon.
翻訳日:2023-05-01 04:54:19 公開日:2020-12-08
# 1d$lindbladianの作用素空間フラグメンテーションによる可積分性

Integrability of $1D$ Lindbladians from operator-space fragmentation ( http://arxiv.org/abs/2009.11745v2 )

ライセンス: Link先を確認
Fabian H. L. Essler, Lorenzo Piroli(参考訳) 我々は、開多粒子量子系を記述する1次元リンドブラッド方程式の族について紹介する。 (i)$ 作用素の空間は指数関数的に多くの(システムサイズで)部分空間に分裂し、散逸進化の下で不変である。 (ii) それぞれの不変部分空間上の密度行列の時間発展は可積分ハミルトニアンによって記述される。 原型的な例は、我々が詳細に分析した非対称単純排除過程(ASEP)の量子バージョンである。 各不変部分空間において、力学は開あるいはねじれた境界条件を持つ可積分スピン1/2 xxzハイゼンベルク鎖によって記述される。 さらに, 可積分作用素空間のフラグメンテーションを特徴とするリンドブラジアンは, 任意の局所物理的次元を持つスピン鎖に見ることができることを証明した。

We introduce families of one-dimensional Lindblad equations describing open many-particle quantum systems that are exactly solvable in the following sense: $(i)$ the space of operators splits into exponentially many (in system size) subspaces that are left invariant under the dissipative evolution; $(ii)$ the time evolution of the density matrix on each invariant subspace is described by an integrable Hamiltonian. The prototypical example is the quantum version of the asymmetric simple exclusion process (ASEP) which we analyze in some detail. We show that in each invariant subspace the dynamics is described in terms of an integrable spin-1/2 XXZ Heisenberg chain with either open or twisted boundary conditions. We further demonstrate that Lindbladians featuring integrable operator-space fragmentation can be found in spin chains with arbitrary local physical dimension.
翻訳日:2023-05-01 02:45:05 公開日:2020-12-08
# 部分可換性によって可積分な開量子系

Open quantum systems integrable by partial commutativity ( http://arxiv.org/abs/2011.10064v2 )

ライセンス: Link先を確認
Artur Czerwinski(参考訳) この記事は、フェドロフの定理によって導入された部分可換性に基づく線形微分方程式を解くための枠組みを提供する。 このフレームワークは3レベルおよび4レベルの量子システムの特定のタイプに適用される。 本手法の有効性を評価し,検討した。 フェドロフの定理は、時間依存生成子に対応する力学写像を研究できる方法の必要性に答えているように見える。 この方法を適用することで、緩和率が時間に依存するような散逸系の無数の例を調べることができる。

The article provides a framework to solve linear differential equations based on partial commutativity which is introduced by means of the Fedorov theorem. The framework is applied to specific types of three-level and four-level quantum systems. The efficiency of the method is evaluated and discussed. The Fedorov theorem appears to answer the need for methods which allow to study dynamical maps corresponding with time-dependent generators. By applying this method, one can investigate countless examples of dissipative systems such that the relaxation rates depend on time.
翻訳日:2023-04-23 16:56:07 公開日:2020-12-08
# 光軌道-三角形-運動量重ね合わせの機械学習認識

Machine learning recognition of light orbital-angular-momentum superpositions ( http://arxiv.org/abs/2012.00167v3 )

ライセンス: Link先を確認
B. Pinheiro da Silva, B. A. D. Marques, R. B. Rodrigues, P. H. Souto Ribeiro, and A. Z. Khoury(参考訳) 乱視トモグラフィと機械学習処理を用いて,光軌道角運動量(oam)の任意の重ね合わせを高忠実度で特徴付ける手法を開発した。 各重ね合わせを具体的に定義するために、2つの強度測定を組み合わせる。 1つは入力ビームの直接像であり、反対のOAM成分を区別できない。 この曖昧性は、入力ビームの非点変換後に得られた第2の画像によって除去される。 これらの画像ペアのサンプルは畳み込みニューラルネットワークを訓練し、最大5次元の任意のoam重ね合わせを高い忠実度で認識するために使用される。

We developed a method to characterize arbitrary superpositions of light orbital angular momentum (OAM) with high fidelity by using astigmatic tomography and machine learning processing. In order to define each superposition unequivocally, we combine two intensity measurements. The first one is the direct image of the input beam, which cannot distinguish between opposite OAM components. This ambiguity is removed by a second image obtained after astigmatic transformation of the input beam. Samples of these image pairs are used to train a convolution neural network and achieve high fidelity recognition of arbitrary OAM superpositions with dimension up to five.
翻訳日:2023-04-22 14:12:46 公開日:2020-12-08
# 任意の古典的符号からの量子コードの構築と局所ハミルトンの接地空間への埋め込み

Constructing quantum codes from any classical code and their embedding in ground space of local Hamiltonians ( http://arxiv.org/abs/2012.01453v2 )

ライセンス: Link先を確認
Ramis Movassagh and Yingkai Ouyang(参考訳) 古典的誤り訂正コードから量子誤り訂正コードを構築するためのフレームワークを導入する。 これはcssコードを含み、スタビライザー形式を超えて、必ずしも線形あるいは自己直交ではない古典的なコードから量子コードを構築することができる(図1参照)。 線形距離と速度を持つ古典符号から、線形距離と定数率を持つ量子符号を明示的に構築するアルゴリズムを与える。 小型符号の例証として,Hammingの[7,4,3]コードからSteaneの7-$qubitコードを取得し,長さ4,6の他の明示的な古典符号から他の誤り検出量子符号を得る。 量子ldpc符号と量子情報保護のための物理学の利用に動機づけられ、基礎空間が完全に解析的に特徴付けられる新しい2局所フラストレーション自由量子スピンチェーンハミルトニアンを導入する。 古典的な符号語を基底空間の基底状態にマッピングすることにより、基底空間が線形距離を持つ明示的な量子符号を含むことを示す。 これは、我々の研究により安定化器および/または線形符号を超えたより一般的な量子符号を可能にするため、ブラヴィイ・ターハル・ノーゴーの定理を横に進める。 我々はこれを線形距離を持つ量子LDPC符号の例と呼ぶことをためらっている。

We introduce a framework for constructing a quantum error correcting code from any classical error correcting code. This includes CSS codes and goes beyond the stabilizer formalism to allow quantum codes to be constructed from classical codes that are not necessarily linear or self-orthogonal (Fig. 1). We give an algorithm that explicitly constructs quantum codes with linear distance and constant rate from classical codes with a linear distance and rate. As illustrations for small size codes, we obtain Steane's $7-$qubit code uniquely from Hamming's [7,4,3] code, and obtain other error detecting quantum codes from other explicit classical codes of length 4 and 6. Motivated by quantum LDPC codes and the use of physics to protect quantum information, we introduce a new 2-local frustration free quantum spin chain Hamiltonian whose ground space we analytically characterize completely. By mapping classical codewords to basis states of the ground space, we utilize our framework to demonstrate that the ground space contains explicit quantum codes with linear distance. This side-steps the Bravyi-Terhal no-go theorem because our work allows for more general quantum codes beyond the stabilizer and/or linear codes. We hesitate to call this an example of {\it subspace} quantum LDPC code with linear distance.
翻訳日:2023-04-22 07:37:24 公開日:2020-12-08
# 接触追跡アプリケーションのプライバシーと完全性リスクについて

On the Privacy and Integrity Risks of Contact-Tracing Applications ( http://arxiv.org/abs/2012.03283v2 )

ライセンス: Link先を確認
Jianwei Huang, Vinod Yegneswaran, Phillip Porras, and Guofei Gu(参考訳) スマートフォンベースの接触追跡アプリケーションは、新型コロナウイルス(covid-19)パンデミックに対する世界的な戦いの中心にある。 政府や医療機関はこのようなアプリケーションの開発を義務付けようとしているが、監視ツールとしてのこれらの技術の活用を恐れる大衆報道機関やセキュリティ企業、人権監視機関からの監視が増えている。 コミュニティの安全とプライバシーの最適バランスを見つけることは課題であり、これらの懸念に対処するための戦略は国によって異なる。 本稿では,接触通信の幅広い応用に影響を及ぼす2つの重要な攻撃について述べる。 まず、コンタクト・イーゾレーション・アタック(英語版)と呼ばれるこの攻撃は、近所で感染する可能性のある患者を特定できるユーザープライバシーアタックである。 第二に接触汚染攻撃は、接触追跡アプリケーションの完全性に影響を与えるもので、大量の偽陽性警報を発生させる。 我々は、DP-3Tアプリケーションフレームワークの文脈において、プロトタイプの実装を開発し、両方の攻撃を評価しました。 どちらの攻撃も最小限の攻撃力で実現可能で実現可能であることがわかった。 さらに,SafeGraphデータベースを用いたシミュレーションと測定により,これらの攻撃に対する影響評価を行った。 以上の結果から,ヒューストンのような大都市において,少人数(1万桁)の監視ポイントから開始された攻撃は,感染した利用者の5-40\%を効果的に排除できることが示唆された。

Smartphone-based contact-tracing applications are at the epicenter of the global fight against the Covid-19 pandemic. While governments and healthcare agencies are eager to mandate the deployment of such applications en-masse, they face increasing scrutiny from the popular press, security companies, and human rights watch agencies that fear the exploitation of these technologies as surveillance tools. Finding the optimal balance between community safety and privacy has been a challenge, and strategies to address these concerns have varied among countries. This paper describes two important attacks that affect a broad swath of contact-tracing applications. The first, referred to as contact-isolation attack, is a user-privacy attack that can be used to identify potentially infected patients in your neighborhood. The second is a contact-pollution attack that affects the integrity of contact tracing applications by causing them to produce a high volume of false-positive alerts. We developed prototype implementations and evaluated both attacks in the context of the DP-3T application framework, but these vulnerabilities affect a much broader class of applications. We found that both attacks are feasible and realizable with a minimal attacker work factor. We further conducted an impact assessment of these attacks by using a simulation study and measurements from the SafeGraph database. Our results indicate that attacks launched from a modest number (on the order of 10,000) of monitoring points can effectively decloak between 5-40\% of infected users in a major metropolis, such as Houston.
翻訳日:2023-04-21 22:57:57 公開日:2020-12-08
# 制御マルコフ量子系の到達可能性:演算子理論的アプローチ

Reachability in Controlled Markovian Quantum Systems: An Operator-Theoretic Approach ( http://arxiv.org/abs/2012.03496v2 )

ライセンス: Link先を確認
Frederik vom Ende(参考訳) 量子システム理論では、基本的な問題の1つは次のようになる: 初期状態が与えられたとき、どの状態が問題となる動的システムによって到達できるのか? 双線型制御系の枠組みで定式化され、進化は避けられないハミルトンのドリフト項、有限個のハミルトンの制御項によって支配され、コサコフスキー・リンドブラッド形式の(少なくとも)一方向の一定の制御振幅を許容する(おそらくバン・バン・スイッチブル)ノイズ項が与えられる。 現在、有限次元系の任意の温度の熱浴への切り替え可能な結合を仮定すると、到達可能性のコア問題は、インターリーブド可能な2種類の制御の標準単純群(英語版)における研究点(英語版)に沸騰する: 単純群内の置換と、散逸的な1パラメータ半群による収縮である。 核問題の解が元の制御されたマルコフ量子系の到達可能な集合にどのように関係するかを説明する。 これにより、大域的および局所的スイッチ可能な結合を温度ゼロの浴槽とすることで、初期状態から任意の精度まで全ての量子状態を生成することができることを示すことができる。 また, D-majorizationの結果として, 非ゼロ温度の包摂性を示す。 次に、制御によって拡張されたユニタリコサコフスキ-リンドブラドマスター方程式に従う無限次元開量子力学系を考える。 ここでドリフトハミルトニアンは任意であり、有限個の制御ハミルトニアンは有界であり、スイッチ可能なノイズ項は単一のコンパクト正規作用素によって生成される。 その結果,このような双線型量子制御系は,有限次元のアナログでのみ知られているように,初期状態によって大別される任意の対象状態にほぼ到達できることが確認された。

In quantum systems theory one of the fundamental problems boils down to: Given an initial state, which final states can be reached by the dynamic system in question? Formulated in the framework of bilinear control systems, the evolution shall be governed by an inevitable Hamiltonian drift term, finitely many control Hamiltonians allowing for (at least) piecewise constant control amplitudes, plus a (possibly bang-bang switchable) noise term in Kossakowski-Lindblad form. Now assuming switchable coupling of finite-dimensional systems to a thermal bath of arbitrary temperature, the core problem of reachability boils down to studying points in the standard simplex amenable to two types of controls that can be used interleaved: Permutations within the simplex, and contractions by a dissipative one-parameter semigroup. We illustrate how the solutions of the core problem pertain to the reachable set of the original controlled Markovian quantum system. This allows us to show that for global as well as local switchable coupling to a temperature-zero bath one can generate every quantum state from every initial state up to arbitrary precision. Moreover we present an inclusion for non-zero temperatures as a consequence of our results on d-majorization. Then we consider infinite-dimensional open quantum-dynamical systems following a unital Kossakowski-Lindblad master equation extended by controls. Here the drift Hamiltonian can be arbitrary, the finitely many control Hamiltonians are bounded, and the switchable noise term is generated by a single compact normal operator. Via new majorization results of ours, we show that such bilinear quantum control systems allow to approximately reach any target state majorized by the initial one, as up to now only has been known in finite-dimensional analogues.
翻訳日:2023-04-21 21:13:11 公開日:2020-12-08
# 関数暗号を用いたプライバシー保護スパムフィルタリング

Privacy-Preserving Spam Filtering using Functional Encryption ( http://arxiv.org/abs/2012.04163v1 )

ライセンス: Link先を確認
Sicong Wang, Naveen Karunanayake, Tham Nguyen, Suranga Seneviratne(参考訳) 従来のスパム分類では、受信したメールの内容はプライバシーを侵害するスパム分類器に開示する必要がある。 暗号化されたメールに対するスパム分類は、電子メールにアクセスせずにスパムメールを分類できるので、メールコンテンツのプライバシーを保護する。 本稿では,暗号化メールの分類を可能にするスパム分類フレームワークを構築した。 分類モデルは、二次ネットワーク部分と多層知覚ネットワーク部分を持つニューラルネットワークに基づいている。 2次ネットワークアーキテクチャは、既存の2次関数型暗号化方式と互換性があり、関連する平文メールを公開せずに、暗号化された電子メールのラベルを予測できる。 実世界のスパムデータセットにおける評価結果から,提案するスパム分類モデルは96%以上の精度が得られることがわかった。

Traditional spam classification requires the end-user to reveal the content of its received email to the spam classifier which violates the privacy. Spam classification over encrypted emails enables the classifier to classify spam email without accessing the email, hence protects the privacy of email content. In this paper, we construct a spam classification framework that enables the classification of encrypted emails. Our classification model is based on a neural network with a quadratic network part and a multi-layer perception network part. The quadratic network architecture is compatible with the operation of an existing quadratic functional encryption scheme that enables our classification to predict the label of encrypted emails without revealing the associated plain-text email. The evaluation results on real-world spam datasets indicate that our proposed spam classification model achieves an accuracy of over 96%.
翻訳日:2023-04-21 18:44:12 公開日:2020-12-08
# 高次元量子暗号における最適有限鍵レートの量子サンプリング

Quantum Sampling for Optimistic Finite Key Rates in High Dimensional Quantum Cryptography ( http://arxiv.org/abs/2012.04151v1 )

ライセンス: Link先を確認
Keegan Yao, Walter O. Krawec, Jiadong Zhu(参考訳) 最近、boumanとfehrによって導入された量子サンプリングの枠組みは、有限鍵暗号解析に適用可能な新しいエントロピー不確実性関係をもたらすことが示されている。 ここでは、これらのサンプリングベースのエントロピー不確実性関係を再考し、より新しくより強力な関係を導出し、ソース非依存の量子乱数生成器や高次元量子鍵分布プロトコルに適用する。 その過程で、エントロピーの不確実性関係に対する漸近的なケースにおいて、いくつかの興味深い結果が証明される。 エントロピーの不確実性に対するこれらのサンプリングベースのアプローチとその量子暗号への応用は、量子暗号システムのセキュリティ証明を導出する大きな可能性を秘めており、我々がここで使うアプローチは、より広い範囲のシナリオに適用できるかもしれない。

It has been shown recently that the framework of quantum sampling, as introduced by Bouman and Fehr, can lead to new entropic uncertainty relations highly applicable to finite-key cryptographic analyses. Here we revisit these so-called sampling-based entropic uncertainty relations, deriving newer, more powerful, relations and applying them to source-independent quantum random number generators and high-dimensional quantum key distribution protocols. Along the way, we prove several interesting results in the asymptotic case for our entropic uncertainty relations. These sampling-based approaches to entropic uncertainty, and their application to quantum cryptography, hold great potential for deriving proofs of security for quantum cryptographic systems, and the approaches we use here may be applicable to an even wider range of scenarios.
翻訳日:2023-04-21 18:43:59 公開日:2020-12-08
# 長距離量子通信のためのM-SPGDアルゴリズムと単一モードファイバ結合

Single-mode fiber coupling with a M-SPGD algorithm for long-range quantum communications ( http://arxiv.org/abs/2012.04394v1 )

ライセンス: Link先を確認
Kui-Xing Yang, Maimaiti Abulizi, Yu-Huai Li, Bo-Yang Zhang, Shuang-Lin Li, Wei-Yue Liu, Juan Yin, Yuan Cao, Ji-Gang Ren and Cheng-Zhi Peng(参考訳) 衛星ベースの量子通信は、グローバルな量子ネットワークを実現するための有望なアプローチである。 自由空間量子チャネルでは、デイライト量子鍵分布(qkd)の信号対雑音比と標準ファイバーベースのqkdとの互換性を改善するためにシングルモードファイバカップリングが特に重要である。 しかし、強い大気乱流下での高効率で安定な単一モード結合効率を達成することは実験上は困難である。 本研究では,確率的パラレル勾配降下(m-spgd)アルゴリズムのモーダル版に基づく適応光学(ao)システムを持つ単一モード受信機を開発し,その性能を8kmの地上自由空間チャネル上でテストした。 強い大気乱流下では、M-SPGD AOシステムは単一モードのファイバー結合効率が約3.7dB向上し、変動が著しく抑制され、自由空間の長距離量子通信に応用できる。

Satellite-based quantum communication is a promising approach for realizing global-scale quantum networks. For free-space quantum channel, single-mode fiber coupling is particularly important for improving signal-to-noise ratio of daylight quantum key distribution (QKD) and compatibility with standard fiber-based QKD. However, achieving a highly efficient and stable single-mode coupling efficiency under strong atmospheric turbulence remains experimentally challenging. Here, we develop a single-mode receiver with an adaptive optics (AO) system based on a modal version of the stochastic parallel gradient descent (M-SPGD) algorithm and test its performance over an 8 km urban terrestrial free-space channel. Under strong atmospheric turbulence, the M-SPGD AO system obtains an improvement of about 3.7 dB in the single-mode fiber coupling efficiency and a significant suppression of fluctuation, which can find its applications in free-space long-range quantum communications.
翻訳日:2023-04-21 18:34:01 公開日:2020-12-08
# 相関テンソルに基づく分離性基準の検出能力--ケーススタディ

Detection power of separability criteria based on a correlation tensor: a case study ( http://arxiv.org/abs/2012.04359v1 )

ライセンス: Link先を確認
Gniewomir Sarbicki, Giovanni Scala, Dariusz Chru\'sci\'nski(参考訳) 相関テンソルに基づく分離性基準の検出力を、d_1 \otimes d_2$の一般化等方状態の族内で検証する。 d_1 \neq d_2$の場合、これらの基準はすべて正部分転位(PPT)基準よりも弱い。 興味深いことに,本解析は,対称的に完全正の演算子値測度(sic-povms)に基づく評価基準が実測基準よりも強いという最近の推測を支持している。

Detection power of separability criteria based on a correlation tensor is tested within a family of generalized isotropic state in $d_1 \otimes d_2$. For $d_1 \neq d_2$ all these criteria are weaker than positive partial transposition (PPT) criterion. Interestingly, our analysis supports the recent conjecture that a criterion based on symmetrically informationaly complete positive operator-valued measure (SIC-POVMs) is stronger than realignment criterion.
翻訳日:2023-04-21 18:32:59 公開日:2020-12-08
# 量子熱力学における相関と温度の最適操作

Optimal Manipulation Of Correlations And Temperature In Quantum Thermodynamics ( http://arxiv.org/abs/2012.04321v1 )

ライセンス: Link先を確認
Fabien Clivaz(参考訳) この論文は、冷蔵と相関性の生成という2つの課題の研究に費やされている。 冷蔵部では、冷却の2つの異なるパラダイム、すなわちコヒーレントと非コヒーレントを定義する。 これらのパラダイムが、熱浴アルゴリズム冷却(hbac)、量子熱力学への資源理論的アプローチ、自律冷却といった既存の冷蔵技術と結びつく。 それぞれのパラダイムはそれ自身で研究される。 これは特に、一般かつ到達可能な有界の導出を可能にする。 それは、関心のシステムを冷却するために使用される環境/マシンの1つのパラメータに依存する。 相関部の生成は、与えられたエネルギー量に対してどれだけの相関が生成できるかの定量的研究に費やされる。 関心の問題を正確に定式化した後、任意の有限次元二部格子系を用いて背景温度を消す。 非破壊的な背景温度では、問題の対称性は崩壊し、取り組むのが難しくなる。 両系が互いにコピーである場合、すべての(有限)次元系に対して有効となる上界を定式化し、次元 3 と 4 に対してその到達可能性を証明するのに十分な対称性が復元される。 さらに、任意の次元において到達可能であることを示す証拠を示すとともに、予想する。

This thesis is devoted to studying two tasks: refrigeration and the creation of correlations. In the refrigeration part, two different paradigms of cooling, namely coherent and incoherent, are defined. The connection that these paradigms have with other existing refrigeration techniques such as heat bath algorithmic cooling (HBAC), the resource theoretic approach to quantum thermodynamics, and autonomous cooling is then made. Each paradigm is then investigated on its own. This in particular allows for the derivation of a general and attainable bound. The bound is striking in its simplicity: it depends on a single parameter of the environment/machine used to cool the system of interest. The creation of correlations part is devoted to the quantitative study of how much correlations can be created for a given amount of energy. After having precisely formulated the problem of interest, we solve it for arbitrary finite dimensional bipartite systems for vanishing background temperatures. For non-vanishing background temperature the symmetry of the problem breaks down, making it much harder to tackle. When both systems are copies of each other, enough symmetry is restored to formulate an upper bound valid for all (finite) dimensional systems and prove its attainability for dimension 3 and 4. We furthermore conjecture, as well as show evidence for, the bound to be attainable in any dimension.
翻訳日:2023-04-21 18:32:53 公開日:2020-12-08
# ハミルトン変換性、高速断熱力学および隠れ断熱性

Hamiltonian Transformability, Fast Adiabatic Dynamics and Hidden Adiabaticity ( http://arxiv.org/abs/2012.04296v1 )

ライセンス: Link先を確認
Lian-Ao Wu, Dvira Segal(参考訳) 我々は、同じヒルベルト空間内の任意の与えられた2つのハミルトニアンを互いに変換できるユニタリ変換の存在を証明する。 結果は単純だが、例えば、最も制御可能なハミルトニアンとダイナミクスを実装したり模倣したりする基礎を築いている。 有望な応用として、この存在定理は、アディアバティック・レジーム内のダイナミクスが急速に進化するハミルトニアンを変換することにより、急速に進化するアディアバティック量子計算の実現を可能にする。 我々はその定理を例で示す。

We prove the existence of a unitary transformation that enables two arbitrarily given Hamiltonians in the same Hilbert space to be transformed into one another. The result is straightforward yet, for example, it lays the foundation to implementing or mimicking dynamics with the most controllable Hamiltonian. As a promising application, this existence theorem allows for a rapidly evolving realization of adiabatic quantum computation by transforming a Hamiltonian where dynamics is in the adiabatic regime into a rapidly evolving one. We illustrate the theorem with examples.
翻訳日:2023-04-21 18:32:15 公開日:2020-12-08
# 修正su(1,1)干渉計における量子クレーパ・ラオ結合の位相感度

Phase sensitivity approaching quantum Cramer-Rao bound in a modified SU(1,1) interferometer ( http://arxiv.org/abs/2012.04236v1 )

ライセンス: Link先を確認
Jian-Dong Zhang, Chenglong You, Chuang Li, and Shuai Wang(参考訳) 非線形素子を用いたSU(1,1)干渉計は位相感度において受動干渉計よりも優れている。 しかし、su(1,1)干渉計は、第2の非線形要素が内部にあるいくつかの光子を消滅させるため、位相情報を運ぶ光子をフルに利用することはできない。 本稿では,位相感度の向上に着目し,第2非線形要素をビームスプリッタに置き換えた修正su(1,1)干渉計に基づく新しいプロトコルを提案する。 2つのコヒーレント状態を入力として使用し,出力における平衡ホモダイン測定を実装した。 本手法は,光子損失や背景雑音に対してロバストな位相感度を実現することを提案している。 我々の研究は、su(1,1)干渉計を用いた実用的な量子メトロロジーにおいて重要である。

SU(1,1) interferometers, based on the usage of nonlinear elements, are superior to passive interferometers in phase sensitivity. However, the SU(1,1) interferometer cannot make full use of photons carrying phase information as the second nonlinear element annihilates some of the photons inside. Here, we focus on improving phase sensitivity and propose a new protocol based on a modified SU(1,1) interferometer, where the second nonlinear element is replaced by a beam splitter. We utilize two coherent states as inputs and implement balanced homodyne measurement at the output. Our analysis suggests that the protocol we propose can achieve sub-shot-noise-limited phase sensitivity and is robust against photon loss and background noise. Our work is important for practical quantum metrology using SU(1,1) interferometers.
翻訳日:2023-04-21 18:31:52 公開日:2020-12-08
# 2次元非エルミート調和振動子:コヒーレント状態

Two dimensional non-Hermitian harmonic oscillator: coherent states ( http://arxiv.org/abs/2012.04526v1 )

ライセンス: Link先を確認
Masoumeh Izadparast and S. Habib Mazharimousavi(参考訳) 本研究では,空間および時間反射対称性を持つ2次元複素調和振動子について述べる。 対応する時間独立なシュレーディンガー方程式は、複素固有関数を持つ実固有値を与える。 また,12個の固有関数の重ね合わせを用いて,系のコヒーレント状態を構成する。 確率密度に対する複素対応原理を用いて、ハミルトニアンの非エルミート的側面による確率密度の変化の可能性を検討する。

In this study, we introduce a two dimensional complex harmonic oscillator potential with space and time reflection symmetries. The corresponding time independent Schr\"odinger equation yields real eigenvalues with complex eigenfunctions. We also construct the coherent state of the system by using a superposition of 12 eigenfunctions. Using the complex correspondence principle for the probability density we investigate the possible modifications in the probability densities due to the non-Hermitian aspect of the Hamiltonian.
翻訳日:2023-04-21 18:25:02 公開日:2020-12-08
# 結合フォトニック共振器における消散誘起反強磁性性フラストレーション

Dissipation-induced antiferromagnetic-like frustration in coupled photonic resonators ( http://arxiv.org/abs/2012.04502v1 )

ライセンス: Link先を確認
Zejian Li, Ariane Soret, and Cristiano Ciuti(参考訳) 貯水池工学に基づく反強磁性スピン系のフォトニック量子シミュレータを提案する。 二次的に駆動される散逸性Kerr空洞は、損失のある空洞を介して間接的に結合される。 空洞は, 空洞間の有効散逸性およびハミルトン反強磁性結合を生じさせることを示す。 三角キャビティ配置のマスター方程式を解くことで、系の非平衡定常状態が反強磁性イジングモデルの基底状態と完全な類似性を持ち、フラストレーションの重要なシグネチャを示すことを証明した。 有効な光子ホッピング振幅がゼロであれば、非局所的散逸だけで反強磁性相互作用とフラストレーションを誘発できることを示した。 この単純なスキームは任意の格子幾何学に一般化することができ、制御された量子光学プラットフォーム上で反強磁性とフラストレーションをシミュレートするための完全な制御可能なレシピを提供する。

We propose a photonic quantum simulator for anti-ferromagnetic spin systems based on reservoir engineering. We consider a scheme where quadratically driven dissipative Kerr cavities are indirectly coupled via lossy ancillary cavities. We show that the ancillary cavities can produce an effective dissipative and Hamiltonian anti-ferromagnetic-like coupling between the cavities. By solving the master equation for a triangular cavity configuration, we demonstrate that the non-equilibrium steady state of the system bears full analogy with the ground state of an antiferromagnetic Ising model, exhibiting key signatures of frustration. We show that when the effective photon hopping amplitude is zero, the engineered non-local dissipation alone is capable of inducing antiferromagnetic interaction and frustration. This simple scheme can be generalised to arbitrary lattice geometries, providing a fully controllable recipe for simulating antiferromagnetism and frustration on a controlled quantum optical platform.
翻訳日:2023-04-21 18:24:56 公開日:2020-12-08
# ステップモーメントオペレーター

Step Momentum Operator ( http://arxiv.org/abs/2012.04497v1 )

ライセンス: Link先を確認
M. Izadparast and S. Habib Mazharimousavi(参考訳) 本研究では,ステップ運動量を持つ量子粒子の概念を紹介する。 このような粒子のエネルギー固有値と固有関数は、最近[13, 14]で提唱された一般化運動量作用素の文脈で得られる。 正方形井戸内のエルミートステップ運動量を持つ粒子に対する実エネルギーを持つ有界状態の数は無限であるが、 \mathcal{PT}-対称運動量を持つ粒子に対しては有限である。

In the present study, the concept of a quantum particle with step momentum is introduced. The energy eigenvalues and eigenfunctions of such particles are obtained in the context of the generalized momentum operator, proposed recently in [13, 14]. While, the number of bound states with real energy for the particles with Hermitian step momentum inside a square well is infinite, it is finite for a particle with \mathcal{PT} -symmetric momentum.
翻訳日:2023-04-21 18:24:21 公開日:2020-12-08
# 量子アニーリングによるグラフカラー化

Graph Coloring with Quantum Annealing ( http://arxiv.org/abs/2012.04470v1 )

ライセンス: Link先を確認
Julia Kwok and Kristen Pudenz(参考訳) 本研究では,d-wave 2xを独立な集合サンプリング器として用いるヒューリスティックグラフ彩色近似アルゴリズムを開発し,その性能を完全古典的実装に対して評価する。 ランダムに生成された小さなグラフインスタンスのセットは、テストセットとして役立ちます。 性能解析の結果,ハイブリッド量子古典アルゴリズムにおける限定的な量子優位性が示唆された。 量子エッジは複数のメトリクスを持ち、グラフ問題の応用は量子異性体に適していることを示唆している。

We develop a heuristic graph coloring approximation algorithm that uses the D-Wave 2X as an independent set sampler and evaluate its performance against a fully classical implementation. A randomly generated set of small but hard graph instances serves as our test set. Our performance analysis suggests limited quantum advantage in the hybrid quantum-classical algorithm. The quantum edge holds over multiple metrics and suggests that graph problem applications are a good fit for quantum annealers.
翻訳日:2023-04-21 18:23:52 公開日:2020-12-08
# 三重項三重項状態を用いた量子ドット孔スピンのコヒーレント集団トラップとサイクリング遷移

Coherent population trapping combined with cycling transitions for quantum dot hole spins using triplet trion states ( http://arxiv.org/abs/2012.04710v1 )

ライセンス: Link先を確認
Samuel G. Carter, Stefan C. Badescu, Allan S. Bracker, Michael K. Yakes, Kha X. Tran, Joel Q. Grim, and Daniel Gammon(参考訳) 光学スピン回転と測定のためのサイクリング遷移は、通常量子ドットでは不整合であり、量子情報応用の根本的な問題である。 ここでは、ホールスピンに対して、強いスピン軌道相互作用がスピンを傾ける励起軌道に1つのホールを持つトライアンを用いてこの問題に取り組むことができることを示す。 そして、特定のトライアン三重項はファラデー磁場においても二重の$\Lambda$系を形成し、高速ホールスピン初期化とコヒーレント集団トラップの実証に使用する。 最低三重項遷移はスピンを強く保存するので、高速光スピン制御とスピン読み出しのためのサイクリング遷移を組み合わせることができる。

Optical spin rotations and cycling transitions for measurement are normally incompatible in quantum dots, presenting a fundamental problem for quantum information applications. Here we show that for a hole spin this problem can be addressed using a trion with one hole in an excited orbital, where strong spin-orbit interaction tilts the spin. Then, a particular trion triplet forms a double $\Lambda$ system, even in a Faraday magnetic field, which we use to demonstrate fast hole spin initialization and coherent population trapping. The lowest trion transitions still strongly preserve spin, thus combining fast optical spin control with cycling transitions for spin readout.
翻訳日:2023-04-21 18:16:20 公開日:2020-12-08
# ナノナノ空洞における点双極子近似を超えるスピンエミッタ

Spin emitters beyond the point dipole approximation in nanomagnonic cavities ( http://arxiv.org/abs/2012.04662v1 )

ライセンス: Link先を確認
Derek S. Wang, Tom\'a\v{s} Neuman, and Prineha Narang(参考訳) エミッターのスピン状態間の遷移速度の制御は、量子情報科学からフリーラジカルのナノ化学まで幅広い分野において重要である。 本稿では、スピンエミッタの電気的および磁気的双極子-強制的遷移をナノマグネティックキャビティに配置し、スピンエミッタを点双極子近似を超えて記述し、スピンエミッタの体積に対して大きな空間的勾配を持つナノマグネティックキャビティの真空磁場を記述する方法を提案する。 具体的には、固体量子情報処理のための論理量子ビットを構成するゼーマンスプリット基底状態を持つダイヤモンドのSiV$^-$欠陥を、マイクロ波を深くサブ波長の体積に濃縮できるモデルナノマグネニクスキャビティとして機能する磁性ナノ粒子と組み合わせて研究する。 siv$^-$スピン軌道の第一原理のモデル化により、磁気双極子許容および-forbidden遷移のスピン遷移密度を計算し、それらの結合速度をナノマグネティックキャビティの様々な多極モードに計算する。 このような量子状態変換の枠組みと、ghz周波数スケールでのスピン量子ビットの状態形成を想定する。

Control over transition rates between spin states of emitters is crucial in a wide variety of fields ranging from quantum information science to the nanochemistry of free radicals. We present an approach to drive a both electric and magnetic dipole-forbidden transition of a spin emitter by placing it in a nanomagnonic cavity, requiring a description of both the spin emitter beyond the point dipole approximation and the vacuum magnetic fields of the nanomagnonic cavity with a large spatial gradient over the volume of the spin emitter. We specifically study the SiV$^-$ defect in diamond, whose Zeeman-split ground states comprise a logical qubit for solid-state quantum information processing, coupled to a magnetic nanoparticle serving as a model nanomagnonic cavity capable of concentrating microwave magnetic fields into deeply subwavelength volumes. Through first principles modeling of the SiV$^-$ spin orbitals, we calculate the spin transition densities of magnetic dipole-allowed and -forbidden transitions and calculate their coupling rates to various multipolar modes of the nanomagnonic cavity. We envision using such a framework for quantum state transduction and state preparation of spin qubits at GHz frequency scales.
翻訳日:2023-04-21 18:14:52 公開日:2020-12-08
# 重力誘起波動関数減少のダイナミクスについて

On the dynamics of gravity induced wave function reduction ( http://arxiv.org/abs/2012.04606v1 )

ライセンス: Link先を確認
Faramarz Rahmani, Mehdi Golshani(参考訳) 本研究では,ボーム軌道の概念を用いて,重力誘導波動関数の低減に対する動的かつ決定論的解釈を行う。 我々は、アンサンブルにおける軌道の挙動と量子と重力の影響に基づいて、粒子の運動の可能な全てのレギュレーションを分類する。 通常のアプローチでは、全ての情報は波動関数の進化から得られる。 しかし、ボームの決定論的量子論に基づいて、還元過程における粒子の運動を調べることができる。 これは粒子の減速時間と運動方程式に関する解析的および数値的な結果をもたらす。 この点において、削減時間には新たな意味が与えられる。

In this study, we use the concept of Bohmian trajectories to present a dynamical and deterministic interpretation for the gravity induced wave function reduction. We shall classify all possible regimes for the motion of a particle, based on the behavior of trajectories in the ensemble and under the influence of quantum and gravitational forces. In the usual approaches all information are obtained from the wave function evolution. But, on the basis of Bohm's deterministic quantum theory, we can investigate the motion of particle during the reduction processes. This leads to analytical and numerical results for the reduction time and equation of motion of the particle. In this regard, a new meaning will be provided for the reduction time.
翻訳日:2023-04-21 18:14:00 公開日:2020-12-08
# 超伝導量子ビットを用いた量子バルク音響共振器の測定

Measurements of a quantum bulk acoustic resonator using a superconducting qubit ( http://arxiv.org/abs/2012.04583v1 )

ライセンス: Link先を確認
M.-H. Chou, \'E. Dumur, Y. P. Zhong, G. A. Peairs, A. Bienfait, H.-S. Chang, C. R. Conner, J. Grebel, R. G. Povey, K. J. Satzinger, A. N. Cleland(参考訳) マイクロ波周波数でのフォノンモードは、従来の低温冷凍を用いて量子基底状態に冷却することができ、単一のフォノンレベルで量子状態の研究と操作に便利な手段を提供する。 機械的な変形は、固体欠陥、超伝導量子ビット、光力学的に活性な構造を用いる光子など、幅広い量子系との相互作用を媒介することができるため、特に興味深い。 したがって、フォノンは、センシング、情報処理、通信といった様々な分野の量子中心のアプリケーションに対して約束する。 ここでは圧電量子バルク音響共振器(QBAR)を4.88GHzの共振周波数で記述し、低温では大きな電気機械的結合強度と高い固有の機械的品質係数(Q_i \approx 4.3 \times 10^4$)を組み合わせて表示する。 最近開発されたフリップチップ技術を用いて、このQBAR共振器を別のダイ上の超伝導量子ビットに結合し、結合系における力学の量子制御を実証する。 このアプローチは、量子音響とハイブリッド量子システムに対する、facile and flexible experimental approachを約束する。

Phonon modes at microwave frequencies can be cooled to their quantum ground state using conventional cryogenic refrigeration, providing a convenient way to study and manipulate quantum states at the single phonon level. Phonons are of particular interest because mechanical deformations can mediate interactions with a wide range of different quantum systems, including solid-state defects, superconducting qubits, as well as optical photons when using optomechanically-active constructs. Phonons thus hold promise for quantum-focused applications as diverse as sensing, information processing, and communication. Here, we describe a piezoelectric quantum bulk acoustic resonator (QBAR) with a 4.88 GHz resonant frequency that at cryogenic temperatures displays large electromechanical coupling strength combined with a high intrinsic mechanical quality factor $Q_i \approx 4.3 \times 10^4$. Using a recently-developed flip-chip technique, we couple this QBAR resonator to a superconducting qubit on a separate die and demonstrate quantum control of the mechanics in the coupled system. This approach promises a facile and flexible experimental approach to quantum acoustics and hybrid quantum systems.
翻訳日:2023-04-21 18:13:46 公開日:2020-12-08
# 統計的モデリング:三つの文化

Statistical modeling: the three cultures ( http://arxiv.org/abs/2012.04570v1 )

ライセンス: Link先を確認
Adel Daoud and Devdatt Dubhashi(参考訳) 20年前、Leo Breiman氏は統計モデルのための2つの文化を特定した。 データ・モデリング・カルチャー(DMC、Data Modeling culture)は、1つか数量の興味を統計的に推測することを目的とした実践である。 アルゴリズムモデリングカルチャー(アルゴリズムモデリングカルチャー、AMC)とは、関心事に関する正確な予測を生成する機械学習(ML)手順を定義するプラクティスを指す。 統計学者はデータに適応するMLの強みのために、MCよりもAMCに注意を払うべきだと主張した。 20年後、dmcはデータサイエンス革命によって統計学において支配的な役割を失ったが、この文化は自然科学や社会科学において依然として主要な実践である。 DMCは、仮説導出科学的方法と呼ばれる確立された科学的方法の影響により、モダス・オペランディ(modus operandi)である。 AMCとこの科学的手法は相容れないが、一部の研究グループではAMCとDMCの文化が激しく混ざり合っている。 我々は, この混合が, ハイブリッド・モデリング・カルチャー (HMC) と呼ばれる変異培養のための受精プールを形成し, 予測と推論が互いに強化する新たな手順に融合したと主張している。 本稿では, HMC の重要な特徴を明らかにし, 科学的取り組みの促進と, より優れた実践に向けての統計文化の進化を促進する。 因果関係を解析する上で、信頼性、有効、効率的な統計プラクティスがますます多くなっていることを意味します。 推測と予測の組み合わせにおいて、HMCの結果は、予測と推論の区別が限界までとられ、解けてしまう。 それぞれの実践が科学サイクルの側面、すなわち因果推論のML、データ取得のML、理論予測のMLを捉えている。

Two decades ago, Leo Breiman identified two cultures for statistical modeling. The data modeling culture (DMC) refers to practices aiming to conduct statistical inference on one or several quantities of interest. The algorithmic modeling culture (AMC) refers to practices defining a machine-learning (ML) procedure that generates accurate predictions about an event of interest. Breiman argued that statisticians should give more attention to AMC than to DMC, because of the strengths of ML in adapting to data. While twenty years later, DMC has lost some of its dominant role in statistics because of the data-science revolution, we observe that this culture is still the leading practice in the natural and social sciences. DMC is the modus operandi because of the influence of the established scientific method, called the hypothetico-deductive scientific method. Despite the incompatibilities of AMC with this scientific method, among some research groups, AMC and DMC cultures mix intensely. We argue that this mixing has formed a fertile spawning pool for a mutated culture that we called the hybrid modeling culture (HMC) where prediction and inference have fused into new procedures where they reinforce one another. This article identifies key characteristics of HMC, thereby facilitating the scientific endeavor and fueling the evolution of statistical cultures towards better practices. By better, we mean increasingly reliable, valid, and efficient statistical practices in analyzing causal relationships. In combining inference and prediction, the result of HMC is that the distinction between prediction and inference, taken to its limit, melts away. We qualify our melting-away argument by describing three HMC practices, where each practice captures an aspect of the scientific cycle, namely, ML for causal inference, ML for data acquisition, and ML for theory prediction.
翻訳日:2023-04-21 18:13:23 公開日:2020-12-08
# 位相遷移に近い量子ラビモデルの不規則クエンチにおける非断熱性のスケーリング

Scaling of non-adiabaticity in disordered quench of quantum Rabi model close to phase transition ( http://arxiv.org/abs/2012.04568v1 )

ライセンス: Link先を確認
Chirag Srivastava and Ujjwal Sen(参考訳) 系のダイナミクスは臨界点近傍の遅いクエンチにおいても非断熱性を示す。 本研究では, 正規位相と超ラジカル位相の相転移を有する量子ラビモデルに対する非断熱量化器を用いて, クエンチ中の乱れに対する応答を解析する。 正規相の初期ハミルトニアンの基底状態に存在する系が臨界点に対応する最終ハミルトニアンにクエンチされるようなrabiモデルにおけるクエンチの無秩序バージョンを考える。 この障害は、トータルタイムのクエンチまたはクエンチパラメータ自体に挿入される。 対応する量子力学を数値的に解き、非断熱効果はクエンチの合計時間における障害の存在に影響されないことを発見した。 この結果は、断熱摂動理論とkibble-zurek機構の応用によって独立に確認される。 クエンチパラメーターの障害については、障害の強さとともに、断熱性が単調に増加することを報告する。 最後に、最終ハミルトニアンが乱れた最終ハミルトニアンの平均として選択されるクエンチについて考察し、このクエンチが最終ハミルトニアンにおける障害のあるクエンチの平均よりも断熱的であることを示す。

Dynamics of a system exhibits non-adiabaticity even for slow quenches near critical points. We analyze the response to disorder in quenches on a non-adiabaticity quantifier for the quantum Rabi model, which possesses a phase transition between normal and superradiant phases. We consider a disordered version of a quench in the Rabi model, in which the system residing in the ground state of an initial Hamiltonian of the normal phase is quenched to the final Hamiltonian corresponding to the critical point. The disorder is inserted either in the total time the quench or in the quench parameter itself. We solve the corresponding quantum dynamics numerically, and find that the non-adiabatic effects are unaffected by the presence of disorder in the total time of the quench. This result is then independently confirmed by the application of adiabatic perturbation theory and the Kibble- Zurek mechanism. For the disorder in the quench parameter, we report a monotonic increase in the adiabaticity with the strength of the disorder. Lastly, we consider a quench where the final Hamiltonian is chosen as the average over the disordered final Hamiltonians, and show that this quench is more adiabatic than the average of the quenches with the disorder in final Hamiltonian.
翻訳日:2023-04-21 18:12:52 公開日:2020-12-08
# 深層学習に基づくマルチモーダルセンシングによる小型クワッドコプターの追跡と状態抽出

Deep Learning based Multi-Modal Sensing for Tracking and State Extraction of Small Quadcopters ( http://arxiv.org/abs/2012.04794v1 )

ライセンス: Link先を確認
Zhibo Zhang, Chen Zeng, Maulikkumar Dhameliya, Souma Chowdhury, Rahul Rai(参考訳) 本稿では,クワッドコプター無人航空機(uav)の検出,追跡,ローカライズのためのマルチセンサ方式を提案する。 具体的には、FoV内のUAVを検出し追跡するために、単眼のRGBと熱ビデオ(固定プラットフォームから撮影)を処理するパイプラインが開発されている。 その後、2次元平面ライダーを用いて画素データの実際の距離測定への変換を可能にし、グローバル座標におけるUAVのローカライズを可能にする。 単分子データは、UAVの初期バウンディングボックスを計算するディープラーニングベースのオブジェクト検出方法により処理される。 熱データはしきい値とカルマンフィルタを用いて処理され、境界ボックスを検出し追跡する。 モーションキャプチャ環境で実施された一連の実験と、公開されているUAV画像データを組み合わせることで、トレーニングデータとテストデータを作成する。 新しいパイプラインは既存の手法と比較し、サンプル実験の有望なトラッキングとローカライゼーション能力を示す。

This paper proposes a multi-sensor based approach to detect, track, and localize a quadcopter unmanned aerial vehicle (UAV). Specifically, a pipeline is developed to process monocular RGB and thermal video (captured from a fixed platform) to detect and track the UAV in our FoV. Subsequently, a 2D planar lidar is used to allow conversion of pixel data to actual distance measurements, and thereby enable localization of the UAV in global coordinates. The monocular data is processed through a deep learning-based object detection method that computes an initial bounding box for the UAV. The thermal data is processed through a thresholding and Kalman filter approach to detect and track the bounding box. Training and testing data are prepared by combining a set of original experiments conducted in a motion capture environment and publicly available UAV image data. The new pipeline compares favorably to existing methods and demonstrates promising tracking and localization capacity of sample experiments.
翻訳日:2023-04-21 18:04:57 公開日:2020-12-08
# シリコン四重極点における電荷遷移のリフレクションメトリー

Reflectometry of charge transitions in a silicon quadruple dot ( http://arxiv.org/abs/2012.04791v1 )

ライセンス: Link先を確認
Heorhii Bohuslavskyi, Fabio Ansaloni, Anasua Chatterjee, Federico Fedele, Torbj{\o}rn Rasmussen, Bertram Brovang, Jing Li, Louis Hutin, Benjamin Venitucci, Benoit Bertrand, Maud Vinet, Yann-Michel Niquet, Ferdinand Kuemmeth(参考訳) ゲート制御されたシリコン量子デバイスは現在、学術的な実証研究から工業的製造へと移行し、シングルドットデバイスやダブルドットデバイスからより大きなアレイへと複雑さを増している。 300mm鋳造プロセスで作製したシリコン量子ドットの2x2配列上で,ゲート型高周波反射率測定を行う。 ドットアレイ内の容量結合を利用することで、1つのゲート電極のみを1つの反射率共振器に接続し、4つのドットそれぞれに単一電子占有を確立し、高い帯域幅で単一電子移動を検出するのに十分である。 グローバルトップゲート電極は全体のトンネル時間を調整し、サイドゲート電圧の線形結合は詳細な電荷安定性図を生成する。 一定の相互作用モデルに基づいて,$\mathbf{k}\cdot\mathbf{p}$モデリングと静電シミュレーションを行い,30khz以上の帯域で一元的な信号対雑音比を持つ単発電荷遷移の検出を実験的に実証した。 我々の技術は、スピン量子ビットデバイスの大規模量子プロセッサへのスケールアップに応用できるかもしれない。

Gate-controlled silicon quantum devices are currently moving from academic proof-of-principle studies to industrial fabrication, while increasing their complexity from single- or double-dot devices to larger arrays. We perform gate-based high-frequency reflectometry measurements on a 2x2 array of silicon quantum dots fabricated entirely using 300 mm foundry processes. Utilizing the capacitive couplings within the dot array, it is sufficient to connect only one gate electrode to one reflectometry resonator and still establish single-electron occupation in each of the four dots and detect single-electron movements with high bandwidth. A global top-gate electrode adjusts the overall tunneling times, while linear combinations of side-gate voltages yield detailed charge stability diagrams. We support our findings with $\mathbf{k}\cdot\mathbf{p}$ modeling and electrostatic simulations based on a constant interaction model, and experimentally demonstrate single-shot detection of interdot charge transitions with unity signal-to-noise ratios at bandwidths exceeding 30 kHz. Our techniques may find use in the scaling of few-dot spin-qubit devices to large-scale quantum processors.
翻訳日:2023-04-21 18:04:42 公開日:2020-12-08
# sonicpact:private automated contact tracing (pact)プロトコルのための超音波測位法

SonicPACT: An Ultrasonic Ranging Method for the Private Automated Contact Tracing (PACT) Protocol ( http://arxiv.org/abs/2012.04770v1 )

ライセンス: Link先を確認
John Meklenburg, Michael Specter, Michael Wentz, Hari Balakrishnan, Anantha Chandrakasan, John Cohn, Gary Hatke, Louise Ivers, Ronald Rivest, Gerald Jay Sussman, Daniel Weitzner(参考訳) 新型コロナウイルス(COVID-19)のパンデミックの過程で、いくつかの国が接触追跡と露出通知スマートフォンアプリケーション(アプリ)を開発しリリースしている。 このようなアプリをサポートするため、AppleとGoogleは、Bluetooth Low Energy (BLE)ビーコンを使用してデバイス(ユーザ)の近接を推測するExposure Notification Application Programming Interfaces (API)をリリースした。 Private Automated Contact Tracing (PACT)チームは、BLE無線信号のみを使用してデバイス間の距離を正確に推定することは困難であることを示した。 本稿では,iosおよびandroidスマートフォンにおける近距離信号を用いた距離推定のためのsonicpactプロトコルの設計と実装について述べる。 このプロトコルにより、AndroidとiOSデバイスは、現在の露出通知APIを相互運用し、拡張し、改善することができる。 最初の実験結果は有望であり、sonicpactはappleとgoogleによって実装されるべきだと示唆しています。

Throughout the course of the COVID-19 pandemic, several countries have developed and released contact tracing and exposure notification smartphone applications (apps) to help slow the spread of the disease. To support such apps, Apple and Google have released Exposure Notification Application Programming Interfaces (APIs) to infer device (user) proximity using Bluetooth Low Energy (BLE) beacons. The Private Automated Contact Tracing (PACT) team has shown that accurately estimating the distance between devices using only BLE radio signals is challenging. This paper describes the design and implementation of the SonicPACT protocol to use near-ultrasonic signals on commodity iOS and Android smartphones to estimate distances using time-of-flight measurements. The protocol allows Android and iOS devices to interoperate, augmenting and improving the current exposure notification APIs. Our initial experimental results are promising, suggesting that SonicPACT should be considered for implementation by Apple and Google.
翻訳日:2023-04-21 18:04:22 公開日:2020-12-08
# 分解に基づく多目的遺伝的プログラミングにおける意味論の促進

Promoting Semantics in Multi-objective Genetic Programming based on Decomposition ( http://arxiv.org/abs/2012.04717v1 )

ライセンス: Link先を確認
Edgar Galv\'an and Fergal Stapleton(参考訳) 遺伝的プログラム(GP)における意味論の研究は、一連の入力を与えられたプログラムの振る舞いを扱い、様々な複雑な問題に対してGPの多様性を促進するために広く報告されている。 NSGA-IIやSPEA2のようなParetoベースの支配アルゴリズムは、セマンティック類似性に基づくクロスオーバー(SSC)のような一般的なセマンティックなセマンティックベースの手法が進化的探索を妨げたり妨げたりするかどうかをテストするフレームワークとして使われてきた。 驚くべきことに、SOGPにおけるSSCの利点はパレートベースのマルチオブジェクトGPでは見られないことが報告されている。 本研究は,分解に基づく多目的進化アルゴリズム (moea/d) でも同様が実行されるか検討することに関心を寄せている。 機械学習コミュニティでよく使われているデータセットであるMNISTデータセットを用いて、MOEA/DのSSCが、MOEA/Dの標準MOEA/Dに存在しない場合と比較して、セマンティック多様性を促進する方法を示す。

The study of semantics in Genetic Program (GP) deals with the behaviour of a program given a set of inputs and has been widely reported in helping to promote diversity in GP for a range of complex problems ultimately improving evolutionary search. The vast majority of these studies have focused their attention in single-objective GP, with just a few exceptions where Pareto-based dominance algorithms such as NSGA-II and SPEA2 have been used as frameworks to test whether highly popular semantics-based methods, such as Semantic Similarity-based Crossover (SSC), helps or hinders evolutionary search. Surprisingly it has been reported that the benefits exhibited by SSC in SOGP are not seen in Pareto-based dominance Multi-objective GP. In this work, we are interested in studying if the same carries out in Multi-objective Evolutionary Algorithms based on Decomposition (MOEA/D). By using the MNIST dataset, a well-known dataset used in the machine learning community, we show how SSC in MOEA/D promotes semantic diversity yielding better results compared to when this is not present in canonical MOEA/D.
翻訳日:2023-04-21 18:04:04 公開日:2020-12-08
# 部分モジュラ関数最小化と極性

Submodular Function Minimization and Polarity ( http://arxiv.org/abs/1912.13238v3 )

ライセンス: Link先を確認
Alper Atamturk and Vishnu Narayanan(参考訳) 極性を用いて、集合関数のエピグラフに対する外部多面体近似を与える。 部分モジュラ関数に対して、対応する極緩和が完全であることを証明するので、これはlov\'asz拡大と同値である。 極性アプローチは、部分モジュラ函数のエピグラフの凸包記述の代替的な証明を提供する。 計算実験により、外部近似の不等式は、部分モジュラーおよび非部分モジュラー集合関数最小化問題に対する切断平面として有効であることが示された。

Using polarity, we give an outer polyhedral approximation for the epigraph of set functions. For a submodular function, we prove that the corresponding polar relaxation is exact; hence, it is equivalent to the Lov\'asz extension. The polar approach provides an alternative proof for the convex hull description of the epigraph of a submodular function. Computational experiments show that the inequalities from outer approximations can be effective as cutting planes for solving submodular as well as non-submodular set function minimization problems.
翻訳日:2023-01-16 21:17:44 公開日:2020-12-08
# GLIB:ゴール-リテラルバブリングによる関係モデルに基づく強化学習のための効率的な探索

GLIB: Efficient Exploration for Relational Model-Based Reinforcement Learning via Goal-Literal Babbling ( http://arxiv.org/abs/2001.08299v3 )

ライセンス: Link先を確認
Rohan Chitnis, Tom Silver, Joshua Tenenbaum, Leslie Pack Kaelbling, Tomas Lozano-Perez(参考訳) 本稿では,リレーショナルモデルに基づく強化学習環境における遷移モデル学習の効率的探索の課題に対処する。 人間の好奇心に触発されて,そのような問題に対するシンプルで一般的な探索法であるGLIBを提案する。 GLIBは、エージェントが世界で達成したいと思う特定の標的効果として理解できる関係接続目標をサンプリングし、学習される遷移モデルを用いてこれらの目標を達成する計画である。 我々は,GLIBによる探索が基底真理モデルにほぼ確実に収束することを示す理論的保証を提供する。 実験により,標準的なPDDLおよびPDDL計画ベンチマークとPyBullet物理シミュレータに実装されたロボット操作タスクを含む,様々なタスクの予測と計画において,既存手法よりも高い性能を発揮することが確認された。 ビデオ:https://youtu.be/F6lmrPT6TOYコード:https://git.io/JIsTB

We address the problem of efficient exploration for transition model learning in the relational model-based reinforcement learning setting without extrinsic goals or rewards. Inspired by human curiosity, we propose goal-literal babbling (GLIB), a simple and general method for exploration in such problems. GLIB samples relational conjunctive goals that can be understood as specific, targeted effects that the agent would like to achieve in the world, and plans to achieve these goals using the transition model being learned. We provide theoretical guarantees showing that exploration with GLIB will converge almost surely to the ground truth model. Experimentally, we find GLIB to strongly outperform existing methods in both prediction and planning on a range of tasks, encompassing standard PDDL and PPDDL planning benchmarks and a robotic manipulation task implemented in the PyBullet physics simulator. Video: https://youtu.be/F6lmrPT6TOY Code: https://git.io/JIsTB
翻訳日:2023-01-07 18:05:22 公開日:2020-12-08
# 言語間シーケンスラベリングにおける語順情報の重要性について

On the Importance of Word Order Information in Cross-lingual Sequence Labeling ( http://arxiv.org/abs/2001.11164v4 )

ライセンス: Link先を確認
Zihan Liu, Genta Indra Winata, Samuel Cahyawijaya, Andrea Madotto, Zhaojiang Lin, Pascale Fung(参考訳) 語順のばらつきは一般的に異なる言語に存在する。 本稿では,ソース言語の単語順に適合する言語間モデルが,対象言語を処理できない可能性があるという仮説を立てる。 この仮説を検証するために、ソース言語の単語順序に敏感なモデルを作ることで、ターゲット言語の適応性能を向上させることができるかどうかを検討する。 そのため、シーケンスエンコーダに適合するソース言語単語の順序情報を削減し、性能変化を観察する。 さらに,この仮説に基づき,下流の言語間シーケンスラベリングタスクにおいて,多言語bertを微調整する新しい手法を提案する。 対話自然言語理解,パート・オブ・音声タギング,名前付きエンティティ認識タスクの実験結果から,モデルに適合する単語順序情報の削減により,ゼロショット言語間性能が向上することが示された。 さらに,提案手法を強固な言語間ベースラインに適用し,その性能を向上させることができる。

Word order variances generally exist in different languages. In this paper, we hypothesize that cross-lingual models that fit into the word order of the source language might fail to handle target languages. To verify this hypothesis, we investigate whether making models insensitive to the word order of the source language can improve the adaptation performance in target languages. To do so, we reduce the source language word order information fitted to sequence encoders and observe the performance changes. In addition, based on this hypothesis, we propose a new method for fine-tuning multilingual BERT in downstream cross-lingual sequence labeling tasks. Experimental results on dialogue natural language understanding, part-of-speech tagging, and named entity recognition tasks show that reducing word order information fitted to the model can achieve better zero-shot cross-lingual performance. Furthermore, our proposed methods can also be applied to strong cross-lingual baselines, and improve their performances.
翻訳日:2023-01-05 12:12:08 公開日:2020-12-08
# タスク・アウェア変分対応型アクティブ・ラーニング

Task-Aware Variational Adversarial Active Learning ( http://arxiv.org/abs/2002.04709v2 )

ライセンス: Link先を確認
Kwanyoung Kim, Dongwon Park, Kwang In Kim, Se Young Chun(参考訳) 多くの場合、大量のデータのラベル付けは、ディープラーニング技術のアプリケーションドメインを制限する高いラベル付けコストのために困難である。 アクティブラーニング(al)は、ラベルなしプール内で注釈付けされる最も有益なサンプルをクエリすることでこれに取り組む。 最近調査されたALの有望な2つの方向は、現在のラベル付きプールとはかけ離れたデータポイントを選択するタスク非依存のアプローチと、タスクモデルの観点からタスク認識アプローチである。 残念ながら、前者はタスクから構造を利用せず、後者は全体のデータ分散を十分に活用していないようだ。 本稿では,タスク学習損失予測をランキング損失予測に緩和し,正規化されたランキング損失情報をVAAL上に埋め込むことにより,ラベルとラベル付きプールの双方のデータ分布を考慮したタスク非依存型VAAL(TA-VAAL)を提案する。 提案するta-vaalは,均衡ラベル/不均衡ラベルの分類や意味セグメンテーション,タスク認識およびタスク非依存なal特性に対して,様々なベンチマークデータセットの最先端を上回り,詳細な分析を行った。

Often, labeling large amount of data is challenging due to high labeling cost limiting the application domain of deep learning techniques. Active learning (AL) tackles this by querying the most informative samples to be annotated among unlabeled pool. Two promising directions for AL that have been recently explored are task-agnostic approach to select data points that are far from the current labeled pool and task-aware approach that relies on the perspective of task model. Unfortunately, the former does not exploit structures from tasks and the latter does not seem to well-utilize overall data distribution. Here, we propose task-aware variational adversarial AL (TA-VAAL) that modifies task-agnostic VAAL, that considered data distribution of both label and unlabeled pools, by relaxing task learning loss prediction to ranking loss prediction and by using ranking conditional generative adversarial network to embed normalized ranking loss information on VAAL. Our proposed TA-VAAL outperforms state-of-the-arts on various benchmark datasets for classifications with balanced / imbalanced labels as well as semantic segmentation and its task-aware and task-agnostic AL properties were confirmed with our in-depth analyses.
翻訳日:2023-01-02 01:37:24 公開日:2020-12-08
# ニューラルネットワークの一般化に向けたバイアス分散トレードオフ再考

Rethinking Bias-Variance Trade-off for Generalization of Neural Networks ( http://arxiv.org/abs/2002.11328v3 )

ライセンス: Link先を確認
Zitong Yang, Yaodong Yu, Chong You, Jacob Steinhardt, Yi Ma(参考訳) 古典的なバイアス分散トレードオフはバイアスが減少し、モデルの複雑さによって分散が増加することを予測し、u字型のリスク曲線をもたらす。 最近の研究では、これをニューラルネットワークや他の過剰パラメータモデルに問題視しており、より大きなモデルの方がより一般化することがしばしば観察されている。 ニューラルネットワークのバイアスと分散を測定することで、このことに対する簡単な説明を提供する: バイアスは古典理論のように単調に減少するが、分散は単調またはベル型であり、ネットワークの幅によって増大する。 我々は、ネットワークアーキテクチャ、損失関数、データセットの選択を変化させ、分散一様性が考慮したすべてのモデルに対して堅牢に発生することを確認します。 リスク曲線はバイアスと分散曲線の和であり、バイアスと分散の相対スケールに応じて異なる定性的形状を示す。 この実験結果をランダムな第1層を持つ2層線形ネットワークの理論的解析で裏付ける。 最後に, 分布外データによる評価の結果, 精度の低下のほとんどはバイアスの増加によるものであり, ばらつきは比較的少ない。 さらに,より深いモデルでは偏りが減少し,分布内データと分布外データのばらつきが増加することがわかった。

The classical bias-variance trade-off predicts that bias decreases and variance increase with model complexity, leading to a U-shaped risk curve. Recent work calls this into question for neural networks and other over-parameterized models, for which it is often observed that larger models generalize better. We provide a simple explanation for this by measuring the bias and variance of neural networks: while the bias is monotonically decreasing as in the classical theory, the variance is unimodal or bell-shaped: it increases then decreases with the width of the network. We vary the network architecture, loss function, and choice of dataset and confirm that variance unimodality occurs robustly for all models we considered. The risk curve is the sum of the bias and variance curves and displays different qualitative shapes depending on the relative scale of bias and variance, with the double descent curve observed in recent literature as a special case. We corroborate these empirical results with a theoretical analysis of two-layer linear networks with random first layer. Finally, evaluation on out-of-distribution data shows that most of the drop in accuracy comes from increased bias while variance increases by a relatively small amount. Moreover, we find that deeper models decrease bias and increase variance for both in-distribution and out-of-distribution data.
翻訳日:2022-12-28 14:05:51 公開日:2020-12-08
# フルマンモグラフィー解析のための2段階多段階乳房腫瘤分割法

Two-stage multi-scale breast mass segmentation for full mammogram analysis without user intervention ( http://arxiv.org/abs/2002.12079v2 )

ライセンス: Link先を確認
Yutong Yan, Pierre-Henri Conze, Gwenol\'e Quellec, Mathieu Lamard, B\'eatrice Cochener, Gouenou Coatrieux(参考訳) マンモグラフィーは乳がんの早期発見と診断に使用される主要な画像モダリティである。 X線マンモグラフィー解析は、主に興味のある領域の局所化とセグメンテーション、さらに良性と悪性に分類することを指す。 各種の乳腺異常のうち,乳腺癌では腫瘤が最も重要な臨床所見である。 しかし, 乳房腫瘤をネイティブマンモグラムから手動で抽出することは, 時間と誤差が伴う。 そのため, 自動的, 正確に乳房腫瘤郭清を行うために, 統合コンピュータ支援診断システムが必要となる。 本研究では,高分解能フルマンモグラムから正確な質量輪郭を提供する2段階のマルチスケールパイプラインを提案する。 まず, マルチスケール核融合戦略を統合した拡張深度検出器を提案する。 第2に,ネスト化および密集したスキップ接続を用いた畳み込みエンコーダ・デコーダネットワークを用いて候補質量を微調整する。 地域ごとのセグメンテーションに基づく従来の研究とは異なり、我々のフレームワークはユーザー介入なしにネイティブのフルマンモグラフィーからのマスセグメンテーションを処理する。 INbreastとDDSM-CBISの公開データセットでトレーニングされたパイプラインは、Inbreastテストイメージで全体の80.44%のDiceを達成し、最先端のパフォーマンスを達成している。 本システムは自動全画像マスセグメンテーションシステムとして有望な精度を示す。 広範囲な実験により、乳房の大きさ、形状、外観の多様性に対する堅牢性が示され、より対話性のないコンピュータ支援診断に向けた。

Mammography is the primary imaging modality used for early detection and diagnosis of breast cancer. X-ray mammogram analysis mainly refers to the localization of suspicious regions of interest followed by segmentation, towards further lesion classification into benign versus malignant. Among diverse types of breast abnormalities, masses are the most important clinical findings of breast carcinomas. However, manually segmenting breast masses from native mammograms is time-consuming and error-prone. Therefore, an integrated computer-aided diagnosis system is required to assist clinicians for automatic and precise breast mass delineation. In this work, we present a two-stage multi-scale pipeline that provides accurate mass contours from high-resolution full mammograms. First, we propose an extended deep detector integrating a multi-scale fusion strategy for automated mass localization. Second, a convolutional encoder-decoder network using nested and dense skip connections is employed to fine-delineate candidate masses. Unlike most previous studies based on segmentation from regions, our framework handles mass segmentation from native full mammograms without any user intervention. Trained on INbreast and DDSM-CBIS public datasets, the pipeline achieves an overall average Dice of 80.44% on INbreast test images, outperforming state-of-the-art. Our system shows promising accuracy as an automatic full-image mass segmentation system. Extensive experiments reveals robustness against the diversity of size, shape and appearance of breast masses, towards better interaction-free computer-aided diagnosis.
翻訳日:2022-12-28 09:16:59 公開日:2020-12-08
# FLIC: 高速ライダーイメージクラスタリング

FLIC: Fast Lidar Image Clustering ( http://arxiv.org/abs/2003.00575v2 )

ライセンス: Link先を確認
Frederik Hasecke and Lukas Hahn and Anton Kummert(参考訳) lidarセンサーは、科学分野から産業用途、消費者製品への統合まで、様々な用途で広く使われている。 近年、様々な運転支援システムが普及し、自動車シリーズ生産に導入され、自動運転の実現のための重要なビルディングブロックと考えられている。 しかし、スキャン当たりのライダーポイントが多すぎる可能性があるため、高度に精度の高い物体(例えば歩行者や車両)を極めて短時間で識別するアルゴリズムが必要とされる。 本研究では,Lidarセンサデータのリアルタイムインスタンス分割のためのアルゴリズム的アプローチを提案する。 本稿では,3次元計測情報を保持するためにユークリッド距離の特性を活用しながら,高速計算のための2次元表現に絞り込む方法を示す。 さらに, オーバーセグメンテーションに対するアプローチを堅牢にし, 部分的咬合の場合の割り当てを改善するために, スキップ接続と呼ぶものについても紹介する。 公開データの詳細な評価と確立された手法との比較を通じて、これらの側面が単一のCPUコア上での最先端のパフォーマンスと実行を可能にしていることを示す。

Lidar sensors are widely used in various applications, ranging from scientific fields over industrial use to integration in consumer products. With an ever growing number of different driver assistance systems, they have been introduced to automotive series production in recent years and are considered an important building block for the practical realisation of autonomous driving. However, due to the potentially large amount of Lidar points per scan, tailored algorithms are required to identify objects (e.g. pedestrians or vehicles) with high precision in a very short time. In this work, we propose an algorithmic approach for real-time instance segmentation of Lidar sensor data. We show how our method leverages the properties of the Euclidean distance to retain three-dimensional measurement information, while being narrowed down to a two-dimensional representation for fast computation. We further introduce what we call "skip connections", to make our approach robust against over-segmentation and improve assignment in cases of partial occlusion. Through detailed evaluation on public data and comparison with established methods, we show how these aspects enable state-of-the-art performance and runtime on a single CPU core.
翻訳日:2022-12-27 13:11:43 公開日:2020-12-08
# 低照度イメージングのための多視点光フィールドのハーネス化

Harnessing Multi-View Perspective of Light Fields for Low-Light Imaging ( http://arxiv.org/abs/2003.02438v2 )

ライセンス: Link先を確認
Mohit Lamba, Kranthi Kumar, Kaushik Mitra(参考訳) ライトフィールド(lf)はポストキャプチャーのリフォーカスや深度推定などのユニークな利点を提供するが、低光度条件ではこれらの能力に制限がある。 低照度LFを復元するには、異なるLFビューに存在する幾何学的手がかりを利用する必要がある。 そこで我々は,L3Fnetと呼ぶLow-Light Light Field (L3F)修復のためのディープニューラルネットワークを提案する。 提案したL3Fnetは、各LFビューの必要な視覚的拡張を行うだけでなく、ビュー間のエピポーラ幾何学も保持する。 L3Fnetの2段階アーキテクチャを採用することで実現した。 Stage-IはLFの幾何学をエンコードするためにすべてのLFビューを見る。 この符号化された情報はStage-IIで各LFビューを再構築するために使用される。 低照度LF画像の学習技術を容易にするため,様々なシーンの総合的なLFデータセットを収集した。 各シーンで、私たちは4つのLFを捉えました。1つは、ほぼ最適露出とISO設定で、もう1つは、低照度から極低照度設定で異なるレベルの低照度条件で。 提案したL3Fnetの有効性は、このデータセットの視覚的および数値的比較によって支持される。 また,低照度再構成法の性能を解析するために,夜間に観測したLFをほぼゼロのラックス値で有するL3F-wildデータセットを提案する。 このデータセットには根拠の真実はありません。 L3F-wildデータセットでうまく機能するためには、任意のメソッドがキャプチャされたシーンの光レベルに適応する必要がある。 そこで我々は,l3fnetを様々な低照度条件で頑健にする新しい前処理ブロックを提案する。 最後に,L3FnetはLFデータのために設計されているにも関わらず,低光域の単一フレーム画像の拡張にも利用できることを示す。 単一フレーム DSLR 画像を L3Fnet に適した形式に変換して,それを擬似LF と呼ぶ。

Light Field (LF) offers unique advantages such as post-capture refocusing and depth estimation, but low-light conditions limit these capabilities. To restore low-light LFs we should harness the geometric cues present in different LF views, which is not possible using single-frame low-light enhancement techniques. We, therefore, propose a deep neural network for Low-Light Light Field (L3F) restoration, which we refer to as L3Fnet. The proposed L3Fnet not only performs the necessary visual enhancement of each LF view but also preserves the epipolar geometry across views. We achieve this by adopting a two-stage architecture for L3Fnet. Stage-I looks at all the LF views to encode the LF geometry. This encoded information is then used in Stage-II to reconstruct each LF view. To facilitate learning-based techniques for low-light LF imaging, we collected a comprehensive LF dataset of various scenes. For each scene, we captured four LFs, one with near-optimal exposure and ISO settings and the others at different levels of low-light conditions varying from low to extreme low-light settings. The effectiveness of the proposed L3Fnet is supported by both visual and numerical comparisons on this dataset. To further analyze the performance of low-light reconstruction methods, we also propose an L3F-wild dataset that contains LF captured late at night with almost zero lux values. No ground truth is available in this dataset. To perform well on the L3F-wild dataset, any method must adapt to the light level of the captured scene. To do this we propose a novel pre-processing block that makes L3Fnet robust to various degrees of low-light conditions. Lastly, we show that L3Fnet can also be used for low-light enhancement of single-frame images, despite it being engineered for LF data. We do so by converting the single-frame DSLR image into a form suitable to L3Fnet, which we call as pseudo-LF.
翻訳日:2022-12-26 07:27:39 公開日:2020-12-08
# モデルアンサンブルにおける情報ボトルネックの多様性

Diversity inducing Information Bottleneck in Model Ensembles ( http://arxiv.org/abs/2003.04514v3 )

ライセンス: Link先を確認
Samarth Sinha, Homanga Bharadhwaj, Anirudh Goyal, Hugo Larochelle, Animesh Garg, Florian Shkurti(参考訳) 深層学習モデルは、多くの視覚タスクにおいて最先端のパフォーマンスを達成したが、高次元マルチモーダルデータに対する一般化と信頼性のある予測不確実性推定は研究の活発な領域である。 ベイジアンニューラルネットワーク(BNN)を含むベイジアンアプローチは、訓練が困難であり、データセットシフト下での一般化が不十分であるため、現代のコンピュータビジョンタスクには適さない。 これにより、信頼できる不確実性推定を一般化し提供できる効果的なアンサンブルの必要性が高まる。 本稿では,予測の多様性を奨励することで,ニューラルネットワークの効果的なアンサンブルを生成する問題をターゲットにする。 確率的潜在変数を学習するために、逆損失を誘発する多様性を明示的に最適化し、マルチモーダルデータのモデリングに必要な出力予測の多様性を得る。 本手法は,mnist,cifar100,tinyimagenet,mit places 2のベンチマークデータセットで評価し,最も競争力のあるベースラインと比較すると,データ分布の変化と分散検出において,分類精度が著しく向上した。 コードはhttps://github.com/rvl-lab-utoronto/dibsでリリースされる。

Although deep learning models have achieved state-of-the-art performance on a number of vision tasks, generalization over high dimensional multi-modal data, and reliable predictive uncertainty estimation are still active areas of research. Bayesian approaches including Bayesian Neural Nets (BNNs) do not scale well to modern computer vision tasks, as they are difficult to train, and have poor generalization under dataset-shift. This motivates the need for effective ensembles which can generalize and give reliable uncertainty estimates. In this paper, we target the problem of generating effective ensembles of neural networks by encouraging diversity in prediction. We explicitly optimize a diversity inducing adversarial loss for learning the stochastic latent variables and thereby obtain diversity in the output predictions necessary for modeling multi-modal data. We evaluate our method on benchmark datasets: MNIST, CIFAR100, TinyImageNet and MIT Places 2, and compared to the most competitive baselines show significant improvements in classification accuracy, under a shift in the data distribution and in out-of-distribution detection. Code will be released in this url https://github.com/rvl-lab-utoronto/dibs
翻訳日:2022-12-24 20:19:07 公開日:2020-12-08
# クローズ型複数選択質問に対する知識駆動型デトラクタ生成

Knowledge-Driven Distractor Generation for Cloze-style Multiple Choice Questions ( http://arxiv.org/abs/2004.09853v3 )

ライセンス: Link先を確認
Siyu Ren, Kenny Q. Zhu(参考訳) 本稿では,オープンドメインのクローゼスタイルのマルチチョイス質問に対する注意散らし選択を自動的に生成する新しい構成可能なフレームワークを提案する。このフレームワークは,汎用的な知識ベースを組み込んで,小さな注意散らし候補セットを効果的に作成する。 4つのドメインにまたがるデータセットに関する実験の結果、我々のフレームワークは、以前の方法よりも妥当で信頼性の高い邪魔者をもたらします。 このデータセットは、将来的には邪魔者生成のベンチマークとしても使用できる。

In this paper, we propose a novel configurable framework to automatically generate distractive choices for open-domain cloze-style multiple-choice questions, which incorporates a general-purpose knowledge base to effectively create a small distractor candidate set, and a feature-rich learning-to-rank model to select distractors that are both plausible and reliable. Experimental results on datasets across four domains show that our framework yields distractors that are more plausible and reliable than previous methods. This dataset can also be used as a benchmark for distractor generation in the future.
翻訳日:2022-12-11 05:54:29 公開日:2020-12-08
# 画像処理システムの最適化のための画質モデルの比較

Comparison of Image Quality Models for Optimization of Image Processing Systems ( http://arxiv.org/abs/2005.01338v3 )

ライセンス: Link先を確認
Keyan Ding, Kede Ma, Shiqi Wang, Eero P. Simoncelli(参考訳) 対象画像品質評価(IQA)モデルの性能は、主にモデル予測と人間の品質判断を比較して評価されている。 この目的のために収集された知覚データセットはIQA法を改善するための有用なベンチマークを提供しているが、その多用は過度に適合するリスクを生んでいる。 本稿では,画像処理アルゴリズムの最適化のための目的としての利用の観点から,iqaモデルの大規模比較を行う。 具体的には、11のフル参照IQAモデルを使用して、ディープニューラルネットワークを4つの低レベルなビジョンタスクにトレーニングします。 最適化された画像に対する主観的テストにより、その知覚的パフォーマンスの観点から競合するモデルをランク付けし、それらのタスクにおける相対的優位性とデメリットを解明し、将来のiqaモデルに組み込むための望ましい特性セットを提案する。

The performance of objective image quality assessment (IQA) models has been evaluated primarily by comparing model predictions to human quality judgments. Perceptual datasets gathered for this purpose have provided useful benchmarks for improving IQA methods, but their heavy use creates a risk of overfitting. Here, we perform a large-scale comparison of IQA models in terms of their use as objectives for the optimization of image processing algorithms. Specifically, we use eleven full-reference IQA models to train deep neural networks for four low-level vision tasks: denoising, deblurring, super-resolution, and compression. Subjective testing on the optimized images allows us to rank the competing models in terms of their perceptual performance, elucidate their relative advantages and disadvantages in these tasks, and propose a set of desirable properties for incorporation into future IQA models.
翻訳日:2022-12-07 01:33:18 公開日:2020-12-08
# caire-covid:covid-19学術情報管理のための質問応答とクエリ指向のマルチドキュメント要約システム

CAiRE-COVID: A Question Answering and Query-focused Multi-Document Summarization System for COVID-19 Scholarly Information Management ( http://arxiv.org/abs/2005.03975v3 )

ライセンス: Link先を確認
Dan Su, Yan Xu, Tiezheng Yu, Farhad Bin Siddique, Elham J. Barezi, Pascale Fung(参考訳) 医療専門家が判断したKaggle COVID-19 Open Research Dataset Challengeの10つのタスクのうちの1つに、リアルタイム質問応答(QA)とマルチドキュメント要約システムであるCAiRE-COVIDを紹介した。 本システムの目的は,コミュニティからの優先度の高い質問に回答し,有能な質問関連情報を要約することで,新型コロナウイルスに関する数多くの学術論文をマイニングすることにある。 情報抽出と最先端のQAとクエリ中心のマルチドキュメント要約技術を組み合わせて、クエリが与えられた既存の文献からエビデンスススニペットを選択してハイライトする。 また,質問に焦点をあてた抽象的かつ抽出的な多文書要約手法を提案し,質問に関するより関連性の高い情報を提供する。 さらに,各モジュールの各種指標について一貫した改善を示す定量的実験を行う。 私たちは、医療コミュニティが広く利用するためのウェブサイトCAiRE-COVIDをローンチし、我々のシステムのコードをオープンソース化し、他の研究者によるさらなる研究をブートストラップしました。

We present CAiRE-COVID, a real-time question answering (QA) and multi-document summarization system, which won one of the 10 tasks in the Kaggle COVID-19 Open Research Dataset Challenge, judged by medical experts. Our system aims to tackle the recent challenge of mining the numerous scientific articles being published on COVID-19 by answering high priority questions from the community and summarizing salient question-related information. It combines information extraction with state-of-the-art QA and query-focused multi-document summarization techniques, selecting and highlighting evidence snippets from existing literature given a query. We also propose query-focused abstractive and extractive multi-document summarization methods, to provide more relevant information related to the question. We further conduct quantitative experiments that show consistent improvements on various metrics for each module. We have launched our website CAiRE-COVID for broader use by the medical community, and have open-sourced the code for our system, to bootstrap further study by other researches.
翻訳日:2022-12-07 00:19:26 公開日:2020-12-08
# HourNAS:Hourglassレンズによる超高速なニューラルネットワーク検索

HourNAS: Extremely Fast Neural Architecture Search Through an Hourglass Lens ( http://arxiv.org/abs/2005.14446v3 )

ライセンス: Link先を確認
Zhaohui Yang, Yunhe Wang, Xinghao Chen, Jianyuan Guo, Wei Zhang, Chao Xu, Chunjing Xu, Dacheng Tao, Chang Xu(参考訳) Neural Architecture Search (NAS) はアーキテクチャを自動的に設計する。 本稿では,この問題に対する時間ガラスインスパイアされたアプローチ (HourNAS) を提案する。 時計の狭い首のように、ディープニューラルネットワークの出力への入力から保証された経路のバイタルブロックは情報の流れを制限し、ネットワークの精度に影響を与える。 他のブロックはネットワークの主要なボリュームを占め、砂時計の球根に対応するネットワーク全体の複雑さを決定する。 高い精度を保ちながら極めて高速なNASを実現するため,本研究では,重要なブロックを同定し,アーキテクチャ探索の優先事項とする。 これらの非ベクトルブロックの探索空間はさらに小さくなり、計算資源制約の下で安価な候補のみをカバーする。 ImageNetの実験結果によると、1つのGPUで3時間(0.1日)しか使用できないため、HourNASは77.0%のTop-1精度を実現するアーキテクチャを検索できる。

Neural Architecture Search (NAS) refers to automatically design the architecture. We propose an hourglass-inspired approach (HourNAS) for this problem that is motivated by the fact that the effects of the architecture often proceed from the vital few blocks. Acting like the narrow neck of an hourglass, vital blocks in the guaranteed path from the input to the output of a deep neural network restrict the information flow and influence the network accuracy. The other blocks occupy the major volume of the network and determine the overall network complexity, corresponding to the bulbs of an hourglass. To achieve an extremely fast NAS while preserving the high accuracy, we propose to identify the vital blocks and make them the priority in the architecture search. The search space of those non-vital blocks is further shrunk to only cover the candidates that are affordable under the computational resource constraints. Experimental results on the ImageNet show that only using 3 hours (0.1 days) with one GPU, our HourNAS can search an architecture that achieves a 77.0% Top-1 accuracy, which outperforms the state-of-the-art methods.
翻訳日:2022-11-26 23:30:41 公開日:2020-12-08
# 逆形状探索を用いたワッサースタイン距離誘導対数模倣学習

Wasserstein Distance guided Adversarial Imitation Learning with Reward Shape Exploration ( http://arxiv.org/abs/2006.03503v2 )

ライセンス: Link先を確認
Ming Zhang, Yawei Wang, Xiaoteng Ma, Li Xia, Jun Yang, Zhiheng Li, Xiu Li(参考訳) GAIL(Generative Adversarial mimicion Learning)は,高次元連続タスクにおける実演から専門家の方針を模倣する逆学習フレームワークを提供する。 しかしながら、ほとんどすべてのGAILとその拡張は、全ての複雑な環境に対してJensen-Shannon (JS) 偏差を持つ対数訓練戦略において、対数形式の報酬関数を設計するのみである。 報酬関数の固定対数型は、全ての複雑なタスクを解くのが難しくなり、jsの発散に起因する勾配の消失問題は、逆の学習プロセスに影響を及ぼす。 本稿では,WDAIL(Adversarial Imitation Learning)と呼ばれる,模倣学習(IL)の性能向上のための新しいアルゴリズムを提案する。 私たちの方法には3つの改善点がある。 (a)対向訓練過程において、より適切な尺度を得るために、ワッサースタイン距離を導入すること。 b) 強化学習段階においてPPO(Pximal Policy Optimization)を用いることにより、より実装が簡単になり、アルゴリズムをより効率的にする。 (c)性能向上のために異なる課題に適合する報奨機能形状を探索すること。 実験結果から,MuJoCoの複雑な連続制御タスクにおいて,学習手順は極めて安定であり,高い性能が得られた。

The generative adversarial imitation learning (GAIL) has provided an adversarial learning framework for imitating expert policy from demonstrations in high-dimensional continuous tasks. However, almost all GAIL and its extensions only design a kind of reward function of logarithmic form in the adversarial training strategy with the Jensen-Shannon (JS) divergence for all complex environments. The fixed logarithmic type of reward function may be difficult to solve all complex tasks, and the vanishing gradients problem caused by the JS divergence will harm the adversarial learning process. In this paper, we propose a new algorithm named Wasserstein Distance guided Adversarial Imitation Learning (WDAIL) for promoting the performance of imitation learning (IL). There are three improvements in our method: (a) introducing the Wasserstein distance to obtain more appropriate measure in the adversarial training process, (b) using proximal policy optimization (PPO) in the reinforcement learning stage which is much simpler to implement and makes the algorithm more efficient, and (c) exploring different reward function shapes to suit different tasks for improving the performance. The experiment results show that the learning procedure remains remarkably stable, and achieves significant performance in the complex continuous control tasks of MuJoCo.
翻訳日:2022-11-25 03:37:23 公開日:2020-12-08
# 単眼深度予測のための目標逆向摂動

Targeted Adversarial Perturbations for Monocular Depth Prediction ( http://arxiv.org/abs/2006.08602v2 )

ライセンス: Link先を確認
Alex Wong, Safa Cicek, Stefano Soatto(参考訳) 対向摂動が単眼深度予測の課題に及ぼす影響について検討した。 具体的には, シーンの知覚形状を選択的に変化させる, 小さい, 知覚不能な付加摂動の能力について検討する。 このような摂動は、カメラからの予測距離をグローバルに再スケールできるだけでなく、異なるターゲットシーンにマッチするように予測を変更することができる。 また,意味やインスタンスの情報が与えられた場合,摂動がネットワークを騙し,シーン内の特定のカテゴリやインスタンスの深さを変化させたり,シーンの残りを保存しながら削除したりできることを示した。 対象の摂動の影響を理解するため,最先端の単眼深度予測法について実験を行った。 実験の結果,単分子深度予測ネットワークの脆弱性が明らかとなり,それらが学習したバイアスや文脈に光を当てた。

We study the effect of adversarial perturbations on the task of monocular depth prediction. Specifically, we explore the ability of small, imperceptible additive perturbations to selectively alter the perceived geometry of the scene. We show that such perturbations can not only globally re-scale the predicted distances from the camera, but also alter the prediction to match a different target scene. We also show that, when given semantic or instance information, perturbations can fool the network to alter the depth of specific categories or instances in the scene, and even remove them while preserving the rest of the scene. To understand the effect of targeted perturbations, we conduct experiments on state-of-the-art monocular depth prediction methods. Our experiments reveal vulnerabilities in monocular depth prediction networks, and shed light on the biases and context learned by them.
翻訳日:2022-11-22 04:27:02 公開日:2020-12-08
# 時間依存ベイズ最適化のための再帰的二段階ルックアヘッド予測

Recursive Two-Step Lookahead Expected Payoff for Time-Dependent Bayesian Optimization ( http://arxiv.org/abs/2006.08037v2 )

ライセンス: Link先を確認
S. Ashwin Renganathan, Jeffrey Larson and Stefan Wild(参考訳) 我々は,時間依存の費用対評価オラクルの最大化を解決する新しいベイズ法を提案する。 有限時間地平線でオラクルを最大化する決定は、比較的少ないノイズ評価を地平線の前に行うことができる場合に、我々は興味を持っている。 我々の再帰的で、2段階のルックアヘッド予測ペイオフ (\texttt{r2LEY}$) 取得関数は、水平線におけるオラクルの予測値の最大化によって、各段階における非神秘的な決定を行う。 $\texttt{r2LEY}$は、各段階で2段階のルックアヘッド取得関数を再帰的に最適化することにより、高価なマルチステップ(2段階以上)ルックアヘッド取得関数の評価を回避する。 $\texttt{r2LEY}$ は時間地平線から遠く離れた自然探査特性を示すことが示され、神託の正確なエミュレーションを可能にする。 $\texttt{r2LEY}$の実用性を実証するために、合成と実世界の両方のデータセットを介して、一般的な筋電図取得関数の時間依存拡張と比較する。

We propose a novel Bayesian method to solve the maximization of a time-dependent expensive-to-evaluate oracle. We are interested in the decision that maximizes the oracle at a finite time horizon, when relatively few noisy evaluations can be performed before the horizon. Our recursive, two-step lookahead expected payoff ($\texttt{r2LEY}$) acquisition function makes nonmyopic decisions at every stage by maximizing the estimated expected value of the oracle at the horizon. $\texttt{r2LEY}$ circumvents the evaluation of the expensive multistep (more than two steps) lookahead acquisition function by recursively optimizing a two-step lookahead acquisition function at every stage; unbiased estimators of this latter function and its gradient are utilized for efficient optimization. $\texttt{r2LEY}$ is shown to exhibit natural exploration properties far from the time horizon, enabling accurate emulation of the oracle, which is exploited in the final decision made at the horizon. To demonstrate the utility of $\texttt{r2LEY}$, we compare it with time-dependent extensions of popular myopic acquisition functions via both synthetic and real-world datasets.
翻訳日:2022-11-21 13:22:14 公開日:2020-12-08
# プレコンディショニングはいつ役に立つのか?

When Does Preconditioning Help or Hurt Generalization? ( http://arxiv.org/abs/2006.10732v4 )

ライセンス: Link先を確認
Shun-ichi Amari, Jimmy Ba, Roger Grosse, Xuechen Li, Atsushi Nitanda, Taiji Suzuki, Denny Wu, Ji Xu(参考訳) 自然勾配降下(NGD)のような二階最適化器はしばしば最適化を高速化するが、一般化に対する効果は疑問視されている。 本研究は、一階および二階法の \textit{implicit bias} が一般化特性の比較にどのように影響するかについてより微妙な見解を示す。 プレコンディショナー $\boldsymbol{p}$ の一般クラスの下での過パラメータリッジレス回帰の一般化誤差の正確な漸近偏分散分解を行い、逆集団フィッシャー情報行列(ngdで使われる)を具体例とする。 バイアスと分散の両方に対して最適な$\boldsymbol{p}$を決定し、異なるオプティマイザの相対的一般化性能がラベルノイズと信号の「形」に依存すること(真のパラメータ): ラベルがノイズである場合、モデルが不特定化されているか、あるいは信号が特徴と不一致している場合、ngdはより低いリスクを達成できる。 この分析に基づいて,バイアス分散トレードオフを管理するためのいくつかのアプローチと,GDとNGDを補間する可能性について論じる。 次に、再生核ヒルベルト空間における回帰分析を拡張し、事前条件付きgdがgdよりも早く人口リスクを低減できることを示す。 最後に、ニューラルネットワーク実験における一階及び二階最適化器の一般化誤差を実証的に比較し、理論解析と一致する堅牢な傾向を観察する。

While second order optimizers such as natural gradient descent (NGD) often speed up optimization, their effect on generalization has been called into question. This work presents a more nuanced view on how the \textit{implicit bias} of first- and second-order methods affects the comparison of generalization properties. We provide an exact asymptotic bias-variance decomposition of the generalization error of overparameterized ridgeless regression under a general class of preconditioner $\boldsymbol{P}$, and consider the inverse population Fisher information matrix (used in NGD) as a particular example. We determine the optimal $\boldsymbol{P}$ for both the bias and variance, and find that the relative generalization performance of different optimizers depends on the label noise and the "shape" of the signal (true parameters): when the labels are noisy, the model is misspecified, or the signal is misaligned with the features, NGD can achieve lower risk; conversely, GD generalizes better than NGD under clean labels, a well-specified model, or aligned signal. Based on this analysis, we discuss several approaches to manage the bias-variance tradeoff, and the potential benefit of interpolating between GD and NGD. We then extend our analysis to regression in the reproducing kernel Hilbert space and demonstrate that preconditioned GD can decrease the population risk faster than GD. Lastly, we empirically compare the generalization error of first- and second-order optimizers in neural network experiments, and observe robust trends matching our theoretical analysis.
翻訳日:2022-11-19 12:55:53 公開日:2020-12-08
# 深層学習の射程定式化

A Shooting Formulation of Deep Learning ( http://arxiv.org/abs/2006.10330v2 )

ライセンス: Link先を確認
Fran\c{c}ois-Xavier Vialard (ligm), Roland Kwitt, Susan Wei, Marc Niethammer(参考訳) 連続深度ニューラルネットワークは、通常の微分方程式(ODE)の離散化に似ている離散ニューラルネットワークの深い限界と見なすことができる。 このような連続的な定式化の利点を実現するために重要なステップが取られてきたが、現在のほとんどの手法は真に連続的な深さではない。 実際、既存の研究は、連続深さのニューラルODEを学習する際に無限次元のパラメータ空間によって提示される無数の困難を緩和する。 そこで本研究では,ネットワーク層毎のパラメータ化から,初期条件の組によってのみ記述される最適ネットワーク上でのパラメータ化へ,視点をシフトするシューティング方式を提案する。 拡張性のために,連続深度ニューラルネットワークの最適重み軌跡を同定する新しい粒子アンサンブルパラメトリゼーションを提案する。 実験により, 粒子アンサンブル射撃の定式化は, 特に長距離予測タスクにおいて, 競争性能を向上できることが示された。 最後に、現在の研究は連続的な深層ニューラルネットワークにインスパイアされているが、粒子アンサンブル射撃の定式化は離散時間ネットワークにも適用され、深層学習のパラメトリゼーションにおける新たな研究領域につながる可能性がある。

Continuous-depth neural networks can be viewed as deep limits of discrete neural networks whose dynamics resemble a discretization of an ordinary differential equation (ODE). Although important steps have been taken to realize the advantages of such continuous formulations, most current techniques are not truly continuous-depth as they assume \textit{identical} layers. Indeed, existing works throw into relief the myriad difficulties presented by an infinite-dimensional parameter space in learning a continuous-depth neural ODE. To this end, we introduce a shooting formulation which shifts the perspective from parameterizing a network layer-by-layer to parameterizing over optimal networks described only by a set of initial conditions. For scalability, we propose a novel particle-ensemble parametrization which fully specifies the optimal weight trajectory of the continuous-depth neural network. Our experiments show that our particle-ensemble shooting formulation can achieve competitive performance, especially on long-range forecasting tasks. Finally, though the current work is inspired by continuous-depth neural networks, the particle-ensemble shooting formulation also applies to discrete-time networks and may lead to a new fertile area of research in deep learning parametrization.
翻訳日:2022-11-19 09:58:50 公開日:2020-12-08
# 2段階学習のための非接触微分自由最適化

Inexact Derivative-Free Optimization for Bilevel Learning ( http://arxiv.org/abs/2006.12674v2 )

ライセンス: Link先を確認
Matthias J. Ehrhardt, Lindon Roberts(参考訳) 変分正規化技術は数理イメージングの分野で支配的である。 これらのテクニックの欠点は、ユーザが設定しなければならない多くのパラメータに依存していることだ。 この問題を解決するための一般的な戦略は、これらのパラメータをデータから学習することだ。 この戦略を数学的にアピールする一方で、ネスト最適化問題(二値最適化として知られる)は計算処理が非常に難しい。 上層問題の解決において、下層問題の正確な解にアクセスできると仮定することは、事実上不可能である。 本研究では, 厳密な低レベル問題解を必要としない不正確な微分自由最適化アルゴリズムを用いて, 制御可能な精度で近似解にアクセスできるようにする。 グローバル収束と、アプローチに結びついた最悪の複雑性を証明する。 提案するROFデノジングおよびMRIサンプリングパターンの学習フレームワークをテストする。 低レベルの精度を動的に調整すると、学習パラメータは高精度な評価と同様の再現品質を持つが、計算作業が劇的に削減される(場合によっては最大100倍高速になる)。

Variational regularization techniques are dominant in the field of mathematical imaging. A drawback of these techniques is that they are dependent on a number of parameters which have to be set by the user. A by now common strategy to resolve this issue is to learn these parameters from data. While mathematically appealing this strategy leads to a nested optimization problem (known as bilevel optimization) which is computationally very difficult to handle. It is common when solving the upper-level problem to assume access to exact solutions of the lower-level problem, which is practically infeasible. In this work we propose to solve these problems using inexact derivative-free optimization algorithms which never require exact lower-level problem solutions, but instead assume access to approximate solutions with controllable accuracy, which is achievable in practice. We prove global convergence and a worstcase complexity bound for our approach. We test our proposed framework on ROFdenoising and learning MRI sampling patterns. Dynamically adjusting the lower-level accuracy yields learned parameters with similar reconstruction quality as highaccuracy evaluations but with dramatic reductions in computational work (up to 100 times faster in some cases).
翻訳日:2022-11-17 21:40:00 公開日:2020-12-08
# 連続学習:リプレイ過程を伴うディープニューラルネットワークにおける破滅的な忘れ方に取り組む

Continual Learning: Tackling Catastrophic Forgetting in Deep Neural Networks with Replay Processes ( http://arxiv.org/abs/2007.00487v3 )

ライセンス: Link先を確認
Timoth\'ee Lesort(参考訳) 人間は生涯を長く学ぶ。 一連の学習経験から知識を蓄積し、それまで学んだことを忘れることなく本質的な概念を思い出す。 ニューラルネットワークも同様に学習するのに苦労する。 彼らはしばしば、分類や回帰といった特定の問題に対するソリューションを学ぶために、厳格に事前処理されたデータに依存します。 特に、新しいことを訓練すれば、過去の学習経験を忘れてしまう。 したがって、ニューラルネットワークは、新しい状況に適応するためにオンラインを学習し、過去の学習経験を忘れずに新しい問題を克服しなければならない自律ロボットのような現実の状況に対処できないことが多い。 継続学習(CL)は、この種の問題に対処する機械学習の一分野である。 連続的なアルゴリズムは、忘れずに学習経験のカリキュラムで知識を蓄積し、改善するように設計されている。 本稿では,リプレイプロセスを用いた連続アルゴリズムについて検討する。 リプレイプロセスは、リハーサルメソッドと生成リプレイメソッドをまとめます。 生成的再生は、過去の学習経験を記憶するための生成モデルで再現する。 リハーサルは、過去の学習経験からコアセットのサンプルを保存して後でリハーサルする。 リプレイプロセスは、現在の学習目標の最適化と、タスク設定のシーケンスを忘れずに学習を可能にする過去の学習との妥協を可能にする。 連続学習には非常に有望な手法であることを示す。 特に、過去のデータを新しい知識で再評価し、異なる学習経験からのデータの対立を可能にする。 教師なし学習,教師なし学習,強化学習タスクを通じて継続的に学習する能力を示す。

Humans learn all their life long. They accumulate knowledge from a sequence of learning experiences and remember the essential concepts without forgetting what they have learned previously. Artificial neural networks struggle to learn similarly. They often rely on data rigorously preprocessed to learn solutions to specific problems such as classification or regression. In particular, they forget their past learning experiences if trained on new ones. Therefore, artificial neural networks are often inept to deal with real-life settings such as an autonomous-robot that has to learn on-line to adapt to new situations and overcome new problems without forgetting its past learning-experiences. Continual learning (CL) is a branch of machine learning addressing this type of problem. Continual algorithms are designed to accumulate and improve knowledge in a curriculum of learning-experiences without forgetting. In this thesis, we propose to explore continual algorithms with replay processes. Replay processes gather together rehearsal methods and generative replay methods. Generative Replay consists of regenerating past learning experiences with a generative model to remember them. Rehearsal consists of saving a core-set of samples from past learning experiences to rehearse them later. The replay processes make possible a compromise between optimizing the current learning objective and the past ones enabling learning without forgetting in sequences of tasks settings. We show that they are very promising methods for continual learning. Notably, they enable the re-evaluation of past data with new knowledge and the confrontation of data from different learning-experiences. We demonstrate their ability to learn continually through unsupervised learning, supervised learning and reinforcement learning tasks.
翻訳日:2022-11-14 21:43:27 公開日:2020-12-08
# Relevance Transformer: 関連フィードバックによる簡潔コードスニペットの生成

Relevance Transformer: Generating Concise Code Snippets with Relevance Feedback ( http://arxiv.org/abs/2007.02609v2 )

ライセンス: Link先を確認
Carlos Gemmell, Federico Rossetto, Jeffrey Dalton(参考訳) 自動コード生成が可能なツールは、プログラマの能力を増強する可能性がある。 単純なコード検索は多くのIDEに組み込まれているが、新たな領域は明示的なコード生成である。 現在、コード生成は機械翻訳タスクとしてアプローチされており、リカレントニューラルネットワーク(RNN)ベースのエンコーダ-デコーダアーキテクチャはコード記述ペアに基づいて訓練されている。 本稿では、このタスクのためのモダントランスフォーマーアーキテクチャを紹介し、研究する。 さらに、擬似関連フィードバックを用いて外部知識を取り入れたRelevance Transformerと呼ばれる新しいモデルを提案する。 関連トランスフォーマーは、多様性を強制しながら、デコーディングプロセスを既存の検索コードに類似させる。 我々は、Django、Hearthstone、CoNaLaを含むコード生成のための複数の標準ベンチマークデータセットで実験を行う。 その結果,BLEU評価に基づく最先端手法の改善が示された。 Relevance Transformerモデルは、コード生成のためのTransformerベースのアーキテクチャの可能性を示し、推論中に擬似関連フィードバックを組み込む方法を導入する。

Tools capable of automatic code generation have the potential to augment programmer's capabilities. While straightforward code retrieval is incorporated into many IDEs, an emerging area is explicit code generation. Code generation is currently approached as a Machine Translation task, with Recurrent Neural Network (RNN) based encoder-decoder architectures trained on code-description pairs. In this work we introduce and study modern Transformer architectures for this task. We further propose a new model called the Relevance Transformer that incorporates external knowledge using pseudo-relevance feedback. The Relevance Transformer biases the decoding process to be similar to existing retrieved code while enforcing diversity. We perform experiments on multiple standard benchmark datasets for code generation including Django, Hearthstone, and CoNaLa. The results show improvements over state-of-the-art methods based on BLEU evaluation. The Relevance Transformer model shows the potential of Transformer-based architectures for code generation and introduces a method of incorporating pseudo-relevance feedback during inference.
翻訳日:2022-11-13 01:26:30 公開日:2020-12-08
# ct画像を用いたcovid-19検出のためのブロックチェーンフェデレーション学習モデルとディープラーニングモデル

Blockchain-Federated-Learning and Deep Learning Models for COVID-19 detection using CT Imaging ( http://arxiv.org/abs/2007.06537v2 )

ライセンス: Link先を確認
Rajesh Kumar, Abdullah Aman Khan, Sinmin Zhang, Jay Kumar, Ting Yang, Noorbakhash Amiri Golalirz, Zakria, Ikram Ali, Sidra Shafiq and WenYong Wang(参考訳) 世界的な新型コロナウイルス感染者の増加に伴い、新型コロナウイルス患者の診断に有効な方法が求められている。 新型コロナウイルスの感染拡大により、検査キットの不足と信頼性が主な問題となり、医療従事者は陽性症例の特定に苦慮している。 第2の現実的な問題は、世界中の病院間でデータを共有し、組織のプライバシー上の懸念を注視することだ。 コラボレーションモデルの構築とプライバシの保護は、グローバルなディープラーニングモデルをトレーニングするための大きな関心事である。 本稿では、異なるソース(さまざまな病院)から少量のデータを集め、ブロックチェーンベースのフェデレーション学習を用いてグローバルなディープラーニングモデルをトレーニングするフレームワークを提案する。 ブロックチェーンテクノロジは、データの認証とフェデレーション学習を、組織のプライバシを維持しながら、グローバルにトレーニングする。 まず,異なる種類のCTスキャナーを持つ病院からデータを収集する際,データの均一性を扱うデータ正規化手法を提案する。 次に、Capsule Networkベースのセグメンテーションと分類を用いて、COVID-19患者を検出する。 第3に,プライバシを保護しながら,フェデレーション学習によるブロックチェーン技術を用いたグローバルモデルを協調的にトレーニングする手法を設計する。 さらに、研究コミュニティに開放された実生活のCOVID-19患者データも収集しました。 提案フレームワークは,CT画像の認識を改善するために,最新のデータを利用することができる。 最後に、この結果により、COVID-19患者の検出性能が向上した。

With the increase of COVID-19 cases worldwide, an effective way is required to diagnose COVID-19 patients. The primary problem in diagnosing COVID-19 patients is the shortage and reliability of testing kits, due to the quick spread of the virus, medical practitioners are facing difficulty identifying the positive cases. The second real-world problem is to share the data among the hospitals globally while keeping in view the privacy concerns of the organizations. Building a collaborative model and preserving privacy are major concerns for training a global deep learning model. This paper proposes a framework that collects a small amount of data from different sources (various hospitals) and trains a global deep learning model using blockchain based federated learning. Blockchain technology authenticates the data and federated learning trains the model globally while preserving the privacy of the organization. First, we propose a data normalization technique that deals with the heterogeneity of data as the data is gathered from different hospitals having different kinds of CT scanners. Secondly, we use Capsule Network-based segmentation and classification to detect COVID-19 patients. Thirdly, we design a method that can collaboratively train a global model using blockchain technology with federated learning while preserving privacy. Additionally, we collected real-life COVID-19 patients data, which is, open to the research community. The proposed framework can utilize up-to-date data which improves the recognition of computed tomography (CT) images. Finally, our results demonstrate a better performance to detect COVID-19 patients.
翻訳日:2022-11-11 21:49:54 公開日:2020-12-08
# Odyssey: トロイの木馬モデルの作成, 解析, 検出

Odyssey: Creation, Analysis and Detection of Trojan Models ( http://arxiv.org/abs/2007.08142v2 )

ライセンス: Link先を確認
Marzieh Edraki, Nazmul Karim, Nazanin Rahnavard, Ajmal Mian, Mubarak Shah(参考訳) ディープニューラルネットワーク(DNN)モデルの成功に伴い、これらのモデルの完全性に対する脅威が高まる。 最近の脅威は、攻撃者がトレーニングパイプラインにトリガーを挿入してトレーニングパイプラインを妨害し、トリガーを含むサンプルに対してのみ悪意ある動作をするようモデルを訓練するトロイの木馬攻撃である。 トリガーの知識は攻撃者に優先されるため、トロイの木馬ネットワークの検出は困難である。 既存のトロイの木馬検出器はトリガーの種類や攻撃について強い仮定をしている。 本稿では,固有DNN特性の分析に基づく検出器を提案する。 包括的分析のために,3000以上のクリーンモデルとトロイの木馬を用いた,これまでで最も多様なデータセットであるOdysseusを開発した。 odysseusは、トリガー設計とターゲットクラスのマッピングのソースの汎用性を活用することで生成される、さまざまな攻撃を扱っている。 解析の結果, トロイの木馬攻撃は, クリーンデータの多様体周辺の決定境界の分類マージンと形状に影響を及ぼすことがわかった。 これら2つの要因を探索し,攻撃の知識のない効率的なトロイの木馬検出装置を提案し,既存手法を著しく上回る性能を示した。 総合的な実験を通して,検出器のクロスモデルアーキテクチャ,未認識トリガー,正規化モデルに対する効果を実証する。

Along with the success of deep neural network (DNN) models, rise the threats to the integrity of these models. A recent threat is the Trojan attack where an attacker interferes with the training pipeline by inserting triggers into some of the training samples and trains the model to act maliciously only for samples that contain the trigger. Since the knowledge of triggers is privy to the attacker, detection of Trojan networks is challenging. Existing Trojan detectors make strong assumptions about the types of triggers and attacks. We propose a detector that is based on the analysis of the intrinsic DNN properties; that are affected due to the Trojaning process. For a comprehensive analysis, we develop Odysseus, the most diverse dataset to date with over 3,000 clean and Trojan models. Odysseus covers a large spectrum of attacks; generated by leveraging the versatility in trigger designs and source to target class mappings. Our analysis results show that Trojan attacks affect the classifier margin and shape of decision boundary around the manifold of clean data. Exploiting these two factors, we propose an efficient Trojan detector that operates without any knowledge of the attack and significantly outperforms existing methods. Through a comprehensive set of experiments we demonstrate the efficacy of the detector on cross model architectures, unseen Triggers and regularized models.
翻訳日:2022-11-09 23:15:14 公開日:2020-12-08
# 逆ロバスト画像ネットモデルの方が良いか?

Do Adversarially Robust ImageNet Models Transfer Better? ( http://arxiv.org/abs/2007.08489v2 )

ライセンス: Link先を確認
Hadi Salman, Andrew Ilyas, Logan Engstrom, Ashish Kapoor, Aleksander Madry(参考訳) 転送学習はディープラーニングにおいて広く使われているパラダイムであり、標準データセットで事前トレーニングされたモデルは、下流タスクに効率的に適応することができる。 通常、より優れた事前学習モデルにより、より優れた転送結果が得られ、初期精度が転送学習性能の重要な側面であることを示唆する。 この研究では、別の側面を特定している: 敵対的ロバストなモデルは、正確性は低いが、転送学習に使用する場合、標準訓練されたモデルよりもよく機能する。 具体的には,敵対的ロバストなimagenet分類器に着目し,下流分類タスクの標準スイートにおける精度の向上を示す。 さらなる分析により、転送学習の文脈におけるロバストモデルと標準モデルの違いが明らかになった。 私たちの結果は、ロバスト性が機能表現の改善につながるという最近の仮説と一致しています。 私たちのコードとモデルはhttps://github.com/microsoft/robust-models-transferで利用可能です。

Transfer learning is a widely-used paradigm in deep learning, where models pre-trained on standard datasets can be efficiently adapted to downstream tasks. Typically, better pre-trained models yield better transfer results, suggesting that initial accuracy is a key aspect of transfer learning performance. In this work, we identify another such aspect: we find that adversarially robust models, while less accurate, often perform better than their standard-trained counterparts when used for transfer learning. Specifically, we focus on adversarially robust ImageNet classifiers, and show that they yield improved accuracy on a standard suite of downstream classification tasks. Further analysis uncovers more differences between robust and standard models in the context of transfer learning. Our results are consistent with (and in fact, add to) recent hypotheses stating that robustness leads to improved feature representations. Our code and models are available at https://github.com/Microsoft/robust-models-transfer .
翻訳日:2022-11-09 21:55:25 公開日:2020-12-08
# 慎重なアクティブクラスタリング

Cautious Active Clustering ( http://arxiv.org/abs/2008.01245v2 )

ライセンス: Link先を確認
Alexander Cloninger, Hrushikesh Mhaskar(参考訳) ユークリッド空間上の未知の確率測度からサンプリングされた点の分類の問題を考える。 そこで本研究では,クラスラベルをごく少数の特異点に問合せすることで,適切なクラスラベルをセットの各点にアタッチできるかどうかを考察する。 我々のアプローチは、未知の確率測度を各クラスに対する条件確率の凸結合として考えることである。 本手法では,ヘルマイト多項式から構築した高局所化カーネルを用いて,構成確率測度の支持部の階層的推定を行う。 任意の確率測度の性質について仮定する必要はなく、関連するクラスの数を事前に知る必要もない。 私たちは分類スキームに$f$-scoreで測定した理論的保証を与える。 例えば、ハイパースペクトル画像の分類やMNIST分類などがある。

We consider the problem of classification of points sampled from an unknown probability measure on a Euclidean space. We study the question of querying the class label at a very small number of judiciously chosen points so as to be able to attach the appropriate class label to every point in the set. Our approach is to consider the unknown probability measure as a convex combination of the conditional probabilities for each class. Our technique involves the use of a highly localized kernel constructed from Hermite polynomials, in order to create a hierarchical estimate of the supports of the constituent probability measures. We do not need to make any assumptions on the nature of any of the probability measures nor know in advance the number of classes involved. We give theoretical guarantees measured by the $F$-score for our classification scheme. Examples include classification in hyper-spectral images and MNIST classification.
翻訳日:2022-11-03 06:15:29 公開日:2020-12-08
# ClipUp: 分散ベースのポリシー進化のためのシンプルで強力な最適化

ClipUp: A Simple and Powerful Optimizer for Distribution-based Policy Evolution ( http://arxiv.org/abs/2008.02387v3 )

ライセンス: Link先を確認
Nihat Engin Toklu, Pawe{\l} Liskowski, Rupesh Kumar Srivastava(参考訳) 分布に基づく探索アルゴリズムは、ニューラルネットワークコントローラの進化的強化学習に有効な手法である。 これらのアルゴリズムでは、探索分布から引き出された解の集団を用いて、政策パラメータに対する総報酬の勾配を推定し、確率的勾配上昇による政策最適化に使用する。 コミュニティで一般的な選択は、様々な教師付き学習環境での成功により、勾配上昇中の適応行動を得るためにadam最適化アルゴリズムを使用することである。 adamの代替として,グラデーション正規化と更新クリップングという2つの単純な手法を用いて,古典的運動量に基づく勾配上昇の促進を提案する。 clipupと呼ばれるオプティマイザ("clipped updates"の略)は、動作原理がシンプルで理解しやすく、ハイパーパラメータが実際より直感的に調整できるので、配布ベースのポリシー進化に最適な選択肢であると主張する。 さらに、報酬スケールが変化した場合、ハイパーパラメータを再チューニングする必要がなくなる。 実験によると、ClipUpは単純さにもかかわらずAdamと競合しており、Bullet物理シミュレータに基づくヒューマノイド制御タスクを含む、挑戦的な継続的制御ベンチマークに有効である。

Distribution-based search algorithms are an effective approach for evolutionary reinforcement learning of neural network controllers. In these algorithms, gradients of the total reward with respect to the policy parameters are estimated using a population of solutions drawn from a search distribution, and then used for policy optimization with stochastic gradient ascent. A common choice in the community is to use the Adam optimization algorithm for obtaining an adaptive behavior during gradient ascent, due to its success in a variety of supervised learning settings. As an alternative to Adam, we propose to enhance classical momentum-based gradient ascent with two simple techniques: gradient normalization and update clipping. We argue that the resulting optimizer called ClipUp (short for "clipped updates") is a better choice for distribution-based policy evolution because its working principles are simple and easy to understand and its hyperparameters can be tuned more intuitively in practice. Moreover, it removes the need to re-tune hyperparameters if the reward scale changes. Experiments show that ClipUp is competitive with Adam despite its simplicity and is effective on challenging continuous control benchmarks, including the Humanoid control task based on the Bullet physics simulator.
翻訳日:2022-11-02 17:39:07 公開日:2020-12-08
# 重要重み付き境界に対するスコア関数勾配推定器の最適分散制御

Optimal Variance Control of the Score Function Gradient Estimator for Importance Weighted Bounds ( http://arxiv.org/abs/2008.01998v2 )

ライセンス: Link先を確認
Valentin Li\'evin, Andrea Dittadi, Anders Christensen, Ole Winther(参考訳) 本稿では,重要重み付き変動境界(IWAE)のスコア関数勾配推定器の新しい結果を紹介する。 我々は、大きな$k$(重要サンプル数)の限界において、推定子のsnr(signal-to-noise ratio)が$\sqrt{k}$となるように制御変数を選択することができることを証明する。 これは、SNRが1/\sqrt{K}$に減少する標準的な経路勾配推定器とは対照的である。 理論的な知見に基づいて,VIMCO上に広がる新規な制御変数を開発した。 実験により,連続生成モデルと離散生成モデルの両方のトレーニングにおいて,提案手法は優れた分散低減を実現し,再パラメータ化のトリックに頼ることなく,IWAEのSNRを$Kで増加させる。 この新しい推定器は、生成モデルのトレーニングにおいてreweighted wake-sleep (rws) や thermodynamic variational objective (tvo) のような最先端のパラメータフリーな勾配推定器と競合する。

This paper introduces novel results for the score function gradient estimator of the importance weighted variational bound (IWAE). We prove that in the limit of large $K$ (number of importance samples) one can choose the control variate such that the Signal-to-Noise ratio (SNR) of the estimator grows as $\sqrt{K}$. This is in contrast to the standard pathwise gradient estimator where the SNR decreases as $1/\sqrt{K}$. Based on our theoretical findings we develop a novel control variate that extends on VIMCO. Empirically, for the training of both continuous and discrete generative models, the proposed method yields superior variance reduction, resulting in an SNR for IWAE that increases with $K$ without relying on the reparameterization trick. The novel estimator is competitive with state-of-the-art reparameterization-free gradient estimators such as Reweighted Wake-Sleep (RWS) and the thermodynamic variational objective (TVO) when training generative models.
翻訳日:2022-11-02 17:37:25 公開日:2020-12-08
# 1m画像からの検索に基づく局所化のための学習条件不変性

Learning Condition Invariant Features for Retrieval-Based Localization from 1M Images ( http://arxiv.org/abs/2008.12165v2 )

ライセンス: Link先を確認
Janine Thoma, Danda Pani Paudel, Ajad Chhatkuli, Luc Van Gool(参考訳) 検索に基づくローカライゼーションのための画像機能は、動的オブジェクト(例えば車)や季節や昼間の変化に不変でなければならない。 このような不変性は、多種多様なトレーニング画像から、トリプレットのような損失を用いた既存の手法である程度学習可能である。 しかし、アルゴリズム的な訓練の複雑さが高いため、大きなデータセット上の異なる損失関数の比較は不十分である。 本稿では,100万以上の画像を含むoxford robotcarを含む3つのベンチマークデータセット上で,複数のローカライズ手法を訓練し,評価する。 この大規模評価は、検索に基づくローカライゼーションの一般化性と性能に関する貴重な洞察を与える。 そこで本研究では,より正確な局所化特徴を学習し,より一般化する新しい手法を提案する。 主な貢献は2つある。 (i)特徴量に基づく損失関数、及び (II)強い正と対の負のマイニング。 難易度の高いオックスフォード・ロボットカーの夜間条件では、5m以内の局所化精度が24.4%向上した。

Image features for retrieval-based localization must be invariant to dynamic objects (e.g. cars) as well as seasonal and daytime changes. Such invariances are, up to some extent, learnable with existing methods using triplet-like losses, given a large number of diverse training images. However, due to the high algorithmic training complexity, there exists insufficient comparison between different loss functions on large datasets. In this paper, we train and evaluate several localization methods on three different benchmark datasets, including Oxford RobotCar with over one million images. This large scale evaluation yields valuable insights into the generalizability and performance of retrieval-based localization. Based on our findings, we develop a novel method for learning more accurate and better generalizing localization features. It consists of two main contributions: (i) a feature volume-based loss function, and (ii) hard positive and pairwise negative mining. On the challenging Oxford RobotCar night condition, our method outperforms the well-known triplet loss by 24.4% in localization accuracy within 5m.
翻訳日:2022-10-24 08:00:56 公開日:2020-12-08
# データ同化と機械学習の組み合わせによる未解決スケールのパラメータ推定

Combining data assimilation and machine learning to infer unresolved scale parametrisation ( http://arxiv.org/abs/2009.04318v2 )

ライセンス: Link先を確認
Julien Brajard, Alberto Carrassi, Marc Bocquet and Laurent Bertino(参考訳) 近年、動的数値モデルにおいて未解決プロセスのデータ駆動パラメータを考案するために機械学習(ml)が提案されている。 ほとんどの場合、MLトレーニングは高分解能シミュレーションを利用して、密度の高いノイズのないターゲット状態を提供する。 本研究の目的は,高分解能シミュレーションと直接データを用いたmlに基づくパラメータの訓練を,ノイズとスパース観測の現実的なシナリオとして活用することである。 本研究で提案するアルゴリズムは2段階のプロセスである。 まず、データ同化(DA)技術を用いて、トランクされたモデルからシステムの完全な状態を推定する。 切断されたモデルの未解決部分は、daシステムにおけるモデルエラーと見なされる。 第2のステップでは、MLは、システムの状態に応じてモデルエラーの予測子である未解決部分をエミュレートするために使用される。 最後に、MLに基づくパラメトリシエーションモデルが物理コアトランケートモデルに追加され、ハイブリッドモデルが生成される。 提案手法のDA成分はアンサンブルカルマンフィルタに依存し,MLパラメトリゼーションはニューラルネットワークで表現される。 このアプローチは2スケールのlorenzモデルと、低次結合海洋-大気圏モデルであるmaooamに適用される。 いずれの場合も、ハイブリッドモデルは、切り落とされたモデルよりも優れたスキルで予測を得る。 さらに, システムの魅力は, 混成モデルの方が, 切り離されたモデルよりもはるかに良く表現されている。

In recent years, machine learning (ML) has been proposed to devise data-driven parametrisations of unresolved processes in dynamical numerical models. In most cases, the ML training leverages high-resolution simulations to provide a dense, noiseless target state. Our goal is to go beyond the use of high-resolution simulations and train ML-based parametrisation using direct data, in the realistic scenario of noisy and sparse observations. The algorithm proposed in this work is a two-step process. First, data assimilation (DA) techniques are applied to estimate the full state of the system from a truncated model. The unresolved part of the truncated model is viewed as a model error in the DA system. In a second step, ML is used to emulate the unresolved part, a predictor of model error given the state of the system. Finally, the ML-based parametrisation model is added to the physical core truncated model to produce a hybrid model. The DA component of the proposed method relies on an ensemble Kalman filter while the ML parametrisation is represented by a neural network. The approach is applied to the two-scale Lorenz model and to MAOOAM, a reduced-order coupled ocean-atmosphere model. We show that in both cases the hybrid model yields forecasts with better skill than the truncated model. Moreover, the attractor of the system is significantly better represented by the hybrid model than by the truncated model.
翻訳日:2022-10-20 11:58:15 公開日:2020-12-08
# グラフニューラルネットワークを用いた大規模問題事例における学習対象重要度を用いた計画

Planning with Learned Object Importance in Large Problem Instances using Graph Neural Networks ( http://arxiv.org/abs/2009.05613v2 )

ライセンス: Link先を確認
Tom Silver, Rohan Chitnis, Aidan Curtis, Joshua Tenenbaum, Tomas Lozano-Perez, Leslie Pack Kaelbling(参考訳) 現実の計画問題はしばしば数百から数千のオブジェクトを巻き込み、現代のプランナーの限界を歪めている。 本研究では,この課題に対処するために,計画を見つけるのに十分な,小さなオブジェクトセットの予測を学習する。 本稿では,単一推論パスにおけるオブジェクト重要度を予測するためのグラフニューラルネットワークアーキテクチャを提案する。 提案手法では,プランナと遷移モデルをブラックボックスとして扱い,既製のプランナで使用することができる。 実証的には、古典的な計画、確率的計画、ロボットのタスクと運動計画において、我々の手法は、他の部分的な接地戦略や持ち上げプランナーを含む、いくつかのベースラインよりもはるかに高速な計画をもたらす。 計画問題の十分なオブジェクトセットを予測するための学習は、大規模インスタンスで計画する上で、シンプルで強力で一般的なメカニズムである、と結論づける。 ビデオ: https://youtu.be/FWsVJc2fvCEコード: https://git.io/JIsqX

Real-world planning problems often involve hundreds or even thousands of objects, straining the limits of modern planners. In this work, we address this challenge by learning to predict a small set of objects that, taken together, would be sufficient for finding a plan. We propose a graph neural network architecture for predicting object importance in a single inference pass, thus incurring little overhead while greatly reducing the number of objects that must be considered by the planner. Our approach treats the planner and transition model as black boxes, and can be used with any off-the-shelf planner. Empirically, across classical planning, probabilistic planning, and robotic task and motion planning, we find that our method results in planning that is significantly faster than several baselines, including other partial grounding strategies and lifted planners. We conclude that learning to predict a sufficient set of objects for a planning problem is a simple, powerful, and general mechanism for planning in large instances. Video: https://youtu.be/FWsVJc2fvCE Code: https://git.io/JIsqX
翻訳日:2022-10-19 20:47:40 公開日:2020-12-08
# DeepWriteSYN:Deep Short-Term Representationsによるオンライン手書き合成

DeepWriteSYN: On-Line Handwriting Synthesis via Deep Short-Term Representations ( http://arxiv.org/abs/2009.06308v2 )

ライセンス: Link先を確認
Ruben Tolosana, Paula Delgado-Santos, Andres Perez-Uribe, Ruben Vera-Rodriguez, Julian Fierrez, Aythami Morales(参考訳) 本研究では,新しいオンライン手書き合成手法であるdeepwritesynを提案する。 モジュールは2つある。 一 個別又は複数の連結されたストロークからなる短時間のストロークに手書きを分割する、任意かつ交換可能な時間的セグメンテーション 二 シーケンシャル・ツー・シーケンシャル変分オートエンコーダ(vae)に基づく、これらの短時間筆跡セグメントのオンライン合成 提案手法の主な利点は、合成が短時間のセグメント(文字分数からフル文字まで)で実行され、vaeは構成可能な手書きデータセット上でトレーニング可能であることである。 これらの2つの性質は、例えば、実験で示されたように、我々の合成器に多くの柔軟性を与え、DeepWriteSYNは、与えられた集団または与えられた対象の自然変化に対応する、与えられた手書き構造の現実的な手書き変化を生成できる。 これら2つの症例はそれぞれ個別の指と筆跡に対して実験的に開発され,両症例とも著明な結果を得た。 また,DeepWriteSYNの潜在的な可能性を示すオンライン署名検証のタスクに対して,一発学習シナリオを大幅に改善するための実験結果を提供する。 私たちの知る限りでは、これはディープラーニングによって、短期(手書き署名を含む)で現実的なオンライン手書きを生成できる最初の合成アプローチです。 これは、完全に合成されたり、与えられた手書きサンプルの自然なバリエーションとして、長期的な現実的な手書き生成に向けたモジュールとして非常に有用である。

This study proposes DeepWriteSYN, a novel on-line handwriting synthesis approach via deep short-term representations. It comprises two modules: i) an optional and interchangeable temporal segmentation, which divides the handwriting into short-time segments consisting of individual or multiple concatenated strokes; and ii) the on-line synthesis of those short-time handwriting segments, which is based on a sequence-to-sequence Variational Autoencoder (VAE). The main advantages of the proposed approach are that the synthesis is carried out in short-time segments (that can run from a character fraction to full characters) and that the VAE can be trained on a configurable handwriting dataset. These two properties give a lot of flexibility to our synthesiser, e.g., as shown in our experiments, DeepWriteSYN can generate realistic handwriting variations of a given handwritten structure corresponding to the natural variation within a given population or a given subject. These two cases are developed experimentally for individual digits and handwriting signatures, respectively, achieving in both cases remarkable results. Also, we provide experimental results for the task of on-line signature verification showing the high potential of DeepWriteSYN to improve significantly one-shot learning scenarios. To the best of our knowledge, this is the first synthesis approach capable of generating realistic on-line handwriting in the short term (including handwritten signatures) via deep learning. This can be very useful as a module toward long-term realistic handwriting generation either completely synthetic or as natural variation of given handwriting samples.
翻訳日:2022-10-18 13:02:27 公開日:2020-12-08
# 人間の視覚探索のモデル化:自然界における視線誘導のためのベイジアンサーチとサリエンシマップの併用

Modeling human visual search: A combined Bayesian searcher and saliency map approach for eye movement guidance in natural scenes ( http://arxiv.org/abs/2009.08373v2 )

ライセンス: Link先を確認
M. Sclar, G. Bujia, S. Vita, G. Solovey, J. E. Kamienkowski(参考訳) オブジェクトを見つけることは、ほぼ毎日の視覚的なタスクに不可欠である。 正当性モデルは、自然画像の固定位置を予測するのに有用であるが、静的である。 現在、この分野における最大の課題の1つは、与えられた目標の探索など、視覚的なタスクに関連する一連の修正を予測するために、サリエンシマップを超えて行くことである。 この課題に対してベイズ観測モデルが提案されており、視覚探索をアクティブサンプリングプロセスとして表現している。 それでも、それらは主に人工画像で評価され、自然画像への適応方法はほとんど解明されていない。 本稿では,サリエンシーマップを先行する視覚探索のための統一ベイズモデルを提案する。 眼球運動を記録する自然シーンにおける視覚探索実験により,本モデルを検証した。 現状の正当性モデルでは,視覚検索タスクの最初の2つの修正を予測できるが,その後,その性能は低下する。 これは、塩分マップだけでボトムアップの最初のインプレッションをモデル化できるが、トップダウンタスク情報が重要な場合のスキャンパスを説明するには不十分であることを示唆している。 そこで,ベイズ探索の先駆けとして利用することを提案する。 このアプローチは、人間のスキャンパス全体と非常によく似た行動につながり、固定度とスキャンパスの類似性の関数として見出された標的の割合の両方において、眼球運動の全シーケンスを再現する。

Finding objects is essential for almost any daily-life visual task. Saliency models have been useful to predict fixation locations in natural images, but are static, i.e., they provide no information about the time-sequence of fixations. Nowadays, one of the biggest challenges in the field is to go beyond saliency maps to predict a sequence of fixations related to a visual task, such as searching for a given target. Bayesian observer models have been proposed for this task, as they represent visual search as an active sampling process. Nevertheless, they were mostly evaluated on artificial images, and how they adapt to natural images remains largely unexplored. Here, we propose a unified Bayesian model for visual search guided by saliency maps as prior information. We validated our model with a visual search experiment in natural scenes recording eye movements. We show that, although state-of-the-art saliency models perform well in predicting the first two fixations in a visual search task, their performance degrades to chance afterward. This suggests that saliency maps alone are good to model bottom-up first impressions, but are not enough to explain the scanpaths when top-down task information is critical. Thus, we propose to use them as priors of Bayesian searchers. This approach leads to a behavior very similar to humans for the whole scanpath, both in the percentage of target found as a function of the fixation rank and the scanpath similarity, reproducing the entire sequence of eye movements.
翻訳日:2022-10-17 08:53:34 公開日:2020-12-08
# 物理誘導リカレントグラフネットワークによる河川ネットワーク内の流れと温度予測

Physics-Guided Recurrent Graph Networks for Predicting Flow and Temperature in River Networks ( http://arxiv.org/abs/2009.12575v2 )

ライセンス: Link先を確認
Xiaowei Jia, Jacob Zwart, Jeffrey Sadler, Alison Appling, Samantha Oliver, Steven Markstrom, Jared Willard, Shaoming Xu, Michael Steinbach, Jordan Read, and Vipin Kumar(参考訳) 本稿では,高度な機械学習モデルと物理モデルを組み合わせて,河川網内の水流と温度の予測を改善する物理誘導型機械学習手法を提案する。 まず、リカレントグラフネットワークモデルを構築し、河川ネットワーク内の複数のセグメント間の相互作用を捉える。 次に,物理モデルから知識を伝達して機械学習モデルを初期化し,流れと熱力学の物理を学ぶ事前学習手法を提案する。 また,河川の異なるセグメントのパフォーマンスをバランスさせる新たな損失関数を提案する。 デラウェア川流域のサブセットにおける温度と流れの予測における提案手法の有効性を実証する。 特に,提案手法は,従来の機械学習モデル(例えば,長期記憶型ニューラルネットワーク)よりも,最先端物理モデルよりも33\%/14\%向上し,非常にスパースな(0.1\%)観測データを用いた温度・流れ予測において24\%/14\%向上することを示す。 提案手法は,異なる季節,あるいは異なる流れ域を持つ河川セグメントに一般化した場合に,より良い性能が得られた。

This paper proposes a physics-guided machine learning approach that combines advanced machine learning models and physics-based models to improve the prediction of water flow and temperature in river networks. We first build a recurrent graph network model to capture the interactions among multiple segments in the river network. Then we present a pre-training technique which transfers knowledge from physics-based models to initialize the machine learning model and learn the physics of streamflow and thermodynamics. We also propose a new loss function that balances the performance over different river segments. We demonstrate the effectiveness of the proposed method in predicting temperature and streamflow in a subset of the Delaware River Basin. In particular, we show that the proposed method brings a 33\%/14\% improvement over the state-of-the-art physics-based model and 24\%/14\% over traditional machine learning models (e.g., Long-Short Term Memory Neural Network) in temperature/streamflow prediction using very sparse (0.1\%) observation data for training. The proposed method has also been shown to produce better performance when generalized to different seasons or river segments with different streamflow ranges.
翻訳日:2022-10-14 08:46:00 公開日:2020-12-08
# 対数相互作用が不均一パターンを生み出す理由:チューリング不安定に対する擬似反応拡散モデル

Why Adversarial Interaction Creates Non-Homogeneous Patterns: A Pseudo-Reaction-Diffusion Model for Turing Instability ( http://arxiv.org/abs/2010.00521v2 )

ライセンス: Link先を確認
Litu Rout(参考訳) チューリングのseminal reaction-diffusion(rd)モデルの後、基本方程式のエレガンス性はパターン形成を取り巻く懐疑主義の多くを緩和した。 チューリングモデルは単純化と理想化であるが、自然界で観察されたパターンを思い起こさせるものとしてパターンを説明する最もよく知られた理論モデルの一つである。 長年にわたり、実システムにおけるパターンを説明する理論モデルを整合させる努力が続けられてきた。 RDシステムの特定のダイナミクスを特定することの難しさは、特に問題を難しくしている。 興味深いことに、敵対的相互作用を持つニューロン系のチューリング様パターンを観察する。 本研究では,このようなパターンを創出するためのチューリング不安定性の関与を確立する。 理論的および実証的研究により,これらの現象を裏付けるメカニズムを説明するために擬似反応拡散モデルを提案する。 教師付き学習は均質な平衡に達するが,本論文は,相反性の導入が同質性を破って平衡で不均質なパターンを作るのに役立つことを示唆する。 さらに, 過パラメータ化を伴うランダム初期化勾配降下は, 敵対的相互作用下でも指数関数的に$\epsilon$-stationary pointに収束できることを証明した。 さらに,単独の監督とは異なり,逆相互作用下で得られる解は初期化の周りの小さな部分空間に限定されないことを示した。

Long after Turing's seminal Reaction-Diffusion (RD) model, the elegance of his fundamental equations alleviated much of the skepticism surrounding pattern formation. Though Turing model is a simplification and an idealization, it is one of the best-known theoretical models to explain patterns as a reminiscent of those observed in nature. Over the years, concerted efforts have been made to align theoretical models to explain patterns in real systems. The apparent difficulty in identifying the specific dynamics of the RD system makes the problem particularly challenging. Interestingly, we observe Turing-like patterns in a system of neurons with adversarial interaction. In this study, we establish the involvement of Turing instability to create such patterns. By theoretical and empirical studies, we present a pseudo-reaction-diffusion model to explain the mechanism that may underlie these phenomena. While supervised learning attains homogeneous equilibrium, this paper suggests that the introduction of an adversary helps break this homogeneity to create non-homogeneous patterns at equilibrium. Further, we prove that randomly initialized gradient descent with over-parameterization can converge exponentially fast to an $\epsilon$-stationary point even under adversarial interaction. In addition, different from sole supervision, we show that the solutions obtained under adversarial interaction are not limited to a tiny subspace around initialization.
翻訳日:2022-10-12 07:09:29 公開日:2020-12-08
# 多変量時系列表現学習のためのトランスベースフレームワーク

A Transformer-based Framework for Multivariate Time Series Representation Learning ( http://arxiv.org/abs/2010.02803v3 )

ライセンス: Link先を確認
George Zerveas, Srideepika Jayaraman, Dhaval Patel, Anuradha Bhamidipaty, Carsten Eickhoff(参考訳) 本研究では,多変量時系列の教師なし表現学習のためのトランスベースフレームワークを初めて提案する。 事前訓練されたモデルは、回帰や分類、予測、値計算の欠如といった下流タスクに使用することができる。 多変量時系列回帰と分類のための複数のベンチマークデータセットでモデルを評価することにより、我々のモデリングアプローチは、現在提示されている多変量時系列の教師なし学習を用いた最も成功した手法であるだけでなく、教師あり手法の現在の性能を超えていることを示す。 最後に,トランスモデルの教師なし事前学習は,教師なしの目的を通じて同じデータサンプルを再利用することにより,ラベルなしの新たなデータを活用することなく,完全に教師付き学習よりも大きなパフォーマンス上のメリットをもたらすことを示す。

In this work we propose for the first time a transformer-based framework for unsupervised representation learning of multivariate time series. Pre-trained models can be potentially used for downstream tasks such as regression and classification, forecasting and missing value imputation. By evaluating our models on several benchmark datasets for multivariate time series regression and classification, we show that not only does our modeling approach represent the most successful method employing unsupervised learning of multivariate time series presented to date, but also that it exceeds the current state-of-the-art performance of supervised methods; it does so even when the number of training samples is very limited, while offering computational efficiency. Finally, we demonstrate that unsupervised pre-training of our transformer models offers a substantial performance benefit over fully supervised learning, even without leveraging additional unlabeled data, i.e., by reusing the same data samples through the unsupervised objective.
翻訳日:2022-10-10 05:35:32 公開日:2020-12-08
# 森林火災の煙と空気質: 機械学習が森林管理を導く方法

Wildfire Smoke and Air Quality: How Machine Learning Can Guide Forest Management ( http://arxiv.org/abs/2010.04651v2 )

ライセンス: Link先を確認
Lorenzo Tomaselli, Coty Jen, Ann B. Lee(参考訳) 森林管理においてほとんど欠けている要素は、どの燃料を安全に燃やして有毒な煙に晒すことができるかを知ることである。 ここでは、スペクトルクラスタリングや多様体学習などの機械学習が、煙の種類を識別するための解釈可能な表現や強力なツールを提供することによって、森林管理者に有害煙の発生を最小限に抑えつつ、気候による山火事を減らすための効果的な戦略について重要な情報を提供する。

Prescribed burns are currently the most effective method of reducing the risk of widespread wildfires, but a largely missing component in forest management is knowing which fuels one can safely burn to minimize exposure to toxic smoke. Here we show how machine learning, such as spectral clustering and manifold learning, can provide interpretable representations and powerful tools for differentiating between smoke types, hence providing forest managers with vital information on effective strategies to reduce climate-induced wildfires while minimizing production of harmful smoke.
翻訳日:2022-10-09 06:06:25 公開日:2020-12-08
# 頭部ポーズ推定のためのベクトルに基づく表現法

A Vector-based Representation to Enhance Head Pose Estimation ( http://arxiv.org/abs/2010.07184v2 )

ライセンス: Link先を確認
Zhiwen Cao, Zongcheng Chu, Dongfang Liu, Yingjie Chen(参考訳) 本稿では,回転行列における3つのベクトルを頭部ポーズ推定の表現として用いることを提案し,その表現の特徴に基づく新しいニューラルネットワークを開発した。 現在の頭部姿勢推定作業には2つの潜在的な問題が存在する。 1. 頭部ポーズ推定のための公開データセットは、ユーラー角または四元数を用いてデータサンプルを注釈付けする。 しかしながら、これらのアノテーションはいずれも不連続性の問題であり、ニューラルネットワークトレーニングのパフォーマンス上の問題を引き起こす可能性がある。 2. 大半の研究は, 性能測定としてオイラー角の平均絶対誤差(MAE)を報告している。 特にプロファイルビューの場合,maeは実際の動作を反映しない可能性がある。 これら2つの問題を解決するために, 3つのベクトルを用いて頭部ポーズを記述する新しいアノテーション法と, ベクトルの絶対誤差測定法(maev)を提案する。 また、直交性の制約で3つのベクトルを予測するために、新しいニューラルネットワークをトレーニングします。 提案手法は, AFLW2000 と BIWI の両方のデータセットに対して, 最先端の結果を得られる。 提案手法は,大規模なポーズ角の予測誤差を効果的に低減できることを示す。

This paper proposes to use the three vectors in a rotation matrix as the representation in head pose estimation and develops a new neural network based on the characteristic of such representation. We address two potential issues existed in current head pose estimation works: 1. Public datasets for head pose estimation use either Euler angles or quaternions to annotate data samples. However, both of these annotations have the issue of discontinuity and thus could result in some performance issues in neural network training. 2. Most research works report Mean Absolute Error (MAE) of Euler angles as the measurement of performance. We show that MAE may not reflect the actual behavior especially for the cases of profile views. To solve these two problems, we propose a new annotation method which uses three vectors to describe head poses and a new measurement Mean Absolute Error of Vectors (MAEV) to assess the performance. We also train a new neural network to predict the three vectors with the constraints of orthogonality. Our proposed method achieves state-of-the-art results on both AFLW2000 and BIWI datasets. Experiments show our vector-based annotation method can effectively reduce prediction errors for large pose angles.
翻訳日:2022-10-07 13:47:19 公開日:2020-12-08
# motchallenge - シングルカメラマルチターゲットトラッキングのためのベンチマーク

MOTChallenge: A Benchmark for Single-Camera Multiple Target Tracking ( http://arxiv.org/abs/2010.07548v2 )

ライセンス: Link先を確認
Patrick Dendorfer and Aljo\v{s}a O\v{s}ep and Anton Milan and Konrad Schindler and Daniel Cremers and Ian Reid and Stefan Roth and Laura Leal-Taix\'e(参考訳) 標準化されたベンチマークは、特にディープラーニングの出現以来、コンピュータビジョンアルゴリズムのパフォーマンス向上に不可欠である。 リーダーボードは過大評価されるべきではないが、パフォーマンスの最も客観的な尺度を提供することが多く、研究のための重要なガイドである。 このベンチマークは、既存のデータと新しいデータを収集し、複数のオブジェクト追跡手法の標準化評価のためのフレームワークを作成する。 このベンチマークは、複数の人の追跡に焦点を当てている。歩行者は、ロボットナビゲーションから自動運転車まで、トラッキングコミュニティで最も研究されているオブジェクトである。 本稿では、ベンチマークの最初の3つのリリースをまとめる。 (i)過去数年間に提出された数多くの最先端の結果とともにMOT15 (ii)新しい挑戦的なビデオを含むMOT16、 3) MOT17はMOT16配列をより正確なラベルで拡張し、3つの異なる物体検出器の追跡性能を評価する。 第2リリースと第3リリースは、ラベル付きボックスの数が大幅に増加しただけでなく、歩行者の横にある複数のオブジェクトクラスのラベルや、関心のあるすべてのオブジェクトの可視性も提供する。 最終的に、最先端トラッカーの分類と広範なエラー解析を提供する。 これは、新参者がmotコミュニティにおける関連する仕事や研究のトレンドを理解するのに役立つだろう。

Standardized benchmarks have been crucial in pushing the performance of computer vision algorithms, especially since the advent of deep learning. Although leaderboards should not be over-claimed, they often provide the most objective measure of performance and are therefore important guides for research. We present MOTChallenge, a benchmark for single-camera Multiple Object Tracking (MOT) launched in late 2014, to collect existing and new data, and create a framework for the standardized evaluation of multiple object tracking methods. The benchmark is focused on multiple people tracking, since pedestrians are by far the most studied object in the tracking community, with applications ranging from robot navigation to self-driving cars. This paper collects the first three releases of the benchmark: (i) MOT15, along with numerous state-of-the-art results that were submitted in the last years, (ii) MOT16, which contains new challenging videos, and (iii) MOT17, that extends MOT16 sequences with more precise labels and evaluates tracking performance on three different object detectors. The second and third release not only offers a significant increase in the number of labeled boxes but also provide labels for multiple object classes beside pedestrians, as well as the level of visibility for every single object of interest. We finally provide a categorization of state-of-the-art trackers and a broad error analysis. This will help newcomers understand the related work and research trends in the MOT community, and hopefully shed some light on potential future research directions.
翻訳日:2022-10-07 04:09:02 公開日:2020-12-08
# 低次直交部分空間における連続学習

Continual Learning in Low-rank Orthogonal Subspaces ( http://arxiv.org/abs/2010.11635v2 )

ライセンス: Link先を確認
Arslan Chaudhry, Naeemullah Khan, Puneet K. Dokania, Philip H. S. Torr(参考訳) 連続学習(cl)では、学習者は次々にやってくる一連のタスクに直面し、継続的な学習経験が終わったらすべてのタスクを思い出すことが目標である。 clの先行技術では、タスク間の干渉を減らすためにエピソディックメモリ、パラメータ正規化、拡張可能なネットワーク構造を使用するが、最終的にはすべてのアプローチがジョイントベクトル空間で異なるタスクを学習する。 私たちは、このことが様々なタスクの干渉につながると信じています。 干渉を最小限に抑えるために互いに直交する異なる(低ランク)ベクトル部分空間でタスクを学習することを提案する。 さらに、これらの部分空間から生じる異なるタスクの勾配を互いに直交して保つために、スティフェル多様体上の最適化問題としてネットワークトレーニングを定め、等尺写像を学習する。 我々の理解を最大限に活用するために、連続学習における標準分類ベンチマークにおいて、経験的ベースラインよりも経験的ベースラインよりも強い結果を初めて報告する。 コードは公開されています。

In continual learning (CL), a learner is faced with a sequence of tasks, arriving one after the other, and the goal is to remember all the tasks once the continual learning experience is finished. The prior art in CL uses episodic memory, parameter regularization or extensible network structures to reduce interference among tasks, but in the end, all the approaches learn different tasks in a joint vector space. We believe this invariably leads to interference among different tasks. We propose to learn tasks in different (low-rank) vector subspaces that are kept orthogonal to each other in order to minimize interference. Further, to keep the gradients of different tasks coming from these subspaces orthogonal to each other, we learn isometric mappings by posing network training as an optimization problem over the Stiefel manifold. To the best of our understanding, we report, for the first time, strong results over experience-replay baseline with and without memory on standard classification benchmarks in continual learning. The code is made publicly available.
翻訳日:2022-10-04 07:27:21 公開日:2020-12-08
# 自動配置再訓練による足跡カメラ画像の動物分類・検出のための説明可能な深部視覚システム

An explainable deep vision system for animal classification and detection in trail-camera images with automatic post-deployment retraining ( http://arxiv.org/abs/2010.11472v3 )

ライセンス: Link先を確認
Golnaz Moallem (1), Don D. Pathirage (1), Joel Reznick (1), James Gallagher (2), Hamed Sari-Sarraf (1) ((1) Applied Vision Lab Texas Tech University (2) Texas Parks and Wildlife Department)(参考訳) 本稿では,テキサス・パークス野生生物局の管理下にあるフィールドから撮影したトレイルカメラ画像における動物検出の自動視覚システムについて紹介する。 伝統的な野生生物の計数技術は侵入的で労働集約的であるため、トレイルカメライメージングは野生生物の活動を捉えるための比較的非侵入的な方法である。 しかし、トレイルカメラから生成される大量の画像を考えると、画像の手動分析は時間がかかり、非効率である。 2段階の深層畳み込みニューラルネットワークパイプラインを導入し,動物を含む画像を第1段階で発見し,その画像を処理して第2段階の鳥を検出する。 動物分類システムは、動物画像の感度を93%、特異度を96%と分類する。 鳥検出システムは93%以上の感度、92%の特異性、および68%の平均交点オーバー結合率を達成している。 パイプライン全体は、人間のラベラーの平均30秒に対して、0.5秒未満で画像を処理します。 また,画像の特徴が季節変化によって異なるため,動物分類システムにおけるデータドリフトに関するデプロイ後の問題にも対処した。 本システムは,データドリフトの検出と更新に自動再訓練アルゴリズムを用いる。 ドリフト画像の検出と再トレーニングのトリガを行う新しい手法を提案する。 動物分類システムの予測挙動を説明するために, 2つの統計実験を行った。 これらの実験は、特定の決定に向けてシステムを操る手がかりを調査する。 統計的仮説テストは、入力画像中の動物の存在がシステムの決定に大きく貢献することを示している。

This paper introduces an automated vision system for animal detection in trail-camera images taken from a field under the administration of the Texas Parks and Wildlife Department. As traditional wildlife counting techniques are intrusive and labor intensive to conduct, trail-camera imaging is a comparatively non-intrusive method for capturing wildlife activity. However, given the large volume of images produced from trail-cameras, manual analysis of the images remains time-consuming and inefficient. We implemented a two-stage deep convolutional neural network pipeline to find animal-containing images in the first stage and then process these images to detect birds in the second stage. The animal classification system classifies animal images with overall 93% sensitivity and 96% specificity. The bird detection system achieves better than 93% sensitivity, 92% specificity, and 68% average Intersection-over-Union rate. The entire pipeline processes an image in less than 0.5 seconds as opposed to an average 30 seconds for a human labeler. We also addressed post-deployment issues related to data drift for the animal classification system as image features vary with seasonal changes. This system utilizes an automatic retraining algorithm to detect data drift and update the system. We introduce a novel technique for detecting drifted images and triggering the retraining procedure. Two statistical experiments are also presented to explain the prediction behavior of the animal classification system. These experiments investigate the cues that steers the system towards a particular decision. Statistical hypothesis testing demonstrates that the presence of an animal in the input image significantly contributes to the system's decisions.
翻訳日:2022-10-04 06:49:08 公開日:2020-12-08
# ニューラルネットワークから学習ルールを識別する

Identifying Learning Rules From Neural Network Observables ( http://arxiv.org/abs/2010.11765v2 )

ライセンス: Link先を確認
Aran Nayebi, Sanjana Srivastava, Surya Ganguli, Daniel L.K. Yamins(参考訳) 脳は学習中のシナプスの強さを調整し、環境に適応する。 しかし、学習を統治する可塑性規則は定かではない。 ヘビー機構、明示的なエラーバックプロパゲーション、様々な代替案など、多くの提案が提案されている。 特定の学習規則が実際の生体システムで動作しているかどうかを判断するために、どのような実験的な測定が必要かは、公然の疑問である。 本研究では,この問題に対して「仮想実験的」なアプローチをとる。 ニューラルネットワークを用いた理想的な神経科学実験をシミュレーションし、ニューラルネットワークアーキテクチャ、損失関数、学習規則ハイパーパラメーター、パラメータ初期化で測定された集約統計の学習軌跡の大規模データセットを生成する。 次に、線形および単純な非線形分類器を訓練し、これらの観測値に基づいて特徴から学習規則を識別する。 学習ルールのクラスは,重み,アクティベーション,即時的な階層的活動変化の統計量に基づいてのみ分離できることを示し,これらの結果は,軌跡および留置型アーキテクチャや学習カリキュラムへの限定的なアクセスに一般化できることを示した。 規則同定に最も関係の深い観測対象の統計を同定し,訓練中のネットワーク活動から得られる統計が,シナプス強度より単位アンダーサンプリングや測定ノイズに頑健であることが判明した。 以上の結果から,数百単位のシナプス後活動の電気生理学的記録から得られる活性化パターンが,学習過程を通じてより広い間隔で測定されることが,学習規則の特定に有効である可能性が示唆された。

The brain modifies its synaptic strengths during learning in order to better adapt to its environment. However, the underlying plasticity rules that govern learning are unknown. Many proposals have been suggested, including Hebbian mechanisms, explicit error backpropagation, and a variety of alternatives. It is an open question as to what specific experimental measurements would need to be made to determine whether any given learning rule is operative in a real biological system. In this work, we take a "virtual experimental" approach to this problem. Simulating idealized neuroscience experiments with artificial neural networks, we generate a large-scale dataset of learning trajectories of aggregate statistics measured in a variety of neural network architectures, loss functions, learning rule hyperparameters, and parameter initializations. We then take a discriminative approach, training linear and simple non-linear classifiers to identify learning rules from features based on these observables. We show that different classes of learning rules can be separated solely on the basis of aggregate statistics of the weights, activations, or instantaneous layer-wise activity changes, and that these results generalize to limited access to the trajectory and held-out architectures and learning curricula. We identify the statistics of each observable that are most relevant for rule identification, finding that statistics from network activities across training are more robust to unit undersampling and measurement noise than those obtained from the synaptic strengths. Our results suggest that activation patterns, available from electrophysiological recordings of post-synaptic activities on the order of several hundred units, frequently measured at wider intervals over the course of learning, may provide a good basis on which to identify learning rules.
翻訳日:2022-10-04 06:14:56 公開日:2020-12-08
# $\mu$NAS: マイクロコントローラのための制約付きニューラルネットワーク検索

$\mu$NAS: Constrained Neural Architecture Search for Microcontrollers ( http://arxiv.org/abs/2010.14246v3 )

ライセンス: Link先を確認
Edgar Liberis, {\L}ukasz Dudziak, Nicholas D. Lane(参考訳) 典型的なMCUは、低消費電力のプロセッサと約64KBのメモリと永続的なストレージを持ち、これはディープラーニングで通常必要とされるよりも、桁違いに少ない計算リソースである。 このようなプラットフォームのためにニューラルネットワークを設計するには、高い予測性能(正確性)を維持することと、低いメモリとストレージ使用率と推論レイテンシの複雑なバランスが必要である。 これは手作業で行うことが極めて難しいため、この作業では、このような小型でパワフルなMCUレベルのネットワークの設計を自動化するために、$\mu$NASと呼ばれるニューラルアーキテクチャサーチ(NAS)システムを構築します。 $\mu$NASは、MCUのリソース不足の3つの主要な側面、すなわちRAMのサイズ、永続ストレージ、プロセッサ速度を明示的にターゲットとしている。 特にメモリ要求が0.5kbから64kbまでである"中間層"mcusでは、$\mu$nasはリソース効率の高いモデルにおいて著しく進歩している。 さまざまな画像分類データセットに対して$\mu$NASが可能であることを示す。 (a)トップ1分類精度を最大4.8%向上させる、または (b)メモリフットプリントを4--13x、または (c)既存のMCU専門文献や資源効率のモデルと比較して,乗算累積演算数を少なくとも2倍に削減する。

IoT devices are powered by microcontroller units (MCUs) which are extremely resource-scarce: a typical MCU may have an underpowered processor and around 64 KB of memory and persistent storage, which is orders of magnitude fewer computational resources than is typically required for deep learning. Designing neural networks for such a platform requires an intricate balance between keeping high predictive performance (accuracy) while achieving low memory and storage usage and inference latency. This is extremely challenging to achieve manually, so in this work, we build a neural architecture search (NAS) system, called $\mu$NAS, to automate the design of such small-yet-powerful MCU-level networks. $\mu$NAS explicitly targets the three primary aspects of resource scarcity of MCUs: the size of RAM, persistent storage and processor speed. $\mu$NAS represents a significant advance in resource-efficient models, especially for "mid-tier" MCUs with memory requirements ranging from 0.5 KB to 64 KB. We show that on a variety of image classification datasets $\mu$NAS is able to (a) improve top-1 classification accuracy by up to 4.8%, or (b) reduce memory footprint by 4--13x, or (c) reduce the number of multiply-accumulate operations by at least 2x, compared to existing MCU specialist literature and resource-efficient models.
翻訳日:2022-10-02 12:59:07 公開日:2020-12-08
# リアルタイム能動学習のためのグラフベース強化学習:河川ネットワークのモデリングへの応用

Graph-based Reinforcement Learning for Active Learning in Real Time: An Application in Modeling River Networks ( http://arxiv.org/abs/2010.14000v2 )

ライセンス: Link先を確認
Xiaowei Jia, Beiyu Lin, Jacob Zwart, Jeffrey Sadler, Alison Appling, Samantha Oliver, Jordan Read(参考訳) 高度なmlモデルの効果的なトレーニングには大量のラベル付きデータが必要であり、ラベル付きデータの収集に必要な人的労力と材料的コストを考えると、科学的な問題では不足することが多い。 これは、ラベル付きデータを効率的に収集するために計測器(例えば、その場センサー)をいつ、どこで配置すべきかを決定する上での課題となる。 この問題は、時系列で入力されたデータを観察した後、ラベル付けの決定を直ちに行わなければならないという、従来のプールベースのアクティブラーニング設定とは異なる。 本稿では,空間的・時間的文脈情報を用いたリアルタイム能動学習手法を開発し,強化学習フレームワークにおける代表的クエリサンプルの選択を行う。 大規模トレーニングデータの必要性を減らすため,既存の物理モデルから生成されたシミュレーションデータから学習したポリシーを転送する。 本研究では,ラベルデータ収集予算が限定されたデラウェア川流域の流量と水温を予測し,提案手法の有効性を実証する。 さらに,選択したサンプルの空間的および時間的分布について検討し,空間的および時間的情報的サンプルの選択における本手法の有効性を検証する。

Effective training of advanced ML models requires large amounts of labeled data, which is often scarce in scientific problems given the substantial human labor and material cost to collect labeled data. This poses a challenge on determining when and where we should deploy measuring instruments (e.g., in-situ sensors) to collect labeled data efficiently. This problem differs from traditional pool-based active learning settings in that the labeling decisions have to be made immediately after we observe the input data that come in a time series. In this paper, we develop a real-time active learning method that uses the spatial and temporal contextual information to select representative query samples in a reinforcement learning framework. To reduce the need for large training data, we further propose to transfer the policy learned from simulation data which is generated by existing physics-based models. We demonstrate the effectiveness of the proposed method by predicting streamflow and water temperature in the Delaware River Basin given a limited budget for collecting labeled data. We further study the spatial and temporal distribution of selected samples to verify the ability of this method in selecting informative samples over space and time.
翻訳日:2022-10-02 11:23:35 公開日:2020-12-08
# 適応型ハイパーパラメータを用いたメタラーニング

Meta-Learning with Adaptive Hyperparameters ( http://arxiv.org/abs/2011.00209v2 )

ライセンス: Link先を確認
Sungyong Baik, Myungsub Choi, Janghoon Choi, Heewon Kim, Kyoung Mu Lee(参考訳) その人気にもかかわらず、最近のいくつかの研究は、テストタスクがトレーニングタスクと異なる場合、mamlの有効性に疑問を呈している。 タスク認識の初期化を改善する代わりに、MAMLフレームワークの補完的要素、インナーループ最適化(あるいは高速適応)に焦点を当てる。 そこで本研究では,高速適応プロセスを大幅に向上させる新しい重み付け更新ルールを提案する。 具体的には,ステップ毎のハイパーパラメータを適応的に生成可能な,小さなメタネットワークを提案する。 実験の結果, 高速適応のためのハイパーパラメータの適応学習(alfa)は, 近年のマイノリティ学習においてしばしば無視される重要な要素であることがわかった。 驚くべきことに、ALFAによるランダム初期化による高速適応は、既にMAMLよりも優れています。

Despite its popularity, several recent works question the effectiveness of MAML when test tasks are different from training tasks, thus suggesting various task-conditioned methodology to improve the initialization. Instead of searching for better task-aware initialization, we focus on a complementary factor in MAML framework, inner-loop optimization (or fast adaptation). Consequently, we propose a new weight update rule that greatly enhances the fast adaptation process. Specifically, we introduce a small meta-network that can adaptively generate per-step hyperparameters: learning rate and weight decay coefficients. The experimental results validate that the Adaptive Learning of hyperparameters for Fast Adaptation (ALFA) is the equally important ingredient that was often neglected in the recent few-shot learning approaches. Surprisingly, fast adaptation from random initialization with ALFA can already outperform MAML.
翻訳日:2022-10-01 04:28:54 公開日:2020-12-08
# 3次元物体検出のためのマルチビュー適応核融合ネットワーク

Multi-View Adaptive Fusion Network for 3D Object Detection ( http://arxiv.org/abs/2011.00652v2 )

ライセンス: Link先を確認
Guojun Wang, Bin Tian, Yachen Zhang, Long Chen, Dongpu Cao, Jian Wu(参考訳) LiDARカメラ融合に基づく3Dオブジェクト検出は、自動運転の新たな研究テーマになりつつある。 しかし、情報損失や干渉なしに両モードを効果的に融合することは驚くほど困難である。 そこで本研究では,LiDARバードアイビュー,LiDARレンジビュー,カメラビューイメージを3Dオブジェクト検出の入力として利用する,単一ステージ多視点融合フレームワークを提案する。 マルチビュー特徴を効果的に融合させるため,多視点特徴の適応的融合をポイントワイズで達成できるアテンテーティブ・ポイントワイズ・フュージョン(APF)モジュールを提案する。 さらに、注意点重み付け(APW)モジュールは、前景分類と中心回帰という2つの余分なタスクでネットワークが構造情報と点特徴の重要性を学習するのに役立つように設計され、予測された前景確率を用いて点特徴を再重み付けする。 これら2つのコンポーネントを統合するために,MVAF-Netというエンドツーエンドの学習ネットワークを設計する。 kitti 3d オブジェクト検出データセット上で行った評価の結果,提案する apf と apw モジュールの性能向上が示された。 さらに,提案したMVAF-Netは,全単段核融合法の中で最高の性能を示し,KITTIベンチマークにおける速度と精度の最良のトレードオフを実現する。

3D object detection based on LiDAR-camera fusion is becoming an emerging research theme for autonomous driving. However, it has been surprisingly difficult to effectively fuse both modalities without information loss and interference. To solve this issue, we propose a single-stage multi-view fusion framework that takes LiDAR bird's-eye view, LiDAR range view and camera view images as inputs for 3D object detection. To effectively fuse multi-view features, we propose an attentive pointwise fusion (APF) module to estimate the importance of the three sources with attention mechanisms that can achieve adaptive fusion of multi-view features in a pointwise manner. Furthermore, an attentive pointwise weighting (APW) module is designed to help the network learn structure information and point feature importance with two extra tasks, namely, foreground classification and center regression, and the predicted foreground probability is used to reweight the point features. We design an end-to-end learnable network named MVAF-Net to integrate these two components. Our evaluations conducted on the KITTI 3D object detection datasets demonstrate that the proposed APF and APW modules offer significant performance gains. Moreover, the proposed MVAF-Net achieves the best performance among all single-stage fusion methods and outperforms most two-stage fusion methods, achieving the best trade-off between speed and accuracy on the KITTI benchmark.
翻訳日:2022-09-30 12:04:55 公開日:2020-12-08
# ディープネットワークにおけるチューニング次元の同定と解釈

Identifying and interpreting tuning dimensions in deep networks ( http://arxiv.org/abs/2011.03043v2 )

ライセンス: Link先を確認
Nolan S. Dey and J. Eric Taylor and Bryan P. Tripp and Alexander Wong and Graham W. Taylor(参考訳) チューニングディメンション(英: tune dimension)は、神経科学において、ニューロン群の活性化分散の大部分を占める刺激特性である。 これらは一般にそのような群の反応を解読するために用いられる。 研究者たちは、ディープニューラルネットワークでこれらのチューニングディメンションの類似物を手作業で特定しようと試みているが、それらを発見する自動的な方法には気づいていない。 この研究は、ディープネットワークにおける"チューニング次元"を識別し、解釈するための教師なしフレームワークに寄与する。 提案手法は,合成ガボルフィルタバンクのチューニング次元と,ImageNetでトレーニングされたインセプションV1の最初の2層のチューニング次元を正確に同定する。

In neuroscience, a tuning dimension is a stimulus attribute that accounts for much of the activation variance of a group of neurons. These are commonly used to decipher the responses of such groups. While researchers have attempted to manually identify an analogue to these tuning dimensions in deep neural networks, we are unaware of an automatic way to discover them. This work contributes an unsupervised framework for identifying and interpreting "tuning dimensions" in deep networks. Our method correctly identifies the tuning dimensions of a synthetic Gabor filter bank and tuning dimensions of the first two layers of InceptionV1 trained on ImageNet.
翻訳日:2022-09-29 11:11:53 公開日:2020-12-08
# コアセット密度推定の統計的展望

A Statistical Perspective on Coreset Density Estimation ( http://arxiv.org/abs/2011.04907v2 )

ライセンス: Link先を確認
Paxton Turner, Jingbo Liu, Philippe Rigollet(参考訳) コアセットは、元の観測の小さなサブセットを選択して、その情報のほとんどを保持しながらデータを要約する強力なツールとして登場した。 このアプローチは計算の大幅な高速化につながったが、coresets上で実行される統計処理の性能はほとんど未調査である。 本研究では,コアセットを解析し,非パラメータ密度推定の標準課題に焦点をあてる統計フレームワークを開発する。 私たちの貢献は2倍です。 まず,coresetベースの推定器で実現可能な最小推定速度を定式化する。 第二に、実用的コアセット核密度推定器は、h\"{o}lder-smooth密度の大きなクラスに対してほぼミニマックス最適であることを示す。

Coresets have emerged as a powerful tool to summarize data by selecting a small subset of the original observations while retaining most of its information. This approach has led to significant computational speedups but the performance of statistical procedures run on coresets is largely unexplored. In this work, we develop a statistical framework to study coresets and focus on the canonical task of nonparameteric density estimation. Our contributions are twofold. First, we establish the minimax rate of estimation achievable by coreset-based estimators. Second, we show that the practical coreset kernel density estimators are near-minimax optimal over a large class of H\"{o}lder-smooth densities.
翻訳日:2022-09-27 07:12:55 公開日:2020-12-08
# 暗視:赤外観測から夜間衛星画像を生成する

NightVision: Generating Nighttime Satellite Imagery from Infra-Red Observations ( http://arxiv.org/abs/2011.07017v2 )

ライセンス: Link先を確認
Paula Harder, William Jones, Redouane Lguensat, Shahine Bouabid, James Fulton, D\'anell Quesada-Chac\'on, Aris Marcolongo, Sofija Stefanovi\'c, Yuhan Rao, Peter Manshausen, Duncan Watson-Parris(参考訳) 最近の衛星画像への機械学習の応用の爆発は、しばしば可視画像に依存しているため、夜間にデータが不足している。 このギャップは、可視画像を生成するために利用可能な赤外線観測を使用することで埋めることができる。 この研究は、U-Netベースのアーキテクチャを用いて、ディープラーニングをうまく適用して画像を作成する方法を示す。 提案手法は, 独立テストセット上で最大86\%の構造類似性指数(ssim)を達成し, 赤外線観測から得られた視覚的に説得力のある出力画像を提供する。

The recent explosion in applications of machine learning to satellite imagery often rely on visible images and therefore suffer from a lack of data during the night. The gap can be filled by employing available infra-red observations to generate visible images. This work presents how deep learning can be applied successfully to create those images by using U-Net based architectures. The proposed methods show promising results, achieving a structural similarity index (SSIM) up to 86\% on an independent test set and providing visually convincing output images, generated from infra-red observations.
翻訳日:2022-09-25 23:54:27 公開日:2020-12-08
# スペクトル超解像のためのスペクトル応答関数誘導最適化ネットワーク

Spectral Response Function Guided Deep Optimization-driven Network for Spectral Super-resolution ( http://arxiv.org/abs/2011.09701v2 )

ライセンス: Link先を確認
Jiang He, Jie Li, Qiangqiang Yuan, Huanfeng Shen, and Liangpei Zhang(参考訳) ハイパースペクトル画像は多くの研究に不可欠である。 スペクトル超解像(SSR)は、高空間分解能(HR)ハイパースペクトル画像を得るための手法である。 従来のSSR手法には、モデル駆動アルゴリズムとディープラーニングが含まれる。 変分法を展開させることにより,より深い空間スペクトルを持つ最適化駆動畳み込みニューラルネットワーク(CNN)を提案し,物理的に解釈可能なネットワークを実現する。 完全データ駆動のCNNとは異なり、補助スペクトル応答関数(SRF)はCNNを誘導してスペクトル関連性を持つバンドをグループ化する。 さらに、チャネルアテンションモジュール(CAM)と修正スペクトル角マッパー損失関数を適用し、効果的な再構成モデルを実現する。 最後に,自然センシング画像とリモートセンシング画像を含む2種類のデータセットについて実験を行い,提案手法のスペクトル拡張効果を示す。 また,リモートセンシングデータセットの分類結果から,提案手法により強化された情報の妥当性を検証した。

Hyperspectral images are crucial for many research works. Spectral super-resolution (SSR) is a method used to obtain high spatial resolution (HR) hyperspectral images from HR multispectral images. Traditional SSR methods include model-driven algorithms and deep learning. By unfolding a variational method, this paper proposes an optimization-driven convolutional neural network (CNN) with a deep spatial-spectral prior, resulting in physically interpretable networks. Unlike the fully data-driven CNN, auxiliary spectral response function (SRF) is utilized to guide CNNs to group the bands with spectral relevance. In addition, the channel attention module (CAM) and reformulated spectral angle mapper loss function are applied to achieve an effective reconstruction model. Finally, experiments on two types of datasets, including natural and remote sensing images, demonstrate the spectral enhancement effect of the proposed method. And the classification results on the remote sensing dataset also verified the validity of the information enhanced by the proposed method.
翻訳日:2022-09-23 21:46:25 公開日:2020-12-08
# SHOT-VAE:ラベル対応ELBO近似を用いた半教師付き深層生成モデル

SHOT-VAE: Semi-supervised Deep Generative Models With Label-aware ELBO Approximations ( http://arxiv.org/abs/2011.10684v4 )

ライセンス: Link先を確認
Hao-Zhe Feng, Kezhi Kong, Minghao Chen, Tianye Zhang, Minfeng Zhu, Wei Chen(参考訳) 半教師付き変分オートエンコーダ(VAE)は強い結果を得たが、優れたELBO値が常に正確な推論結果を示すとは限らないという問題にも遭遇した。 本稿では,(1)elboの目的はラベル情報を直接利用できない,という2つの原因を考察し,提案する。 2)ボトルネック値が存在してELBOの最適化が継続すると、推測精度は向上しない。 実験結果に基づいて,追加の事前知識を導入することなく,これらの問題に対処するためのSHOT-VAEを提案する。 ショットベイは、(1)ラベル予測損失をelboに統合するsmooth-elboという新しいelbo近似という2つの貢献を提供する。 2) ELBO値のボトルネックを壊す最適補間に基づく近似は, ELBOとデータ可能性とのマージンを小さくすることで近似する。 SHOT-VAEは10kラベルのCIFAR-100では25.30%のエラー率で性能が良く、4kラベルのCIFAR-10では6.11%に低下する。

Semi-supervised variational autoencoders (VAEs) have obtained strong results, but have also encountered the challenge that good ELBO values do not always imply accurate inference results. In this paper, we investigate and propose two causes of this problem: (1) The ELBO objective cannot utilize the label information directly. (2) A bottleneck value exists and continuing to optimize ELBO after this value will not improve inference accuracy. On the basis of the experiment results, we propose SHOT-VAE to address these problems without introducing additional prior knowledge. The SHOT-VAE offers two contributions: (1) A new ELBO approximation named smooth-ELBO that integrates the label predictive loss into ELBO. (2) An approximation based on optimal interpolation that breaks the ELBO value bottleneck by reducing the margin between ELBO and the data likelihood. The SHOT-VAE achieves good performance with a 25.30% error rate on CIFAR-100 with 10k labels and reduces the error rate to 6.11% on CIFAR-10 with 4k labels.
翻訳日:2022-09-22 23:34:28 公開日:2020-12-08
# インド地方における夏季モンスーン降雨量の深層学習に基づくダウンスケーリング

Deep-learning based down-scaling of summer monsoon rainfall data over Indian region ( http://arxiv.org/abs/2011.11313v3 )

ライセンス: Link先を確認
Bipin Kumar, Rajib Chattopadhyay, Manmeet Singh, Niraj Chaudhari, Karthik Kodari and Amit Barve(参考訳) ダウンスケーリングは、気候モデル予測の検証や、マイクロリージョンレベルでの降雨監視のために、高解像度の観測データを生成する必要がある。 動的および統計的ダウンスケーリングモデルは、大域にわたって高解像度のグリッドデータを取得するためにしばしば使用される。 降雨の変動は,非線形あるいはカオスな時空間変動につながる複雑な時空間過程に依存しているため,単一ダウンスケーリング法を十分に効率的にみなすことはできない。 複雑な地形、準周期、非線形のデータにおいて、深層学習(dl)ベースの手法は、地域気候予測のための降雨データと高空間分解能のリアルタイム降雨観測データに対する効率的な解決策を提供する。 本研究では,超高分解能畳み込みニューラルネットワーク(SRCNN)法に基づく3つの深層学習アルゴリズムを用いて降水データ,特にIMDおよびTRMMデータを用いて,夏季モンスーンシーズンの4倍の高分解能降雨データを生成する。 SRCNN、SRCNN、DeepSDの3つのアルゴリズムのうち、降雨振幅と最小ルート平均二乗誤差の空間分布はDeepSDに基づくダウンスケーリングによって生成される。 したがって、DeepSDアルゴリズムの使用は将来の使用のために推奨される。 降水量減少の主な障害は,振幅・強度降雨パターンの空間的不連続性であった。 さらに,これらの手法をモデルデータ後処理,特にERA5データに適用した。 ERA5降水量は観測値と比較して空間的共分散と時間的分散の分布がはるかに良好である。

Downscaling is necessary to generate high-resolution observation data to validate the climate model forecast or monitor rainfall at the micro-regional level operationally. Dynamical and statistical downscaling models are often used to get information at high-resolution gridded data over larger domains. As rainfall variability is dependent on the complex Spatio-temporal process leading to non-linear or chaotic Spatio-temporal variations, no single downscaling method can be considered efficient enough. In data with complex topographies, quasi-periodicities, and non-linearities, deep Learning (DL) based methods provide an efficient solution in downscaling rainfall data for regional climate forecasting and real-time rainfall observation data at high spatial resolutions. In this work, we employed three deep learning-based algorithms derived from the super-resolution convolutional neural network (SRCNN) methods, to precipitation data, in particular, IMD and TRMM data to produce 4x-times high-resolution downscaled rainfall data during the summer monsoon season. Among the three algorithms, namely SRCNN, stacked SRCNN, and DeepSD, employed here, the best spatial distribution of rainfall amplitude and minimum root-mean-square error is produced by DeepSD based downscaling. Hence, the use of the DeepSD algorithm is advocated for future use. We found that spatial discontinuity in amplitude and intensity rainfall patterns is the main obstacle in the downscaling of precipitation. Furthermore, we applied these methods for model data postprocessing, in particular, ERA5 data. Downscaled ERA5 rainfall data show a much better distribution of spatial covariance and temporal variance when compared with observation.
翻訳日:2022-09-22 03:03:48 公開日:2020-12-08
# 分散のない最適平均推定法

Optimal Mean Estimation without a Variance ( http://arxiv.org/abs/2011.12433v2 )

ライセンス: Link先を確認
Yeshwanth Cherapanamjeri, Nilesh Tripuraneni, Peter L. Bartlett, Michael I. Jordan(参考訳) 本研究では,データ生成分布の分散が存在しない環境での重み付き平均推定問題について検討する。 Concretely, given a sample $\mathbf{X} = \{X_i\}_{i = 1}^n$ from a distribution $\mathcal{D}$ over $\mathbb{R}^d$ with mean $\mu$ which satisfies the following \emph{weak-moment} assumption for some ${\alpha \in [0, 1]}$: \begin{equation*} \forall \|v\| = 1: \mathbb{E}_{X \thicksim \mathcal{D}}[\lvert \langle X - \mu, v\rangle \rvert^{1 + \alpha}] \leq 1, \end{equation*} and given a target failure probability, $\delta$, our goal is to design an estimator which attains the smallest possible confidence interval as a function of $n,d,\delta$. 特定の場合の$\alpha = 1$の場合、lugosi と mendelson の基礎的な研究は、サブガウシアン信頼区間を達成する推定子を示し、その後の研究はこの推定子の計算効率の高いバージョンへと導かれる。 ここで、一般の$\alpha$の場合を研究し、最適な到達可能な信頼区間について次の情報理論下限を確立する: \begin{equation*} \omega \left(\sqrt{\frac{d}{n}} + \left(\frac{d}{n}\right)^{\frac{\alpha}{(1 + \alpha)}} + \left(\frac{\log 1 / \delta}{n}\right)^{\frac{\alpha}{(1 + \alpha)}}\right)。 さらに、この下限を達成する計算効率の高い推定器を考案する。

We study the problem of heavy-tailed mean estimation in settings where the variance of the data-generating distribution does not exist. Concretely, given a sample $\mathbf{X} = \{X_i\}_{i = 1}^n$ from a distribution $\mathcal{D}$ over $\mathbb{R}^d$ with mean $\mu$ which satisfies the following \emph{weak-moment} assumption for some ${\alpha \in [0, 1]}$: \begin{equation*} \forall \|v\| = 1: \mathbb{E}_{X \thicksim \mathcal{D}}[\lvert \langle X - \mu, v\rangle \rvert^{1 + \alpha}] \leq 1, \end{equation*} and given a target failure probability, $\delta$, our goal is to design an estimator which attains the smallest possible confidence interval as a function of $n,d,\delta$. For the specific case of $\alpha = 1$, foundational work of Lugosi and Mendelson exhibits an estimator achieving subgaussian confidence intervals, and subsequent work has led to computationally efficient versions of this estimator. Here, we study the case of general $\alpha$, and establish the following information-theoretic lower bound on the optimal attainable confidence interval: \begin{equation*} \Omega \left(\sqrt{\frac{d}{n}} + \left(\frac{d}{n}\right)^{\frac{\alpha}{(1 + \alpha)}} + \left(\frac{\log 1 / \delta}{n}\right)^{\frac{\alpha}{(1 + \alpha)}}\right). \end{equation*} Moreover, we devise a computationally-efficient estimator which achieves this lower bound.
翻訳日:2022-09-21 13:02:15 公開日:2020-12-08
# 蒸留トンプソンサンプリング:模倣学習による実用的かつ効率的なトンプソンサンプリング

Distilled Thompson Sampling: Practical and Efficient Thompson Sampling via Imitation Learning ( http://arxiv.org/abs/2011.14266v2 )

ライセンス: Link先を確認
Hongseok Namkoong, Samuel Daulton, Eytan Bakshy(参考訳) トンプソンサンプリング(TS)は文脈的包帯問題に対する堅牢な手法として登場した。 しかし、TSは後続の推論とアクション生成の最適化を必要とし、レイテンシとデプロイの容易さが懸念される多くのインターネットアプリケーションでの使用を禁止している。 後部推論と最適化をオフラインで行うことで、TSポリシーを明示的なポリシー表現に蒸留する新しい模倣学習アルゴリズムを提案する。 明示的なポリシー表現は、高速なオンライン意思決定とモバイルおよびサーバベースの環境へのデプロイを可能にする。 我々のアルゴリズムはTSポリシーのオフラインバッチ更新を繰り返し行い、新しい模倣ポリシーを学習する。 我々は,tsポリシーを模倣ポリシーで収集した観察値で更新するため,tsのオフポリシー版をエミュレートする。 当社の模倣アルゴリズムは,tsに匹敵するベイズ後悔を,一段階の模倣誤差の和まで保証する。 大規模なインターネットアプリケーションの場合、ラベルのないコンテキストが安価に利用できる場合、これらの模倣エラーを任意に小さくすることができることを示す。 実証的に、我々の模倣ポリシーはTSに匹敵する後悔を達成し、決定時間の遅延を桁違いに減らしていることを示す。

Thompson sampling (TS) has emerged as a robust technique for contextual bandit problems. However, TS requires posterior inference and optimization for action generation, prohibiting its use in many internet applications where latency and ease of deployment are of concern. We propose a novel imitation-learning-based algorithm that distills a TS policy into an explicit policy representation by performing posterior inference and optimization offline. The explicit policy representation enables fast online decision-making and easy deployment in mobile and server-based environments. Our algorithm iteratively performs offline batch updates to the TS policy and learns a new imitation policy. Since we update the TS policy with observations collected under the imitation policy, our algorithm emulates an off-policy version of TS. Our imitation algorithm guarantees Bayes regret comparable to TS, up to the sum of single-step imitation errors. We show these imitation errors can be made arbitrarily small when unlabeled contexts are cheaply available, which is the case for most large-scale internet applications. Empirically, we show that our imitation policy achieves comparable regret to TS, while reducing decision-time latency by over an order of magnitude.
翻訳日:2021-06-07 09:08:18 公開日:2020-12-08
# (参考訳) マルチエージェント学習システムにおける低帯域通信

Low-Bandwidth Communication Emerges Naturally in Multi-Agent Learning Systems ( http://arxiv.org/abs/2011.14890v2 )

ライセンス: CC BY 4.0
Niko A. Grupen, Daniel D. Lee, Bart Selman(参考訳) 本研究では,自然界における協調的マルチエージェント行動のレンズを通して創発的コミュニケーションを研究する。 動物コミュニケーションからの洞察を用いて,低帯域幅のスペクトル(例えば,スペクトル)を提案する。 フェロモントレイル)から高帯域幅(例) 構成言語)社会的エージェントの認知的、知覚的、行動的能力に基づくコミュニケーション。 追従回避ゲームによる一連の実験を通じて、通信スペクトルの低帯域幅端に対する計算モデルとしてマルチエージェント強化学習アルゴリズムを同定する。

In this work, we study emergent communication through the lens of cooperative multi-agent behavior in nature. Using insights from animal communication, we propose a spectrum from low-bandwidth (e.g. pheromone trails) to high-bandwidth (e.g. compositional language) communication that is based on the cognitive, perceptual, and behavioral capabilities of social agents. Through a series of experiments with pursuit-evasion games, we identify multi-agent reinforcement learning algorithms as a computational model for the low-bandwidth end of the communication spectrum.
翻訳日:2021-06-07 01:54:22 公開日:2020-12-08
# オープンソースMLパッケージリポジトリにおけるソフトウェアエンジニアリング実践に関する実証的研究

Empirical Study on the Software Engineering Practices in Open Source ML Package Repositories ( http://arxiv.org/abs/2012.01403v2 )

ライセンス: Link先を確認
Minke Xiu, Ellis E. Eghan, Zhen Ming (Jack) Jiang, Bram Adams(参考訳) 人工知能(AI)の最近の進歩、特に機械学習(ML)では、日々のユーザー体験を高める様々な実践的応用(仮想パーソナルアシスタントや自動運転車など)が導入されている。 しかし、ディープラーニングのような現代のML技術は、そのようなモデルを開発し、訓練し、デプロイするために、かなりの技術的専門知識とリソースを必要とし、MLモデルの効果的な再利用が必要とされる。 実践者や研究者によるこのような発見と再利用は、トレーニング済みモデルをパッケージにバンドルして公開するパブリックmlパッケージリポジトリによって対処されている。 このようなレポジトリは最近の現象であるため、現状や課題に関する実証データはない。 そこで本稿では,2つの一般的なmlパッケージリポジトリ(tfhubとpytorch hub)の構造と内容を分析し,それらの情報要素(機能とポリシ),パッケージ組織,パッケージマネージャ機能,一般的なソフトウェアパッケージリポジトリ(npm,pypi,cran)の使用状況を比較した。 これらの研究を通じて、MLパッケージを共有するためのユニークなSEプラクティスと課題を特定しました。 これらの発見と影響は、データサイエンティスト、研究者、ソフトウェア開発者がこれらの共有MLパッケージを使用するのに役立つだろう。

Recent advances in Artificial Intelligence (AI), especially in Machine Learning (ML), have introduced various practical applications (e.g., virtual personal assistants and autonomous cars) that enhance the experience of everyday users. However, modern ML technologies like Deep Learning require considerable technical expertise and resources to develop, train and deploy such models, making effective reuse of the ML models a necessity. Such discovery and reuse by practitioners and researchers are being addressed by public ML package repositories, which bundle up pre-trained models into packages for publication. Since such repositories are a recent phenomenon, there is no empirical data on their current state and challenges. Hence, this paper conducts an exploratory study that analyzes the structure and contents of two popular ML package repositories, TFHub and PyTorch Hub, comparing their information elements (features and policies), package organization, package manager functionalities and usage contexts against popular software package repositories (npm, PyPI, and CRAN). Through these studies, we have identified unique SE practices and challenges for sharing ML packages. These findings and implications would be useful for data scientists, researchers and software developers who intend to use these shared ML packages.
翻訳日:2021-05-25 03:48:31 公開日:2020-12-08
# NeurIPS 2020 Workshop on Artificial Intelligence for Humanitarian Assistance and Disaster Response に参加して

Proceedings of NeurIPS 2020 Workshop on Artificial Intelligence for Humanitarian Assistance and Disaster Response ( http://arxiv.org/abs/2012.02108v2 )

ライセンス: Link先を確認
Ritwik Gupta, Eric T. Heim, Edoardo Nemni(参考訳) これは、2020年12月12日にNeural Information Processing Systemsカンファレンスで事実上開催された第2回AI + HADRワークショップの"成果"である。 これらは非アーキバルであり、単にワークショップで受け入れられたすべての論文をまとめる手段として機能する。

These are the "proceedings" of the 2nd AI + HADR workshop which was held virtually on December 12, 2020 as part of the Neural Information Processing Systems conference. These are non-archival and merely serve as a way to collate all the papers accepted to the workshop.
翻訳日:2021-05-23 14:47:03 公開日:2020-12-08
# インドにおけるアルゴリズムフェアネスの非可搬性

Non-portability of Algorithmic Fairness in India ( http://arxiv.org/abs/2012.03659v2 )

ライセンス: Link先を確認
Nithya Sambasivan, Erin Arnesen, Ben Hutchinson, Vinodkumar Prabhakaran(参考訳) 従来のアルゴリズムの公正さは、その部分群、値、最適化において西洋的である。 本稿では,この西洋のアルゴリズム的公平性に対する仮定が,インドのような異なる地理文化的文脈にいかにポータブルであるかを問う。 インドにおける36人の専門家によるインタビューと、新たなアルゴリズムの展開の分析に基づいて、インドにおける機械学習モデルと抑圧されたコミュニティの間の大きな距離を埋める3つの課題を識別する。 我々は、単にインドのサブグループへの技術的公正性作業の翻訳は、単にウィンドウドレッシングとしてのみ機能し、代わりに、データとモデルを再コンテクスト化し、抑圧されたコミュニティの権限を付与し、生態系を有効化することによって、Fair-MLの集合的な再想像を呼び起こすことができると主張している。

Conventional algorithmic fairness is Western in its sub-groups, values, and optimizations. In this paper, we ask how portable the assumptions of this largely Western take on algorithmic fairness are to a different geo-cultural context such as India. Based on 36 expert interviews with Indian scholars, and an analysis of emerging algorithmic deployments in India, we identify three clusters of challenges that engulf the large distance between machine learning models and oppressed communities in India. We argue that a mere translation of technical fairness work to Indian subgroups may serve only as a window dressing, and instead, call for a collective re-imagining of Fair-ML, by re-contextualising data and models, empowering oppressed communities, and more importantly, enabling ecosystems.
翻訳日:2021-05-23 14:39:27 公開日:2020-12-08
# (参考訳) ペプチド-MHC結合予測のためのランク付け型畳み込みニューラルネットワークモデル

Ranking-based Convolutional Neural Network Models for Peptide-MHC Binding Prediction ( http://arxiv.org/abs/2012.02840v2 )

ライセンス: CC BY 4.0
Ziqi Chen, Martin Renqiang Min and Xia Ning(参考訳) t細胞受容体は、主要組織適合性複合体(mhc)クラスiタンパク質に結合する異物ペプチドを認識し、適応免疫応答を誘導する。 したがって、MHCクラスI分子に結合するペプチドの同定は、ペプチドワクチンの設計において重要な役割を果たす。 多くの計算手法、例えば最先端のアレル特異的なMHCflurryは、ペプチドとMHC分子の結合親和性を予測するために開発された。 本稿では,結合予測問題に取り組むために,ConvMとSpConvMという2つのアレル固有畳み込みニューラルネットワーク(CNN)ベースの手法を開発した。 具体的には,ペプチド-MHC結合のランク付けを,ランク付けに基づく学習目的によって最適化する。 このような最適化は結合親和性の測定の不正確性に対してより堅牢であり、したがって結合ペプチドのより正確な優先順位付けを可能にする。 さらに,結合イベントにおいて最も重要なアミノ酸を同定するために,ConvMとSpConvMの新たな位置符号化法を開発した。 実験の結果,本モデルがmhcflurryを含む最先端手法を有意に上回り,aucでは6.70%,roc5では17.10%改善した。

T-cell receptors can recognize foreign peptides bound to major histocompatibility complex (MHC) class-I proteins, and thus trigger the adaptive immune response. Therefore, identifying peptides that can bind to MHC class-I molecules plays a vital role in the design of peptide vaccines. Many computational methods, for example, the state-of-the-art allele-specific method MHCflurry, have been developed to predict the binding affinities between peptides and MHC molecules. In this manuscript, we develop two allele-specific Convolutional Neural Network (CNN)-based methods named ConvM and SpConvM to tackle the binding prediction problem. Specifically, we formulate the problem as to optimize the rankings of peptide-MHC bindings via ranking-based learning objectives. Such optimization is more robust and tolerant to the measurement inaccuracy of binding affinities, and therefore enables more accurate prioritization of binding peptides. In addition, we develop a new position encoding method in ConvM and SpConvM to better identify the most important amino acids for the binding events. Our experimental results demonstrate that our models significantly outperform the state-of-the-art methods including MHCflurry with an average percentage improvement of 6.70% on AUC and 17.10% on ROC5 across 128 alleles.
翻訳日:2021-05-22 23:21:52 公開日:2020-12-08
# アイテムセットマイニングにおける3つの中心問題の計算複雑性

Computational Complexity of Three Central Problems in Itemset Mining ( http://arxiv.org/abs/2012.02619v3 )

ライセンス: Link先を確認
Christian Bessiere, Mohamed-Bachir Belaid, Nadjib Lazaar(参考訳) アイテムセットマイニングは、知識発見において最も研究されているタスクの1つである。 本稿では,3つの中央項目のマイニング問題の計算複雑性を解析する。 我々は、ある項目の先頭で確実なルールをマイニングすることがNPハードであることを証明する。 高ユーティリティアイテムセットのマイニングがNPハードであることを証明する。 ユーザが関心のあるアイテムセットの種類に関する制約を指定できれば,最大あるいはクローズドなアイテムセットのマイニングがcoNPハードであることは,最終的に証明できる。

Itemset mining is one of the most studied tasks in knowledge discovery. In this paper we analyze the computational complexity of three central itemset mining problems. We prove that mining confident rules with a given item in the head is NP-hard. We prove that mining high utility itemsets is NP-hard. We finally prove that mining maximal or closed itemsets is coNP-hard as soon as the users can specify constraints on the kind of itemsets they are interested in.
翻訳日:2021-05-22 20:36:04 公開日:2020-12-08
# (参考訳) 大規模リアルシーンにおける対話型タスクのシミュレーション環境iGibson

iGibson, a Simulation Environment for Interactive Tasks in Large Realistic Scenes ( http://arxiv.org/abs/2012.02924v2 )

ライセンス: CC BY 4.0
Bokui Shen, Fei Xia, Chengshu Li, Roberto Mart\'in-Mart\'in, Linxi Fan, Guanzhi Wang, Shyamal Buch, Claudia D'Arpino, Sanjana Srivastava, Lyne P. Tchapmi, Micael E. Tchapmi, Kent Vainio, Li Fei-Fei, Silvio Savarese(参考訳) 大規模現実シーンにおける対話型タスクのためのロボットソリューションを開発するための,新しいシミュレーション環境iGibsonを提案する。 私たちの環境には、厳密で明瞭な物体が密集した15のインタラクティブなホームサイズシーンが含まれています。 シーンは3Dスキャンされた現実世界の家のレプリカで、オブジェクトとレイアウトの分布を現実世界のものと一致させる。 iGibson integrates several key features to facilitate the study of interactive tasks: i) generation of high-quality visual virtual sensor signals (RGB, depth, segmentation, LiDAR, flow, among others), ii) domain randomization to change the materials of the objects (both visual texture and dynamics) and/or their shapes, iii) integrated sampling-based motion planners to generate collision-free trajectories for robot bases and arms, and iv) intuitive human-iGibson interface that enables efficient collection of human demonstrations. 実験を通して,シーンの完全な対話性により,エージェントは下流操作タスクのトレーニングを加速する有用な視覚表現を学習できることを示した。 また,iGibson機能によりナビゲーションエージェントの一般化が可能であり,人間-iGibsonインタフェースと統合された動作プランナが,簡単な人間の行動の模倣学習を効率化することを示す。 igibsonは、包括的な例とドキュメントでオープンソースである。 詳細については、プロジェクトのWebサイトをご覧ください。

We present iGibson, a novel simulation environment to develop robotic solutions for interactive tasks in large-scale realistic scenes. Our environment contains fifteen fully interactive home-sized scenes populated with rigid and articulated objects. The scenes are replicas of 3D scanned real-world homes, aligning the distribution of objects and layout to that of the real world. iGibson integrates several key features to facilitate the study of interactive tasks: i) generation of high-quality visual virtual sensor signals (RGB, depth, segmentation, LiDAR, flow, among others), ii) domain randomization to change the materials of the objects (both visual texture and dynamics) and/or their shapes, iii) integrated sampling-based motion planners to generate collision-free trajectories for robot bases and arms, and iv) intuitive human-iGibson interface that enables efficient collection of human demonstrations. Through experiments, we show that the full interactivity of the scenes enables agents to learn useful visual representations that accelerate the training of downstream manipulation tasks. We also show that iGibson features enable the generalization of navigation agents, and that the human-iGibson interface and integrated motion planners facilitate efficient imitation learning of simple human demonstrated behaviors. iGibson is open-sourced with comprehensive examples and documentation. For more information, visit our project website: http://svl.stanford.edu/igibson/
翻訳日:2021-05-22 18:05:45 公開日:2020-12-08
# 4次元光フィールドビデオからの深度推定

Depth estimation from 4D light field videos ( http://arxiv.org/abs/2012.03021v2 )

ライセンス: Link先を確認
Takahiro Kinoshita and Satoshi Ono(参考訳) 4D光場(LF)画像からの深度(差分)の推定は、ここ数年研究課題となっている。 ほとんどの研究は、時間的情報、すなわちLFビデオを考慮していない静的な4次元LF画像からの深さ推定に焦点を当てている。 本稿では,4次元LFビデオからの深度推定のためのエンドツーエンドニューラルネットワークアーキテクチャを提案する。 本研究は,深層学習に基づく手法の訓練に使用できる中規模の4次元LFビデオデータセットを構築した。 合成および実世界の4D LFビデオによる実験結果から,時空間情報は雑音域における深度推定精度の向上に寄与することが示された。 Dataset と code は https://mediaeng-lfv.github.io/LFV_Disparity_Estimation で利用可能である。

Depth (disparity) estimation from 4D Light Field (LF) images has been a research topic for the last couple of years. Most studies have focused on depth estimation from static 4D LF images while not considering temporal information, i.e., LF videos. This paper proposes an end-to-end neural network architecture for depth estimation from 4D LF videos. This study also constructs a medium-scale synthetic 4D LF video dataset that can be used for training deep learning-based methods. Experimental results using synthetic and real-world 4D LF videos show that temporal information contributes to the improvement of depth estimation accuracy in noisy regions. Dataset and code is available at: https://mediaeng-lfv.github.io/LFV_Disparity_Estimation
翻訳日:2021-05-22 12:09:44 公開日:2020-12-08
# 画像表現とリー不変量の合同推定

Joint Estimation of Image Representations and their Lie Invariants ( http://arxiv.org/abs/2012.02903v2 )

ライセンス: Link先を確認
Christine Allen-Blanchette and Kostas Daniilidis(参考訳) 画像は世界の状態とその内容の両方を符号化する。 前者は計画や管理といったタスクに、後者は分類に役立ちます。 この情報の自動抽出は、画像表現に固有の高次元と絡み合いエンコーディングのため困難である。 本稿では,これらの課題を解決するための2つの理論的アプローチを紹介する。 このアプローチにより、画像表現とシーケンスダイナミックスのジェネレータとの結合推定により、画像シーケンスからの画像の補間と外挿が可能となる。 最初のアプローチでは、画像表現は確率的PCA \cite{tipping 1999probabilistic} を用いて学習される。 線型ガウス条件分布は、潜在分布の閉形式解析的記述を可能にするが、基礎となる像多様体が線型部分空間であると仮定する。 第2のアプローチでは、画像表現を確率論的非線形PCAを用いて学習し、線形多様体仮定を遅延分布の変動近似を必要とするコストで緩和する。 どちらの手法も、画像列の基盤となるダイナミクスを明示的にモデル化して画像表現から切り離す。 ダイナミクス自体は、画像間の変換の滑らかさと構成可能性の望ましい性質を強制するリー群構造によってモデル化される。

Images encode both the state of the world and its content. The former is useful for tasks such as planning and control, and the latter for classification. The automatic extraction of this information is challenging because of the high-dimensionality and entangled encoding inherent to the image representation. This article introduces two theoretical approaches aimed at the resolution of these challenges. The approaches allow for the interpolation and extrapolation of images from an image sequence by joint estimation of the image representation and the generators of the sequence dynamics. In the first approach, the image representations are learned using probabilistic PCA \cite{tipping1999probabilistic}. The linear-Gaussian conditional distributions allow for a closed form analytical description of the latent distributions but assumes the underlying image manifold is a linear subspace. In the second approach, the image representations are learned using probabilistic nonlinear PCA which relieves the linear manifold assumption at the cost of requiring a variational approximation of the latent distributions. In both approaches, the underlying dynamics of the image sequence are modelled explicitly to disentangle them from the image representations. The dynamics themselves are modelled with Lie group structure which enforces the desirable properties of smoothness and composability of inter-image transformations.
翻訳日:2021-05-22 12:08:02 公開日:2020-12-08
# グラフネットワークを用いたランダム緩和による結晶構造探索

Crystal Structure Search with Random Relaxations Using Graph Networks ( http://arxiv.org/abs/2012.02920v2 )

ライセンス: Link先を確認
Gowoon Cheon, Lusann Yang, Kevin McCloskey, Evan J. Reed and Ekin D. Cubuk(参考訳) 材料設計は、太陽電池や電池で気候変動に対処するなど、人類にとって重要な技術を可能にする。 材料の多くの性質は、その原子結晶構造によって決定される。 しかし、ある材料の化学式に対する原子結晶構造の予測は、材料設計における障壁として長く続く大きな課題である。 結晶構造探索のための最先端手法である ab initio random structure search (airss) の高速化のためのデータ駆動アプローチについて検討した。 高出力密度汎関数理論計算を用いたLi-Si電池陽極材料のランダムな構造緩和のデータセットを構築した。 我々はランダム構造の緩和をシミュレートするためにグラフニューラルネットワークを訓練する。 我々のモデルは、トレーニングされていないLi15Si4の実験的に検証された構造を見つけることができ、大きな単位細胞を探索し、複数の化学組織を探索する際に、AIRSSよりも桁違いに高速になる可能性がある。 驚くべきことに、ガウスノイズを付加するデータの拡張は、モデルの精度と領域の一般化の両方を改善します。

Materials design enables technologies critical to humanity, including combating climate change with solar cells and batteries. Many properties of a material are determined by its atomic crystal structure. However, prediction of the atomic crystal structure for a given material's chemical formula is a long-standing grand challenge that remains a barrier in materials design. We investigate a data-driven approach to accelerating ab initio random structure search (AIRSS), a state-of-the-art method for crystal structure search. We build a novel dataset of random structure relaxations of Li-Si battery anode materials using high-throughput density functional theory calculations. We train graph neural networks to simulate relaxations of random structures. Our model is able to find an experimentally verified structure of Li15Si4 it was not trained on, and has potential for orders of magnitude speedup over AIRSS when searching large unit cells and searching over multiple chemical stoichiometries. Surprisingly, we find that data augmentation of adding Gaussian noise improves both the accuracy and out of domain generalization of our models.
翻訳日:2021-05-22 11:58:32 公開日:2020-12-08
# (参考訳) 深部ニューラルネットワークのヘッセン固有スペクトルのより深い考察と正規化への応用

A Deeper Look at the Hessian Eigenspectrum of Deep Neural Networks and its Applications to Regularization ( http://arxiv.org/abs/2012.03801v2 )

ライセンス: CC BY 4.0
Adepu Ravi Sankar, Yash Khasbage, Rahul Vigneswaran, Vineeth N Balasubramanian(参考訳) 損失ランドスケープ解析は、ディープニューラルネットワークモデルの一般化能力を理解する上で非常に有用である。 本研究では,各層における損失面を独立に研究し,各層の損失面と損失面との相関関係について考察する。 我々は,各層におけるヘッセンの固有スペクトルを研究することにより,層状損失の景観を考察する。 特に, 層状ヘッセン幾何学はヘッセン幾何学の全体とほとんど類似していることが示された。 また,深部ニューラルネットワークの中間層におけるヘッセン固有スペクトルが,ヘッセン固有スペクトル全体と最もよく似ているという興味深い現象を報告する。 また,ネットワークのトレーニングが進むにつれて,最大固有値とヘッシアン(全ネットワークと層)のトレースが減少することを示した。 我々はこれらの観測を活用し,層状ヘッシアンの痕跡に基づく新しい正規化器を提案する。 各層でヘッセンの痕跡をペナライズすることで、確率的勾配降下がフラットな最小値に収束し、より一般化性能が向上することが示されている。 特に, 層状正則化器を用いて中層のみをペナルティ化することで, 有望な結果が得られることを示す。 データセット間のよく知られたディープネットに関する実証的研究は、この研究の主張を支持している

Loss landscape analysis is extremely useful for a deeper understanding of the generalization ability of deep neural network models. In this work, we propose a layerwise loss landscape analysis where the loss surface at every layer is studied independently and also on how each correlates to the overall loss surface. We study the layerwise loss landscape by studying the eigenspectra of the Hessian at each layer. In particular, our results show that the layerwise Hessian geometry is largely similar to the entire Hessian. We also report an interesting phenomenon where the Hessian eigenspectrum of middle layers of the deep neural network are observed to most similar to the overall Hessian eigenspectrum. We also show that the maximum eigenvalue and the trace of the Hessian (both full network and layerwise) reduce as training of the network progresses. We leverage on these observations to propose a new regularizer based on the trace of the layerwise Hessian. Penalizing the trace of the Hessian at every layer indirectly forces Stochastic Gradient Descent to converge to flatter minima, which are shown to have better generalization performance. In particular, we show that such a layerwise regularizer can be leveraged to penalize the middlemost layers alone, which yields promising results. Our empirical studies on well-known deep nets across datasets support the claims of this work
翻訳日:2021-05-18 12:53:41 公開日:2020-12-08
# (参考訳) 映像表現学習のためのパラメータ効率の高いマルチモーダルトランスフォーマー

Parameter Efficient Multimodal Transformers for Video Representation Learning ( http://arxiv.org/abs/2012.04124v1 )

ライセンス: CC BY 4.0
Sangho Lee, Youngjae Yu, Gunhee Kim, Thomas Breuel, Jan Kautz, Yale Song(参考訳) 言語領域におけるトランスフォーマーの最近の成功は、それをマルチモーダルな設定に適応させることを動機付けている。 しかし、トランスフォーマーからの過剰なメモリ要求のため、既存の作業は言語モデルを修正し、視覚モジュールのみを訓練する。 本研究では,音声映像表現学習の文脈におけるマルチモーダルトランスフォーマのパラメータ低減に着目する。 我々は,トランスフォーマーの重みを層やモダリティ間で共有することで高いメモリ要求を緩和し,トランスフォーマーをモダリティ固有部分とモダリティ共有部分に分解し,各モダリティのダイナミクスを個々に学習し,低ランク近似に基づく新しいパラメータ共有方式を提案する。 当社のアプローチはパラメータを最大80$\%$まで削減し、エンドツーエンドでモデルをスクラッチからトレーニングできることを示しています。 また,モデルがトランスフォーマーで学習するcnn埋め込み空間上で測定したインスタンス類似性に基づく負サンプリング手法を提案する。 本研究では,Kinetics-700から30秒のクリップをプレトレーニングし,音声視覚分類タスクに転送する。

The recent success of Transformers in the language domain has motivated adapting it to a multimodal setting, where a new visual model is trained in tandem with an already pretrained language model. However, due to the excessive memory requirements from Transformers, existing work typically fixes the language model and train only the vision module, which limits its ability to learn cross-modal information in an end-to-end manner. In this work, we focus on reducing the parameters of multimodal Transformers in the context of audio-visual video representation learning. We alleviate the high memory requirement by sharing the weights of Transformers across layers and modalities; we decompose the Transformer into modality-specific and modality-shared parts so that the model learns the dynamics of each modality both individually and together, and propose a novel parameter sharing scheme based on low-rank approximation. We show that our approach reduces parameters up to 80$\%$, allowing us to train our model end-to-end from scratch. We also propose a negative sampling approach based on an instance similarity measured on the CNN embedding space that our model learns with the Transformers. To demonstrate our approach, we pretrain our model on 30-second clips from Kinetics-700 and transfer it to audio-visual classification tasks.
翻訳日:2021-05-18 05:01:46 公開日:2020-12-08
# (参考訳) 様々な測光・幾何変換下におけるキーポイント検出器およびバイナリディスクリプタの性能解析

Performance Analysis of Keypoint Detectors and Binary Descriptors Under Varying Degrees of Photometric and Geometric Transformations ( http://arxiv.org/abs/2012.04135v1 )

ライセンス: CC BY-SA 4.0
Shuvo Kumar Paul, Pourya Hoseini, Mircea Nicolescu and Monica Nicolescu(参考訳) 特徴マッチングによる画像対応の検出は、多数のコンピュータビジョンアプリケーションの基礎となる。 過去にいくつかの検出器とディスクリプタが提示され、画像中の興味点(キーポイント)からの効率的な特徴の生成に対処している。 本稿では,8つのバイナリ記述子 (akaZE, BoostDesc, BRIEF, BRISK, FREAK, LATCH, LUCID, ORB) と8つの関心点検出器 (AGAST, akaZE, BRISK, FAST, HarrisLapalce, KAZE, ORB, StarDetector) について検討する。 我々は,関心点検出器を解析するために検出・記述フェーズを分離し,異なる検出器と記述器のペアワイズ組み合わせの性能評価を行った。 標準データセットの実験を行い、異なる画像変換の下で各手法の比較性能を解析した。 We observed that: (1) the FAST, AGAST, ORB detectors were faster and detected more keypoints, (2) the AKAZE and KAZE detectors performed better under photometric changes while ORB was more robust against geometric changes, (3) in general, descriptors performed better when paired with the KAZE and AKAZE detectors, (4) the BRIEF, LUCID, ORB descriptors were relatively faster, and (5) none of the descriptors did particularly well under geometric transformations, only BRISK, FREAK, and AKAZE showed reasonable resiliency.

Detecting image correspondences by feature matching forms the basis of numerous computer vision applications. Several detectors and descriptors have been presented in the past, addressing the efficient generation of features from interest points (keypoints) in an image. In this paper, we investigate eight binary descriptors (AKAZE, BoostDesc, BRIEF, BRISK, FREAK, LATCH, LUCID, and ORB) and eight interest point detector (AGAST, AKAZE, BRISK, FAST, HarrisLapalce, KAZE, ORB, and StarDetector). We have decoupled the detection and description phase to analyze the interest point detectors and then evaluate the performance of the pairwise combination of different detectors and descriptors. We conducted experiments on a standard dataset and analyzed the comparative performance of each method under different image transformations. We observed that: (1) the FAST, AGAST, ORB detectors were faster and detected more keypoints, (2) the AKAZE and KAZE detectors performed better under photometric changes while ORB was more robust against geometric changes, (3) in general, descriptors performed better when paired with the KAZE and AKAZE detectors, (4) the BRIEF, LUCID, ORB descriptors were relatively faster, and (5) none of the descriptors did particularly well under geometric transformations, only BRISK, FREAK, and AKAZE showed reasonable resiliency.
翻訳日:2021-05-18 04:14:05 公開日:2020-12-08
# (参考訳) 分布推定のための適応サンプリング:ベイズ的上部信頼境界アプローチ

Adaptive Sampling for Estimating Distributions: A Bayesian Upper Confidence Bound Approach ( http://arxiv.org/abs/2012.04137v1 )

ライセンス: CC BY 4.0
Dhruva Kartik, Neeraj Sood, Urbashi Mitra, Tara Javidi(参考訳) 確率質量関数(pmf)を均一に推定するための適応サンプリングの問題点を考察する。 サンプリング戦略の性能は、最悪のケースの平均2乗誤差の観点から測定する。 既存の上信頼境界(UCB)に基づくアプローチのベイズ変種を提案する。 解析学的に、このベイズ変種の性能は既存のアプローチよりも悪いものではないことが示されている。 ベイジアン設定におけるpmfsの後方分布は、高信頼境界のより厳密な計算を可能にし、実際に顕著な性能向上をもたらす。 この手法を用いて,SARS-CoV-2セロプレバレンスを位置や民族など様々なグループで推定するための適応サンプリングプロトコルを提案する。 ロサンゼルス郡のセロプレバレンス調査から得られたデータを用いて,この戦略の有効性を考察した。

The problem of adaptive sampling for estimating probability mass functions (pmf) uniformly well is considered. Performance of the sampling strategy is measured in terms of the worst-case mean squared error. A Bayesian variant of the existing upper confidence bound (UCB) based approaches is proposed. It is shown analytically that the performance of this Bayesian variant is no worse than the existing approaches. The posterior distribution on the pmfs in the Bayesian setting allows for a tighter computation of upper confidence bounds which leads to significant performance gains in practice. Using this approach, adaptive sampling protocols are proposed for estimating SARS-CoV-2 seroprevalence in various groups such as location and ethnicity. The effectiveness of this strategy is discussed using data obtained from a seroprevalence survey in Los Angeles county.
翻訳日:2021-05-18 04:00:38 公開日:2020-12-08
# (参考訳) ポートレートスタイルの表現を学ぶ

Learning Portrait Style Representations ( http://arxiv.org/abs/2012.04153v1 )

ライセンス: CC BY 4.0
Sadat Shaik, Bernadette Bucher, Nephele Agrafiotis, Stephen Phillips, Kostas Daniilidis, William Schmenner(参考訳) コンピュータビジョンにおけるアートワークのスタイル分析は主に、ブラシストロークなどの低レベルなスタイル特性の理解を最適化することで、ターゲット画像生成の結果を達成することに焦点を当てている。 しかし,高度なスタイルの特徴を取り入れた芸術の質を計算的に理解し,制御するためには,基本的に異なる技術が必要である。 これらの高レベル特性を組み込んだニューラルネットワークアーキテクチャによって学習されたスタイル表現について検討する。 美術史家によって注釈付けされた三重奏曲をスタイル類似性の監督として取り入れることで,学習スタイルの特徴の変化を見いだす。 ImageNetのような画像コレクションに事前訓練された統計的先行情報を利用するネットワークは、アートワークの有用な視覚表現も引き出すことができる。 これらの人間的知識、統計、写真リアリズムがスタイル表現に先行する影響を美術史研究と整合させ、これらの表現を用いてアーティストのゼロショット分類を行う。 この作業を容易にするため、計算解析のために準備された最初の大規模な肖像画データセットも提示する。

Style analysis of artwork in computer vision predominantly focuses on achieving results in target image generation through optimizing understanding of low level style characteristics such as brush strokes. However, fundamentally different techniques are required to computationally understand and control qualities of art which incorporate higher level style characteristics. We study style representations learned by neural network architectures incorporating these higher level characteristics. We find variation in learned style features from incorporating triplets annotated by art historians as supervision for style similarity. Networks leveraging statistical priors or pretrained on photo collections such as ImageNet can also derive useful visual representations of artwork. We align the impact of these expert human knowledge, statistical, and photo realism priors on style representations with art historical research and use these representations to perform zero-shot classification of artists. To facilitate this work, we also present the first large-scale dataset of portraits prepared for computational analysis.
翻訳日:2021-05-18 03:33:48 公開日:2020-12-08
# (参考訳) 非局所モデルのデータ駆動学習:高忠実度シミュレーションから構成則へ

Data-driven learning of nonlocal models: from high-fidelity simulations to constitutive laws ( http://arxiv.org/abs/2012.04157v1 )

ライセンス: CC BY 4.0
Huaiqian You, Yue Yu, Stewart Silling, Marta D'Elia(参考訳) 機械学習により, 1次元複合材料の応力波シミュレーションの精度が向上することを示す。 応力波伝搬モデルにおける非局所構成則を学習するためのデータ駆動手法を提案する。 この手法は最適化に基づく手法であり、非局所カーネル関数はベルンシュタイン多項式によって近似される。 関数形式とパラメータの両方を含むカーネルは、非局所解法で使われるとき、高忠実度データと密接に一致する解を生成するように導出される。 したがって、最適核は均質化された非局所連続体モデルとして機能し、複数の材料を含む小さなより詳細なモデルで波動運動を正確に再現する。 この手法を周期的構造を持つ異種棒内における波動伝搬に適用する。 いくつかの1次元数値実験では,アルゴリズムの精度を示す。 最適カーネルは、トレーニングデータとして用いられる問題と大きく異なる応用において、複合材料に対する高忠実度データを再現する。

We show that machine learning can improve the accuracy of simulations of stress waves in one-dimensional composite materials. We propose a data-driven technique to learn nonlocal constitutive laws for stress wave propagation models. The method is an optimization-based technique in which the nonlocal kernel function is approximated via Bernstein polynomials. The kernel, including both its functional form and parameters, is derived so that when used in a nonlocal solver, it generates solutions that closely match high-fidelity data. The optimal kernel therefore acts as a homogenized nonlocal continuum model that accurately reproduces wave motion in a smaller-scale, more detailed model that can include multiple materials. We apply this technique to wave propagation within a heterogeneous bar with a periodic microstructure. Several one-dimensional numerical tests illustrate the accuracy of our algorithm. The optimal kernel is demonstrated to reproduce high-fidelity data for a composite material in applications that are substantially different from the problems used as training data.
翻訳日:2021-05-18 03:19:26 公開日:2020-12-08
# (参考訳) Multi-modal Visual Tracking: レビューと実験的比較

Multi-modal Visual Tracking: Review and Experimental Comparison ( http://arxiv.org/abs/2012.04176v1 )

ライセンス: CC BY 4.0
Pengyu Zhang and Dong Wang and Huchuan Lu(参考訳) 近年,コンピュータビジョンの基本課題である視覚物体追跡が注目されている。 トラッカーをより広い範囲のアプリケーションに拡張するために、研究者は特定のシーンを扱うために複数のモードからの情報を導入した。 本稿では,多モード追跡アルゴリズム,特に可視深度(RGB-D)追跡と可視温度(RGB-T)追跡を異なる側面から統一した分類法で概観する。 第2に,関連するベンチマークと課題について,詳細な説明を行う。 さらに、PTB、VOT19-RGBD、GTOT、RGBT234、VOT19-RGBTの5つのデータセットにおけるトラッカーの有効性を分析するための広範な実験を行った。 最後に,モデル設計やデータセット構築など,さまざまな観点からの今後の方向性について論じる。

Visual object tracking, as a fundamental task in computer vision, has drawn much attention in recent years. To extend trackers to a wider range of applications, researchers have introduced information from multiple modalities to handle specific scenes, which is a promising research prospect with emerging methods and benchmarks. To provide a thorough review of multi-modal track-ing, we summarize the multi-modal tracking algorithms, especially visible-depth (RGB-D) tracking and visible-thermal (RGB-T) tracking in a unified taxonomy from different aspects. Second, we provide a detailed description of the related benchmarks and challenges. Furthermore, we conduct extensive experiments to analyze the effectiveness of trackers on five datasets: PTB, VOT19-RGBD, GTOT, RGBT234, and VOT19-RGBT. Finally, we discuss various future directions from different perspectives, including model design and dataset construction for further research.
翻訳日:2021-05-17 10:42:27 公開日:2020-12-08
# (参考訳) 不均一グラフによるプログラム表現の学習

Learning to Represent Programs with Heterogeneous Graphs ( http://arxiv.org/abs/2012.04188v1 )

ライセンス: CC BY 4.0
Wenhan Wang, Kechi Zhang, Ge Li, Zhi Jin(参考訳) プログラムソースコードには複雑な構造情報が含まれており、木やグラフのような構造化データ形式で表現することができる。 ソースコードの構造情報を取得するために、既存の研究の多くは抽象構文木(AST)を使用している。 研究のグループは、ASTに追加のエッジを追加して、ソースコードをグラフに変換し、グラフニューラルネットワークを使用してプログラムグラフの表現を学習する。 これらの作業は、下流タスクのためのASTに追加の制御やデータフロー情報を提供するが、AST自体における構造情報の重要な側面であるノードとエッジの異なるタイプを無視する。 ASTでは、異なるノードには変数や制御フローなどの異なる種類の情報が含まれており、ノードとすべての子との関係も異なる可能性がある。 ノード型とエッジ型の情報に対処するため,ソースコードの学習に異種グラフのアイデアを導入し,ASTから異種プログラムグラフを構築するための新しい公式をノードとエッジの型情報として提示する。 プログラミング言語のASDL文法を用いて,プログラムグラフのノード型とエッジ型を定義する。 そして、異種グラフニューラルネットワークを用いてこれらのグラフを学習する。 コードコメント生成とメソッド命名という2つのタスクに対するアプローチを評価した。 どちらのタスクも完全なコードスニペットの意味を推論する必要がある。 実験の結果,プログラムグラフにおけるノードとエッジの型情報を活用することで,プログラム意味論の学習に有効であることが示された。

Program source code contains complex structure information, which can be represented in structured data forms like trees or graphs. To acquire the structural information in source code, most existing researches use abstract syntax trees (AST). A group of works add additional edges to ASTs to convert source code into graphs and use graph neural networks to learn representations for program graphs. Although these works provide additional control or data flow information to ASTs for downstream tasks, they neglect an important aspect of structure information in AST itself: the different types of nodes and edges. In ASTs, different nodes contain different kinds of information like variables or control flow, and the relation between a node and all its children can also be different. To address the information of node and edge types, we bring the idea of heterogeneous graphs to learning on source code and present a new formula of building heterogeneous program graphs from ASTs with additional type information for nodes and edges. We use the ASDL grammar of programming language to define the node and edge types of program graphs. Then we use heterogeneous graph neural networks to learn on these graphs. We evaluate our approach on two tasks: code comment generation and method naming. Both tasks require reasoning on the semantics of complete code snippets. Experiment results show that our approach outperforms baseline models, including homogeneous graph-based models, showing that leveraging the type information of nodes and edges in program graphs can help in learning program semantics.
翻訳日:2021-05-17 10:41:10 公開日:2020-12-08
# (参考訳) 教師なしラベルリファインメントによるデータレステキスト分類の改善

Unsupervised Label Refinement Improves Dataless Text Classification ( http://arxiv.org/abs/2012.04194v1 )

ライセンス: CC BY 4.0
Zewei Chu, Karl Stratos, Kevin Gimpel(参考訳) データレステキスト分類は、ラベル記述と組み合わせた文書にスコアを割り当てることで、文書を未確認のラベルに分類することができる。 有望ではあるが、下流タスクごとにラベルセットの正確な記述に依存する。 この依存により、データレス分類器はラベル記述の選択に非常に敏感になり、実際にはデータレス分類の幅広い適用を妨げる。 本稿では,ダウンストリームタスクデータセットの入力を用いて,データレステキスト分類をどのように改善できるのか,という質問を行う。 私たちの主なソリューションはクラスタリングベースのアプローチです。 データレス分類器を前提として,k-meansクラスタリングによる予測を改良する。 提案手法は,2つの独立したエンコーダと1つのジョイントエンコーダでテキスト分類ペアをエンコードする2つの広く使われている分類器アーキテクチャの性能を向上させることにより,幅広い適用性を示す。 実験により,本手法は,異なるデータセット間のデータレス分類を一貫して改善し,ラベル記述の選択に対して,分類器をより堅牢にすることを示す。

Dataless text classification is capable of classifying documents into previously unseen labels by assigning a score to any document paired with a label description. While promising, it crucially relies on accurate descriptions of the label set for each downstream task. This reliance causes dataless classifiers to be highly sensitive to the choice of label descriptions and hinders the broader application of dataless classification in practice. In this paper, we ask the following question: how can we improve dataless text classification using the inputs of the downstream task dataset? Our primary solution is a clustering based approach. Given a dataless classifier, our approach refines its set of predictions using k-means clustering. We demonstrate the broad applicability of our approach by improving the performance of two widely used classifier architectures, one that encodes text-category pairs with two independent encoders and one with a single joint encoder. Experiments show that our approach consistently improves dataless classification across different datasets and makes the classifier more robust to the choice of label descriptions.
翻訳日:2021-05-17 10:30:34 公開日:2020-12-08
# (参考訳) ディープフェイク検出器のコスト感性最適化

Cost Sensitive Optimization of Deepfake Detector ( http://arxiv.org/abs/2012.04199v1 )

ライセンス: CC BY 4.0
Ivan Kukanov, Janne Karttunen, Hannu Sillanp\"a\"a, Ville Hautam\"aki(参考訳) 映画の発明以来、操作されたビデオは存在する。 しかし、操作されたビデオを生成して視聴者を騙すのは時間のかかる努力だった。 ディープジェネレーティブ・モデリングの劇的な改良により、信じられないようなフェイクビデオを生み出すことは現実となった。 今回の研究では、ソースフェイスがターゲットと入れ替わる、いわゆるdeepfakeビデオに集中しています。 我々は、deepfake検出タスクは、ビデオストリーミングプラットフォームのようなユーザーが毎日大量のビデオを表示するスクリーニングタスクとして見るべきであると主張している。 アップロードされたビデオのほんの一部だけがディープフェイクであることは明らかなので、検出性能をコストに敏感な方法で測定する必要がある。 好ましくは、モデルパラメータも同じように推定する必要がある。 私たちがここで提案するのはまさにこれです。

Since the invention of cinema, the manipulated videos have existed. But generating manipulated videos that can fool the viewer has been a time-consuming endeavor. With the dramatic improvements in the deep generative modeling, generating believable looking fake videos has become a reality. In the present work, we concentrate on the so-called deepfake videos, where the source face is swapped with the targets. We argue that deepfake detection task should be viewed as a screening task, where the user, such as the video streaming platform, will screen a large number of videos daily. It is clear then that only a small fraction of the uploaded videos are deepfakes, so the detection performance needs to be measured in a cost-sensitive way. Preferably, the model parameters also need to be estimated in the same way. This is precisely what we propose here.
翻訳日:2021-05-17 10:17:11 公開日:2020-12-08
# (参考訳) 文書セマンティックスの比較のためのトポロジ的手法

A Topological Method for Comparing Document Semantics ( http://arxiv.org/abs/2012.04203v1 )

ライセンス: CC BY-SA 4.0
Yuqi Kong, Fanchao Meng, Benjamin Carterette(参考訳) ドキュメントセマンティクスの比較は、自然言語処理と情報検索の両方において、最も難しいタスクの1つです。 今のところ、このタスクのツールはまだ稀だ。 一方、最も関連する手法は統計学的あるいはベクトル空間モデルの観点から考案されるが、位相的観点からはほとんどない。 本稿では,異なる音を奏でることを願っている。 2つの文書間の意味的類似性を比較するためのトポロジ的永続性に基づく新しいアルゴリズムを提案する。 私たちの実験は、人間の判定結果を含む文書データセット上で行われます。 比較のために最先端メソッドのコレクションが選択される。 実験結果から,本アルゴリズムはnltkと密接な関係をも有するが,高い人間一貫性を持つ結果が得られることが示された。

Comparing document semantics is one of the toughest tasks in both Natural Language Processing and Information Retrieval. To date, on one hand, the tools for this task are still rare. On the other hand, most relevant methods are devised from the statistic or the vector space model perspectives but nearly none from a topological perspective. In this paper, we hope to make a different sound. A novel algorithm based on topological persistence for comparing semantics similarity between two documents is proposed. Our experiments are conducted on a document dataset with human judges' results. A collection of state-of-the-art methods are selected for comparison. The experimental results show that our algorithm can produce highly human-consistent results, and also beats most state-of-the-art methods though ties with NLTK.
翻訳日:2021-05-17 10:09:32 公開日:2020-12-08
# (参考訳) リモートセンシング画像における土地被覆分類のためのスケールアウェア適応

Scale Aware Adaptation for Land-Cover Classification in Remote Sensing Imagery ( http://arxiv.org/abs/2012.04222v1 )

ライセンス: CC BY 4.0
Xueqing Deng, Yi Zhu, Yuxin Tian and Shawn Newsam(参考訳) リモートセンシング画像を用いた土地被覆分類は重要な地球観測課題である。 近年,土地被覆分類はセマンティックセグメンテーションのための完全連結ニューラルネットワークの開発から恩恵を受けている。 リモートセンシング画像のディープセグメンテーションモデルをトレーニングするためのベンチマークデータセットは小さい傾向にあるが、多くの場合、単一のスケールで単一のロケーションからわずか数の画像で構成されている。 これにより、モデルが他のデータセットに一般化する能力を制限する。 ドメイン適応はモデルの一般化を改善するために提案されているが、これらの手法はリモートセンシング画像コレクション間で見られるスケールのばらつきに対処するには有効ではない。 そこで本稿では,共同配置とクロススケール土地被覆分類を行うための大規模対応学習フレームワークを提案する。 このフレームワークは、標準的な特徴判別器と新しいスケール判別器を備えた二重識別器アーキテクチャを備えている。 また,スケールエンハンス機能を実現するスケールアテンションモジュールも導入する。 実験の結果,提案手法は最先端のドメイン適応手法を大差で上回ることがわかった。

Land-cover classification using remote sensing imagery is an important Earth observation task. Recently, land cover classification has benefited from the development of fully connected neural networks for semantic segmentation. The benchmark datasets available for training deep segmentation models in remote sensing imagery tend to be small, however, often consisting of only a handful of images from a single location with a single scale. This limits the models' ability to generalize to other datasets. Domain adaptation has been proposed to improve the models' generalization but we find these approaches are not effective for dealing with the scale variation commonly found between remote sensing image collections. We therefore propose a scale aware adversarial learning framework to perform joint cross-location and cross-scale land-cover classification. The framework has a dual discriminator architecture with a standard feature discriminator as well as a novel scale discriminator. We also introduce a scale attention module which produces scale-enhanced features. Experimental results show that the proposed framework outperforms state-of-the-art domain adaptation methods by a large margin.
翻訳日:2021-05-17 09:59:31 公開日:2020-12-08
# (参考訳) 雑音ラベルに対するKNN強化深層学習

KNN-enhanced Deep Learning Against Noisy Labels ( http://arxiv.org/abs/2012.04224v1 )

ライセンス: CC BY 4.0
Shuyu Kong and You Li and Jia Wang and Amin Rezaei and Hai Zhou(参考訳) Deep Neural Networks(DNN)の監視学習は、データ空腹である。 ノイズラベルの存在下でのDNNのパフォーマンスの最適化は、大きなデータセットの収集が通常ノイズラベルをもたらすため、最も重要になっている。 データノイズに対するK-Nearest Neighbors (KNN) のロバスト性に着想を得て, ラベルのクリーンアップに深いKNNを適用することを提案する。 提案手法は,DNNを特徴抽出に利用し,KNNを地味ラベル推論に活用する。 ニューラルネットワークを反復的にトレーニングし、ラベルを更新し、ラベル回復率の向上と分類性能の向上を同時に進める。 実験の結果,本手法は既存のラベル補正法を上回っており,wearing1mデータセットの76.78%など,複数のデータセットにおいて精度が向上していることがわかった。

Supervised learning on Deep Neural Networks (DNNs) is data hungry. Optimizing performance of DNN in the presence of noisy labels has become of paramount importance since collecting a large dataset will usually bring in noisy labels. Inspired by the robustness of K-Nearest Neighbors (KNN) against data noise, in this work, we propose to apply deep KNN for label cleanup. Our approach leverages DNNs for feature extraction and KNN for ground-truth label inference. We iteratively train the neural network and update labels to simultaneously proceed towards higher label recovery rate and better classification performance. Experiment results show that under the same setting, our approach outperforms existing label correction methods and achieves better accuracy on multiple datasets, e.g.,76.78% on Clothing1M dataset.
翻訳日:2021-05-17 09:46:35 公開日:2020-12-08
# (参考訳) 合成一般化の観点からの反復的バックトランスレーションの再検討

Revisiting Iterative Back-Translation from the Perspective of Compositional Generalization ( http://arxiv.org/abs/2012.04276v1 )

ライセンス: CC BY 4.0
Yinuo Guo, Hualei Zhu, Zeqi Lin, Bei Chen, Jian-Guang Lou, Dongmei Zhang(参考訳) 人間の知性は構成的一般化を示す(すなわち、見掛けた成分の見当たらない組み合わせを理解・生成する能力)が、現在のニューラルseq2seqモデルにはそのような能力がない。 本稿では, 単純かつ効果的な半教師付き手法である反復的逆翻訳について検討し, 構成一般化をいかに改善できるかを考察する。 本研究は,(1) コンポジション一般化ベンチマーク (CFQ, SCAN) における反復的バックトランスレーションにより, 性能が大幅に向上することを示す。 2) 反復的逆翻訳がなぜ有用かを理解するために, 繰り返し的逆翻訳が疑似並列データにおける誤りをますます補正する可能性があることを確認する。 (3) このメカニズムをさらに促進するため, 擬似並列データの品質を向上し, さらなる性能向上を図るカリキュラムの反復的逆翻訳を提案する。

Human intelligence exhibits compositional generalization (i.e., the capacity to understand and produce unseen combinations of seen components), but current neural seq2seq models lack such ability. In this paper, we revisit iterative back-translation, a simple yet effective semi-supervised method, to investigate whether and how it can improve compositional generalization. In this work: (1) We first empirically show that iterative back-translation substantially improves the performance on compositional generalization benchmarks (CFQ and SCAN). (2) To understand why iterative back-translation is useful, we carefully examine the performance gains and find that iterative back-translation can increasingly correct errors in pseudo-parallel data. (3) To further encourage this mechanism, we propose curriculum iterative back-translation, which better improves the quality of pseudo-parallel data, thus further improving the performance.
翻訳日:2021-05-17 08:33:25 公開日:2020-12-08
# (参考訳) 最適な生存木

Optimal Survival Trees ( http://arxiv.org/abs/2012.04284v1 )

ライセンス: CC BY 4.0
Dimitris Bertsimas, Jack Dunn, Emma Gibson, Agni Orfanoudaki(参考訳) 木に基づくモデルはパラメトリックモデルの範囲を超えている複雑な関係を識別できるため、ますます人気が高まっている。 生存木法はこれらのモデルに適応し、しばしば医療データに現れる検閲された結果の分析を可能にする。 混合整数最適化(MIO)と局所探索技術を利用して,グローバルに最適化された生存木モデルを生成する,新しい生存木アルゴリズムを提案する。 我々はostアルゴリズムが既存のサバイバルツリー法,特に大規模データセットの精度を向上させることを実証する。

Tree-based models are increasingly popular due to their ability to identify complex relationships that are beyond the scope of parametric models. Survival tree methods adapt these models to allow for the analysis of censored outcomes, which often appear in medical data. We present a new Optimal Survival Trees algorithm that leverages mixed-integer optimization (MIO) and local search techniques to generate globally optimized survival tree models. We demonstrate that the OST algorithm improves on the accuracy of existing survival tree methods, particularly in large datasets.
翻訳日:2021-05-17 08:18:23 公開日:2020-12-08
# (参考訳) 抽象的要約への言語横断的アプローチ

Cross-lingual Approach to Abstractive Summarization ( http://arxiv.org/abs/2012.04307v1 )

ライセンス: CC BY 4.0
Ale\v{s} \v{Z}agar, Marko Robnik-\v{S}ikonja(参考訳) 自動テキスト要約は、テキストから重要な情報を抽出し、要約形式で提示する。 抽象要約アプローチはディープニューラルネットワークに切り替えることで大きく進歩したが、特に大きなトレーニングセットが存在しない言語では、結果はまだ満足できない。 いくつかの自然言語処理タスクでは、言語間のモデル転送が低リソース言語でうまく適用される。 要約のために、このような言語間モデル転送は、神経モデルの非可換デコーダ側のため、これまで試みられていなかった。 本研究では,深層ニューラルネットワークとシーケンス・ツー・シーケンスアーキテクチャに基づく事前学習された英語要約モデルを用いて,スロベニアのニュース記事を要約した。 対象言語評価のための追加言語モデルを用いて,デコーダの不適切な問題を解く。 対象言語データに異なる比率のモデルを開発し,微調整を行った。 結果は, 自動評価法と小規模人間評価法で評価した。 その結果,比較的少ない対象言語データで微調整された言語横断モデルの要約は有用であり,対象言語ではるかに多くのデータで訓練された抽象的要約と類似した品質を示す。

Automatic text summarization extracts important information from texts and presents the information in the form of a summary. Abstractive summarization approaches progressed significantly by switching to deep neural networks, but results are not yet satisfactory, especially for languages where large training sets do not exist. In several natural language processing tasks, cross-lingual model transfers are successfully applied in low-resource languages. For summarization such cross-lingual model transfer was so far not attempted due to a non-reusable decoder side of neural models. In our work, we used a pretrained English summarization model based on deep neural networks and sequence-to-sequence architecture to summarize Slovene news articles. We solved the problem of inadequate decoder by using an additional language model for target language evaluation. We developed several models with different proportions of target language data for fine-tuning. The results were assessed with automatic evaluation measures and with small-scale human evaluation. The results show that summaries of cross-lingual models fine-tuned with relatively small amount of target language data are useful and of similar quality to an abstractive summarizer trained with much more data in the target language.
翻訳日:2021-05-17 08:17:18 公開日:2020-12-08
# (参考訳) 正準相関解析によるカラー画像の知覚的ロバストハッシュ

Perceptual Robust Hashing for Color Images with Canonical Correlation Analysis ( http://arxiv.org/abs/2012.04312v1 )

ライセンス: CC BY 4.0
Xinran Li, Chuan Qin, Zhenxing Qian, Heng Yao and Xinpeng Zhang(参考訳) 本稿では,リングリボン二次木とカラーベクトル角に基づいて,カラー画像に対する新しい知覚イメージハッシュ方式を提案する。 まず、原画像は正規化とガウスローパスフィルタリングを施して二次像を生成し、異なる半径と同じ画素数を持つ一連のリングリボンに分割する。 そして、テクスチャ特徴とカラー特徴の両方を局所的及びグローバル的に抽出する。 リングリボンの輝度値にクアドツリー分解(QD)を適用して局所的なテクスチャ特徴を抽出し,グローバルなテクスチャ特徴を抽出するためにグレーレベル共起行列(GLCM)を用いる。 リングリボンの外界における重要な角点の局所色特徴をカラーベクトル角(CVA)により抽出し、カラー低次モーメント(CLM)を用いてグローバル色特徴を抽出する。 最後に, 2種類の特徴ベクトルを正準相関解析 (CCA) により融合させて, 衝突後に最終ハッシュを導出する。 直接結合と比較して、CCA特徴融合法は分類性能を改善し、2つの特徴ベクトルの集合間の全体的な相関をよりよく反映する。 受信者動作特性(ROC)曲線は,本手法がロバスト性,差別性,セキュリティに対して良好な性能を示し,コピー検出やコンテンツ認証に有効であることを示す。

In this paper, a novel perceptual image hashing scheme for color images is proposed based on ring-ribbon quadtree and color vector angle. First, original image is subjected to normalization and Gaussian low-pass filtering to produce a secondary image, which is divided into a series of ring-ribbons with different radii and the same number of pixels. Then, both textural and color features are extracted locally and globally. Quadtree decomposition (QD) is applied on luminance values of the ring-ribbons to extract local textural features, and the gray level co-occurrence matrix (GLCM) is used to extract global textural features. Local color features of significant corner points on outer boundaries of ring-ribbons are extracted through color vector angles (CVA), and color low-order moments (CLMs) is utilized to extract global color features. Finally, two types of feature vectors are fused via canonical correlation analysis (CCA) to prodcue the final hash after scrambling. Compared with direct concatenation, the CCA feature fusion method improves classification performance, which better reflects overall correlation between two sets of feature vectors. Receiver operating characteristic (ROC) curve shows that our scheme has satisfactory performances with respect to robustness, discrimination and security, which can be effectively used in copy detection and content authentication.
翻訳日:2021-05-17 08:04:15 公開日:2020-12-08
# (参考訳) Facts2Story:キーファクトによるテキスト生成の制御

Facts2Story: Controlling Text Generation by Key Facts ( http://arxiv.org/abs/2012.04332v1 )

ライセンス: CC BY 4.0
Eyal Orbach (Bar Ilan University), Yoav Goldberg (Bar Ilan University and Allen Institute for Artificial Intelligence)(参考訳) 自己接続型ニューラルネットワークアーキテクチャの最近の進歩は、オープンエンドテキスト生成のバーを高めた。 しかし、現在の方法では、数百語の長さの一貫性のあるテキストを生成することができるが、生成しているコンテンツ -- とそれを評価する -- を制御できることは、まだ疑問の余地がある。 本稿では,自然言語で表現された事象列を,より長い物語へと拡張する制御された生成タスクを提案する。 本稿では,この課題に対する人間による評価指標と,大規模なトレーニングデータセットの導出方法を紹介する。 本研究は,微調整事前学習モデルに基づく3つの手法を評価する。 GPT2のような自動回帰的一方向言語モデルでは、より流速が良くなるが、要求された事実に従うのに苦労している。 本稿では,要求されるコンテンツに固執しながら,競争的フラッテンシーを生み出すプラン・アンド・クローズモデル(微調整xlnet)を提案する。

Recent advancements in self-attention neural network architectures have raised the bar for open-ended text generation. Yet, while current methods are capable of producing a coherent text which is several hundred words long, attaining control over the content that is being generated -- as well as evaluating it -- are still open questions. We propose a controlled generation task which is based on expanding a sequence of facts, expressed in natural language, into a longer narrative. We introduce human-based evaluation metrics for this task, as well as a method for deriving a large training dataset. We evaluate three methods on this task, based on fine-tuning pre-trained models. We show that while auto-regressive, unidirectional Language Models such as GPT2 produce better fluency, they struggle to adhere to the requested facts. We propose a plan-and-cloze model (using fine-tuned XLNet) which produces competitive fluency while adhering to the requested content.
翻訳日:2021-05-17 08:03:08 公開日:2020-12-08
# (参考訳) 時系列タスクのディープラーニングモデルにおける説明可能なAI技術に関する実証的研究

An Empirical Study of Explainable AI Techniques on Deep Learning Models For Time Series Tasks ( http://arxiv.org/abs/2012.04344v1 )

ライセンス: CC BY 4.0
Udo Schlegel, Daniela Oelke, Daniel A. Keim, Mennatallah El-Assady(参考訳) 機械学習ブラックボックスモデルの決定説明は、しばしば説明可能なAI(XAI)技術を適用して生成される。 しかし、多くのXAI手法が不確定な出力を生成する。 評価と検証は通常、人間による個々の画像やテキストの視覚的解釈によって達成される。 本稿では,時系列画像とテキストデータを対象に開発したニューラルネットワークに対して帰属法を適用するための経験的研究とベンチマークフレームワークを提案する。 本稿では,摂動法を用いて時系列の属性を自動的に評価・ランク付けする手法を提案する。

Decision explanations of machine learning black-box models are often generated by applying Explainable AI (XAI) techniques. However, many proposed XAI methods produce unverified outputs. Evaluation and verification are usually achieved with a visual interpretation by humans on individual images or text. In this preregistration, we propose an empirical study and benchmark framework to apply attribution methods for neural networks developed for images and text data on time series. We present a methodology to automatically evaluate and rank attribution techniques on time series using perturbation methods to identify reliable approaches.
翻訳日:2021-05-17 07:43:02 公開日:2020-12-08
# (参考訳) 機械学習と人間専門家を組み合わせてフットボールにおける試合結果を予測する:ベースラインモデル

Combining Machine Learning and Human Experts to Predict Match Outcomes in Football: A Baseline Model ( http://arxiv.org/abs/2012.04380v1 )

ライセンス: CC BY 4.0
Ryan Beal, Stuart E. Middleton, Timothy J. Norman, Sarvapali D. Ramchurn(参考訳) 本稿では,ゲーム・オブ・フットボール(soccer)におけるマッチ結果予測のための,新たなアプリケーション指向ベンチマークデータセットとベースライン自然言語処理と機械学習モデルの結果について述べる。 これにより,人間スポーツジャーナリストの統計的マッチングデータと文脈的記事の両方を活用することができる予測精度の基準を与える。 我々のデータセットは、イングランド・プレミアリーグの6シーズンにわたる代表的時期に焦点を当てており、ガーディアン紙の新聞試合プレビューも含んでいる。 本稿では,従来の統計手法を6.9%向上させた63.18%の精度を実現する。

In this paper, we present a new application-focused benchmark dataset and results from a set of baseline Natural Language Processing and Machine Learning models for prediction of match outcomes for games of football (soccer). By doing so we give a baseline for the prediction accuracy that can be achieved exploiting both statistical match data and contextual articles from human sports journalists. Our dataset is focuses on a representative time-period over 6 seasons of the English Premier League, and includes newspaper match previews from The Guardian. The models presented in this paper achieve an accuracy of 63.18% showing a 6.9% boost on the traditional statistical methods.
翻訳日:2021-05-17 07:13:58 公開日:2020-12-08
# (参考訳) 特徴埋め込みを用いた時空間予測のためのアクティブ機械学習

Active machine learning for spatio-temporal predictions using feature embedding ( http://arxiv.org/abs/2012.04407v1 )

ライセンス: CC BY 4.0
Arsam Aryandoust, Stefan Pfenninger(参考訳) アクティブラーニング(al)は時空間予測の改善を通じて重要な環境問題を解決するのに役立つ。 しかし、このような予測には、データ型が混ざり合った高次元の特徴空間とデータ不足が伴う。 本稿では,このギャップを埋める新しいバッチAL法を提案する。 候補データポイントの機能をエンコードしてクラスタ化し、クラスタセンターへの組み込み機能の距離に基づいて最適なデータをクエリします。 我々は、エントロピー埋め込みと呼ぶ新しい情報度指標と、それを使用するための埋め込みネットワークと呼ばれるニューラルネットワークの一般クラスを紹介します。 電力需要予測に関する実証テストでは、パッシブ・ラーニング(pl)ベンチマークと比較して、予測誤差を63-88%、データ使用率を最大50~69%削減した。

Active learning (AL) could contribute to solving critical environmental problems through improved spatio-temporal predictions. Yet such predictions involve high-dimensional feature spaces with mixed data types and missing data, which existing methods have difficulties dealing with. Here, we propose a novel batch AL method that fills this gap. We encode and cluster features of candidate data points, and query the best data based on the distance of embedded features to their cluster centers. We introduce a new metric of informativeness that we call embedding entropy and a general class of neural networks that we call embedding networks for using it. Empirical tests on forecasting electricity demand show a simultaneous reduction in prediction error by up to 63-88% and data usage by up to 50-69% compared to passive learning (PL) benchmarks.
翻訳日:2021-05-17 07:06:35 公開日:2020-12-08
# (参考訳) 景観をフォーマッティングする:衛星画像における多様な人口に対する空間条件GAN

Formatting the Landscape: Spatial conditional GAN for varying population in satellite imagery ( http://arxiv.org/abs/2101.05069v1 )

ライセンス: CC BY 4.0
Tomas Langer, Natalia Fedorova, Ron Hagensieker(参考訳) 気候変動は、影響のある地域の人々を移住させ、生活様式を変えさせ、世界中の人口動態の変化に影響を与え続けるという、居住環境の変革を期待されている。 人口の地理的分布の変化は土地利用や土地被覆に劇的な影響を与え、気候変動シナリオを計画する上での大きな課題の1つとなる。 本稿では,格子状人口分布に基づく衛星画像生成のための生成モデルフレームワークについて検討する。 既存のALAEアーキテクチャに追加し、空間的条件付きバージョンSCALAEを作成します。 この方法では,モデルの潜在空間から人口を明示的に切り離し,生成された画像にカスタム人口予測を入力できる。 このような画像は,既存のフレームワークを用いた土地被覆・土地利用変化推定や,期待される地域変化の現実的な可視化に利用することができると仮定する。 ピクセルと意味的再構成を比較してモデルを評価し,標準fid指標を算出した。 その結果, 個体群分布を正確に把握し, 現実的な衛星画像を生成するための制御可能な手法が得られた。

Climate change is expected to reshuffle the settlement landscape: forcing people in affected areas to migrate, to change their lifeways, and continuing to affect demographic change throughout the world. Changes to the geographic distribution of population will have dramatic impacts on land use and land cover and thus constitute one of the major challenges of planning for climate change scenarios. In this paper, we explore a generative model framework for generating satellite imagery conditional on gridded population distributions. We make additions to the existing ALAE architecture, creating a spatially conditional version: SCALAE. This method allows us to explicitly disentangle population from the model's latent space and thus input custom population forecasts into the generated imagery. We postulate that such imagery could then be directly used for land cover and land use change estimation using existing frameworks, as well as for realistic visualisation of expected local change. We evaluate the model by comparing pixel and semantic reconstructions, as well as calculate the standard FID metric. The results suggest the model captures population distributions accurately and delivers a controllable method to generate realistic satellite imagery.
翻訳日:2021-05-17 06:44:31 公開日:2020-12-08
# (参考訳) 長期MOOC講義ビデオのトピックセグメンテーションを改善するためのドメイン知識の導入

Incorporating Domain Knowledge To Improve Topic Segmentation Of Long MOOC Lecture Videos ( http://arxiv.org/abs/2012.07589v1 )

ライセンス: CC BY 4.0
Ananda Das, Partha Pratim Das(参考訳) トピックセグメンテーションは、ビデオメタデータにトピックワイズセグメンテーション情報がない場合に、講義ビデオで教えられたトピックの検索スペースを減らす上で大きな役割を果たす。 このセグメンテーション情報は、講義ビデオ内のトピックを検索、配置、閲覧するユーザの作業を容易にする。 本研究では,最先端の言語モデルとドメイン知識グラフを組み合わせて,講義ビデオ内に存在する異なるコヒーレントトピックを自動的に検出するアルゴリズムを提案する。 我々は、音声からテキストへの書き起こしに言語モデルを用いて、ビデオ全体の暗黙の意味を捉え、知識グラフは、その主題の異なる概念間のドメイン固有の依存関係を提供する。 また、ドメインの知識を活用することで、インストラクターが教えながら異なる概念を結び付けて接続する方法を捉えることができます。 提案手法をnptelの講義ビデオで検証し,文献に記述された他の手法を総合的に評価した。

Topical Segmentation poses a great role in reducing search space of the topics taught in a lecture video specially when the video metadata lacks topic wise segmentation information. This segmentation information eases user efforts of searching, locating and browsing a topic inside a lecture video. In this work we propose an algorithm, that combines state-of-the art language model and domain knowledge graph for automatically detecting different coherent topics present inside a long lecture video. We use the language model on speech-to-text transcription to capture the implicit meaning of the whole video while the knowledge graph provides us the domain specific dependencies between different concepts of that subjects. Also leveraging the domain knowledge we can capture the way instructor binds and connects different concepts while teaching, which helps us in achieving better segmentation accuracy. We tested our approach on NPTEL lecture videos and holistic evaluation shows that it out performs the other methods described in the literature.
翻訳日:2021-05-17 06:33:54 公開日:2020-12-08
# (参考訳) 線形領域のより強固な上界を用いた複素ネットワークの表現性測定のための汎用計算枠組み

A General Computational Framework to Measure the Expressiveness of Complex Networks Using a Tighter Upper Bound of Linear Regions ( http://arxiv.org/abs/2012.04428v1 )

ライセンス: CC BY 4.0
Yutong Xie, Gaoxiang Chen and Quanzheng Li(参考訳) ディープニューラルネットワーク(DNN)の表現力は、DNNの驚くべき性能を理解するための視点である。 線型領域の数、すなわち dnnで表される分割線形関数は、一般に表現性を測定するために用いられる。 また、再整流器ネットワークによって分割された領域数の上界は、その数自身ではなく、整流器DNNの表現性のより実用的な測定である。 そこで本研究では,領域数に対してより厳密なアップパーバウンドを新たに提案する。 hinz & van de geer (2019) におけるこの上界の証明と行列計算の枠組みに着想を得て、理論上任意のネットワーク構造(例えば、ネットワーク構造)に対して、領域の狭い上界を計算するための一般的な計算手法を提案する。 あらゆる種類のスキップ・コンネクションと残留構造を持つdnn)。 私たちの実験では、上界が既存のものよりも密接であることを示し、スキップ接続と残余構造がネットワーク性能を改善できる理由を説明します。

The expressiveness of deep neural network (DNN) is a perspective to understandthe surprising performance of DNN. The number of linear regions, i.e. pieces thata piece-wise-linear function represented by a DNN, is generally used to measurethe expressiveness. And the upper bound of regions number partitioned by a rec-tifier network, instead of the number itself, is a more practical measurement ofexpressiveness of a rectifier DNN. In this work, we propose a new and tighter up-per bound of regions number. Inspired by the proof of this upper bound and theframework of matrix computation in Hinz & Van de Geer (2019), we propose ageneral computational approach to compute a tight upper bound of regions numberfor theoretically any network structures (e.g. DNN with all kind of skip connec-tions and residual structures). Our experiments show our upper bound is tighterthan existing ones, and explain why skip connections and residual structures canimprove network performance.
翻訳日:2021-05-17 06:14:17 公開日:2020-12-08
# (参考訳) Split: ブランドと顧客のインタラクションを遠ざけるために、観測されていないイベント確率を推論する

Split: Inferring Unobserved Event Probabilities for Disentangling Brand-Customer Interactions ( http://arxiv.org/abs/2012.04445v1 )

ライセンス: CC BY 4.0
Ayush Chauhan, Aditya Anand, Shaddy Garg, Sunny Dhamnani, Shiv Kumar Saini(参考訳) 多くの場合、データは複数のイベントからなる複合イベントのみを含む。 例えば、検索広告クリックはブランドによって観察されるが、顧客が表示した検索広告(アクション可能な変数)はしばしば観察されない。 そのような場合、観測されていないイベントでは推論は不可能である。 これは、マーケティングアクションが、収益と有償のデジタルチャネルを乗っ取るときに発生する。 同様の設定は、複数のアクターが相互作用する多数のデータセットに発生する。 ひとつのアプローチは、関心のないイベントのプロキシとして複合イベントを使用することだ。 しかし、これは無効な推論につながる。 本稿では,複合イベントに関する情報と複合イベントの集約データ(例)に基づいて,興味のあるイベントを識別する,直接的なアプローチをとる。 検索広告の総数)。 この研究は、軽度の条件下で、観測されていない事象の確率をスカラー因子まで同定することによって文献に寄与する。 我々は、通常、出来高や有料のチャンネルから利用可能な集計データを用いて、スカラー係数を識別する手法を提案する。 この因子は、通常のクロスエントロピー損失に損失項を加えることによって同定される。 このアプローチを3つの合成データセットで検証する。 さらに、このアプローチは、検証のためにアルゴリズムから観測されたイベントが隠されている実際のマーケティング問題で検証される。 クロスエントロピー損失関数の修正は平均性能を46%向上させる。

Often, data contains only composite events composed of multiple events, some observed and some unobserved. For example, search ad click is observed by a brand, whereas which customers were shown a search ad - an actionable variable - is often not observed. In such cases, inference is not possible on unobserved event. This occurs when a marketing action is taken over earned and paid digital channels. Similar setting arises in numerous datasets where multiple actors interact. One approach is to use the composite event as a proxy for the unobserved event of interest. However, this leads to invalid inference. This paper takes a direct approach whereby an event of interest is identified based on information on the composite event and aggregate data on composite events (e.g. total number of search ads shown). This work contributes to the literature by proving identification of the unobserved events' probabilities up to a scalar factor under mild condition. We propose an approach to identify the scalar factor by using aggregate data that is usually available from earned and paid channels. The factor is identified by adding a loss term to the usual cross-entropy loss. We validate the approach on three synthetic datasets. In addition, the approach is validated on a real marketing problem where some observed events are hidden from the algorithm for validation. The proposed modification to the cross-entropy loss function improves the average performance by 46%.
翻訳日:2021-05-17 05:50:52 公開日:2020-12-08
# (参考訳) 次元削減ツールの動作方法を理解する:データ可視化のためのt-SNE, UMAP, TriMAP, PaCMAPの解読

Understanding How Dimension Reduction Tools Work: An Empirical Approach to Deciphering t-SNE, UMAP, TriMAP, and PaCMAP for Data Visualization ( http://arxiv.org/abs/2012.04456v1 )

ライセンス: CC BY-SA 4.0
Yingfan Wang, Haiyang Huang, Cynthia Rudin, Yaron Shaposhnik(参考訳) t-SNE、UMAP、TriMAPのような次元減少(DR)技術は、多くの実世界のデータセットで顕著な可視化性能を示している。 これらの方法が常に直面してきた緊張の1つは、グローバルな構造の保存とローカルな構造の保存のトレードオフである。 本研究の主な目的は,局所構造とグローバル構造の両方を保存する上で,DR手法のどの側面が重要であるかを理解することである。 局所構造保存の目的に向けて,我々はDR法の背後にあるメカニズムを新たに理解した上で,DR損失関数の設計原則をいくつか提示する。 地球構造保存の目的に向けて, 保存すべき成分の選択が重要であることを明らかにする。 これらの知見を活かして、局所構造と大域構造の両方を保存するペアワイズ制御多様体近似射影(pacmap)と呼ばれるdrの新しいアルゴリズムを設計する。 我々の研究は、DRアルゴリズムを構築する際に、どのような設計を選択し、避けるかという予期せぬ洞察を提供する。

Dimension reduction (DR) techniques such as t-SNE, UMAP, and TriMAP have demonstrated impressive visualization performance on many real world datasets. One tension that has always faced these methods is the trade-off between preservation of global structure and preservation of local structure: these methods can either handle one or the other, but not both. In this work, our main goal is to understand what aspects of DR methods are important for preserving both local and global structure: it is difficult to design a better method without a true understanding of the choices we make in our algorithms and their empirical impact on the lower-dimensional embeddings they produce. Towards the goal of local structure preservation, we provide several useful design principles for DR loss functions based on our new understanding of the mechanisms behind successful DR methods. Towards the goal of global structure preservation, our analysis illuminates that the choice of which components to preserve is important. We leverage these insights to design a new algorithm for DR, called Pairwise Controlled Manifold Approximation Projection (PaCMAP), which preserves both local and global structure. Our work provides several unexpected insights into what design choices both to make and avoid when constructing DR algorithms.
翻訳日:2021-05-17 05:35:56 公開日:2020-12-08
# (参考訳) 関節面を3次元点と正規値に登録した人間の運動追跡

Human Motion Tracking by Registering an Articulated Surface to 3-D Points and Normals ( http://arxiv.org/abs/2012.04514v1 )

ライセンス: CC BY 4.0
Radu Horaud, Matti Niskanen, Guillaume Dewaele, and Edmond Boyer(参考訳) 表面を3次元データに登録することで,人間の運動追跡の問題に対処する。 本研究では,人体表象の運動パラメータと自由運動パラメータの両方の最大推定値と,そのデータが体の一部か外れたクラスタに割り当てられる確率の2つを反復的に計算する手法を提案する。 観測された点と正規点の間の新しい計量と、もう一方の面のパラメータ化曲面を導入し、後者は楕円体の集合上のブレンドとして定義される。 この測定基準は、視界と視界のどちらの観察にも適していると我々は主張する。 本手法は,不完全なシルエットから収集したスパースな視覚形状データ(3次元表面点と正規値)を用いて,人間の動きを追跡する手法である。

We address the problem of human motion tracking by registering a surface to 3-D data. We propose a method that iteratively computes two things: Maximum likelihood estimates for both the kinematic and free-motion parameters of a kinematic human-body representation, as well as probabilities that the data are assigned either to a body part, or to an outlier cluster. We introduce a new metric between observed points and normals on one side, and a parameterized surface on the other side, the latter being defined as a blending over a set of ellipsoids. We claim that this metric is well suited when one deals with either visual-hull or visual-shape observations. We illustrate the method by tracking human motions using sparse visual-shape data (3-D surface points and normals) gathered from imperfect silhouettes.
翻訳日:2021-05-17 04:40:44 公開日:2020-12-08
# (参考訳) 4Dトラッキングを超えて: トラックシーディングにクラスタ形状を使う

Beyond 4D Tracking: Using Cluster Shapes for Track Seeding ( http://arxiv.org/abs/2012.04533v1 )

ライセンス: CC BY 4.0
Patrick J. Fox, Shangqing Huang, Joshua Isaacson, Xiangyang Ju, and Benjamin Nachman(参考訳) 追跡は、LHC(Large Hadron Collider)とHL-LHC(High-luminosity upgrade)におけるイベント再構成の最も時間を要する側面の1つである。 革新的な検出器技術は、パターン認識とパラメータ推定のタイミングを含め、4次元に追跡を拡張する。 しかし、現在および将来のハードウェアは、既存のトラックシードアルゴリズムにほとんど使われていない追加情報を持っている。 クラスタの形は、トラックシードのための追加次元を提供し、トラック発見のコンビネーションチャレンジを大幅に削減する。 ニューラルネットワークを用いて、クラスタの形状が、高い効率を保ちながら偽のコンビネータ背景の速度を大幅に低減できることを示す。 クラスタ一重項、二重項、三重項などの情報を用いてこれを実証する。 数値計算の結果は、TrackMLチャレンジのシミュレーションで示される。

Tracking is one of the most time consuming aspects of event reconstruction at the Large Hadron Collider (LHC) and its high-luminosity upgrade (HL-LHC). Innovative detector technologies extend tracking to four-dimensions by including timing in the pattern recognition and parameter estimation. However, present and future hardware already have additional information that is largely unused by existing track seeding algorithms. The shape of clusters provides an additional dimension for track seeding that can significantly reduce the combinatorial challenge of track finding. We use neural networks to show that cluster shapes can reduce significantly the rate of fake combinatorical backgrounds while preserving a high efficiency. We demonstrate this using the information in cluster singlets, doublets and triplets. Numerical results are presented with simulations from the TrackML challenge.
翻訳日:2021-05-17 04:15:03 公開日:2020-12-08
# (参考訳) 自然言語処理と教師なし学習による短期・実世界の医療問合せから重要な話題を見つける

Discovering key topics from short, real-world medical inquiries via natural language processing and unsupervised learning ( http://arxiv.org/abs/2012.04545v1 )

ライセンス: CC BY 4.0
Angelo Ziletti, Christoph Berns, Oliver Treichel, Thomas Weber, Jennifer Liang, Stephanie Kammerath, Marion Schwaerzler, Jagatheswari Virayah, David Ruau, Xin Ma, Andreas Mattern(参考訳) 毎年、何百万もの無言の医療調査が製薬会社から受け取られている。 これらの調査は情報の宝庫であり、薬品や関連する治療に関する洞察を与える可能性があると推測されている。 しかし,問合せの量や専門性から,タイムリーに,再帰的,包括的な分析を行うことは困難である。 本稿では,自然言語処理と教師なし学習に基づく機械学習手法を提案する。 このアプローチにはオントロジーやアノテーションは必要ない。 発見されたトピックは、医療情報の専門家によって判断されるように、意味があり、医学的に関連がある。 我々の研究は、最終的に患者のケアを改善することを目的とした、製薬業界における医療調査の機械学習による分析の道を開いた。

Millions of unsolicited medical inquiries are received by pharmaceutical companies every year. It has been hypothesized that these inquiries represent a treasure trove of information, potentially giving insight into matters regarding medicinal products and the associated medical treatments. However, due to the large volume and specialized nature of the inquiries, it is difficult to perform timely, recurrent, and comprehensive analyses. Here, we propose a machine learning approach based on natural language processing and unsupervised learning to automatically discover key topics in real-world medical inquiries from customers. This approach does not require ontologies nor annotations. The discovered topics are meaningful and medically relevant, as judged by medical information specialists, thus demonstrating that unsolicited medical inquiries are a source of valuable customer insights. Our work paves the way for the machine-learning-driven analysis of medical inquiries in the pharmaceutical industry, which ultimately aims at improving patient care.
翻訳日:2021-05-17 03:39:35 公開日:2020-12-08
# (参考訳) 形態学の深層学習における解釈可能なパターンの役割

The Role of Interpretable Patterns in Deep Learning for Morphology ( http://arxiv.org/abs/2012.04575v1 )

ライセンス: CC BY-SA 4.0
Judit Acs and Andras Kornai(参考訳) 形態素解析,補間,コピーの3つの課題における文字パターンの役割について検討した。 我々は、エンコーダがパターンマッチングネットワークである標準シーケンス-シーケンスモデルの修正版を使用する。 各パターンは、ソース側で可能なすべてのN文字長のサブワード(サブストリング)をスコアし、最高スコアのサブワードスコアを使用してデコーダを初期化し、アテンション機構への入力を行う。 この方法では、入力のどのサブワードが出力を生成するのに重要であるかを学ぶことができる。 同じソースで異なるターゲットでモデルをトレーニングすることで、異なるタスクでどのサブワードが重要か、どのように相互に関連しているかを比較することができる。 我々は、jaccard類似性の一般化された形式である類似度メトリックを定義し、同じソースで動作するがターゲットが異なる可能性のある3つのタスクの各ペアに類似度スコアを割り当てる。 これら3つのタスクが12の言語で相互に関連しているか検討する。 私たちのコードは公開されています。

We examine the role of character patterns in three tasks: morphological analysis, lemmatization and copy. We use a modified version of the standard sequence-to-sequence model, where the encoder is a pattern matching network. Each pattern scores all possible N character long subwords (substrings) on the source side, and the highest scoring subword's score is used to initialize the decoder as well as the input to the attention mechanism. This method allows learning which subwords of the input are important for generating the output. By training the models on the same source but different target, we can compare what subwords are important for different tasks and how they relate to each other. We define a similarity metric, a generalized form of the Jaccard similarity, and assign a similarity score to each pair of the three tasks that work on the same source but may differ in target. We examine how these three tasks are related to each other in 12 languages. Our code is publicly available.
翻訳日:2021-05-17 02:19:53 公開日:2020-12-08
# (参考訳) covid}-19パンデミックにおけるソーシャルメディアの不安予測--重篤な危機の心理指標としての神経暗黙的モチベーションパターン認識

Social Media Unrest Prediction during the {COVID}-19 Pandemic: Neural Implicit Motive Pattern Recognition as Psychometric Signs of Severe Crises ( http://arxiv.org/abs/2012.04586v1 )

ライセンス: CC BY 4.0
Dirk Johann{\ss}en, Chris Biemann(参考訳) 新型コロナウイルスのパンデミックは国際社会の緊張と不安を引き起こしている。 危機そのものに加えて、世界中の社会の紛争の可能性が高まっている。 グローバルな気分変化の指標は検出が困難であり、直接的なアンケートは社会的望ましくないバイアスに悩まされる。 しかし、いわゆる暗黙の方法は人間の本質的な欲求を明らかにする。 ソーシャルメディアのテキスト 我々は心理的に検証された社会的不安予測器を示し、スケーラブルで自動化された予測を再現し、最近のドイツの共有タスクデータセットに新しい状態を設定する。 このモデルを用いて、2019年春から2020年春にかけてのツイートのサンプルに対して、確立した心理学的予測因子を比較し、新型コロナウイルスパンデミックにおける社会不安への言語変化を調査する。 その結果,精神測定値を示す対立は有意に増加した。 本研究では,NLPに基づく自動的アプローチの定量的心理学的研究への適用性を示す。

The COVID-19 pandemic has caused international social tension and unrest. Besides the crisis itself, there are growing signs of rising conflict potential of societies around the world. Indicators of global mood changes are hard to detect and direct questionnaires suffer from social desirability biases. However, so-called implicit methods can reveal humans intrinsic desires from e.g. social media texts. We present psychologically validated social unrest predictors and replicate scalable and automated predictions, setting a new state of the art on a recent German shared task dataset. We employ this model to investigate a change of language towards social unrest during the COVID-19 pandemic by comparing established psychological predictors on samples of tweets from spring 2019 with spring 2020. The results show a significant increase of the conflict indicating psychometrics. With this work, we demonstrate the applicability of automated NLP-based approaches to quantitative psychological research.
翻訳日:2021-05-17 02:11:45 公開日:2020-12-08
# (参考訳) ストリーミング映像の体験の質評価に関する研究

Study on the Assessment of the Quality of Experience of Streaming Video ( http://arxiv.org/abs/2012.04623v1 )

ライセンス: CC BY 4.0
Aleksandr Ivchenko, Pavel Kononyuk, Alexander Dvorkovich, Liubov Antiufrieva(参考訳) HTTP上の動的適応ストリーミングは、ほとんどのマルチメディアサービスの作業を提供するが、この技術の性質はQoE(Quality of Experience)の評価をさらに複雑にする。 本稿では,ストリーミングビデオのQoEの主観的推定に対する種々の目的因子の影響について検討する。 本論文は標準的かつ手作りの特徴を示し,それらの相関と意義のp-値を示す。 SRCCによる回帰と勾配向上に基づくVQAモデルが検証サブサンプルで最大0.9647に達することを提案している。 提案した回帰モデルは応用アプリケーションに適用され(参照ビデオと非参照ビデオの両方)、グラディエントブースティング回帰モデルは品質推定モデルをさらに改善するための視点である。 SQoE-IIIデータベースは、これまでで最大の、そして最も現実的なデータベースだ。 VQA(ビデオ品質評価)モデルはhttps://github.com/AleksandrIvchenko/QoE-assesmentで利用可能である。

Dynamic adaptive streaming over HTTP provides the work of most multimedia services, however, the nature of this technology further complicates the assessment of the QoE (Quality of Experience). In this paper, the influence of various objective factors on the subjective estimation of the QoE of streaming video is studied. The paper presents standard and handcrafted features, shows their correlation and p-Value of significance. VQA (Video Quality Assessment) models based on regression and gradient boosting with SRCC reaching up to 0.9647 on the validation subsample are proposed. The proposed regression models are adapted for applied applications (both with and without a reference video); the Gradient Boosting Regressor model is perspective for further improvement of the quality estimation model. We take SQoE-III database, so far the largest and most realistic of its kind. The VQA (video quality assessment) models are available at https://github.com/AleksandrIvchenko/QoE-assesment
翻訳日:2021-05-17 01:58:11 公開日:2020-12-08
# (参考訳) 不確かさマルコフ決定過程におけるロバスト計画のためのミニマックス回帰最適化

Minimax Regret Optimisation for Robust Planning in Uncertain Markov Decision Processes ( http://arxiv.org/abs/2012.04626v1 )

ライセンス: CC BY 4.0
Marc Rigter, Bruno Lacerda, Nick Hawes(参考訳) マルコフ決定過程(MDP)のパラメータは正確には特定できないことが多い。 不確実なMDP(UMDP)は、パラメータが属する集合を定義することによって、このモデルの曖昧さを捉える。 UMDPにおいて、過度に保守的でない堅牢な政策を見つけるための計画としてミニマックス後悔が提案されている。 本研究では,不確実なコストと遷移関数を持つ確率的短経路(SSP)UMDPの計画に焦点をあてる。 政策の後悔を計算するためにベルマン方程式を導入する。 本稿では, ベルマン方程式を用いた動的プログラミングアルゴリズムを提案し, 独立な不確実性を持つUMDPに対して, ミニマックス後悔を正確に最適化することを示す。 結合された不確実性に対しては、計算とソリューションの品質のトレードオフを可能にするためにオプションを使用するアプローチを拡張します。 我々は,合成ドメインと実世界のドメインの両方に対するアプローチを評価し,既存のベースラインを著しく上回ることを示す。

The parameters for a Markov Decision Process (MDP) often cannot be specified exactly. Uncertain MDPs (UMDPs) capture this model ambiguity by defining sets which the parameters belong to. Minimax regret has been proposed as an objective for planning in UMDPs to find robust policies which are not overly conservative. In this work, we focus on planning for Stochastic Shortest Path (SSP) UMDPs with uncertain cost and transition functions. We introduce a Bellman equation to compute the regret for a policy. We propose a dynamic programming algorithm that utilises the regret Bellman equation, and show that it optimises minimax regret exactly for UMDPs with independent uncertainties. For coupled uncertainties, we extend our approach to use options to enable a trade off between computation and solution quality. We evaluate our approach on both synthetic and real-world domains, showing that it significantly outperforms existing baselines.
翻訳日:2021-05-17 01:43:18 公開日:2020-12-08
# (参考訳) Eコマースのためのリアルタイムページパーソナライズフレームワーク

A Real-Time Whole Page Personalization Framework for E-Commerce ( http://arxiv.org/abs/2012.04681v1 )

ライセンス: CC BY 4.0
Aditya Mantha, Anirudha Sundaresan, Shashank Kedia, Yokila Arora, Shubham Gupta, Gaoyang Wang, Praveenkumar Kanumala, Stephen Guo, Kannan Achan(参考訳) eコマースプラットフォームは、ユーザーエンゲージメントを促進するためにパーソナライズされたレコメンデーションを提供し、全体的なユーザーエクスペリエンスを高め、ビジネスメトリクスを改善することを目的としている。 ほとんどのeコマースプラットフォームは、ホームページ上に複数のカルーセルを持ち、それぞれがショッピング体験のさまざまな面を捉えようとしている。 これらのカルーセルの配置を最適化することは,ユーザの満足度向上に不可欠である。 さらに、カルーセル内のアイテムはシーケンシャルなユーザーアクションに基づいて動的に変化し、カルーセルのオンラインランキングを必要とする。 本稿では,walmart online groceryのホームページ上で,アイテムカルーセルをリアルタイムにランク付けするためのスケーラブルなエンドツーエンド生産システムを提案する。 提案システムは,異なるカルーセルに対するユーザの親和性を捉える新しいモデルと,これまで見られなかったアイテムと対話する可能性を利用する。 我々のシステムは設計に柔軟であり、ページコンポーネントのランク付けが必要な設定に容易に拡張できる。 我々は,モデル開発フェーズとオンライン推論フレームワークからなるシステムアーキテクチャを提供する。 低レイテンシを確保するために、これらのステージにまたがる様々な最適化が実装されている。 これまでの経験に比較して大規模なオンライン評価を行った。 本システムでは, 商品発見の改善, オンラインエンゲージメントの向上, 訪問者1人当たりのATC(Add-to-carts)の大幅な向上を実現した。

E-commerce platforms consistently aim to provide personalized recommendations to drive user engagement, enhance overall user experience, and improve business metrics. Most e-commerce platforms contain multiple carousels on their homepage, each attempting to capture different facets of the shopping experience. Given varied user preferences, optimizing the placement of these carousels is critical for improved user satisfaction. Furthermore, items within a carousel may change dynamically based on sequential user actions, thus necessitating online ranking of carousels. In this work, we present a scalable end-to-end production system to optimally rank item-carousels in real-time on the Walmart online grocery homepage. The proposed system utilizes a novel model that captures the user's affinity for different carousels and their likelihood to interact with previously unseen items. Our system is flexible in design and is easily extendable to settings where page components need to be ranked. We provide the system architecture consisting of a model development phase and an online inference framework. To ensure low-latency, various optimizations across these stages are implemented. We conducted extensive online evaluations to benchmark against the prior experience. In production, our system resulted in an improvement in item discovery, an increase in online engagement, and a significant lift on add-to-carts (ATCs) per visitor on the homepage.
翻訳日:2021-05-17 01:11:36 公開日:2020-12-08
# (参考訳) 到達・引きずり作業における異なる工具使用形態の出現

Emergence of Different Modes of Tool Use in a Reaching and Dragging Task ( http://arxiv.org/abs/2012.04700v1 )

ライセンス: CC BY-SA 4.0
Khuong Nguyen and Yoonsuck Choe(参考訳) ツールの使用は、インテリジェンスの発展において重要なマイルストーンです。 本稿では,手を伸ばしたり引きずったりする作業で現れるツールの異なるモードについて検討する。 この作業では、グリッパー付きの接合アームは、工具(t、i、l形)をつかみ、対象の場所(アリーナの底)まで物体を引きずらさなければならない。 シュミレーション環境は、重力や摩擦のような実際の物理を持っていた。 我々は,この課題に対処するための報奨情報を最小限に抑えた,深層強化学習ベースコントローラ(生の視覚的および固有受容的入力)を訓練した。 我々は、モータープリミティブや報酬関数に直接エンコードされない、幅広い予期せぬ行動の出現を観察した。 例えば、対象の場所にオブジェクトをぶつける、初期接触のエラーを修正する、ツールをオブジェクトに向かって投げる、ワイド・スイープのような通常の振る舞いなどである。 また,ツールの種類と対象対象物の初期位置に基づいて,これらの挙動を解析した。 以上の結果から,我々は深層強化学習法の基本機構以上の行動の再現性を示した。

Tool use is an important milestone in the evolution of intelligence. In this paper, we investigate different modes of tool use that emerge in a reaching and dragging task. In this task, a jointed arm with a gripper must grab a tool (T, I, or L-shaped) and drag an object down to the target location (the bottom of the arena). The simulated environment had real physics such as gravity and friction. We trained a deep-reinforcement learning based controller (with raw visual and proprioceptive input) with minimal reward shaping information to tackle this task. We observed the emergence of a wide range of unexpected behaviors, not directly encoded in the motor primitives or reward functions. Examples include hitting the object to the target location, correcting error of initial contact, throwing the tool toward the object, as well as normal expected behavior such as wide sweep. Also, we further analyzed these behaviors based on the type of tool and the initial position of the target object. Our results show a rich repertoire of behaviors, beyond the basic built-in mechanisms of the deep reinforcement learning method we used.
翻訳日:2021-05-17 00:54:30 公開日:2020-12-08
# (参考訳) 編集メディア理解:操作された画像の意味を推論する

Edited Media Understanding: Reasoning About Implications of Manipulated Images ( http://arxiv.org/abs/2012.04726v1 )

ライセンス: CC BY 4.0
Jeff Da and Maxwell Forbes and Rowan Zellers and Anthony Zheng and Jena D. Hwang and Antoine Bosselut and Yejin Choi(参考訳) ディープフェイクから単純な編集まで、マルチモーダルな偽情報が重要な社会問題である。 しかし同時に、メディア編集の大半は無害で、例えば休暇の写真のフィルターなどだ。 この例と、偽情報を拡散する有害な編集の違いは、意図の1つです。 この意図を認識して記述することは、今日のAIシステムにとって大きな課題である。 我々は編集メディア理解の課題を提示し、画像編集の意図と意味を捉えたオープンエンドな質問にモデルが答えるように要求する。 タスクのデータセットであるEMUを導入し,48kの質問応答ペアをリッチな自然言語で記述した。 我々は,タスクに対する様々な視覚・言語モデルの評価を行い,事前学習型マルチモーダル表現の最近の進歩に基づく新しいモデルPELICANを導入する。 我々のモデルはデータセット上で有望な結果を得ており、その答えを40.35%の正確さで評価している。 同時に、まだやるべきことがたくさんある -- 人間は人間の注釈付きキャプションを好んで 93.56% であり、さらなる進歩を強調する分析を提供する。

Multimodal disinformation, from `deepfakes' to simple edits that deceive, is an important societal problem. Yet at the same time, the vast majority of media edits are harmless -- such as a filtered vacation photo. The difference between this example, and harmful edits that spread disinformation, is one of intent. Recognizing and describing this intent is a major challenge for today's AI systems. We present the task of Edited Media Understanding, requiring models to answer open-ended questions that capture the intent and implications of an image edit. We introduce a dataset for our task, EMU, with 48k question-answer pairs written in rich natural language. We evaluate a wide variety of vision-and-language models for our task, and introduce a new model PELICAN, which builds upon recent progress in pretrained multimodal representations. Our model obtains promising results on our dataset, with humans rating its answers as accurate 40.35% of the time. At the same time, there is still much work to be done -- humans prefer human-annotated captions 93.56% of the time -- and we provide analysis that highlights areas for further progress.
翻訳日:2021-05-17 00:34:57 公開日:2020-12-08
# (参考訳) 1/n神経表現とロバスト性について

On 1/n neural representation and robustness ( http://arxiv.org/abs/2012.04729v1 )

ライセンス: CC BY 4.0
Josue Nassar, Piotr Aleksander Sokol, SueYeon Chung, Kenneth D. Harris, Il Memming Park(参考訳) ニューラルネットワークにおける表現の性質を理解することは、神経科学と機械学習によって共有される目標である。 したがって、両方の分野が共有質問だけでなく、同様のアプローチにも収束することは、非常にワクワクする。 これらの領域における差し迫った疑問は、ニューラルネットワークで使われる表現の構造がそれらの一般化と摂動に対する堅牢性の両方にどのように影響するかを理解することである。 本研究では,ニューラルネットワークを用いたマウスV1(Stringer et al)における神経表現の共分散スペクトルに関する実験結果を用いて,後者について検討する。 我々は1/nの共分散スペクトルの因果的役割に関するストリンガーらの理論を探索するために、逆強靭性を用いる。 ニューラルネットワークにおけるニューラルネットワークの活用効果を実証的に検討し,多層アーキテクチャにおけるその役割を解明する。 その結果,実験で観測された構造をニューラルネットワークに組み込むことで,敵の攻撃に対してより堅牢であることが示唆された。 さらに、中間表現の役割を示すことによって、幅広いニューラルネットワークとカーネル手法に関する既存の理論を補完する。

Understanding the nature of representation in neural networks is a goal shared by neuroscience and machine learning. It is therefore exciting that both fields converge not only on shared questions but also on similar approaches. A pressing question in these areas is understanding how the structure of the representation used by neural networks affects both their generalization, and robustness to perturbations. In this work, we investigate the latter by juxtaposing experimental results regarding the covariance spectrum of neural representations in the mouse V1 (Stringer et al) with artificial neural networks. We use adversarial robustness to probe Stringer et al's theory regarding the causal role of a 1/n covariance spectrum. We empirically investigate the benefits such a neural code confers in neural networks, and illuminate its role in multi-layer architectures. Our results show that imposing the experimentally observed structure on artificial neural networks makes them more robust to adversarial attacks. Moreover, our findings complement the existing theory relating wide neural networks to kernel methods, by showing the role of intermediate representations.
翻訳日:2021-05-17 00:19:18 公開日:2020-12-08
# (参考訳) 1次元モデルにおける敵攻撃に対する深層対物防御

A Deep Marginal-Contrastive Defense against Adversarial Attacks on 1D Models ( http://arxiv.org/abs/2012.04734v1 )

ライセンス: CC BY 4.0
Mohammed Hassanin, Nour Moustafa, Murat Tahtali(参考訳) ディープラーニングアルゴリズムは最近、脆弱性のために攻撃者によって標的にされている。 この問題に対処し、より堅牢なディープラーニングモデルを構築するために、いくつかの研究が実施された。 非連続的深層モデルはいまだに敵に対して頑健ではなく、最近の研究はモデルの学習プロセスを避けるための攻撃手法の開発に重点を置いている。 このようなモデルの脆弱性の背後にある主な理由は、学習分類器が摂動サンプルをわずかに予測できないことである。 この問題に対処するために,提案する新たな目的/余分関数,いわゆる辺縁コントラスト関数を提案し,その特徴を特定の辺縁の下に配置して,深層畳み込みネットワーク(Char-CNN)を用いた予測を容易にする。 提案手法の有効性を証明するために,連続事例 (unsw nb15 データセット) と離散事例 (8大規模データセット [32]) について広範な実験を行った。 その結果,提案する損失関数に基づく学習プロセスの正規化により,char-cnnの性能が向上することがわかった。

Deep learning algorithms have been recently targeted by attackers due to their vulnerability. Several research studies have been conducted to address this issue and build more robust deep learning models. Non-continuous deep models are still not robust against adversarial, where most of the recent studies have focused on developing attack techniques to evade the learning process of the models. One of the main reasons behind the vulnerability of such models is that a learning classifier is unable to slightly predict perturbed samples. To address this issue, we propose a novel objective/loss function, the so-called marginal contrastive, which enforces the features to lie under a specified margin to facilitate their prediction using deep convolutional networks (i.e., Char-CNN). Extensive experiments have been conducted on continuous cases (e.g., UNSW NB15 dataset) and discrete ones (i.e, eight-large-scale datasets [32]) to prove the effectiveness of the proposed method. The results revealed that the regularization of the learning process based on the proposed loss function can improve the performance of Char-CNN.
翻訳日:2021-05-17 00:03:32 公開日:2020-12-08
# (参考訳) ドメイン特異的知覚ネットワークを用いた2ステップスパースCT再構成

2-Step Sparse-View CT Reconstruction with a Domain-Specific Perceptual Network ( http://arxiv.org/abs/2012.04743v1 )

ライセンス: CC BY 4.0
Haoyu Wei, Florian Schiffers, Tobias W\"urfl, Daming Shen, Daniel Kim, Aggelos K. Katsaggelos, Oliver Cossairt(参考訳) CTは非破壊的に内部構造を調べるために広く用いられている。 高品質な再構成を得るためには、通常、角度アンダーサンプリングを避けるために、密度の高いサンプル軌道を取得する必要がある。 しかし、多くのシナリオはスパースビューの計測を必要とし、未確認であればストリークアーティファクトにつながる。 現在の手法では、ドメイン固有の情報をフルに利用しないため、高度にアンサンプされたデータに対する信頼性の高い再構築ができない。 まず,スパースプロジェクションを訓練した超高分解能ネットワーク,SINを用いて,再構成を2つのステップに分離して,スパース・ビュー・トモグラフィーのための新しいフレームワークを提案する。 中間的な結果は、保存された細部とストリークアーティファクトを高度に縮小したクローズドフォームのトモグラフィー再構成を可能にする。 第2に、復元を訓練したリファインメントネットワークであるprnは、残りのアーティファクトを減らす。 さらに, ドメイン固有情報を強化し, 復元精度を高めた知覚損失の軽量版を提案する。 実験では,現在のソリューションを4db改善した。

Computed tomography is widely used to examine internal structures in a non-destructive manner. To obtain high-quality reconstructions, one typically has to acquire a densely sampled trajectory to avoid angular undersampling. However, many scenarios require a sparse-view measurement leading to streak-artifacts if unaccounted for. Current methods do not make full use of the domain-specific information, and hence fail to provide reliable reconstructions for highly undersampled data. We present a novel framework for sparse-view tomography by decoupling the reconstruction into two steps: First, we overcome its ill-posedness using a super-resolution network, SIN, trained on the sparse projections. The intermediate result allows for a closed-form tomographic reconstruction with preserved details and highly reduced streak-artifacts. Second, a refinement network, PRN, trained on the reconstructions reduces any remaining artifacts. We further propose a light-weight variant of the perceptual-loss that enhances domain-specific information, boosting restoration accuracy. Our experiments demonstrate an improvement over current solutions by 4 dB.
翻訳日:2021-05-16 23:52:45 公開日:2020-12-08
# (参考訳) 超深層ネットワークにおける敵攻撃の影響について

Mitigating the Impact of Adversarial Attacks in Very Deep Networks ( http://arxiv.org/abs/2012.04750v1 )

ライセンス: CC BY 4.0
Mohammed Hassanin, Ibrahim Radwan, Nour Moustafa, Murat Tahtali, Neeraj Kumar(参考訳) deep neural network (dnn)モデルにはセキュリティに関する脆弱性があり、攻撃者は通常、複雑なハッキング技術を使って構造を公開する。 データ中毒による摂動攻撃は、モデルに偽データを注入する複雑な敵対攻撃である。 モデルの正確さと収束率を低下させるため、より深いネットワークにはメリットがなく、学習プロセスに悪影響を及ぼす。 本稿では,攻撃に依存しない防御手法を提案し,その影響を緩和する。 防御的特徴層(dfl)は、よく知られたdnnアーキテクチャと統合され、機能空間における不正な摂動サンプルの効果を中和するのに役立つ。 攻撃された入力サンプルを正しく分類する手法のロバスト性と信頼性を高めるため、訓練モデルの隠れ空間を分極コントラスト損失(pcl)と呼ばれる識別損失関数で定式化する。 異なるクラス内のサンプル間の識別を改善し、同じクラス内のサンプルの類似性を維持する。 また、DFLとPCLをデータ中毒攻撃に対する防御のためのコンパクトモデルに統合する。 この手法は,cifar-10およびmnistデータセットを用いてデータ中毒可能な摂動攻撃を訓練し,実験結果から,最近のピア技術と比較して優れた性能を示す。

Deep Neural Network (DNN) models have vulnerabilities related to security concerns, with attackers usually employing complex hacking techniques to expose their structures. Data poisoning-enabled perturbation attacks are complex adversarial ones that inject false data into models. They negatively impact the learning process, with no benefit to deeper networks, as they degrade a model's accuracy and convergence rates. In this paper, we propose an attack-agnostic-based defense method for mitigating their influence. In it, a Defensive Feature Layer (DFL) is integrated with a well-known DNN architecture which assists in neutralizing the effects of illegitimate perturbation samples in the feature space. To boost the robustness and trustworthiness of this method for correctly classifying attacked input samples, we regularize the hidden space of a trained model with a discriminative loss function called Polarized Contrastive Loss (PCL). It improves discrimination among samples in different classes and maintains the resemblance of those in the same class. Also, we integrate a DFL and PCL in a compact model for defending against data poisoning attacks. This method is trained and tested using the CIFAR-10 and MNIST datasets with data poisoning-enabled perturbation attacks, with the experimental results revealing its excellent performance compared with those of recent peer techniques.
翻訳日:2021-05-16 23:36:58 公開日:2020-12-08
# (参考訳) モバイルデバイスの位置データを用いたマルチモーダル移動需要パターン推定のためのデータ駆動分析フレームワーク

A Data-Driven Analytical Framework of Estimating Multimodal Travel Demand Patterns using Mobile Device Location Data ( http://arxiv.org/abs/2012.04776v1 )

ライセンス: CC BY 4.0
Chenfeng Xiong, Aref Darzi, Yixuan Pan, Sepehr Ghader, Lei Zhang(参考訳) 人々の日常生活に多くのメリットをもたらす一方で、スマートフォンとその位置情報ベースのサービスは、移動需要のパターンを理解し、将来の交通計画を作成する上で大きな可能性を秘めている巨大なモバイルデバイスの位置データを生み出しています。 近年の研究では、このような新しいデータソースを用いた人間の旅行行動の分析が行われているが、そこからマルチモーダルな旅行需要パターンを抽出するための限定的な研究がなされている。 本稿では,このギャップを埋めるデータ駆動分析フレームワークを提案する。 受動的に収集した位置情報を用いて移動モードの検知に成功するために,スマートフォンによるGPS調査を行い,地中真実の観測を行った。 次に,旅行モード計算のための一層モデルとディープニューラルネットワークを開発した。 ワイド"と"ディープ"を同時に持つこのモデルは、両方のタイプのモデルの利点を組み合わせたものだ。 この枠組みはまた、近隣の鉄道、地下鉄、高速道路、バス路線への交通経路の近接性を評価するためにマルチモーダル交通網を組み込んでおり、インプテーションの精度を高めている。 現実の計画ニーズに対応するために導入されたフレームワークの応用例を示すために、旅行モードインプテーションを直接適用できる方法で、トリップエンド識別と属性生成を通じて、別々のモバイルデバイスの位置データを処理する。 推定されるマルチモーダル旅行需要パターンは、ワシントンD.C.とボルチモア都市圏の典型的な家庭旅行調査に対して検証される。

While benefiting people's daily life in so many ways, smartphones and their location-based services are generating massive mobile device location data that has great potential to help us understand travel demand patterns and make transportation planning for the future. While recent studies have analyzed human travel behavior using such new data sources, limited research has been done to extract multimodal travel demand patterns out of them. This paper presents a data-driven analytical framework to bridge the gap. To be able to successfully detect travel modes using the passively collected location information, we conduct a smartphone-based GPS survey to collect ground truth observations. Then a jointly trained single-layer model and deep neural network for travel mode imputation is developed. Being "wide" and "deep" at the same time, this model combines the advantages of both types of models. The framework also incorporates the multimodal transportation network in order to evaluate the closeness of trip routes to the nearby rail, metro, highway and bus lines and therefore enhance the imputation accuracy. To showcase the applications of the introduced framework in answering real-world planning needs, a separate mobile device location data is processed through trip end identification and attribute generation, in a way that the travel mode imputation can be directly applied. The estimated multimodal travel demand patterns are then validated against typical household travel surveys in the same Washington D.C. and Baltimore Metropolitan Regions.
翻訳日:2021-05-16 22:44:59 公開日:2020-12-08
# エネルギーモデルを用いた高精度3次元物体検出

Accurate 3D Object Detection using Energy-Based Models ( http://arxiv.org/abs/2012.04634v1 )

ライセンス: Link先を確認
Fredrik K. Gustafsson, Martin Danelljan, Thomas B. Sch\"on(参考訳) ロボットによる複雑な環境の安全なナビゲーションには,正確な3Dオブジェクト検出(3DOD)が不可欠である。 しかし, 粗いLiDARデータに基づいて, 粗い環境下での正確な3Dバウンディングボックスの回帰は極めて難しい問題である。 確率回帰のための条件付きエネルギーベースモデル(EBM)の最近の進歩を探求することによって、この問題に対処する。 EBMを用いた回帰法は画像中の2次元物体検出において顕著な性能を示したが、これらの手法は直接3次元境界ボックスに適用できない。 そこで本研究では,EMMネットワークのコアモジュールとして機能する3次元バウンディングボックス用の可変プール演算子を設計する。 我々は、この一般的なアプローチを最先端の3Dオブジェクト検出器SA-SSDに統合する。 KITTIデータセットでは,提案手法はSA-SSDベースラインを全3DOD指標で一貫して上回り,高精度な3DODに対するESMベースの回帰の可能性を示す。 コードはhttps://github.com/fregu856/ebms_3dodで入手できる。

Accurate 3D object detection (3DOD) is crucial for safe navigation of complex environments by autonomous robots. Regressing accurate 3D bounding boxes in cluttered environments based on sparse LiDAR data is however a highly challenging problem. We address this task by exploring recent advances in conditional energy-based models (EBMs) for probabilistic regression. While methods employing EBMs for regression have demonstrated impressive performance on 2D object detection in images, these techniques are not directly applicable to 3D bounding boxes. In this work, we therefore design a differentiable pooling operator for 3D bounding boxes, serving as the core module of our EBM network. We further integrate this general approach into the state-of-the-art 3D object detector SA-SSD. On the KITTI dataset, our proposed approach consistently outperforms the SA-SSD baseline across all 3DOD metrics, demonstrating the potential of EBM-based regression for highly accurate 3DOD. Code is available at https://github.com/fregu856/ebms_3dod.
翻訳日:2021-05-16 21:55:11 公開日:2020-12-08
# 質問応答のための読者からレトリバーへの知識の蒸留

Distilling Knowledge from Reader to Retriever for Question Answering ( http://arxiv.org/abs/2012.04584v1 )

ライセンス: Link先を確認
Gautier Izacard and Edouard Grave(参考訳) 情報検索の課題は、オープンドメイン質問応答など、多くの自然言語処理システムにおいて重要な要素である。 従来の手法は手作りの特徴に基づいているが、ニューラルネットワークに基づく連続表現は、最近競争的な結果を得た。 このような方法を使用する際の課題は、クエリとサポートドキュメントのペアに対応するレトリバーモデルをトレーニングするための教師付きデータを取得することである。 本稿では,知識蒸留に触発され,照会と文書の注釈付きペアを必要としない下流タスクの検索モデルを学ぶ手法を提案する。 提案手法は,検索した文書に基づいてタスクを解くために使用される読み手モデルの注意スコアを利用して,検索者の合成ラベルを取得する。 質問応答の方法を評価し,最新の結果を得た。

The task of information retrieval is an important component of many natural language processing systems, such as open domain question answering. While traditional methods were based on hand-crafted features, continuous representations based on neural networks recently obtained competitive results. A challenge of using such methods is to obtain supervised data to train the retriever model, corresponding to pairs of query and support documents. In this paper, we propose a technique to learn retriever models for downstream tasks, inspired by knowledge distillation, and which does not require annotated pairs of query and documents. Our approach leverages attention scores of a reader model, used to solve the task based on retrieved documents, to obtain synthetic labels for the retriever. We evaluate our method on question answering, obtaining state-of-the-art results.
翻訳日:2021-05-16 21:50:32 公開日:2020-12-08
# 予測プロセス分析のための説明可能な方法の評価:機能的包括的アプローチ

Evaluating Explainable Methods for Predictive Process Analytics: A Functionally-Grounded Approach ( http://arxiv.org/abs/2012.04218v1 )

ライセンス: Link先を確認
Mythreyi Velmurugan, Chun Ouyang, Catarina Moreira and Renuka Sindhgatta(参考訳) 予測プロセス分析は、ビジネスプロセスの実行インスタンスの将来の状態を予測することに焦点を当てる。 高度な機械学習技術は予測の精度を高めるために使われてきたが、結果として生じる予測モデルは透明性を欠いている。 現在のLIMEやSHAPのような説明可能な機械学習手法は、ブラックボックスモデルの解釈に利用できる。 しかし、これらの手法がプロセス予測モデルを説明するのにどの程度適しているかは不明である。 本稿では,説明可能なaiの分野における評価尺度を描き,予測過程分析における説明可能な方法を評価するための機能的接地評価指標を提案する。 提案手法は,プロセス予測において比較的正確であることが判明したxgboostを用いたプロセス予測モデルの解釈において,limeとshapの性能評価に応用する。 我々は,実世界の3つのイベントログを用いて評価を行い,その評価結果を分析して洞察を得る。 この研究は、予測プロセス分析のための説明可能な方法の信頼性の理解に寄与し、人間のユーザ指向評価への基礎的かつ重要なステップとなる。

Predictive process analytics focuses on predicting the future states of running instances of a business process. While advanced machine learning techniques have been used to increase accuracy of predictions, the resulting predictive models lack transparency. Current explainable machine learning methods, such as LIME and SHAP, can be used to interpret black box models. However, it is unclear how fit for purpose these methods are in explaining process predictive models. In this paper, we draw on evaluation measures used in the field of explainable AI and propose functionally-grounded evaluation metrics for assessing explainable methods in predictive process analytics. We apply the proposed metrics to evaluate the performance of LIME and SHAP in interpreting process predictive models built on XGBoost, which has been shown to be relatively accurate in process predictions. We conduct the evaluation using three open source, real-world event logs and analyse the evaluation results to derive insights. The research contributes to understanding the trustworthiness of explainable methods for predictive process analytics as a fundamental and key step towards human user-oriented evaluation.
翻訳日:2021-05-16 21:48:54 公開日:2020-12-08
# k-Factorization Subspace Clustering

k-Factorization Subspace Clustering ( http://arxiv.org/abs/2012.04345v1 )

ライセンス: Link先を確認
Jicong Fan(参考訳) サブスペースクラスタリング(sc)は、低次元部分空間の結合にあるデータをクラスタ化する。 通常、SCは親和性行列を学習し、スペクトルクラスタリングを行う。 どちらのステップも時間と空間の複雑さに悩まされ、大規模なデータセットのクラスタリングが困難になる。 本稿では,大規模サブスペースクラスタリングのためのk-Factorization Subspace Clustering(k-FSC)を提案する。 K-FSCは、行列因数分解モデルにおいて構造的間隔を追求することで、データをk群に分解する。 したがって、k-FSCは学習親和性行列を避け、固有値分解を行うため、大規模なデータセット上での時間と空間の複雑さが低い。 k-fscの最適化を効率的に解くアルゴリズムを提案する。 さらに、k-FSCはノイズ、外れ値、欠落したデータを処理でき、任意の規模のデータセットやストリーミングデータに適用できる。 k-FSCは最先端のサブスペースクラスタリング法よりも優れていた。

Subspace clustering (SC) aims to cluster data lying in a union of low-dimensional subspaces. Usually, SC learns an affinity matrix and then performs spectral clustering. Both steps suffer from high time and space complexity, which leads to difficulty in clustering large datasets. This paper presents a method called k-Factorization Subspace Clustering (k-FSC) for large-scale subspace clustering. K-FSC directly factorizes the data into k groups via pursuing structured sparsity in the matrix factorization model. Thus, k-FSC avoids learning affinity matrix and performing eigenvalue decomposition, and hence has low time and space complexity on large datasets. An efficient algorithm is proposed to solve the optimization of k-FSC. In addition, k-FSC is able to handle noise, outliers, and missing data and applicable to arbitrarily large datasets and streaming data. Extensive experiments show that k-FSC outperforms state-of-the-art subspace clustering methods.
翻訳日:2021-05-16 21:48:37 公開日:2020-12-08
# グラフに基づく意味的および行動的拡張されたフロアプランの生成表現学習

Graph-Based Generative Representation Learning of Semantically and Behaviorally Augmented Floorplans ( http://arxiv.org/abs/2012.04735v1 )

ライセンス: Link先を確認
Vahid Azizi, Muhammad Usman, Honglu Zhou, Petros Faloutsos and Mubbasir Kapadia(参考訳) フロアプランは一般的に建物のレイアウトを表すために使用される。 コンピュータ支援設計(CAD)では、フロアプランは通常階層グラフ構造として表現される。 自動分析や最適化など、設計プロセスを容易にする計算技術への研究は、しばしば、空間の意味を無視し、使用に関連した分析を考慮しない単純なフロアプラン表現を用いる。 そこで本研究では,生成したグラフを用いて幾何学的情報を表現するフロアプラン埋め込み手法と,住民の設計意味と行動特性をノードとエッジ属性として表現する。 長短期記憶(LSTM)変動オートエンコーダ(VAE)アーキテクチャを提案し,連続空間に属性グラフをベクトルとして埋め込むように訓練した。 入力(例えば、設計レイアウト)に関して、埋め込み空間から取得した類似のフロアプランの結合を評価するためにユーザ調査を行った。 定性的・定量的・ユーザスタディ評価により, 床計画に対する有意義かつ正確なベクトル表現が得られた。 さらに,提案モデルは生成モデルである。 新たなフロアプラン作成の有効性について検討し,実証した。 また、構築したデータセットをリリースし、各フロアプランにデザインセマンティクス属性を含むとともに、コミュニティでさらなる研究のために生成された人間の行動特性をシミュレーションします。

Floorplans are commonly used to represent the layout of buildings. In computer aided-design (CAD) floorplans are usually represented in the form of hierarchical graph structures. Research works towards computational techniques that facilitate the design process, such as automated analysis and optimization, often use simple floorplan representations that ignore the semantics of the space and do not take into account usage related analytics. We present a floorplan embedding technique that uses an attributed graph to represent the geometric information as well as design semantics and behavioral features of the inhabitants as node and edge attributes. A Long Short-Term Memory (LSTM) Variational Autoencoder (VAE) architecture is proposed and trained to embed attributed graphs as vectors in a continuous space. A user study is conducted to evaluate the coupling of similar floorplans retrieved from the embedding space with respect to a given input (e.g., design layout). The qualitative, quantitative and user-study evaluations show that our embedding framework produces meaningful and accurate vector representations for floorplans. In addition, our proposed model is a generative model. We studied and showcased its effectiveness for generating new floorplans. We also release the dataset that we have constructed and which, for each floorplan, includes the design semantics attributes as well as simulation generated human behavioral features for further study in the community.
翻訳日:2021-05-16 21:48:25 公開日:2020-12-08
# GraphFL: グラフ上の半スーパービジョンノード分類のためのフェデレートラーニングフレームワーク

GraphFL: A Federated Learning Framework for Semi-Supervised Node Classification on Graphs ( http://arxiv.org/abs/2012.04187v1 )

ライセンス: Link先を確認
Binghui Wang, Ang Li, Hai Li, Yiran Chen(参考訳) グラフベースの半教師付きノード分類(GraphSSC)には、ネットワークやセキュリティ、データマイニング、マシンラーニングなど、幅広いアプリケーションがある。 しかし、グラフ全体を収集し、適切な数のラベルをラベル付けすることは時間と費用がかかり、データのプライバシも侵害されるため、既存の集中型GraphSSCメソッドは現実的な多くのグラフベースの問題を解決するには実用的ではない。 フェデレーション学習(federated learning, fl)は、複数のクライアント間の協調学習を可能にする、新たな学習パラダイムである。 したがって、FL設定下でGraphSSCを実行することは、現実のグラフベースの問題を解決するための有望な解決策である。 しかし、既存のFLメソッドは、クライアント間でデータがIIDではない場合、2)新しいラベルドメインでデータを処理できない場合、3)ラベルのないデータを利用できない場合、そして、これらの問題は、実世界のグラフベースの問題で自然に発生する。 上記の問題に対処するために、グラフ上の半教師付きノード分類のための最初のFLフレームワーク、すなわちGraphFLを提案する。 我々のフレームワークはメタ学習によって動機付けられている。 具体的には、グラフデータの非IID問題にそれぞれ対処し、新しいラベルドメインでタスクを処理するための2つのGraphFL手法を提案する。 さらに,ラベルのないグラフデータを活用する自己学習手法を設計する。 代表グラフニューラルネットワークをGraphSSC法として採用し,複数のグラフデータセット上でGraphFLを評価する。 実験の結果,GraphFLは比較したFLベースラインよりも有意に優れており,GraphFLは自己学習により性能が向上することが示された。

Graph-based semi-supervised node classification (GraphSSC) has wide applications, ranging from networking and security to data mining and machine learning, etc. However, existing centralized GraphSSC methods are impractical to solve many real-world graph-based problems, as collecting the entire graph and labeling a reasonable number of labels is time-consuming and costly, and data privacy may be also violated. Federated learning (FL) is an emerging learning paradigm that enables collaborative learning among multiple clients, which can mitigate the issue of label scarcity and protect data privacy as well. Therefore, performing GraphSSC under the FL setting is a promising solution to solve real-world graph-based problems. However, existing FL methods 1) perform poorly when data across clients are non-IID, 2) cannot handle data with new label domains, and 3) cannot leverage unlabeled data, while all these issues naturally happen in real-world graph-based problems. To address the above issues, we propose the first FL framework, namely GraphFL, for semi-supervised node classification on graphs. Our framework is motivated by meta-learning methods. Specifically, we propose two GraphFL methods to respectively address the non-IID issue in graph data and handle the tasks with new label domains. Furthermore, we design a self-training method to leverage unlabeled graph data. We adopt representative graph neural networks as GraphSSC methods and evaluate GraphFL on multiple graph datasets. Experimental results demonstrate that GraphFL significantly outperforms the compared FL baseline and GraphFL with self-training can obtain better performance.
翻訳日:2021-05-16 21:46:07 公開日:2020-12-08
# ライジングバンドによる効率的な自動CASH

Efficient Automatic CASH via Rising Bandits ( http://arxiv.org/abs/2012.04371v1 )

ライセンス: Link先を確認
Yang Li, Jiawei Jiang, Jinyang Gao, Yingxia Shao, Ce Zhang, Bin Cui(参考訳) アルゴリズム選択とハイパーパラメータ最適化(CASH)は自動機械学習(AutoML)における最も基本的な問題の1つである。 既存のベイズ最適化(BO)ベースのソリューションは、すべての機械学習(ML)アルゴリズムのハイパーパラメータを組み合わせることで、CASH問題をハイパーパラメータ最適化(HPO)問題に変換し、その解決にBOメソッドを使用する。 その結果、これらの手法はCASHの巨大なハイパーパラメータ空間に起因する低効率な問題に悩まされる。 この問題を軽減するために,各MLアルゴリズムにおけるHPO問題とアルゴリズム選択問題とを交互に最適化する交互最適化フレームワークを提案する。 このフレームワークでは、BO法は各MLアルゴリズムのHPO問題を個別に解くために使用され、BO法に対してはるかに小さなハイパーパラメータ空間が組み込まれている。 さらに,キャッシュ指向マルチアームバンディット (mab) 変種であるライジング・バンディット (riseing bandits) を導入し,アルゴリズム選択をキャッシュでモデル化する。 このフレームワークは,HPO問題を比較的小さなハイパーパラメータ空間で解く際のBOと,アルゴリズムの選択を高速化するMABの両方の利点を生かすことができる。 さらに,提案手法を理論的に保証できる効率的なオンラインアルゴリズムを開発した。 30個のopenmlデータセットに関する広範な実験は、提案されたアプローチが競合ベースラインよりも優れていることを示している。

The Combined Algorithm Selection and Hyperparameter optimization (CASH) is one of the most fundamental problems in Automatic Machine Learning (AutoML). The existing Bayesian optimization (BO) based solutions turn the CASH problem into a Hyperparameter Optimization (HPO) problem by combining the hyperparameters of all machine learning (ML) algorithms, and use BO methods to solve it. As a result, these methods suffer from the low-efficiency problem due to the huge hyperparameter space in CASH. To alleviate this issue, we propose the alternating optimization framework, where the HPO problem for each ML algorithm and the algorithm selection problem are optimized alternately. In this framework, the BO methods are used to solve the HPO problem for each ML algorithm separately, incorporating a much smaller hyperparameter space for BO methods. Furthermore, we introduce Rising Bandits, a CASH-oriented Multi-Armed Bandits (MAB) variant, to model the algorithm selection in CASH. This framework can take the advantages of both BO in solving the HPO problem with a relatively small hyperparameter space and the MABs in accelerating the algorithm selection. Moreover, we further develop an efficient online algorithm to solve the Rising Bandits with provably theoretical guarantees. The extensive experiments on 30 OpenML datasets demonstrate the superiority of the proposed approach over the competitive baselines.
翻訳日:2021-05-16 21:45:21 公開日:2020-12-08
# 深層ニューラルネットワークによる関数データの平均関数の推定

Estimation of the Mean Function of Functional Data via Deep Neural Networks ( http://arxiv.org/abs/2012.04573v1 )

ライセンス: Link先を確認
Shuoyang Wang, Guanqun Cao, Zuofeng Shang(参考訳) 本研究では,関数データに対して非パラメトリック回帰を行うディープニューラルネットワーク手法を提案する。 提案した推定器は、ReLUアクティベーション機能を持つ疎結合なディープニューラルネットワークに基づいている。 ネットワークアーキテクチャを適切に選択することにより,実験ノルムの最適非パラメトリック収束率を推定する。 三角多項式核や十分に大きなサンプリング周波数のような特定の状況下では、収束率はルート=n$レートよりもさらに速い。 モンテカルロシミュレーションにより,提案手法の有限サンプル性能について検討した。 最後に,アルツハイマー病ニューロイメージングイニシアチブデータベースから得られたアルツハイマー病患者のポジトロン放射トモグラフィー画像の解析に本手法を適用した。

In this work, we propose a deep neural network method to perform nonparametric regression for functional data. The proposed estimators are based on sparsely connected deep neural networks with ReLU activation function. By properly choosing network architecture, our estimator achieves the optimal nonparametric convergence rate in empirical norm. Under certain circumstances such as trigonometric polynomial kernel and a sufficiently large sampling frequency, the convergence rate is even faster than root-$n$ rate. Through Monte Carlo simulation studies we examine the finite-sample performance of the proposed method. Finally, the proposed method is applied to analyze positron emission tomography images of patients with Alzheimer disease obtained from the Alzheimer Disease Neuroimaging Initiative database.
翻訳日:2021-05-16 21:44:17 公開日:2020-12-08
# 拡張下におけるモデル予測のロバスト性

Robustness of Model Predictions under Extension ( http://arxiv.org/abs/2012.04723v1 )

ライセンス: Link先を確認
Tineke Blom and Joris M. Mooij(参考訳) 実世界の数学的モデルはしばしば複雑なシステムの単純化された表現である。 解析にモデルを使うことの注意点として、予測因果効果と条件独立性はモデル拡張の下では堅牢ではないため、そのようなモデルの適用性は限られている。 本研究では,2つのモデルを組み合わせると定性的モデル予測が保存される条件を考える。 本稿では,質的モデル予測のロバスト性を評価するための因果順序付けの手法と,これらの予測を保存するモデル拡張の大規模クラスを特徴付ける方法を示す。 平衡の力学系では、新しい洞察が適切なモデル拡張を選択し、フィードバックループの存在を推論するのにどのように役立つかを示す。 免疫応答を有するウイルス感染モデルに適用する。

Often, mathematical models of the real world are simplified representations of complex systems. A caveat to using models for analysis is that predicted causal effects and conditional independences may not be robust under model extensions, and therefore applicability of such models is limited. In this work, we consider conditions under which qualitative model predictions are preserved when two models are combined. We show how to use the technique of causal ordering to efficiently assess the robustness of qualitative model predictions and characterize a large class of model extensions that preserve these predictions. For dynamical systems at equilibrium, we demonstrate how novel insights help to select appropriate model extensions and to reason about the presence of feedback loops. We apply our ideas to a viral infection model with immune responses.
翻訳日:2021-05-16 21:44:08 公開日:2020-12-08
# クロスドメインディスタングルのための変分相互作用情報最大化

Variational Interaction Information Maximization for Cross-domain Disentanglement ( http://arxiv.org/abs/2012.04251v1 )

ライセンス: Link先を確認
HyeongJoo Hwang, Geon-Hyeong Kim, Seunghoon Hong, Kee-Eung Kim(参考訳) ドメイン間の絡み合いはドメイン不変表現とドメイン固有表現に分けられる表現の学習の問題であり、ドメイン転送の成功や2つのドメイン間の意味的距離の測定の鍵となる。 情報理論を基礎として,複数の情報制約の連立目的として,ドメイン不変表現とドメイン固有表現の同時学習を行った。 目的の抽出可能な境界を導出し,IIAE(Interaction Information Auto-Encoder)と呼ばれる生成モデルを提案する。 提案手法は,クロスドメイン・アンタングルメントの望ましい表現と,変分オートエンコーダ(VAE)との接続に関する知見を明らかにする。 画像から画像への変換とドメイン間の検索タスクにおけるモデルの有効性を示す。 さらに, ゼロショットスケッチに基づく画像検索作業において, 外部知識を必要とせずに, 最先端の性能を実現することを示す。 私たちの実装は、https://github.com/gr8joo/IIAEで公開されています。

Cross-domain disentanglement is the problem of learning representations partitioned into domain-invariant and domain-specific representations, which is a key to successful domain transfer or measuring semantic distance between two domains. Grounded in information theory, we cast the simultaneous learning of domain-invariant and domain-specific representations as a joint objective of multiple information constraints, which does not require adversarial training or gradient reversal layers. We derive a tractable bound of the objective and propose a generative model named Interaction Information Auto-Encoder (IIAE). Our approach reveals insights on the desirable representation for cross-domain disentanglement and its connection to Variational Auto-Encoder (VAE). We demonstrate the validity of our model in the image-to-image translation and the cross-domain retrieval tasks. We further show that our model achieves the state-of-the-art performance in the zero-shot sketch based image retrieval task, even without external knowledge. Our implementation is publicly available at: https://github.com/gr8joo/IIAE
翻訳日:2021-05-16 21:43:43 公開日:2020-12-08
# 球上の信号の回転不変オートエンコーダ

Rotation-Invariant Autoencoders for Signals on Spheres ( http://arxiv.org/abs/2012.04474v1 )

ライセンス: Link先を確認
Suhas Lohit, Shubhendu Trivedi(参考訳) 通常の2次元畳み込みニューラルネットワーク(CNN)では,3Dの形状の全体像や球面表現は処理できない。 球面とSO(3)$の畳み込みを高速に実装した研究者は、最近、球面画像の分類に適したディープラーニング手法を開発した。 これらの新しく提案された畳み込み層は、単位球面 $s^2$ と回転群 $so(3)$ への畳み込みの概念を自然に拡張し、3次元回転に同値である。 本稿では,球面画像に対する回転不変表現の教師なし学習の問題について考察する。 特に,$S^2$と$SO(3)$の畳み込み層からなるオートエンコーダアーキテクチャを慎重に設計する。 3次元回転はしばしばニュアンス因子であるため、潜在空間はこれらの入力変換に正確に不変であると制約される。 回転情報が潜在空間に捨てられるため、ネットワークをトレーニングするための新たな回転不変損失関数を構築する。 複数のデータセットに関する広範な実験は、クラスタリング、検索、分類アプリケーションにおける学習表現の有用性を示している。

Omnidirectional images and spherical representations of $3D$ shapes cannot be processed with conventional 2D convolutional neural networks (CNNs) as the unwrapping leads to large distortion. Using fast implementations of spherical and $SO(3)$ convolutions, researchers have recently developed deep learning methods better suited for classifying spherical images. These newly proposed convolutional layers naturally extend the notion of convolution to functions on the unit sphere $S^2$ and the group of rotations $SO(3)$ and these layers are equivariant to 3D rotations. In this paper, we consider the problem of unsupervised learning of rotation-invariant representations for spherical images. In particular, we carefully design an autoencoder architecture consisting of $S^2$ and $SO(3)$ convolutional layers. As 3D rotations are often a nuisance factor, the latent space is constrained to be exactly invariant to these input transformations. As the rotation information is discarded in the latent space, we craft a novel rotation-invariant loss function for training the network. Extensive experiments on multiple datasets demonstrate the usefulness of the learned representations on clustering, retrieval and classification applications.
翻訳日:2021-05-16 21:43:26 公開日:2020-12-08
# ODFNet: 配向分布関数を用いて3次元点雲を特徴づける

ODFNet: Using orientation distribution functions to characterize 3D point clouds ( http://arxiv.org/abs/2012.04708v1 )

ライセンス: Link先を確認
Yusuf H. Sahin, Alican Mertan, Gozde Unal(参考訳) 3Dポイントクラウドの新しい表現を学ぶことは、3Dビジョンにおける活発な研究領域である。 近年の研究では、グローバルあるいはローカルな特徴の学習や、ポイントクラウドの学習が研究されているが、以前の手法では、ポイントの局所的方向分布を分析することで、文脈的形状情報を捉えることに重点を置いていなかった。 本稿では,点群に対する局所的近傍表現を得るために,点群周辺の点配向分布を利用する。 与えられた点の球面近傍を予め定義された円錐体積に分割してこれを達成し、各体積内の統計を点特徴として用いる。 このように、局所パッチは、選択された点の最も近い近傍だけでなく、点周辺の複数の方向に沿って定義された点密度分布も考慮して表現することができる。 次に、mlp (multi-layer perceptron) 層に依存する ODFBlock を含む配向分布関数(ODF)ニューラルネットワークを構築することができる。 新しいODFNetモデルは、ModelNet40およびScanObjectNNデータセットのオブジェクト分類とShapeNet S3DISデータセットのセグメンテーションの最先端の精度を達成する。

Learning new representations of 3D point clouds is an active research area in 3D vision, as the order-invariant point cloud structure still presents challenges to the design of neural network architectures. Recent works explored learning either global or local features or both for point clouds, however none of the earlier methods focused on capturing contextual shape information by analysing local orientation distribution of points. In this paper, we leverage on point orientation distributions around a point in order to obtain an expressive local neighborhood representation for point clouds. We achieve this by dividing the spherical neighborhood of a given point into predefined cone volumes, and statistics inside each volume are used as point features. In this way, a local patch can be represented by not only the selected point's nearest neighbors, but also considering a point density distribution defined along multiple orientations around the point. We are then able to construct an orientation distribution function (ODF) neural network that involves an ODFBlock which relies on mlp (multi-layer perceptron) layers. The new ODFNet model achieves state-of the-art accuracy for object classification on ModelNet40 and ScanObjectNN datasets, and segmentation on ShapeNet S3DIS datasets.
翻訳日:2021-05-16 21:42:57 公開日:2020-12-08
# Canonical Capsules: Ansupervised Capsules in Canonical Pose

Canonical Capsules: Unsupervised Capsules in Canonical Pose ( http://arxiv.org/abs/2012.04718v1 )

ライセンス: Link先を確認
Weiwei Sun, Andrea Tagliasacchi, Boyang Deng, Sara Sabour, Soroosh Yazdani, Geoffrey Hinton, Kwang Moo Yi(参考訳) 3dポイントクラウドのための教師なしカプセルアーキテクチャを提案する。 物体のカプセル分解を順列同値な注意を通して計算し,ランダムに回転する物体のペアを訓練することで自己監視を行う。 私たちの重要なアイデアは、アテンションマスクをセマンティックキーポイントに集約し、カプセルの不分散/共分散特性を満たす分解を監督することです。 これは意味的に一貫した分解のトレーニングを可能にするだけでなく、オブジェクト中心の推論を可能にする標準化操作を学べる。 そのためには、分類ラベルや手作業によるトレーニングデータセットのトレーニングは必要ありません。 しかし、オブジェクト中心の表現を教師なしで学習することにより、3Dポイントクラウドの再構築、登録、教師なし分類における最先端の手法よりも優れる。 論文が公開されたらすぐに結果を再現するためのコードとデータセットをリリースします。

We propose an unsupervised capsule architecture for 3D point clouds. We compute capsule decompositions of objects through permutation-equivariant attention, and self-supervise the process by training with pairs of randomly rotated objects. Our key idea is to aggregate the attention masks into semantic keypoints, and use these to supervise a decomposition that satisfies the capsule invariance/equivariance properties. This not only enables the training of a semantically consistent decomposition, but also allows us to learn a canonicalization operation that enables object-centric reasoning. In doing so, we require neither classification labels nor manually-aligned training datasets to train. Yet, by learning an object-centric representation in an unsupervised manner, our method outperforms the state-of-the-art on 3D point cloud reconstruction, registration, and unsupervised classification. We will release the code and dataset to reproduce our results as soon as the paper is published.
翻訳日:2021-05-16 21:42:35 公開日:2020-12-08
# ランドマークによる大規模クラウド検出のためのパターン認識方式

Pattern Recognition Scheme for Large-Scale Cloud Detection over Landmarks ( http://arxiv.org/abs/2012.12306v1 )

ライセンス: Link先を確認
Adri\'an P\'erez-Suay, Julia Amor\'os-L\'opez, Luis G\'omez-Chova, Jordi Mu\~noz-Mar\'i, Dieter Just, Gustau Camps-Valls(参考訳) ランドマーク認識とマッチングは、静止衛星サービスのための多くの画像ナビゲーションおよび登録(INR)モデルにおいて重要なステップであり、地球観測衛星のデータ処理チェーンにおける幾何学的品質評価(GQA)を維持している。 ランドマークの正確な一致は最重要であり、そのプロセスは指定されたランドマークの雲の汚染によって強く影響を受ける可能性がある。 本稿では,Meteosat Second Generation (MSG)データを用いて,ランドマーク上の雲の存在を検出できる完全なパターン認識手法を提案する。 この手法は、特定のランドマークと照明条件に依存する専用サポートベクトルマシン(SVM)のアンサンブルの組み合わせに基づいている。 この分割・分割戦略はデータの複雑さに動機付けられ、観測を分割するために日中の季節性と照明条件の両方における変動性を考慮した物理ベースの戦略に従う。 さらに、数百万のサンプルで安価な計算コストで分類スキームを訓練することができる。 画像アーカイブは、2010年のMSG買収に対応する700万枚近いマルチスペクトル画像を持つ200のランドマークテストサイトで構成されている。 結果はクラウド検出精度と計算コストの観点から分析される。 コミュニティには、図形的なソースコードと巨大なトレーニングデータの一部を提供します。

Landmark recognition and matching is a critical step in many Image Navigation and Registration (INR) models for geostationary satellite services, as well as to maintain the geometric quality assessment (GQA) in the instrument data processing chain of Earth observation satellites. Matching the landmark accurately is of paramount relevance, and the process can be strongly impacted by the cloud contamination of a given landmark. This paper introduces a complete pattern recognition methodology able to detect the presence of clouds over landmarks using Meteosat Second Generation (MSG) data. The methodology is based on the ensemble combination of dedicated support vector machines (SVMs) dependent on the particular landmark and illumination conditions. This divide-and-conquer strategy is motivated by the data complexity and follows a physically-based strategy that considers variability both in seasonality and illumination conditions along the day to split observations. In addition, it allows training the classification scheme with millions of samples at an affordable computational costs. The image archive was composed of 200 landmark test sites with near 7 million multispectral images that correspond to MSG acquisitions during 2010. Results are analyzed in terms of cloud detection accuracy and computational cost. We provide illustrative source code and a portion of the huge training data to the community.
翻訳日:2021-05-16 21:41:47 公開日:2020-12-08
# 異常変化検出のための非線形クック距離

Nonlinear Cook distance for Anomalous Change Detection ( http://arxiv.org/abs/2012.12307v1 )

ライセンス: Link先を確認
Jos\'e A. Padr\'on Hidalgo, Adri\'an P\'erez-Suay, Fatih Nar, Gustau Camps-Valls(参考訳) 本研究では,クロノクロームアプローチに基づくリモートセンシング画像の異常な変化を検出する手法を提案する。 画像間の回帰器を用いて、観測されたデータの中で最も影響力のある点を発見する。 通常、最大残差の画素は異常な変化であると決定される。 異常画素を見つけるため、クック距離を考慮し、ランダムフーリエ特徴を用いた非線形拡張を効率的な衝突の非線形測度として提案する。 roc曲線を用いて視覚的および定量的に評価した異なるマルチスペクトル画像に対して良好な経験的性能を示す。

In this work we propose a method to find anomalous changes in remote sensing images based on the chronochrome approach. A regressor between images is used to discover the most {\em influential points} in the observed data. Typically, the pixels with largest residuals are decided to be anomalous changes. In order to find the anomalous pixels we consider the Cook distance and propose its nonlinear extension using random Fourier features as an efficient nonlinear measure of impact. Good empirical performance is shown over different multispectral images both visually and quantitatively evaluated with ROC curves.
翻訳日:2021-05-16 21:41:29 公開日:2020-12-08
# ターゲット検出のためのランダム化RX

Randomized RX for target detection ( http://arxiv.org/abs/2012.12308v1 )

ライセンス: Link先を確認
Fatih Nar, Adri\'an P\'erez-Suay, Jos\'e Antonio Padr\'on, Gustau Camps-Valls(参考訳) この研究は、よく知られたグローバルRX法によるターゲット検出問題に取り組む。 rx法はクラッタを多変量ガウス分布としてモデル化し、カーネル法を用いて非線形分布に拡張した。 カーネルRXは複雑な乱雑に対処できるが、乱雑なピクセルの数が増えるにつれて、かなりの量の計算資源を必要とする。 本稿では,カーネルrxのガウス核を近似するランダムフーリエ特性を提案し,非線形性の精度を維持しつつ,ハイパーパラメータによって制御される計算コストを低減した。 合成および実世界の画像ターゲット検出問題に対する結果から, 高い検出性能を保ちながら, 提案手法の時間的, 時間的効率を示す。

This work tackles the target detection problem through the well-known global RX method. The RX method models the clutter as a multivariate Gaussian distribution, and has been extended to nonlinear distributions using kernel methods. While the kernel RX can cope with complex clutters, it requires a considerable amount of computational resources as the number of clutter pixels gets larger. Here we propose random Fourier features to approximate the Gaussian kernel in kernel RX and consequently our development keep the accuracy of the nonlinearity while reducing the computational cost which is now controlled by an hyperparameter. Results over both synthetic and real-world image target detection problems show space and time efficiency of the proposed method while providing high detection performance.
翻訳日:2021-05-16 21:41:21 公開日:2020-12-08
# River: Pythonでデータをストリーミングするための機械学習

River: machine learning for streaming data in Python ( http://arxiv.org/abs/2012.04740v1 )

ライセンス: Link先を確認
Jacob Montiel, Max Halford, Saulo Martiello Mastelini, Geoffrey Bolmier, Raphael Sourty, Robin Vaysse, Adil Zouitine, Heitor Murilo Gomes, Jesse Read, Talel Abdessalem, Albert Bifet(参考訳) Riverは、動的データストリームと継続的学習のための機械学習ライブラリである。 複数の最先端の学習方法、データジェネレータ/変換器、パフォーマンスメトリクス、異なるストリーム学習問題に対する評価器を提供する。 これはPythonでストリーム学習に最も人気のある2つのパッケージであるCremeとScikit-multiflowの合併によるものだ。 Riverは、セミナーパッケージから学んだ教訓に基づいて、アーキテクチャを改良した。 Riverの野望は、ストリーミングデータで機械学習を行うためのライブラリになることだ。 さらに、このオープンソースパッケージは同じ傘の下に、実践者や研究者の大規模なコミュニティをもたらしている。 ソースコードはhttps://github.com/online-ml/riverで入手できる。

River is a machine learning library for dynamic data streams and continual learning. It provides multiple state-of-the-art learning methods, data generators/transformers, performance metrics and evaluators for different stream learning problems. It is the result from the merger of the two most popular packages for stream learning in Python: Creme and scikit-multiflow. River introduces a revamped architecture based on the lessons learnt from the seminal packages. River's ambition is to be the go-to library for doing machine learning on streaming data. Additionally, this open source package brings under the same umbrella a large community of practitioners and researchers. The source code is available at https://github.com/online-ml/river.
翻訳日:2021-05-16 21:39:05 公開日:2020-12-08
# ランダム非同期線形時間不変系の安定性と同定

Stability and Identification of Random Asynchronous Linear Time-Invariant Systems ( http://arxiv.org/abs/2012.04160v1 )

ライセンス: Link先を確認
Sahin Lale, Oguzhan Teke, Babak Hassibi, Anima Anandkumar(参考訳) 多くの計算処理や力学系において、非同期とランダム化は自然に存在し、精度と収束率を妥協しながら計算の速度とコストを下げる方法として考えられてきた。 本研究では,線形力学系の安定性に対するランダム化と非同期化の付加的な利点を示す。 本稿では、標準(同期)LTIシステムを一般化したランダム非同期線形時間不変系(LTI)の自然モデルを提案する。 このモデルでは、各状態変数は、基礎となるシステムダイナミクスに従って、ある程度の確率でランダムに非同期に更新される。 ランダムな非同期LTIシステムの平均2乗安定性は、ランダム化と非同期化に関してどのように異なるかを検討する。 驚くべきことに、ランダムな非同期ltiシステムの安定性は、システムの同期変異の安定性や不安定な同期システムのランダム化および/または非同期性によって安定化されるわけではない。 さらに,各状態要素を一定だが未知の確率でランダムに更新する,ランダム化ltiシステムという導入モデルの特別な場合についても検討する。 本稿では,Lyapunov 方程式を用いた平均二乗安定性の精度評価を用いて,未知のランダム化 LTI システムのシステム同定の問題を考える。 未知のランダム化LTIシステムに対して,基礎となる力学を復元するための系統的同定手法を提案する。 本手法は,1つの入力/出力軌道が与えられた場合,システムダイナミクス,状態変数の更新確率,および,収集データと拡張リアプノフ方程式の相関行列を用いたノイズ共分散を推定する。 最後に,提案手法が最適速度でシステムダイナミクスを常に回復することを実証的に示す。

In many computational tasks and dynamical systems, asynchrony and randomization are naturally present and have been considered as ways to increase the speed and reduce the cost of computation while compromising the accuracy and convergence rate. In this work, we show the additional benefits of randomization and asynchrony on the stability of linear dynamical systems. We introduce a natural model for random asynchronous linear time-invariant (LTI) systems which generalizes the standard (synchronous) LTI systems. In this model, each state variable is updated randomly and asynchronously with some probability according to the underlying system dynamics. We examine how the mean-square stability of random asynchronous LTI systems vary with respect to randomization and asynchrony. Surprisingly, we show that the stability of random asynchronous LTI systems does not imply or is not implied by the stability of the synchronous variant of the system and an unstable synchronous system can be stabilized via randomization and/or asynchrony. We further study a special case of the introduced model, namely randomized LTI systems, where each state element is updated randomly with some fixed but unknown probability. We consider the problem of system identification of unknown randomized LTI systems using the precise characterization of mean-square stability via extended Lyapunov equation. For unknown randomized LTI systems, we propose a systematic identification method to recover the underlying dynamics. Given a single input/output trajectory, our method estimates the model parameters that govern the system dynamics, the update probability of state variables, and the noise covariance using the correlation matrices of collected data and the extended Lyapunov equation. Finally, we empirically demonstrate that the proposed method consistently recovers the underlying system dynamics with the optimal rate.
翻訳日:2021-05-16 21:37:41 公開日:2020-12-08
# パンデミック時のオリンピックメダル分布予測 : 社会経済機械学習モデル

Forecasting the Olympic medal distribution during a pandemic: a socio-economic machine learning model ( http://arxiv.org/abs/2012.04378v1 )

ライセンス: Link先を確認
Christoph Schlembach, Sascha L. Schmidt, Dominik Schreyer, Linus Wunderlich(参考訳) 各国のオリンピックのメダル数を予測することは、さまざまな利害関係者にとって非常に意味がある。ex ante, sports betting companyは、スポンサーやメディア企業が彼らのリソースを有望なチームに割り当てることができるのに対し、オッズを決定することができる。 スポーツの政治家やマネージャーは、チームのパフォーマンスをベンチマークし、成功の要因を評価することができる。 オリンピックのメダル予測精度を大幅に向上させるため,2008年から2016年にかけて開催された3回のオリンピックにおいて,機械学習,特に2段階のランダムフォレストを適用した。 2021年の東京五輪に関しては、米国が120個のメダルを獲得し、次いで中国(87個)とイギリス(74個)が優勝するというモデルが提案されている。 興味深いことに、現在の新型コロナウイルス(COVID-19)パンデミックは、すべての国がパンデミックにある程度(データ固有の)苦しむため、メダル数を大きく変えることはないと予測しています。

Forecasting the number of Olympic medals for each nation is highly relevant for different stakeholders: Ex ante, sports betting companies can determine the odds while sponsors and media companies can allocate their resources to promising teams. Ex post, sports politicians and managers can benchmark the performance of their teams and evaluate the drivers of success. To significantly increase the Olympic medal forecasting accuracy, we apply machine learning, more specifically a two-staged Random Forest, thus outperforming more traditional na\"ive forecast for three previous Olympics held between 2008 and 2016 for the first time. Regarding the Tokyo 2020 Games in 2021, our model suggests that the United States will lead the Olympic medal table, winning 120 medals, followed by China (87) and Great Britain (74). Intriguingly, we predict that the current COVID-19 pandemic will not significantly alter the medal count as all countries suffer from the pandemic to some extent (data inherent) and limited historical data points on comparable diseases (model inherent).
翻訳日:2021-05-16 21:36:57 公開日:2020-12-08
# NeRD:イメージコレクションからのニューラルリフレクタンス分解

NeRD: Neural Reflectance Decomposition from Image Collections ( http://arxiv.org/abs/2012.03918v2 )

ライセンス: Link先を確認
Mark Boss, Raphael Braun, Varun Jampani, Jonathan T. Barron, Ce Liu, Hendrik P.A. Lensch(参考訳) シーンをその形状、反射率、照明に分解することは、コンピュータビジョンとグラフィックスにおいて難しいが不可欠な問題である。 この問題は、実験室の条件下で照明が単一の光源ではなく、制約のない環境照明である場合、本質的により困難である。 近年の研究では、暗黙の表現はオブジェクトの放射フィールドのモデル化に使用できることが示されているが、これらの技法はビューの合成のみが可能であり、リライトはできない。 さらに、これらの放射場の評価は資源と時間集約的である。 シーンを明示的な表現に分解することで、任意のレンダリングフレームワークをリアルタイムで新しいビューを生成することができる。 NeRDは、神経放射場に物理ベースのレンダリングを導入することで、この分解を実現する方法である。 非ランベルト反射率、複素幾何、未知の照明さえも高品質のモデルに分解できる。 データセットとコードはプロジェクトページで入手できる。 https://markboss.me/publication/2021-nerd/

Decomposing a scene into its shape, reflectance, and illumination is a challenging but essential problem in computer vision and graphics. This problem is inherently more challenging when the illumination is not a single light source under laboratory conditions but is instead an unconstrained environmental illumination. Though recent work has shown that implicit representations can be used to model the radiance field of an object, these techniques only enable view synthesis and not relighting. Additionally, evaluating these radiance fields is resource and time-intensive. By decomposing a scene into explicit representations, any rendering framework can be leveraged to generate novel views under any illumination in real-time. NeRD is a method that achieves this decomposition by introducing physically-based rendering to neural radiance fields. Even challenging non-Lambertian reflectances, complex geometry, and unknown illumination can be decomposed to high-quality models. The datasets and code is available at the project page: https://markboss.me/publication/2021-nerd/
翻訳日:2021-05-16 21:35:28 公開日:2020-12-08
# 逆動画に対する過剰表現

Overcomplete Representations Against Adversarial Videos ( http://arxiv.org/abs/2012.04262v1 )

ライセンス: Link先を確認
Shao-Yuan Lo, Jeya Maria Jose Valanarasu, Vishal M. Patel(参考訳) ディープニューラルネットワークの敵対的堅牢性は、文献で広く研究されている問題であり、敵画像に対して様々な方法が提案されている。 しかし、攻撃されたビデオに対する防衛策はごくわずかしか開発されていない。 本稿では,OUDefend(Over-and-Under complete restoration network for Defending against adversarial video)を提案する。 ほとんどの復元ネットワークはエンコーダ・デコーダアーキテクチャを採用しており、まず空間次元を縮小し、拡張する。 このアプローチは、グローバル情報を集めるための大きな受容領域を持つ未完成表現を学習するが、局所的な詳細を見落としている。 一方、超完全表現は逆の性質を持つ。 したがって、OUDefendはこれらの2つの表現を学習することで、ローカルとグローバルの機能のバランスをとるように設計されている。 我々は,OUDefendを特徴回復ブロックとしてターゲットビデオ認識モデルにアタッチし,ネットワーク全体をエンドツーエンドにトレーニングする。 OUDefendは、加算攻撃、乗算攻撃、物理的に実現可能な攻撃など、様々なタイプの敵対的ビデオに対する堅牢性を高める。

Adversarial robustness of deep neural networks is an extensively studied problem in the literature and various methods have been proposed to defend against adversarial images. However, only a handful of defense methods have been developed for defending against attacked videos. In this paper, we propose a novel Over-and-Under complete restoration network for Defending against adversarial videos (OUDefend). Most restoration networks adopt an encoder-decoder architecture that first shrinks spatial dimension then expands it back. This approach learns undercomplete representations, which have large receptive fields to collect global information but overlooks local details. On the other hand, overcomplete representations have opposite properties. Hence, OUDefend is designed to balance local and global features by learning those two representations. We attach OUDefend to target video recognition models as a feature restoration block and train the entire network end-to-end. Experimental results show that the defenses focusing on images may be ineffective to videos, while OUDefend enhances robustness against different types of adversarial videos, ranging from additive attacks, multiplicative attacks to physically realizable attacks.
翻訳日:2021-05-16 21:35:15 公開日:2020-12-08
# 分類課題に基づく強化学習は、より良い一般化と敵意の正確さをもたらす

Reinforcement Based Learning on Classification Task Could Yield Better Generalization and Adversarial Accuracy ( http://arxiv.org/abs/2012.04353v1 )

ライセンス: Link先を確認
Shashi Kant Gupta(参考訳) ディープラーニングはコンピュータビジョンにおいて興味深い人気を博し、様々なビジョンタスクで人間レベルのパフォーマンスをほぼ超えている。 しかし、最近の研究は、これらのディープニューラルネットワークが敵の例に対して非常に脆弱であることも示している(逆例 – 元々のデータと自然に類似しているが、間違ったクラスに分類するモデルへの入力)。 人間はそのような摂動に対して非常に頑健であり、その1つの理由は、人間が「目標ラベル」と「予測ラベル」の誤差に基づいて分類することを学ばないが、その予測で受ける強化によって、おそらくは分類される可能性があるからである。 本研究では,画像分類タスクにおいて,ディープラーニングモデルを学習するための新しい手法を提案する。 強化学習で用いられるバニラポリシー勾配法に類似した報酬に基づく最適化関数を用いて,従来のクロスエントロピー損失の代わりにモデルを訓練した。 cifar10データセットの実証的評価により,クロスエントロピー損失関数(対向訓練)を用いて訓練された同じモデルアーキテクチャよりもロバストな分類法が得られた。 一方,本手法では,テスト精度とトレーニング精度の差により,ほとんどの時間において<2\%$であり,その差はほとんどが$>2\%$であるクロスエントロピー法と比較して,より良い一般化を示す。

Deep Learning has become interestingly popular in computer vision, mostly attaining near or above human-level performance in various vision tasks. But recent work has also demonstrated that these deep neural networks are very vulnerable to adversarial examples (adversarial examples - inputs to a model which are naturally similar to original data but fools the model in classifying it into a wrong class). Humans are very robust against such perturbations; one possible reason could be that humans do not learn to classify based on an error between "target label" and "predicted label" but possibly due to reinforcements that they receive on their predictions. In this work, we proposed a novel method to train deep learning models on an image classification task. We used a reward-based optimization function, similar to the vanilla policy gradient method used in reinforcement learning, to train our model instead of conventional cross-entropy loss. An empirical evaluation on the cifar10 dataset showed that our method learns a more robust classifier than the same model architecture trained using cross-entropy loss function (on adversarial training). At the same time, our method shows a better generalization with the difference in test accuracy and train accuracy $< 2\%$ for most of the time compared to the cross-entropy one, whose difference most of the time remains $> 2\%$.
翻訳日:2021-05-16 21:34:58 公開日:2020-12-08
# GMMに基づく生成逆エンコーダ学習

GMM-Based Generative Adversarial Encoder Learning ( http://arxiv.org/abs/2012.04525v1 )

ライセンス: Link先を確認
Yuri Feigin and Hedva Spitzer and Raja Giryes(参考訳) GANは画像を生成する強力なモデルであるが、遅延空間を推論できないため、エンコーダを必要とするアプリケーションでは直接使用が制限される。 本稿では,ganの生成能力とエンコーダを組み合わせたシンプルなアーキテクチャ構成を提案する。 共有重みを用いてエンコーダと判別器を組み合わせることでこれを達成し、新たな損失項を用いて同時に訓練する。 GMMを用いてエンコーダ潜在空間の出力をモデル化し、この潜在空間を用いた優れたクラスタリングと、GANによる画像生成の改善を両立させる。 私たちのフレームワークは汎用的で、あらゆるgan戦略に簡単にプラグインできます。 特に、我々はVanilla GAN と Wasserstein GAN でこれを実証し、どちらもIS と FID のスコアで生成された画像の改善につながっている。 さらに,クラスタ化の結果が現在のganベースのクラスタリングの最先端と競合するため,エンコーダは有意義な表現を学習することを示した。

While GAN is a powerful model for generating images, its inability to infer a latent space directly limits its use in applications requiring an encoder. Our paper presents a simple architectural setup that combines the generative capabilities of GAN with an encoder. We accomplish this by combining the encoder with the discriminator using shared weights, then training them simultaneously using a new loss term. We model the output of the encoder latent space via a GMM, which leads to both good clustering using this latent space and improved image generation by the GAN. Our framework is generic and can be easily plugged into any GAN strategy. In particular, we demonstrate it both with Vanilla GAN and Wasserstein GAN, where in both it leads to an improvement in the generated images in terms of both the IS and FID scores. Moreover, we show that our encoder learns a meaningful representation as its clustering results are competitive with the current GAN-based state-of-the-art in clustering.
翻訳日:2021-05-16 21:34:31 公開日:2020-12-08
# 一般化イテレーテッドサムシグネチャ

Generalized iterated-sums signatures ( http://arxiv.org/abs/2012.04597v1 )

ライセンス: Link先を確認
Joscha Diehl, Kurusch Ebrahimi-Fard, Nikolas Tapia(参考訳) 我々は、F.~Kir\'aly と H.~Oberhauser の以前の研究に触発された、反復和符号の一般化版の代数的性質を探求する。 特に、テンソル代数上の関連する線型写像のキャラクタ特性を、後者の単語の変形した準シャッフル積を考えることによって回復する方法を示す。 繰り返しサマーシグネチャに3つの非線形変換を導入し、機械学習アプリケーションに近づき、それらの特性をいくつか示す。

We explore the algebraic properties of a generalized version of the iterated-sums signature, inspired by previous work of F.~Kir\'aly and H.~Oberhauser. In particular, we show how to recover the character property of the associated linear map over the tensor algebra by considering a deformed quasi-shuffle product of words on the latter. We introduce three non-linear transformations on iterated-sums signatures, close in spirit to Machine Learning applications, and show some of their properties.
翻訳日:2021-05-16 21:34:17 公開日:2020-12-08
# 変分非線形システム同定

Variational Nonlinear System Identification ( http://arxiv.org/abs/2012.05072v1 )

ライセンス: Link先を確認
Jarrad Courts, Adrian Wills, Thomas Sch\"on, Brett Ninness(参考訳) 本稿では,非線形状態空間モデルに対するパラメータ推定について考察する。 この課題に対して,最大推定値に対する深い接続を持つ原理的手法である変動推論 (VI) アプローチを用いて対処する。 このviアプローチは最終的に、決定論的で扱いやすく、標準最適化ツールを使って解決できる最適化問題の解としてモデルの推定を提供する。 ガウス雑音を付加した系に対するこのアプローチの特殊化についても詳述する。 提案手法は,パラメータ初期化に対するロバスト性に着目したシミュレーションと実例について数値的に検討し,さらに最先端の代替案との比較を行った。

This paper considers parameter estimation for nonlinear state-space models, which is an important but challenging problem. We address this challenge by employing a variational inference (VI) approach, which is a principled method that has deep connections to maximum likelihood estimation. This VI approach ultimately provides estimates of the model as solutions to an optimisation problem, which is deterministic, tractable and can be solved using standard optimisation tools. A specialisation of this approach for systems with additive Gaussian noise is also detailed. The proposed method is examined numerically on a range of simulation and real examples with a focus on robustness to parameter initialisations; we additionally perform favourable comparisons against state-of-the-art alternatives.
翻訳日:2021-05-16 21:32:45 公開日:2020-12-08
# ニューラルマシン翻訳のための文書グラフ

Document Graph for Neural Machine Translation ( http://arxiv.org/abs/2012.03477v2 )

ライセンス: Link先を確認
Mingzhou Xu, Liangyou Li, Derek. F. Wong, Qun Liu, Lidia S. Chao(参考訳) これまでの研究で、文脈情報はニューラルマシン翻訳(NMT)の性能を向上させることが示されている。 しかし、既存の文書レベルのNMT手法は、いくつかの前の文以上の文脈を活用できなかった。 ドキュメント全体をグローバルなコンテキストとして利用する方法はまだ課題です。 この問題に対処するために、文書は距離に関係なく関連するコンテキストを接続するグラフとして表現できるという仮説を立てる。 文書グラフを構成するために, 隣接性, 構文依存性, 語彙一貫性, 共参照など, 様々な関係性を用いている。 次に、ソースグラフとターゲットグラフの両方を、グラフ畳み込みネットワークを用いた従来のトランスフォーマーアーキテクチャに組み込む。 IWSLT English- French, Chinese- English, WMT English-German and Opensubtitle English- Russian などの様々なNMTベンチマークの実験では、文書グラフの使用により翻訳品質が大幅に向上することを示した。

Previous works have shown that contextual information can improve the performance of neural machine translation (NMT). However, most existing document-level NMT methods failed to leverage contexts beyond a few set of previous sentences. How to make use of the whole document as global contexts is still a challenge. To address this issue, we hypothesize that a document can be represented as a graph that connects relevant contexts regardless of their distances. We employ several types of relations, including adjacency, syntactic dependency, lexical consistency, and coreference, to construct the document graph. Then, we incorporate both source and target graphs into the conventional Transformer architecture with graph convolutional networks. Experiments on various NMT benchmarks, including IWSLT English-French, Chinese-English, WMT English-German and Opensubtitle English-Russian, demonstrate that using document graphs can significantly improve the translation quality.
翻訳日:2021-05-16 21:32:05 公開日:2020-12-08
# 動的自動コンフリクト解決によるヒューマンラベルデータの改善

Improving Human-Labeled Data through Dynamic Automatic Conflict Resolution ( http://arxiv.org/abs/2012.04169v1 )

ライセンス: Link先を確認
David Q. Sun, Hadas Kotek, Christopher Klein, Mayank Gupta, William Li, Jason D. Williams(参考訳) 本稿では, (a) 一般的なクラウドソーシング・セマンティック・アノテーションタスクによるラベルのノイズを推定するスケーラブルな手法を開発し, (b) 他の一般的なラベル手法と比較して, ラベル処理のエラーを最大20~30%低減する手法を提案する。 重要なことに、このラベル付けプロセスに対する新しいアプローチは、動的自動競合解決(DACR)と呼ばれ、基礎となる真理データセットを必要とせず、プロジェクト間アノテーションの不整合に基づいている。 これにより、DACRはより正確であるだけでなく、幅広いラベリングタスクにも利用できる。 以下では,商用パーソナルアシスタントに対して大規模に実施したテキスト分類タスクの結果を示し,他の一般的なラベリング戦略と比較して,このアノテーション戦略によって明らかにされる固有のあいまいさを評価する。

This paper develops and implements a scalable methodology for (a) estimating the noisiness of labels produced by a typical crowdsourcing semantic annotation task, and (b) reducing the resulting error of the labeling process by as much as 20-30% in comparison to other common labeling strategies. Importantly, this new approach to the labeling process, which we name Dynamic Automatic Conflict Resolution (DACR), does not require a ground truth dataset and is instead based on inter-project annotation inconsistencies. This makes DACR not only more accurate but also available to a broad range of labeling tasks. In what follows we present results from a text classification task performed at scale for a commercial personal assistant, and evaluate the inherent ambiguity uncovered by this annotation strategy as compared to other common labeling strategies.
翻訳日:2021-05-16 21:29:45 公開日:2020-12-08
# CTRLsum:ジェネリック制御可能なテキスト要約を目指して

CTRLsum: Towards Generic Controllable Text Summarization ( http://arxiv.org/abs/2012.04281v1 )

ライセンス: Link先を確認
Junxian He, Wojciech Kry\'sci\'nski, Bryan McCann, Nazneen Rajani, Caiming Xiong(参考訳) 現在の要約システムは、ユーザの好みや期待から切り離された一般的な要約を生成する。 この制限に対処するため、制御可能な要約のための新しいフレームワークであるCTRLsumを提案する。 提案手法では,要約システムと対話し,キーワードや記述的プロンプトの形式でテキスト入力することで,生成した要約の複数の側面を制御できる。 単一の統一モデルを使用することで、ctrlsumは、人間のアノテーションの追加やトレーニング中に一連の制御側面を事前に定義することなく、推論時にサマリ操作の広い範囲を実現できる。 1) エンティティ中心, 2) 長さ制御可能な要約, 3) 科学論文への投稿要約, 4) 特許出願の発明目的要約, 5) 読解理解環境におけるニュース記事の質問誘導要約の3つの領域に対するアプローチの有効性を定量的に実証した。 さらに、標準の制御されていない要約設定で使用される場合、CTRLsumはCNN/DailyMailデータセットで最先端の結果を達成する。 code and model checkpoints are available at https://github.com/salesforce/ctrl-sum

Current summarization systems yield generic summaries that are disconnected from users' preferences and expectations. To address this limitation, we present CTRLsum, a novel framework for controllable summarization. Our approach enables users to control multiple aspects of generated summaries by interacting with the summarization system through textual input in the form of a set of keywords or descriptive prompts. Using a single unified model, CTRLsum is able to achieve a broad scope of summary manipulation at inference time without requiring additional human annotations or pre-defining a set of control aspects during training. We quantitatively demonstrate the effectiveness of our approach on three domains of summarization datasets and five control aspects: 1) entity-centric and 2) length-controllable summarization, 3) contribution summarization on scientific papers, 4) invention purpose summarization on patent filings, and 5) question-guided summarization on news articles in a reading comprehension setting. Moreover, when used in a standard, uncontrolled summarization setting, CTRLsum achieves state-of-the-art results on the CNN/DailyMail dataset. Code and model checkpoints are available at https://github.com/salesforce/ctrl-sum
翻訳日:2021-05-16 21:29:30 公開日:2020-12-08
# 終末の中国のパース・エクスプロイト・レキシコン

End-to-End Chinese Parsing Exploiting Lexicons ( http://arxiv.org/abs/2012.04395v1 )

ライセンス: Link先を確認
Yuan Zhang, Zhiyang Teng, Yue Zhang(参考訳) 中国語の構文解析は伝統的に3つのパイプラインシステムによって解決されてきた。 本稿では,単語分割,部分音声タグ,依存関係構造を共同で学習する文字入力に基づくエンドツーエンド中国語構文解析モデルを提案する。 特に,解析モデルは,文字入力を外部の単語知識で豊かにすることができるワードチャートグラフアテンションネットワークに依存している。 3つの中国の解析ベンチマークデータセットの実験は、我々のモデルの有効性を示し、エンドツーエンドの中国語解析における最先端の結果を達成する。

Chinese parsing has traditionally been solved by three pipeline systems including word-segmentation, part-of-speech tagging and dependency parsing modules. In this paper, we propose an end-to-end Chinese parsing model based on character inputs which jointly learns to output word segmentation, part-of-speech tags and dependency structures. In particular, our parsing model relies on word-char graph attention networks, which can enrich the character inputs with external word knowledge. Experiments on three Chinese parsing benchmark datasets show the effectiveness of our models, achieving the state-of-the-art results on end-to-end Chinese parsing.
翻訳日:2021-05-16 21:28:50 公開日:2020-12-08
# 量子化変圧器空間における抽出的意見要約

Extractive Opinion Summarization in Quantized Transformer Spaces ( http://arxiv.org/abs/2012.04443v1 )

ライセンス: Link先を確認
Stefanos Angelidis, Reinald Kim Amplayo, Yoshihiko Suhara, Xiaolan Wang, Mirella Lapata(参考訳) 本稿では,抽出的意見要約システムQuantized Transformer(QT)を提案する。 QTはVector-Quantized Variational Autoencodersにインスパイアされ、人気主導の要約に活用する。 量子化された空間のクラスタリング解釈と新しい抽出アルゴリズムを使用して、何百ものレビューの中で一般的な意見を発見する。 さらにQTは、量子化された空間の性質を利用してアスペクト特異的な要約を抽出することにより、さらなる訓練なしに制御可能な要約を可能にする。 また,50ホテルの総合的,側面特異的な要約を含む,意見要約のための大規模評価ベンチマークSPACEも公開している。 提案手法は,審査員が競争基準よりも提案手法を明瞭に選好することを示す人間の研究によって実証された。

We present the Quantized Transformer (QT), an unsupervised system for extractive opinion summarization. QT is inspired by Vector-Quantized Variational Autoencoders, which we repurpose for popularity-driven summarization. It uses a clustering interpretation of the quantized space and a novel extraction algorithm to discover popular opinions among hundreds of reviews, a significant step towards opinion summarization of practical scope. In addition, QT enables controllable summarization without further training, by utilizing properties of the quantized space to extract aspect-specific summaries. We also make publicly available SPACE, a large-scale evaluation benchmark for opinion summarizers, comprising general and aspect-specific summaries for 50 hotels. Experiments demonstrate the promise of our approach, which is validated by human studies where judges showed clear preference for our method over competitive baselines.
翻訳日:2021-05-16 21:28:37 公開日:2020-12-08
# フェアネスの選好と現実と仮説:クラウドワーカーインセンティブの研究

Fairness Preferences, Actual and Hypothetical: A Study of Crowdworker Incentives ( http://arxiv.org/abs/2012.04216v1 )

ライセンス: Link先を確認
Angie Peng and Jeff Naecker and Ben Hutchinson and Andrew Smart and Nyalleng Moorosi(参考訳) 機械学習システムで採用すべき公平性基準や定義をどのように決めるべきか? この疑問に答えるためには,機械学習システムの実際の利用者の公平性を調査する必要がある。 治療や影響に対する厳格なパリティ制約はトレードオフを伴う可能性があり、問題の社会集団には好まれない可能性がある(zafar et al., 2017)。 したがって、事前定義された数学的公正性制約に頼るよりも、群の選好が何であるかを引き出す方が有益かもしれない。 ユーザーの自己報告されたランキングを求めることは、人の発言と実際の嗜好の間にはしばしばギャップがあることが研究によって示されている(Bernheim et al., 2013)。 本稿では,これらの質問に対する研究プログラムと実験設計について概説する。 実験の参加者は、基礎的な支払いと引き換えに一連のタスクを実行するように招待され、彼らは事前にボーナスを後で受け取ることができると告げられ、ボーナスは出力量と品質の組み合わせに依存する可能性がある。 労働者の同じグループがボーナスの支払い構造で投票し、好みを引き出す。 投票は、半数が仮定的(結果とは無関係)で、残り半分が実際の(実際の支払い結果に比較)なので、グループの実際の嗜好と仮説的(統計的)な選好との関係を理解することができる。 機械学習における公平な関係と教訓を探求する。

How should we decide which fairness criteria or definitions to adopt in machine learning systems? To answer this question, we must study the fairness preferences of actual users of machine learning systems. Stringent parity constraints on treatment or impact can come with trade-offs, and may not even be preferred by the social groups in question (Zafar et al., 2017). Thus it might be beneficial to elicit what the group's preferences are, rather than rely on a priori defined mathematical fairness constraints. Simply asking for self-reported rankings of users is challenging because research has shown that there are often gaps between people's stated and actual preferences(Bernheim et al., 2013). This paper outlines a research program and experimental designs for investigating these questions. Participants in the experiments are invited to perform a set of tasks in exchange for a base payment--they are told upfront that they may receive a bonus later on, and the bonus could depend on some combination of output quantity and quality. The same group of workers then votes on a bonus payment structure, to elicit preferences. The voting is hypothetical (not tied to an outcome) for half the group and actual (tied to the actual payment outcome) for the other half, so that we can understand the relation between a group's actual preferences and hypothetical (stated) preferences. Connections and lessons from fairness in machine learning are explored.
翻訳日:2021-05-16 21:27:53 公開日:2020-12-08
# Pseudo-Boolean Constraint Learningにおける無関係リテラルについて

On Irrelevant Literals in Pseudo-Boolean Constraint Learning ( http://arxiv.org/abs/2012.04424v1 )

ライセンス: Link先を確認
Danel Le Berre, Pierre Marquis, Stefan Mengel, Romain Wallon(参考訳) PBソルバにおける擬似ブール(PB)制約の学習は、競合駆動型節学習ソルバにおける節学習ほど理解されていない。 本稿では,切断平面を用いて導出されるpb制約が,制約の真理値を決して変更しないリテラルである \emph{irrelevant literals} を含む可能性があることを示す。 このようなリテラルは、本来よりも弱い制約を推測し、ソルバによって構築された証明のサイズに影響し、その結果その性能に影響する可能性がある。 これは、切断平面に基づくpbソルバの現在の実装は、無関係リテラルの発生を防止するために再検討されるべきであることを示唆している。 実際、無関係リテラルの検出と削除は、実際にはオプションとして考えるには高すぎる(関連する問題はNPハードである)。

Learning pseudo-Boolean (PB) constraints in PB solvers exploiting cutting planes based inference is not as well understood as clause learning in conflict-driven clause learning solvers. In this paper, we show that PB constraints derived using cutting planes may contain \emph{irrelevant literals}, i.e., literals whose assigned values (whatever they are) never change the truth value of the constraint. Such literals may lead to infer constraints that are weaker than they should be, impacting the size of the proof built by the solver, and thus also affecting its performance. This suggests that current implementations of PB solvers based on cutting planes should be reconsidered to prevent the generation of irrelevant literals. Indeed, detecting and removing irrelevant literals is too expensive in practice to be considered as an option (the associated problem is NP-hard.
翻訳日:2021-05-16 21:27:30 公開日:2020-12-08
# URoboSim - ロボットエージェントの予測推論のためのエピソード・シミュレーション・フレームワーク

URoboSim -- An Episodic Simulation Framework for Prospective Reasoning in Robotic Agents ( http://arxiv.org/abs/2012.04442v1 )

ライセンス: Link先を確認
Michael Neumann, Sebastian Koralewski and Michael Beetz(参考訳) アクションの結果何が起こるかを予測することは、人間が効果的にタスクを実行するために必要な能力である。 一方、ロボットの能力は不足している。 機械学習は予測能力を高めるのに使われているが、新しい状況にはまだ限界がある。 ロボットの予測能力を改善する可能性として、想像された動きのシミュレーションとこれらの動作の物理的結果があげられる。 そこで本研究では,実際の作業を行う前に,ロボットがメンタルシミュレーションとしてタスクを実行できるロボットシミュレータURoboSimを提案する。 ウルボシムの能力をメンタルシミュレーションの形で示し,機械学習のためのデータ生成と,実ロボットの信念状態としての利用について述べる。

Anticipating what might happen as a result of an action is an essential ability humans have in order to perform tasks effectively. On the other hand, robots capabilities in this regard are quite lacking. While machine learning is used to increase the ability of prospection it is still limiting for novel situations. A possibility to improve the prospection ability of robots is through simulation of imagined motions and the physical results of these actions. Therefore, we present URoboSim, a robot simulator that allows robots to perform tasks as mental simulation before performing this task in reality. We show the capabilities of URoboSim in form of mental simulations, generating data for machine learning and the usage as belief state for a real robot.
翻訳日:2021-05-16 21:27:17 公開日:2020-12-08
# EvoCraft: オープンエンドレスネスの新たな挑戦

EvoCraft: A New Challenge for Open-Endedness ( http://arxiv.org/abs/2012.04751v1 )

ライセンス: Link先を確認
Djordje Grbic, Rasmus Berg Palm, Elias Najarro, Claire Glanois, Sebastian Risi(参考訳) 本稿では,オープンエンドアルゴリズムの研究を目的としたMinecraft用フレームワークであるEvoCraftを紹介する。 我々は,Minecraftと通信してブロックの配置と追跡を行う,オープンソースのPythonインターフェースを提供するAPIを導入する。 Minecraftのこれまでの取り組みとは対照的に、私たちが直面する大きな課題は、オープンエンドの方法で、ますます複雑なアーティファクトを自動的に検索することだ。 オープンディペンデンスを研究するために使われる他の環境と比較して、Minecraftは回路と機械部品を備えたアクチュエータマシンを含む、ほぼあらゆる種類の構造を構築することができる。 インタラクティブかつ自動化された進化を通じて、単純なMinecraft生成を進化させる上で、最初のベースライン結果を示す。 進化は、特定のターゲットに向かって構造を成長させるよう命令されたときに成功するが、動く単純なマシンを作ると報われると解決策を見つけることができない。 このように、EvoCraftは自動検索方法(進化など)に挑戦的な新しい環境を提供し、よりオープンなアルゴリズムの開発を促進することを期待しています。 evocraftフレームワークのpython実装は、https://github.com/real-itu/evocraft-pyで利用可能である。

This paper introduces EvoCraft, a framework for Minecraft designed to study open-ended algorithms. We introduce an API that provides an open-source Python interface for communicating with Minecraft to place and track blocks. In contrast to previous work in Minecraft that focused on learning to play the game, the grand challenge we pose here is to automatically search for increasingly complex artifacts in an open-ended fashion. Compared to other environments used to study open-endedness, Minecraft allows the construction of almost any kind of structure, including actuated machines with circuits and mechanical components. We present initial baseline results in evolving simple Minecraft creations through both interactive and automated evolution. While evolution succeeds when tasked to grow a structure towards a specific target, it is unable to find a solution when rewarded for creating a simple machine that moves. Thus, EvoCraft offers a challenging new environment for automated search methods (such as evolution) to find complex artifacts that we hope will spur the development of more open-ended algorithms. A Python implementation of the EvoCraft framework is available at: https://github.com/real-itu/Evocraft-py.
翻訳日:2021-05-16 21:27:07 公開日:2020-12-08
# 内視鏡的病変分画に対する弱教師付きクロスドメイン適応

Weakly-Supervised Cross-Domain Adaptation for Endoscopic Lesions Segmentation ( http://arxiv.org/abs/2012.04170v1 )

ライセンス: Link先を確認
Jiahua Dong, Yang Cong, Gan Sun, Yunsheng Yang, Xiaowei Xu and Zhengming Ding(参考訳) 弱い教師付き学習は、ピクセルレベルのアノテーションコストの大幅な削減により、医学的病変のセグメンテーションに対する研究の注目を集めている。 しかし,1) 既存の方法の多くは, 内因性病変の解明に有効な事前および制約を必要としており, 誤った, 粗い予測しか起こさない。2) 弱ラベルの標的内視鏡疾患と完全注釈の胃内視鏡病変の根底にある意味的依存関係を無視する一方で, 強制的に非伝達性病変を活用すれば, 負のパフォーマンスが向上する。 そこで本研究では,異なるデータセットにまたがるトランスファー可能なドメイン不変知識を探索するだけでなく,変換不能表現の負の転送を防止できる,新しい弱い教師付き病巣移動フレームワークを提案する。 特に、ワッサーシュタイン量化トランスファービリティフレームワークは、無関係なセマンティックな特徴を無視しながら、広範囲のトランスファー可能なコンテキスト依存を強調するために開発されている。 さらに、新しい自己教師付き擬似ラベル生成器は、転送困難および転送容易なターゲットサンプルの両方に対して、自信のある擬似ピクセルラベルを等しく提供するように設計されている。 自己超越的な方法で偽の擬似ピクセルラベルの巨大なずれを抑制する。 その後、動的に探索された特徴セントロイドは、狭いカテゴリーごとの分布シフトに整列する。 総合的な理論的解析と実験により, 内視鏡的データセットといくつかの公開データセットにおいて, モデルの優越性が示された。

Weakly-supervised learning has attracted growing research attention on medical lesions segmentation due to significant saving in pixel-level annotation cost. However, 1) most existing methods require effective prior and constraints to explore the intrinsic lesions characterization, which only generates incorrect and rough prediction; 2) they neglect the underlying semantic dependencies among weakly-labeled target enteroscopy diseases and fully-annotated source gastroscope lesions, while forcefully utilizing untransferable dependencies leads to the negative performance. To tackle above issues, we propose a new weakly-supervised lesions transfer framework, which can not only explore transferable domain-invariant knowledge across different datasets, but also prevent the negative transfer of untransferable representations. Specifically, a Wasserstein quantified transferability framework is developed to highlight widerange transferable contextual dependencies, while neglecting the irrelevant semantic characterizations. Moreover, a novel selfsupervised pseudo label generator is designed to equally provide confident pseudo pixel labels for both hard-to-transfer and easyto-transfer target samples. It inhibits the enormous deviation of false pseudo pixel labels under the self-supervision manner. Afterwards, dynamically-searched feature centroids are aligned to narrow category-wise distribution shift. Comprehensive theoretical analysis and experiments show the superiority of our model on the endoscopic dataset and several public datasets.
翻訳日:2021-05-16 21:18:27 公開日:2020-12-08
# リアルな画像描画のためのテクスチャ変換

Texture Transform Attention for Realistic Image Inpainting ( http://arxiv.org/abs/2012.04242v1 )

ライセンス: Link先を確認
Yejin Kim and Manri Cheon and Junwoo Lee(参考訳) 過去数年間、欠落した領域を埋めるためのインペインティングのパフォーマンスは、ディープニューラルネットワークを使用することで大幅に改善されている。 塗装された作品の多くは視覚的にもっともらしい構造とテクスチャを生み出しているが、しばしばぼやけた結果をもたらすため、最終的な結果は非現実的で不均一である。 この問題を解決するために,既存の手法ではディープニューラルネットワークを用いたパッチベースソリューションが用いられているが,テクスチャを適切に転送することはできない。 これらの観測により,パッチベースの手法を提案する。 テクスチャ変換アテンションネットワーク(TTA-Net)は、欠落する領域を細部まで描き込む。 このタスクはシングルリファインメントネットワークであり、エンコーダの細かなテクスチャ特徴をスキップ接続を通じてデコーダの粗いセマンティック特徴に伝達するU-Netアーキテクチャの形式をとる。 テクスチャ変換の注意力は、テクスチャ情報を効率的に転送できる微細なテクスチャと粗いセマンティクスを用いて、新しい再組み立てテクスチャマップを作成するために使用される。 トレーニングプロセスの安定化のために,地上真実のVGG特徴層とパッチ判別器を用いる。 我々は,公開データセット celeba-hq とplaces2 を用いてエンド・ツー・エンドのモデルを評価し,高品質の画像が既存の最先端のアプローチで得られることを示す。

Over the last few years, the performance of inpainting to fill missing regions has shown significant improvements by using deep neural networks. Most of inpainting work create a visually plausible structure and texture, however, due to them often generating a blurry result, final outcomes appear unrealistic and make feel heterogeneity. In order to solve this problem, the existing methods have used a patch based solution with deep neural network, however, these methods also cannot transfer the texture properly. Motivated by these observation, we propose a patch based method. Texture Transform Attention network(TTA-Net) that better produces the missing region inpainting with fine details. The task is a single refinement network and takes the form of U-Net architecture that transfers fine texture features of encoder to coarse semantic features of decoder through skip-connection. Texture Transform Attention is used to create a new reassembled texture map using fine textures and coarse semantics that can efficiently transfer texture information as a result. To stabilize training process, we use a VGG feature layer of ground truth and patch discriminator. We evaluate our model end-to-end with the publicly available datasets CelebA-HQ and Places2 and demonstrate that images of higher quality can be obtained to the existing state-of-the-art approaches.
翻訳日:2021-05-16 21:18:03 公開日:2020-12-08
# GANにおけるトランスファー学習に先立つデータインスタンス

Data Instance Prior for Transfer Learning in GANs ( http://arxiv.org/abs/2012.04256v1 )

ライセンス: Link先を確認
Puneet Mangla, Nupur Kumari, Mayank Singh, Vineeth N Balasubramanian, Balaji Krishnamurthy(参考訳) 近年のGAN(Generative Adversarial Network)の進歩は,高品質な画像の生成において顕著な進歩を見せている。 しかし、このパフォーマンスの向上は、大量のトレーニングデータの可用性に依存する。 限られたデータ体制では、トレーニングは通常は分岐するため、生成されたサンプルは品質が低く、多様性がない。 これまでの研究は、転送学習とデータ拡張技術を活用して、低データセットでのトレーニングに取り組んできた。 多様なソースドメインで訓練された自己教師/教師付き事前学習ネットワークから導かれる情報的データを活用することにより,データ領域におけるGANの新たな転送学習手法を提案する。 我々は,様々なGANアーキテクチャ(BigGAN,SNGAN,StyleGAN2)を用いて,複数の標準視覚データセットを用いて実験を行い,提案手法がターゲット画像の少ない領域に効果的に知識を伝達することを示した。 また,大規模な無条件画像生成と画像編集タスクに先立って,データインスタンスの有用性を示す。

Recent advances in generative adversarial networks (GANs) have shown remarkable progress in generating high-quality images. However, this gain in performance depends on the availability of a large amount of training data. In limited data regimes, training typically diverges, and therefore the generated samples are of low quality and lack diversity. Previous works have addressed training in low data setting by leveraging transfer learning and data augmentation techniques. We propose a novel transfer learning method for GANs in the limited data domain by leveraging informative data prior derived from self-supervised/supervised pre-trained networks trained on a diverse source domain. We perform experiments on several standard vision datasets using various GAN architectures (BigGAN, SNGAN, StyleGAN2) to demonstrate that the proposed method effectively transfers knowledge to domains with few target images, outperforming existing state-of-the-art techniques in terms of image quality and diversity. We also show the utility of data instance prior in large-scale unconditional image generation and image editing tasks.
翻訳日:2021-05-16 21:17:41 公開日:2020-12-08
# 部分校正環境における能動視定位

Active Visual Localization in Partially Calibrated Environments ( http://arxiv.org/abs/2012.04263v1 )

ライセンス: Link先を確認
Yingda Yin, Qingnan Fan, Fei Xia, Qihang Fang, Siyan Dong, Leonidas Guibas, Baoquan Chen(参考訳) 人間は、目立った視覚的な手がかりやランドマークに従えば、地図なしでしっかりと位置決めできる。 この研究では、自律エージェントを同じ能力でエンドウイングすることを目指している。 ロボット工学の分野では、エージェントが部分的に校正された環境に触れると、正確な6自由度カメラ画像がシーンの一部だけを撮影する場合には、そのような能力は非常に難しい。 上記の課題に対処するため、強化学習を用いて知的動作を生成するためのポリシーを探索し、エージェントに与えられた視覚情報を部分的に校正された環境で積極的にローカライズする。 我々の中心となる貢献は、部分観測可能なマルコフ決定プロセスとして、アクティブな視覚的局所化問題を定式化し、それを解くためのDeep Reinforcement Learningに基づくアルゴリズムフレームワークを提案することである。 さらに、合成データと実データの両方からなる屋内シーンデータセットACR-6を提案し、アクティブな視覚的ローカライゼーションのための挑戦的なシナリオをシミュレートする。 ローカライズのための手作りベースラインに対するアルゴリズムのベンチマークを行い,ローカライズ成功率に比較して評価した。

Humans can robustly localize themselves without a map after they get lost following prominent visual cues or landmarks. In this work, we aim at endowing autonomous agents the same ability. Such ability is important in robotics applications yet very challenging when an agent is exposed to partially calibrated environments, where camera images with accurate 6 Degree-of-Freedom pose labels only cover part of the scene. To address the above challenge, we explore using Reinforcement Learning to search for a policy to generate intelligent motions so as to actively localize the agent given visual information in partially calibrated environments. Our core contribution is to formulate the active visual localization problem as a Partially Observable Markov Decision Process and propose an algorithmic framework based on Deep Reinforcement Learning to solve it. We further propose an indoor scene dataset ACR-6, which consists of both synthetic and real data and simulates challenging scenarios for active visual localization. We benchmark our algorithm against handcrafted baselines for localization and demonstrate that our approach significantly outperforms them on localization success rate.
翻訳日:2021-05-16 21:17:24 公開日:2020-12-08
# コンテンツ認識型動的検出器の学習

Learning to Generate Content-Aware Dynamic Detectors ( http://arxiv.org/abs/2012.04265v1 )

ライセンス: Link先を確認
Junyi Feng, Jiashen Hua, Baisheng Lai, Jianqiang Huang, Xi Li, Xian-sheng Hua(参考訳) モデル効率はオブジェクト検出に不可欠である。 最も古い作品は、入力の違いに関わらず、静的なアーキテクチャを得るために手作りのデザインか自動検索メソッドのいずれかに依存している。 本稿では, サンプル適応型モデルアーキテクチャを自動的に生成する効率的な検出器の設計手法を提案する。 提案手法はコンテント対応動的検出器 (CADDet) と呼ばれる。 まず、スーパーネットとして動的ルーティングを備えたマルチスケールの密結合ネットワークを適用する。 さらに,2つの指標を含む動的ルーティングの学習をガイドするために,オブジェクト検出のための詳細なstrat-egyを導入する。 1) 動的グローバル予算制約は,個々のサンプルに対してデータ依存の期待予算を割り当てる; 2) 局所パス類似性の正規化は,より多様なルーティングパスの生成を目標とする。 これにより,優れた性能を維持しつつ高い計算効率を実現することができる。 私たちの知る限りでは、私たちのcaddetはオブジェクト検出に動的ルーティング機構を導入する最初の作業です。 MS-COCOデータセットの実験により、CADDetは、バニラルーティング戦略に比べて10%少ないFLOPで1.8以上のmAPを達成することが示された。 同様のビルディングブロックに基づくモデルと比較すると、CADDetは競争力のあるmAPで42%のFLOP削減を実現している。

Model efficiency is crucial for object detection. Mostprevious works rely on either hand-crafted design or auto-search methods to obtain a static architecture, regardless ofthe difference of inputs. In this paper, we introduce a newperspective of designing efficient detectors, which is automatically generating sample-adaptive model architectureon the fly. The proposed method is named content-aware dynamic detectors (CADDet). It first applies a multi-scale densely connected network with dynamic routing as the supernet. Furthermore, we introduce a course-to-fine strat-egy tailored for object detection to guide the learning of dynamic routing, which contains two metrics: 1) dynamic global budget constraint assigns data-dependent expectedbudgets for individual samples; 2) local path similarity regularization aims to generate more diverse routing paths. With these, our method achieves higher computational efficiency while maintaining good performance. To the best of our knowledge, our CADDet is the first work to introduce dynamic routing mechanism in object detection. Experiments on MS-COCO dataset demonstrate that CADDet achieves 1.8 higher mAP with 10% fewer FLOPs compared with vanilla routing strategy. Compared with the models based upon similar building blocks, CADDet achieves a 42% FLOPs reduction with a competitive mAP.
翻訳日:2021-05-16 21:17:04 公開日:2020-12-08
# StacMR:Scene-Text Aware Cross-Modal Retrieval

StacMR: Scene-Text Aware Cross-Modal Retrieval ( http://arxiv.org/abs/2012.04329v1 )

ライセンス: Link先を確認
Andr\'es Mafla and Rafael Sampaio de Rezende and Llu\'is G\'omez and Diane Larlus and Dimosthenis Karatzas(参考訳) クロスモーダル検索の最近のモデルは、シーングラフやオブジェクトの相互作用から得られる、視覚シーンの豊富な理解の恩恵を受けている。 これにより、画像の視覚的表現とキャプションのテキスト表現との間のマッチングが改善された。 しかし、現在の視覚的表現は重要な側面を見落としている。画像に現れるテキストは、検索に重要な情報を含んでいる可能性がある。 本稿では,まず,画像がシーンテキストインスタンスを含むクロスモーダル検索を可能にする新しいデータセットを提案する。 次に、このデータセットを用いて、視覚シーンからのキャプションとテキストからのテキストの特殊表現を用いた、より優れたシーンテキスト認識クロスモーダル検索手法を含む、シーンテキストを活用するいくつかのアプローチについて述べる。 広範な実験により、クロスモーダル検索のアプローチがシーンテキストの恩恵を受けることを確認し、さらに検討する価値のある興味深い研究課題を強調する。 データセットとコードはhttp://europe.naverlabs.com/stacmrで利用可能

Recent models for cross-modal retrieval have benefited from an increasingly rich understanding of visual scenes, afforded by scene graphs and object interactions to mention a few. This has resulted in an improved matching between the visual representation of an image and the textual representation of its caption. Yet, current visual representations overlook a key aspect: the text appearing in images, which may contain crucial information for retrieval. In this paper, we first propose a new dataset that allows exploration of cross-modal retrieval where images contain scene-text instances. Then, armed with this dataset, we describe several approaches which leverage scene text, including a better scene-text aware cross-modal retrieval method which uses specialized representations for text from the captions and text from the visual scene, and reconcile them in a common embedding space. Extensive experiments confirm that cross-modal retrieval approaches benefit from scene text and highlight interesting research questions worth exploring further. Dataset and code are available at http://europe.naverlabs.com/stacmr
翻訳日:2021-05-16 21:16:09 公開日:2020-12-08
# マスクに注意を向けたワンステージテキストスポッターMango

MANGO: A Mask Attention Guided One-Stage Scene Text Spotter ( http://arxiv.org/abs/2012.04350v1 )

ライセンス: Link先を確認
Liang Qiao, Ying Chen, Zhanzhan Cheng, Yunlu Xu, Yi Niu, Shiliang Pu and Fei Wu(参考訳) 近年,グローバルな最適化と実アプリケーションにおける高い保守性により,エンド・ツー・エンドのテキストスポッティングが注目されている。 ほとんどの方法は、検出部とシーケンス認識部を2段階のテキストスポッティングフレームワークにまとめるために、様々な関心領域(RoI)操作を開発する。 しかし、そのような枠組みでは、認識部は検出された結果に非常に敏感である(\emph{e.g.)。 テキストの輪郭のコンパクトさ)。 本稿では,文字列をRoI操作なしで直接認識できるMANGOという新しいテキストスポッティングフレームワークを提案する。 具体的には、位置認識マスク注意モジュールを開発し、各テキストインスタンスとその文字に対する注意重みを生成する。 画像内の異なるテキストインスタンスを異なるフィーチャーマップチャネルに割り当てることができ、さらにインスタンス機能のバッチとしてグループ化される。 最後に、文字列を生成するために軽量シーケンスデコーダを適用する。 MANGOは本質的に任意の形のテキストスポッティングに適応し、粗い位置情報(\emph{e.g)でエンドツーエンドにトレーニングできる点に注意が必要だ。 長方形のバウンディングボックス)とテキストアノテーションです。 実験結果から,本手法は通常のテキストスポッティングベンチマークと不規則テキストスポッティングベンチマーク,すなわち ICDAR 2013 ICDAR 2015 Total-Text と SCUT-CTW1500 において,競合的かつ新たな技術性能を実現する。

Recently end-to-end scene text spotting has become a popular research topic due to its advantages of global optimization and high maintainability in real applications. Most methods attempt to develop various region of interest (RoI) operations to concatenate the detection part and the sequence recognition part into a two-stage text spotting framework. However, in such framework, the recognition part is highly sensitive to the detected results (\emph{e.g.}, the compactness of text contours). To address this problem, in this paper, we propose a novel Mask AttentioN Guided One-stage text spotting framework named MANGO, in which character sequences can be directly recognized without RoI operation. Concretely, a position-aware mask attention module is developed to generate attention weights on each text instance and its characters. It allows different text instances in an image to be allocated on different feature map channels which are further grouped as a batch of instance features. Finally, a lightweight sequence decoder is applied to generate the character sequences. It is worth noting that MANGO inherently adapts to arbitrary-shaped text spotting and can be trained end-to-end with only coarse position information (\emph{e.g.}, rectangular bounding box) and text annotations. Experimental results show that the proposed method achieves competitive and even new state-of-the-art performance on both regular and irregular text spotting benchmarks, i.e., ICDAR 2013, ICDAR 2015, Total-Text, and SCUT-CTW1500.
翻訳日:2021-05-16 21:15:52 公開日:2020-12-08
# SPU-Net: 自己プロジェクション最適化による粗孔間再構成によるセルフスーパービジョンポイントクラウドアップサンプリング

SPU-Net: Self-Supervised Point Cloud Upsampling by Coarse-to-Fine Reconstruction with Self-Projection Optimization ( http://arxiv.org/abs/2012.04439v1 )

ライセンス: Link先を確認
Xinhai Liu, Xinchen Liu, Zhizhong Han, Yu-Shen Liu(参考訳) 点雲アップサンプリングの課題は、スパースおよび不規則点集合から密度と均一点集合を取得することである。 深層学習モデルでは大きな進歩が見られたが, 教師情報として深部密集点集合が必要であり, 合成ペア学習データのみを訓練でき, 実走査スパースデータ下での訓練には適さない。 しかし、実際にスキャンしたスパースデータから、大規模にペア化されたスパース・デンス・ポイント・セットを訓練することは高価で面倒である。 この問題に対処するために,SPU-Netと呼ばれる自己教師付き点雲アップサンプリングネットワークを提案する。 具体的には,点特徴抽出と点特徴拡張の2つの主成分を含む粗大化再構成フレームワークを提案する。 点特徴抽出では,自己認識モジュールとグラフ畳み込みネットワーク(GCN)を統合し,局所領域内のコンテキスト情報を同時に取得する。 点特徴拡張では,階層的に学習可能な折り畳み戦略を導入し,学習可能な2次元グリッドを用いたアップサンプリングされた点集合を生成する。 さらに,生成した点集合の雑音点をさらに最適化するために,一様および再構成項に付随する新たな自己投射最適化を共同損失として提案し,自己監督点雲のアップサンプリングを容易にする。 本研究では,合成データと実データの両方について様々な実験を行い,最先端の教師付き手法と同等の性能が得られることを示す。

The task of point cloud upsampling aims to acquire dense and uniform point sets from sparse and irregular point sets. Although significant progress has been made with deep learning models, they require ground-truth dense point sets as the supervision information, which can only trained on synthetic paired training data and are not suitable for training under real-scanned sparse data. However, it is expensive and tedious to obtain large scale paired sparse-dense point sets for training from real scanned sparse data. To address this problem, we propose a self-supervised point cloud upsampling network, named SPU-Net, to capture the inherent upsampling patterns of points lying on the underlying object surface. Specifically, we propose a coarse-to-fine reconstruction framework, which contains two main components: point feature extraction and point feature expansion, respectively. In the point feature extraction, we integrate self-attention module with graph convolution network (GCN) to simultaneously capture context information inside and among local regions. In the point feature expansion, we introduce a hierarchically learnable folding strategy to generate the upsampled point sets with learnable 2D grids. Moreover, to further optimize the noisy points in the generated point sets, we propose a novel self-projection optimization associated with uniform and reconstruction terms, as a joint loss, to facilitate the self-supervised point cloud upsampling. We conduct various experiments on both synthetic and real-scanned datasets, and the results demonstrate that we achieve comparable performance to the state-of-the-art supervised methods.
翻訳日:2021-05-16 21:14:35 公開日:2020-12-08
# TAP:テキストVQAとテキストキャプションのためのテキスト認識事前学習

TAP: Text-Aware Pre-training for Text-VQA and Text-Caption ( http://arxiv.org/abs/2012.04638v1 )

ライセンス: Link先を確認
Zhengyuan Yang, Yijuan Lu, Jianfeng Wang, Xi Yin, Dinei Florencio, Lijuan Wang, Cha Zhang, Lei Zhang, Jiebo Luo(参考訳) 本稿では,テキストVQAとテキストキャプションタスクのためのテキスト認識事前学習(TAP)を提案する。 これら2つの課題は,質問応答とキャプション生成のための画像中のシーンテキストの読解と理解をそれぞれ目的とする。 シーンテキストのキャプチャに失敗する従来の視覚言語による事前学習とは対照的に、TAPはシーンテキスト(OCRエンジンから生成される)を事前学習に用いている。 マスク付き言語モデリング(MLM)、画像テキスト(コントラスト)マッチング(ITM)、相対(空間)位置予測(RPP)を含む3つの事前訓練タスクにより、TAPは、テキストワード、ビジュアルオブジェクト、シーンテキストの3つのモード間のより整合した表現を効果的に学習するのに役立つ。 同じダウンストリームタスクデータセットで事前トレーニングされたこのアライメント表現学習のおかげで、tapはすでにtextvqaデータセットの絶対精度を5.4%向上させ、非タップベースラインと比較している。 パフォーマンスをさらに向上するため、140万のシーンテキスト関連画像テキストペアを含むコンセプトキャプションデータセットであるOCR-CCをベースとした大規模データセットを構築した。 このOCR-CCデータセットで事前トレーニングした手法では,TextVQAでは+8.3%,ST-VQAでは+8.6%,TextCapsでは+10.2 CIDErのスコアが得られた。

In this paper, we propose Text-Aware Pre-training (TAP) for Text-VQA and Text-Caption tasks. These two tasks aim at reading and understanding scene text in images for question answering and image caption generation, respectively. In contrast to the conventional vision-language pre-training that fails to capture scene text and its relationship with the visual and text modalities, TAP explicitly incorporates scene text (generated from OCR engines) in pre-training. With three pre-training tasks, including masked language modeling (MLM), image-text (contrastive) matching (ITM), and relative (spatial) position prediction (RPP), TAP effectively helps the model learn a better aligned representation among the three modalities: text word, visual object, and scene text. Due to this aligned representation learning, even pre-trained on the same downstream task dataset, TAP already boosts the absolute accuracy on the TextVQA dataset by +5.4%, compared with a non-TAP baseline. To further improve the performance, we build a large-scale dataset based on the Conceptual Caption dataset, named OCR-CC, which contains 1.4 million scene text-related image-text pairs. Pre-trained on this OCR-CC dataset, our approach outperforms the state of the art by large margins on multiple tasks, i.e., +8.3% accuracy on TextVQA, +8.6% accuracy on ST-VQA, and +10.2 CIDEr score on TextCaps.
翻訳日:2021-05-16 21:13:42 公開日:2020-12-08
# Vid2CAD:ビデオからのマルチビュー制約を用いたCADモデルアライメント

Vid2CAD: CAD Model Alignment using Multi-View Constraints from Videos ( http://arxiv.org/abs/2012.04641v1 )

ライセンス: Link先を確認
Kevis-Kokitsi Maninis, Stefan Popov, Matthias Nie{\ss}ner, Vittorio Ferrari(参考訳) 複数のオブジェクトを含む複雑なシーンの映像シーケンスにCADモデルを整列させる作業に対処する。 提案手法では,任意のビデオの処理が可能で,各オブジェクトに対する9つのDoFポーズを自動的に復元し,共通3次元座標フレームに整列させる。 本手法の中核となる考え方は,個々のフレームからのニューラルネットワーク予測と時間的大域多視点制約最適化の定式化を統合することである。 この統合プロセスはフレーム毎の予測のスケールと深さの曖昧さを解消し、一般的にすべてのポーズパラメータの見積もりを改善する。 また,マルチビュー制約を利用することで,個々のフレームで見えないオブジェクトのオクルージョンを解消し,すべてのオブジェクトを単一のグローバルに一貫したcad表現に再構成する。 私たちが構築した最先端のシングルフレーム手法であるMask2CADと比較して、Scan2CAD(平均精度は11.6%から30.2%)を大幅に改善した。

We address the task of aligning CAD models to a video sequence of a complex scene containing multiple objects. Our method is able to process arbitrary videos and fully automatically recover the 9 DoF pose for each object appearing in it, thus aligning them in a common 3D coordinate frame. The core idea of our method is to integrate neural network predictions from individual frames with a temporally global, multi-view constraint optimization formulation. This integration process resolves the scale and depth ambiguities in the per-frame predictions, and generally improves the estimate of all pose parameters. By leveraging multi-view constraints, our method also resolves occlusions and handles objects that are out of view in individual frames, thus reconstructing all objects into a single globally consistent CAD representation of the scene. In comparison to the state-of-the-art single-frame method Mask2CAD that we build on, we achieve substantial improvements on Scan2CAD (from 11.6% to 30.2% class average accuracy).
翻訳日:2021-05-16 21:13:11 公開日:2020-12-08
# 確率的普遍的摂動の局所的最適検出

Locally optimal detection of stochastic targeted universal adversarial perturbations ( http://arxiv.org/abs/2012.04692v1 )

ライセンス: Link先を確認
Amish Goel, Pierre Moulin(参考訳) 深層学習画像分類器は、入力画像の小さな逆方向の摂動に弱いことが知られている。 本稿では,分類器入力の確率的汎用的対角摂動(UAP)を検出するための局所最適一般化可能性比検定法(LO-GLRT)を導出する。 また,検出器のパラメータを学習するための教師付きトレーニング手法について述べるとともに,一般的な画像分類データセットの他の検出方法と比較して,検出器の性能が向上したことを示す。

Deep learning image classifiers are known to be vulnerable to small adversarial perturbations of input images. In this paper, we derive the locally optimal generalized likelihood ratio test (LO-GLRT) based detector for detecting stochastic targeted universal adversarial perturbations (UAPs) of the classifier inputs. We also describe a supervised training method to learn the detector's parameters, and demonstrate better performance of the detector compared to other detection methods on several popular image classification datasets.
翻訳日:2021-05-16 21:12:53 公開日:2020-12-08
# keyposesを用いた長期動作予測

Long Term Motion Prediction Using Keyposes ( http://arxiv.org/abs/2012.04731v1 )

ライセンス: Link先を確認
Sena Kiciroglu, Wei Wang, Mathieu Salzmann, Pascal Fua(参考訳) 長期的な人間の動き予測は、人間とロボットの相互作用や自律運転など、安全に重要な応用において欠かせない要素である。 我々は、長期予測を達成するためには、人間の動きがいくつかの基本的なポーズによってよく表されるパターンに従うため、瞬時に人間のポーズを予測することは不要であると主張する。 このようなポーズを「キーポス」と呼び、後続のキーポスを線形に補間して近似する複素運動と呼ぶ。 このようなキープレースのシーケンスを学習することで,将来的には最大5秒までの長い動きを予測できることを示す。 特に、私たちの予測は、最先端の手法で得られたものよりもずっとリアルで、動きのダイナミクスを保存できます。 さらに,提案手法は未来のキーを確率論的にモデル化し,推論中にサンプリングによって様々な未来の動きを生成する。

Long term human motion prediction is an essential component in safety-critical applications, such as human-robot interaction and autonomous driving. We argue that, to achieve long term forecasting, predicting human pose at every time instant is unnecessary because human motion follows patterns that are well-represented by a few essential poses in the sequence. We call such poses "keyposes", and approximate complex motions by linearly interpolating between subsequent keyposes. We show that learning the sequence of such keyposes allows us to predict very long term motion, up to 5 seconds in the future. In particular, our predictions are much more realistic and better preserve the motion dynamics than those obtained by the state-of-the-art methods. Furthermore, our approach models the future keyposes probabilistically, which, during inference, lets us generate diverse future motions via sampling.
翻訳日:2021-05-16 21:12:44 公開日:2020-12-08
# 流れに基づく教師なし視覚オドメトリーのためのトランスフォーマガイド幾何学モデル

Transformer Guided Geometry Model for Flow-Based Unsupervised Visual Odometry ( http://arxiv.org/abs/2101.02143v1 )

ライセンス: Link先を確認
Xiangyu Li and Yonghong Hou and Pichao Wang and Zhimin Gao and Mingliang Xu and Wanqing Li(参考訳) 既存の教師なしビジュアルオドメトリー(VO)手法は、ペア画像にマッチするか、長い画像列上の繰り返しニューラルネットワークを使用して時間情報を統合する。 正確でないか、トレーニングに時間がかかるか、あるいは累積的なエラーである。 本稿では,2つのカメラポーズ推定器を用いて,ペア画像からの情報と短い画像列をそれぞれ処理する手法を提案する。 画像シーケンスでは、Transformer-based Auxiliary Pose Estimator (TAPE) と呼ばれる局所時間ウィンドウ上に幾何学モデルを構築するためにTransformer-like構造を採用する。 一方,F2FPE (Flow-to-Flow Pose Estimator) は対画像間の関係を利用する。 2つの推定値は、トレーニングにおける単純かつ効果的な一貫性損失によって制約される。 実証的評価により,提案手法は最先端の教師なし学習ベース手法を高いマージンで上回り,kitti と malaga データセット上で教師付き学習と従来の学習を両立できることを示した。

Existing unsupervised visual odometry (VO) methods either match pairwise images or integrate the temporal information using recurrent neural networks over a long sequence of images. They are either not accurate, time-consuming in training or error accumulative. In this paper, we propose a method consisting of two camera pose estimators that deal with the information from pairwise images and a short sequence of images respectively. For image sequences, a Transformer-like structure is adopted to build a geometry model over a local temporal window, referred to as Transformer-based Auxiliary Pose Estimator (TAPE). Meanwhile, a Flow-to-Flow Pose Estimator (F2FPE) is proposed to exploit the relationship between pairwise images. The two estimators are constrained through a simple yet effective consistency loss in training. Empirical evaluation has shown that the proposed method outperforms the state-of-the-art unsupervised learning-based methods by a large margin and performs comparably to supervised and traditional ones on the KITTI and Malaga dataset.
翻訳日:2021-05-16 21:11:13 公開日:2020-12-08
# 議論のある非コンバージェントオンライン議論の談話解析

Discourse Parsing of Contentious, Non-Convergent Online Discussions ( http://arxiv.org/abs/2012.04585v1 )

ライセンス: Link先を確認
Stepan Zakharov, Omri Hadar, Tovit Hakak, Dina Grossman, Yifat Ben-David Kolikant, Oren Tsur(参考訳) オンライン談話は、しばしば偏極的で非生産的であると見なされる。 いくつかの会話的談話解析フレームワークが利用可能であるが、議論の激しさと偏在性の分析に自然に貢献するわけではない。 対話論のバフティニアン理論に着想を得て,非収束的な議論に適した新しい理論と計算の枠組みを提案する。 我々は、議論の成功の尺度を再定義し、再帰的戦略の階層を反映した新しい談話アノテーションスキーマを開発する。 私たちは、ロジスティック回帰からBERTまで、分類モデルの配列を考えます。 また,liwcカテゴリ,標準組込み,会話系列,非会話的談話マーカーなど,様々な特徴型や表現についても考察した。 タグセット中の31のラベルが与えられた場合、タグ毎に異なるモデルが許される場合、平均Fスコアが0.61、単一モデルで0.526となる。 提案するスキーマに従って議論をアノテートすることで得られる有望な成果は,議論軌跡の早期検出,公開討論のアクティブモデレーション,教師支援ボットなど,多くの下流タスクやアプリケーションへの道を開くものだ。 最後に、議論の多い非コンバージェントオンライン議論のラベル付きデータセットを初めて共有する。

Online discourse is often perceived as polarized and unproductive. While some conversational discourse parsing frameworks are available, they do not naturally lend themselves to the analysis of contentious and polarizing discussions. Inspired by the Bakhtinian theory of Dialogism, we propose a novel theoretical and computational framework, better suited for non-convergent discussions. We redefine the measure of a successful discussion, and develop a novel discourse annotation schema which reflects a hierarchy of discursive strategies. We consider an array of classification models -- from Logistic Regression to BERT. We also consider various feature types and representations, e.g., LIWC categories, standard embeddings, conversational sequences, and non-conversational discourse markers learnt separately. Given the 31 labels in the tagset, an average F-Score of 0.61 is achieved if we allow a different model for each tag, and 0.526 with a single model. The promising results achieved in annotating discussions according to the proposed schema paves the way for a number of downstream tasks and applications such as early detection of discussion trajectories, active moderation of open discussions, and teacher-assistive bots. Finally, we share the first labeled dataset of contentious non-convergent online discussions.
翻訳日:2021-05-16 21:09:42 公開日:2020-12-08
# 雑音ラベル学習における精度指標のロバスト性とそのインスピレーション

Robustness of Accuracy Metric and its Inspirations in Learning with Noisy Labels ( http://arxiv.org/abs/2012.04193v1 )

ライセンス: Link先を確認
Pengfei Chen, Junjie Ye, Guangyong Chen, Jingwei Zhao, Pheng-Ann Heng(参考訳) クラス条件ラベル雑音下でのマルチクラス分類では,精度指標自体が頑健であることが証明される。 我々は、この発見のインスピレーションを、トレーニングと検証の2つの重要な側面で強化し、ノイズラベルによる学習において重要な問題に対処する。 トレーニングでは,十分な数のノイズサンプルに対するトレーニング精度を最大化することで,ほぼ最適な分類器が得られることを示す。 検証のために、ハイパーパラメータチューニングや早期停止といったシナリオにおけるモデル選択のクリティカルな要求に対処するため、ノイズの多い検証セットが信頼できることを証明します。 これまで、ノイズ検証サンプルを用いたモデル選択は理論的に正当化されていない。 理論結果と追加の主張を広範な実験で検証する。 理論結果に動機づけられて,ノイズラベルをトレーニングしたモデルの特徴を提示し,雑音教師・生徒(nts)と呼ばれる枠組みの印象的な性能を示すことにより,雑音検証セットの有用性を検証する。 私たちのコードはリリースされます。

For multi-class classification under class-conditional label noise, we prove that the accuracy metric itself can be robust. We concretize this finding's inspiration in two essential aspects: training and validation, with which we address critical issues in learning with noisy labels. For training, we show that maximizing training accuracy on sufficiently many noisy samples yields an approximately optimal classifier. For validation, we prove that a noisy validation set is reliable, addressing the critical demand of model selection in scenarios like hyperparameter-tuning and early stopping. Previously, model selection using noisy validation samples has not been theoretically justified. We verify our theoretical results and additional claims with extensive experiments. We show characterizations of models trained with noisy labels, motivated by our theoretical results, and verify the utility of a noisy validation set by showing the impressive performance of a framework termed noisy best teacher and student (NTS). Our code is released.
翻訳日:2021-05-16 21:05:37 公開日:2020-12-08
# 部分空間手法による分布外検出と特徴の確率的モデル化

Out-Of-Distribution Detection With Subspace Techniques And Probabilistic Modeling Of Features ( http://arxiv.org/abs/2012.04250v1 )

ライセンス: Link先を確認
Ibrahima Ndiour, Nilesh Ahuja, Omesh Tickoo(参考訳) 本稿では,ディープニューラルネットワーク(DNN)におけるOOD(out-of-distribution)サンプルの検出方法を提案する。 深部特徴量に基づく確率分布のモデル化は,DNNにおけるOODサンプルの検出方法として,効率的かつ安価に実現されている。 しかし、DNNが任意の層で生成した特徴は対応する高次元特徴空間を完全に占有していない。 本研究では,高次元特徴量に対して線形統計次元化手法と非線形多様体学習手法を適用し,特徴量にまたがる真の部分空間を捉える。 このような低次元特徴埋め込みは次元の呪いを和らげ、より効率的で効果的な性能を実現するための特徴ベース手法を強化することができると仮定する。 不確実性推定とOODの文脈において、この低次元部分空間で学習した分布から得られる対数類似度スコアがOOD検出においてより識別可能であることを示す。 また,元の特徴と埋め込み前像の差の$L_2$-normである特徴再構成誤差がOOD検出に極めて有効であること,またログライクなスコアよりも優れた場合があることも示した。 CIFAR10, CIFAR100, SVHNなどの画像データセット上で, 一般的なDNNアーキテクチャを用いてOOD画像を検出することにより, 画像特徴の利点を実証した。

This paper presents a principled approach for detecting out-of-distribution (OOD) samples in deep neural networks (DNN). Modeling probability distributions on deep features has recently emerged as an effective, yet computationally cheap method to detect OOD samples in DNN. However, the features produced by a DNN at any given layer do not fully occupy the corresponding high-dimensional feature space. We apply linear statistical dimensionality reduction techniques and nonlinear manifold-learning techniques on the high-dimensional features in order to capture the true subspace spanned by the features. We hypothesize that such lower-dimensional feature embeddings can mitigate the curse of dimensionality, and enhance any feature-based method for more efficient and effective performance. In the context of uncertainty estimation and OOD, we show that the log-likelihood score obtained from the distributions learnt on this lower-dimensional subspace is more discriminative for OOD detection. We also show that the feature reconstruction error, which is the $L_2$-norm of the difference between the original feature and the pre-image of its embedding, is highly effective for OOD detection and in some cases superior to the log-likelihood scores. The benefits of our approach are demonstrated on image features by detecting OOD images, using popular DNN architectures on commonly used image datasets such as CIFAR10, CIFAR100, and SVHN.
翻訳日:2021-05-16 21:05:07 公開日:2020-12-08
# データ依存ランダム化平滑化

Data Dependent Randomized Smoothing ( http://arxiv.org/abs/2012.04351v1 )

ライセンス: Link先を確認
Motasem Alfarra, Adel Bibi, Philip H. S. Torr, and Bernard Ghanem(参考訳) ランダムスムーシング(Randomized smoothing)は、極めて堅牢なディープニューラルネットワークのトレーニングにおいて、最先端のパフォーマンスを実現する最近の技術である。 分布の平滑化族はしばしば認証に使用される標準の選択と結びつくが、分布のパラメータは常にネットワークが認証されている入力データとは無関係にグローバルハイパーパラメータとして設定される。 本研究では,各入力でガウス分布の分散を最適化できることを示すガウス分布のランダム化平滑化を再検討し,平滑化分類器の構成における認証半径を最大化する。 この新しいアプローチはジェネリックで、パラメータフリーで、実装が容易です。 実際、我々のデータ依存フレームワークは3つのランダム化スムースなアプローチにシームレスに組み込むことができ、一貫した認証精度が向上することを示した。 このフレームワークがこれらのアプローチのトレーニングルーチンで使用される場合、データ依存認証が続くと、cifar10とimagenetの半径0.5の最強ベースラインの認証精度に対して、9%と6%が改善されます。

Randomized smoothing is a recent technique that achieves state-of-art performance in training certifiably robust deep neural networks. While the smoothing family of distributions is often connected to the choice of the norm used for certification, the parameters of the distributions are always set as global hyper parameters independent of the input data on which a network is certified. In this work, we revisit Gaussian randomized smoothing where we show that the variance of the Gaussian distribution can be optimized at each input so as to maximize the certification radius for the construction of the smoothed classifier. This new approach is generic, parameter-free, and easy to implement. In fact, we show that our data dependent framework can be seamlessly incorporated into 3 randomized smoothing approaches, leading to consistent improved certified accuracy. When this framework is used in the training routine of these approaches followed by a data dependent certification, we get 9% and 6% improvement over the certified accuracy of the strongest baseline for a radius of 0.5 on CIFAR10 and ImageNet, respectively.
翻訳日:2021-05-16 21:04:46 公開日:2020-12-08
# 構造化宣言規則集合の学習-深層離散学習への挑戦

Learning Structured Declarative Rule Sets -- A Challenge for Deep Discrete Learning ( http://arxiv.org/abs/2012.04377v1 )

ライセンス: Link先を確認
Johannes F\"urnkranz, Eyke H\"ullermeier, Eneldo Loza Menc\'ia, Michael Rapp(参考訳) おそらく、ディープニューラルネットワークが成功した主な理由は、入力機能の非線形組み合わせを自律的に形成できる能力である。 帰納的規則学習におけるこの能力の類似は、構造化された規則ベースを学習し、入力を結合して新しい補助概念を学習し、その後の規則によって入力として使用することができる。 しかし、そのような能力を持つルール学習アルゴリズムの研究は、まだ初期段階にある。 本稿では、この未解決問題に注目し、特に先進的な発明の述語化と多ラベルルール学習に焦点をあてる。

Arguably the key reason for the success of deep neural networks is their ability to autonomously form non-linear combinations of the input features, which can be used in subsequent layers of the network. The analogon to this capability in inductive rule learning is to learn a structured rule base, where the inputs are combined to learn new auxiliary concepts, which can then be used as inputs by subsequent rules. Yet, research on rule learning algorithms that have such capabilities is still in their infancy, which is - we would argue - one of the key impediments to substantial progress in this field. In this position paper, we want to draw attention to this unsolved problem, with a particular focus on previous work in predicate invention and multi-label rule learning
翻訳日:2021-05-16 21:04:27 公開日:2020-12-08
# モデル、ピクセル、報酬:ビジュアルモデルに基づく強化学習におけるデザイントレードオフの評価

Models, Pixels, and Rewards: Evaluating Design Trade-offs in Visual Model-Based Reinforcement Learning ( http://arxiv.org/abs/2012.04603v1 )

ライセンス: Link先を確認
Mohammad Babaeizadeh, Mohammad Taghi Saffar, Danijar Hafner, Harini Kannan, Chelsea Finn, Sergey Levine, Dumitru Erhan(参考訳) モデルベース強化学習(MBRL)法は,高次元の視覚的観察に直面する場合など,様々なタスクにおいて強いサンプル効率と性能を示した。 これらの手法は,環境力学と相互作用から期待される報酬を予測し,この予測モデルを用いてタスクを計画し実行することを学ぶ。 しかし、MBRL法は基本的な設計選択に違いがあり、これらの設計決定が性能にどのように影響するかについては文献に強いコンセンサスがない。 本稿では,視覚的MBRLアルゴリズムにおける予測モデルの設計決定について検討し,予測モデルを用いた計画手法に着目した。 潜在空間の使用など、しばしば重要と見なされる設計上の決定は、タスクのパフォーマンスにはほとんど影響しないことが分かりました。 この発見の大きな例外は、将来の観測(例えば画像)を予測することは、報酬を予測することよりも、タスクのパフォーマンスを著しく向上させることである。 また,画像予測精度は,報奨予測精度よりも下流タスク性能に強い相関関係があることを実証的に見出した。 この現象が探索とどのように関係しているか、また、標準的なベンチマーク(探索を必要とする)で低スコアモデルの一部が、同じトレーニングデータでトレーニングされた場合の最高のパフォーマンスモデルとどのように機能するかを示す。 同時に、探索がなければ、データに合うモデルは通常、下流のタスクでもパフォーマンスが良くなりますが、驚くべきことに、これらは学習やスクラッチからの探索において、最高のモデルではないことが多いのです。 これらの結果は、パフォーマンスと探索がモデル上で重要かつ潜在的に矛盾する要件をもたらすことを示唆している。

Model-based reinforcement learning (MBRL) methods have shown strong sample efficiency and performance across a variety of tasks, including when faced with high-dimensional visual observations. These methods learn to predict the environment dynamics and expected reward from interaction and use this predictive model to plan and perform the task. However, MBRL methods vary in their fundamental design choices, and there is no strong consensus in the literature on how these design decisions affect performance. In this paper, we study a number of design decisions for the predictive model in visual MBRL algorithms, focusing specifically on methods that use a predictive model for planning. We find that a range of design decisions that are often considered crucial, such as the use of latent spaces, have little effect on task performance. A big exception to this finding is that predicting future observations (i.e., images) leads to significant task performance improvement compared to only predicting rewards. We also empirically find that image prediction accuracy, somewhat surprisingly, correlates more strongly with downstream task performance than reward prediction accuracy. We show how this phenomenon is related to exploration and how some of the lower-scoring models on standard benchmarks (that require exploration) will perform the same as the best-performing models when trained on the same training data. Simultaneously, in the absence of exploration, models that fit the data better usually perform better on the downstream task as well, but surprisingly, these are often not the same models that perform the best when learning and exploring from scratch. These findings suggest that performance and exploration place important and potentially contradictory requirements on the model.
翻訳日:2021-05-16 21:04:14 公開日:2020-12-08
# ディープqネットワークとゲーム理論を用いた多エージェント深層強化学習における暗黙的コーディネーションの解消

Resolving Implicit Coordination in Multi-Agent Deep Reinforcement Learning with Deep Q-Networks & Game Theory ( http://arxiv.org/abs/2012.09136v1 )

ライセンス: Link先を確認
Griffin Adams, Sarguna Janani Padmanabhan, Shivang Shekhar(参考訳) 我々は,多エージェント深層強化学習における暗黙的コーディネーションの2つの大きな課題,非定常性と状態-行動空間の指数的成長を,政策学習のためのディープqネットワークと行動選択のためのnash平衡を組み合わせることで解決する。 Q値プロキシはNash設定のペイオフであり、相互のベストレスポンスは共同アクション選択を定義する。 多重/非ナッシュ平衡が決定論的に解決されるため、コーディネーションは暗黙的である。 ゲームタイプの知識は, Nash-Q よりも高速に収束し, 最適応答のミラー化を仮定する。 具体的には、Friend-or-Foeアルゴリズムは、2つのエージェントのアクションを共同で選択するセットコントローラへの収束の兆候を示す。 これは共同行動に対する分散協調の非常に不安定な性質を奨励した。 Q-関数を状態とアドバンストストリームに分離するデュエルネットワークアーキテクチャや残余ネットワークにインスパイアされた我々は、シングルエージェントとジョイントエージェントの表現を学習し、要素ワイド付加によってそれらをマージする。 これは、残関数を学ぶように再キャストすることでコーディネーションを単純化する。 また, 競争対協調, 非同期対並列学習, 欲と社会的に最適なnash平衡関係の破れ, ノナッシュ均衡の場合の戦略など, キーマドリルとゲーム理論変数について, 高いレベルの比較知見を導き出した。 OpenAI Gym: Predator Prey環境,交互ウェアハウス環境,Synchronization環境の3つのカスタム環境について検討した。 それぞれの環境は、ポジティブな報酬を達成するために、継続的に調整が必要です。

We address two major challenges of implicit coordination in multi-agent deep reinforcement learning: non-stationarity and exponential growth of state-action space, by combining Deep-Q Networks for policy learning with Nash equilibrium for action selection. Q-values proxy as payoffs in Nash settings, and mutual best responses define joint action selection. Coordination is implicit because multiple/no Nash equilibria are resolved deterministically. We demonstrate that knowledge of game type leads to an assumption of mirrored best responses and faster convergence than Nash-Q. Specifically, the Friend-or-Foe algorithm demonstrates signs of convergence to a Set Controller which jointly chooses actions for two agents. This encouraging given the highly unstable nature of decentralized coordination over joint actions. Inspired by the dueling network architecture, which decouples the Q-function into state and advantage streams, as well as residual networks, we learn both a single and joint agent representation, and merge them via element-wise addition. This simplifies coordination by recasting it is as learning a residual function. We also draw high level comparative insights on key MADRL and game theoretic variables: competitive vs. cooperative, asynchronous vs. parallel learning, greedy versus socially optimal Nash equilibria tie breaking, and strategies for the no Nash equilibrium case. We evaluate on 3 custom environments written in Python using OpenAI Gym: a Predator Prey environment, an alternating Warehouse environment, and a Synchronization environment. Each environment requires successively more coordination to achieve positive rewards.
翻訳日:2021-05-16 21:03:09 公開日:2020-12-08
# サイバー自律性: ハッカーの自己修復、自己適応、自動サイバー防衛システムの自動化とその産業、社会、国家安全保障への影響

Cyber Autonomy: Automating the Hacker- Self-healing, self-adaptive, automatic cyber defense systems and their impact to the industry, society and national security ( http://arxiv.org/abs/2012.04405v1 )

ライセンス: Link先を確認
Ryan K L Ko(参考訳) 本稿では,サイバーの自律性に対する緊急性の文脈と,サイバーセキュリティ産業の現在のギャップについて述べる。 完全サイバー自律のための4段階の成熟を提唱する新しい枠組みについて論じる。 また、新たなサイバーセキュリティ自動化技術やツールについてもレビューし、社会への影響、サイバーセキュリティスキルのギャップや短所、国家安全保障について論じる。 我々はまた、国家安全保障と人権と倫理の微妙なバランス、そして自動化に直面した手動浸透テスト産業の潜在的な消滅についても議論する。

This paper sets the context for the urgency for cyber autonomy, and the current gaps of the cyber security industry. A novel framework proposing four phases of maturity for full cyber autonomy will be discussed. The paper also reviews new and emerging cyber security automation techniques and tools, and discusses their impact on society, the perceived cyber security skills gap/shortage and national security. We will also be discussing the delicate balance between national security, human rights and ethics, and the potential demise of the manual penetration testing industry in the face of automation.
翻訳日:2021-05-16 21:01:15 公開日:2020-12-08
# MRIを用いた乳房密度推定のための解釈型ディープラーニング回帰

Interpretable deep learning regression for breast density estimation on MRI ( http://arxiv.org/abs/2012.04336v1 )

ライセンス: Link先を確認
Bas H.M. van der Velden, Max A.A. Ragusi, Markus H.A. Janse, Claudette E. Loo, Kenneth G.A. Gilhuijs(参考訳) 線維腺組織(fgt)と全乳房容積の比である乳房密度は放射線科医やコンピュータアルゴリズムによって定量的に評価できる。 これらのアルゴリズムは、しばしば乳房とFGT体積のセグメンテーションに依存する。 本研究では,MRIの乳房密度を直接評価する手法を提案し,これらの評価を解釈する。 乳腺癌506例の乳腺密度を回帰畳み込みニューラルネットワーク(CNN)を用いて検討した。 cnnの入力は128×128ボクセルの乳房mriのスライスであり、出力は0(脂肪乳房)と1(センス乳房)の間の連続密度値であった。 CNNは350例, 検証は75例, 独立した検査は81例であった。 我々は,CNNが予測密度に達した理由を,Deep SHapley Additive exPlanations (SHAP) を用いて検討した。 テストセットにおけるCNNの予測密度は, 基底真理密度 (N = 81, Spearman's rho = 0.86, P < 0.001) と有意に相関していた。 cnnの予測を検査すると、fgtのボクセルは正のシェープ値、脂肪組織のボクセルは負のシェープ値、非ブレアスト組織のボクセルはゼロに近いシェープ値であることが判明した。 これは、密度の予測は、私たちが期待するfgtと脂肪組織に基づく構造に基づいていることを意味する。 そこで本研究では,MRIを用いた乳房密度推定のための解釈可能なディープラーニング回帰法を提案する。

Breast density, which is the ratio between fibroglandular tissue (FGT) and total breast volume, can be assessed qualitatively by radiologists and quantitatively by computer algorithms. These algorithms often rely on segmentation of breast and FGT volume. In this study, we propose a method to directly assess breast density on MRI, and provide interpretations of these assessments. We assessed breast density in 506 patients with breast cancer using a regression convolutional neural network (CNN). The input for the CNN were slices of breast MRI of 128 x 128 voxels, and the output was a continuous density value between 0 (fatty breast) and 1 (dense breast). We used 350 patients to train the CNN, 75 for validation, and 81 for independent testing. We investigated why the CNN came to its predicted density using Deep SHapley Additive exPlanations (SHAP). The density predicted by the CNN on the testing set was significantly correlated with the ground truth densities (N = 81 patients, Spearman's rho = 0.86, P < 0.001). When inspecting what the CNN based its predictions on, we found that voxels in FGT commonly had positive SHAP-values, voxels in fatty tissue commonly had negative SHAP-values, and voxels in non-breast tissue commonly had SHAP-values near zero. This means that the prediction of density is based on the structures we expect it to be based on, namely FGT and fatty tissue. To conclude, we presented an interpretable deep learning regression method for breast density estimation on MRI with promising results.
翻訳日:2021-05-16 20:59:16 公開日:2020-12-08
# 単一画像超解像のための階層的残留注意ネットワーク

Hierarchical Residual Attention Network for Single Image Super-Resolution ( http://arxiv.org/abs/2012.04578v1 )

ライセンス: Link先を確認
Parichehr Behjati, Pau Rodriguez, Armin Mehri, Isabelle Hupont, Carles Fern\'andez Tena, Jordi Gonzalez(参考訳) 畳み込みニューラルネットワークは、単一画像の超解像において最も成功したモデルである。 より深いネットワーク、残差接続、およびアテンション機構は、その性能をさらに改善した。 しかし、これらの戦略はしばしば計算コストを大幅に増加させながら、復元性能を向上させる。 本稿では,残差特徴と注意集約の効率的な手法に基づく新しい軽量超解像モデルを提案する。 残像を効率的に利用するために、これらは階層的に特徴バンクに集約され、ネットワーク出力で後続使用することができる。 並行して、軽量な階層的注意機構は、ネットワークから最も関連する特徴を注意バンクに抽出し、最終的な出力を改善し、ネットワーク内の連続した操作による情報損失を防止する。 そのため、処理を2つの独立した計算経路に分割し、低解像度画像から高解像度画像の細部を再構成する高効率かつ効率的なモデルを作成することができる。 提案アーキテクチャは,比較的少ない計算量とメモリフットプリントを維持しながら,いくつかのデータセットにおける最先端性能を上回る。

Convolutional neural networks are the most successful models in single image super-resolution. Deeper networks, residual connections, and attention mechanisms have further improved their performance. However, these strategies often improve the reconstruction performance at the expense of considerably increasing the computational cost. This paper introduces a new lightweight super-resolution model based on an efficient method for residual feature and attention aggregation. In order to make an efficient use of the residual features, these are hierarchically aggregated into feature banks for posterior usage at the network output. In parallel, a lightweight hierarchical attention mechanism extracts the most relevant features from the network into attention banks for improving the final output and preventing the information loss through the successive operations inside the network. Therefore, the processing is split into two independent paths of computation that can be simultaneously carried out, resulting in a highly efficient and effective model for reconstructing fine details on high-resolution images from their low-resolution counterparts. Our proposed architecture surpasses state-of-the-art performance in several datasets, while maintaining relatively low computation and memory footprint.
翻訳日:2021-05-16 20:58:31 公開日:2020-12-08
# 3dグラフ解剖幾何学統合型膵腫瘤分画・診断・量的管理ネットワーク

3D Graph Anatomy Geometry-Integrated Network for Pancreatic Mass Segmentation, Diagnosis, and Quantitative Patient Management ( http://arxiv.org/abs/2012.04701v1 )

ライセンス: Link先を確認
Tianyi Zhao, Kai Cao, Jiawen Yao, Isabella Nogues, Le Lu, Lingyun Huang, Jing Xiao, Zhaozheng Yin, Ling Zhang(参考訳) 膵疾患分類は10種類の腫瘤(腫瘍または嚢胞)[20,8]を含む。 これまでの研究は、特定のマスタイプにのみセグメンテーションや分類方法の開発に重点を置いていた。 全種類の鑑別診断は臨床的に極めて望ましい [20] が, 自動画像理解法を用いては検討されていない。 膵管腺癌(pdac)と非pdac腫瘤との鑑別に多相ct法を応用した。 画像の外観と3次元有機-質量関係はどちらも重要である。 本稿では,解剖学的構造と意味的検出・分別ネットワークを組み合わせた形状と位置情報を十分に活用し,患者レベルの診断を行うための総合的セグメンテーション・メッシュ分類ネットワーク(smcn)を提案する。 smcnは、膵臓とマスセグメンテーションのタスクを学習し、生のセグメンテーションマスク(すなわちマスク・ツー・メッシュ)に膵臓のプロトタイプを段階的に変形させることで解剖学的対応認識オルガンメッシュモデルを構築する。 グラフベース残差畳み込みネットワーク(Graph-ResNet)は,ノードがメッシュモデルとセグメンテーションネットワークから抽出した特徴ベクトルの情報とを融合させ,患者レベルの差分分類結果を生成する。 Extensive experiments on 661 patients' CT scans (five phases per patient) show that SMCN can improve the mass segmentation and detection accuracy compared to the strong baseline method nnUNet (e.g., for nonPDAC, Dice: 0.611 vs. 0.478; detection rate: 89% vs. 70%), achieve similar sensitivity and specificity in differentiating PDAC and nonPDAC as expert radiologists (i.e., 94% and 90%), and obtain results comparable to a multimodality test [20] that combines clinical, imaging, and molecular testing for clinical management of patients.

The pancreatic disease taxonomy includes ten types of masses (tumors or cysts)[20,8]. Previous work focuses on developing segmentation or classification methods only for certain mass types. Differential diagnosis of all mass types is clinically highly desirable [20] but has not been investigated using an automated image understanding approach. We exploit the feasibility to distinguish pancreatic ductal adenocarcinoma (PDAC) from the nine other nonPDAC masses using multi-phase CT imaging. Both image appearance and the 3D organ-mass geometry relationship are critical. We propose a holistic segmentation-mesh-classification network (SMCN) to provide patient-level diagnosis, by fully utilizing the geometry and location information, which is accomplished by combining the anatomical structure and the semantic detection-by-segmentation network. SMCN learns the pancreas and mass segmentation task and builds an anatomical correspondence-aware organ mesh model by progressively deforming a pancreas prototype on the raw segmentation mask (i.e., mask-to-mesh). A new graph-based residual convolutional network (Graph-ResNet), whose nodes fuse the information of the mesh model and feature vectors extracted from the segmentation network, is developed to produce the patient-level differential classification results. Extensive experiments on 661 patients' CT scans (five phases per patient) show that SMCN can improve the mass segmentation and detection accuracy compared to the strong baseline method nnUNet (e.g., for nonPDAC, Dice: 0.611 vs. 0.478; detection rate: 89% vs. 70%), achieve similar sensitivity and specificity in differentiating PDAC and nonPDAC as expert radiologists (i.e., 94% and 90%), and obtain results comparable to a multimodality test [20] that combines clinical, imaging, and molecular testing for clinical management of patients.
翻訳日:2021-05-16 20:57:52 公開日:2020-12-08
# 逆相関推論による医用画像の条件付き生成

Conditional Generation of Medical Images via Disentangled Adversarial Inference ( http://arxiv.org/abs/2012.04764v1 )

ライセンス: Link先を確認
Mohammad Havaei, Ximeng Mao, Yiping Wang, Qicheng Lao(参考訳) 合成医療画像生成は、データ拡張から機械学習システムのトレーニング、患者のプライバシーの保護に至るまで、多くのアプリケーションを通じて医療を改善する大きな可能性を秘めている。 条件付き逆数生成ネットワーク(cGAN)は画像生成に条件付け因子を使用し,近年大きな成功を収めている。 直感的には、画像内の情報は、1コンディショニングベクトルを介して提示されるコンテンツと、コンディショニングベクトルから欠落している未発見情報であるスタイルという2つの部分に分けられる。 医療画像生成にcGANを使うことの現在の実践は、画像生成に単一の変数(つまりコンテンツ)しか使用せず、生成した画像に対する柔軟性や制御をあまり提供しない。 本研究では,画像そのものから学習する手法,スタイルとコンテンツの絡み合った表現を提案し,その情報を用いて生成過程の制御を行う。 このフレームワークでは、スタイルは完全に教師なしの方法で学習され、コンテンツは教師なし学習(条件付ベクトルを用いた)と教師なし学習(推論機構による)の両方を通して学習される。 コンテンツスタイルの絡み合いを確実にするために、2つの新しい正規化手順を踏む。 まず,グラデーション・リバース・レイヤ(grl)の新たな応用を導入することで,コンテンツとスタイル間の共有情報を最小化し,さらに,コンテンツとスタイル変数の情報をさらに分離する自己教師あり正規化手法を提案する。 一般に、2つの潜在変数モデルがより良い性能を実現し、生成した画像をより制御できることが示される。 また,提案したモデル (DRAI) が, 最適不整合スコアを達成し, 全体的な性能が最良であることを示す。

Synthetic medical image generation has a huge potential for improving healthcare through many applications, from data augmentation for training machine learning systems to preserving patient privacy. Conditional Adversarial Generative Networks (cGANs) use a conditioning factor to generate images and have shown great success in recent years. Intuitively, the information in an image can be divided into two parts: 1) content which is presented through the conditioning vector and 2) style which is the undiscovered information missing from the conditioning vector. Current practices in using cGANs for medical image generation, only use a single variable for image generation (i.e., content) and therefore, do not provide much flexibility nor control over the generated image. In this work we propose a methodology to learn from the image itself, disentangled representations of style and content, and use this information to impose control over the generation process. In this framework, style is learned in a fully unsupervised manner, while content is learned through both supervised learning (using the conditioning vector) and unsupervised learning (with the inference mechanism). We undergo two novel regularization steps to ensure content-style disentanglement. First, we minimize the shared information between content and style by introducing a novel application of the gradient reverse layer (GRL); second, we introduce a self-supervised regularization method to further separate information in the content and style variables. We show that in general, two latent variable models achieve better performance and give more control over the generated image. We also show that our proposed model (DRAI) achieves the best disentanglement score and has the best overall performance.
翻訳日:2021-05-16 20:57:22 公開日:2020-12-08
# SATによるラム問題の解法

A SAT-based Resolution of Lam's Problem ( http://arxiv.org/abs/2012.04715v1 )

ライセンス: Link先を確認
Curtis Bright, Kevin K. H. Cheung, Brett Stevens, Ilias Kotsireas, Vijay Ganesh(参考訳) 1989年、lam、thiel、swiierczによるコンピュータによる探索により、10階の射影平面が存在するかどうかを判定する長年の問題である射影幾何学$\unicode{x2014} からラムの問題を実験的に解いた。 2011年のオリジナル検索と独立検証の両方でそのような射影平面は見つからなかった。 しかし、これらの検索はそれぞれ高度に専門化されたカスタムコードを使用して行われ、存在しない証明書は生成されなかった。 本稿では,問題をブール論理に翻訳し,SAT(SAT)ソルバを用いて第三者が検証可能な非存在証明を生成することにより,Lamの問題を解決する。 我々の研究は、両方の検索で一貫性の問題を発見した。$\unicode{x2014}$highlighting the difficulty of relying special-purpose search code for nonistence results。

In 1989, computer searches by Lam, Thiel, and Swiercz experimentally resolved Lam's problem from projective geometry$\unicode{x2014}$the long-standing problem of determining if a projective plane of order ten exists. Both the original search and an independent verification in 2011 discovered no such projective plane. However, these searches were each performed using highly specialized custom-written code and did not produce nonexistence certificates. In this paper, we resolve Lam's problem by translating the problem into Boolean logic and use satisfiability (SAT) solvers to produce nonexistence certificates that can be verified by a third party. Our work uncovered consistency issues in both previous searches$\unicode{x2014}$highlighting the difficulty of relying on special-purpose search code for nonexistence results.
翻訳日:2021-05-16 20:56:18 公開日:2020-12-08
# 平面波エラストグラフィー:周波数領域の超音波シーア波エラストグラフィー

Plane Wave Elastography: A Frequency-Domain Ultrasound Shear Wave Elastography Approach ( http://arxiv.org/abs/2012.04121v1 )

ライセンス: Link先を確認
Reza Khodayi-mehr, Matthew W. Urban, Michael M. Zavlanos, and Wilkins Aquino(参考訳) 本稿では,新しい超音波シーア波エラストグラフィ(SWE)アプローチであるPWE(Plane Wave Elastography)を提案する。 現在, sweの商業的手法では, 反射・屈折によって形成される複雑な波状パターンを除去するために, 波伝播方向の事前知識に基づく方向フィルタリングが用いられている。 その結果、分解された方向波の集合を別々に解析してせん断係数場を構築し、合成によって結合する。 代わりに、PWEは周波数領域スカラー波動方程式を用いて波動伝播の厳密な表現に依存し、適切な伝播方向を自動的に選択し、同時にせん断係数場を再構成する。 具体的には、等質、等方性、非圧縮性、線形弾性媒体を仮定し、任意の方向に伝播する平面波の線形結合を用いて波動方程式の解を表す。 この閉形式解を考えると、SWE問題を非線形最小二乗最適化問題として定式化し、非常に効率的に解ける。 多くのファントム研究を通して、PWEは事前フィルタリングなしで複雑な波形を処理でき、伝播方向の知識に基づいて事前フィルタリングを必要とする最先端技術と競合することを示した。

In this paper, we propose Plane Wave Elastography (PWE), a novel ultrasound shear wave elastography (SWE) approach. Currently, commercial methods for SWE rely on directional filtering based on the prior knowledge of the wave propagation direction, to remove complicated wave patterns formed due to reflection and refraction. The result is a set of decomposed directional waves that are separately analyzed to construct shear modulus fields that are then combined through compounding. Instead, PWE relies on a rigorous representation of the wave propagation using the frequency-domain scalar wave equation to automatically select appropriate propagation directions and simultaneously reconstruct shear modulus fields. Specifically, assuming a homogeneous, isotropic, incompressible, linear-elastic medium, we represent the solution of the wave equation using a linear combination of plane waves propagating in arbitrary directions. Given this closed-form solution, we formulate the SWE problem as a nonlinear least-squares optimization problem which can be solved very efficiently. Through numerous phantom studies, we show that PWE can handle complicated waveforms without prior filtering and is competitive with state-of-the-art that requires prior filtering based on the knowledge of propagation directions.
翻訳日:2021-05-16 20:52:49 公開日:2020-12-08
# CPU-GPUシステムにおける分散強化学習のアーキテクチャ的意味

The Architectural Implications of Distributed Reinforcement Learning on CPU-GPU Systems ( http://arxiv.org/abs/2012.04210v1 )

ライセンス: Link先を確認
Ahmet Inci, Evgeny Bolotin, Yaosheng Fu, Gal Dalal, Shie Mannor, David Nellans, Diana Marculescu(参考訳) ゲーム、ロボティクス、シミュレートされた環境における人間の能力を超える結果を達成するための深層強化学習(RL)手法により、複雑な現実世界の問題を解決するためにRLトレーニングの継続的なスケーリングが不可欠である。 しかし、CPU-GPUシステムのアーキテクチャ的意味を理解することで、RLトレーニングの性能スケーラビリティと電力効率を向上させることは、未解決の問題である。 本稿では,CPU-GPUシステムにおける分散RLトレーニングの性能と電力効率を,GPUマイクロアーキテクチャの観点からだけでなく,システムレベルの総合的な分析アプローチにもとづいて検討・改善する。 最先端分散rlトレーニングフレームワーク上でのハードウェア利用全体の定量化と,gpuのマイクロアーキテクチャ,アルゴリズム,システムレベルの設計選択によるボトルネックの実証的識別を行う。 我々は、GPUマイクロアーキテクチャ自体が最先端のRLフレームワークではバランスがよく、さらに調査により、環境相互作用を実行するアクターの数と、それらに利用可能なハードウェアリソースの量が、主要なパフォーマンスと電力効率の制限要因であることを明らかにした。 そこで我々は,RLトレーニングのためのスケーラブルで効率的なCPU-GPUシステムを設計する際に,CPUとGPUリソースの最適なバランスを見つける方法を示す。

With deep reinforcement learning (RL) methods achieving results that exceed human capabilities in games, robotics, and simulated environments, continued scaling of RL training is crucial to its deployment in solving complex real-world problems. However, improving the performance scalability and power efficiency of RL training through understanding the architectural implications of CPU-GPU systems remains an open problem. In this work we investigate and improve the performance and power efficiency of distributed RL training on CPU-GPU systems by approaching the problem not solely from the GPU microarchitecture perspective but following a holistic system-level analysis approach. We quantify the overall hardware utilization on a state-of-the-art distributed RL training framework and empirically identify the bottlenecks caused by GPU microarchitectural, algorithmic, and system-level design choices. We show that the GPU microarchitecture itself is well-balanced for state-of-the-art RL frameworks, but further investigation reveals that the number of actors running the environment interactions and the amount of hardware resources available to them are the primary performance and power efficiency limiters. To this end, we introduce a new system design metric, CPU/GPU ratio, and show how to find the optimal balance between CPU and GPU resources when designing scalable and efficient CPU-GPU systems for RL training.
翻訳日:2021-05-16 20:52:27 公開日:2020-12-08
# 専門家の混合によるチャネル利得地図作成

Channel Gain Cartography via Mixture of Experts ( http://arxiv.org/abs/2012.04290v1 )

ライセンス: Link先を確認
Luis M. Lopez-Ramos, Yves Teganya, Baltasar Beferull-Lozano, Seung-Jun Kim(参考訳) 任意の送受信器ペアの位置間のチャネルゲイン(CG)を地理的領域にわたって推定するために,空間分布センサ測定からCGマップを構築することができる。 このようなスペクトルマップを構築するほとんどのアプローチは位置ベースであり、推定関数への入力変数は空間的位置の対である。 このような地図の性能は、センサーが位置を決定する能力に大きく依存しており、位置決めパイロット信号がマルチパスチャネルによって影響を受ける場合、劇的に損なわれる可能性がある。 マップへの入力変数は位置推定の代わりに測位信号から抽出された特徴で構成される。 ロケーションベースとロケーションフリーのアプローチは相補的なメリットがある。 本研究は,cgマップに位置自由機能を適用することとは別に,両者のアプローチを組み合わせる手法をmixing-of-expertsフレームワークで提案するものである。

In order to estimate the channel gain (CG) between the locations of an arbitrary transceiver pair across a geographic area of interest, CG maps can be constructed from spatially distributed sensor measurements. Most approaches to build such spectrum maps are location-based, meaning that the input variable to the estimating function is a pair of spatial locations. The performance of such maps depends critically on the ability of the sensors to determine their positions, which may be drastically impaired if the positioning pilot signals are affected by multi-path channels. An alternative location-free approach was recently proposed for spectrum power maps, where the input variable to the maps consists of features extracted from the positioning signals, instead of location estimates. The location-based and the location-free approaches have complementary merits. In this work, apart from adapting the location-free features for the CG maps, a method that can combine both approaches is proposed in a mixture-of-experts framework.
翻訳日:2021-05-16 20:52:06 公開日:2020-12-08
# DE-RRD:Recommenderシステムのための知識蒸留フレームワーク

DE-RRD: A Knowledge Distillation Framework for Recommender System ( http://arxiv.org/abs/2012.04357v1 )

ライセンス: Link先を確認
SeongKu Kang, Junyoung Hwang, Wonbin Kweon, Hwanjo Yu(参考訳) 近年, 知識蒸留技術は, 複雑なモデル (教師) からコンパクトモデル (学生) に知識を蒸留するモデル圧縮技術であり, 性能を維持しつつ, 推論遅延を低減するために, 知識蒸留を取り入れている。 最先端の手法は,教師モデルの予測を正確に模倣する学習モデルにのみ焦点をあてている。 予測結果が教師の知識を不完全な形で明らかにすることには限界がある。 本稿では,教師モデルにエンコードされた潜在知識や教師の予測から生徒モデルを学ぶことを可能にする,レコメンダシステムのための新しい知識蒸留フレームワークde-rrdを提案する。 具体的には,1)教師モデルから潜伏知識を直接伝達する蒸留専門家(DE)の2つの方法からなる。 deは「専門家」と新しい専門家選択戦略を活用し、教師の膨大な知識を限られた能力で生徒に効果的に蒸留する。 2)緩和ランキング蒸留(rrd)は,各項目間の緩和順位を考慮した教師の予測から明らかになった知識を伝達する。 広範な実験により,de-rrdは最先端のコンペティタよりも優れており,より高速な推論時間で教師モデルと同等あるいはそれ以上のパフォーマンスを達成していることが示された。

Recent recommender systems have started to employ knowledge distillation, which is a model compression technique distilling knowledge from a cumbersome model (teacher) to a compact model (student), to reduce inference latency while maintaining performance. The state-of-the-art methods have only focused on making the student model accurately imitate the predictions of the teacher model. They have a limitation in that the prediction results incompletely reveal the teacher's knowledge. In this paper, we propose a novel knowledge distillation framework for recommender system, called DE-RRD, which enables the student model to learn from the latent knowledge encoded in the teacher model as well as from the teacher's predictions. Concretely, DE-RRD consists of two methods: 1) Distillation Experts (DE) that directly transfers the latent knowledge from the teacher model. DE exploits "experts" and a novel expert selection strategy for effectively distilling the vast teacher's knowledge to the student with limited capacity. 2) Relaxed Ranking Distillation (RRD) that transfers the knowledge revealed from the teacher's prediction with consideration of the relaxed ranking orders among items. Our extensive experiments show that DE-RRD outperforms the state-of-the-art competitors and achieves comparable or even better performance to that of the teacher model with faster inference time.
翻訳日:2021-05-16 20:51:51 公開日:2020-12-08
# NavRep:動的人間環境におけるロボットナビゲーションの強化学習のための教師なし表現

NavRep: Unsupervised Representations for Reinforcement Learning of Robot Navigation in Dynamic Human Environments ( http://arxiv.org/abs/2012.04406v1 )

ライセンス: Link先を確認
Daniel Dugas, Juan Nieto, Roland Siegwart, Jen Jen Chung(参考訳) ロボットナビゲーションは、強化学習アプローチが従来の経路計画と競合することができないタスクである。 State-of-the-artメソッドは小さな方法で異なり、すべて再現可能な公開実装を提供するわけではない。 これにより比較手法が困難になる。 近年の研究では、教師なしの学習方法が驚くほどスケールし、難しい問題を解決するために活用できることが示されている。 本研究では,ロボットナビゲーションの強化学習を支援するために,教師なし学習を用いた手法を設計する。 2つのエンドツーエンドと18の教師なし学習ベースのアーキテクチャをトレーニングし、それらと既存のアプローチを未認識のテストケースで比較します。 実生活型ロボットに対する我々のアプローチを実演する。 その結果,教師なし学習手法はエンドツーエンドの手法と競合することがわかった。 また,入力表現や予測的教師なし学習,潜在機能など,さまざまなコンポーネントの重要性も強調する。 すべてのモデルを公開するとともに、トレーニングやテスト環境、ツールも公開しています。 このリリースには、他の論文が記述したトレーニング条件を可能な限り忠実にエミュレートするように設計されたopenai-gym互換環境も含まれている。 われわれの期待は、ロボットナビゲーションのためのRLの分野を統合し、最先端の手法間で有意義な比較を可能にすることだ。

Robot navigation is a task where reinforcement learning approaches are still unable to compete with traditional path planning. State-of-the-art methods differ in small ways, and do not all provide reproducible, openly available implementations. This makes comparing methods a challenge. Recent research has shown that unsupervised learning methods can scale impressively, and be leveraged to solve difficult problems. In this work, we design ways in which unsupervised learning can be used to assist reinforcement learning for robot navigation. We train two end-to-end, and 18 unsupervised-learning-based architectures, and compare them, along with existing approaches, in unseen test cases. We demonstrate our approach working on a real life robot. Our results show that unsupervised learning methods are competitive with end-to-end methods. We also highlight the importance of various components such as input representation, predictive unsupervised learning, and latent features. We make all our models publicly available, as well as training and testing environments, and tools. This release also includes OpenAI-gym-compatible environments designed to emulate the training conditions described by other papers, with as much fidelity as possible. Our hope is that this helps in bringing together the field of RL for robot navigation, and allows meaningful comparisons across state-of-the-art methods.
翻訳日:2021-05-16 20:51:29 公開日:2020-12-08
# DeepNVM++: ディープラーニングのための非揮発性メモリの層間モデリングと最適化フレームワーク

DeepNVM++: Cross-Layer Modeling and Optimization Framework of Non-Volatile Memories for Deep Learning ( http://arxiv.org/abs/2012.04559v1 )

ライセンス: Link先を確認
Ahmet Inci, Mehmet Meric Isgenc, Diana Marculescu(参考訳) スピントランスファートルク磁気ランダムアクセスメモリ(STT-MRAM)やスピン軌道トルク磁気ランダムアクセスメモリ(SOT-MRAM)のような非揮発性メモリ(NVM)技術は、その非揮発性、セル密度、拡張性などにより従来のSRAMと比較して大きな利点がある。 これまでの研究は、汎用アプリケーションにおけるNVMのアーキテクチャ的意味について検討してきたが、この研究では、テクノロジ固有の回路レベルモデルと様々なDLワークロードの実際のメモリ挙動を組み合わせることで、ディープラーニング(DL)アプリケーションのためのGPUアーキテクチャにおけるNVMベースのキャッシュを特徴づけ、モデル化、分析するフレームワークであるDeepNVM++を紹介した。 我々は,従来のSRAMと新興STT-MRAMおよびSOT-MRAM技術に依存するシステムに対して,アイソキャパシティとアイソア性能とエネルギー分析の両方を提示する。 アイソ容量の場合、STT-MRAMとSOT-MRAMは、従来のSRAMと比較して最大3.8xと4.7xのエネルギー遅延生成物(EDP)と2.4xと2.8xの面積減少を提供する。 STT-MRAMとSOT-MRAMは2倍と2.3倍のEDP削減を提供し、それぞれSRAMと比較して2.3倍と3.3倍のキャッシュ容量を持つ。 また,STT-MRAMとSOT-MRAMは大規模キャッシュ容量のSRAMと比較して,桁違いのEDP削減を実現していることを示す。 我々は,STT/SOT-MRAM技術上での包括的クロスレイヤフレームワークを実証し,DLアプリケーション用GPUにおける最終レベルキャッシュのためのNVM技術のキャラクタリゼーション,モデリング,解析に利用することができる。

Non-volatile memory (NVM) technologies such as spin-transfer torque magnetic random access memory (STT-MRAM) and spin-orbit torque magnetic random access memory (SOT-MRAM) have significant advantages compared to conventional SRAM due to their non-volatility, higher cell density, and scalability features. While previous work has investigated several architectural implications of NVM for generic applications, in this work we present DeepNVM++, a framework to characterize, model, and analyze NVM-based caches in GPU architectures for deep learning (DL) applications by combining technology-specific circuit-level models and the actual memory behavior of various DL workloads. We present both iso-capacity and iso-area performance and energy analysis for systems whose last-level caches rely on conventional SRAM and emerging STT-MRAM and SOT-MRAM technologies. In the iso-capacity case, STT-MRAM and SOT-MRAM provide up to 3.8x and 4.7x energy-delay product (EDP) reduction and 2.4x and 2.8x area reduction compared to conventional SRAM, respectively. Under iso-area assumptions, STT-MRAM and SOT-MRAM provide up to 2x and 2.3x EDP reduction and accommodate 2.3x and 3.3x cache capacity when compared to SRAM, respectively. We also perform a scalability analysis and show that STT-MRAM and SOT-MRAM achieve orders of magnitude EDP reduction when compared to SRAM for large cache capacities. Our comprehensive cross-layer framework is demonstrated on STT-/SOT-MRAM technologies and can be used for the characterization, modeling, and analysis of any NVM technology for last-level caches in GPUs for DL applications.
翻訳日:2021-05-16 20:51:09 公開日:2020-12-08
# 合成データ: より高速でより有向な機械学習手法の開発を可能にするデータフラッドゲートのオープン

Synthetic Data: Opening the data floodgates to enable faster, more directed development of machine learning methods ( http://arxiv.org/abs/2012.04580v1 )

ライセンス: Link先を確認
James Jordon, Alan Wilson and Mihaela van der Schaar(参考訳) 機械学習における画期的な進歩の多くは、大量のリッチデータを利用できることに起因する。 残念ながら、多くの大規模データセットは、医療データなど非常に敏感であり、機械学習コミュニティでは広く利用できない。 プライバシ保証による合成データの生成は、そのようなソリューションのひとつを提供し、マシンラーニングコミュニティ全体が特定の分野の進捗を加速させることで、有意義な調査を"大規模"に実施可能にする。 この記事では、合成データの高レベルなビューを提供する。それは何を意味するのか、どのように評価するか、どのように使用するのか。

Many ground-breaking advancements in machine learning can be attributed to the availability of a large volume of rich data. Unfortunately, many large-scale datasets are highly sensitive, such as healthcare data, and are not widely available to the machine learning community. Generating synthetic data with privacy guarantees provides one such solution, allowing meaningful research to be carried out "at scale" - by allowing the entirety of the machine learning community to potentially accelerate progress within a given field. In this article, we provide a high-level view of synthetic data: what it means, how we might evaluate it and how we might use it.
翻訳日:2021-05-16 20:50:34 公開日:2020-12-08
# 古典的対称性とQAOA

Classical symmetries and QAOA ( http://arxiv.org/abs/2012.04713v1 )

ライセンス: Link先を確認
Ruslan Shaydulin, Stuart Hadfield, Tad Hogg, Ilya Safro(参考訳) 本稿では,量子近似最適化アルゴリズム(QAOA)と最適化対象関数の基本対称性との関係について検討する。 本稿では,QAOA力学の量子対称性特性と目的関数の古典対称性群との関係を定式化する。 接続は一般で包含されるが、グラフ上で定義された問題に限らない。 連結を探索する一連の結果を示し,非自明な対称性部分群を効率的に得ることのできる難題クラスの例を示す。 特に,古典的目的関数対称性が,アルゴリズムパラメータの選択や層数によらず,そのような対称性によって連結された状態間で不変な測定結果の確率をもたらすことを示す。 開発した接続のパワーを説明するために,対称性を考慮したQAOA性能予測に機械学習手法を適用した。 我々は,qaoaパラメータのスケジュールが線形に制約され最適化が容易であるような,maxcut問題の目標近似比を達成するのに必要な最小qaoa深さを予測するために,グラフ対称性の小さな集合が十分であることを示す数値的証拠を提供する。

We study the relationship between the Quantum Approximate Optimization Algorithm (QAOA) and the underlying symmetries of the objective function to be optimized. Our approach formalizes the connection between quantum symmetry properties of the QAOA dynamics and the group of classical symmetries of the objective function. The connection is general and includes but is not limited to problems defined on graphs. We show a series of results exploring the connection and highlight examples of hard problem classes where a nontrivial symmetry subgroup can be obtained efficiently. In particular we show how classical objective function symmetries lead to invariant measurement outcome probabilities across states connected by such symmetries, independent of the choice of algorithm parameters or number of layers. To illustrate the power of the developed connection, we apply machine learning techniques towards predicting QAOA performance based on symmetry considerations. We provide numerical evidence that a small set of graph symmetry properties suffices to predict the minimum QAOA depth required to achieve a target approximation ratio on the MaxCut problem, in a practically important setting where QAOA parameter schedules are constrained to be linear and hence easier to optimize.
翻訳日:2021-05-16 20:50:23 公開日:2020-12-08
# せん断ニューラルネットワーク

Sheaf Neural Networks ( http://arxiv.org/abs/2012.06333v1 )

ライセンス: Link先を確認
Jakob Hansen and Thomas Gebhart(参考訳) 本稿では,このグラフニューラルネットワークのクラスに基づく拡散操作を一般化することにより,グラフ畳み込みネットワークの一般化を提案する。 これらの層ニューラルネットワークは、基盤となるグラフによってパラメータ化された追加の関係構造を符号化するグラフラプラシアンの一般化である層ラプラシアンに基づいている。 層ラプラシアンおよび関連する行列は、グラフ畳み込みネットワークにおける拡散操作の拡張版を提供し、ノード間の関係が非定常で非対称で次元が変化する領域に対して適切な一般化を提供する。 その結果,ノード間の関係が非対称で署名された領域におけるグラフ畳み込みネットワークよりも優れていることを示す。

We present a generalization of graph convolutional networks by generalizing the diffusion operation underlying this class of graph neural networks. These sheaf neural networks are based on the sheaf Laplacian, a generalization of the graph Laplacian that encodes additional relational structure parameterized by the underlying graph. The sheaf Laplacian and associated matrices provide an extended version of the diffusion operation in graph convolutional networks, providing a proper generalization for domains where relations between nodes are non-constant, asymmetric, and varying in dimension. We show that the resulting sheaf neural networks can outperform graph convolutional networks in domains where relations between nodes are asymmetric and signed.
翻訳日:2021-05-16 20:49:36 公開日:2020-12-08
# 生画像デブラリング

Raw Image Deblurring ( http://arxiv.org/abs/2012.04264v1 )

ライセンス: Link先を確認
Chih-Hung Liang, Yu-An Chen, Yueh-Cheng Liu, Winston H. Hsu(参考訳) ディープラーニングベースのブラインドイメージデブラリングは、既存のカーネルはすべて、現実世界のぼかしのモデリングに制限があるため、画像のぼかしを解決する上で重要な役割を果たす。 これまでのところ、研究者は難解な問題に対処し、十分な結果を得るために強力なモデルに焦点を当てている。 この研究のために、新しい側面において、RAW画像から直接画像強化(例えば、デブロアリング)を行う大きな機会を発見し、RAWベースの学習に役立つ新しいニューラルネットワーク構造を調査する。 しかし、私たちの知る限りでは、RAW画像デブロアリングデータセットは利用できない。 そこで我々は,RAW画像と処理されたsRGB画像の両方を含む新しいデータセットを構築し,RAW画像の特徴を生かした新しいモデルを構築した。 RAW画像のみをトレーニングしたデブロアリングモデルは,最先端のパフォーマンスを実現し,処理されたsRGB画像のトレーニングに勝る。 さらに、微調整により、新しいデータセットに基づいてトレーニングされた提案モデルは、他のセンサーに一般化することができる。 さらに,一連の実験により,新たなデータセットの生画像のトレーニングにより,既存のデブラリングモデルも改善できることを実証した。 最終的に,新たに考案した生ベースデブラリング法と新しいデブラル-rawデータセットに基づき,さらなる機会を得るための新たな会場を提案する。

Deep learning-based blind image deblurring plays an essential role in solving image blur since all existing kernels are limited in modeling the real world blur. Thus far, researchers focus on powerful models to handle the deblurring problem and achieve decent results. For this work, in a new aspect, we discover the great opportunity for image enhancement (e.g., deblurring) directly from RAW images and investigate novel neural network structures benefiting RAW-based learning. However, to the best of our knowledge, there is no available RAW image deblurring dataset. Therefore, we built a new dataset containing both RAW images and processed sRGB images and design a new model to utilize the unique characteristics of RAW images. The proposed deblurring model, trained solely from RAW images, achieves the state-of-art performance and outweighs those trained on processed sRGB images. Furthermore, with fine-tuning, the proposed model, trained on our new dataset, can generalize to other sensors. Additionally, by a series of experiments, we demonstrate that existing deblurring models can also be improved by training on the RAW images in our new dataset. Ultimately, we show a new venue for further opportunities based on the devised novel raw-based deblurring method and the brand-new Deblur-RAW dataset.
翻訳日:2021-05-16 20:48:12 公開日:2020-12-08
# 深部エネルギーに基づくNARXモデル

Deep Energy-Based NARX Models ( http://arxiv.org/abs/2012.04136v1 )

ライセンス: Link先を確認
Johannes N. Hendriks, Fredrik K. Gustafsson, Ant\^onio H. Ribeiro, Adrian G. Wills and Thomas B. Sch\"on(参考訳) 本稿では,システム入力出力データに基づく非線形ARXモデルの学習問題について述べる。 特に、過去の入力と出力の有限ウィンドウに基づいて、電流出力の条件分布を学習することに関心がある。 そこで本稿では,データに基づく未知分布の学習のために連合軍で開発された,いわゆるエネルギーベースモデルについて考察する。 このエネルギーベースのモデルは分布を記述する一般的な関数に依存しており、この目的のためにディープニューラルネットワークを考える。 このアプローチの主な利点は、シミュレーションおよび実験データに基づいて、単純かつ非常に複雑なノイズモデルの両方を学ぶことができることである。

This paper is directed towards the problem of learning nonlinear ARX models based on system input--output data. In particular, our interest is in learning a conditional distribution of the current output based on a finite window of past inputs and outputs. To achieve this, we consider the use of so-called energy-based models, which have been developed in allied fields for learning unknown distributions based on data. This energy-based model relies on a general function to describe the distribution, and here we consider a deep neural network for this purpose. The primary benefit of this approach is that it is capable of learning both simple and highly complex noise models, which we demonstrate on simulated and experimental data.
翻訳日:2021-05-16 20:44:17 公開日:2020-12-08
# RC-SSFL:ロバストでコミュニケーション効率の良い半教師付きフェデレーションラーニングシステムを目指して

RC-SSFL: Towards Robust and Communication-efficient Semi-supervised Federated Learning System ( http://arxiv.org/abs/2012.04432v1 )

ライセンス: Link先を確認
Yi Liu, Xingliang Yuan, Ruihui Zhao, Yifeng Zheng, Yefeng Zheng(参考訳) Federated Learning(FL)は、ユーザデータのプライバシを保護しながら、高品質で共有グローバルモデルをトレーニングする、新たな分散人工知能パラダイムである。 しかし、現在のシステムは強固な仮定に大きく依存している: すべてのクライアントは、データにラベル付けされた豊富な基盤真理を持っている。 本稿では,クライアントが協調して,典型的なflの性能に匹敵する高品質モデルを学ぶことが可能な,実用的なロバストで通信効率の高いセミ教師付きfl(rc-ssfl)システム設計を提案する。 この設定では、クライアントはラベルなしのデータしか持たず、サーバは限定された量のラベル付きデータを持っていると仮定する。 さらに、悪意のあるクライアントは、グローバルモデルのパフォーマンスを損なうために毒殺攻撃を仕掛けることができると考えています。 この問題を解決するため、RC-SSFLは最小限の最適化に基づくクライアント選択戦略を採用し、高品質な更新を行うクライアントを選択し、幾何的中央集束を用いてモデル更新を堅牢に集約する。 さらにrc-ssflは新しい対称量子化法を実装し、通信効率を大幅に向上させた。 2つの実世界のデータセットに対する大規模なケーススタディにより、RC-SSFLは中毒攻撃の有無で典型的なFLに匹敵する性能を維持し、通信オーバーヘッドを$2 \times \sim 4 \times $で削減できることが示された。

Federated Learning (FL) is an emerging decentralized artificial intelligence paradigm, which promises to train a shared global model in high-quality while protecting user data privacy. However, the current systems rely heavily on a strong assumption: all clients have a wealth of ground truth labeled data, which may not be always feasible in the real life. In this paper, we present a practical Robust, and Communication-efficient Semi-supervised FL (RC-SSFL) system design that can enable the clients to jointly learn a high-quality model that is comparable to typical FL's performance. In this setting, we assume that the client has only unlabeled data and the server has a limited amount of labeled data. Besides, we consider malicious clients can launch poisoning attacks to harm the performance of the global model. To solve this issue, RC-SSFL employs a minimax optimization-based client selection strategy to select the clients who hold high-quality updates and uses geometric median aggregation to robustly aggregate model updates. Furthermore, RC-SSFL implements a novel symmetric quantization method to greatly improve communication efficiency. Extensive case studies on two real-world datasets demonstrate that RC-SSFL can maintain the performance comparable to typical FL in the presence of poisoning attacks and reduce communication overhead by $2 \times \sim 4 \times $.
翻訳日:2021-05-16 20:43:53 公開日:2020-12-08
# 産業用IoTのための通信効率・攻撃耐性エッジ学習を目指して

Towards Communication-efficient and Attack-Resistant Federated Edge Learning for Industrial Internet of Things ( http://arxiv.org/abs/2012.04436v1 )

ライセンス: Link先を確認
Yi Liu, Ruihui Zhao, Jiawen Kang, Abdulsalam Yassine, Dusit Niyato, Jialiang Peng(参考訳) Federated Edge Learning (FEL)により、エッジノードは、産業用IoT(Industrial Internet of Things)におけるエッジコンピューティングのために、グローバルなディープラーニングモデルを協調的にトレーニングすることができる。 しかし、FELは2つの重要な課題に直面している。 FELは、大規模マルチノードモデルをトレーニングする際に、高価な通信オーバーヘッドに悩まされる。 さらに, FEL の漏えいやラベルフリッピング攻撃に対する脆弱性により, グローバルモデルのトレーニングプロセスは, 敵によって容易に損なわれる。 これらの課題に対処するために、IIoTにおけるエッジコンピューティングのための通信効率とプライバシ強化非同期FELフレームワークを提案する。 まず,エッジノードがグローバルモデルアグリゲーションを待つ時間を削減するために,非同期モデル更新方式を提案する。 第2に,エッジノードの勾配によく設計されたノイズを付加することにより,通信効率を向上し,勾配漏洩攻撃を緩和する非同期局所微分プライバシー機構を提案する。 第3に,ローカルモデルの品質をテストすることにより,悪意のあるノードを検出するクラウドサイドの悪意のあるノード検出機構を設計する。 このようなメカニズムは、ラベルフリップ攻撃を軽減するためにトレーニングに参加する悪意のあるノードを避けることができる。 2つの実世界のデータセットに関する大規模な実験的研究は、提案フレームワークが通信効率を向上するだけでなく、従来のFELフレームワークに匹敵する精度で悪意のある攻撃を軽減できることを示した。

Federated Edge Learning (FEL) allows edge nodes to train a global deep learning model collaboratively for edge computing in the Industrial Internet of Things (IIoT), which significantly promotes the development of Industrial 4.0. However, FEL faces two critical challenges: communication overhead and data privacy. FEL suffers from expensive communication overhead when training large-scale multi-node models. Furthermore, due to the vulnerability of FEL to gradient leakage and label-flipping attacks, the training process of the global model is easily compromised by adversaries. To address these challenges, we propose a communication-efficient and privacy-enhanced asynchronous FEL framework for edge computing in IIoT. First, we introduce an asynchronous model update scheme to reduce the computation time that edge nodes wait for global model aggregation. Second, we propose an asynchronous local differential privacy mechanism, which improves communication efficiency and mitigates gradient leakage attacks by adding well-designed noise to the gradients of edge nodes. Third, we design a cloud-side malicious node detection mechanism to detect malicious nodes by testing the local model quality. Such a mechanism can avoid malicious nodes participating in training to mitigate label-flipping attacks. Extensive experimental studies on two real-world datasets demonstrate that the proposed framework can not only improve communication efficiency but also mitigate malicious attacks while its accuracy is comparable to traditional FEL frameworks.
翻訳日:2021-05-16 20:43:24 公開日:2020-12-08
# 事例2 機械学習による水質パラメータの検索

Retrieval of Case 2 Water Quality Parameters with Machine Learning ( http://arxiv.org/abs/2012.04495v1 )

ライセンス: Link先を確認
Ana B. Ruescas, Gonzalo Mateo-Garcia, Gustau Camps-Valls and Martin Hieronymi(参考訳) case2extremeデータセット(c2x)に複数の機械学習回帰手法を適用して水質パラメータを求める。 使用したデータは,Sentinel-3 OLCIウェーブバンドにおける水中放射伝達シミュレーションに基づいており,高濃度の溶存有機物(CDOM)を吸水するためにのみ適用されている。 回帰アプローチは正規化線形、ランダムフォレスト、カーネルリッジ、ガウス過程、支持ベクトル回帰器である。 検証は独立したシミュレーションデータセットで行われます。 OLCI Neural Network Swarm (ONSS) との比較も行われている。 最適なアプローチはサンプルシーンに適用され、EUMETSAT/ESAによって提供される標準OLCI製品と比較される。

Water quality parameters are derived applying several machine learning regression methods on the Case2eXtreme dataset (C2X). The used data are based on Hydrolight in-water radiative transfer simulations at Sentinel-3 OLCI wavebands, and the application is done exclusively for absorbing waters with high concentrations of coloured dissolved organic matter (CDOM). The regression approaches are: regularized linear, random forest, Kernel ridge, Gaussian process and support vector regressors. The validation is made with and an independent simulation dataset. A comparison with the OLCI Neural Network Swarm (ONSS) is made as well. The best approached is applied to a sample scene and compared with the standard OLCI product delivered by EUMETSAT/ESA
翻訳日:2021-05-16 20:43:02 公開日:2020-12-08
# 生成逆ネットワークを用いたmpd検出器の時間投影室応答のシミュレーション

Simulating the Time Projection Chamber responses at the MPD detector using Generative Adversarial Networks ( http://arxiv.org/abs/2012.04595v1 )

ライセンス: Link先を確認
A. Maevskiy, F. Ratnikov, A. Zinchenko and V. Riabov(参考訳) 高エネルギー物理実験は、多くのタスクにおいて詳細な検出器シミュレーションモデルに大きく依存している。 これらの詳細なモデルを実行するには、実験で利用可能な計算時間の顕著な量が必要となる。 本研究では,ニカ加速器におけるmpd実験の時間投影室トラッカのシミュレーションを高速化する新しい手法を提案する。 本手法は,特定の対象の集団分布を暗黙的に非パラメトリックに推定する深層学習手法であるジェネレーティブ・アドバーサリー・ネットワークに基づいている。 このアプローチにより、荷電粒子軌道のパラメータに基づいて、生検出器応答の分布から学習し、サンプル化することができる。 提案モデルの品質を評価するために,mpdソフトウェアスタックに統合し,少なくとも1桁のスピードアップで,詳細なシミュレータと同様の高品質なイベントを生成することを実証する。

High energy physics experiments rely heavily on the detailed detector simulation models in many tasks. Running these detailed models typically requires a notable amount of the computing time available to the experiments. In this work, we demonstrate a novel approach to speed up the simulation of the Time Projection Chamber tracker of the MPD experiment at the NICA accelerator complex. Our method is based on a Generative Adversarial Network - a deep learning technique allowing for implicit non-parametric estimation of the population distribution for a given set of objects. This approach lets us learn and then sample from the distribution of raw detector responses, conditioned on the parameters of the charged particle tracks. To evaluate the quality of the proposed model, we integrate it into the MPD software stack and demonstrate that it produces high-quality events similar to the detailed simulator, with a speed-up of at least an order of magnitude.
翻訳日:2021-05-16 20:42:38 公開日:2020-12-08
# リカレントニューラルネットワークのための相互情報減衰曲線とハイパーパラメータグリッド探索設計

Mutual Information Decay Curves and Hyper-Parameter Grid Search Design for Recurrent Neural Architectures ( http://arxiv.org/abs/2012.04632v1 )

ライセンス: Link先を確認
Abhijit Mahalunkar and John D. Kelleher(参考訳) 本稿では,リカレントニューラルネットワークに対するハイパーパラメータ最適化のためのグリッド探索の設計手法を提案する。 このアプローチの基盤は、データセット内の長距離依存関係(ldd)を分析するための相互情報の利用である。 また、このアプローチを用いて、DilatedRNNに対して、さまざまなベンチマークデータセットの最先端結果を得る方法を示す一連の実験を報告する。

We present an approach to design the grid searches for hyper-parameter optimization for recurrent neural architectures. The basis for this approach is the use of mutual information to analyze long distance dependencies (LDDs) within a dataset. We also report a set of experiments that demonstrate how using this approach, we obtain state-of-the-art results for DilatedRNNs across a range of benchmark datasets.
翻訳日:2021-05-16 20:42:26 公開日:2020-12-08
# 新型コロナウイルスの診断におけるコンピュータ・オーディションの最近の進歩

Recent Advances in Computer Audition for Diagnosing COVID-19: An Overview ( http://arxiv.org/abs/2012.04650v1 )

ライセンス: Link先を確認
Kun Qian, Bjorn W. Schuller, Yoshiharu Yamamoto(参考訳) コンピュータ・オーディション(CA)は、音声障害(自閉症スペクトラム、うつ病、パーキンソン病など)や体音障害(異常腸音、心室、スノア音など)の医療分野で効果的であることが示されている。 それにもかかわらず、SARS-CoV-2による新型コロナウイルスのパンデミックと戦うためのデータ駆動技術では、CAは過小評価されている。 この光の下では、covid-19スピーチおよび/または音声分析のためのcaの最新の進歩を要約する。 達成されたマイルストーンは励まされるが、まだ確固たる結論は得られていない。 これは、データがまだ少ないため、しばしば十分な検証ができず、呼吸系に影響を及ぼす関連疾患と体系的に比較できないためである。 特にCAベースの方法はSARS-CoV-2のスタンドアロンスクリーニングツールにはならない。 この簡単な概要が優れたガイダンスを提供し、より広い人工知能コミュニティからより多くの注目を集めることを願っています。

Computer audition (CA) has been demonstrated to be efficient in healthcare domains for speech-affecting disorders (e.g., autism spectrum, depression, or Parkinson's disease) and body sound-affecting abnormalities (e. g., abnormal bowel sounds, heart murmurs, or snore sounds). Nevertheless, CA has been underestimated in the considered data-driven technologies for fighting the COVID-19 pandemic caused by the SARS-CoV-2 coronavirus. In this light, summarise the most recent advances in CA for COVID-19 speech and/or sound analysis. While the milestones achieved are encouraging, there are yet not any solid conclusions that can be made. This comes mostly, as data is still sparse, often not sufficiently validated and lacking in systematic comparison with related diseases that affect the respiratory system. In particular, CA-based methods cannot be a standalone screening tool for SARS-CoV-2. We hope this brief overview can provide a good guidance and attract more attention from a broader artificial intelligence community.
翻訳日:2021-05-16 20:42:18 公開日:2020-12-08
# 新型コロナウイルス早期警戒システムにおけるネットワークスキャンの予測

An Expectation-Based Network Scan Statistic for a COVID-19 Early Warning System ( http://arxiv.org/abs/2012.07574v1 )

ライセンス: Link先を確認
Chance Haycock, Edward Thorpe-Woods, James Walsh, Patrick O'Hara, Oscar Giles, Neil Dhir, Theodoros Damoulas(参考訳) 新型コロナウイルス(COVID-19)のパンデミックに対するグレーター・ロンドン・オーソリティ(GLA)の対応のひとつとして、ロンドンのモビリティ、交通、交通活動を捉える複数の大規模および異種データセットが集結し、"ビジネス性"をよりよく理解し、標的とする介入と効果的な政策決定を可能にする。 project odysseusの一環として、早期警戒システムを紹介し、政府のcovid-19ガイドラインに従う人口の程度を理解するために、ネットワークに対する期待に基づくスキャン統計を導入します。 我々は、(道路)ネットワーク上の地理的に固定された時系列データの場合を明示的に扱い、主に首都の広域にわたるダイナミクスの監視に焦点をあてる。 さらに,重要な時空間領域の検出と報告にも焦点をあてた。 我々のアプローチは、ネットワークベーススキャン統計(NBSS)を拡張し、予測ベース(EBP)を作成し、時系列予測に確率的プロセスを用いることで、ESPとNBSSの両方のフレームワークにおける計量の不確実性を定量化することである。 本稿では,活動が期待以上に静かである時空間領域の同定に焦点をあてた EBP モデルで用いられる計量の変種を紹介する。

One of the Greater London Authority's (GLA) response to the COVID-19 pandemic brings together multiple large-scale and heterogeneous datasets capturing mobility, transportation and traffic activity over the city of London to better understand 'busyness' and enable targeted interventions and effective policy-making. As part of Project Odysseus we describe an early-warning system and introduce an expectation-based scan statistic for networks to help the GLA and Transport for London, understand the extent to which populations are following government COVID-19 guidelines. We explicitly treat the case of geographically fixed time-series data located on a (road) network and primarily focus on monitoring the dynamics across large regions of the capital. Additionally, we also focus on the detection and reporting of significant spatio-temporal regions. Our approach is extending the Network Based Scan Statistic (NBSS) by making it expectation-based (EBP) and by using stochastic processes for time-series forecasting, which enables us to quantify metric uncertainty in both the EBP and NBSS frameworks. We introduce a variant of the metric used in the EBP model which focuses on identifying space-time regions in which activity is quieter than expected.
翻訳日:2021-05-16 20:41:16 公開日:2020-12-08
# (参考訳) CRAFT: 力と非作用に関する因果関係のベンチマーク

CRAFT: A Benchmark for Causal Reasoning About Forces and inTeractions ( http://arxiv.org/abs/2012.04293v1 )

ライセンス: CC BY 4.0
Tayfun Ates, Muhammed Samil Atesoglu, Cagatay Yigit, Ilker Kesen, Mert Kobas, Erkut Erdem, Aykut Erdem, Tilbe Goksun, Deniz Yuret(参考訳) 人工知能とディープラーニングの最近の進歩は、人間と機械の推論能力のギャップを研究することへの関心を復活させた。 本研究は,身体力と物体の相互作用に関する因果推論を必要とする新しい視覚的質問応答データセットであるCRAFTを紹介する。 これには10の仮想環境から3Kビデオから生成される38Kビデオと質問ペアが含まれており、互いに対話するオブジェクトの数が異なる。 CRAFTの2つの質問カテゴリには、以前に研究された記述的質問と反事実的質問が含まれる。 また、人間の認知心理学の分野から力力学の理論に触発され、原因、有効化、予防という概念を通じて対象の意図を理解することを含む新しい質問カテゴリーを導入する。 予備的な結果は、これらのタスクが人間にとって非常に直感的であるにもかかわらず、実装されたベースラインは、基礎となる課題に対処できなかったことを示している。

Recent advances in Artificial Intelligence and deep learning have revived the interest in studying the gap between the reasoning capabilities of humans and machines. In this ongoing work, we introduce CRAFT, a new visual question answering dataset that requires causal reasoning about physical forces and object interactions. It contains 38K video and question pairs that are generated from 3K videos from 10 different virtual environments, containing different number of objects in motion that interact with each other. Two question categories from CRAFT include previously studied descriptive and counterfactual questions. Besides, inspired by the theory of force dynamics from the field of human cognitive psychology, we introduce new question categories that involve understanding the intentions of objects through the notions of cause, enable, and prevent. Our preliminary results demonstrate that even though these tasks are very intuitive for humans, the implemented baselines could not cope with the underlying challenges.
翻訳日:2021-05-16 17:49:32 公開日:2020-12-08
# 変分オートエンコーダを用いたオープン知識グラフの結合エンティティと関係正準化

Joint Entity and Relation Canonicalization in Open Knowledge Graphs using Variational Autoencoders ( http://arxiv.org/abs/2012.04780v1 )

ライセンス: Link先を確認
Sarthak Dash, Gaetano Rossiello, Nandana Mihindukulasooriya, Sugato Bagchi, Alfio Gliozzo(参考訳) オープンナレッジグラフの名詞句と関係句は正規化されておらず、冗長で曖昧な主題関係オブジェクトの3重項が爆発する。 まず、名詞句と関係句の両方に埋め込み表現を生成し、次にクラスタリングアルゴリズムを使用して埋め込みを特徴としてグループ化する。 本研究では,変分オートエンコーダ(CUVA)を用いた正規化手法を提案する。これは,組込みとクラスタ割り当ての両方をエンドツーエンドのアプローチで学習するジョイントモデルであり,名詞と関係句のベクトル表現が向上する。 複数のベンチマークによる評価の結果,CUVAは既存の最先端技術よりも優れていた。 さらに,エンティティの正準化システムを評価するための新しいデータセットであるcanonicnellを紹介する。

Noun phrases and relation phrases in open knowledge graphs are not canonicalized, leading to an explosion of redundant and ambiguous subject-relation-object triples. Existing approaches to face this problem take a two-step approach: first, they generate embedding representations for both noun and relation phrases, then a clustering algorithm is used to group them using the embeddings as features. In this work, we propose Canonicalizing Using Variational AutoEncoders (CUVA), a joint model to learn both embeddings and cluster assignments in an end-to-end approach, which leads to a better vector representation for the noun and relation phrases. Our evaluation over multiple benchmarks shows that CUVA outperforms the existing state of the art approaches. Moreover, we introduce CanonicNell a novel dataset to evaluate entity canonicalization systems.
翻訳日:2021-05-16 17:37:19 公開日:2020-12-08
# 訓練事例の影響の効率的な評価

Efficient Estimation of Influence of a Training Instance ( http://arxiv.org/abs/2012.04207v1 )

ライセンス: Link先を確認
Sosuke Kobayashi, Sho Yokoi, Jun Suzuki, Kentaro Inui(参考訳) トレーニングインスタンスがニューラルネットワークモデルに与える影響を理解することで、解釈性が向上する。 しかし,トレーニングインスタンスを使用しない場合,モデルの予測がどのように変化するかを示すため,影響の評価は困難かつ非効率である。 本稿では,その影響を効率的に推定する手法を提案する。 提案手法は,サブネットワークをゼロマスクし,サブネットワークが各トレーニングインスタンスを学習するのを防ぐドロップアウトにインスパイアされている。 ドロップアウトマスクを切り替えることで、トレーニングインスタンスを学習あるいは学習しなかったサブネットワークを使用して、その影響を見積もることができます。 bert と vggnet による分類データセットの実験を通じて,提案手法がトレーニングの影響を捉え,誤り予測の解釈性を高め,一般化を改善するためのトレーニングデータセットをクリーン化できることを実証する。

Understanding the influence of a training instance on a neural network model leads to improving interpretability. However, it is difficult and inefficient to evaluate the influence, which shows how a model's prediction would be changed if a training instance were not used. In this paper, we propose an efficient method for estimating the influence. Our method is inspired by dropout, which zero-masks a sub-network and prevents the sub-network from learning each training instance. By switching between dropout masks, we can use sub-networks that learned or did not learn each training instance and estimate its influence. Through experiments with BERT and VGGNet on classification datasets, we demonstrate that the proposed method can capture training influences, enhance the interpretability of error predictions, and cleanse the training dataset for improving generalization.
翻訳日:2021-05-16 17:37:06 公開日:2020-12-08
# Globetrotter:ビジュアルアライメントからの教師なし多言語翻訳

Globetrotter: Unsupervised Multilingual Translation from Visual Alignment ( http://arxiv.org/abs/2012.04631v1 )

ライセンス: Link先を確認
D\'idac Sur\'is, Dave Epstein, Carl Vondrick(参考訳) 並列コーパスのない多言語機械翻訳は、言語間の明示的な監督がないため難しい。 既存の教師なしメソッドは通常、言語表現の位相的性質に依存する。 我々は、画像をそれらの間の橋渡しとして、代わりに視覚的モダリティを使用して複数の言語をアラインするフレームワークを導入する。 言語と画像のクロスモーダルアライメントを推定し,この推定値を用いて言語間表現の学習を指導する。 私たちの言語表現は、1つのステージを持つ1つのモデルで共同で訓練されます。 提案手法は, 単語の教師なし翻訳や文レベルの翻訳において, ベースラインよりも優れていることを示す。

Multi-language machine translation without parallel corpora is challenging because there is no explicit supervision between languages. Existing unsupervised methods typically rely on topological properties of the language representations. We introduce a framework that instead uses the visual modality to align multiple languages, using images as the bridge between them. We estimate the cross-modal alignment between language and images, and use this estimate to guide the learning of cross-lingual representations. Our language representations are trained jointly in one model with a single stage. Experiments with fifty-two languages show that our method outperforms baselines on unsupervised word-level and sentence-level translation using retrieval.
翻訳日:2021-05-16 17:36:53 公開日:2020-12-08
# VAE-Info-cGAN: 画素レベルと特徴レベルの地理空間条件入力を組み合わせた合成画像の生成

VAE-Info-cGAN: Generating Synthetic Images by Combining Pixel-level and Feature-level Geospatial Conditional Inputs ( http://arxiv.org/abs/2012.04196v1 )

ライセンス: Link先を確認
Xuerong Xiao, Swetava Ganguli, Vipul Pandey(参考訳) コンピュータビジョンの多くの地理空間応用のためのロバストな教師付きディープラーニングモデルのトレーニングは、クラスバランスと多種多様なトレーニングデータの不足のために難しい。 逆に、多くのアプリケーションで十分なトレーニングデータを取得することは金銭的に禁止されるか、特に稀なイベントや極端なイベントをモデル化するアプリケーションでは不可能である。 画像のマルチスケール性を利用した生成モデルを用いてデータ(およびラベル)を合成的に生成することは、ラベル付きデータの不足に対処するための安価なソリューションである。 この目的に向けて,可変オートエンコーダ (vae) と,画素レベル条件 (plc) と巨視的特徴レベル条件 (flc) を同時に条件づけた意味的にリッチな画像を合成する条件情報とを組み合わせた,深い条件付き生成モデルvae-info-cganを提案する。 次元的には、plcは合成画像からチャネル次元だけを変化させることができ、タスク固有の入力となることを意図している。 FLCは生成画像の潜時空間における属性ベクトルとしてモデル化され、ターゲット分布に対する様々な特性特性の寄与を制御する。 選択されたバイナリマクロ的特徴を変化させることで、合成画像を体系的に生成する属性ベクトルの解釈を探索する。 GPSトラジェクトリデータセットを用いた実験により,提案手法は道路網のラスタ表現のみを条件に,異なる地理的位置をまたいだ様々な時空間的集合を正確に生成できることを示した。 VAE-Info-cGANの主な用途は、地理空間分析とリモートセンシングに関連する問題のコンピュータビジョンに基づくモデリングのための、ターゲットデータ拡張のための合成データ(およびラベル)生成である。

Training robust supervised deep learning models for many geospatial applications of computer vision is difficult due to dearth of class-balanced and diverse training data. Conversely, obtaining enough training data for many applications is financially prohibitive or may be infeasible, especially when the application involves modeling rare or extreme events. Synthetically generating data (and labels) using a generative model that can sample from a target distribution and exploit the multi-scale nature of images can be an inexpensive solution to address scarcity of labeled data. Towards this goal, we present a deep conditional generative model, called VAE-Info-cGAN, that combines a Variational Autoencoder (VAE) with a conditional Information Maximizing Generative Adversarial Network (InfoGAN), for synthesizing semantically rich images simultaneously conditioned on a pixel-level condition (PLC) and a macroscopic feature-level condition (FLC). Dimensionally, the PLC can only vary in the channel dimension from the synthesized image and is meant to be a task-specific input. The FLC is modeled as an attribute vector in the latent space of the generated image which controls the contributions of various characteristic attributes germane to the target distribution. An interpretation of the attribute vector to systematically generate synthetic images by varying a chosen binary macroscopic feature is explored. Experiments on a GPS trajectories dataset show that the proposed model can accurately generate various forms of spatio-temporal aggregates across different geographic locations while conditioned only on a raster representation of the road network. The primary intended application of the VAE-Info-cGAN is synthetic data (and label) generation for targeted data augmentation for computer vision-based modeling of problems relevant to geospatial analysis and remote sensing.
翻訳日:2021-05-16 17:36:42 公開日:2020-12-08
# 形式的新奇理論の統一的枠組み:枠組み, 実例, 議論

A Unifying Framework for Formal Theories of Novelty:Framework, Examples and Discussion ( http://arxiv.org/abs/2012.04226v1 )

ライセンス: Link先を確認
T. E. Boult, P. A. Grabowicz, D. S. Prijatelj, R. Stern, L. Holder, J. Alspector, M. Jafarzadeh, T. Ahmad, A. R. Dhamija, C.Li, S. Cruz, A. Shrivastava, C. Vondrick, W. J. Scheirer(参考訳) エージェントがラボからオープンワールドに移動するとき、新規、未知、または分散しない入力を管理することは重要です。 新規性に関連する問題は、通常の入力の新規な摂動に寛容であること、入力が新規なアイテムを含むことを検知すること、新しい入力に適応することである。 これらの分野では重要な研究が行われているが、問題領域を超越する形式化された新規性の定義が欠如していることに顕著なギャップがある。 複数の研究グループと異なるドメインにまたがる研究チームとして、私たちはまず、不明確な新規性問題から生じる困難と、一貫性のない定義と用語を見てきた。 そこで本研究では,ノベルティの形式理論を統一した最初の枠組みを提示し,この枠組みを用いてノベルティの類型を正式に定義する。 私たちのフレームワークは、シンボリックaiから強化学習、さらにはオープンワールドイメージ認識まで、幅広いドメインに適用することができます。 これにより、新たな研究活動の開始を助け、これらの重要なノベルティ関連の問題に対する継続的な取り組みを加速することができる。 AAAI 2021のこの拡張版には、複数のドメインで詳細と例が含まれています。

Managing inputs that are novel, unknown, or out-of-distribution is critical as an agent moves from the lab to the open world. Novelty-related problems include being tolerant to novel perturbations of the normal input, detecting when the input includes novel items, and adapting to novel inputs. While significant research has been undertaken in these areas, a noticeable gap exists in the lack of a formalized definition of novelty that transcends problem domains. As a team of researchers spanning multiple research groups and different domains, we have seen, first hand, the difficulties that arise from ill-specified novelty problems, as well as inconsistent definitions and terminology. Therefore, we present the first unified framework for formal theories of novelty and use the framework to formally define a family of novelty types. Our framework can be applied across a wide range of domains, from symbolic AI to reinforcement learning, and beyond to open world image recognition. Thus, it can be used to help kick-start new research efforts and accelerate ongoing work on these important novelty-related problems. This extended version of our AAAI 2021 paper included more details and examples in multiple domains.
翻訳日:2021-05-16 17:36:11 公開日:2020-12-08
# 雑音ラベル克服のための二相学習

Two-Phase Learning for Overcoming Noisy Labels ( http://arxiv.org/abs/2012.04337v1 )

ライセンス: Link先を確認
Hwanjun Song, Minseok Kim, Dongmin Park, Jae-Gil Lee(参考訳) ノイズラベルに関連する課題に対処するためには、深層ニューラルネットワークの学習戦略をトレーニングプロセス中の学習期間を通じて区別する必要がある。 そこで本研究では,ネットワークが偽ラベルサンプルを高速に記憶し始めた時点で,学習フェーズを自動移行する2相学習手法であるMORPHを提案する。 第1フェーズでは、morphは遷移点の前にすべてのトレーニングサンプルのネットワークを更新し始める。 教師がいなければ、学習フェーズは、推定された最良の遷移点に基づいて次のフェーズに変換される。 その後、MORPHは最大安全なセットのためにのみネットワークのトレーニングを再開し、各エポックにおけるほぼ確実に真のラベル付きサンプルの収集を維持する。 2相学習のため、morphはどんな種類のラベルノイズに対してもノイズフリーなトレーニングを実現している。 さらに、6つのデータセットを用いた広範な実験により、MORPHがテストエラーとトレーニング時間で5つの最先端手法を著しく上回っていることが確認された。

To counter the challenge associated with noise labels, the learning strategy of deep neural networks must be differentiated over the learning period during the training process. Therefore, we propose a novel two-phase learning method, MORPH, which automatically transitions its learning phase at the point when the network begins to rapidly memorize false-labeled samples. In the first phase, MORPH starts to update the network for all the training samples before the transition point. Without any supervision, the learning phase is converted to the next phase on the basis of the estimated best transition point. Subsequently, MORPH resumes the training of the network only for a maximal safe set, which maintains the collection of almost certainly true-labeled samples at each epoch. Owing to its two-phase learning, MORPH realizes noise-free training for any type of label noise for practical use. Moreover, extensive experiments using six datasets verify that MORPH significantly outperforms five state-of-the art methods in terms of test error and training time.
翻訳日:2021-05-16 17:35:34 公開日:2020-12-08
# モデルをキャスティングする: ローカライズへの学習が自己監督表現を改善する

CASTing Your Model: Learning to Localize Improves Self-Supervised Representations ( http://arxiv.org/abs/2012.04630v1 )

ライセンス: Link先を確認
Ramprasaath R. Selvaraju, Karan Desai, Justin Johnson, Nikhil Naik(参考訳) 自己教師付き学習(SSL)の最近の進歩は、教師付きImageNet事前学習とのギャップを大きく埋めている。 彼らの成功にもかかわらず、これらの手法は主にラベルのないImageNet画像に適用され、未修正画像のより大きなセットで訓練された場合、限界的な利得を示す。 我々は、現在のSSLメソッドは、象徴的なイメージに最適であり、多くのオブジェクトを持つ複雑なシーンイメージに苦戦していると仮定する。 対照的なSSL手法を解析すると、視覚的接地が乏しく、シーンイメージで訓練すると監視信号が弱いことが分かる。 これらの制限を克服するために、コントラスト注意監督チューニング(CAST)を提案する。 CASTは、教師なしサリエンシマップを使用して作物をインテリジェントにサンプリングし、グラッド-CAMの注意喪失による接地監視を提供する。 COCOの実験では、CASTはシーンイメージ上のSSLメソッドによって得られた機能を著しく改善し、さらに実験により、CASTが学習したモデルは背景の変化に対してより堅牢であることが示されている。

Recent advances in self-supervised learning (SSL) have largely closed the gap with supervised ImageNet pretraining. Despite their success these methods have been primarily applied to unlabeled ImageNet images, and show marginal gains when trained on larger sets of uncurated images. We hypothesize that current SSL methods perform best on iconic images, and struggle on complex scene images with many objects. Analyzing contrastive SSL methods shows that they have poor visual grounding and receive poor supervisory signal when trained on scene images. We propose Contrastive Attention-Supervised Tuning(CAST) to overcome these limitations. CAST uses unsupervised saliency maps to intelligently sample crops, and to provide grounding supervision via a Grad-CAM attention loss. Experiments on COCO show that CAST significantly improves the features learned by SSL methods on scene images, and further experiments show that CAST-trained models are more robust to changes in backgrounds.
翻訳日:2021-05-16 17:35:18 公開日:2020-12-08
# 表現の観点からのフェデレーション学習におけるプライバシー漏洩防止の可能性

Provable Defense against Privacy Leakage in Federated Learning from Representation Perspective ( http://arxiv.org/abs/2012.06043v1 )

ライセンス: Link先を確認
Jingwei Sun, Ang Li, Binghui Wang, Huanrui Yang, Hai Li, Yiran Chen(参考訳) フェデレートラーニング(FL)は、プライベートデータを明示的に共有しないことでプライバシーリスクを低減できる人気のある分散ラーニングフレームワークである。 しかし、最近の研究はモデル更新の共有がflを推論攻撃に対して脆弱にすることを示した。 本研究では,FLにおけるプライバシー漏洩の根本原因として,勾配からのデータ表現リークが重要であることを示す。 また,この観測結果の分析を行い,データの漏洩状況について述べる。 本研究では,FLにおけるモデル反転攻撃に対する防御法を提案する。 我々の防御の重要な考え方は、再構成されたデータの品質が著しく低下し、fl性能が維持されるようにデータ表現を摂動させることである。 また,FedAvgの防衛を施した後,FLの堅牢性保証と収束保証をFedAvgに導いた。 我々は,dlg攻撃およびgs攻撃に対する防御のためのmnistおよびcifar10の実験を行う。 精度を犠牲にすることなく,本提案手法はベースライン防御法と比較して,dlg攻撃とgs攻撃の両方において,復元データと生データの平均二乗誤差を最大160倍高めることができることを示した。 FLシステムのプライバシーは大幅に改善されている。

Federated learning (FL) is a popular distributed learning framework that can reduce privacy risks by not explicitly sharing private data. However, recent works demonstrated that sharing model updates makes FL vulnerable to inference attacks. In this work, we show our key observation that the data representation leakage from gradients is the essential cause of privacy leakage in FL. We also provide an analysis of this observation to explain how the data presentation is leaked. Based on this observation, we propose a defense against model inversion attack in FL. The key idea of our defense is learning to perturb data representation such that the quality of the reconstructed data is severely degraded, while FL performance is maintained. In addition, we derive certified robustness guarantee to FL and convergence guarantee to FedAvg, after applying our defense. To evaluate our defense, we conduct experiments on MNIST and CIFAR10 for defending against the DLG attack and GS attack. Without sacrificing accuracy, the results demonstrate that our proposed defense can increase the mean squared error between the reconstructed data and the raw data by as much as more than 160X for both DLG attack and GS attack, compared with baseline defense methods. The privacy of the FL system is significantly improved.
翻訳日:2021-05-16 17:35:04 公開日:2020-12-08