このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210411となっている論文です。

PDF登録状況(公開日: 20210411)

TitleAuthorsAbstract論文公表日・翻訳日
# 量子絡み合いによる冷間原子センサーの改良:展望と課題

Improving cold-atom sensors with quantum entanglement: Prospects and challenges ( http://arxiv.org/abs/2010.09168v3 )

ライセンス: Link先を確認
Stuart S. Szigeti and Onur Hosten and Simon A. Haine(参考訳) 量子エンタングルメントはコールド原子実験で生成・検証され、ショットノイズ限界以下の原子干渉測定に用いられる。 しかし、現在の最先端の冷間原子デバイスは分離可能な(非絡み合いの)原子状態を利用する。 現在の最先端デバイスでは実現不可能な新しいセンシング能力を提供するという意味で、絡み合いはコールドアトムセンサーを効果的に改善できるのだろうか? 我々は、精密なコールドアトムセンシングの現状、時計と慣性センサーに焦点を当てた、これらのデバイスに絡み合う潜在的なメリット、これらのメリットを実現するために克服すべき課題について、簡単にレビューする。 本研究では,コールドアトム系におけるメトロロジカルな絡み合いの発生方法を示し,その相対的強みと弱みに注目し,その近距離量子エンハンスドコールドアトムセンシングの展望について検討した。

Quantum entanglement has been generated and verified in cold-atom experiments and used to make atom-interferometric measurements below the shot-noise limit. However, current state-of-the-art cold-atom devices exploit separable (i.e. unentangled) atomic states. This Perspective piece asks the question: can entanglement usefully improve cold-atom sensors, in the sense that it gives new sensing capabilities unachievable with current state-of-the-art devices? We briefly review the state-of-the-art in precision cold-atom sensing, focussing on clocks and inertial sensors, identifying the potential benefits entanglement could bring to these devices, and the challenges that need to be overcome to realize these benefits. We survey demonstrated methods of generating metrologically-useful entanglement in cold-atom systems, note their relative strengths and weaknesses, and assess their prospects for near-to-medium term quantum-enhanced cold-atom sensing.
翻訳日:2023-04-28 08:16:29 公開日:2021-04-11
# 単一光子流における多光子干渉による人工光コヒーレント状態

Artificial coherent states of light by multi-photon interference in a single-photon stream ( http://arxiv.org/abs/2010.15471v2 )

ライセンス: Link先を確認
P. Steindl, H. Snijders, G. Westra, E. Hissink, K. Iakovlev, S. Polla, J. A. Frey, J. Norman, A. C. Gossard, J. E. Bowers, D. Bouwmeester, W. L\"offler(参考訳) コヒーレント光学状態は異なる光子数(フォック)状態の量子重ね合わせからなるが、それらは直交基底を形成しないため、線形光学によって光子数状態を得ることはできない。 ここでは、光サニャックループにおける量子干渉を用いてランダムな連続した単一光子流を演算することにより、近似弱コヒーレント状態を含む可変光子統計を持つ光の量子状態を生成する。 我々は、光マイクロキャビティにおいて半導体量子ドットによって生成された真の単一光子ストリームを用いてこれを実験的に証明し、少なくとも3光子の量子干渉によってのみ説明できる理論に従って、$g^{(2)}(0)\rightarrow1$の光が得られることを示す。 しかし、生成された人工光状態はコヒーレント状態よりもはるかに複雑であり、光子の量子エンタングルメントを含み、多光子エンタングルメントの資源となっている。

Coherent optical states consist of a quantum superposition of different photon number (Fock) states, but because they do not form an orthogonal basis, no photon number states can be obtained from it by linear optics. Here we demonstrate the reverse, by manipulating a random continuous single-photon stream using quantum interference in an optical Sagnac loop, we create engineered quantum states of light with tunable photon statistics, including approximate weak coherent states. We demonstrate this experimentally using a true single-photon stream produced by a semiconductor quantum dot in an optical microcavity, and show that we can obtain light with $g^{(2)}(0)\rightarrow1$ in agreement with our theory, which can only be explained by quantum interference of at least 3 photons. The produced artificial light states are, however, much more complex than coherent states, containing quantum entanglement of photons, making them a resource for multi-photon entanglement.
翻訳日:2023-04-27 00:57:39 公開日:2021-04-11
# 交絡系を用いた量子計測の完全判別

Perfect discrimination of quantum measurements using entangled systems ( http://arxiv.org/abs/2012.07069v2 )

ライセンス: Link先を確認
Chandan Datta, Tanmoy Biswas, Debashis Saha, and Remigiusz Augusiak(参考訳) 物理過程の解消は量子物理学の基本的な問題の一つである。 量子合成と量子チャネルの識別性は十分に研究されているが、量子測定の識別性はほとんど解明されていない。 一つの量子系に基づく1つの戦略と、絡み合った量子系に基づくもう1つの戦略を用いて、量子測定の単一ショット識別の問題を調べる。 まず、両方のシナリオを正式に定義します。 次に、任意の有限次元で(非射影を含む)測度の集合を構築し、量子交絡を用いて第2のシナリオ内で完全に区別できるが、一方は単一量子系に基づいていない。 さらに, 単一系に対する判別処理の利点は, Einstein-Podolsky-Rosen 'quantum steering' の実証であることを示す。 また,すべての純粋2量子ビット絡み合い状態が1量子ビットシステムに対する測定識別タスクにおいて有利であることを証明した。

Distinguishing physical processes is one of the fundamental problems in quantum physics. Although distinguishability of quantum preparations and quantum channels have been studied considerably, distinguishability of quantum measurements remains largely unexplored. We investigate the problem of single-shot discrimination of quantum measurements using two strategies, one based on single quantum systems and the other one based on entangled quantum systems. First, we formally define both scenarios. We then construct sets of measurements (including non-projective) in arbitrary finite dimensions that are perfectly distinguishable within the second scenario using quantum entanglement, while not in the one based on single quantum systems. Furthermore, we show that any advantage in measurement discrimination tasks over single systems is a demonstration of Einstein-Podolsky-Rosen 'quantum steering'. Alongside, we prove that all pure two-qubit entangled states provide an advantage in a measurement discrimination task over one-qubit systems.
翻訳日:2023-04-20 23:22:00 公開日:2021-04-11
# 強化学習による量子多体格子モデルの基底状態

Ground States of Quantum Many Body Lattice Models via Reinforcement Learning ( http://arxiv.org/abs/2012.07063v2 )

ライセンス: Link先を確認
Willem Gispen and Austen Lamacraft(参考訳) 格子上に定義された多体量子力学モデルの基底状態を求める問題に対する強化学習(RL)の定式化を導入する。 記号問題のないハミルトニアン(英語版)は確率力学への自然な分解と報酬関数を表すポテンシャルを持つことを示す。 RL への写像は、前者の一般化されたファインマン・カックの公式と後者のシュリンガー方程式の確率的表現に基づいて、連続時間と離散時間の両方で発展する。 本稿では, 量子状態のニューラル表現へのこのマッピングの適用について論じ, 系の波動関数の直接表現に基づくアプローチに対する優位性について述べる。

We introduce reinforcement learning (RL) formulations of the problem of finding the ground state of a many-body quantum mechanical model defined on a lattice. We show that stoquastic Hamiltonians - those without a sign problem - have a natural decomposition into stochastic dynamics and a potential representing a reward function. The mapping to RL is developed for both continuous and discrete time, based on a generalized Feynman-Kac formula in the former case and a stochastic representation of the Schr\"odinger equation in the latter. We discuss the application of this mapping to the neural representation of quantum states, spelling out the advantages over approaches based on direct representation of the wavefunction of the system.
翻訳日:2023-04-20 23:21:45 公開日:2021-04-11
# 異方性量子ラビモデルにおける多重基底状態不安定性

Multiple ground-state instabilities in the anisotropic quantum Rabi model ( http://arxiv.org/abs/2101.12396v2 )

ライセンス: Link先を確認
Xiang-You Chen, Liwei Duan, Daniel Braak, and Qing-Hu Chen(参考訳) 本研究では, 回転波と反回転波の結合強度が異なる量子ラビモデルの異方性について, ボゴリューボフ作用素法を用いて検討した。 異方性は元のモデルのパリティ対称性を保存する。 対応する$g$-関数が導出され、正規値と例外固有値の両方が得られる。 例外固有値は、異なるパリティを持つ2つのエネルギー準位の交差点に対応し、二重縮退する。 我々は基底状態と第1励起状態が数回交差し、結合強度の関数として複数の一階相転移を示すことを解析的に見出した。 これらの交差点は、隠れ対称性によって引き起こされる非対称量子ラビ模型のレベル交差とは対照的に、ハミルトニアンの明示的パリティ対称性と関係している。

In this work, the anisotropic variant of the quantum Rabi model with different coupling strengths of the rotating and counter-rotating wave terms is studied by the Bogoliubov operator approach. The anisotropy preserves the parity symmetry of the original model. We derive the corresponding $G$-function, which yields both the regular and exceptional eigenvalues. The exceptional eigenvalues correspond to the crossing points of two energy levels with different parities and are doubly degenerate. We find analytically that the ground-state and the first excited state can cross several times, indicating multiple first-order phase transitions as function of the coupling strength. These crossing points are related to manifest parity symmetry of the Hamiltonian, in contrast to the level crossings in the asymmetric quantum Rabi model which are caused by a hidden symmetry.
翻訳日:2023-04-13 09:00:59 公開日:2021-04-11
# 政治広告検出の複雑さを理解する

Understanding the Complexity of Detecting Political Ads ( http://arxiv.org/abs/2103.00822v2 )

ライセンス: Link先を確認
Vera Sosnovik and Oana Goga(参考訳) オンライン政治広告はここ数年で大きく成長している。 オンラインスポンサード政治談話を監視するために、facebook、google、twitterなどの企業が、自社のプラットフォームで実行される政治広告を収集する公開広告ライブラリを開発した。 現在、政策立案者とプラットフォームは、誤用を抑えるための政治広告に関するさらなる規制を議論している。 本稿では、政治広告と非政治広告を確実に区別できるかどうかについて検討する。 われわれは、一般大衆がどんな広告を政治とみなすのか、どんな広告が不一致につながるのかを実証的に分析する。 以上の結果から,広告プラットフォームや一般市民,広告主が政治をどう考えているのかという意見の相違が顕著であり,広告が社会問題に対処する上での意見の相違が主な原因であることが示唆された。 全体として、社会問題広告を政治的と考えることは重要であるが、政治的広告規制も複雑である。

Online political advertising has grown significantly over the last few years. To monitor online sponsored political discourse, companies such as Facebook, Google, and Twitter have created public Ad Libraries collecting the political ads that run on their platforms. Currently, both policymakers and platforms are debating further restrictions on political advertising to deter misuses. This paper investigates whether we can reliably distinguish political ads from non-political ads. We take an empirical approach to analyze what kind of ads are deemed political by ordinary people and what kind of ads lead to disagreement. Our results show a significant disagreement between what ad platforms, ordinary people, and advertisers consider political and suggest that this disagreement mainly comes from diverging opinions on which ads address social issues. Overall our results imply that it is important to consider social issue ads as political, but they also complicate political advertising regulations.
翻訳日:2023-04-09 14:50:35 公開日:2021-04-11
# 量子パワーフロー

Quantum Power Flow ( http://arxiv.org/abs/2104.04888v1 )

ライセンス: Link先を確認
Fei Feng, Yifan Zhou, Peng Zhang(参考訳) この手紙は、量子コンピューティングを利用した様々な前例のない効率的な電力系統分析の基盤となる量子パワーフロー(QPF)アルゴリズムの概念実証である。 私たちの貢献は3倍です。 1) エルミート行列及び定数ヤコビ行列に付与された量子状態に基づく高速デカップリングモデルを確立する。 2) 高速疎結合QPFを解くためにHHLアルゴリズムを改良した。 3) 量子位相推定と相互回転を初期段階でのみパラメータ化することによりHHL効率をさらに向上する。 QPFの精度と有効性を検証し、量子コンピューティングの時代におけるQPFの巨大なポテンシャルを実証する。

This letter is a proof of concept for quantum power flow (QPF) algorithms which underpin various unprecedentedly efficient power system analytics exploiting quantum computing. Our contributions are three-fold: 1) Establish a quantum-state-based fast decoupled model empowered by Hermitian and constant Jacobian matrices; 2) Devise an enhanced Harrow-Hassidim-Lloyd (HHL) algorithm to solve the fast decoupled QPF; 3) Further improve the HHL efficiency by parameterizing quantum phase estimation and reciprocal rotation only at the beginning stage. Promising test results validate the accuracy and efficacy of QPF and demonstrate QPF's enormous potential in the era of quantum computing.
翻訳日:2023-04-04 03:52:52 公開日:2021-04-11
# カルダングリルによるvoynich msの次のレベルへのアプローチ

The Cardan grille approach to the Voynich MS taken to the next level ( http://arxiv.org/abs/2104.12548v1 )

ライセンス: Link先を確認
Ren\'e Zandbergen(参考訳) ヴォイニヒMSは15世紀の写本で、その写本は未知のアルファベットで書かれており、今日まで翻訳されていない。 2004年、ゴードン・ラグ(Gordon Rugg)は論文の中で、この文章は無意味である可能性があり、いわゆるカルダン・グリル(Cardan Grille)の代替の応用、すなわち、ボール紙の破片を大きなテーブルに穴を開けて書き留めることで構成できる、と提案した。 この論文は、ヴォイニヒmsテキストに興味を持つ人々のサークルでかなりの議論を巻き起こしたが、今日まで多くのフォロワーは見つからなかった。 本稿では,本手法の力学を詳細に検討する。 これに基づいてより汎用的なメソッドが提案されており、セットアップも実行も比較的簡単である。 双項に非常に近いvoynich msの異常な単語長分布は,そのような手法の適用の結果である可能性が示唆された。 さらに、この手法は意味のないテキストを作成するだけでなく、意味のあるテキストをエンコードするためにも使用できると論じている。 最初のハイレベル分析では、そのようなメソッドが実際にvoynich msテキストの作成に応用されたかどうかを確認するが、これは決定的ではない。 本論文の主な目的は、Voynich MSテキストのさらなる研究を、まだ詳細な研究が行われていない新しい方向へと刺激することである。

The Voynich MS is an illustrated 15th century manuscript, whose text is written in an unknown alphabet, which has not been translated until today. In 2004 Gordon Rugg published a paper in which he proposed that this text is likely to be meaningless, and could have been composed by an alternative application of a so-called Cardan Grille, namely by moving a piece of cardboard with holes over a large table of word fragments, and writing down the words that thus appear. This paper caused considerable discussion in the circles of people interested in the Voynich MS text, but it has not found many followers, even until today. The present paper takes a closer look at the mechanics of this method. Based on this, a more generic method is proposed, which is considerably simpler, both to set up and to execute. It is shown that the unusual word length distribution of the Voynich MS, which is very close to binomial, could be a consequence of the application of such a method. Furthermore, it is argued that this method could not only be used to create meaningless text, but also to encode meaningful text. A first high-level analysis looks at whether such a method could indeed have been applied to create the Voynich MS text, but this is certainly far from conclusive. The main aim of this paper is to inspire further research of the Voynich MS text into a new direction that has not yet been explored in great detail.
翻訳日:2023-04-04 03:50:50 公開日:2021-04-11
# 量子複雑性の第2法則と絡み合いワームホール

The Second Law of Quantum Complexity and the Entanglement Wormhole ( http://arxiv.org/abs/2104.05027v1 )

ライセンス: Link先を確認
Andrea Russo(参考訳) この作品はケンブリッジ・パートIIIのエッセイ論文である。 量子複雑性は、2つの量子状態の間のフビニ計量の代替尺度として生じる。 2つの状態と許容ゲートの集合が与えられたとき、一方の状態を他方に変換できる最も複雑なユニタリ作用素として定義される。 k-局所ハミルトニアンを通じて進化する k 量子ビットから始まり、量子系と補助古典系の間の類似性を描くことができる。 古典系の計量を定義するために複雑性の定義を用いると、そのエントロピーとK量子ビットの量子複雑性を関連付けることができ、量子複雑性の第二法則を定義することができる。 この法則は、もし既に飽和していない場合、システムの量子複雑性は最大値に向かって圧倒的な確率で増加すると述べている。 AdS/CFT双対性とER=EPR予想の文脈では、アインシュタインローゼン橋の内部の体積の成長は共形場理論の瞬間状態の量子複雑性に比例する。 したがって、2つの絡み合ったCFTを繋ぐワームホールの内部は、境界状態の複雑化の自然な結果として成長する。

This work is originally a Cambridge Part III essay paper. Quantum complexity arises as an alternative measure to the Fubini metric between two quantum states. Given two states and a set of allowed gates, it is defined as the least complex unitary operator capable of transforming one state into the other. Starting with K qubits evolving through a k-local Hamiltonian, it is possible to draw an analogy between the quantum system and an auxiliary classical system. Using the definition of complexity to define a metric for the classical system, it is possible to relate its entropy with the quantum complexity of the K qubits, defining the Second Law of Quantum Complexity. The law states that, if it is not already saturated, the quantum complexity of a system will increase with an overwhelming probability towards its maximum value. In the context of AdS/CFT duality and the ER=EPR conjecture, the growth of the volume of the Einstein Rosen bridge interior is proportional to the quantum complexity of the instantaneous state of the conformal field theory. Therefore, the interior of the wormhole connecting two entangled CFT will grow as a natural consequence of the complexification of the boundary state.
翻訳日:2023-04-04 03:48:37 公開日:2021-04-11
# 多ビット系における人工原子の自然崩壊

Spontaneous decay of artificial atoms in a multi-qubit system ( http://arxiv.org/abs/2104.04927v1 )

ライセンス: Link先を確認
Ya. S. Greenberg, A. A. Shtygashev, and A. G. Moiseev(参考訳) 開導波路に埋め込まれた N の等間隔非相互作用量子ビットの一次元鎖を考える。 単一励起部分空間の枠組みにおいて、鎖内の唯一の量子ビットが当初励起された場合、量子ビット振幅の進化を体系的に研究する。 量子ビット振幅の時間的ダイナミクスは、k が波動ベクトル、d が隣接する量子ビット間の距離である kd の値に決定的に依存することを示した。 kd が$\pi$ の整数倍に等しいなら、量子ビットはsn^{-1} としてスケールする定常レベルに励起される。 この場合、光子放出の出力スペクトルに寄与しないにもかかわらず、量子ビットがゼロに崩壊することを防ぐのは暗黒状態であることを示す。 kdの他の値に対しては、量子ビットの励起はマルチ量子ビット系における真空ラビ振動を表す減衰振動の形を持つ。 この場合、光子放射の出力スペクトルは、最小の幅を持つサブラジアント状態によって定義される。

We consider a one-dimensional chain of N equidistantly spaced noninteracting qubits embedded in an open waveguide. In the frame of single-excitation subspace, we systematically study the evolution of qubits amplitudes if the only qubit in the chain was initially excited. We show that the temporal dynamics of qubits amplitudes crucially depend on the value of kd, where k is the wave vector, d is a distance between neighbor qubits. If kd is equal to an integer multiple of $\pi$, then the qubits are excited to a stationary level which scales as SN^{-1}S. We show that in this case, it is the dark states which prevent qubits from decaying to zero even though they do not contribute to the output spectrum of photon emission. For other values of kd the excitations of qubits have the form of damping oscillations, which represent the vacuum Rabi oscillations in a multi-qubit system. In this case, the output spectrum of photon radiation is defined by a subradiant state with the smallest width.
翻訳日:2023-04-04 03:48:19 公開日:2021-04-11
# 教育におけるアルゴリズムフェアネス

Algorithmic Fairness in Education ( http://arxiv.org/abs/2007.05443v3 )

ライセンス: Link先を確認
Ren\'e F. Kizilcec and Hansol Lee(参考訳) データ駆動予測モデルは、学生、インストラクター、管理者をサポートするために、教育でますます使われている。 しかし、これらのアルゴリズムシステムの予測と利用の公平性には懸念がある。 本稿では, 教育におけるアルゴリズムの公平性について, 教育アクセス, バイアス, および差別に関する先行文献と並行し, アルゴリズムシステム(測定, モデル学習, 行動)の核となる要素を考察し, これらのシステムの開発と展開過程におけるバイアスと差別の源を同定する。 統計的、類似性に基づく、公平性の因果的概念は、彼らが教育的文脈で適用する方法でレビューされ、対比される。 政策立案者や教育技術の開発者に対する勧告は、教育におけるアルゴリズムフェアネスを促進するためのガイダンスを提供する。

Data-driven predictive models are increasingly used in education to support students, instructors, and administrators. However, there are concerns about the fairness of the predictions and uses of these algorithmic systems. In this introduction to algorithmic fairness in education, we draw parallels to prior literature on educational access, bias, and discrimination, and we examine core components of algorithmic systems (measurement, model learning, and action) to identify sources of bias and discrimination in the process of developing and deploying these systems. Statistical, similarity-based, and causal notions of fairness are reviewed and contrasted in the way they apply in educational contexts. Recommendations for policy makers and developers of educational technology offer guidance for how to promote algorithmic fairness in education.
翻訳日:2022-11-11 21:23:02 公開日:2021-04-11
# ニューラルロジックルール学習のための特徴抽出関数

Feature Extraction Functions for Neural Logic Rule Learning ( http://arxiv.org/abs/2008.06326v4 )

ライセンス: Link先を確認
Shashank Gupta, Antonio Robles-Kelly and Mohamed Reda Bouadjenek(参考訳) 記号的人間の知識とニューラルネットワークを組み合わせることで、出力のルールベースのアンテホックな説明を提供する。 本稿では,論理規則として抽象化された人間の知識をニューラルネットワークの予測行動に統合する特徴抽出関数を提案する。 これらの関数はプログラミング関数として具現化され、適用可能なドメイン知識を論理命令の集合として表現し、入力データに独立した特徴の修正された分布を提供する。 他の既存のニューラルネットワークのアプローチとは異なり、これらの関数のプログラム的性質は、いかなる種類の特別な数学的エンコーディングも必要としないことを意味する。 感情分類における我々のアプローチの性能を説明し、2つのベースラインを用いて得られた結果と比較する。

Combining symbolic human knowledge with neural networks provides a rule-based ante-hoc explanation of the output. In this paper, we propose feature extracting functions for integrating human knowledge abstracted as logic rules into the predictive behavior of a neural network. These functions are embodied as programming functions, which represent the applicable domain knowledge as a set of logical instructions and provide a modified distribution of independent features on input data. Unlike other existing neural logic approaches, the programmatic nature of these functions implies that they do not require any kind of special mathematical encoding, which makes our method very general and flexible in nature. We illustrate the performance of our approach for sentiment classification and compare our results to those obtained using two baselines.
翻訳日:2022-10-30 16:46:21 公開日:2021-04-11
# local-hdp:リアルタイムロボットシナリオにおけるインタラクティブな3dオブジェクト分類

Local-HDP: Interactive Open-Ended 3D Object Categorization in Real-Time Robotic Scenarios ( http://arxiv.org/abs/2009.01152v3 )

ライセンス: Link先を確認
H. Ayoobi, H. Kasaei, M. Cao, R. Verbrugge, B. Verheij(参考訳) 局所階層ディリクレプロセス (Local-HDP) と呼ばれるオープンな3次元オブジェクト分類のための非パラメトリック階層的ベイズ的アプローチを導入する。 この方法により、エージェントは各カテゴリの独立したトピックを段階的に学習し、時間内に環境に適応することができる。 latent dirichlet allocation(lda)のような階層的ベイズ的アプローチは、3dオブジェクトの分類のために低レベルな特徴を高レベルな概念トピックに変換することができる。 しかし、LDAベースのアプローチの効率と精度は、手動で選択されるトピックの数に依存する。 さらに、すべてのカテゴリのトピック数を固定すると、モデルのオーバーフィットやオーバーフィットにつながる可能性がある。 対照的に,提案するローカルhdpは,各カテゴリのトピック数を自律的に決定できる。 さらに, オンライン変分推定法は, 局所hdpモデルの高速後続近似に適応している。 実験により, 提案手法は, 精度, スケーラビリティ, メモリ効率の面で他の最先端手法よりも高い性能を示した。 さらに,提案手法のリアルタイム応用への適用性を示すため,ロボット実験を2回実施した。

We introduce a non-parametric hierarchical Bayesian approach for open-ended 3D object categorization, named the Local Hierarchical Dirichlet Process (Local-HDP). This method allows an agent to learn independent topics for each category incrementally and to adapt to the environment in time. Hierarchical Bayesian approaches like Latent Dirichlet Allocation (LDA) can transform low-level features to high-level conceptual topics for 3D object categorization. However, the efficiency and accuracy of LDA-based approaches depend on the number of topics that is chosen manually. Moreover, fixing the number of topics for all categories can lead to overfitting or underfitting of the model. In contrast, the proposed Local-HDP can autonomously determine the number of topics for each category. Furthermore, the online variational inference method has been adapted for fast posterior approximation in the Local-HDP model. Experiments show that the proposed Local-HDP method outperforms other state-of-the-art approaches in terms of accuracy, scalability, and memory efficiency by a large margin. Moreover, two robotic experiments have been conducted to show the applicability of the proposed approach in real-time applications.
翻訳日:2022-10-22 18:34:04 公開日:2021-04-11
# cepstral & bispectral statisticsを用いたai合成音声の検出

Detection of AI-Synthesized Speech Using Cepstral & Bispectral Statistics ( http://arxiv.org/abs/2009.01934v2 )

ライセンス: Link先を確認
Arun Kumar Singh (1), Priyanka Singh (2) ((1) Indian Institute of Technology Jammu, (2) Dhirubhai Ambani Institute of Information and Communication Technology)(参考訳) デジタル技術は実現不可能なアプリケーションを実現した。 編集や操作が容易なツールがいくつかあることは、エキサイティングに思えるが、音声クローンや重複、あるいはおそらくは深いフェイクとして伝播する不安が高まる。 音声の真正性を検証することは、デジタルオーディオ法医学の主要な問題の一つである。 本稿では,バイスペクトルとケプストラム分析を利用したAI合成音声とを区別する手法を提案する。 高次統計は、合成音声と比較して人間の音声の相関が低い。 また, ケプストラム分析により, 合成音声に欠落する人間の音声の耐久性成分が明らかになった。 両分析を統合し,AI合成音声を検出する機械学習モデルを提案する。

Digital technology has made possible unimaginable applications come true. It seems exciting to have a handful of tools for easy editing and manipulation, but it raises alarming concerns that can propagate as speech clones, duplicates, or maybe deep fakes. Validating the authenticity of a speech is one of the primary problems of digital audio forensics. We propose an approach to distinguish human speech from AI synthesized speech exploiting the Bi-spectral and Cepstral analysis. Higher-order statistics have less correlation for human speech in comparison to a synthesized speech. Also, Cepstral analysis revealed a durable power component in human speech that is missing for a synthesized speech. We integrate both these analyses and propose a machine learning model to detect AI synthesized speech.
翻訳日:2022-10-22 07:26:52 公開日:2021-04-11
# DA変換器:距離対応変換器

DA-Transformer: Distance-aware Transformer ( http://arxiv.org/abs/2010.06925v2 )

ライセンス: Link先を確認
Chuhan Wu, Fangzhao Wu, Yongfeng Huang(参考訳) Transformer は BERT や GPT といった先進的なモデルを構成することで NLP の分野で大きな成功を収めた。 しかし、トランスフォーマーとその既存の変種は、これらの方法で使われる位置や距離埋め込みは、通常、実際の距離の正確な情報を保持できないため、トークン距離を捉えるのに最適ではないかもしれない。 本稿では,実距離を利用した距離認識変換器であるDA-Transformerを提案する。 本稿では,トークン間の実際の距離を,注目クエリとキーの関連性によって計算される生の自己注意重みの再スケールに組み入れることを提案する。 具体的には,それぞれのトークン間の相対的距離を異なる学習可能なパラメータによって重み付けし,これらのヘッダの長期的・短期的な情報に対する異なる嗜好を制御する。 原重み付き実距離は自己拘束重みの調整に最適ではないため,適切な範囲を持つ再スケール係数にマップする学習可能なシグモイド関数を提案する。 まず、ReLU関数を介して生の自己注意重みをクリップし、非負性を維持し、疎性を導入し、その後、再スケール係数に乗じて実距離情報を自己注意にエンコードする。 5つのベンチマークデータセットに対する大規模な実験は、DA-Transformerが多くのタスクのパフォーマンスを効果的に改善し、バニラトランスフォーマーとそのいくつかの変種よりも優れていることを示している。

Transformer has achieved great success in the NLP field by composing various advanced models like BERT and GPT. However, Transformer and its existing variants may not be optimal in capturing token distances because the position or distance embeddings used by these methods usually cannot keep the precise information of real distances, which may not be beneficial for modeling the orders and relations of contexts. In this paper, we propose DA-Transformer, which is a distance-aware Transformer that can exploit the real distance. We propose to incorporate the real distances between tokens to re-scale the raw self-attention weights, which are computed by the relevance between attention query and key. Concretely, in different self-attention heads the relative distance between each pair of tokens is weighted by different learnable parameters, which control the different preferences on long- or short-term information of these heads. Since the raw weighted real distances may not be optimal for adjusting self-attention weights, we propose a learnable sigmoid function to map them into re-scaled coefficients that have proper ranges. We first clip the raw self-attention weights via the ReLU function to keep non-negativity and introduce sparsity, and then multiply them with the re-scaled coefficients to encode real distance information into self-attention. Extensive experiments on five benchmark datasets show that DA-Transformer can effectively improve the performance of many tasks and outperform the vanilla Transformer and its several variants.
翻訳日:2022-10-07 13:18:44 公開日:2021-04-11
# meshmvs: 多視点ステレオ誘導メッシュ再構成

MeshMVS: Multi-View Stereo Guided Mesh Reconstruction ( http://arxiv.org/abs/2010.08682v3 )

ライセンス: Link先を確認
Rakesh Shrestha, Zhiwen Fan, Qingkun Su, Zuozhuo Dai, Siyu Zhu, Ping Tan(参考訳) 深層学習に基づく3次元形状生成法では,カラー画像から抽出した潜伏特徴を用いて物体の意味を符号化し,形状生成過程を導く。 これらのカラーイメージセマンティクスは、3d情報を暗黙的にエンコードするだけであり、生成された形状の精度を制限する可能性がある。 本稿では,多視点ステレオの中間深度表現から特徴を抽出し,これらの深度画像に対して3次元形状を正則化することにより,形状情報を明示的に組み込むマルチビューメッシュ生成手法を提案する。 まず,カラー画像から粗い3次元体積を予測し,個々のビューの予測からボクセル占有格子を確率的に融合させる。 次に、粗い形状のレンダリングされた奥行き画像とともに、多視点ステレオからの奥行き画像を用いて、一連のグラフ畳み込みネットワークを介して粗い形状の洗練を導く特徴を有する対比入力とする。 注目すべきは、シェープネットデータセットのシャムファー距離が34%減少し、f1-scoreが14%増加した、最先端のマルチビュー形状生成法よりも優れた結果が得られることだ。

Deep learning based 3D shape generation methods generally utilize latent features extracted from color images to encode the semantics of objects and guide the shape generation process. These color image semantics only implicitly encode 3D information, potentially limiting the accuracy of the generated shapes. In this paper we propose a multi-view mesh generation method which incorporates geometry information explicitly by using the features from intermediate depth representations of multi-view stereo and regularizing the 3D shapes against these depth images. First, our system predicts a coarse 3D volume from the color images by probabilistically merging voxel occupancy grids from the prediction of individual views. Then the depth images from multi-view stereo along with the rendered depth images of the coarse shape are used as a contrastive input whose features guide the refinement of the coarse shape through a series of graph convolution networks. Notably, we achieve superior results than state-of-the-art multi-view shape generation methods with 34% decrease in Chamfer distance to ground truth and 14% increase in F1-score on ShapeNet dataset.Our source code is available at https://git.io/Jmalg
翻訳日:2022-10-06 11:37:35 公開日:2021-04-11
# 会話エージェントにおけるユーザ満足度予測のための自己教師付きコントラスト学習

Self-Supervised Contrastive Learning for Efficient User Satisfaction Prediction in Conversational Agents ( http://arxiv.org/abs/2010.11230v2 )

ライセンス: Link先を確認
Mohammad Kachuee, Hao Yuan, Young-Bum Kim, Sungjin Lee(参考訳) ターンレベルのユーザ満足度は、会話エージェントにとって最も重要なパフォーマンス指標の1つです。 エージェントのパフォーマンスを監視し、欠陥のあるユーザエクスペリエンスに関する洞察を提供するために使用できる。 さらに、会話エージェントが継続的に最適化する目的関数として、強力な満足度モデルを用いることもできる。 エンドツーエンドのディープラーニングは有望な結果を示しているが、これらの手法で要求される大量の信頼できる注釈付きサンプルにアクセスすることは依然として困難である。 大規模な会話システムでは,従来のデータ収集やアノテーション,モデリングプロセスが,必要なアノテーションコストとターンアラウンド時間によって非現実的になるなど,新たに開発されたスキルが増えている。 本稿では,ラベルなしデータのプールを利用してユーザエージェント間インタラクションを学習する,自己教師付きコントラスト学習手法を提案する。 自己教師対象を用いた事前学習モデルは,ユーザ満足度予測に転送可能であることを示す。 さらに, 非常に小さなサンプルサイズに対して, より優れた転送性を実現するための, 複数ショット転送学習手法を提案する。 提案手法では,内部ループ最適化プロセスは不要であり,大規模データセットや複雑なモデルにスケーラブルである。 大規模商用システムからの実世界データを用いた実験に基づいて,提案手法は,ドメイン外スキルの一般化を改善しつつ,必要なアノテーション数を大幅に削減することができる。

Turn-level user satisfaction is one of the most important performance metrics for conversational agents. It can be used to monitor the agent's performance and provide insights about defective user experiences. Moreover, a powerful satisfaction model can be used as an objective function that a conversational agent continuously optimizes for. While end-to-end deep learning has shown promising results, having access to a large number of reliable annotated samples required by these methods remains challenging. In a large-scale conversational system, there is a growing number of newly developed skills, making the traditional data collection, annotation, and modeling process impractical due to the required annotation costs as well as the turnaround times. In this paper, we suggest a self-supervised contrastive learning approach that leverages the pool of unlabeled data to learn user-agent interactions. We show that the pre-trained models using the self-supervised objective are transferable to the user satisfaction prediction. In addition, we propose a novel few-shot transfer learning approach that ensures better transferability for very small sample sizes. The suggested few-shot method does not require any inner loop optimization process and is scalable to very large datasets and complex models. Based on our experiments using real-world data from a large-scale commercial system, the suggested approach is able to significantly reduce the required number of annotations, while improving the generalization on unseen out-of-domain skills.
翻訳日:2022-10-04 22:59:06 公開日:2021-04-11
# SmBoP: 半自己回帰ボトムアップセマンティックパーシング

SmBoP: Semi-autoregressive Bottom-up Semantic Parsing ( http://arxiv.org/abs/2010.12412v2 )

ライセンス: Link先を確認
Ohad Rubin and Jonathan Berant(参考訳) 近年の意味解析のためのデファクト標準復号法は,トップダウンの深さ優先トラバーサルを用いて,対象プログラムの抽象構文木を自己回帰的に復号化している。 本研究では,半自己回帰ボトムアップパーサ(smbop)をデコードステップで構築し,高さ$\leq t$の上位$k$サブツリーをt$とする手法を提案する。 我々のパーサーはトップダウンの自己回帰解析と比較していくつかの利点がある。 効率の観点からすると、ボトムアップパーシングは、ある高さのすべてのサブツリーを並列にデコードすることができ、線形ではなく対数的ランタイムの複雑さをもたらす。 モデリングの観点からは、ボトムアップパーサーは意味論的部分木ではなく、各ステップで意味論的部分プログラムの表現を学ぶ。 難解なゼロショット意味解析ベンチマークであるspiderにsmbopを適用することで,smbopがデコード時間の2.2倍のスピードアップと,自己回帰デコードを使用するセマンティックパーサと比較して,トレーニング時間の5倍の速度アップを実現しています。 SmBoPは、スパイダーの71.1の表記精度を取得し、新しい最先端の69.5の正確な一致を確立し、自動回帰RAT-SQL+GraPPaの69.6の正確な一致に匹敵する。

The de-facto standard decoding method for semantic parsing in recent years has been to autoregressively decode the abstract syntax tree of the target program using a top-down depth-first traversal. In this work, we propose an alternative approach: a Semi-autoregressive Bottom-up Parser (SmBoP) that constructs at decoding step $t$ the top-$K$ sub-trees of height $\leq t$. Our parser enjoys several benefits compared to top-down autoregressive parsing. From an efficiency perspective, bottom-up parsing allows to decode all sub-trees of a certain height in parallel, leading to logarithmic runtime complexity rather than linear. From a modeling perspective, a bottom-up parser learns representations for meaningful semantic sub-programs at each step, rather than for semantically-vacuous partial trees. We apply SmBoP on Spider, a challenging zero-shot semantic parsing benchmark, and show that SmBoP leads to a 2.2x speed-up in decoding time and a $\sim$5x speed-up in training time, compared to a semantic parser that uses autoregressive decoding. SmBoP obtains 71.1 denotation accuracy on Spider, establishing a new state-of-the-art, and 69.5 exact match, comparable to the 69.6 exact match of the autoregressive RAT-SQL+GraPPa.
翻訳日:2022-10-03 22:33:57 公開日:2021-04-11
# ST-BERT: エンドツーエンドの音声言語理解のためのクロスモーダル言語モデル事前トレーニング

ST-BERT: Cross-modal Language Model Pre-training For End-to-end Spoken Language Understanding ( http://arxiv.org/abs/2010.12283v2 )

ライセンス: Link先を確認
Minjeong Kim, Gyuwan Kim, Sang-Woo Lee, Jung-Woo Ha(参考訳) 言語モデルの事前トレーニングは、様々な下流タスクで有望な結果を示している。 そこで本稿では,ST-BERT(Speech-Text BERT)と呼ばれる言語モデルを導入し,エンドツーエンドの音声言語理解(E2E SLU)タスクに対処する。 そこでST-BERTは,音素後部および副語レベルのテキストを入力として,2つの事前学習タスク(CM-MLM)と相互モーダル条件付き言語モデリング(CM-CLM)を通して文脈化された相互モーダルアライメントを学習する。 3つのベンチマークによる実験結果から,本手法は各種SLUデータセットに対して有効であり,トレーニングデータの1%が利用可能であっても驚くほど性能低下を示すことがわかった。 また、ドメイン固有音声テキストペアデータを用いたドメイン適応事前学習により、さらなるslu性能向上を示す。

Language model pre-training has shown promising results in various downstream tasks. In this context, we introduce a cross-modal pre-trained language model, called Speech-Text BERT (ST-BERT), to tackle end-to-end spoken language understanding (E2E SLU) tasks. Taking phoneme posterior and subword-level text as an input, ST-BERT learns a contextualized cross-modal alignment via our two proposed pre-training tasks: Cross-modal Masked Language Modeling (CM-MLM) and Cross-modal Conditioned Language Modeling (CM-CLM). Experimental results on three benchmarks present that our approach is effective for various SLU datasets and shows a surprisingly marginal performance degradation even when 1% of the training data are available. Also, our method shows further SLU performance gain via domain-adaptive pre-training with domain-specific speech-text pair data.
翻訳日:2022-10-03 21:42:15 公開日:2021-04-11
# 中間微調整とデータ拡張によるゼロおよびFew-Shot抽象要約の改善

Improving Zero and Few-Shot Abstractive Summarization with Intermediate Fine-tuning and Data Augmentation ( http://arxiv.org/abs/2010.12836v2 )

ライセンス: Link先を確認
Alexander R. Fabbri, Simeng Han, Haoyuan Li, Haoran Li, Marjan Ghazvininejad, Shafiq Joty, Dragomir Radev, Yashar Mehdad(参考訳) 大文字コーパスの自己教師付き目標で事前学習されたモデルは、英語テキスト要約タスクで最先端のパフォーマンスを達成する。 しかし、これらのモデルは典型的には数十万のデータポイントで微調整され、新しいニッチなドメインに要約を適用する際には実現不可能な要件である。 本稿では,教師なし,データセットに特有な方法で要約用事前学習モデルの微調整を行うための,wikitransferと呼ばれる新規で一般化可能な手法を提案する。 ウィキトランスファー(WikiTransfer)は、ウィキペディアのデータから作成された擬似サマリーの微調整済みモデルであり、所望のサマリーの長さや抽象化レベルなどのターゲットデータセットの特徴を含んでいる。 ウィキトランスファーモデルは,cnn-dailymailデータセット上で最先端のゼロショット要約性能を実現し,さらに3つの多様なデータセットに対する提案手法の有効性を実証する。 これらのモデルは、ノイズの多いデータに対してより堅牢であり、他の要約データセットからの少数ショット転送と比較して、10と100のトレーニング例を使用して、より良いあるいは同等の数ショットのパフォーマンスを達成する。 性能をさらに高めるため,ラウンドトリップ変換によるデータ拡張を行うとともに,改良されたマイナショット転送のための正規化用語を導入する。 転送性能と出力サマリーの品質におけるデータセットの役割を理解するため,教師なし微調整データのコンポーネントの影響についてさらに検討し,自動評価と人的評価の両方を用いて少数ショットのパフォーマンスを解析した。

Models pretrained with self-supervised objectives on large text corpora achieve state-of-the-art performance on English text summarization tasks. However, these models are typically fine-tuned on hundreds of thousands of data points, an infeasible requirement when applying summarization to new, niche domains. In this work, we introduce a novel and generalizable method, called WikiTransfer, for fine-tuning pretrained models for summarization in an unsupervised, dataset-specific manner. WikiTransfer fine-tunes pretrained models on pseudo-summaries, produced from generic Wikipedia data, which contain characteristics of the target dataset, such as the length and level of abstraction of the desired summaries. WikiTransfer models achieve state-of-the-art, zero-shot abstractive summarization performance on the CNN-DailyMail dataset and demonstrate the effectiveness of our approach on three additional diverse datasets. These models are more robust to noisy data and also achieve better or comparable few-shot performance using 10 and 100 training examples when compared to few-shot transfer from other summarization datasets. To further boost performance, we employ data augmentation via round-trip translation as well as introduce a regularization term for improved few-shot transfer. To understand the role of dataset aspects in transfer performance and the quality of the resulting output summaries, we further study the effect of the components of our unsupervised fine-tuning data and analyze few-shot performance using both automatic and human evaluation.
翻訳日:2022-10-03 13:01:06 公開日:2021-04-11
# 言語モデルファインチューニングにおけるバイアス緩和効果の伝達性について

On Transferability of Bias Mitigation Effects in Language Model Fine-Tuning ( http://arxiv.org/abs/2010.12864v2 )

ライセンス: Link先を確認
Xisen Jin, Francesco Barbieri, Brendan Kennedy, Aida Mostafazadeh Davani, Leonardo Neves, Xiang Ren(参考訳) 微調整された言語モデルは、テキスト分類やコリファレンス解決といった多くのモデリングタスクで保護されたグループに対してバイアスを示すことが示されている。 以前の研究では、これらのバイアスの検出、データ表現のバイアスの低減、および微調整中のバイアス軽減のための補助トレーニング目標の使用に重点を置いている。 これらの技術はタスクとドメインのバイアス低減を実現するが、バイアス軽減の効果は直接新しいタスクに移行せず、データ収集や機密属性のアノテーションのカスタマイズ、適切な公平度指標の再評価を必要とする。 上流バイアス緩和(ubm:upstream bias mitigation)は下流タスクのバイアスを軽減するため,まずは微調整によって上流モデルにバイアス緩和を適用し,その後下流の微調整に使用する。 様々なバイアス要因に対するヘイトスピーチ検出、毒性検出、占領予測、コア参照解決タスクの広範な実験において、UDMの効果は、下流タスクやドメインにファインチューニングすることで、下流タスクやバニラ上流モデルを直接微調整するよりも、バイアスの少ない下流モデルを生成することができることがわかった。 課題は残るが、UDMはLM微調整においてより効率的でアクセスしやすいバイアス緩和を約束している。

Fine-tuned language models have been shown to exhibit biases against protected groups in a host of modeling tasks such as text classification and coreference resolution. Previous works focus on detecting these biases, reducing bias in data representations, and using auxiliary training objectives to mitigate bias during fine-tuning. Although these techniques achieve bias reduction for the task and domain at hand, the effects of bias mitigation may not directly transfer to new tasks, requiring additional data collection and customized annotation of sensitive attributes, and re-evaluation of appropriate fairness metrics. We explore the feasibility and benefits of upstream bias mitigation (UBM) for reducing bias on downstream tasks, by first applying bias mitigation to an upstream model through fine-tuning and subsequently using it for downstream fine-tuning. We find, in extensive experiments across hate speech detection, toxicity detection, occupation prediction, and coreference resolution tasks over various bias factors, that the effects of UBM are indeed transferable to new downstream tasks or domains via fine-tuning, creating less biased downstream models than directly fine-tuning on the downstream task or transferring from a vanilla upstream model. Though challenges remain, we show that UBM promises more efficient and accessible bias mitigation in LM fine-tuning.
翻訳日:2022-10-03 11:58:48 公開日:2021-04-11
# 並列画像とキャプションを伴わない教師なし視覚・言語事前学習

Unsupervised Vision-and-Language Pre-training Without Parallel Images and Captions ( http://arxiv.org/abs/2010.12831v2 )

ライセンス: Link先を確認
Liunian Harold Li, Haoxuan You, Zhecan Wang, Alireza Zareian, Shih-Fu Chang, Kai-Wei Chang(参考訳) 事前学習された文脈視覚言語モデル(v&l)は、様々なベンチマークで印象的なパフォーマンスを達成している。 しかし、既存のモデルは事前学習のために大量の並列画像キャプチャーデータを必要とする。 このようなデータは収集にコストがかかり、面倒なキュレーションが必要です。 教師なし機械翻訳に触発されて,画像キャプチャコーパスを使わずに教師なし事前学習により,強いV&L表現モデルを学習できるかどうかを検討する。 特に,テキストのみと画像のみのコーパスで ‘mask-and-predict'' をプリトレーニングし,オブジェクト認識モデルによって検出されたオブジェクトタグをアンカーポイントとして導入し,2つのモダリティを橋渡しする。 このような単純なアプローチは、4つの英語のV&Lベンチマークで、アライメントされたデータで事前訓練されたモデルに近い性能を実現する。 我々の研究は、V&L事前トレーニングにはアライメントデータが必要であるという広く支持されている考え方に挑戦すると同時に、V&Lモデルに必要な監督の量を大幅に削減する。

Pre-trained contextual vision-and-language (V&L) models have achieved impressive performance on various benchmarks. However, existing models require a large amount of parallel image-caption data for pre-training. Such data are costly to collect and require cumbersome curation. Inspired by unsupervised machine translation, we investigate if a strong V&L representation model can be learned through unsupervised pre-training without image-caption corpora. In particular, we propose to conduct ``mask-and-predict'' pre-training on text-only and image-only corpora and introduce the object tags detected by an object recognition model as anchor points to bridge two modalities. We find that such a simple approach achieves performance close to a model pre-trained with aligned data, on four English V&L benchmarks. Our work challenges the widely held notion that aligned data is necessary for V&L pre-training, while significantly reducing the amount of supervision needed for V&L models.
翻訳日:2022-10-03 11:50:56 公開日:2021-04-11
# コンテキストアグリゲーションネットワークを用いたリアルタイム意味セグメンテーション

Real-time Semantic Segmentation with Context Aggregation Network ( http://arxiv.org/abs/2011.00993v2 )

ライセンス: Link先を確認
Michael Ying Yang, Saumya Kumaar, Ye Lyu, Francesco Nex(参考訳) 自律システムの需要が高まる中、視覚シーン理解のためのピクセルワイズセマンティクスセグメンテーションは、精度だけでなく、潜在的なリアルタイムアプリケーションにとっても効率的である必要がある。 本稿では,2つの分岐畳み込みニューラルネットワークであるコンテキストアグリゲーションネットワークを提案する。 高速なセマンティックセグメンテーションのための既存のデュアルブランチアーキテクチャを基盤として、効率的な空間詳細化のための安価な高解像度ブランチと、グローバルアグリゲーションと局所分布ブロックの軽量バージョンを備えたコンテキストブランチを設計し、精度の高いセマンティックセグメンテーションに必要な長距離および局所的コンテキスト依存の両方を、計算オーバーヘッドを低く抑えることができる。 本手法は,cityscapesデータセットとuavidデータセットの2つの意味セグメンテーションデータセットについて評価する。 cityscapesのテストセットでは、miouが75.9%、nvidia rtx 2080tiが76fps、jetson xavier nxが8fpsという最新結果を達成しています。 UAVidデータセットに関しては,mIOUスコアが63.5%,高速(15FPS)を達成した。

With the increasing demand of autonomous systems, pixelwise semantic segmentation for visual scene understanding needs to be not only accurate but also efficient for potential real-time applications. In this paper, we propose Context Aggregation Network, a dual branch convolutional neural network, with significantly lower computational costs as compared to the state-of-the-art, while maintaining a competitive prediction accuracy. Building upon the existing dual branch architectures for high-speed semantic segmentation, we design a cheap high resolution branch for effective spatial detailing and a context branch with light-weight versions of global aggregation and local distribution blocks, potent to capture both long-range and local contextual dependencies required for accurate semantic segmentation, with low computational overheads. We evaluate our method on two semantic segmentation datasets, namely Cityscapes dataset and UAVid dataset. For Cityscapes test set, our model achieves state-of-the-art results with mIOU of 75.9%, at 76 FPS on an NVIDIA RTX 2080Ti and 8 FPS on a Jetson Xavier NX. With regards to UAVid dataset, our proposed network achieves mIOU score of 63.5% with high execution speed (15 FPS).
翻訳日:2022-09-30 12:50:47 公開日:2021-04-11
# SelfDeco: 屋内環境における自己監督型単分子深度補完

SelfDeco: Self-Supervised Monocular Depth Completion in Challenging Indoor Environments ( http://arxiv.org/abs/2011.04977v2 )

ライセンス: Link先を確認
Jaehoon Choi, Dongki Jung, Yonghan Lee, Deokhwa Kim, Dinesh Manocha, and Donghwan Lee(参考訳) 本稿では,自己教師付き単眼深度完了のための新しいアルゴリズムを提案する。 提案手法は,深度ラベルを含まない疎深度測定とそれに対応する単眼ビデオシーケンスのみを必要とするニューラルネットワークのトレーニングに基づく。 我々の自己監督アルゴリズムは、テクスチャのない領域、光沢のない透明な表面、非ランバートの表面、動く人々、より長く多様な深度範囲、複雑なエゴモーションによって捉えられたシーンを含む屋内環境に挑戦するために設計されている。 我々の新しいアーキテクチャは、スパース深度特徴と画素適応畳み込みを抽出し、画像と深度特徴を融合する。 我々は、NYUv2、KITTI、NAVERLABS屋内データセットの既存のアプローチと比較し、ルート平均二乗誤差(RMSE)の5~34パーセントの改善を観察した。

We present a novel algorithm for self-supervised monocular depth completion. Our approach is based on training a neural network that requires only sparse depth measurements and corresponding monocular video sequences without dense depth labels. Our self-supervised algorithm is designed for challenging indoor environments with textureless regions, glossy and transparent surface, non-Lambertian surfaces, moving people, longer and diverse depth ranges and scenes captured by complex ego-motions. Our novel architecture leverages both deep stacks of sparse convolution blocks to extract sparse depth features and pixel-adaptive convolutions to fuse image and depth features. We compare with existing approaches in NYUv2, KITTI, and NAVERLABS indoor datasets, and observe 5-34 % improvements in root-means-square error (RMSE) reduction.
翻訳日:2022-09-27 08:08:21 公開日:2021-04-11
# DeepSweep: データ拡張によるDNNバックドア攻撃の軽減のための評価フレームワーク

DeepSweep: An Evaluation Framework for Mitigating DNN Backdoor Attacks using Data Augmentation ( http://arxiv.org/abs/2012.07006v2 )

ライセンス: Link先を確認
Han Qiu, Yi Zeng, Shangwei Guo, Tianwei Zhang, Meikang Qiu, Bhavani Thuraisingham(参考訳) パブリックリソースとサービス(データセット、トレーニングプラットフォーム、事前訓練されたモデルなど)は、ディープラーニングベースのアプリケーションの開発を容易にするために広く採用されている。 しかし、サードパーティプロバイダが信頼できない場合は、データセットに毒入りサンプルを注入したり、モデルにバックドアを埋め込むことができる。 このような完全性侵害は、特に安全およびセキュリティクリティカルなアプリケーションにおいて深刻な結果をもたらす可能性がある。 高い有効性とステルス性のために様々なバックドア攻撃技術が提案されている。 残念ながら、既存の防衛ソリューションはこれらの攻撃を包括的に阻止するには実用的ではない。 本稿では,バックドア攻撃を緩和し,DLモデルの堅牢性を高めるためのデータ拡張手法の有効性を検討する。 この目標を達成するために評価フレームワークが導入された。 具体的には,(1)感染モデルの微調整と組込みバックドアの効果の排除のためにデータ拡張ポリシーを採用し,(2)別の拡張ポリシーを用いて入力サンプルの前処理と推論中のトリガの無効化を行う統一防衛ソリューションを検討する。 本研究では,71の最先端データ拡張機能を包括的に評価することにより,異なるバックドア攻撃に対する防御策を見出すための体系的アプローチを提案する。 8種類のバックドア攻撃を効果的に軽減し,既存の5つの防御方法より優れることを示す。 我々は、このフレームワークが将来のDNNバックドア研究を前進させる良いベンチマークツールになることを期待している。

Public resources and services (e.g., datasets, training platforms, pre-trained models) have been widely adopted to ease the development of Deep Learning-based applications. However, if the third-party providers are untrusted, they can inject poisoned samples into the datasets or embed backdoors in those models. Such an integrity breach can cause severe consequences, especially in safety- and security-critical applications. Various backdoor attack techniques have been proposed for higher effectiveness and stealthiness. Unfortunately, existing defense solutions are not practical to thwart those attacks in a comprehensive way. In this paper, we investigate the effectiveness of data augmentation techniques in mitigating backdoor attacks and enhancing DL models' robustness. An evaluation framework is introduced to achieve this goal. Specifically, we consider a unified defense solution, which (1) adopts a data augmentation policy to fine-tune the infected model and eliminate the effects of the embedded backdoor; (2) uses another augmentation policy to preprocess input samples and invalidate the triggers during inference. We propose a systematic approach to discover the optimal policies for defending against different backdoor attacks by comprehensively evaluating 71 state-of-the-art data augmentation functions. Extensive experiments show that our identified policy can effectively mitigate eight different kinds of backdoor attacks and outperform five existing defense methods. We envision this framework can be a good benchmark tool to advance future DNN backdoor studies.
翻訳日:2021-05-09 12:39:56 公開日:2021-04-11
# (参考訳) ロバスト・ポーズ・トランスフォーメーションGANを用いたポーズ不変人物再同定

Pose Invariant Person Re-Identification using Robust Pose-transformation GAN ( http://arxiv.org/abs/2105.00930v1 )

ライセンス: CC BY-SA 4.0
Arnab Karmakar and Deepak Mishra(参考訳) 人物再識別(re-ID)は、興味ある人物の単一の事例から、画像ギャラリーから人物の画像を取得することを目的としている。 いくつかの進歩にもかかわらず、ロバストな人物再同定のための識別的アイデンティティ感と視点不変特徴の学習は、人間のポーズの変化が大きいため、大きな課題である。 本稿では,ポーズ回帰と特徴融合を組み合わせた生成逆数ネットワークの画像生成機能を利用して,ポーズ不変な特徴学習を実現するre-IDパイプラインを提案する。 目的は、異なる視点と大きなポーズの変化の下で特定の人物をモデル化し、あらゆる外観から最も識別的な特徴を抽出することである。 ポーズ変換GAN(pt-GAN)モジュールは、任意のポーズで人の画像を生成するように訓練される。 識別的特徴抽出の最も重要なポーズを特定するために,Pose Regressionモジュールを提案する。 人の与えられたインスタンスは様々なポーズでモデル化され、これらの機能は機能融合ネットワークを介して効果的に結合される。 これら3つのサブブロックからなる最後のre-IDモデルは、人によるre-IDのポーズ依存を緩和し、4つのベンチマークデータセットでre-IDのための最先端のGANベースモデルを上回るパフォーマンスを発揮する。 提案モデルは咬合, スケール, 照明に頑健であり, ベースラインに対する改善点では最先端モデルに勝っている。

Person re-identification (re-ID) aims to retrieve a person's images from an image gallery, given a single instance of the person of interest. Despite several advancements, learning discriminative identity-sensitive and viewpoint invariant features for robust Person Re-identification is a major challenge owing to large pose variation of humans. This paper proposes a re-ID pipeline that utilizes the image generation capability of Generative Adversarial Networks combined with pose regression and feature fusion to achieve pose invariant feature learning. The objective is to model a given person under different viewpoints and large pose changes and extract the most discriminative features from all the appearances. The pose transformational GAN (pt-GAN) module is trained to generate a person's image in any given pose. In order to identify the most significant poses for discriminative feature extraction, a Pose Regression module is proposed. The given instance of the person is modelled in varying poses and these features are effectively combined through the Feature Fusion Network. The final re-ID model consisting of these 3 sub-blocks, alleviates the pose dependence in person re-ID and outperforms the state-of-the-art GAN based models for re-ID in 4 benchmark datasets. The proposed model is robust to occlusion, scale and illumination, thereby outperforms the state-of-the-art models in terms of improvement over baseline.
翻訳日:2021-05-06 07:29:07 公開日:2021-04-11
# 不完全な情報を含むエッジコンピューティングにおけるオンラインサービス移行: アクター-批判的手法

Online Service Migration in Edge Computing with Incomplete Information: A Deep Recurrent Actor-Critic Method ( http://arxiv.org/abs/2012.08679v3 )

ライセンス: Link先を確認
Jin Wang, Jia Hu, and Geyong Min(参考訳) マルチアクセスエッジコンピューティング(Multi- Access Edge Computing、MEC)は、クラウドコンピューティングをネットワークエッジ(例えば基地局、MECサーバ)に拡張し、モバイルデバイス上のリソース集約アプリケーションをサポートする、新興コンピューティングパラダイムである。 MECにおける重要な問題として、サービス移行は、ユーザがカバー範囲とキャパシティに制限されたMECサーバ間を移動する際に、高品質サービス(QoS)を維持するために、ユーザサービスをどこに移行するかを決定する必要がある。 しかし、高度に動的なMEC環境とユーザモビリティのため、最適なマイグレーションポリシーを見つけることは困難である。 既存の多くの作業では,完全なシステムレベルの情報に基づいて集中的なマイグレーション決定を行っている。 これらの課題に対処するために,我々は,ユーザ中心であり,システムレベルの不完全な情報に基づいて効果的なオンライン移行決定を行うことのできる,新たな学習駆動手法,すなわち深層反復型アクタ-クリティックベースのサービスマイグレーション(dracm)を提案する。 具体的には、サービス移行問題は、部分的に観測可能なマルコフ決定プロセス(POMDP)としてモデル化される。 POMDP を解決するために,Long Short-Term Memory (LSTM) と埋め込み行列を組み合わせたエンコーダネットワークを設計し,隠れた情報を効果的に抽出する。 そこで我々は,効率的なトレーニングを行うために,クリッピングされた代理目的の非政治アクター批判アルゴリズムを提案する。 実世界のモビリティトレースに基づく広範な実験の結果,本手法はヒューリスティックと最先端の学習駆動アルゴリズムを一貫して上回っており,様々なmecシナリオにおいて最適に近い結果が得られることがわかった。

Multi-access Edge Computing (MEC) is an emerging computing paradigm that extends cloud computing to the network edge (e.g., base stations, MEC servers) to support resource-intensive applications on mobile devices. As a crucial problem in MEC, service migration needs to decide where to migrate user services for maintaining high Quality-of-Service (QoS), when users roam between MEC servers with limited coverage and capacity. However, finding an optimal migration policy is intractable due to the highly dynamic MEC environment and user mobility. Many existing works make centralized migration decisions based on complete system-level information, which can be time-consuming and suffer from the scalability issue with the rapidly increasing number of mobile users. To address these challenges, we propose a new learning-driven method, namely Deep Recurrent Actor-Critic based service Migration (DRACM), which is user-centric and can make effective online migration decisions given incomplete system-level information. Specifically, the service migration problem is modeled as a Partially Observable Markov Decision Process (POMDP). To solve the POMDP, we design an encoder network that combines a Long Short-Term Memory (LSTM) and an embedding matrix for effective extraction of hidden information. We then propose a tailored off-policy actor-critic algorithm with a clipped surrogate objective for efficient training. Results from extensive experiments based on real-world mobility traces demonstrate that our method consistently outperforms both the heuristic and state-of-the-art learning-driven algorithms, and achieves near-optimal results on various MEC scenarios.
翻訳日:2021-05-03 02:44:09 公開日:2021-04-11
# (参考訳) マトリックスファクトリー化のためのグラディエント・ディグエント・バイアスの解決に向けて--Greedy Low-Rank Learning

Towards Resolving the Implicit Bias of Gradient Descent for Matrix Factorization: Greedy Low-Rank Learning ( http://arxiv.org/abs/2012.09839v2 )

ライセンス: CC BY 4.0
Zhiyuan Li, Yuping Luo, Kaifeng Lyu(参考訳) 行列分解は、勾配降下の暗黙の正則化を調べるための単純で自然なテストベッドである。 gunasekar et alの略。 (2017) は無限小初期化を伴う勾配流は核ノルムを最小化する解に収束すると予想したが、最近の一連の論文ではノルム最小化の言語は暗黙の正則化の完全な特徴を与えるには不十分であると主張した。 本研究では, 深さ-2 行列分解において, 無限小初期化を伴う勾配流は, 単純ヒューリスティックな階数最小化アルゴリズムである greedy low-rank learning と数学的に等価であることを示す。 これは、以前の作品からより広い設定までランクの最小化の視点を一般化し、gunasekarらからの予想を反論する反例を構築することができる。 (2017). また、深さ$\ge 3$の場合にも結果を拡張し、より深くなることの利点は、上記の収束が初期化の大きさよりもはるかに弱い依存を持ち、このランクの最小化が実際的なスケールでの初期化に効果を持つ可能性が高いことである。

Matrix factorization is a simple and natural test-bed to investigate the implicit regularization of gradient descent. Gunasekar et al. (2017) conjectured that Gradient Flow with infinitesimal initialization converges to the solution that minimizes the nuclear norm, but a series of recent papers argued that the language of norm minimization is not sufficient to give a full characterization for the implicit regularization. In this work, we provide theoretical and empirical evidence that for depth-2 matrix factorization, gradient flow with infinitesimal initialization is mathematically equivalent to a simple heuristic rank minimization algorithm, Greedy Low-Rank Learning, under some reasonable assumptions. This generalizes the rank minimization view from previous works to a much broader setting and enables us to construct counter-examples to refute the conjecture from Gunasekar et al. (2017). We also extend the results to the case where depth $\ge 3$, and we show that the benefit of being deeper is that the above convergence has a much weaker dependence over initialization magnitude so that this rank minimization is more likely to take effect for initialization with practical scale.
翻訳日:2021-05-02 12:40:52 公開日:2021-04-11
# (参考訳) 行列表現を用いたニューラルチューリングマシンのメモリ容量

Memory Capacity of Neural Turing Machines with Matrix Representation ( http://arxiv.org/abs/2104.07454v1 )

ライセンス: CC BY 4.0
Animesh Renanse, Rohitash Chandra, Alok Sharma(参考訳) リカレントニューラルネットワーク(RNN)が、長期短期記憶(LSTM)ネットワークのメモリ構造によって対処された長期依存を学習する際の制限に直面したことはよく知られている。 マトリックスニューラルネットワークは、データ空間構造を本質的に保存するマトリックス表現を特徴とし、ベクトル表現を使用する標準ニューラルネットワークと比較して、より良いメモリ構造を提供する可能性がある。 neural turing machines (ntms)は、ニューラルネットワークコントローラを備えたプログラム可能なコンピュータの概念を実装し、コピー、ソート、連想リコールタスクを持つアルゴリズムを特徴付ける、新しいrnnである。 本稿では,RNNとNTM(MatNTM)の行列表現を用いたメモリ容量の増大について検討する。 行列表現が従来のニューラルネットワークのベクトル表現よりも優れたメモリ容量を持つかどうかを調べる。 本研究では,フィッシャー情報を用いたメモリ容量の確率モデルを用いて,行列表現ネットワークのメモリ容量が様々な制約下で,あるいは一般に制約なく制限されているかを検討する。 制約のないメモリ容量の場合、メモリ容量の上限は、$N\times N$ state matrixに対して$N^2$となる。 合成アルゴリズムを用いた実験の結果,MatNTMの学習能力は学習能力に優れていた。

It is well known that recurrent neural networks (RNNs) faced limitations in learning long-term dependencies that have been addressed by memory structures in long short-term memory (LSTM) networks. Matrix neural networks feature matrix representation which inherently preserves the spatial structure of data and has the potential to provide better memory structures when compared to canonical neural networks that use vector representation. Neural Turing machines (NTMs) are novel RNNs that implement notion of programmable computers with neural network controllers to feature algorithms that have copying, sorting, and associative recall tasks. In this paper, we study the augmentation of memory capacity with a matrix representation of RNNs and NTMs (MatNTMs). We investigate if matrix representation has a better memory capacity than the vector representations in conventional neural networks. We use a probabilistic model of the memory capacity using Fisher information and investigate how the memory capacity for matrix representation networks are limited under various constraints, and in general, without any constraints. In the case of memory capacity without any constraints, we found that the upper bound on memory capacity to be $N^2$ for an $N\times N$ state matrix. The results from our experiments using synthetic algorithmic tasks show that MatNTMs have a better learning capacity when compared to its counterparts.
翻訳日:2021-04-17 09:23:07 公開日:2021-04-11
# (参考訳) 生物学と医学におけるネットワークのための表現学習--進歩、挑戦、機会

Representation Learning for Networks in Biology and Medicine: Advancements, Challenges, and Opportunities ( http://arxiv.org/abs/2104.04883v1 )

ライセンス: CC BY 4.0
Michelle M. Li, Kexin Huang, Marinka Zitnik(参考訳) 強力な予測とデータインサイトを提供するための表現学習の驚くべき成功により、表現学習技術のネットワークによるモデリング、分析、学習への急速な拡大を目の当たりにした。 バイオメディカルネットワークは、タンパク質相互作用から病気ネットワーク、医療システムや科学知識に至るまで、相互作用する要素のシステムの普遍的な記述子である。 本稿では、ニューラルネットワーク生物学と医学の長年の原則が、機械学習研究でしばしば取り上げられるが、表現学習の概念的基盤を提供し、その現在の成功と限界を説明し、将来の進歩を知らせる、という見解を示した。 我々は,ネットワークをコンパクトベクトル空間に埋め込むための位相的特徴を活用するアルゴリズム的手法のスペクトルを合成する。 また、アルゴリズムの革新から最も恩恵を受ける可能性のある生物医学分野の分類も提供する。 表現学習技術は、複雑な形質の根底にある因果変異の同定、単一細胞の分離行動とその健康への影響、安全で効果的な薬剤による疾患の診断と治療に不可欠である。

With the remarkable success of representation learning in providing powerful predictions and data insights, we have witnessed a rapid expansion of representation learning techniques into modeling, analysis, and learning with networks. Biomedical networks are universal descriptors of systems of interacting elements, from protein interactions to disease networks, all the way to healthcare systems and scientific knowledge. In this review, we put forward an observation that long-standing principles of network biology and medicine -- while often unspoken in machine learning research -- can provide the conceptual grounding for representation learning, explain its current successes and limitations, and inform future advances. We synthesize a spectrum of algorithmic approaches that, at their core, leverage topological features to embed networks into compact vector spaces. We also provide a taxonomy of biomedical areas that are likely to benefit most from algorithmic innovation. Representation learning techniques are becoming essential for identifying causal variants underlying complex traits, disentangling behaviors of single cells and their impact on health, and diagnosing and treating diseases with safe and effective medicines.
翻訳日:2021-04-15 06:47:59 公開日:2021-04-11
# (参考訳) センサリッチ環境における構造バイアスと関連データの記述

Description of Structural Biases and Associated Data in Sensor-Rich Environments ( http://arxiv.org/abs/2104.04885v1 )

ライセンス: CC BY-SA 4.0
Massinissa Hamidi, Aomar Osmani(参考訳) 本稿では,センサリッチ環境における活動認識について検討する。 特に,帰納バイアスの問題とデータ収集プロセスへの影響について論じる。 効果的かつ堅牢にするためには、アクティビティ認識システムはこれらのバイアスをあらゆるレベルで考慮し、それらを制御可能なハイパーパラメータとしてモデル化する必要がある。 センサ計測,伝送プロトコル,センサ展開トポロジ,不均一性,動的性,確率的効果に関連するバイアスであっても,それらが行動認識モデルの品質に与える影響を理解することは重要である。 この研究は、例えば、これらの環境の動的性に適応し、センサーの故障に抵抗し、センサートポロジーの進化に従うように、現実の状況で生じる様々な種類のバイアスを分離する必要があることを強調する。 本稿では,センサデータをレイヤに構成するメタモデリングプロセスを提案する。 下位層は、データの変換、送信、トポロジに関連する様々なバイアスを符号化する。 上位層はデータ自体に関連するバイアスをエンコードする。 これにより、ハイパーパラメータをモデル化し、データ取得インフラストラクチャの変更をフォローしやすくなる。 実環境下で収集された人間の活動のリストにモーションセンサデータを提供するSHLデータセットへのアプローチについて述べる。 知識を行動認識モデルにエンコードし、組み込む方法として、トレードオフと我々のアプローチの幅広い意味について論じる。

In this article, we study activity recognition in the context of sensor-rich environments. We address, in particular, the problem of inductive biases and their impact on the data collection process. To be effective and robust, activity recognition systems must take these biases into account at all levels and model them as hyperparameters by which they can be controlled. Whether it is a bias related to sensor measurement, transmission protocol, sensor deployment topology, heterogeneity, dynamicity, or stochastic effects, it is important to understand their substantial impact on the quality of activity recognition models. This study highlights the need to separate the different types of biases arising in real situations so that machine learning models, e.g., adapt to the dynamicity of these environments, resist to sensor failures, and follow the evolution of the sensors topology. We propose a metamodeling process in which the sensor data is structured in layers. The lower layers encode the various biases linked to transformations, transmissions, and topology of data. The upper layers encode biases related to the data itself. This way, it becomes easier to model hyperparameters and follow changes in the data acquisition infrastructure. We illustrate our approach on the SHL dataset which provides motion sensor data for a list of human activities collected under real conditions. The trade-offs exposed and the broader implications of our approach are discussed with alternative techniques to encode and incorporate knowledge into activity recognition models.
翻訳日:2021-04-15 06:47:02 公開日:2021-04-11
# (参考訳) アフィニティに基づく人間行動認識のための依存概念の階層的学習

Affinity-Based Hierarchical Learning of Dependent Concepts for Human Activity Recognition ( http://arxiv.org/abs/2104.04889v1 )

ライセンス: CC BY-SA 4.0
Aomar Osmani, Massinissa Hamidi, Pegah Alizadeh(参考訳) ヒューマンアクティビティ認識のような多クラス分類タスクでは、クラスは分離可能であると仮定されることが多い。 実際のアプリケーションでは、この仮定は強くなり、矛盾を生み出す。 さらに、最も一般的に使用されるアプローチは、クラスを1対1で学習することです。 この計算単純化原理は、学習理論に強い帰納バイアスをもたらす。 実際、一部のクラス間の自然のつながりは、他のクラスではなく、考慮すべきものである。 本稿では,重複するクラス(複数継承)の階層化によって,分類性能が大幅に向上することを示す。 これは、SHLデータセットに特徴付けられるアクティビティ認識タスクの場合、特に当てはまります。 クラス階層の指数的複雑性を理論的に示した後,学習過程の最適階層を決定するために,クラス間の移動親和性に基づくアプローチを提案する。 広範な実験により、パフォーマンスが向上し、学習に必要なサンプル数が減少した。

In multi-class classification tasks, like human activity recognition, it is often assumed that classes are separable. In real applications, this assumption becomes strong and generates inconsistencies. Besides, the most commonly used approach is to learn classes one-by-one against the others. This computational simplification principle introduces strong inductive biases on the learned theories. In fact, the natural connections among some classes, and not others, deserve to be taken into account. In this paper, we show that the organization of overlapping classes (multiple inheritances) into hierarchies considerably improves classification performances. This is particularly true in the case of activity recognition tasks featured in the SHL dataset. After theoretically showing the exponential complexity of possible class hierarchies, we propose an approach based on transfer affinity among the classes to determine an optimal hierarchy for the learning process. Extensive experiments show improved performances and a reduction in the number of examples needed to learn.
翻訳日:2021-04-15 06:45:50 公開日:2021-04-11
# (参考訳) Atari Data Scraper

The Atari Data Scraper ( http://arxiv.org/abs/2104.04893v1 )

ライセンス: CC BY 4.0
Brittany Davis Pierson, Justine Ventura, Matthew E. Taylor(参考訳) 深層ニューラルネットワークを用いた手法の成功により、強化学習は近年大きな進歩を遂げている。 しかし、このようなニューラルネットワークはブラックボックスとして機能し、内部動作を阻害する。 強化学習はユニークな問題を解決する可能性があるが、信頼の欠如と強化学習アルゴリズムの理解が普及を妨げる可能性がある。 本稿では, 深層強化学習エージェントに「データスクレイパー」を付加し, オブザーバとして機能し, 深層強化学習エージェントの理解と解釈にAtari Data Scraperが収集したデータをどのように利用できるかを示す。 Atari Data Scraperのコードは以下の通りである。

Reinforcement learning has made great strides in recent years due to the success of methods using deep neural networks. However, such neural networks act as a black box, obscuring the inner workings. While reinforcement learning has the potential to solve unique problems, a lack of trust and understanding of reinforcement learning algorithms could prevent their widespread adoption. Here, we present a library that attaches a "data scraper" to deep reinforcement learning agents, acting as an observer, and then show how the data collected by the Atari Data Scraper can be used to understand and interpret deep reinforcement learning agents. The code for the Atari Data Scraper can be found here: https://github.com/IRLL/Atari-Data-Scraper
翻訳日:2021-04-15 06:33:24 公開日:2021-04-11
# (参考訳) 音声データセット構築のためのNeMoツールボックス

NeMo Toolbox for Speech Dataset Construction ( http://arxiv.org/abs/2104.04896v1 )

ライセンス: CC BY 4.0
Evelina Bakhturina, Vitaly Lavrukhin, Boris Ginsburg(参考訳) 本稿では,長い音声記録と生の参照テキストから音声データセットを構築するための新しいツールボックスを提案する。 音声データセット構築パイプラインの各ステップに、データ前処理、音声テキストアライメント、データ後処理、フィルタリングを含むツールを開発する。 提案するパイプラインは、テキストオーディオのミスマッチ問題に対処するためのヒューマン・イン・ザ・ループをサポートし、品質要件を満たさないサンプルを削除する。 我々は、LibriVoxオーディオブックからRuLS(RubriSpeech corpus)を構築することで、ツールボックス効率を実証した。 ツールボックスはNeMoフレームワークで公開されている。 RuLSコーパスはOpenSLRでリリースされている。

In this paper, we introduce a new toolbox for constructing speech datasets from long audio recording and raw reference texts. We develop tools for each step of the speech dataset construction pipeline including data preprocessing, audio-text alignment, data post-processing and filtering. The proposed pipeline also supports human-in-the-loop to address text-audio mismatch issues and remove samples that don't satisfy the quality requirements. We demonstrated the toolbox efficiency by building the Russian LibriSpeech corpus (RuLS) from LibriVox audiobooks. The toolbox is opne sourced in NeMo framework. The RuLS corpus is released in OpenSLR.
翻訳日:2021-04-15 06:24:58 公開日:2021-04-11
# (参考訳) サイバー物理社会システム(cpss)の体系化 : 体系的文献レビュー

Systemic formalisation of Cyber-Physical-Social System (CPSS): A systematic literature review ( http://arxiv.org/abs/2104.05710v1 )

ライセンス: CC BY 4.0
Bereket Abera Yilma, Herv\'e Panetto, Yannick Naudet(参考訳) CPSS(Cyber-Physical-Social System)の概念は、CPS(Cyber-Physical Systems)が人間に与える影響とその逆の影響を理解する必要性から生まれた新しい概念である。 CPSからCPSSへのこのパラダイムシフトは、主にセンサ対応スマートデバイスの使用の増加とユーザとの密接なリンクに起因する。 CPSSの概念は10年以上前からあり、ここ数年で注目を集めている。 CPSの研究に人間の側面を取り入れる進化は、多くの研究課題を解き放った。 特に人間のダイナミクスは、まだ探求されていない複雑さをもたらします。 CPSSの概念を概念化する探索は、いくつかの科学文献で部分的に解決されている。 概念化は常にユースケースに依存している。 したがって、ほとんどの研究が特定のドメインに焦点を当てているため、一般的なビューがない。 さらに、システム理論とシステム理論を結びつけるシステムコアと設計原則は緩やかである。 本研究は、まず科学文献を探索し分析し、システム文献レビュー(SLR)を通じてCPSSの全スペクトルを理解することを目的としている。 これにより、CPSSにおける定義に関する最先端の視点を特定し、原則と応用分野を概観する。 その後、SLRの知見に基づき、システム理論に基づくドメインに依存しない定義とCPSSのメタモデルを提案する。 最後に,システム概念とメタモデルに基づく将来的な研究の方向性について論じる。

The notion of Cyber-Physical-Social System (CPSS) is an emerging concept developed as a result of the need to understand the impact of Cyber-Physical Systems (CPS) on humans and vice versa. This paradigm shift from CPS to CPSS was mainly attributed to the increasing use of sensor-enabled smart devices and the tight link with the users. The concept of CPSS has been around for over a decade and it has gained increasing attention over the past few years. The evolution to incorporate human aspects in the CPS research has unlocked a number of research challenges. Particularly human dynamics brings additional complexity that is yet to be explored. The exploration to conceptualise the notion of CPSS has been partially addressed in few scientific literatures. Although its conceptualisation has always been use-case dependent. Thus, there is a lack of generic view as most works focus on specific domains. Furthermore, the systemic core and design principles linking it with the theory of systems are loose. This work aims at addressing these issues by first exploring and analysing scientific literature to understand the complete spectrum of CPSS through a Systematic Literature Review (SLR). Thereby identifying the state-of-the-art perspectives on CPSS regarding definitions, underlining principles and application areas. Subsequently, based on the findings of the SLR, we propose a domain-independent definition and a meta-model for CPSS, grounded in the Theory of Systems. Finally, a discussion on feasible future research directions is presented based on the systemic notion and the proposed meta-models.
翻訳日:2021-04-15 06:17:19 公開日:2021-04-11
# 深部ニューラルネットワークを用いたアポフィス小惑星フライバイ最適軌道の予測と地球-アポフィスミッション打ち上げWindowsのデータ融合

Prediction of Apophis Asteroid Flyby Optimal Trajectories and Data Fusion of Earth-Apophis Mission Launch Windows using Deep Neural Networks ( http://arxiv.org/abs/2104.06249v1 )

ライセンス: Link先を確認
Manuel Ntumba, Saurabh Gore, Jean-Baptiste Awanyo(参考訳) 近年、小惑星の理解は、近代的な探査機やレーダーや望遠鏡による調査によって、光の世界から地質世界へとシフトしている。 アポフィスの地球近傍。 しかし、2029年のフライバイは、内部地球物理学の研究を行い、小惑星に対する潮流力の影響に関する現在の仮説をテストする機会となる。 地球とアポフィスのミッションは、自然実験のユニークな機会を超えた追加の要因と科学的目標によって推進される。 しかし、内部の物理構造はほとんど不明である。 小惑星の強さと内部的完全性を理解することは、単なる科学的好奇心の問題ではない。 小惑星衝突の可能性に対して惑星防衛の知識を前進させることは実用的な手段である。 理論的な研究の積み重ねと、地球近傍の小惑星の形状、スピン、表面の変化の物理的証拠は、これらの地球とアポピース相互作用は、衝突研究自体が小惑星のリスク問題の基礎であることを示している。 本稿では,着陸から小惑星観測まで,あらゆる段階において効率性が要求される概念ロボットシステムを提案する。 要するに、小惑星観測ミッションは未来的なフロンティアであり、宇宙探査に革命をもたらす技術的成長の可能性を秘めている。 リスクを最小限に抑え、将来のミッションに備えるために、高度な宇宙技術とロボットシステムが必要である。 ニューラルネットワークモデルは、小惑星の軌道を追跡し予測するために実装されている。 エラーを最小限に抑えるために、軌道イベントを数値的に予測する高度なアルゴリズムも必要である。

In recent years, understanding asteroids has shifted from light worlds to geological worlds by exploring modern spacecraft and advanced radar and telescopic surveys. Apophis' near-Earth. However, flyby in 2029 will be an opportunity to conduct an internal geophysical study and test the current hypothesis on the effects of tidal forces on asteroids. The Earth-Apophis mission is driven by additional factors and scientific goals beyond the unique opportunity for natural experimentation. However, the internal geophysical structures remain largely unknown. Understanding the strength and internal integrity of asteroids is not just a matter of scientific curiosity. It is a practical imperative to advance knowledge for planetary defense against the possibility of an asteroid impact. The mounting of theoretical studies and physical evidence of tidal forces altering the shapes, spins, and surfaces of near-Earth asteroids indicates that these Earth-Apophis interactions are fundamental to the problem of asteroid risk as impact studies themselves. This paper presents a conceptual robotics system required for efficiency at every stage from entry to post-landing and for asteroid monitoring. In short, asteroid surveillance missions are futuristic frontiers, with the potential for technological growth that could revolutionize space exploration. Advanced space technologies and robotic systems are needed to minimize risk and prepare these technologies for future missions. A neural network model is implemented to track and predict asteroids' orbits. Advanced algorithms are also needed to numerically predict orbital events to minimize errors.
翻訳日:2021-04-14 13:14:25 公開日:2021-04-11
# (参考訳) 深層学習に基づく超解像ネットワークを用いたエッジ認識画像圧縮

Edge-Aware Image Compression using Deep Learning-based Super-resolution Network ( http://arxiv.org/abs/2104.04926v1 )

ライセンス: CC BY 4.0
Dipti Mishra, Satish Kumar Singh, Rajat Kumar Singh, Krishna Preetham(参考訳) 本稿では,前処理と後処理の深いCNN間の標準コーデックを包含する学習ベース圧縮方式を提案する。 具体的には, 圧縮圧縮ネットワークを利用した従来の手法よりも, (a) 従来の作業でよく発生するぼやけを防止するエッジ認識損失関数, (b) 処理後処理のための超解像畳み込みニューラルネットワーク, および対応する前処理ネットワークを導入し, レート歪み性能の向上を図る。 このアルゴリズムは、Set 5、Set 7, Classic 5、Set 14、Live 1、Kodak、General 100、CLIC 2019という、低解像度から高解像度のさまざまなデータセットに基づいて評価される。 JPEG,JPEG2000,BPG,および最近のCNNの手法と比較して,提案アルゴリズムはPSNRの20.75%,8.47%,3.22%,3.23%,24.59%,14.46%,10.14%,8.57%をそれぞれ低ビットレートで改善した。 同様に、MS-SSIMのこの改善はおよそ71.43%、50%、36.36%、23.08%、64.70%、64.47%、61.29%、47.06%、51.52%、16.28%である。 CLIC 2019データセットでは、PSNRは約16.67%、10.53%、6.78%、24.62%、17.39%、14.08%の低ビットレートで、JPEG2000、BPG、最近のCNNアプローチよりも優れている。 同様に、MS-SSIMは約72%、45.45%、39.13%、18.52%、71.43%、50%、41.18%、17.07%の低ビットレートである。 同様の改善は、他のデータセットでも実現されている。

We propose a learning-based compression scheme that envelopes a standard codec between pre and post-processing deep CNNs. Specifically, we demonstrate improvements over prior approaches utilizing a compression-decompression network by introducing: (a) an edge-aware loss function to prevent blurring that is commonly occurred in prior works & (b) a super-resolution convolutional neural network (CNN) for post-processing along with a corresponding pre-processing network for improved rate-distortion performance in the low rate regime. The algorithm is assessed on a variety of datasets varying from low to high resolution namely Set 5, Set 7, Classic 5, Set 14, Live 1, Kodak, General 100, CLIC 2019. When compared to JPEG, JPEG2000, BPG, and recent CNN approach, the proposed algorithm contributes significant improvement in PSNR with an approximate gain of 20.75%, 8.47%, 3.22%, 3.23% and 24.59%, 14.46%, 10.14%, 8.57% at low and high bit-rates respectively. Similarly, this improvement in MS-SSIM is approximately 71.43%, 50%, 36.36%, 23.08%, 64.70% and 64.47%, 61.29%, 47.06%, 51.52%, 16.28% at low and high bit-rates respectively. With CLIC 2019 dataset, PSNR is found to be superior with approximately 16.67%, 10.53%, 6.78%, and 24.62%, 17.39%, 14.08% at low and high bit-rates respectively, over JPEG2000, BPG, and recent CNN approach. Similarly, the MS-SSIM is found to be superior with approximately 72%, 45.45%, 39.13%, 18.52%, and 71.43%, 50%, 41.18%, 17.07% at low and high bit-rates respectively, compared to the same approaches. A similar type of improvement is achieved with other datasets also.
翻訳日:2021-04-14 13:05:03 公開日:2021-04-11
# (参考訳) 経時的外挿によるディープニューラルネットワークの精度可視化

Enhancing Deep Neural Network Saliency Visualizations with Gradual Extrapolation ( http://arxiv.org/abs/2104.04945v1 )

ライセンス: CC BY 4.0
Tomasz Szandala(参考訳) 本稿では,cnnモデルを用いた意思決定の視覚的な説明を示す,grad-cam や excitation backpropagation などのクラスアクティベーションマッピング手法の強化手法を提案する。 我々のアイデアはGradual Extrapolationと呼ばれ、出力をシャープすることでヒートマップ画像を生成するメソッドを補うことができる。 画像内の重要な予測領域を強調表示した粗い局所化マップを生成する代わりに,本手法はモデル出力に最も寄与する特定の形状を出力する。 これにより、塩分マップの精度が向上する。 この効果は, 深層で得られた粗写像の活性化に関する全ての先行層を段階的に伝播させることによって達成された。 選択した画像を用いた検証試験において,提案手法はニューラルネットワークの注意の局在検出を著しく改善した。 さらに,提案手法は任意の深層ニューラルネットワークモデルに適用可能である。

We propose an enhancement technique of the Class Activation Mapping methods like Grad-CAM or Excitation Backpropagation, which presents visual explanations of decisions from CNN-based models. Our idea, called Gradual Extrapolation, can supplement any method that generates a heatmap picture by sharpening the output. Instead of producing a coarse localization map highlighting the important predictive regions in the image, our method outputs the specific shape that most contributes to the model output. Thus, it improves the accuracy of saliency maps. Effect has been achieved by gradual propagation of the crude map obtained in deep layer through all preceding layers with respect to their activations. In validation tests conducted on a selected set of images, the proposed method significantly improved the localization detection of the neural networks' attention. Furthermore, the proposed method is applicable to any deep neural network model.
翻訳日:2021-04-14 12:39:40 公開日:2021-04-11
# (参考訳) 会話的意味的役割ラベリング

Conversational Semantic Role Labeling ( http://arxiv.org/abs/2104.04947v1 )

ライセンス: CC BY 4.0
Kun Xu, Han Wu, Linfeng Song, Haisong Zhang, Linqi Song, Dong Yu(参考訳) 意味的役割ラベル付け(SRL)は、入力文中の各述語に対する引数を抽出することを目的としている。 従来のsrlは全ての文でのみ動作するため、対話の分析に失敗し、一方、エリプシスとアナフォラは対話で頻繁に発生する。 この問題に対処するために、対話的SRLタスクを提案し、議論は対話参加者、対話履歴のフレーズ、あるいは現在の文となることができる。 既存のSRLデータセットは文レベルにあるので、3000のチャット対話(27,198文)のセマンティックロールを手動でアノテートして、この方向の研究を促進する。 実験によれば、従来のsrlシステム(参照解像度や書き直しの助けを借りて)は対話の分析に乏しいが、対話履歴のモデル化や参加者は、対話へのsrlの適用が普遍的な対話理解に非常に有望であることを示している。 CSRLを2つの主要な会話課題、対話応答生成と対話コンテキスト書き換えに適用することにより、CSRLの有用性を確認する。

Semantic role labeling (SRL) aims to extract the arguments for each predicate in an input sentence. Traditional SRL can fail to analyze dialogues because it only works on every single sentence, while ellipsis and anaphora frequently occur in dialogues. To address this problem, we propose the conversational SRL task, where an argument can be the dialogue participants, a phrase in the dialogue history or the current sentence. As the existing SRL datasets are in the sentence level, we manually annotate semantic roles for 3,000 chit-chat dialogues (27,198 sentences) to boost the research in this direction. Experiments show that while traditional SRL systems (even with the help of coreference resolution or rewriting) perform poorly for analyzing dialogues, modeling dialogue histories and participants greatly helps the performance, indicating that adapting SRL to conversations is very promising for universal dialogue understanding. Our initial study by applying CSRL to two mainstream conversational tasks, dialogue response generation and dialogue context rewriting, also confirms the usefulness of CSRL.
翻訳日:2021-04-14 12:33:38 公開日:2021-04-11
# (参考訳) ディープラーニングにおけるモデル選択のためのスケーラブルな限界確率推定

Scalable Marginal Likelihood Estimation for Model Selection in Deep Learning ( http://arxiv.org/abs/2104.04975v1 )

ライセンス: CC BY 4.0
Alexander Immer, Matthias Bauer, Vincent Fortuin, Gunnar R\"atsch, Mohammad Emtiyaz Khan(参考訳) Marginal-likelihood に基づくモデル選択は、有望ではあるが、推定困難のためディープラーニングではほとんど使われない。 代わりに、ほとんどのアプローチは、簡単には利用できない検証データに依存している。 本研究では,トレーニングデータのみに基づいてハイパーパラメータとネットワークアーキテクチャの両方を選択できるスケーラブルな境界類似度推定手法を提案する。 一部のハイパーパラメータは、トレーニング中にオンラインで見積もることができ、手順が簡単になる。 ラプラス法とガウス・ニュートン法をヘッセン語に近似し,標準回帰および画像分類データセット,特にキャリブレーションとアウト・オブ・ディストリビューション検出において,クロスバリデーションと手動チューニングを上回ります。 我々の研究は、限界確率が一般化を改善し、検証データが利用できない場合(例えば、非定常的な設定)に有用であることを示している。

Marginal-likelihood based model-selection, even though promising, is rarely used in deep learning due to estimation difficulties. Instead, most approaches rely on validation data, which may not be readily available. In this work, we present a scalable marginal-likelihood estimation method to select both the hyperparameters and network architecture based on the training data alone. Some hyperparameters can be estimated online during training, simplifying the procedure. Our marginal-likelihood estimate is based on Laplace's method and Gauss-Newton approximations to the Hessian, and it outperforms cross-validation and manual-tuning on standard regression and image classification datasets, especially in terms of calibration and out-of-distribution detection. Our work shows that marginal likelihoods can improve generalization and be useful when validation data is unavailable (e.g., in nonstationary settings).
翻訳日:2021-04-14 11:10:42 公開日:2021-04-11
# (参考訳) AutoGL: グラフ学習を自動化するライブラリ

AutoGL: A Library for Automated Graph Learning ( http://arxiv.org/abs/2104.04987v1 )

ライセンス: CC BY 4.0
Chaoyu Guan, Ziwei Zhang, Haoyang Li, Heng Chang, Zeyang Zhang, Yijian Qin, Jiyan Jiang, Xin Wang, Wenwu Zhu(参考訳) 近年、グラフ上での機械学習の研究関心や応用の高まりを目撃している。 グラフ上の自動機械学習(automl)は、与えられたグラフタスクに最適な機械学習アルゴリズムを自動的に設計する。 しかし、現在のライブラリはすべて、グラフ上でAutoMLをサポートできない。 そこで本研究では,グラフ上で自動機械学習を行う最初のライブラリであるautomated graph learning (autogl)を提案する。 autoglはオープンソースであり、使いやすく、拡張も柔軟である。 具体的には,オートフィーチャーエンジニアリング,モデルトレーニング,ハイパーパラメータ最適化,オートアンサンブルという4つのモジュールを含むグラフデータのための自動機械学習パイプラインを提案する。 各モジュールに対して、多数の最先端のメソッドとフレキシブルなベースクラスとAPIを提供しています。 さらに、AutoGLライブラリの使用例を示す実験結果も提供します。

Recent years have witnessed an upsurge of research interests and applications of machine learning on graphs. Automated machine learning (AutoML) on graphs is on the horizon to automatically design the optimal machine learning algorithm for a given graph task. However, all current libraries cannot support AutoML on graphs. To tackle this problem, we present Automated Graph Learning (AutoGL), the first library for automated machine learning on graphs. AutoGL is open-source, easy to use, and flexible to be extended. Specifically, We propose an automated machine learning pipeline for graph data containing four modules: auto feature engineering, model training, hyper-parameter optimization, and auto ensemble. For each module, we provide numerous state-of-the-art methods and flexible base classes and APIs, which allow easy customization. We further provide experimental results to showcase the usage of our AutoGL library.
翻訳日:2021-04-14 10:18:57 公開日:2021-04-11
# (参考訳) NorDial: ノルウェー語で書かれた単語の予備コーパス

NorDial: A Preliminary Corpus of Written Norwegian Dialect Use ( http://arxiv.org/abs/2104.04989v1 )

ライセンス: CC BY 4.0
Jeremy Barnes and Petter M{\ae}hlum and Samia Touileb(参考訳) ノルウェーには方言のバリエーションが豊富で、公共の場での使用に対する一般的な寛容性がある。 しかし、このバリエーションと、時間とともに、そしてより非公式な領域で変化を研究するための利用可能なリソースは、ほとんどない。 本稿では,ノルウェー語表記の方言変化のコーパスを作成するための第一歩を提案する。 ツイートの小さなコーパスを収集し、それをbokm{\aa}l、nynorsk、どんな方言、あるいはミックスとして手動で注釈付けします。 我々はさらに、最先端モデルによる予備実験を行い、将来このコーパスを拡張するためのデータの解析を行う。 最後に、アノテーションとモデルを将来の作業で利用できるようにします。

Norway has a large amount of dialectal variation, as well as a general tolerance to its use in the public sphere. There are, however, few available resources to study this variation and its change over time and in more informal areas, \eg on social media. In this paper, we propose a first step to creating a corpus of dialectal variation of written Norwegian. We collect a small corpus of tweets and manually annotate them as Bokm{\aa}l, Nynorsk, any dialect, or a mix. We further perform preliminary experiments with state-of-the-art models, as well as an analysis of the data to expand this corpus in the future. Finally, we make the annotations and models available for future work.
翻訳日:2021-04-14 10:09:43 公開日:2021-04-11
# (参考訳) 教師なし最小四角形における鞍点

Saddlepoints in Unsupervised Least Squares ( http://arxiv.org/abs/2104.05000v1 )

ライセンス: CC BY 4.0
Samuel Gerber(参考訳) 本稿では,深層自己符号化ニューラルネットの文脈における教師なし最小二乗のリスクランドスケープについて考察する。 我々は、教師なし最小二乗と主多様体の間の同値性を正式に確立する。 このリンクは、平均二乗誤差の下でのオートエンコーディングのリスクランドスケープ、特にすべての非自明な臨界点はサドルポイントである。 サドルポイントを見つけることはそれ自体が困難であり、オーバーコンプリートな自動エンコーディングはサドルポイントが縮退する追加の課題をもたらす。 本稿では, 自動エンコーダの正規化, 特にボトルネック, 復号化, 収縮自動エンコードについて論じるとともに, 契約正規化の特定の形態として捉えることができる新しい最適化戦略を提案する。

This paper sheds light on the risk landscape of unsupervised least squares in the context of deep auto-encoding neural nets. We formally establish an equivalence between unsupervised least squares and principal manifolds. This link provides insight into the risk landscape of auto--encoding under the mean squared error, in particular all non-trivial critical points are saddlepoints. Finding saddlepoints is in itself difficult, overcomplete auto-encoding poses the additional challenge that the saddlepoints are degenerate. Within this context we discuss regularization of auto-encoders, in particular bottleneck, denoising and contraction auto-encoding and propose a new optimization strategy that can be framed as particular form of contractive regularization.
翻訳日:2021-04-14 09:51:22 公開日:2021-04-11
# (参考訳) 低次元知識グラフ埋め込みによるマルチランアンサンブル学習

Multiple Run Ensemble Learning withLow-Dimensional Knowledge Graph Embeddings ( http://arxiv.org/abs/2104.05003v1 )

ライセンス: CC BY 4.0
Chengjin Xu, Mojtaba Nayyeri, Sahar Vahdati, and Jens Lehmann(参考訳) 近年,知識グラフ埋め込み(KGE)モデルを用いたリンク予測は,知識グラフの完成に大きく注目されている。 これまでに様々な埋め込みモデルが提案されており、その中でも最近のKGEモデルは高次元の埋め込みを用いてリンク予測タスクの最先端性能を得る。 1000) 大規模なKGを考慮し, 訓練・評価のコストを増大させる。 本稿では,同じモデルの異なる繰り返しラウンドにおいて,複数の低次元を用いて,KGEモデルの簡易かつ効果的な性能向上戦略を提案する。 例えば、1200という大きな埋め込みサイズで1回モデルをトレーニングするのではなく、200の埋め込みサイズと並行して6回モデルのトレーニングを繰り返し、調整可能なパラメータの合計数が同じ(6*200=1200)でテストのために6つの別々のモデルを組み合わせて、メモリフットプリント全体が同じです。 提案手法は, 対称, 1-n, n-1, n-n などのグラフパターンをモデル化する際の表現性問題に, 異なるモデルでよりうまく対処できることを示す。 得られた知見を正当化するため,様々なKGEモデルを用いて実験を行った。 標準ベンチマークデータセットであるFB15K,FB15K-237,WN18RRの実験結果は,同一種の複数の低次元モデルが,リンク予測における対応する単一高次元モデルを一定の範囲で上回り,調整可能なパラメータの総数は同じでありながら,並列トレーニングを用いてトレーニング効率を向上することを示した。

Among the top approaches of recent years, link prediction using knowledge graph embedding (KGE) models has gained significant attention for knowledge graph completion. Various embedding models have been proposed so far, among which, some recent KGE models obtain state-of-the-art performance on link prediction tasks by using embeddings with a high dimension (e.g. 1000) which accelerate the costs of training and evaluation considering the large scale of KGs. In this paper, we propose a simple but effective performance boosting strategy for KGE models by using multiple low dimensions in different repetition rounds of the same model. For example, instead of training a model one time with a large embedding size of 1200, we repeat the training of the model 6 times in parallel with an embedding size of 200 and then combine the 6 separate models for testing while the overall numbers of adjustable parameters are same (6*200=1200) and the total memory footprint remains the same. We show that our approach enables different models to better cope with their expressiveness issues on modeling various graph patterns such as symmetric, 1-n, n-1 and n-n. In order to justify our findings, we conduct experiments on various KGE models. Experimental results on standard benchmark datasets, namely FB15K, FB15K-237 and WN18RR, show that multiple low-dimensional models of the same kind outperform the corresponding single high-dimensional models on link prediction in a certain range and have advantages in training efficiency by using parallel training while the overall numbers of adjustable parameters are same.
翻訳日:2021-04-14 09:37:13 公開日:2021-04-11
# (参考訳) オンラインソーシャルネットワークの構造は語彙変化の速度を変化させる

The structure of online social networks modulates the rate of lexical change ( http://arxiv.org/abs/2104.05010v1 )

ライセンス: CC BY 4.0
Jian Zhu and David Jurgens(参考訳) コミュニティに新しい言葉が定期的に導入されるが、コミュニティのレキシコンにこれらすべての単語が持続するわけではない。 語彙変化に寄与する多くの要因の中で,ソーシャルネットワークの効果について検討する。 我々は10年間で4420のオンラインコミュニティで80万以上のネオロジズムを大規模に分析している。 本研究は,Poisson回帰分析と生存分析を用いて,コミュニティのネットワーク構造が語彙変化に重要な役割を果たすことを示す。 全体的なサイズとは別に、密接な接続、局所的なクラスタの欠如、外部からの接触などを含む特性は、語彙の革新と保持を促進する。 オフラインのコミュニティとは異なり、これらのトピックベースのコミュニティは、接触が増えたにもかかわらず強い語彙レベルを経験しないが、よりニッチな言葉を許容できる。 我々の研究は、語彙変化は基礎となるネットワークの構造によって部分的に形成されるが、オンラインコミュニティ特有の発見も明らかにする、という社会言語学的仮説を支持する。

New words are regularly introduced to communities, yet not all of these words persist in a community's lexicon. Among the many factors contributing to lexical change, we focus on the understudied effect of social networks. We conduct a large-scale analysis of over 80k neologisms in 4420 online communities across a decade. Using Poisson regression and survival analysis, our study demonstrates that the community's network structure plays a significant role in lexical change. Apart from overall size, properties including dense connections, the lack of local clusters and more external contacts promote lexical innovation and retention. Unlike offline communities, these topic-based communities do not experience strong lexical levelling despite increased contact but accommodate more niche words. Our work provides support for the sociolinguistic hypothesis that lexical change is partially shaped by the structure of the underlying network but also uncovers findings specific to online communities.
翻訳日:2021-04-14 09:21:26 公開日:2021-04-11
# (参考訳) covnet: 多次元領域上の関数データに対する共分散ネットワーク

CovNet: Covariance Networks for Functional Data on Multidimensional Domains ( http://arxiv.org/abs/2104.05021v1 )

ライセンス: CC BY 4.0
Soham Sarkar and Victor M. Panaretos(参考訳) 関数データ解析において共分散推定はユビキタスである。 しかし、多次元領域上の関数的観測の場合、計算的および統計的問題が発生し、標準手法を効果的に適用できない。 この問題に対処するために、モデリングおよび推定ツールとしてCovariance Networks (CovNet)を導入する。 CovNetモデルは普遍的であり、任意の共分散を所望の精度まで近似するのに使うことができる。 さらに、モデルがデータに効率的に適合し、そのニューラルネットワークアーキテクチャにより、実装に現代的な計算ツールを利用できる。 CovNetモデルは、共分散自体を構築することなく効率的に計算できる閉形式固有分解も認めている。 これにより、CovNetのコンテキストでのストレージとその後の操作が容易になる。 さらに,提案した推定器の整合性を確立し,収束率を導出する。 提案手法の有用性は,広範囲なシミュレーション研究によって実証された。

Covariance estimation is ubiquitous in functional data analysis. Yet, the case of functional observations over multidimensional domains introduces computational and statistical challenges, rendering the standard methods effectively inapplicable. To address this problem, we introduce Covariance Networks (CovNet) as a modeling and estimation tool. The CovNet model is universal -- it can be used to approximate any covariance up to desired precision. Moreover, the model can be fitted efficiently to the data and its neural network architecture allows us to employ modern computational tools in the implementation. The CovNet model also admits a closed-form eigen-decomposition, which can be computed efficiently, without constructing the covariance itself. This facilitates easy storage and subsequent manipulation in the context of the CovNet. Moreover, we establish consistency of the proposed estimator and derive its rate of convergence. The usefulness of the proposed method is demonstrated by means of an extensive simulation study.
翻訳日:2021-04-14 09:02:12 公開日:2021-04-11
# (参考訳) wec: wikipediaによる大規模クロスドキュメントイベントコリファレンスデータセットの導出

WEC: Deriving a Large-scale Cross-document Event Coreference dataset from Wikipedia ( http://arxiv.org/abs/2104.05022v1 )

ライセンス: CC BY 4.0
Alon Eirew, Arie Cattan, Ido Dagan(参考訳) クロスドキュメントイベントコア参照解決は、マルチテキスト処理を含むNLPアプリケーションの基本課題である。 しかし、このタスクの既存のコーパスは少なく比較的小さく、同じトピックに属する文書の控えめなサイズのクラスタのみに注釈を付けている。 これらのリソースを補完し、今後の研究を強化するために、wikipediaからドキュメント横断イベントコリファレンスのための大規模データセットを収集するための効率的な方法論であるwikipedia event coreference(wec)を提案する。 この手法を英語ウィキペディアに適用し,大規模wec-engデータセットを抽出する。 特に、データセット作成メソッドは汎用的で、他のwikipedia言語に対して比較的少ない労力で適用できます。 ベースラインとなる結果を設定するために,文書内コリファレンス解像度に最先端モデルのコンポーネントを適用するアルゴリズムを開発した。 我々のモデルは最適に効率的であり、以前公表されたタスクの最先端結果よりも優れています。

Cross-document event coreference resolution is a foundational task for NLP applications involving multi-text processing. However, existing corpora for this task are scarce and relatively small, while annotating only modest-size clusters of documents belonging to the same topic. To complement these resources and enhance future research, we present Wikipedia Event Coreference (WEC), an efficient methodology for gathering a large-scale dataset for cross-document event coreference from Wikipedia, where coreference links are not restricted within predefined topics. We apply this methodology to the English Wikipedia and extract our large-scale WEC-Eng dataset. Notably, our dataset creation method is generic and can be applied with relatively little effort to other Wikipedia languages. To set baseline results, we develop an algorithm that adapts components of state-of-the-art models for within-document coreference resolution to the cross-document setting. Our model is suitably efficient and outperforms previously published state-of-the-art results for the task.
翻訳日:2021-04-14 09:00:37 公開日:2021-04-11
# (参考訳) 体積スカラー場の圧縮的神経表現

Compressive Neural Representations of Volumetric Scalar Fields ( http://arxiv.org/abs/2104.04523v1 )

ライセンス: CC BY 4.0
Yuzhe Lu, Kairong Jiang, Joshua A. Levine, and Matthew Berger(参考訳) 本稿では,暗黙的ニューラル表現を用いた体積スカラー場圧縮手法を提案する。 我々のアプローチはスカラー場を学習関数として表現し、ニューラルネットワークはドメイン内の点を出力スカラー値にマッピングする。 ニューラルネットワークの重み数を入力サイズより小さくすることで、スカラー場の圧縮表現を実現し、関数近似の一種としてのフレーミング圧縮を実現する。 ネットワークの重みを慎重に定量化することで、このアプローチは最先端のボリューム圧縮アプローチを上回る非常にコンパクトな表現が得られることを示す。 提案手法の概念的単純さにより,時変スカラー場のサポート,空間勾配の保存の最適化,ランダムアクセス場評価など,多くのメリットが期待できる。 本研究では,ネットワーク設計選択が圧縮性能に与える影響について検討し,ネットワークアーキテクチャが広範に有効であることを示す。

We present an approach for compressing volumetric scalar fields using implicit neural representations. Our approach represents a scalar field as a learned function, wherein a neural network maps a point in the domain to an output scalar value. By setting the number of weights of the neural network to be smaller than the input size, we achieve compressed representations of scalar fields, thus framing compression as a type of function approximation. Combined with carefully quantizing network weights, we show that this approach yields highly compact representations that outperform state-of-the-art volume compression approaches. The conceptual simplicity of our approach enables a number of benefits, such as support for time-varying scalar fields, optimizing to preserve spatial gradients, and random-access field evaluation. We study the impact of network design choices on compression performance, highlighting how simple network architectures are effective for a broad range of volumes.
翻訳日:2021-04-14 08:44:35 公開日:2021-04-11
# (参考訳) 物体検出用変形可能なカプセル

Deformable Capsules for Object Detection ( http://arxiv.org/abs/2104.05031v1 )

ライセンス: CC0 1.0
Rodney Lalonde, Naji Khosravan, Ulas Bagci(参考訳) カプセルネットワークは、より強固な内部表現を格納し、中間表現の射影間の合意に基づくルーティング情報を格納することで、畳み込みネットワークよりも大きな利点を約束する。 しかし、その成功は計算的に高価な性質のため、小規模の分類データセットに限られている。 近年の研究では、畳み込みカプセルによる特徴の動的ルーティングを局所的に制限することで、この負担を部分的に克服している。 記憶効率は良いが、畳み込みカプセルは幾何学的な制約を課し、カプセルが物体のポーズや変形をモデル化する能力を制限する。 さらに、検出や大規模分類のようなより大きなタスクにスケールアップするクラスカプセルのより大きなメモリ上の懸念にも対処しない。 本研究では,変形可能なカプセル (deformcaps) と新しいカプセル構造 (splitcaps) と新しい動的ルーティングアルゴリズム (se-routing) を導入した。 提案手法により、カプセルを大規模コンピュータビジョンタスクに効率よくスケールアップし、文献におけるオブジェクト検出のための初のカプセルネットワークを構築することができる。 提案アーキテクチャは1段階検出フレームワークであり,最先端の1段階CNN手法と同等であり,偽陽性検出の少ないMS COCOで結果を得る。

Capsule networks promise significant benefits over convolutional networks by storing stronger internal representations, and routing information based on the agreement between intermediate representations' projections. Despite this, their success has been mostly limited to small-scale classification datasets due to their computationally expensive nature. Recent studies have partially overcome this burden by locally-constraining the dynamic routing of features with convolutional capsules. Though memory efficient, convolutional capsules impose geometric constraints which fundamentally limit the ability of capsules to model the pose/deformation of objects. Further, they do not address the bigger memory concern of class-capsules scaling-up to bigger tasks such as detection or large-scale classification. In this study, we introduce deformable capsules (DeformCaps), a new capsule structure (SplitCaps), and a novel dynamic routing algorithm (SE-Routing) to balance computational efficiency with the need for modeling a large number of objects and classes. We demonstrate that the proposed methods allow capsules to efficiently scale-up to large-scale computer vision tasks for the first time, and create the first-ever capsule network for object detection in the literature. Our proposed architecture is a one-stage detection framework and obtains results on MS COCO which are on-par with state-of-the-art one-stage CNN-based methods, while producing fewer false positive detections.
翻訳日:2021-04-14 08:20:49 公開日:2021-04-11
# (参考訳) USACv20: 頑健な本質的, 基本的, ホモグラフィ的行列推定

USACv20: robust essential, fundamental and homography matrix estimation ( http://arxiv.org/abs/2104.05044v1 )

ライセンス: CC BY 4.0
Maksym Ivashechkin, Daniel Barath, Jiri Matas(参考訳) 我々は、最新のRANSACのような仮説と検証の堅牢な推定器についてレビューする。 最高のパフォーマンスは、Universal Sample Consensus (USAC)アルゴリズムの最先端バージョンを作成するために組み合わせられる。 最近の目標は、モジュール化され最適化されたフレームワークを実装することであり、将来のransacモジュールを組み込むのが容易になる。 提案手法であるusacv20は8つの実世界のデータセット上でテストされ、ホモグラフ、基本行列、本質行列を推定する。 平均して、usacv20は最も幾何学的に正確なモデルとなり、最先端のロバストな推定器と比較して最速である。 報告された全ての特性は、オリジナルのUSACアルゴリズムの性能を大幅に改善した。 パイプラインは公開後に利用可能になる。

We review the most recent RANSAC-like hypothesize-and-verify robust estimators. The best performing ones are combined to create a state-of-the-art version of the Universal Sample Consensus (USAC) algorithm. A recent objective is to implement a modular and optimized framework, making future RANSAC modules easy to be included. The proposed method, USACv20, is tested on eight publicly available real-world datasets, estimating homographies, fundamental and essential matrices. On average, USACv20 leads to the most geometrically accurate models and it is the fastest in comparison to the state-of-the-art robust estimators. All reported properties improved performance of original USAC algorithm significantly. The pipeline will be made available after publication.
翻訳日:2021-04-14 08:02:44 公開日:2021-04-11
# (参考訳) Rank-R FNN:高次データ分類のためのテンソルベース学習モデル

Rank-R FNN: A Tensor-Based Learning Model for High-Order Data Classification ( http://arxiv.org/abs/2104.05048v1 )

ライセンス: CC BY 4.0
Konstantinos Makantasis, Alexandros Georgogiannis, Athanasios Voulodimos, Ioannis Georgoulas, Anastasios Doulamis, Nikolaos Doulamis(参考訳) データサイエンスとエンジニアリングにおける新たな応用は、多次元および構造的にリッチなデータに基づいている。 しかし、高次元データの不規則性は、しばしば標準的な機械学習アルゴリズムの有効性を損なう。 本稿では,そのパラメータに正準・多進分解を課すテンソル型非線形学習モデル rank-r feedforward neural network (fnn) を提案する。 まず、入力をマルチリニアアレイとして扱い、ベクトル化の必要性を回避し、すべてのデータ次元に沿って構造情報を十分に活用することができる。 さらに、モデルのトレーニング可能なパラメータの数は大幅に減少し、小さなサンプル設定問題に対して非常に効率的になる。 rank-r fnnの普遍近似と学習性を確立し,実世界のハイパースペクトルデータセット上での性能を検証する。 実験により,Ranc-R FNNは高次テンソルデータに対する最先端性能を実現する通常のFNNの計算コストが低いことを示す。

An increasing number of emerging applications in data science and engineering are based on multidimensional and structurally rich data. The irregularities, however, of high-dimensional data often compromise the effectiveness of standard machine learning algorithms. We hereby propose the Rank-R Feedforward Neural Network (FNN), a tensor-based nonlinear learning model that imposes Canonical/Polyadic decomposition on its parameters, thereby offering two core advantages compared to typical machine learning methods. First, it handles inputs as multilinear arrays, bypassing the need for vectorization, and can thus fully exploit the structural information along every data dimension. Moreover, the number of the model's trainable parameters is substantially reduced, making it very efficient for small sample setting problems. We establish the universal approximation and learnability properties of Rank-R FNN, and we validate its performance on real-world hyperspectral datasets. Experimental evaluations show that Rank-R FNN is a computationally inexpensive alternative of ordinary FNN that achieves state-of-the-art performance on higher-order tensor data.
翻訳日:2021-04-14 07:48:36 公開日:2021-04-11
# (参考訳) 生命予後改善のためのエンドツーエンドモデルによる学習表現

Learning representations with end-to-end models for improved remaining useful life prognostics ( http://arxiv.org/abs/2104.05049v1 )

ライセンス: CC BY 4.0
Alaaeddine Chaoub, Alexandre Voisin, Christophe Cerisara, Beno\^it Iung(参考訳) 残りの設備の実用寿命(RUL)は、現在の時刻と故障までの期間として定義される。 残りの有用な生活の正確で信頼性の高い予測は、意思決定者に適切なメンテナンス戦略を採用するための貴重な情報を提供し、機器の使用を最大化し、コストのかかる故障を避ける。 本研究では,多層パーセプトロンと長短期記憶層(LSTM)に基づくエンドツーエンドのディープラーニングモデルを提案し,RULを予測する。 すべてのデータの正規化後、入力は特徴学習のために直接MLP層に送られ、その後LSTM層に送られ、時間的依存関係をキャプチャし、最後にRULの他のMLP層に送られる。 提案アーキテクチャは、NASAの商用モジュール型エアロ推進システムシミュレーション(C-MAPSS)データセットで検証される。 最近提案された他のモデルに対して単純であるにもかかわらず、このモデルでは、競合スコアとRULの予測値と金値の間のルート平均2乗誤差スコアが大幅に低下し、性能が向上した。 本稿では,提案したエンドツーエンドモデルを用いて,このような優れた結果が得られ,他のディープラーニングや最先端手法と比較する。

The remaining Useful Life (RUL) of equipment is defined as the duration between the current time and its failure. An accurate and reliable prognostic of the remaining useful life provides decision-makers with valuable information to adopt an appropriate maintenance strategy to maximize equipment utilization and avoid costly breakdowns. In this work, we propose an end-to-end deep learning model based on multi-layer perceptron and long short-term memory layers (LSTM) to predict the RUL. After normalization of all data, inputs are fed directly to an MLP layers for feature learning, then to an LSTM layer to capture temporal dependencies, and finally to other MLP layers for RUL prognostic. The proposed architecture is tested on the NASA commercial modular aero-propulsion system simulation (C-MAPSS) dataset. Despite its simplicity with respect to other recently proposed models, the model developed outperforms them with a significant decrease in the competition score and in the root mean square error score between the predicted and the gold value of the RUL. In this paper, we will discuss how the proposed end-to-end model is able to achieve such good results and compare it to other deep learning and state-of-the-art methods.
翻訳日:2021-04-14 07:26:25 公開日:2021-04-11
# (参考訳) マルチスケール魚目標高速検出ネットワークの最適化手法に関する研究

Research on Optimization Method of Multi-scale Fish Target Fast Detection Network ( http://arxiv.org/abs/2104.05050v1 )

ライセンス: CC BY 4.0
Yang Liu, Shengmao Zhang, Fei Wang, Wei Fan, Guohua Zou, Jing Bo(参考訳) 魚標的検出アルゴリズムは,高品質なデータセットを欠き,組込み装置上での低消費電力のリアルタイム検出を実現しており,計算速度と識別能力のバランスをとることは困難である。 そこで本稿では,10042枚の画像を含む84種の魚類の「水槽魚」というデータセットを収集・注釈し,そのデータをもとに,多次元入力高速魚ターゲット検出ネットワーク(btp-yolov3)とその最適化手法を提案する。 この実験では、奥行きの畳み込みを用いてヨーロV4ネットワークのバックボーンを再設計し、計算量を94.1%削減し、テスト精度は92.34%である。 そして、ミックスアップ、カットミックス、モザイクによりトレーニングモデルを強化し、テスト精度を1.27%向上させ、最後にmish、swish、eluアクティベーション関数を使用してテスト精度を0.76%向上させる。 その結果、2000枚の魚画像でネットワークをテストする精度は94.37%に達し、BFLOPSの計算複雑性はわずか5.47であった。 YoloV3~4、MobileNetV2-yoloV3、YoloV3-tinyのマイグレーション学習ネットワークを比較した。 その結果, btp-yolov3はモデルパラメータが小さく, 計算速度が速く, 動作中のエネルギー消費量が低減され, 計算精度が向上した。 ニューラルネットワークの実践的な応用に一定の基準値を提供する。

The fish target detection algorithm lacks a good quality data set, and the algorithm achieves real-time detection with lower power consumption on embedded devices, and it is difficult to balance the calculation speed and identification ability. To this end, this paper collected and annotated a data set named "Aquarium Fish" of 84 fishes containing 10042 images, and based on this data set, proposed a multi-scale input fast fish target detection network (BTP-yoloV3) and its optimization method. The experiment uses Depthwise convolution to redesign the backbone of the yoloV4 network, which reduces the amount of calculation by 94.1%, and the test accuracy is 92.34%. Then, the training model is enhanced with MixUp, CutMix, and mosaic to increase the test accuracy by 1.27%; Finally, use the mish, swish, and ELU activation functions to increase the test accuracy by 0.76%. As a result, the accuracy of testing the network with 2000 fish images reached 94.37%, and the computational complexity of the network BFLOPS was only 5.47. Comparing the YoloV3~4, MobileNetV2-yoloV3, and YoloV3-tiny networks of migration learning on this data set. The results show that BTP-Yolov3 has smaller model parameters, faster calculation speed, and lower energy consumption during operation while ensuring the calculation accuracy. It provides a certain reference value for the practical application of neural network.
翻訳日:2021-04-14 07:18:58 公開日:2021-04-11
# (参考訳) NeMoの逆テキスト正規化:開発から生産へ

NeMo Inverse Text Normalization: From Development To Production ( http://arxiv.org/abs/2104.05055v1 )

ライセンス: CC BY 4.0
Yang Zhang, Evelina Bakhturina, Kyle Gorman, Boris Ginsburg(参考訳) 逆テキスト正規化(ITN)は、音声ドメイン自動音声認識(ASR)出力を書き込みドメインテキストに変換し、ASR出力の可読性を改善する。 多くの最先端itnシステムは、手書きの重み付き有限状態トランスデューサ(wfst)文法を使用している。 我々は,開発から運用までのシームレスなパスを可能にするオープンソースPython WFSTベースのITNライブラリを紹介した。 英語におけるITN文法規則の仕様について述べるが,他の言語にも適用可能である。 テキストの正規化にも使える。 我々はGoogle Text正規化データセットの修正版を用いてNeMo ITNライブラリを評価する。

Inverse text normalization (ITN) converts spoken-domain automatic speech recognition (ASR) output into written-domain text to improve the readability of the ASR output. Many state-of-the-art ITN systems use hand-written weighted finite-state transducer(WFST) grammars since this task has extremely low tolerance to unrecoverable errors. We introduce an open-source Python WFST-based library for ITN which enables a seamless path from development to production. We describe the specification of ITN grammar rules for English, but the library can be adapted for other languages. It can also be used for written-to-spoken text normalization. We evaluate the NeMo ITN library using a modified version of the Google Text normalization dataset.
翻訳日:2021-04-14 07:06:46 公開日:2021-04-11
# (参考訳) 非負行列分解ゲーム

A Non-Negative Matrix Factorization Game ( http://arxiv.org/abs/2104.05069v1 )

ライセンス: CC BY 4.0
Satpreet H. Singh(参考訳) 我々は,多くの科学的・工学的応用を持つ一般的なデータ分析手法であるNon-Negative Matrix Factorization (NNMF) のゲーム理論的定式化を提案する。 ゲーム理論の定式化は、従来の乗算更新アルゴリズムに匹敵する再構成と収束性能を維持しつつ、スケーリングと並列化特性が好ましいことが示されている。

We present a novel game-theoretic formulation of Non-Negative Matrix Factorization (NNMF), a popular data-analysis method with many scientific and engineering applications. The game-theoretic formulation is shown to have favorable scaling and parallelization properties, while retaining reconstruction and convergence performance comparable to the traditional Multiplicative Updates algorithm.
翻訳日:2021-04-14 06:59:13 公開日:2021-04-11
# (参考訳) ウィンドシールドの雨滴:データセットと軽量勾配検出アルゴリズム

Raindrops on Windshield: Dataset and Lightweight Gradient-Based Detection Algorithm ( http://arxiv.org/abs/2104.05078v1 )

ライセンス: CC BY-SA 4.0
Vera Soboleva, Oleg Shipitko(参考訳) 自動運転車は、カメラを環境に関する主要な情報源の1つとして使っている。 雨滴、雪、泥などの逆の気象条件は、様々なイメージアーティファクトにつながる可能性がある。 このような成果物は得られた視覚データの質と信頼性を著しく低下させ、時間内に検出されないと事故を引き起こす可能性がある。 本稿では,視覚アルゴリズムの性能をトレーニングし評価するための新しいデータセットについて,カメラレンズとフロントガラスのいずれにおいても画像アーティファクト検出の異なるタスクについて検討する。 現在公開されている画像には890ドルの画像が含まれており、そのうち390ドルの画像には雨滴が含まれている。 画像は、雨滴のある領域を表すバイナリマスクで注釈付けされる。 雨滴の存在検知と雨滴領域のセグメンテーションの問題におけるデータセットの適用性を示す。 また,画像上に合成雨滴を生成可能なデータ拡張アルゴリズムを提案する。 このデータセットとは別に,映像列における雨滴検出のための勾配に基づく新しいアルゴリズムを提案する。 実験の結果,雨滴を確実に検出できることがわかった。 さらに,最先端の相互相関に基づくアルゴリズムである \cite{einecke2014} と比較して,雨滴検出と画像処理速度が向上し,実自律システムの自己チェック手順に適用できることを示した。 データセットは \href{https://github.com/EvoCargo/RaindropsOnWindshield}{$github.com/EvoCargo/RaindropsOnWindshield$} で公開されている。

Autonomous vehicles use cameras as one of the primary sources of information about the environment. Adverse weather conditions such as raindrops, snow, mud, and others, can lead to various image artifacts. Such artifacts significantly degrade the quality and reliability of the obtained visual data and can lead to accidents if they are not detected in time. This paper presents ongoing work on a new dataset for training and assessing vision algorithms' performance for different tasks of image artifacts detection on either camera lens or windshield. At the moment, we present a publicly available set of images containing $8190$ images, of which $3390$ contain raindrops. Images are annotated with the binary mask representing areas with raindrops. We demonstrate the applicability of the dataset in the problems of raindrops presence detection and raindrop region segmentation. To augment the data, we also propose an algorithm for data augmentation which allows the generation of synthetic raindrops on images. Apart from the dataset, we present a novel gradient-based algorithm for raindrop presence detection in a video sequence. The experimental evaluation proves that the algorithm reliably detects raindrops. Moreover, compared with the state-of-the-art cross-correlation-based algorithm \cite{Einecke2014}, the proposed algorithm showed a higher quality of raindrop presence detection and image processing speed, making it applicable for the self-check procedure of real autonomous systems. The dataset is available at \href{https://github.com/EvoCargo/RaindropsOnWindshield}{$github.com/EvoCargo/RaindropsOnWindshield$}.
翻訳日:2021-04-14 06:49:13 公開日:2021-04-11
# (参考訳) 検閲データと依存データからの学習:線形ダイナミクスの場合

Learning from Censored and Dependent Data: The case of Linear Dynamics ( http://arxiv.org/abs/2104.05087v1 )

ライセンス: CC BY 4.0
Orestis Plevrakis(参考訳) 力学系からの観測は、しばしば検閲のような不規則性を示すが、そこでは値が一定の範囲内にある場合にのみ記録される。 センサーの飽和、検出の限界効果、画像フレーム効果などにより、実際にセンサはユビキタスである。 近年の線形力学系(LDSs)の学習や、独立データを用いた検閲統計学の発展を踏まえて、検閲された観測結果(Lee and Maddala (1985), Zeger and Brookmeyer (1986) から LDS を学習する数十年前の問題を再考する。 ここで、学習者は、$x_t \in \mathbb{r}^d$ if と $x_t$ がいくつかの集合 $s_t \subseteq \mathbb{r}^d$ に属する場合に限り、状態を監視する。 我々は,oracle がセット $s_t$ へのアクセスのみを仮定して,システム学習のための計算量および統計効率のよい最初のアルゴリズムを開発した。 我々のアルゴリズムであるStochastic Online Newton with Switching Gradientsは、HazanらのOnline Newton Step(ONS)上に構築された新しい2階法である。 (2007). 私たちのスイッチンググレードのスキームでは、最適化したい機能の(統計的)勾配が常に使われてはいません。 代わりに、各イテレーションで、確率勾配を得るために検閲対応か、あるいは別の「検閲対応」関数を使うかを決定するための簡単なテストを実行する。 本解析では,勾配の代わりに任意のベクトルを用いる「ジェネリック」オンラインニュートン法を考察し,誤りバウンドを証明した。 これはこれらのベクトルを適切に設計するために使用することができ、Switching-Gradientスキームに繋がる。 この枠組みは、検閲された統計に関する最近の長い研究(例えば、ダスカラキスなど)から著しく逸脱している。 (2018年)、Kontonis et al。 (2019) daskalakisら。 (2019) をSGD (Stochastic Gradient Descent) に適用し, その解析は既成のSGD境界条件の確立に還元する。

Observations from dynamical systems often exhibit irregularities, such as censoring, where values are recorded only if they fall within a certain range. Censoring is ubiquitous in practice, due to saturating sensors, limit-of-detection effects, and image-frame effects. In light of recent developments on learning linear dynamical systems (LDSs), and on censored statistics with independent data, we revisit the decades-old problem of learning an LDS, from censored observations (Lee and Maddala (1985); Zeger and Brookmeyer (1986)). Here, the learner observes the state $x_t \in \mathbb{R}^d$ if and only if $x_t$ belongs to some set $S_t \subseteq \mathbb{R}^d$. We develop the first computationally and statistically efficient algorithm for learning the system, assuming only oracle access to the sets $S_t$. Our algorithm, Stochastic Online Newton with Switching Gradients, is a novel second-order method that builds on the Online Newton Step (ONS) of Hazan et al. (2007). Our Switching-Gradient scheme does not always use (stochastic) gradients of the function we want to optimize, which we call "censor-aware" function. Instead, in each iteration, it performs a simple test to decide whether to use the censor-aware, or another "censor-oblivious" function, for getting a stochastic gradient. In our analysis, we consider a "generic" Online Newton method, which uses arbitrary vectors instead of gradients, and we prove an error-bound for it. This can be used to appropriately design these vectors, leading to our Switching-Gradient scheme. This framework significantly deviates from the recent long line of works on censored statistics (e.g., Daskalakis et al. (2018); Kontonis et al. (2019); Daskalakis et al. (2019)), which apply Stochastic Gradient Descent (SGD), and their analysis reduces to establishing conditions for off-the-shelf SGD-bounds.
翻訳日:2021-04-14 06:40:27 公開日:2021-04-11
# (参考訳) グラフとしての世界:グラフニューラルネットワークによるel ni\~no予測の改善

The World as a Graph: Improving El Ni\~no Forecasts with Graph Neural Networks ( http://arxiv.org/abs/2104.05089v1 )

ライセンス: CC BY 4.0
Salva R\"uhling Cachay, Emma Erickson, Arthur Fender C. Bucker, Ernest Pokropek, Willa Potosnak, Suyash Bire, Salomey Osei, Bj\"orn L\"utjens(参考訳) 深層学習に基づくモデルは、El Ni\~no-Southern Oscillation (ENSO)の予測など、最先端の季節予測モデルを上回っている。 しかし、現在のディープラーニングモデルは、解釈が困難で大規模な大気パターンをモデル化できない畳み込みニューラルネットワークに基づいている。 グラフニューラルネットワーク(GNN)は、大規模空間依存をモデル化することができ、エッジ接続による情報フローの明示的なモデリングのため、より解釈可能である。 季節予測へのグラフニューラルネットワークの最初の応用を提案する。 我々は,GNNモデルで実際のENSO予測タスクと協調して大規模空間相互作用を学習できる新しいグラフ接続学習モジュールを設計する。 当社のモデルである \graphinoは、最先端のディープラーニングベースのモデルよりも6ヶ月先を予測しています。 さらに,エンソ・アノマリーパターンと相関する有意義な接続構造を学習することで,モデルがより解釈可能であることを示す。

Deep learning-based models have recently outperformed state-of-the-art seasonal forecasting models, such as for predicting El Ni\~no-Southern Oscillation (ENSO). However, current deep learning models are based on convolutional neural networks which are difficult to interpret and can fail to model large-scale atmospheric patterns. In comparison, graph neural networks (GNNs) are capable of modeling large-scale spatial dependencies and are more interpretable due to the explicit modeling of information flow through edge connections. We propose the first application of graph neural networks to seasonal forecasting. We design a novel graph connectivity learning module that enables our GNN model to learn large-scale spatial interactions jointly with the actual ENSO forecasting task. Our model, \graphino, outperforms state-of-the-art deep learning-based models for forecasts up to six months ahead. Additionally, we show that our model is more interpretable as it learns sensible connectivity structures that correlate with the ENSO anomaly pattern.
翻訳日:2021-04-14 06:38:53 公開日:2021-04-11
# (参考訳) 地球科学データ分析のためのAIの集合的アジェンダを目指して

Towards a Collective Agenda on AI for Earth Science Data Analysis ( http://arxiv.org/abs/2104.05107v1 )

ライセンス: CC BY-SA 4.0
Devis Tuia, Ribana Roscher, Jan Dirk Wegner, Nathan Jacobs, Xiao Xiang Zhu, Gustau Camps-Valls(参考訳) 過去数年間、我々は地球科学、リモートセンシング、人工知能の分野が近くなるのを目撃してきた。 観測データの大量利用、シミュレーションの改善、アルゴリズムの進歩により、これらの分野は地球系のモデリングと理解を進めるための共通の目的と課題を見出した。 このような大きな機会にもかかわらず、人工知能の最近の進歩をよく解決されたリモートセンシング問題に適用した、懲戒的快適地帯に留まる心配の傾向も観察した。 ここでは、これらのフィールド間のインターフェースが最も影響を受け、潜在的なゲームチェンジャーになり得る研究方向の立場を取ります。 我々の宣言した地球科学に関するAIに関する議題では、研究者、特に若い世代がリモートセンシングと地球科学の真の進歩のためにこれらの課題に取り組むよう刺激することを目的としています。

In the last years we have witnessed the fields of geosciences and remote sensing and artificial intelligence to become closer. Thanks to both the massive availability of observational data, improved simulations, and algorithmic advances, these disciplines have found common objectives and challenges to advance the modeling and understanding of the Earth system. Despite such great opportunities, we also observed a worrying tendency to remain in disciplinary comfort zones applying recent advances from artificial intelligence on well resolved remote sensing problems. Here we take a position on research directions where we think the interface between these fields will have the most impact and become potential game changers. In our declared agenda for AI on Earth sciences, we aim to inspire researchers, especially the younger generations, to tackle these challenges for a real advance of remote sensing and the geosciences.
翻訳日:2021-04-14 06:18:04 公開日:2021-04-11
# (参考訳) bop and beyond: 二元化ニューラルネットワークのための二階最適化器

A Bop and Beyond: A Second Order Optimizer for Binarized Neural Networks ( http://arxiv.org/abs/2104.05124v1 )

ライセンス: CC BY 4.0
Cuauhtemoc Daniel Suarez-Ramirez, Miguel Gonzalez-Mendoza, Leonardo Chang-Fernandez, Gilberto Ochoa-Ruiz, Mario Alberto Duran-Vega(参考訳) バイナリニューラルネットワーク(BNN)の最適化は、実数値重みを二項化表現で近似することに依存する。 現在の重みづけのテクニックは、従来のニューラルネットワーク(nns)と同じアプローチで、符号関数の導関数(ディラックデルタ関数)の近似をバックプロパゲーションに使用するという余分な要件がある。 文献では、BNNをビットフリップで直接訓練する作業は、グラデーションの最初の生のモーメント推定を用いて、いつ重みをひっくり返すかを決定するしきい値(Bop)と比較することで1つだけに過ぎなかった。 本稿では,第2の生モーメント推定値を用いてしきい値との比較を行う前に,第1の生モーメントの正規化を行うAdamと平行なアプローチを,この手法をBop2ndOrderと呼ぶ。 提案するオプティマイザにはバイアス補正とバイアス補正の2つのバージョンがあり,それぞれに独自のアプリケーションがある。 また,ハイパーパラメータ空間の完全アブレーション実験を行い,スケジューラの使用による影響について述べる。 これらの研究のために、BinaryNetアーキテクチャを用いて、CIFAR10のオプティマイザをテストした。 また、正確には、ImageNet 2012でXnorNetとBiRealNetアーキテクチャを使ってテストしました。 両方のデータセットにおいて、我々のアプローチはより早く収束し、ハイパーパラメータの変化に対して堅牢であり、精度が向上した。

The optimization of Binary Neural Networks (BNNs) relies on approximating the real-valued weights with their binarized representations. Current techniques for weight-updating use the same approaches as traditional Neural Networks (NNs) with the extra requirement of using an approximation to the derivative of the sign function - as it is the Dirac-Delta function - for back-propagation; thus, efforts are focused adapting full-precision techniques to work on BNNs. In the literature, only one previous effort has tackled the problem of directly training the BNNs with bit-flips by using the first raw moment estimate of the gradients and comparing it against a threshold for deciding when to flip a weight (Bop). In this paper, we take an approach parallel to Adam which also uses the second raw moment estimate to normalize the first raw moment before doing the comparison with the threshold, we call this method Bop2ndOrder. We present two versions of the proposed optimizer: a biased one and a bias-corrected one, each with its own applications. Also, we present a complete ablation study of the hyperparameters space, as well as the effect of using schedulers on each of them. For these studies, we tested the optimizer in CIFAR10 using the BinaryNet architecture. Also, we tested it in ImageNet 2012 with the XnorNet and BiRealNet architectures for accuracy. In both datasets our approach proved to converge faster, was robust to changes of the hyperparameters, and achieved better accuracy values.
翻訳日:2021-04-14 05:48:56 公開日:2021-04-11
# (参考訳) Shuffler:コンピュータビジョンにおけるMLのための大規模データ管理ツール

Shuffler: A Large Scale Data Management Tool for ML in Computer Vision ( http://arxiv.org/abs/2104.05125v1 )

ライセンス: CC BY 4.0
Evgeny Toropov, Paola A. Buitrago, Jose M. F. Moura(参考訳) コンピュータビジョンの学術研究コミュニティのデータセットは主に静的である。 データセットがコンピュータビジョンタスクのベンチマークとして受け入れられると、このタスクに取り組んでいる研究者たちは、結果を再現できるように変更しない。 同時に、新しいタスクや新しいアプリケーションを探すとき、データセットは常に変化するエンティティである傾向があります。 既存の公開データセットを組み合わせたり、イメージやオブジェクトをフィルタしたり、アノテーションを変更したり、タスクに適した新しいデータセットを追加したり、サンプルイメージを視覚化したり、あるいはテキストやプロット形式で統計を出力したりすることができる。 実際、データセットは、実践者がアルゴリズムと同様にデータを試し、機械学習モデルを最大限に活用しようとすると変化する。 MLとディープラーニングが十分な結果を得るために大量のデータを要求することを考えると、ライブデータセットを扱う結果のデータとソフトウェア管理がかなり複雑になるのは驚くにあたらない。 私たちの知る限り、MLパイプライン全体を通してイメージデータとそのアノテーションを操作するための、フレキシブルでパブリックな手段はありません。 本稿では,大規模なコンピュータビジョンデータセットの管理を容易にするオープンソースツールであるshufflerを提案する。 アノテーションを人間可読なリレーショナルデータベースに格納する。 Shuffler氏は、コンピュータビジョンに適用された教師あり学習に一般的に有用なアノテーションによる40以上のデータ処理操作を定義し、最もよく知られたコンピュータビジョンデータセットをサポートする。 最後に、それは容易に拡張可能であり、新しい操作の追加とデータセットを高速で容易に達成できるタスクにします。

Datasets in the computer vision academic research community are primarily static. Once a dataset is accepted as a benchmark for a computer vision task, researchers working on this task will not alter it in order to make their results reproducible. At the same time, when exploring new tasks and new applications, datasets tend to be an ever changing entity. A practitioner may combine existing public datasets, filter images or objects in them, change annotations or add new ones to fit a task at hand, visualize sample images, or perhaps output statistics in the form of text or plots. In fact, datasets change as practitioners experiment with data as much as with algorithms, trying to make the most out of machine learning models. Given that ML and deep learning call for large volumes of data to produce satisfactory results, it is no surprise that the resulting data and software management associated to dealing with live datasets can be quite complex. As far as we know, there is no flexible, publicly available instrument to facilitate manipulating image data and their annotations throughout a ML pipeline. In this work, we present Shuffler, an open source tool that makes it easy to manage large computer vision datasets. It stores annotations in a relational, human-readable database. Shuffler defines over 40 data handling operations with annotations that are commonly useful in supervised learning applied to computer vision and supports some of the most well-known computer vision datasets. Finally, it is easily extensible, making the addition of new operations and datasets a task that is fast and easy to accomplish.
翻訳日:2021-04-14 05:33:49 公開日:2021-04-11
# $\ell_{1}$ Norm 最適化による言語間単語埋め込みリファインメント

Cross-Lingual Word Embedding Refinement by $\ell_{1}$ Norm Optimisation ( http://arxiv.org/abs/2104.04916v1 )

ライセンス: Link先を確認
Xutan Peng, Chenghua Lin, Mark Stevenson(参考訳) CLWE(Cross-Lingual Word Embeddings)は、類似した意味を持つ単語を表すベクトルが密接な位置にある共有高次元空間において、2つ以上の言語からの単語を符号化する。 高品質なCLWEを構築するための既存の方法は、$\ell_{2}$ノルム損失関数を最小化するマッピングを学ぶ。 しかし、この最適化の目的は外れ値に敏感であることが示されている。 より堅牢なマンハッタン標準(別名。 本稿では,CLWEを改善するための簡単な後処理ステップを提案する。 このアプローチの利点は、オリジナルのclwesのトレーニングプロセスに完全に依存せず、広く適用可能であることである。 大規模な実験は、異なるコーパスで訓練された10の多様な言語と埋め込みを含む。 自然言語推論タスクにおけるバイリンガル語彙誘導とクロスリンガル移動に基づく評価結果から,$\ell_{1}$の洗練は,教師なしと教師なしの両方の設定において,最先端の4つのベースラインを大幅に上回っていることが示された。 したがって、この戦略をclweメソッドの標準として採用することが推奨される。

Cross-Lingual Word Embeddings (CLWEs) encode words from two or more languages in a shared high-dimensional space in which vectors representing words with similar meaning (regardless of language) are closely located. Existing methods for building high-quality CLWEs learn mappings that minimise the $\ell_{2}$ norm loss function. However, this optimisation objective has been demonstrated to be sensitive to outliers. Based on the more robust Manhattan norm (aka. $\ell_{1}$ norm) goodness-of-fit criterion, this paper proposes a simple post-processing step to improve CLWEs. An advantage of this approach is that it is fully agnostic to the training process of the original CLWEs and can therefore be applied widely. Extensive experiments are performed involving ten diverse languages and embeddings trained on different corpora. Evaluation results based on bilingual lexicon induction and cross-lingual transfer for natural language inference tasks show that the $\ell_{1}$ refinement substantially outperforms four state-of-the-art baselines in both supervised and unsupervised settings. It is therefore recommended that this strategy be adopted as a standard for CLWE methods.
翻訳日:2021-04-13 14:44:00 公開日:2021-04-11
# ALT-MAS: 機械学習アルゴリズムのアクティブテストのためのデータ効率の良いフレームワーク

ALT-MAS: A Data-Efficient Framework for Active Testing of Machine Learning Algorithms ( http://arxiv.org/abs/2104.04999v1 )

ライセンス: Link先を確認
Huong Ha, Sunil Gupta, Santu Rana, Svetha Venkatesh(参考訳) 機械学習モデルは、多くの重要な分野で広く使われているが、モデルが常にうまく機能するか、あるいは開発者が意図したように動作する保証はない。 モデルの正しさを理解することは、重要なアプリケーション領域において重大な有害な影響をもたらす可能性のある潜在的な失敗を防ぐために不可欠である。 本稿では,少量のラベル付きテストデータのみを用いて機械学習モデルを効率的にテストするための新しいフレームワークを提案する。 ベイジアンニューラルネットワーク(BNN)を用いて、モデルアンダーテストの関心度を推定する。 我々は,BNNを高精度に訓練するための新しいデータ拡張手法を開発した。 また,データポイントをサンプリングするための理論的情報に基づくサンプリング戦略を考案し,興味のあるメトリクスの正確な推定を実現する。 最後に、さまざまなタイプのメトリクスに対して、さまざまな機械学習モデルをテストするための広範な実験を行う。 実験の結果,提案手法による推定値は,既存のベースラインよりも有意に優れていることがわかった。

Machine learning models are being used extensively in many important areas, but there is no guarantee a model will always perform well or as its developers intended. Understanding the correctness of a model is crucial to prevent potential failures that may have significant detrimental impact in critical application areas. In this paper, we propose a novel framework to efficiently test a machine learning model using only a small amount of labeled test data. The idea is to estimate the metrics of interest for a model-under-test using Bayesian neural network (BNN). We develop a novel data augmentation method helping to train the BNN to achieve high accuracy. We also devise a theoretic information based sampling strategy to sample data points so as to achieve accurate estimations for the metrics of interest. Finally, we conduct an extensive set of experiments to test various machine learning models for different types of metrics. Our experiments show that the metrics estimations by our method are significantly better than existing baselines.
翻訳日:2021-04-13 14:41:40 公開日:2021-04-11
# 1-Lipschitz ニューラルネットワークの多面性

The Many Faces of 1-Lipschitz Neural Networks ( http://arxiv.org/abs/2104.05097v1 )

ライセンス: Link先を確認
Louis B\'ethune, Alberto Gonz\'ales-Sanz, Franck Mamalet, Mathieu Serrurier(参考訳) リプシッツ制約付きモデルは、ganのwasserstein距離の推定や、敵の攻撃に頑健なニューラルネットワークのトレーニングなど、特定のディープラーニング問題を解決するために用いられてきた。 このような1-Lipschitzネットワークを構築するための新奇で効果的なアルゴリズムにもかかわらず、その使用法はいまだに限られており、表現力は低く、制約のないアルゴリズムよりもデータの適合性が低いと考えられている。 この論文の目的は、1-Lipschitzのニューラルネットワークが、実験的に訓練が困難であるにもかかわらず、非制約のニューラルネットワークよりも理論的に根拠があることを示すことである。 深層学習の範囲における1-Lipschitz関数に関するいくつかの結果を思い出し、それらを拡張して説明し、分類の一般的な性質を導出する。 まず,1-Lipschitz ニューラルネットワークは,従来のニューラルネットワークのように表現力のあるフロンティアに適していることを示す。 ログ損失を最小化する場合、リプシッツ制約の下での最適化問題は十分に仮定され最小であり、通常のニューラルネットワークは驚くほど単純な状況でも分岐可能であることを示す。 そこで,関東ロビッチ・ルビンシュタイン双対性理論の正規化版による1-Lipschitzネットワークの分類と最適輸送の関係について検討した。 最後に、VC次元の予備的境界を導出する。

Lipschitz constrained models have been used to solve specifics deep learning problems such as the estimation of Wasserstein distance for GAN, or the training of neural networks robust to adversarial attacks. Regardless the novel and effective algorithms to build such 1-Lipschitz networks, their usage remains marginal, and they are commonly considered as less expressive and less able to fit properly the data than their unconstrained counterpart. The goal of the paper is to demonstrate that, despite being empirically harder to train, 1-Lipschitz neural networks are theoretically better grounded than unconstrained ones when it comes to classification. To achieve that we recall some results about 1-Lipschitz function in the scope of deep learning and we extend and illustrate them to derive general properties for classification. First, we show that 1-Lipschitz neural network can fit arbitrarily difficult frontier making them as expressive as classical ones. When minimizing the log loss, we prove that the optimization problem under Lipschitz constraint is well posed and have a minimum, whereas regular neural networks can diverge even on remarkably simple situations. Then, we study the link between classification with 1-Lipschitz network and optimal transport thanks to regularized versions of Kantorovich-Rubinstein duality theory. Last, we derive preliminary bounds on their VC dimension.
翻訳日:2021-04-13 14:41:25 公開日:2021-04-11
# 頑健なテキスト表現学習のための遠方性コントラスト学習

Disentangled Contrastive Learning for Learning Robust Textual Representations ( http://arxiv.org/abs/2104.04907v1 )

ライセンス: Link先を確認
Xiang Chen, Xin Xie, Zhen Bi, Hongbin Ye, Shumin Deng, Ningyu Zhang, Huajun Chen(参考訳) トランスフォーマーモデルの自己教師付き事前学習は、自然言語処理(NLP)の応用の革新と、様々なベンチマークに関する最先端の結果の達成をもたらすが、このプロセスは依然として、合法的な入力から生じる小さく、知覚不能な置換に対して脆弱である。 直感的には、表現は微妙な入力置換を持つ特徴空間で類似すべきであり、大きな変化は異なる意味で起こる。 これにより、ロバストなテキスト表現の学習を対比的に調査する動機付けとなる。 しかし、テキストサンプルの対向する意味インスタンスを得ることは自明ではない。 本研究では,否定的なサンプリングを伴わずに表現の均一性とアライメントを個別に最適化する逆学習手法を提案する。 具体的には、運動量表現一貫性の概念を導入し、特徴を整合させ、一様性に準拠しながらパワー正規化を活用する。 NLPベンチマークの実験結果から,本手法はベースラインよりも優れた結果が得られるとともに,非分散テストや敵攻撃による有望な改善が達成できることが示された。 コードはhttps://github.com/zjunlp/dclで入手できる。

Although the self-supervised pre-training of transformer models has resulted in the revolutionizing of natural language processing (NLP) applications and the achievement of state-of-the-art results with regard to various benchmarks, this process is still vulnerable to small and imperceptible permutations originating from legitimate inputs. Intuitively, the representations should be similar in the feature space with subtle input permutations, while large variations occur with different meanings. This motivates us to investigate the learning of robust textual representation in a contrastive manner. However, it is non-trivial to obtain opposing semantic instances for textual samples. In this study, we propose a disentangled contrastive learning method that separately optimizes the uniformity and alignment of representations without negative sampling. Specifically, we introduce the concept of momentum representation consistency to align features and leverage power normalization while conforming the uniformity. Our experimental results for the NLP benchmarks demonstrate that our approach can obtain better results compared with the baselines, as well as achieve promising improvements with invariance tests and adversarial attacks. The code is available in https://github.com/zjunlp/DCL.
翻訳日:2021-04-13 14:40:29 公開日:2021-04-11
# 弱教師付き物体定位に対する細粒度注意

Fine-Grained Attention for Weakly Supervised Object Localization ( http://arxiv.org/abs/2104.04952v1 )

ライセンス: Link先を確認
Junghyo Sohn, Eunjin Jeon, Wonsik Jung, Eunsong Kang, Heung-Il Suk(参考訳) ディープラーニングの最近の進歩は、弱い教師付きオブジェクトローカライゼーション(WSOL)タスクの改善を加速させたが、差別的な部分だけでなく、オブジェクトの全体を特定することが依然として課題である。 本稿では, 残差操作と組み合わせて, チャネルや特徴マップ内の位置に分散した情報を活用することで, 物体の活性の低い領域を自律的に励起する新しい残差微細注意モジュールを提案する。 具体的には,3つの視点の注意表現,注意拡大,特徴キャリブレーションの一連のメカニズムを考案する。 他の注意度マップを学習する注意度ベースのwsol法とは異なり,提案するrfgaは,各要素に対して異なる注意度値を割り当てることで注意度マップ内の細かな値を学習する。 提案するRFGAモジュールの優位性を,3つのデータセットの最近の手法と比較することにより検証した。 さらに,rfgaにおける各メカニズムの効果を分析し,注意マップを可視化して洞察を得た。

Although recent advances in deep learning accelerated an improvement in a weakly supervised object localization (WSOL) task, there are still challenges to identify the entire body of an object, rather than only discriminative parts. In this paper, we propose a novel residual fine-grained attention (RFGA) module that autonomously excites the less activated regions of an object by utilizing information distributed over channels and locations within feature maps in combination with a residual operation. To be specific, we devise a series of mechanisms of triple-view attention representation, attention expansion, and feature calibration. Unlike other attention-based WSOL methods that learn a coarse attention map, having the same values across elements in feature maps, our proposed RFGA learns fine-grained values in an attention map by assigning different attention values for each of the elements. We validated the superiority of our proposed RFGA module by comparing it with the recent methods in the literature over three datasets. Further, we analyzed the effect of each mechanism in our RFGA and visualized attention maps to get insights.
翻訳日:2021-04-13 14:39:29 公開日:2021-04-11
# stackelbergゲームとしての敵対的トレーニング:未ロール最適化アプローチ

Adversarial Training as Stackelberg Game: An Unrolled Optimization Approach ( http://arxiv.org/abs/2104.04886v1 )

ライセンス: Link先を確認
Simiao Zuo, Chen Liang, Haoming Jiang, Xiaodong Liu, Pengcheng He, Jianfeng Gao, Weizhu Chen, Tuo Zhao(参考訳) 各種自然言語処理タスクにおけるディープラーニングモデルの一般化性能を向上させるために, 対角訓練を行った。 既存の作品は通常、逆行訓練をゼロサムゲームとして定式化し、勾配降下/上昇アルゴリズムを交互に解く。 このような定式化は、敵プレイヤーと守備プレイヤーを等しく扱うが、防御プレイヤーだけが一般化性能に寄与するので望ましくない。 そこで我々は,Stackelberg Adversarial Training (SALT, Stackelberg Adversarial Training)を提案する。 この定式化は、リーダーと従者の間の競争を誘導し、従者は摂動を生成し、リーダーは摂動の対象となるモデルを訓練する。 従来の敵の訓練とは異なり、SALTでは、リーダーは有利な立場にある。 リーダーが移動すると、フォロワーの戦略を認識し、期待されたフォロワーの結果を考慮に入れます。 このようなリーダーの利点は、未成熟のデータに適合するモデルを改善することを可能にします。 リーダーの戦略情報は、展開アルゴリズムを用いて得られるstackelberg勾配によって取得される。 機械翻訳と自然言語理解タスクのセットに関する実験結果から,SALTは既存の対人訓練のベースラインを全タスクで上回っていることが示された。

Adversarial training has been shown to improve the generalization performance of deep learning models in various natural language processing tasks. Existing works usually formulate adversarial training as a zero-sum game, which is solved by alternating gradient descent/ascent algorithms. Such a formulation treats the adversarial and the defending players equally, which is undesirable because only the defending player contributes to the generalization performance. To address this issue, we propose Stackelberg Adversarial Training (SALT), which formulates adversarial training as a Stackelberg game. This formulation induces a competition between a leader and a follower, where the follower generates perturbations, and the leader trains the model subject to the perturbations. Different from conventional adversarial training, in SALT, the leader is in an advantageous position. When the leader moves, it recognizes the strategy of the follower and takes the anticipated follower's outcomes into consideration. Such a leader's advantage enables us to improve the model fitting to the unperturbed data. The leader's strategic information is captured by the Stackelberg gradient, which is obtained using an unrolling algorithm. Our experimental results on a set of machine translation and natural language understanding tasks show that SALT outperforms existing adversarial training baselines across all tasks.
翻訳日:2021-04-13 14:38:37 公開日:2021-04-11
# Edge: 外部テキストによる知識グラフ埋め込みの強化

Edge: Enriching Knowledge Graph Embeddings with External Text ( http://arxiv.org/abs/2104.04909v1 )

ライセンス: Link先を確認
Saed Rezayi, Handong Zhao, Sungchul Kim, Ryan A. Rossi, Nedim Lipka, Sheng Li(参考訳) 知識グラフは、様々な方法によって生成される表現の質を低下させる疎度に悩まされる。 ウェブには大量のテキスト情報や既存の知識基盤があるが、これらの多様なデータソースをまたいだ情報の整合性は文学における課題である。 従来の研究は、知識グラフのエンティティと外部テキストのエンティティに存在する単語の"ハード"な共起に基づく知識グラフエンティティの強化と、Edgeという名前の知識グラフの強化と埋め込みフレームワークの提案により、"ソフト"拡張を実現している。 元の知識グラフが与えられたら、まず、セマンティックおよび構造レベルで外部テキストを使用してリッチだがノイズの多い拡張グラフを生成する。 関連する知識を抽出し,導入した雑音を抑制するため,元のグラフと拡張グラフとの共有埋め込み空間におけるグラフアライメント項を設計する。 拡張グラフへの埋め込み学習を強化するために,対象エンティティの局所性関係を負のサンプリングに基づいてさらに規則化する。 4つのベンチマークデータセットの実験結果は、リンク予測とノード分類におけるエッジの堅牢性と有効性を示している。

Knowledge graphs suffer from sparsity which degrades the quality of representations generated by various methods. While there is an abundance of textual information throughout the web and many existing knowledge bases, aligning information across these diverse data sources remains a challenge in the literature. Previous work has partially addressed this issue by enriching knowledge graph entities based on "hard" co-occurrence of words present in the entities of the knowledge graphs and external text, while we achieve "soft" augmentation by proposing a knowledge graph enrichment and embedding framework named Edge. Given an original knowledge graph, we first generate a rich but noisy augmented graph using external texts in semantic and structural level. To distill the relevant knowledge and suppress the introduced noise, we design a graph alignment term in a shared embedding space between the original graph and augmented graph. To enhance the embedding learning on the augmented graph, we further regularize the locality relationship of target entity based on negative sampling. Experimental results on four benchmark datasets demonstrate the robustness and effectiveness of Edge in link prediction and node classification.
翻訳日:2021-04-13 14:38:16 公開日:2021-04-11
# 合成タスク指向ダイアログのための非自己回帰的意味解析

Non-Autoregressive Semantic Parsing for Compositional Task-Oriented Dialog ( http://arxiv.org/abs/2104.04923v1 )

ライセンス: Link先を確認
Arun Babu, Akshat Shrivastava, Armen Aghajanyan, Ahmed Aly, Angela Fan and Marjan Ghazvininejad(参考訳) シーケンス・ツー・シーケンスモデルを用いた意味解析は、従来の単語タグ付けモデルと比較して深い表現のパースを可能にする。 これらの利点にもかかわらず、リアルタイムの会話型ユースケースにおけるこれらのモデルの広範な採用は、高い計算要求と高いレイテンシによって抑制されている。 本稿では,効率的なseq2seqモデルアーキテクチャを用いて意味解析木を予測する非回帰的手法を提案する。 非自己回帰予測と畳み込みニューラルネットワークを組み合わせることで、従来のRNNモデルと比較して大きなレイテンシゲインとパラメータサイズ削減を実現している。 我々の新しいアーキテクチャはTOPデータセットのレイテンシを最大81%削減し、3つの異なるセマンティック解析データセット上の非事前学習モデルに対する競合性能を維持する。 私たちのコードはhttps://github.com/facebookresearch/pytextで利用可能です。

Semantic parsing using sequence-to-sequence models allows parsing of deeper representations compared to traditional word tagging based models. In spite of these advantages, widespread adoption of these models for real-time conversational use cases has been stymied by higher compute requirements and thus higher latency. In this work, we propose a non-autoregressive approach to predict semantic parse trees with an efficient seq2seq model architecture. By combining non-autoregressive prediction with convolutional neural networks, we achieve significant latency gains and parameter size reduction compared to traditional RNN models. Our novel architecture achieves up to an 81% reduction in latency on TOP dataset and retains competitive performance to non-pretrained models on three different semantic parsing datasets. Our code is available at https://github.com/facebookresearch/pytext
翻訳日:2021-04-13 14:37:58 公開日:2021-04-11
# 一般化改善のための説明可能な解析木の教師なし学習

Unsupervised Learning of Explainable Parse Trees for Improved Generalisation ( http://arxiv.org/abs/2104.04998v1 )

ライセンス: Link先を確認
Atul Sahay, Ayush Maheshwari, Ritesh Kumar, Ganesh Ramakrishnan, Manjesh Kumar Hanawal, Kavi Arya(参考訳) 再帰的ニューラルネットワーク(rvnn)は文表現の学習に有用であり、いくつかの自然言語推論タスクにおいて競合性能を達成するのに役立った。 しかし、最近のRvNNベースのモデルは、その中間木表現において単純な文法や意味的な意味学を学ばない。 本稿では,より有意義で説明可能な解析木構造を学ぶために,木-lstmsに対する注意機構を提案する。 また,提案モデルの自然言語推論,意味的関連性,感情分析タスクにおける優れた性能を実証し,他の最先端rvnnベース手法と比較した。 さらに, 学習したパース木の質的, 定量的解析を行い, 発見された言語構造が近年のアプローチよりも説明可能, 意味的, 文法的に正しいことを示す。 論文のソースコードはhttps://github.com/atul04/explainable-latent-structures-using-attentionで入手できる。

Recursive neural networks (RvNN) have been shown useful for learning sentence representations and helped achieve competitive performance on several natural language inference tasks. However, recent RvNN-based models fail to learn simple grammar and meaningful semantics in their intermediate tree representation. In this work, we propose an attention mechanism over Tree-LSTMs to learn more meaningful and explainable parse tree structures. We also demonstrate the superior performance of our proposed model on natural language inference, semantic relatedness, and sentiment analysis tasks and compare them with other state-of-the-art RvNN based methods. Further, we present a detailed qualitative and quantitative analysis of the learned parse trees and show that the discovered linguistic structures are more explainable, semantically meaningful, and grammatically correct than recent approaches. The source code of the paper is available at https://github.com/atul04/Explainable-Latent-Structures-Using-Attention.
翻訳日:2021-04-13 14:37:47 公開日:2021-04-11
# 離散的対向訓練によるモデルロバスト性の実現

Achieving Model Robustness through Discrete Adversarial Training ( http://arxiv.org/abs/2104.05062v1 )

ライセンス: Link先を確認
Maor Ivgi and Jonathan Berant(参考訳) 離散敵攻撃は、出力ラベルを保存するが予測エラーにつながる言語入力に対する象徴的な摂動である。 このような攻撃はモデルのロバスト性を評価する目的で広く研究されているが、ロバスト性を改善するための有用性はオフラインの強化のみに限られている。 本研究では,このギャップに対処し,オンライン拡張のための個別攻撃を活用し,各ステップに逆例を生成し,モデルの性質の変化に適応する。 また,ランダムサンプリングに基づく効率的な攻撃も検討し,従来の作業と異なり,高価な検索手法をベースとしていない。 第2のコントリビューションとして、過去の作業から複数の検索ベースの攻撃を一般化し、ベストファースト検索に基づく新たな攻撃を提案する。 驚いたことに、ランダムサンプリングはロバスト性が著しく向上し、一般的に使用されているオフラインの強化よりも優れており、トレーニング時間は約10倍のスピードアップに繋がる。 さらに、検索ベースの攻撃によるオンライン強化は、より高いトレーニングコストを正当化し、3つのデータセットの堅牢性を大幅に改善する。 最後に,提案アルゴリズムは従来の手法に比べてロバスト性を大幅に向上することを示す。

Discrete adversarial attacks are symbolic perturbations to a language input that preserve the output label but lead to a prediction error. While such attacks have been extensively explored for the purpose of evaluating model robustness, their utility for improving robustness has been limited to offline augmentation only, i.e., given a trained model, attacks are used to generate perturbed (adversarial) examples, and the model is re-trained exactly once. In this work, we address this gap and leverage discrete attacks for online augmentation, where adversarial examples are generated at every step, adapting to the changing nature of the model. We also consider efficient attacks based on random sampling, that unlike prior work are not based on expensive search-based procedures. As a second contribution, we provide a general formulation for multiple search-based attacks from past work, and propose a new attack based on best-first search. Surprisingly, we find that random sampling leads to impressive gains in robustness, outperforming the commonly-used offline augmentation, while leading to a speedup at training time of ~10x. Furthermore, online augmentation with search-based attacks justifies the higher training cost, significantly improving robustness on three datasets. Last, we show that our proposed algorithm substantially improves robustness compared to prior methods.
翻訳日:2021-04-13 14:37:33 公開日:2021-04-11
# 限定アノテーションによるテキスト分類のための要約による対比サンプルの構築

Constructing Contrastive samples via Summarization for Text Classification with limited annotations ( http://arxiv.org/abs/2104.05094v1 )

ライセンス: Link先を確認
Yangkai Du, Tengfei Ma, Lingfei Wu, Fangli Xu, Xuhong Zhang, Shouling Ji(参考訳) コントラスト学習は強力な表現学習手法として登場し,特に教師付きデータに制限がある場合に,様々な下流作業を容易にする。 データ拡張による効率的なコントラストサンプルの構築は、その成功の鍵となる。 視覚タスクとは異なり、コントラスト学習のためのデータ拡張方法は言語タスクでは十分に研究されていない。 本稿では,テキスト要約を用いた言語タスクのコントラストサンプル構築のための新しい手法を提案する。 これらのサンプルを教師付きコントラスト学習に使用して,テキスト表現の改善を行い,アノテーションの制限されたテキスト分類タスクに多大なメリットを享受した。 この方法をさらに改善するために,異なるクラスからのサンプルをミックスし,クロスエントロピーロスに加えてmix-sum regularizationという追加の正規化を加える。 実世界のテキスト分類データセット(Amazon-5,Yelp-5,AG News)の実験では,要約に基づくデータ拡張とミックスサム正規化によるコントラスト学習フレームワークの有効性が示された。

Contrastive Learning has emerged as a powerful representation learning method and facilitates various downstream tasks especially when supervised data is limited. How to construct efficient contrastive samples through data augmentation is key to its success. Unlike vision tasks, the data augmentation method for contrastive learning has not been investigated sufficiently in language tasks. In this paper, we propose a novel approach to constructing contrastive samples for language tasks using text summarization. We use these samples for supervised contrastive learning to gain better text representations which greatly benefit text classification tasks with limited annotations. To further improve the method, we mix up samples from different classes and add an extra regularization, named mix-sum regularization, in addition to the cross-entropy-loss. Experiments on real-world text classification datasets (Amazon-5, Yelp-5, AG News) demonstrate the effectiveness of the proposed contrastive learning framework with summarization-based data augmentation and mix-sum regularization.
翻訳日:2021-04-13 14:37:11 公開日:2021-04-11
# グラフ最適化によるマルチビュー自動選択

Auto-weighted Multi-view Feature Selection with Graph Optimization ( http://arxiv.org/abs/2104.04906v1 )

ライセンス: Link先を確認
Qi Wang, Xu Jiang, Mulin Chen and Xuelong Li(参考訳) 本稿では,マルチビュー学習の分野における高次元データを扱うために,教師なしのマルチビュー特徴の選択に注目する。 グラフベースのいくつかの手法は良好な性能を達成したが、異なるビューの基盤となるデータ構造を無視している。 さらに、事前に定義されたラプラシアングラフは、元のデータ空間のノイズに敏感であり、最適な隣の割り当てを得ることができない。 上記の問題に対処するために、グラフ学習に基づく新しい教師なし多視点特徴選択モデルを提案し、その貢献は3倍になる:(1)特徴選択手順において、異なるビューで共有されるコンセンサス類似性グラフが学習される。 したがって,提案モデルでは特徴部分集合からデータ関係を明らかにすることができる。 2) 類似度行列を最適化してより正確な情報を得るための合理的なランク制約を追加し, (3) 自動重み付けフレームワークで視重みを適応的に割り当て, 問題を最適化するための効果的な代替的反復アルゴリズムを提案する。 各種データセットを用いた実験により,提案手法が最先端手法よりも優れていることを示す。

In this paper, we focus on the unsupervised multi-view feature selection which tries to handle high dimensional data in the field of multi-view learning. Although some graph-based methods have achieved satisfactory performance, they ignore the underlying data structure across different views. Besides, their pre-defined laplacian graphs are sensitive to the noises in the original data space, and fail to get the optimal neighbor assignment. To address the above problems, we propose a novel unsupervised multi-view feature selection model based on graph learning, and the contributions are threefold: (1) during the feature selection procedure, the consensus similarity graph shared by different views is learned. Therefore, the proposed model can reveal the data relationship from the feature subset. (2) a reasonable rank constraint is added to optimize the similarity matrix to obtain more accurate information; (3) an auto-weighted framework is presented to assign view weights adaptively, and an effective alternative iterative algorithm is proposed to optimize the problem. Experiments on various datasets demonstrate the superiority of the proposed method compared with the state-of-the-art methods.
翻訳日:2021-04-13 14:35:32 公開日:2021-04-11
# TedNet:テンソル分解ネットワークのためのPytorchツールキット

TedNet: A Pytorch Toolkit for Tensor Decomposition Networks ( http://arxiv.org/abs/2104.05018v1 )

ライセンス: Link先を確認
Yu Pan, Maolin Wang, Zenglin Xu(参考訳) テンソル分解ネットワーク(TDN)は、その固有のコンパクトアーキテクチャにおいて一般的である。 利便性を提供するため、PytorchフレームワークをベースにしたTedNetというツールキットを提案し、より多くの研究者がTDNを利用する柔軟な方法を提供する。 TedNetは5種類のテンソル分解(CANDECOMP/PARAFAC(CP)、Block-Term Tucker(BT)、Tucker-2、Tensor Train(TT)、Tensor Ring(TR))を従来のディープニューラルネットワーク層、畳み込み層、完全接続層に実装している。 これらの基本レイヤを利用することで,TR-ResNetやTT-LSTMなど,さまざまなTDNの構築が容易になる。 TedNetはhttps://github.com/tnbar/tednet.comで入手できる。

Tensor Decomposition Networks(TDNs) prevail for their inherent compact architectures. For providing convenience, we present a toolkit named TedNet that is based on the Pytorch framework, to give more researchers a flexible way to exploit TDNs. TedNet implements 5 kinds of tensor decomposition(i.e., CANDECOMP/PARAFAC(CP), Block-Term Tucker(BT), Tucker-2, Tensor Train(TT) and Tensor Ring(TR)) on traditional deep neural layers, the convolutional layer and the fully-connected layer. By utilizing these basic layers, it is simple to construct a variety of TDNs like TR-ResNet, TT-LSTM, etc. TedNet is available at https://github.com/tnbar/tednet.
翻訳日:2021-04-13 14:35:15 公開日:2021-04-11
# CoPE:ポリノミアル展開を用いた条件付き画像生成

CoPE: Conditional image generation using Polynomial Expansions ( http://arxiv.org/abs/2104.05077v1 )

ライセンス: Link先を確認
Grigorios G Chrysos, Yannis Panagakis(参考訳) 生成モデリングは機械学習の注目すべき分野へと進化してきた。 深い多項式ニューラルネットワーク(pnns)は教師なし画像生成において印象的な結果を示しており、タスクは入力ベクトル(すなわちノイズ)を合成画像にマッピングすることである。 しかし、PNNの成功は超解像のような条件付き生成タスクでは再現されていない。 既存の pnn は2変数の入力、すなわち雑音変数と条件変数によく合致しない単変数多項式展開にフォーカスしている。 本研究では,2つの入力変数の多項式展開を可能とし,それらの自動および相互相関をキャプチャする,CoPEと呼ばれる汎用フレームワークを提案する。 我々は、任意の数の入力変数を受け入れるために、CoPEを自明に拡張する方法を示す。 CoPEは8つのデータセットを含む5つのタスク(クラス条件生成、逆問題、エッジから画像への変換、画像から画像への変換、属性誘導生成)で評価される。 徹底的な評価は、CoPEが多様な条件生成タスクに取り組むのに役立つことを示唆している。

Generative modeling has evolved to a notable field of machine learning. Deep polynomial neural networks (PNNs) have demonstrated impressive results in unsupervised image generation, where the task is to map an input vector (i.e., noise) to a synthesized image. However, the success of PNNs has not been replicated in conditional generation tasks, such as super-resolution. Existing PNNs focus on single-variable polynomial expansions which do not fare well to two-variable inputs, i.e., the noise variable and the conditional variable. In this work, we introduce a general framework, called CoPE, that enables a polynomial expansion of two input variables and captures their auto- and cross-correlations. We exhibit how CoPE can be trivially augmented to accept an arbitrary number of input variables. CoPE is evaluated in five tasks (class-conditional generation, inverse problems, edges-to-image translation, image-to-image translation, attribute-guided generation) involving eight datasets. The thorough evaluation suggests that CoPE can be useful for tackling diverse conditional generation tasks.
翻訳日:2021-04-13 14:32:23 公開日:2021-04-11
# SQN:1000倍低ラベルの大規模3次元点雲の弱教師付きセマンティックセマンティックセグメンテーション

SQN: Weakly-Supervised Semantic Segmentation of Large-Scale 3D Point Clouds with 1000x Fewer Labels ( http://arxiv.org/abs/2104.04891v1 )

ライセンス: Link先を確認
Qingyong Hu, Bo Yang, Guangchi Fang, Yulan Guo, Ales Leonardis, Niki Trigoni, Andrew Markham(参考訳) 大規模3次元点雲のセマンティックセグメンテーションにおけるラベル付け作業の問題点について検討する。 既存の作業は通常、ネットワークトレーニングの監督を提供するために、密接な注釈付きポイントレベルのセマンティックラベルに依存している。 しかし、数十億のポイントを含む現実世界のシナリオでは、すべてのポイントを手動でアノテートするのは非現実的で非常にコストがかかる。 本稿では,意味的意味表現の学習に高密度な3Dラベルが本当に必要かを検討する。 興味深いことに、既存の作業のセグメンテーション性能は、アノテーションの1%しか与えられていない。 しかし、この点を超えて(例えば) 1/1000以下) 既存の技術は壊滅的に失敗する。 そこで本研究では,隣接点間の意味的類似性を生かして,利用可能な監視信号の総量を暗黙的に増やす新しい弱い監督手法を提案する。 広範囲な実験により、提案されたセマンティッククエリネットワーク(SQN)は、弱い監視スキームの下で6つの大規模オープンデータセット上で最先端のパフォーマンスを達成する一方で、トレーニングのためにラベル付きポイントをわずか1000倍少なくすることがわかった。 コードはhttps://github.com/QingyongHu/SQNで入手できる。

We study the problem of labelling effort for semantic segmentation of large-scale 3D point clouds. Existing works usually rely on densely annotated point-level semantic labels to provide supervision for network training. However, in real-world scenarios that contain billions of points, it is impractical and extremely costly to manually annotate every single point. In this paper, we first investigate whether dense 3D labels are truly required for learning meaningful semantic representations. Interestingly, we find that the segmentation performance of existing works only drops slightly given as few as 1% of the annotations. However, beyond this point (e.g. 1 per thousand and below) existing techniques fail catastrophically. To this end, we propose a new weak supervision method to implicitly augment the total amount of available supervision signals, by leveraging the semantic similarity between neighboring points. Extensive experiments demonstrate that the proposed Semantic Query Network (SQN) achieves state-of-the-art performance on six large-scale open datasets under weak supervision schemes, while requiring only 1000x fewer labeled points for training. The code is available at https://github.com/QingyongHu/SQN.
翻訳日:2021-04-13 14:29:42 公開日:2021-04-11
# グラフ畳み込みニューラルネットワークによる研究論文の引用数の推定

A Graph Convolutional Neural Network based Framework for Estimating Future Citations Count of Research Articles ( http://arxiv.org/abs/2104.04939v1 )

ライセンス: Link先を確認
Abdul Wahid, Rajesh Sharma, and Chandra Sekhara Rao Annavarapu(参考訳) 科学出版物は研究者のキャリアにおいて重要な役割を果たす。 しかし、一部の論文は研究コミュニティの他のものよりも人気を博し、研究の方向性を後押ししている。 人気のある記事の徴候の1つは、記事が受け取る引用数である。 引用数(英: citation count)は、学術論文の品質を評価するための重要な指標であり、雑誌のインパクト係数のスコアである$h$-index(英語版)など、他の様々な指標のベースでもある。 本研究では,短期(1年)と長期(5年,10年)の双方について,今後の研究論文の引用を推定するためのグラフ畳み込みネットワーク(GCN)ベースのフレームワークを提案する。 我々は、AMinerデータセット、特に8百万記事以上のコンピュータサイエンス分野の研究論文に対して提案したアプローチを検証した。

Scientific publications play a vital role in the career of a researcher. However, some articles become more popular than others among the research community and subsequently drive future research directions. One of the indicative signs of popular articles is the number of citations an article receives. The citation count, which is also the basis with various other metrics, such as the journal impact factor score, the $h$-index, is an essential measure for assessing a scientific paper's quality. In this work, we proposed a Graph Convolutional Network (GCN) based framework for estimating future research publication citations for both the short-term (1-year) and long-term (for 5-years and 10-years) duration. We have tested our proposed approach over the AMiner dataset, specifically on research articles from the computer science domain, consisting of more than 0.8 million articles.
翻訳日:2021-04-13 14:28:04 公開日:2021-04-11
# ネットワーク侵入検出における改良された特徴選択手法:批判的レビュー

Supervised Feature Selection Techniques in Network Intrusion Detection: a Critical Review ( http://arxiv.org/abs/2104.04958v1 )

ライセンス: Link先を確認
Mario Di Mauro, Giovanni Galatro, Giancarlo Fortino, Antonio Liotta(参考訳) 機械学習(ml)技術は、ネットワーク侵入検出、特にサイバー脅威を隠す異常な流れを明らかにする上で、貴重なサポートになりつつある。 通常、MLアルゴリズムは、地域間時間、パケットの長さ分布、フローの平均数などの統計的特徴に基づいて、データトラフィックを分類/認識するために利用される。 データトラフィックを特徴付ける膨大な多様性と多数の機能に対処することは難しい問題です。 i) あまりにも多くの特徴の存在は、長い訓練プロセス(特に特徴が高い相関関係にある場合)をもたらすが、予測精度は比例的に改善されない、ii) いくつかの特徴は分類プロセス中にバイアスをもたらす可能性がある。 この目的のために、機能領域を小さくし、最も重要な機能のみを保持することにより、FS(Feature Selection)はネットワーク管理において重要な前処理ステップとなり、特にネットワーク侵入検出の目的において。 本稿では,近年のデータセットの評価(w.r.t.更新)など,様々な方法で他の調査を補完する。 時代遅れのkdd 99) scratch pythonベースの手順によって設計された; ii) 多目的進化技術を含む侵入検出の分野で最も信頼できるfsアプローチのシナプスを提供する; iii) 特徴相関、時間複雑性、性能など様々な実験分析を評価する。 我々の比較は、パフォーマンスとリソース消費のトレードオフが不可欠であるネットワーク侵入検出にMLの概念を取り入れることを検討しているネットワーク/セキュリティ管理者に有用なガイドラインを提供する。

Machine Learning (ML) techniques are becoming an invaluable support for network intrusion detection, especially in revealing anomalous flows, which often hide cyber-threats. Typically, ML algorithms are exploited to classify/recognize data traffic on the basis of statistical features such as inter-arrival times, packets length distribution, mean number of flows, etc. Dealing with the vast diversity and number of features that typically characterize data traffic is a hard problem. This results in the following issues: i) the presence of so many features leads to lengthy training processes (particularly when features are highly correlated), while prediction accuracy does not proportionally improve; ii) some of the features may introduce bias during the classification process, particularly those that have scarce relation with the data traffic to be classified. To this end, by reducing the feature space and retaining only the most significant features, Feature Selection (FS) becomes a crucial pre-processing step in network management and, specifically, for the purposes of network intrusion detection. In this review paper, we complement other surveys in multiple ways: i) evaluating more recent datasets (updated w.r.t. obsolete KDD 99) by means of a designed-from-scratch Python-based procedure; ii) providing a synopsis of most credited FS approaches in the field of intrusion detection, including Multi-Objective Evolutionary techniques; iii) assessing various experimental analyses such as feature correlation, time complexity, and performance. Our comparisons offer useful guidelines to network/security managers who are considering the incorporation of ML concepts into network intrusion detection, where trade-offs between performance and resource consumption are crucial.
翻訳日:2021-04-13 14:27:49 公開日:2021-04-11
# 深層学習を用いた胸部CTスキャン画像によるCOVID-19と地域肺炎の検出

Detecting COVID-19 and Community Acquired Pneumonia using Chest CT scan images with Deep Learning ( http://arxiv.org/abs/2104.05121v1 )

ライセンス: Link先を確認
Shubham Chaudhary, Sadbhawna, Vinit Jakhetiya, Badri N Subudhi, Ujjwal Baid, Sharath Chandra Guntuku(参考訳) 胸部CTスキャン画像を用いて、COVID-19とCommunity-Acquired Pneumonia(CAP)を検出するための2段階畳み込みニューラルネットワーク(CNN)に基づく分類フレームワークを提案する。 第1段階では、事前訓練されたDenseNetアーキテクチャを用いて、COVID-19またはCAPの感染を検出する。 そして、第2段階で、EfficientNetアーキテクチャを用いて、きめ細かい3方向の分類を行う。 提案したCOVID+CAP-CNNフレームワークは、新型コロナウイルスとCAPの識別において、スライスレベルの分類精度が94%以上に達した。 さらに、提案フレームワークは、新型コロナウイルスとCAPの鑑別診断のための初期スクリーニングツールであり、より微細な3方向のCOVID-19、CAP、健康な分類において、89.3%以上の検証精度を達成する可能性がある。 IEEE ICASSP 2021 Signal Processing Grand Challenge (SPGC) on COVID-19 diagnosisにおいて, 提案した2段階分類フレームワークは, HIV, CAP, および正常個体をそれぞれ区別し, 90%の精度と .857, .9, .942 の感度を達成し, 評価において第1位となった。 code and model weights are available at https://github.com/shubhamchaudhary2015/ct_covid19_cap_cnn

We propose a two-stage Convolutional Neural Network (CNN) based classification framework for detecting COVID-19 and Community-Acquired Pneumonia (CAP) using the chest Computed Tomography (CT) scan images. In the first stage, an infection - COVID-19 or CAP, is detected using a pre-trained DenseNet architecture. Then, in the second stage, a fine-grained three-way classification is done using EfficientNet architecture. The proposed COVID+CAP-CNN framework achieved a slice-level classification accuracy of over 94% at identifying COVID-19 and CAP. Further, the proposed framework has the potential to be an initial screening tool for differential diagnosis of COVID-19 and CAP, achieving a validation accuracy of over 89.3% at the finer three-way COVID-19, CAP, and healthy classification. Within the IEEE ICASSP 2021 Signal Processing Grand Challenge (SPGC) on COVID-19 Diagnosis, our proposed two-stage classification framework achieved an overall accuracy of 90% and sensitivity of .857, .9, and .942 at distinguishing COVID-19, CAP, and normal individuals respectively, to rank first in the evaluation. Code and model weights are available at https://github.com/shubhamchaudhary2015/ct_covid19_cap_cnn
翻訳日:2021-04-13 14:25:34 公開日:2021-04-11
# unidrop:余計なコストなしでトランスフォーマーを改善するシンプルで効果的な技術

UniDrop: A Simple yet Effective Technique to Improve Transformer without Extra Cost ( http://arxiv.org/abs/2104.04946v1 )

ライセンス: Link先を確認
Zhen Wu, Lijun Wu, Qi Meng, Yingce Xia, Shufang Xie, Tao Qin, Xinyu Dai and Tie-Yan Liu(参考訳) トランスフォーマーアーキテクチャは、豊富な自然言語処理タスクで大きな成功を収めます。 トランスフォーマーモデルの過小パラメータ化は、優れた性能のために過小評価を緩和する多くの作業の動機となっている。 いくつかの調査では、ドロップアウトのような単純なテクニックが、慎重に設計することで、モデルパフォーマンスを大幅に向上させる可能性がある。 そこで本稿では,トランスフォーマーモデルのトレーニングに異なるドロップアウト技術を統合する。 具体的には、細粒から粗粒までの3つの異なるドロップアウト手法、すなわち特徴ドロップアウト、構造ドロップアウト、データドロップアウトを統一するUniDropという手法を提案する。 理論的には、これらの3つのドロップアウトが正規化の観点から異なる役割を果たすことを示す。 実験では、ニューラルネットワークの翻訳とテキスト分類ベンチマークデータセットの両方について実験を行う。 以上の結果より, UniDrop を用いた Transformer は IWSLT14 翻訳タスクで約1.5 BLEU の改善を達成でき,RoBERTa をバックボーンとして使用しても精度が向上した。

Transformer architecture achieves great success in abundant natural language processing tasks. The over-parameterization of the Transformer model has motivated plenty of works to alleviate its overfitting for superior performances. With some explorations, we find simple techniques such as dropout, can greatly boost model performance with a careful design. Therefore, in this paper, we integrate different dropout techniques into the training of Transformer models. Specifically, we propose an approach named UniDrop to unites three different dropout techniques from fine-grain to coarse-grain, i.e., feature dropout, structure dropout, and data dropout. Theoretically, we demonstrate that these three dropouts play different roles from regularization perspectives. Empirically, we conduct experiments on both neural machine translation and text classification benchmark datasets. Extensive results indicate that Transformer with UniDrop can achieve around 1.5 BLEU improvement on IWSLT14 translation tasks, and better accuracy for the classification even using strong pre-trained RoBERTa as backbone.
翻訳日:2021-04-13 14:22:49 公開日:2021-04-11
# 構文は重要か? RoBERTaを用いたアスペクトベース感性分析のための強力なベースライン

Does syntax matter? A strong baseline for Aspect-based Sentiment Analysis with RoBERTa ( http://arxiv.org/abs/2104.04986v1 )

ライセンス: Link先を確認
Junqi Dai, Hang Yan, Tianxiang Sun, Pengfei Liu, Xipeng Qiu(参考訳) Aspect-based Sentiment Analysis (ABSA) は、感情分析の分野における細かいタスクである。 以前の研究は、例えば構文情報を示した。 依存性ツリーはABSAのパフォーマンスを効果的に改善する。 近年,プレトレーニングモデル (PTM) もABSA上での有効性を示した。 したがって, PTM が ABSA の十分な構文情報を含むかどうかという疑問が自然に生じ, 優れた ABSA モデルが得られるのは PTM のみである。 本稿では,まず PTM から誘導された木と ABSA タスクのいくつかの人気モデルの依存性解析木を比較し,微調整された RoBERTa (FT-RoBERTa) から誘導された木が解析した木より優れていることを示す。 さらなる分析実験により、FT-RoBERTa誘導木は感情語指向であり、ABSAタスクの恩恵を受ける可能性が示された。 実験では、タスク指向の構文情報を暗黙的に組み込むため、純粋なRoBERTaベースのモデルは、4つの言語にわたる6つのデータセットで以前のSOTAのパフォーマンスより優れているか、近似可能であることも示している。

Aspect-based Sentiment Analysis (ABSA), aiming at predicting the polarities for aspects, is a fine-grained task in the field of sentiment analysis. Previous work showed syntactic information, e.g. dependency trees, can effectively improve the ABSA performance. Recently, pre-trained models (PTMs) also have shown their effectiveness on ABSA. Therefore, the question naturally arises whether PTMs contain sufficient syntactic information for ABSA so that we can obtain a good ABSA model only based on PTMs. In this paper, we firstly compare the induced trees from PTMs and the dependency parsing trees on several popular models for the ABSA task, showing that the induced tree from fine-tuned RoBERTa (FT-RoBERTa) outperforms the parser-provided tree. The further analysis experiments reveal that the FT-RoBERTa Induced Tree is more sentiment-word-oriented and could benefit the ABSA task. The experiments also show that the pure RoBERTa-based model can outperform or approximate to the previous SOTA performances on six datasets across four languages since it implicitly incorporates the task-oriented syntactic information.
翻訳日:2021-04-13 14:22:32 公開日:2021-04-11
# 改良された単言語およびゼロショット多言語ニューラルトピックモデリングのための微調整エンコーダ

Fine-tuning Encoders for Improved Monolingual and Zero-shot Polylingual Neural Topic Modeling ( http://arxiv.org/abs/2104.05064v1 )

ライセンス: Link先を確認
Aaron Mueller, Mark Dredze(参考訳) ニューラル・トピック・モデルは、事前学習されたトランスフォーマーに基づく単語予測モデルの学習表現で単語の入力を増強または置換することができる。 多言語モデルの表現を使用する際の利点の一つは、ゼロショット多言語トピックモデリングを容易にすることである。 しかしながら、事前学習した埋め込みは特定のタスクに微調整されるべきであると広く見られているが、トピックモデリングのような教師なしタスクに対して、監督がどのようなものになるかはすぐには明らかではない。 そこで本研究では,単舌およびゼロショットの多舌神経話題モデルを改善するために,エンコーダの微調整手法を提案する。 補助タスクの微調整,新しいトピック分類タスクの構築,トピック分類目標をトピックモデルのトレーニングに直接統合し,事前トレーニングを継続する。 トピック分類における微調整エンコーダ表現やトピック分類タスクをトピックモデリングに直接統合することでトピックの品質が向上し,任意のタスクにおける微調整エンコーダ表現が言語間移動を促進する上で最も重要な要素であることが判明した。

Neural topic models can augment or replace bag-of-words inputs with the learned representations of deep pre-trained transformer-based word prediction models. One added benefit when using representations from multilingual models is that they facilitate zero-shot polylingual topic modeling. However, while it has been widely observed that pre-trained embeddings should be fine-tuned to a given task, it is not immediately clear what supervision should look like for an unsupervised task such as topic modeling. Thus, we propose several methods for fine-tuning encoders to improve both monolingual and zero-shot polylingual neural topic modeling. We consider fine-tuning on auxiliary tasks, constructing a new topic classification task, integrating the topic classification objective directly into topic model training, and continued pre-training. We find that fine-tuning encoder representations on topic classification and integrating the topic classification task directly into topic modeling improves topic quality, and that fine-tuning encoder representations on any task is the most important factor for facilitating cross-lingual transfer.
翻訳日:2021-04-13 14:22:11 公開日:2021-04-11
# 事前学習型言語モデルを用いた文埋め込みにおける意味と構文の相違

Disentangling Semantics and Syntax in Sentence Embeddings with Pre-trained Language Models ( http://arxiv.org/abs/2104.05115v1 )

ライセンス: Link先を確認
James Y. Huang, Kuan-Hao Huang, Kai-Wei Chang(参考訳) 事前訓練された言語モデルは、幅広いNLPタスクで大きな成功を収めている。 しかし、事前学習されたモデルからの文脈表現は、絡み合った意味的および構文的情報を含んでいるため、いくつかのタスクで有用な意味的文埋め込みを導出するために直接使用することはできない。 パラフレーズペアは、自然に意味を共有し、しばしば構文が異なるので、意味論と構文の区別を学ぶ効果的な方法を提供する。 本研究では,事前学習した言語モデルから得られた文の埋め込みにおいて,意味論と構文をアンタングル化する意味文埋め込みモデルであるParaBARTを提案する。 ParaBARTは、ターゲットのパラフレーズとセマンティクスを共有するソース文と、ターゲットの構文を指定するパースツリーに基づいて、構文誘導のパラフレーズを実行するように訓練されている。 このようにして、ParaBARTは異なるエンコーダでそれぞれの入力から非絡み合いのセマンティック表現と構文表現を学ぶ。 英語の実験では、ParaBARTは教師なし意味的類似性タスクにおける最先端の文埋め込みモデルよりも優れていた。 さらに,本手法は意味文埋め込みから構文情報を効果的に除去し,下流意味タスクにおける構文変化に対するロバスト性を向上させることができることを示した。

Pre-trained language models have achieved huge success on a wide range of NLP tasks. However, contextual representations from pre-trained models contain entangled semantic and syntactic information, and therefore cannot be directly used to derive useful semantic sentence embeddings for some tasks. Paraphrase pairs offer an effective way of learning the distinction between semantics and syntax, as they naturally share semantics and often vary in syntax. In this work, we present ParaBART, a semantic sentence embedding model that learns to disentangle semantics and syntax in sentence embeddings obtained by pre-trained language models. ParaBART is trained to perform syntax-guided paraphrasing, based on a source sentence that shares semantics with the target paraphrase, and a parse tree that specifies the target syntax. In this way, ParaBART learns disentangled semantic and syntactic representations from their respective inputs with separate encoders. Experiments in English show that ParaBART outperforms state-of-the-art sentence embedding models on unsupervised semantic similarity tasks. Additionally, we show that our approach can effectively remove syntactic information from semantic sentence embeddings, leading to better robustness against syntactic variation on downstream semantic tasks.
翻訳日:2021-04-13 14:21:50 公開日:2021-04-11
# 畳み込みニューラルネットワークを用いた印刷誤差検出

Print Error Detection using Convolutional Neural Networks ( http://arxiv.org/abs/2104.05046v1 )

ライセンス: Link先を確認
Suyash Shandilya(参考訳) 本稿では,印刷誤りを検出する自動システムの必要性と,そのようなアプリケーションにおける畳み込みニューラルネットワークの有効性について論じる。 印刷誤りサンプルを含むデータセットの必要性を認識し,人工的に生成する方法を提案する。 我々はそのようなデータを生成するアルゴリズムと、そのようなアポラッハの限界と利点について論じる。 私たちの最後のトレーニングネットワークは、テストで99.83\%の驚くべき精度を与えています。 さらに,このような効率性が達成されたか,どのような修正がテスト可能か,さらに評価した。

This paper discusses the need of an automated system for detecting print errors and the efficacy of Convolutional Neural Networks in such an application. We recognise the need of a dataset containing print error samples and propose a way to generate one artificially. We discuss the algorithms to generate such data along with the limitaions and advantages of such an apporach. Our final trained network gives a remarkable accuracy of 99.83\% in testing. We further evaluate how such efficiency was achieved and what modifications can be tested to further the results.
翻訳日:2021-04-13 14:18:58 公開日:2021-04-11
# クロスIOU損失を用いた位置感性視覚認識

Location-Sensitive Visual Recognition with Cross-IOU Loss ( http://arxiv.org/abs/2104.04899v1 )

ライセンス: Link先を確認
Kaiwen Duan, Lingxi Xie, Honggang Qi, Song Bai, Qingming Huang and Qi Tian(参考訳) オブジェクト検出、インスタンスセグメンテーション、ポーズ推定は、オブジェクトを内部または境界のランドマークでローカライズする必要がある一般的なビジュアル認識タスクである。 本稿では,これらの課題を位置センシティブな視覚認識として要約し,位置センシティブネットワーク(lsnet)という統一ソリューションを提案する。 深層ニューラルネットワークをバックボーンとして、LSNetは、ターゲットオブジェクトの形状を定義するアンカーポイントとランドマークのセットを予測する。 LSNetの最適化の鍵となるのは,各アンカーポイントランドマークペアのクロスIOUを計算するクロスIOU損失と呼ばれる新しい損失関数を設計し,予測とグランドトラストのグローバルIOUを近似する,様々なスケールに適合する能力である。 柔軟に位置し、正確に予測されたランドマークにより、LSNetはよりリッチなコンテキスト情報を視覚認識に組み込むことができる。 MS-COCOデータセットに基づいてLSNetは、アンカーフリーなオブジェクト検出(53.5%のボックスAP)とインスタンスセグメンテーション(40.2%のマスクAP)のための新しい最先端の精度を設定し、マルチスケールの人間のポーズを検出する上で有望なパフォーマンスを示す。 コードはhttps://github.com/Duankaiwen/LSNetで入手できる。

Object detection, instance segmentation, and pose estimation are popular visual recognition tasks which require localizing the object by internal or boundary landmarks. This paper summarizes these tasks as location-sensitive visual recognition and proposes a unified solution named location-sensitive network (LSNet). Based on a deep neural network as the backbone, LSNet predicts an anchor point and a set of landmarks which together define the shape of the target object. The key to optimizing the LSNet lies in the ability of fitting various scales, for which we design a novel loss function named cross-IOU loss that computes the cross-IOU of each anchor point-landmark pair to approximate the global IOU between the prediction and ground-truth. The flexibly located and accurately predicted landmarks also enable LSNet to incorporate richer contextual information for visual recognition. Evaluated on the MS-COCO dataset, LSNet set the new state-of-the-art accuracy for anchor-free object detection (a 53.5% box AP) and instance segmentation (a 40.2% mask AP), and shows promising performance in detecting multi-scale human poses. Code is available at https://github.com/Duankaiwen/LSNet
翻訳日:2021-04-13 14:14:19 公開日:2021-04-11
# RayNet:複数光によるリアルタイム任意形テキスト検出

RayNet: Real-time Scene Arbitrary-shape Text Detection with Multiple Rays ( http://arxiv.org/abs/2104.04903v1 )

ライセンス: Link先を確認
Chuang Yang, Mulin Chen, Qi Wang, and Xuelong Li(参考訳) 既存のオブジェクト検出ベースのテキスト検出器は、主に水平および多方向テキストの検出に集中している。 しかし、複雑な形状のテキスト(曲線や他の不規則な形状のテキスト)に十分な注意を払っていない。 近年,複雑なテキストを扱うためにセグメンテーションに基づくテキスト検出手法が導入されたが,画素レベルの処理は計算コストを大幅に増加させる。 精度と効率をさらに向上するため,RayNetと呼ばれる任意の形状のテキスト検出のための新しい検出フレームワークを提案する。 RayNet はテキストに適合するために Center Point Set (CPS) と Ray Distance (RD) を使用し、テキストの一般的な位置を決定するために CPS を使用し、RD を CPS と組み合わせてRay Points (RP) を計算してテキストの正確な形状をローカライズする。 RPは乱れているため、複素形状テキストの検出性能を大幅に改善するレイポイント接続(RPC)アルゴリズムを開発した。 RayNetは、既存の曲面テキストデータセット(CTW1500)と四角テキストデータセット(ICDAR2015)で優れたパフォーマンスを実現し、いくつかの最先端手法に対する優位性を実証している。

Existing object detection-based text detectors mainly concentrate on detecting horizontal and multioriented text. However, they do not pay enough attention to complex-shape text (curved or other irregularly shaped text). Recently, segmentation-based text detection methods have been introduced to deal with the complex-shape text; however, the pixel level processing increases the computational cost significantly. To further improve the accuracy and efficiency, we propose a novel detection framework for arbitrary-shape text detection, termed as RayNet. RayNet uses Center Point Set (CPS) and Ray Distance (RD) to fit text, where CPS is used to determine the text general position and the RD is combined with CPS to compute Ray Points (RP) to localize the text accurate shape. Since RP are disordered, we develop the Ray Points Connection (RPC) algorithm to reorder RP, which significantly improves the detection performance of complex-shape text. RayNet achieves impressive performance on existing curved text dataset (CTW1500) and quadrangle text dataset (ICDAR2015), which demonstrate its superiority against several state-of-the-art methods.
翻訳日:2021-04-13 14:13:55 公開日:2021-04-11
# フィードバックループを用いた胸部x線画像の異常分類と局在のクロスモーダルコントラスト学習

Cross-Modal Contrastive Learning for Abnormality Classification and Localization in Chest X-rays with Radiomics using a Feedback Loop ( http://arxiv.org/abs/2104.04968v1 )

ライセンス: Link先を確認
Yan Han, Chongyan Chen, Ahmed Tewfik, Benjamin Glicksberg, Ying Ding, Yifan Peng, Zhangyang Wang(参考訳) これらのタスクの高精度な予測モデルを構築するには、通常、多くの手動で注釈付きラベルとピクセル領域(バウンディングボックス)の異常が必要となる。 しかし、このようなアノテーション、特に境界ボックスを取得するのは高価である。 近年, コントラスト学習は, ラベルのない自然画像を活用して, 高度に一般化し, 識別可能な特徴を生み出すことを強く約束している。 しかしながら、医療画像領域へのパワー拡張は、データの増大に対して医療画像の修正がはるかに少ないため、未調査であり、非常に自明である。 対照的に、彼らのドメイン知識とマルチモダリティ情報はしばしば重要である。 そこで本研究では,このギャップを埋めるために,疾患分類と局所化を同時に行うエンド・ツー・エンドの半教師付きクロスモーダルコントラスト学習フレームワークを提案する。 本フレームワークのキーノブは,放射線学的特徴を補助的モダリティとしてシームレスに統合し,医用画像に適した独自の正のサンプリングアプローチである。 具体的には,まず胸部x線分類と画像特徴生成に画像エンコーダを適用する。 次にGrad-CAMを用いて胸部X線(無注釈でも)の領域を強調し,放射線学的特徴を抽出する。 放射能の特徴は別の専用エンコーダを通過し、同じ胸部x線から生成された画像の特徴の正のサンプルとして機能する。 このように、我々のフレームワークは、画像と放射能のモダリティ機能を相互に強化するためのフィードバックループを構成する。 それらの対比は、ロバストかつ解釈可能な相互モダリティ表現をもたらす。 nih胸部x線データセットに関する広範囲な実験により,我々のアプローチは分類と局所化のタスクにおいて既存のベースラインよりも優れていることが示された。

Building a highly accurate predictive model for these tasks usually requires a large number of manually annotated labels and pixel regions (bounding boxes) of abnormalities. However, it is expensive to acquire such annotations, especially the bounding boxes. Recently, contrastive learning has shown strong promise in leveraging unlabeled natural images to produce highly generalizable and discriminative features. However, extending its power to the medical image domain is under-explored and highly non-trivial, since medical images are much less amendable to data augmentations. In contrast, their domain knowledge, as well as multi-modality information, is often crucial. To bridge this gap, we propose an end-to-end semi-supervised cross-modal contrastive learning framework, that simultaneously performs disease classification and localization tasks. The key knob of our framework is a unique positive sampling approach tailored for the medical images, by seamlessly integrating radiomic features as an auxiliary modality. Specifically, we first apply an image encoder to classify the chest X-rays and to generate the image features. We next leverage Grad-CAM to highlight the crucial (abnormal) regions for chest X-rays (even when unannotated), from which we extract radiomic features. The radiomic features are then passed through another dedicated encoder to act as the positive sample for the image features generated from the same chest X-ray. In this way, our framework constitutes a feedback loop for image and radiomic modality features to mutually reinforce each other. Their contrasting yields cross-modality representations that are both robust and interpretable. Extensive experiments on the NIH Chest X-ray dataset demonstrate that our approach outperforms existing baselines in both classification and localization tasks.
翻訳日:2021-04-13 14:13:34 公開日:2021-04-11
# zero-shot learning on 3d point cloud objects and beyond

Zero-Shot Learning on 3D Point Cloud Objects and Beyond ( http://arxiv.org/abs/2104.04980v1 )

ライセンス: Link先を確認
Ali Cheraghian, Shafinn Rahman, Townim F. Chowdhury, Dylan Campbell, Lars Petersson(参考訳) ゼロショット学習(Zero-shot learning)は,2次元画像分類において,新しいクラスを学習時に認識するタスクである。 しかし,3dセンサの普及にもかかわらず,それに対応する3dポイントクラウド分類問題は有意義に検討されておらず,新たな課題も提起されている。 本稿では,課題のいくつかを特定し,既存のモデルの性能を解析するために3次元領域に2次元ゼロショット学習(ZSL)手法を適用した。 そこで,我々は3d zslに特有の問題に対処するための新しいアプローチを提案する。 まずインダクティブZSLプロセスを示し、3Dポイントクラウド分類のためのトランスダクティブZSLと一般化ZSL(GZSL)設定に拡張する。 この目的のために、目に見えないセマンティクスとポイントクラウドの特徴を同時に一致させ、既知の問題(例えば、ドメイン適応、ハブ性、データバイアス)に対処するためにラベル付けされていないテストデータを活用する新しいロス関数が開発された。 3次元点雲分類の特異性のために設計されているが、この手法はより一般的な2次元画像分類にも適用可能である。 合成(ModelNet40、ModelNet10、McGill)および実(ScanObjectNN)3Dポイントクラウドデータセット上で、ZSLとGZSLの最先端技術を確立するための広範な実験が実施された。

Zero-shot learning, the task of learning to recognize new classes not seen during training, has received considerable attention in the case of 2D image classification. However, despite the increasing ubiquity of 3D sensors, the corresponding 3D point cloud classification problem has not been meaningfully explored and introduces new challenges. In this paper, we identify some of the challenges and apply 2D Zero-Shot Learning (ZSL) methods in the 3D domain to analyze the performance of existing models. Then, we propose a novel approach to address the issues specific to 3D ZSL. We first present an inductive ZSL process and then extend it to the transductive ZSL and Generalized ZSL (GZSL) settings for 3D point cloud classification. To this end, a novel loss function is developed that simultaneously aligns seen semantics with point cloud features and takes advantage of unlabeled test data to address some known issues (e.g., the problems of domain adaptation, hubness, and data bias). While designed for the particularities of 3D point cloud classification, the method is shown to also be applicable to the more common use-case of 2D image classification. An extensive set of experiments is carried out, establishing state-of-the-art for ZSL and GZSL on synthetic (ModelNet40, ModelNet10, McGill) and real (ScanObjectNN) 3D point cloud datasets.
翻訳日:2021-04-13 14:13:06 公開日:2021-04-11
# クロスモーダル検索のための情報理論と逆学習の統合

Integrating Information Theory and Adversarial Learning for Cross-modal Retrieval ( http://arxiv.org/abs/2104.04991v1 )

ライセンス: Link先を確認
Wei Chen, Yu Liu, Erwin M. Bakker, Michael S. Lew(参考訳) マルチメディアコミュニティでは,クロスモーダル検索における視覚データとテキストデータのマッチングが広く研究されている。 異質性ギャップと意味的ギャップによって生じるこれらの課題に対処するために,シャノン情報理論と逆学習を統合することを提案する。 異質性ギャップの観点からは、モダリティ分類と情報エントロピー最大化を相反的に統合する。 この目的のために、異なる統計特性に応じてテキストと画像のモダリティを区別するために、モダリティ分類器(判別器)を構築する。 この判別器はその出力確率を用いてシャノン情報エントロピーを計算し、それが実行するモダリティ分類の不確実性を測定する。 さらに、特徴エンコーダ(ジェネレータ)は、共通の共有空間にユニモーダル特徴を投影し、その出力情報エントロピーを最大化して識別器を騙そうとする。 これにより、情報エントロピーの最大化は、クロスモーダル特徴の分布差を徐々に減少させ、判別器が2つのモダリティを確実に分類できない領域混乱状態を実現する。 セマンティクスギャップを低減するために、共有空間の特徴間のモダリティ内およびモダリティ間の類似性を関連付けるために、kullback-leibler(kl)の分岐と双方向三重項損失を用いる。 さらに、温度スケーリングを伴うKL偏差に基づく正規化項を用いて、データ不均衡問題に起因するバイアスラベル分類器を校正する。 4つのベンチマークで4つの深層モデルを用いた広範囲な実験を行い,提案手法の有効性を実証した。

Accurately matching visual and textual data in cross-modal retrieval has been widely studied in the multimedia community. To address these challenges posited by the heterogeneity gap and the semantic gap, we propose integrating Shannon information theory and adversarial learning. In terms of the heterogeneity gap, we integrate modality classification and information entropy maximization adversarially. For this purpose, a modality classifier (as a discriminator) is built to distinguish the text and image modalities according to their different statistical properties. This discriminator uses its output probabilities to compute Shannon information entropy, which measures the uncertainty of the modality classification it performs. Moreover, feature encoders (as a generator) project uni-modal features into a commonly shared space and attempt to fool the discriminator by maximizing its output information entropy. Thus, maximizing information entropy gradually reduces the distribution discrepancy of cross-modal features, thereby achieving a domain confusion state where the discriminator cannot classify two modalities confidently. To reduce the semantic gap, Kullback-Leibler (KL) divergence and bi-directional triplet loss are used to associate the intra- and inter-modality similarity between features in the shared space. Furthermore, a regularization term based on KL-divergence with temperature scaling is used to calibrate the biased label classifier caused by the data imbalance issue. Extensive experiments with four deep models on four benchmarks are conducted to demonstrate the effectiveness of the proposed approach.
翻訳日:2021-04-13 14:12:40 公開日:2021-04-11
# One Ring to Rule Them All: A simple Solution to multi-view 3D-Reconstruction of shapes with unknown BRDF via a small Recurrent ResNet

One Ring to Rule Them All: a simple solution to multi-view 3D-Reconstruction of shapes with unknown BRDF via a small Recurrent ResNet ( http://arxiv.org/abs/2104.05014v1 )

ライセンス: Link先を確認
Ziang Cheng, Hongdong Li, Richard Hartley, Yinqiang Zheng, Imari Sato(参考訳) 本稿では,自由移動カメラと自由移動点光源により撮像された未知および汎用表面材料を有する物体の多視点3次元再構成のオープン問題を解決する簡易な方法を提案する。 オブジェクトは任意の(例えば)を持つことができる。 非ランベルト的、空間的に変動する(あるいは至るところで異なる)表面反射率(svbrdf)。 本ソリューションは,約1,000個のニューロンを持つ2つの小型ニューラルネットワーク(「Shape-Net」と「BRDFNet」)で,それぞれ未知の形状と未知のsvBRDFをパラメータ化する。 提案手法の鍵は,特別なネットワーク設計(すなわち,グローバルフィードバックやリング接続を持つresnet)であり,有効な2相形状パラメータ化を求めるための証明可能な保証を有する。 従来の最適化手法では,根本問題は非常に非凸であるにもかかわらず,本手法は初期化なしでも高品質な解に確実に収束する。 広範な実験によって本手法の優位性が示され, 新たな視点合成, ライトニング, 素材のリタッチ, 形状の交換など, 様々な特殊効果応用が可能となった。 読者には、デモビデオをもっとよく見るように勧めます。

This paper proposes a simple method which solves an open problem of multi-view 3D-Reconstruction for objects with unknown and generic surface materials, imaged by a freely moving camera and a freely moving point light source. The object can have arbitrary (e.g. non-Lambertian), spatially-varying (or everywhere different) surface reflectances (svBRDF). Our solution consists of two smallsized neural networks (dubbed the 'Shape-Net' and 'BRDFNet'), each having about 1,000 neurons, used to parameterize the unknown shape and unknown svBRDF, respectively. Key to our method is a special network design (namely, a ResNet with a global feedback or 'ring' connection), which has a provable guarantee for finding a valid diffeomorphic shape parameterization. Despite the underlying problem is highly non-convex hence impractical to solve by traditional optimization techniques, our method converges reliably to high quality solutions, even without initialization. Extensive experiments demonstrate the superiority of our method, and it naturally enables a wide range of special-effect applications including novel-view-synthesis, relighting, material retouching, and shape exchange without additional coding effort. We encourage the reader to view our demo video for better visualizations.
翻訳日:2021-04-13 14:12:16 公開日:2021-04-11
# 人間の動き予測のための時間一貫性2ストリームCNN

Temporal Consistency Two-Stream CNN for Human Motion Prediction ( http://arxiv.org/abs/2104.05015v1 )

ライセンス: Link先を確認
Jin Tang, Jin Zhang, Jianqin Yin(参考訳) 核融合は2ストリームネットワークにとって重要である。 本稿では、時間的結合や時間的整合性を維持するために特別に設計された強化軌道空間時間ブロックを含む2ストリーム関節の情報を融合して人間の動きを予測する新しい時間的融合(TF)モジュールを提案する。 特に、時間的結合は2つのストリームからの予備予測の時間的一貫性を維持する。 一方、TSTブロックは空間的時間的特徴結合を改善する。 しかし、tfモジュールは、第1の予測ポーズと所定のポーズと、各予測ポーズ間の時間的連続性を高めることができる。 この融合は, 動的速度流(V-Stream)と静的位置流(P-Stream)からなる2ストリームネットワークに基づいており, ジョイントの速度情報が短期予測を改善する一方, ジョイントの位置情報は長期予測において良好であり, 運動予測において相補的であることを見出した。 最後に,H3.6M,CMU-Mocap,3DPWの3つのベンチマークデータセットに対して,短期および長期の予測を行い,その有効性と有効性を確認した。

Fusion is critical for a two-stream network. In this paper, we propose a novel temporal fusion (TF) module to fuse the two-stream joints' information to predict human motion, including a temporal concatenation and a reinforcement trajectory spatial-temporal (TST) block, specifically designed to keep prediction temporal consistency. In particular, the temporal concatenation keeps the temporal consistency of preliminary predictions from two streams. Meanwhile, the TST block improves the spatial-temporal feature coupling. However, the TF module can increase the temporal continuities between the first predicted pose and the given poses and between each predicted pose. The fusion is based on a two-stream network that consists of a dynamic velocity stream (V-Stream) and a static position stream (P-Stream) because we found that the joints' velocity information improves the short-term prediction, while the joints' position information is better at long-term prediction, and they are complementary in motion prediction. Finally, our approach achieves impressive results on three benchmark datasets, including H3.6M, CMU-Mocap, and 3DPW in both short-term and long-term predictions, confirming its effectiveness and efficiency.
翻訳日:2021-04-13 14:11:52 公開日:2021-04-11
# GR-RNN: 文字識別のための大域的文脈残差リカレントニューラルネットワーク

GR-RNN: Global-Context Residual Recurrent Neural Networks for Writer Identification ( http://arxiv.org/abs/2104.05036v1 )

ライセンス: Link先を確認
Sheng He, Lambert Schomaker(参考訳) 本稿では,グローバルコンテキスト情報と局所フラグメントに基づく特徴列を共同で統合した,手書きの単語画像を用いて書き手を識別するエンド・ツー・エンドニューラルネットワークシステムを提案する。 グローバルコンテキスト情報は、グローバル平均プーリングステップによってニューラルネットワークのテールから抽出される。 局所的および断片的特徴のシーケンスは、手書きスタイルに関する微妙な情報を含む低レベル深層特徴マップから抽出される。 断片列間の空間的関係はrecurrent neural network(rnn)によってモデル化され、局所的断片の特徴の識別能力を強化する。 本稿では,グローバルコンテキストとローカルフラグメントの相補的情報を活用することにより,グローバルコンテキスト残差リカレントニューラルネットワーク(gr-rnn)法を提案する。 提案手法は4つの公開データセット上で評価され,実験結果から最新性能が得られた。 さらに、グレースケール画像でトレーニングされたニューラルネットワークは、二色化画像や輪郭画像でトレーニングされたニューラルネットワークよりも優れた結果をもたらし、テクスチャ情報がライター識別に重要な役割を果たすことを示している。 ソースコードは、 \url{https://github.com/shengfly/writer-identification} で入手できる。

This paper presents an end-to-end neural network system to identify writers through handwritten word images, which jointly integrates global-context information and a sequence of local fragment-based features. The global-context information is extracted from the tail of the neural network by a global average pooling step. The sequence of local and fragment-based features is extracted from a low-level deep feature map which contains subtle information about the handwriting style. The spatial relationship between the sequence of fragments is modeled by the recurrent neural network (RNN) to strengthen the discriminative ability of the local fragment features. We leverage the complementary information between the global-context and local fragments, resulting in the proposed global-context residual recurrent neural network (GR-RNN) method. The proposed method is evaluated on four public data sets and experimental results demonstrate that it can provide state-of-the-art performance. In addition, the neural networks trained on gray-scale images provide better results than neural networks trained on binarized and contour images, indicating that texture information plays an important role for writer identification. The source code will be available: \url{https://github.com/shengfly/writer-identification}.
翻訳日:2021-04-13 14:11:30 公開日:2021-04-11
# Fashionable ImagesによるInstagramフィルタ除去

Instagram Filter Removal on Fashionable Images ( http://arxiv.org/abs/2104.05072v1 )

ライセンス: Link先を確認
Furkan K{\i}nl{\i}, Bar{\i}\c{s} \"Ozcan, Furkan K{\i}ra\c{c}(参考訳) ソーシャルメディア画像は一般的にフィルターによって変換され、審美的により喜ばしい外観が得られる。 しかし、一般的にcnnは、ソーシャルメディア画像の視覚的解析において、画像とフィルタリングされたバージョンの両方を同一と解釈できない。 ソーシャルメディア分析アプリケーションにおける画像フィルタの効果を軽減するため,Instagramフィルタ除去ネットワーク(IFRNet)を導入する。 これを実現するために,画像に適用されたフィルタが付加的なスタイル情報を実質的に注入すると仮定し,この問題をリバーススタイル転送問題と考える。 エンコーダの各レベルにおいて外部スタイル情報を適応的に正規化することにより、フィルタリングの視覚効果を直接除去することができる。 実験により、IFRNetは比較したすべての手法を定量的および質的な比較で上回り、視覚効果を極端に除去できることを示した。 さらに,提案モデルのフィルタ分類性能について述べるとともに,すべての比較手法で未フィルタリング画像における優占色推定を解析した。

Social media images are generally transformed by filtering to obtain aesthetically more pleasing appearances. However, CNNs generally fail to interpret both the image and its filtered version as the same in the visual analysis of social media images. We introduce Instagram Filter Removal Network (IFRNet) to mitigate the effects of image filters for social media analysis applications. To achieve this, we assume any filter applied to an image substantially injects a piece of additional style information to it, and we consider this problem as a reverse style transfer problem. The visual effects of filtering can be directly removed by adaptively normalizing external style information in each level of the encoder. Experiments demonstrate that IFRNet outperforms all compared methods in quantitative and qualitative comparisons, and has the ability to remove the visual effects to a great extent. Additionally, we present the filter classification performance of our proposed model, and analyze the dominant color estimation on the images unfiltered by all compared methods.
翻訳日:2021-04-13 14:11:11 公開日:2021-04-11
# オンライン連続学習における表現ドリフトの削減

Reducing Representation Drift in Online Continual Learning ( http://arxiv.org/abs/2104.05025v1 )

ライセンス: Link先を確認
Lucas Caccia, Rahaf Aljundi, Tinne Tuytelaars, Joelle Pineau, Eugene Belilovsky(参考訳) エージェントは制約のあるメモリと計算で変化する分布から学習しなければならない。 以前の作業は、しばしばモデルパラメータの空間の変化を克服することで破滅的な忘れに取り組みます。 この作業では、入ってくるデータストリームに未観測のクラスサンプルが導入されるため、事前に観測されたデータの表現の変化に焦点を当てます。 我々は,すべてのクラス間で新しいクラスを区別しなければならない実践的な設定において生じる問題を強調する。 一般的なアプローチである経験再生から、メトリック学習に基づく損失関数(三重項損失)を考えると、表現の振る舞いをより明示的に制約することができる。 我々は,三重項損失における負の選択が先行観測データの表現変化,あるいはドリフトにおいて重要な役割を担い,適切な負の選択によって大幅に低減できると仮定し,実証的に確認する。 さらに,前回の体験リプレイで使用される標準的なクロスエントロピー損失に対する簡単な調整を導入することで,同様の効果が得られる。 提案手法は,経験の再現性を大幅に向上させ,オンライン連続学習におけるいくつかの既存ベンチマークの最先端性を得るとともに,メモリと計算の両面で効率を保っている。

We study the online continual learning paradigm, where agents must learn from a changing distribution with constrained memory and compute. Previous work often tackle catastrophic forgetting by overcoming changes in the space of model parameters. In this work we instead focus on the change in representations of previously observed data due to the introduction of previously unobserved class samples in the incoming data stream. We highlight the issues that arise in the practical setting where new classes must be distinguished between all previous classes. Starting from a popular approach, experience replay, we consider a metric learning based loss function, the triplet loss, which allows us to more explicitly constrain the behavior of representations. We hypothesize and empirically confirm that the selection of negatives used in the triplet loss plays a major role in the representation change, or drift, of previously observed data and can be greatly reduced by appropriate negative selection. Motivated by this we further introduce a simple adjustment to the standard cross entropy loss used in prior experience replay that achieves similar effect. Our approach greatly improves the performance of experience replay and obtains state-of-the-art on several existing benchmarks in online continual learning, while remaining efficient in both memory and compute.
翻訳日:2021-04-13 14:01:39 公開日:2021-04-11
# 弱形式一般化ハミルトン学習

Weak Form Generalized Hamiltonian Learning ( http://arxiv.org/abs/2104.05096v1 )

ライセンス: Link先を確認
Kevin L. Course, Trefor W. Evans, Prasanth B. Nair(参考訳) 本稿では, 一般微分方程式の一般化されたハミルトン分解の学習法について述べる。 本手法は一般力学系の連続時間モデルとスカラーエネルギー関数を同時に学習する。 この形で予測モデルを学ぶことは、一般的な力学系のための学習可能な支配方程式の形式に、強力でハイレベルな物理学を先行させることができる。 さらに,本手法が物理にインスパイアされた先行研究の深層学習をいかに拡張・統一するかを示すとともに,従来の随伴法よりも計算量が少ない支配方程式の弱形式から連続時間モデルを学習するための新しい手法を提案する。

We present a method for learning generalized Hamiltonian decompositions of ordinary differential equations given a set of noisy time series measurements. Our method simultaneously learns a continuous time model and a scalar energy function for a general dynamical system. Learning predictive models in this form allows one to place strong, high-level, physics inspired priors onto the form of the learnt governing equations for general dynamical systems. Moreover, having shown how our method extends and unifies some previous work in deep learning with physics inspired priors, we present a novel method for learning continuous time models from the weak form of the governing equations which is less computationally taxing than standard adjoint methods.
翻訳日:2021-04-13 14:01:20 公開日:2021-04-11
# bertに基づく音声認識のためのリランキング言語モデル

Innovative Bert-based Reranking Language Models for Speech Recognition ( http://arxiv.org/abs/2104.04950v1 )

ライセンス: Link先を確認
Shih-Hsuan Chiu and Berlin Chen(参考訳) より最近では、トランスフォーマー(bert)からの双方向エンコーダ表現が提案され、質問応答や言語理解といった多くの自然言語処理(nlp)タスクにおいて、特に、事前学習と微調整の効果的なパラダイムと、強力な局所文脈モデリング能力によって、素晴らしい成功を収めている。 本稿では,自動音声認識(ASR)によるN-best仮説の再評価を目的とした,BERTに基づく文脈型言語モデル(LM)の新たなインスタンス化について述べる。 そこで本研究では,N-best仮説をBERTで再評価した上で,最下位単語誤り率(WER)を有するオラクル仮説(PBERTで記述)を予測することを目的とした。 特に,N-best仮説の再評価(TPBERT)においてPBERTを支援するために,タスク固有のグローバルトピック情報を教師なしで活用することを検討する。 AMIベンチマークコーパスで行った大規模な実験は、リカレントニューラルネットワーク(RNN)のような従来の自己回帰モデルと比較し、N-best仮説の再評価のための擬似log-likelihood(PLL)スコアを計算するためにBERTを用いた手法と比較して、我々の手法の有効性と実現可能性を示した。

More recently, Bidirectional Encoder Representations from Transformers (BERT) was proposed and has achieved impressive success on many natural language processing (NLP) tasks such as question answering and language understanding, due mainly to its effective pre-training then fine-tuning paradigm as well as strong local contextual modeling ability. In view of the above, this paper presents a novel instantiation of the BERT-based contextualized language models (LMs) for use in reranking of N-best hypotheses produced by automatic speech recognition (ASR). To this end, we frame N-best hypothesis reranking with BERT as a prediction problem, which aims to predict the oracle hypothesis that has the lowest word error rate (WER) given the N-best hypotheses (denoted by PBERT). In particular, we also explore to capitalize on task-specific global topic information in an unsupervised manner to assist PBERT in N-best hypothesis reranking (denoted by TPBERT). Extensive experiments conducted on the AMI benchmark corpus demonstrate the effectiveness and feasibility of our methods in comparison to the conventional autoregressive models like the recurrent neural network (RNN) and a recently proposed method that employed BERT to compute pseudo-log-likelihood (PLL) scores for N-best hypothesis reranking.
翻訳日:2021-04-13 13:57:58 公開日:2021-04-11
# クベルカ・ムンク理論の不透明な形態を用いた文化遺産のハイパースペクトル顔料分析

Hyperspectral Pigment Analysis of Cultural Heritage Artifacts Using the Opaque Form of Kubelka-Munk Theory ( http://arxiv.org/abs/2104.04884v1 )

ライセンス: Link先を確認
Abu Md Niamul Taufique, David W. Messinger(参考訳) クベルカ・マンク(K-M)理論は、近代絵画の顔料混合物中の色素濃度をスペクトル画像で推定するのに成功している。 本研究では、17世紀初頭に作成されたであろう南シナ海の航海図である中国セルデン地図における緑色顔料の分類に単一定数k-m理論を応用した。 地図の超スペクトルデータはオックスフォード大学のボドリアン図書館で収集され、地図内の顔料の多様性や空間分布を推定するのに使うことができる。 この研究は、伝統的なリフレクタンス領域とは対照的に、K/S空間のデータをクベルカ・マンク理論から解析する有用性を評価することを目的とする。 我々はデータ次元を推定し、反射領域の終端要素を抽出する。 次に, k/s空間における存在量を推定するために線形不混合を行い, bai, et al に追従する。 (2017) では, 多元空間の分類を行う。 最後に、基底真理ラベルの欠如により、各クラスの平均スペクトルをそのクラスの代表的シグネチャとして計算し、そのクラスのすべてのピクセルで根平均二乗誤差を計算して誤差の空間的表現を作成することにより、分類精度を推定した。 これは、この手法で特定の顔料が十分にモデル化されていないかどうかを示す、空間パターンの大きさと誤差の両方を強調している。

Kubelka-Munk (K-M) theory has been successfully used to estimate pigment concentrations in the pigment mixtures of modern paintings in spectral imagery. In this study the single-constant K-M theory has been utilized for the classification of green pigments in the Selden Map of China, a navigational map of the South China Sea likely created in the early seventeenth century. Hyperspectral data of the map was collected at the Bodleian Library, University of Oxford, and can be used to estimate the pigment diversity, and spatial distribution, within the map. This work seeks to assess the utility of analyzing the data in the K/S space from Kubelka-Munk theory, as opposed to the traditional reflectance domain. We estimate the dimensionality of the data and extract endmembers in the reflectance domain. Then we perform linear unmixing to estimate abundances in the K/S space, and following Bai, et al. (2017), we perform a classification in the abundance space. Finally, due to the lack of ground truth labels, the classification accuracy was estimated by computing the mean spectrum of each class as the representative signature of that class, and calculating the root mean squared error with all the pixels in that class to create a spatial representation of the error. This highlights both the magnitude of, and any spatial pattern in, the errors, indicating if a particular pigment is not well modeled in this approach.
翻訳日:2021-04-13 13:55:58 公開日:2021-04-11
# SIGAN: 太陽電池の欠陥分割と拡大のための新しい画像生成手法

SIGAN: A Novel Image Generation Method for Solar Cell Defect Segmentation and Augmentation ( http://arxiv.org/abs/2104.04953v1 )

ライセンス: Link先を確認
Binyi Su, Zhong Zhou, Haiyong Chen, and Xiaochun Cao (Senior Member, IEEE)(参考訳) 太陽電池エレクトロルミネッセンス(EL)欠陥セグメンテーションは興味深く挑戦的なトピックである。 EL欠陥検出には多くの方法が提案されているが, 欠陥と背景の多様性のため, これらの手法は相変わらず不満足である。 本稿では,欠陥セグメント化にGAN(Generative Adversarial Network)を用いる新たなアイデアを提案する。 まず、ganベースの方法は、入力欠陥画像の欠陥領域を除去して欠陥のない画像を得るが、背景はほぼ変わらない。 そして、生成した欠陥のない画像と欠陥入力画像とを区別して減算画像を得る。 そして、下降画像のしきい値化により、欠陥領域を分割することができる。 画像生成前後の背景を一定に保ちながら、背景の一貫性を制約する新しい強いアイデンティティ損失(SIGAN)を提案する。 SIGANは、欠陥セグメント化だけでなく、小さなサンプル欠陥データセット拡張にも使用できる。 さらに,el-2019と呼ばれる新しい太陽電池el画像データセットをリリースし,クラック,指の割り込み,欠陥のない3種類の画像を含む。 EL-2019データセットの実験により、提案手法は90.34%のFスコアを達成し、太陽電池欠陥のセグメンテーション結果において多くの最先端手法を上回った。

Solar cell electroluminescence (EL) defect segmentation is an interesting and challenging topic. Many methods have been proposed for EL defect detection, but these methods are still unsatisfactory due to the diversity of the defect and background. In this paper, we provide a new idea of using generative adversarial network (GAN) for defect segmentation. Firstly, the GAN-based method removes the defect region in the input defective image to get a defect-free image, while keeping the background almost unchanged. Then, the subtracted image is obtained by making difference between the defective input image with the generated defect-free image. Finally, the defect region can be segmented through thresholding the subtracted image. To keep the background unchanged before and after image generation, we propose a novel strong identity GAN (SIGAN), which adopts a novel strong identity loss to constraint the background consistency. The SIGAN can be used not only for defect segmentation, but also small-samples defective dataset augmentation. Moreover, we release a new solar cell EL image dataset named as EL-2019, which includes three types of images: crack, finger interruption and defect-free. Experiments on EL-2019 dataset show that the proposed method achieves 90.34% F-score, which outperforms many state-of-the-art methods in terms of solar cell defects segmentation results.
翻訳日:2021-04-13 13:55:34 公開日:2021-04-11
# 不完全な結果をもつ大規模多重応答回帰に対する並列積分学習

Parallel integrative learning for large-scale multi-response regression with incomplete outcomes ( http://arxiv.org/abs/2104.05076v1 )

ライセンス: Link先を確認
Ruipeng Dong, Daoji Li, Zemin Zheng(参考訳) マルチタスク学習は、多くのアプリケーションにおいて、複数の応答と単一の予測変数のセットの間の関連構造を調べるためにますます使われている。 ビッグデータの時代において、不完全な結果、大量の応答、予測者の高次元の共存は、推定、予測、計算において前例のない課題をもたらす。 本稿では,応答数と予測器の双方を高次元化可能な不完全な結果を伴う大規模マルチ応答回帰のための,peerと呼ばれるスケーラブルで計算効率のよい手続きを提案する。 スパース係数の回帰によって動機づけられた多重応答回帰を、効率よく並列に実装可能な単変数応答回帰の集合に変換する。 いくつかの穏やかな規則性条件の下では、PEERは推定、予測、変数選択の一貫性を含む優れたサンプリング特性を享受している。 提案手法は, 推定精度, 変数選択, 計算効率において, 既存の手法と好適に比較できることを示す。

Multi-task learning is increasingly used to investigate the association structure between multiple responses and a single set of predictor variables in many applications. In the era of big data, the coexistence of incomplete outcomes, large number of responses, and high dimensionality in predictors poses unprecedented challenges in estimation, prediction, and computation. In this paper, we propose a scalable and computationally efficient procedure, called PEER, for large-scale multi-response regression with incomplete outcomes, where both the numbers of responses and predictors can be high-dimensional. Motivated by sparse factor regression, we convert the multi-response regression into a set of univariate-response regressions, which can be efficiently implemented in parallel. Under some mild regularity conditions, we show that PEER enjoys nice sampling properties including consistency in estimation, prediction, and variable selection. Extensive simulation studies show that our proposal compares favorably with several existing methods in estimation accuracy, variable selection, and computation efficiency.
翻訳日:2021-04-13 13:52:35 公開日:2021-04-11
# 深層強化学習のための本質的動機づけによる目標条件政策の学習

Learn Goal-Conditioned Policy with Intrinsic Motivation for Deep Reinforcement Learning ( http://arxiv.org/abs/2104.05043v1 )

ライセンス: Link先を確認
Jinxin Liu, Donglin Wang, Qiangxing Tian, Zhengyu Chen(参考訳) エージェントは、画像やテキストの記述を含む多様な目標を達成できる、広く応用され汎用的な政策を学ぶことが重要である。 このような知覚特異的な目標を考えると、深層強化学習研究の最前線は、手作りの報酬なしで目標条件の政策を学ぶことである。 この種の方針を学ぶために、近年の作品は、通常、明示的な埋め込み空間において与えられた目標に対する非パラメトリック距離の報奨となる。 異なる視点から,本質的なモチベーションを伴う目標条件政策(GPIM)という,新たな教師なし学習手法を提案し,抽象レベル政策と目標条件政策の両方を共同で学習する。 抽象レベルポリシーは、識別器を最適化するために潜在変数に条件付けされ、ゴール条件付きポリシーの知覚特異的な目標にさらに反映される多様な状態を発見する。 学習された判別器は、抽象レベルポリシーによって誘導される軌道を模倣するゴール条件付きポリシーの本質的な報酬関数として機能する。 各種ロボットタスクの実験により,従来の手法よりも優れたGPIM法の有効性と効率性を示した。

It is of significance for an agent to learn a widely applicable and general-purpose policy that can achieve diverse goals including images and text descriptions. Considering such perceptually-specific goals, the frontier of deep reinforcement learning research is to learn a goal-conditioned policy without hand-crafted rewards. To learn this kind of policy, recent works usually take as the reward the non-parametric distance to a given goal in an explicit embedding space. From a different viewpoint, we propose a novel unsupervised learning approach named goal-conditioned policy with intrinsic motivation (GPIM), which jointly learns both an abstract-level policy and a goal-conditioned policy. The abstract-level policy is conditioned on a latent variable to optimize a discriminator and discovers diverse states that are further rendered into perceptually-specific goals for the goal-conditioned policy. The learned discriminator serves as an intrinsic reward function for the goal-conditioned policy to imitate the trajectory induced by the abstract-level policy. Experiments on various robotic tasks demonstrate the effectiveness and efficiency of our proposed GPIM method which substantially outperforms prior techniques.
翻訳日:2021-04-13 13:50:45 公開日:2021-04-11
# 安定したレコメンデーションのためのユーザ嗜好の動的モデリング

Dynamic Modeling of User Preferences for Stable Recommendations ( http://arxiv.org/abs/2104.05047v1 )

ライセンス: Link先を確認
Oluwafemi Olaleke, Ivan Oseledets, Evgeny Frolov(参考訳) ユーザが頻繁な変化を伴わない長期的な嗜好を発達する傾向にあるドメインでは、レコメンデーションの安定性は、レコメンデーションシステムの品質に対する認識の重要な要素である。 このような場合、不安定なレコメンデーションはパーソナライズ体験の低下と不信を招き、レコメンデーションサービスからユーザーを遠ざける可能性がある。 動的モデリング手法を用いて,このような問題を緩和するインクリメンタル学習手法を提案する。 偏微分方程式積分器の一般化行列形式を取り入れ、ユーザの好みを表す時間依存行列の動的低ランク近似を生成する。 このスキームは、有名なPureSVDアプローチをタイムアウェアな設定に拡張し、標準の$n$レコメンデーションタスクの精度を犠牲にすることなく、安定性を大幅に改善する。

In domains where users tend to develop long-term preferences that do not change too frequently, the stability of recommendations is an important factor of the perceived quality of a recommender system. In such cases, unstable recommendations may lead to poor personalization experience and distrust, driving users away from a recommendation service. We propose an incremental learning scheme that mitigates such problems through the dynamic modeling approach. It incorporates a generalized matrix form of a partial differential equation integrator that yields a dynamic low-rank approximation of time-dependent matrices representing user preferences. The scheme allows extending the famous PureSVD approach to time-aware settings and significantly improves its stability without sacrificing the accuracy in standard top-$n$ recommendations tasks.
翻訳日:2021-04-13 13:50:26 公開日:2021-04-11
# iELAS:FPGAプラットフォーム上でのリアルタイムステレオマッチングのためのELASベースのエネルギー効率の高い加速器

iELAS: An ELAS-Based Energy-Efficient Accelerator for Real-Time Stereo Matching on FPGA Platform ( http://arxiv.org/abs/2104.05112v1 )

ライセンス: Link先を確認
Tian Gao, Zishen Wan, Yuyang Zhang, Bo Yu, Yanjun Zhang, Shaoshan Liu, Arijit Raychowdhury(参考訳) ステレオマッチングは、ロボットナビゲーションと自動運転車にとって重要なタスクであり、周囲の深度を推定する。 すべてのステレオマッチングアルゴリズムの中で、ELAS(Efficient Large-scale Stereo)は効率と精度の最良のトレードオフの1つである。 しかし、固有の反復プロセスと予測不能なメモリアクセスパターンのため、elasはハイエンドcpu上で1.5-3fpsでしか動作できず、低消費電力プラットフォームでのリアルタイムパフォーマンスを達成するのが困難である。 本稿では,FPGAプラットフォーム上でのリアルタイムELASステレオマッチングのためのエネルギー効率の高いアーキテクチャを提案する。 さらに、元の計算集約かつ不規則な三角モジュールは、よりハードウェアフレンドリーな点補間によって規則的に再構成される。 メモリ管理、並列処理、パイプライン化などの最適化により、メモリフットプリントの削減とスループット向上が実現されている。 Intel i7 CPUと最先端のCPU+FPGA実装と比較して、FPGAの実現は最大38.4xと3.32xのフレームレート改善、最大27.1xと1.13xのエネルギー効率向上を実現している。

Stereo matching is a critical task for robot navigation and autonomous vehicles, providing the depth estimation of surroundings. Among all stereo matching algorithms, Efficient Large-scale Stereo (ELAS) offers one of the best tradeoffs between efficiency and accuracy. However, due to the inherent iterative process and unpredictable memory access pattern, ELAS can only run at 1.5-3 fps on high-end CPUs and difficult to achieve real-time performance on low-power platforms. In this paper, we propose an energy-efficient architecture for real-time ELAS-based stereo matching on FPGA platform. Moreover, the original computational-intensive and irregular triangulation module is reformed in a regular manner with points interpolation, which is much more hardware-friendly. Optimizations, including memory management, parallelism, and pipelining, are further utilized to reduce memory footprint and improve throughput. Compared with Intel i7 CPU and the state-of-the-art CPU+FPGA implementation, our FPGA realization achieves up to 38.4x and 3.32x frame rate improvement, and up to 27.1x and 1.13x energy efficiency improvement, respectively.
翻訳日:2021-04-13 13:46:54 公開日:2021-04-11
# 自動コード最適化のためのディープラーニングに基づくコストモデル

A Deep Learning Based Cost Model for Automatic Code Optimization ( http://arxiv.org/abs/2104.04955v1 )

ライセンス: Link先を確認
Riyadh Baghdadi, Massinissa Merouani, Mohamed-Hicham Leghettas, Kamel Abdous, Taha Arbaoui, Karima Benatchba, Saman Amarasinghe(参考訳) コンパイラがコードを自動的に最適化できるようにすることは、コンパイラコミュニティにとって長年の目標だった。 この問題を効率的に解決するには、正確なコストモデルが必要となる。 これらのモデルは、一連のコード変換を適用することでプログラムの実行時間を短縮できるかどうかを予測する。 分析コストモデルの構築は、マイクロアーキテクチャの複雑さのため、現代のx86アーキテクチャでは困難である。 本稿では,自動コード最適化のための深層学習に基づくコストモデルを提案する。 このモデルは検索手法に統合され、Tiramisuコンパイラで実装され、最適なコード変換を選択する。 提案モデルの入力は、最適化されていないコードと一連のコード変換を表す単純な機能のセットである。 モデルはコード変換を適用する際に期待するスピードアップを予測する。 以前のモデルとは異なり、提案されたモデルは完全なプログラムで動作し、重い機能工学に依存しない。 提案手法は,プログラム全体の高速化予測において平均絶対誤差の16%しか持たない。 提案されたモデルにより、tiramisuは、そのコンパイラが必要とする重厚な機能エンジニアリングを必要とせずに、最先端のコンパイラにマッチしたり、優れたコード変換を自動的に見つけることができる。

Enabling compilers to automatically optimize code has been a longstanding goal for the compiler community. Efficiently solving this problem requires using precise cost models. These models predict whether applying a sequence of code transformations reduces the execution time of the program. Building an analytical cost model to do so is hard in modern x86 architectures due to the complexity of the microarchitecture. In this paper, we present a novel deep learning based cost model for automatic code optimization. This model was integrated in a search method and implemented in the Tiramisu compiler to select the best code transformations. The input of the proposed model is a set of simple features representing the unoptimized code and a sequence of code transformations. The model predicts the speedup expected when the code transformations are applied. Unlike previous models, the proposed one works on full programs and does not rely on any heavy feature engineering. The proposed model has only 16% of mean absolute percentage error in predicting speedups on full programs. The proposed model enables Tiramisu to automatically find code transformations that match or are better than state-of-the-art compilers without requiring the same level of heavy feature engineering required by those compilers.
翻訳日:2021-04-13 13:44:51 公開日:2021-04-11
# (参考訳) ポイント・ボクセル拡散による3次元形状生成と完成

3D Shape Generation and Completion through Point-Voxel Diffusion ( http://arxiv.org/abs/2104.03670v2 )

ライセンス: CC BY 4.0
Linqi Zhou, Yilun Du, Jiajun Wu(参考訳) 本稿では,3次元形状の確率的生成モデルを提案する。 潜在ベクトルを形状に決定論的に変換することを学ぶ既存のモデルと異なり、我々のモデルであるpoint-voxel diffusion(pvd)は無条件形状生成と条件付きマルチモーダル形状完了のための統一的確率的定式化である。 PVDは3次元形状のハイブリッド・ポイント・ボクセル表現で拡散モデルを合成する。 観測された点雲データからガウス雑音への拡散過程を反転させ、(条件付き)確率関数に対する変分下限を最適化することで、一連の分節化ステップと見なすことができる。 実験により、PVDは高忠実度形状を合成し、部分点雲を完了し、実物の単視点深度スキャンから複数の完了結果を生成することができることが示された。

We propose a novel approach for probabilistic generative modeling of 3D shapes. Unlike most existing models that learn to deterministically translate a latent vector to a shape, our model, Point-Voxel Diffusion (PVD), is a unified, probabilistic formulation for unconditional shape generation and conditional, multi-modal shape completion. PVD marries denoising diffusion models with the hybrid, point-voxel representation of 3D shapes. It can be viewed as a series of denoising steps, reversing the diffusion process from observed point cloud data to Gaussian noise, and is trained by optimizing a variational lower bound to the (conditional) likelihood function. Experiments demonstrate that PVD is capable of synthesizing high-fidelity shapes, completing partial point clouds, and generating multiple completion results from single-view depth scans of real objects.
翻訳日:2021-04-13 12:17:24 公開日:2021-04-11
# siam-reid:再識別機能を備えたsiamese tracker

Siam-ReID: Confuser Aware Siamese Tracker with Re-identification Feature ( http://arxiv.org/abs/2104.03510v2 )

ライセンス: Link先を確認
Abu Md Niamul Taufique, Andreas Savakis, Michael Braun, Daniel Kubacki, Ethan Dell, Lei Qian, Sean M. O'Rourke(参考訳) シームズディープネットワークトラッカーは、リアルタイムの速度と最先端の性能のために近年大きな注目を集めている。 しかし、シームズ・トラッカーは、空中画像でよく見られる類似したコンフューザーに悩まされ、トラッカー・オブジェクトが異なるポーズと照明の下で再出現する長い閉塞により、困難な状況に陥る。 本研究は,シアーム追跡者のための新しい再同定フレームワーク siamreid を提案する。 再識別機能は三重項損失とクラスバランス損失の両方を用いて訓練される。 提案手法は,UAVDT単体追跡ベンチマークにおける最先端性能を実現する。

Siamese deep-network trackers have received significant attention in recent years due to their real-time speed and state-of-the-art performance. However, Siamese trackers suffer from similar looking confusers, that are prevalent in aerial imagery and create challenging conditions due to prolonged occlusions where the tracker object re-appears under different pose and illumination. Our work proposes SiamReID, a novel re-identification framework for Siamese trackers, that incorporates confuser rejection during prolonged occlusions and is well-suited for aerial tracking. The re-identification feature is trained using both triplet loss and a class balanced loss. Our approach achieves state-of-the-art performance in the UAVDT single object tracking benchmark.
翻訳日:2021-04-13 10:33:59 公開日:2021-04-11