このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20210829となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# ライドバーグ封鎖からのトーリック符号位相秩序の予測 Prediction of Toric Code Topological Order from Rydberg Blockade ( http://arxiv.org/abs/2011.12310v3 ) ライセンス: Link先を確認 | Ruben Verresen, Mikhail D. Lukin, Ashvin Vishwanath | (参考訳) パラダイム的トーリックコードで遭遇した$\mathbb Z_2$トポロジカルオーダーの物理的実現は、明白な目標であることが証明されている。
ルビー格子上に配置したリドバーグ原子の2次元配列において、リドバーグ封鎖半径の特定の値において、この段階を実現できると予測する。
まず, ブロックモデル(PXPモデルとしても知られる)が, 単サイト運動項を持つかごめ格子上の単量体-二量体モデルを実現することを示す。
これは、モノマーゆらぎによって動力学が生成される$\mathbb z_2$ゲージ理論と解釈できる。
数値密度行列再正規化群法を用いて位相図を求め,位相的量子液体 (tql) を複数の尺度で求めた。
(i)2つの特徴のない位相間の連続的な遷移
(ii)様々な測地線で測定された$\ln 2$の位相的絡み合いエントロピー
(iii)縮退した位相的基底状態及び
(iv)基底状態から期待されるモジュラー行列は重複する。
次に、tqlは、格子パラメータの選択に対して、現実的で代数的に決定されるファンデルワールス相互作用 $v(r) \sim 1/r^6$を含む。
さらに、Fredenhagen-Marcu 順序パラメータを含むトポロジカルループ演算子に直接アクセスできる。
本稿では,これらを動的プロトコルを用いて実験的に測定し,TQLフェーズの‘スモーキングガン’の実験的なシグネチャを提供する。
最後に,創発的なアノンを罠にし,異なる位相境界条件を実現する方法を示し,フォールトトレラント量子メモリを探索する上での意義について考察する。 The physical realization of $\mathbb Z_2$ topological order as encountered in the paradigmatic toric code has proven to be an elusive goal. We predict that this phase of matter can be realized in a two-dimensional array of Rydberg atoms placed on the ruby lattice, at specific values of the Rydberg blockade radius. First, we show that the blockade model -- also known as a `PXP' model -- realizes a monomer-dimer model on the kagome lattice with a single-site kinetic term. This can be interpreted as a $\mathbb Z_2$ gauge theory whose dynamics is generated by monomer fluctuations. We obtain its phase diagram using the numerical density matrix renormalization group method and find a topological quantum liquid (TQL) as evidenced by multiple measures including (i) a continuous transition between two featureless phases, (ii) a topological entanglement entropy of $\ln 2$ as measured in various geometries, (iii) degenerate topological ground states and (iv) the expected modular matrix from ground state overlap. Next, we show that the TQL persists upon including realistic, algebraically-decaying van der Waals interactions $V(r) \sim 1/r^6$ for a choice of lattice parameters. Moreover, we can directly access topological loop operators, including the Fredenhagen-Marcu order parameter. We show how these can be measured experimentally using a dynamic protocol, providing a ``smoking gun'' experimental signature of the TQL phase. Finally, we show how to trap an emergent anyon and realize different topological boundary conditions, and we discuss the implications for exploring fault-tolerant quantum memories. | 翻訳日:2023-04-23 06:19:31 公開日:2021-08-29 |
# KTaO3誘電体共振器を用いた低温におけるNVスピンアンサンブルの高速コヒーレント制御 Fast coherent control of an NV- spin ensemble using a KTaO3 dielectric resonator at cryogenic temperatures ( http://arxiv.org/abs/2105.06781v2 ) ライセンス: Link先を確認 | Hyma H. Vallabhapurapu, James P. Slack-Smith, Vikas K. Sewani, Chris Adambukulam, Andrea Morello, Jarryd J. Pla, Arne Laucht | (参考訳) 極低温環境における試料へのマイクロ波伝送は、光アクセスの制限、空間制約、熱発生などの実験的な課題を提起することができる。
さらに、様々な実験的制約を克服する既存のソリューションは、スケールアップ量子コンピューティング実装においてスピンアンサンブルや高速ゲート操作を制御するために必要となる、マクロな長さスケールを超える大きな均一な振動磁界を提供するとは限らない。
ここでは、極低温におけるktao3誘電体共振器の高誘電率を利用した負帯窒素空孔スピンアンサンブルの高速かつコヒーレント制御を示す。
我々は最大48mhzのrabi周波数を実現し、全フィールド対電力変換比$c_{\rm p} = 9.66 mt/$\sqrt{\rm w}$ (約191$ mhz/$\sqrt{\rm w}$) である。
我々は, 窒素空洞中心スピンアンサンブルを用いて, ダイヤモンド試料中の磁場の質因子, コヒーレントエンハンスメント, 空間分布を調査した。
この研究で利用された誘電体共振器の主な利点は、組み立ての容易さ、その場調整性、高磁場変換効率、低体積フットプリント、光学透過性である。
これにより、KTaO3誘電体共振器は、低温で様々な材料中のスピンを制御するためのマイクロ波場を伝送するための有望なプラットフォームとなる。 Microwave delivery to samples in a cryogenic environment can pose experimental challenges such as restricting optical access, space constraints and heat generation. Moreover, existing solutions that overcome various experimental restrictions do not necessarily provide a large, homogeneous oscillating magnetic field over macroscopic lengthscales, which is required for control of spin ensembles or fast gate operations in scaled-up quantum computing implementations. Here we show fast and coherent control of a negatively charged nitrogen vacancy spin ensemble by taking advantage of the high permittivity of a KTaO3 dielectric resonator at cryogenic temperatures. We achieve Rabi frequencies of up to 48 MHz, with the total field-to-power conversion ratio $C_{\rm P} = $ 9.66 mT/$\sqrt{\rm W}$ ($\approx191$ MHz/$\sqrt{\rm W}$). We use the nitrogen vacancy center spin ensemble to probe the quality factor, the coherent enhancement, and the spatial distribution of the magnetic field inside the diamond sample. The key advantages of the dielectric resonator utilised in this work are: ease of assembly, in-situ tuneability, a high magnetic field conversion efficiency, a low volume footprint, and optical transparency. This makes KTaO3 dielectric resonators a promising platform for the delivery of microwave fields for the control of spins in various materials at cryogenic temperatures. | 翻訳日:2023-03-31 04:20:44 公開日:2021-08-29 |
# 進化的多目的最適化におけるクラスタリングに基づくサブセット選択 Clustering-Based Subset Selection in Evolutionary Multiobjective Optimization ( http://arxiv.org/abs/2108.08453v2 ) ライセンス: Link先を確認 | Weiyu Chen, Hisao Ishibuchi, and Ke Shang | (参考訳) サブセット選択は進化的多目的最適化(EMO)アルゴリズムにおいて重要な要素である。
クラスタリングは、類似のデータポイントをまとめる古典的な方法として、いくつかのフィールドでサブセットの選択に使われてきた。
しかし,emoアルゴリズムによる解集合からのサブセット選択の文脈ではクラスタリングに基づく手法は評価されていない。
本稿では,従来のクラスタリングアルゴリズムについて概説する。
また,別の一般的な部分集合選択法である逆世代距離(igd)ベースの部分集合選択法をクラスタリングと見なすことができることを指摘した。
次に,様々なシナリオにおけるクラスタリングアルゴリズムの性能を評価するため,総合的な実験を行った。
実験結果を詳細に分析し,サブセット選択におけるクラスタリングアルゴリズムの利用について提案する。
さらに、クラスタリングに基づくサブセット選択に意思決定者の好みを導入することを実証する。 Subset selection is an important component in evolutionary multiobjective optimization (EMO) algorithms. Clustering, as a classic method to group similar data points together, has been used for subset selection in some fields. However, clustering-based methods have not been evaluated in the context of subset selection from solution sets obtained by EMO algorithms. In this paper, we first review some classic clustering algorithms. We also point out that another popular subset selection method, i.e., inverted generational distance (IGD)-based subset selection, can be viewed as clustering. Then, we perform a comprehensive experimental study to evaluate the performance of various clustering algorithms in different scenarios. Experimental results are analyzed in detail, and some suggestions about the use of clustering algorithms for subset selection are derived. Additionally, we demonstrate that decision maker's preference can be introduced to clustering-based subset selection. | 翻訳日:2023-03-18 01:25:18 公開日:2021-08-29 |
# 反$\mathcal{pt}$変換と複素$\mathcal{pt}$-symmetric superpartner Anti-$\mathcal{PT}$ Transformations and Complex $\mathcal{PT}$-Symmetric Superpartners ( http://arxiv.org/abs/2108.12834v1 ) ライセンス: Link先を確認 | Taha Koohrokhi and Sehban Kartal and Ali Mohammadi | (参考訳) 非破壊なスーパー時間とパリティ時間(\mathcal{PT}$)対称性を持つ量子力学系を導出し、解析する。
ここでは、加法的形状不変ポテンシャルを複素領域に拡張することにより、複素 $\mathcal{pt}$-symmetric superpartner を構成する新しい形式を提案する。
$\mathcal{PT}$-対称量子論の確率論的解釈は、従来の量子力学における複素共役ではなく、$\mathcal{C}$演算子と呼ばれる新しい線形作用素の計算と相関する。
本研究では,内部積の新たなバージョンを再定義するために,反$\mathcal{PT}$$$\mathcal{APT}$)共役を導入する。
この$\mathcal{pt}$-supersymmetric量子力学は完全性、正規直交性、確率的解釈といった必須条件を満たす。 A quantum mechanical system with unbroken super- and parity-time ($\mathcal{PT}$)-symmetry is derived and analyzed. Here, we propose a new formalism to construct the complex $\mathcal{PT}$-symmetric superpartners by extending the additive shape invariant potentials to the complex domain. The probabilistic interpretation of a $\mathcal{PT}$-symmetric quantum theory is correlated with the calculation of a new linear operator called the $\mathcal{C}$ operator, instead of complex conjugation in conventional quantum mechanics. At the present work, we introduce an anti-$\mathcal{PT}$ ($\mathcal{APT}$) conjugation to redefine a new version of the inner product without any additional considerations. This $\mathcal{PT}$-supersymmetric quantum mechanics, satisfies essential requirements such as completeness, orthonormality as well as probabilistic interpretation. | 翻訳日:2023-03-16 21:15:46 公開日:2021-08-29 |
# 一般的かつロバストなデバイス非依存証人による真正多部絡みの認定 Certification of Genuine Multipartite Entanglement with General and Robust Device-independent Witnesses ( http://arxiv.org/abs/2108.12764v1 ) ライセンス: Link先を確認 | Chao Zhang, Wen-Hao Zhang, Pavel Sekatski, Jean-Daniel Bancal, Michael Zwerger, Peng Yin, Gong-Chu Li, Xing-Xiang Peng, Lei Chen, Yong-Jian Han, Jin-Shi Xu, Yun-Feng Huang, Geng Chen, Chuan-Feng Li, Guang-Can Guo | (参考訳) Genuine multipartite entanglementは、量子情報処理に必須のリソースである最も強力なタイプの絡み合いを表す。
例えば、絡み合いの目撃者、状態トモグラフィー、量子状態検証などの真の多部絡みを検出する標準的な方法は、ヒルベルト空間次元と測定装置の正確なキャリブレーションの完全な知識を必要とする。
これらの問題を解決する最も急進的な方法は、実験で収集された測定結果のベルのような相関、すなわちデバイス独立性(DI)に基づいて絡み合いを検出することである。
しかしながら、実用的多成分状態の真の絡み合いをこの方法で証明することは困難であり、また、最適な多成分ベルの不等式や状態の不純さに耐性のあるプロトコルを特定することが困難であるため、さらに定量化が困難である。
本研究では,任意の有限次元における様々な現実的多部量子状態に適用できる汎用的で堅牢なDI法について検討する。
提案手法は,真のマルチパーティント・エンタングルメントの存在を証明し,その定量化を可能にする。
絡み合った状態のいくつかの重要なクラスがこの方法でテストされ、真に絡み合った状態が検出される。
また、弱い絡み合いのGHZ状態における真の多部絡み合いを証明し、この手法がより少ない標準状態に対して等しく適用可能であることを示す。 Genuine multipartite entanglement represents the strongest type of entanglement, which is an essential resource for quantum information processing. Standard methods to detect genuine multipartite entanglement, e.g., entanglement witnesses, state tomography, or quantum state verification, require full knowledge of the Hilbert space dimension and precise calibration of measurement devices, which are usually difficult to acquire in an experiment. The most radical way to overcome these problems is to detect entanglement solely based on the Bell-like correlations of measurement outcomes collected in the experiment, namely, device-independently (DI). However, it is difficult to certify genuine entanglement of practical multipartite states in this way, and even more difficult to quantify it, due to the difficulty to identify optimal multipartite Bell inequalities and protocols tolerant to state impurity. In this work, we explore a general and robust DI method which can be applied to various realistic multipartite quantum state in arbitrary finite dimension, while merely relying on bipartite Bell inequalities. Our method allows us both to certify the presence of genuine multipartite entanglement and to quantify it. Several important classes of entangled states are tested with this method, leading to the detection of genuinely entangled states. We also certify genuine multipartite entanglement in weakly-entangled GHZ states, thus showing that the method applies equally well to less standard states. | 翻訳日:2023-03-16 21:15:15 公開日:2021-08-29 |
# lc回路を介した捕捉プロトンの交感神経冷却 Sympathetic cooling of a trapped proton mediated by an LC circuit ( http://arxiv.org/abs/2108.12725v1 ) ライセンス: Link先を確認 | M. Bohman, V. Grunhofer, C. Smorra, M. Wiesinger, C. Will, M. J. Borchert, J. A. Devlin, S. Erlewein, M. Fleck, S. Gavranovic, J. Harrington, B. Latacz, A. Mooser, D. Popper, E. Wursten, K. Blaum, Y. Matsuda, C. Ospelkaus, W. Quint, J. Walz, S. Ulmer | (参考訳) 閉じ込められた荷電粒子の効率的な冷却は、多くの基礎物理学実験、高精度気象学、量子技術に不可欠である。
これまで、交感神経冷却には近距離クーロン相互作用が必要だったが、マクロに分離されたトラップの粒子にレーザー冷却技術を持ち込み、高荷電イオン、分子イオン、反物質などの以前は到達不能な粒子に量子制御技術を拡張したいという願望が続いている。
ここでは,レーザー冷却したbe+イオンを用いた1つの陽子を空間的に分離したペニングトラップで交感性冷却する。
トラップは超伝導LC回路で接続され、9cmの距離でエネルギー交換が可能である。
また,レーザー冷却イオンを用いたマクロlc回路の共振モードの冷却と,個別に捕捉されたプロトンの交感性冷却を実証し,環境温度よりはるかに低い温度に到達した。
特に、この技術は画像-電流相互作用のみを使用するため、反陽子による実験にも容易に適用でき、物質-反物質比較や暗黒物質探索の精度の向上に役立てることができる。 Efficient cooling of trapped charged particles is essential to many fundamental physics experiments, to high-precision metrology, and to quantum technology. Until now, sympathetic cooling has required close-range Coulomb interactions, but there has been a sustained desire to bring laser-cooling techniques to particles in macroscopically separated traps, extending quantum control techniques to previously inaccessible particles such as highly charged ions, molecular ions and antimatter. Here we demonstrate sympathetic cooling of a single proton using laser-cooled Be+ ions in spatially separated Penning traps. The traps are connected by a superconducting LC circuit that enables energy exchange over a distance of 9 cm. We also demonstrate the cooling of a resonant mode of a macroscopic LC circuit with laser-cooled ions and sympathetic cooling of an individually trapped proton, reaching temperatures far below the environmental temperature. Notably, as this technique uses only image-current interactions, it can be easily applied to an experiment with antiprotons, facilitating improved precision in matter-antimatter comparisons and dark matter searches. | 翻訳日:2023-03-16 21:14:48 公開日:2021-08-29 |
# 固体量子ビットのための核スピン波量子レジスタ Nuclear spin-wave quantum register for a solid state qubit ( http://arxiv.org/abs/2108.12723v1 ) ライセンス: Link先を確認 | Andrei Ruskuc, Chun-Ju Wu, Jake Rochman, Joonhee Choi and Andrei Faraon | (参考訳) 個々の量子ビットを取り囲む固体核スピンは量子ネットワーク、計算、シミュレーションにとって重要な資源となる。
希少な核スピン浴を持つホストは通常、量子ビットデコヒーレンスを緩和するために選択されるが、核スピンリッチホストにおけるコヒーレント量子システムの開発は、量子情報応用のためのより広い範囲の物質を探索することができる。
これらの高密度核スピンアンサンブルの集合モードは、量子記憶の自然な基盤を提供するが、単一スピン量子ビットの資源として利用することは、これまでも解明されてきた。
ここでは、高コヒーレントで光学的にアドレス付けられた171Yb3+量子ビットを核スピンリッチイットリウムオクタネート結晶にドープすることで、隣り合う51V5+格子イオンの多レベル核スピン状態を操作するための堅牢な量子制御プロトコルを開発する。
動的にエンジニアリングされたスピン交換相互作用により、この核スピンアンサンブルを分極し、集合的なスピン励起を生成し、長い寿命の量子メモリを実装する。
また,最大絡み合った171Yb--51V Bell状態の調製と測定を行った。
従来の混乱した核スピンベースの量子メモリとは異なり、我々のプラットフォームは決定論的かつ再現可能であり、全ての171Yb量子ビットに対して同じ量子レジスタを保証する。
このアプローチは、密度の高い核スピン浴の複雑な構造を利用するための枠組みを提供し、単一の希土類イオン量子ビットを用いた大規模量子ネットワーク構築の道を開く。 Solid-state nuclear spins surrounding individual, optically addressable qubits provide a crucial resource for quantum networks, computation and simulation. While hosts with sparse nuclear spin baths are typically chosen to mitigate qubit decoherence, developing coherent quantum systems in nuclear spin-rich hosts enables exploration of a much broader range of materials for quantum information applications. The collective modes of these dense nuclear spin ensembles provide a natural basis for quantum storage, however, utilizing them as a resource for single spin qubits has thus far remained elusive. Here, by using a highly coherent, optically addressed 171Yb3+ qubit doped into a nuclear spin-rich yttrium orthovanadate crystal, we develop a robust quantum control protocol to manipulate the multi-level nuclear spin states of neighbouring 51V5+ lattice ions. Via a dynamically-engineered spin exchange interaction, we polarise this nuclear spin ensemble, generate collective spin excitations, and subsequently use them to implement a long-lived quantum memory. We additionally demonstrate preparation and measurement of maximally entangled 171Yb--51V Bell states. Unlike conventional, disordered nuclear spin based quantum memories, our platform is deterministic and reproducible, ensuring identical quantum registers for all 171Yb qubits. Our approach provides a framework for utilising the complex structure of dense nuclear spin baths, paving the way for building large-scale quantum networks using single rare-earth ion qubits. | 翻訳日:2023-03-16 21:14:28 公開日:2021-08-29 |
# トレーニングリソースは不十分か?
まず予測して 説明しろ! Are Training Resources Insufficient? Predict First Then Explain! ( http://arxiv.org/abs/2110.02056v1 ) ライセンス: Link先を確認 | Myeongjun Jang and Thomas Lukasiewicz | (参考訳) 自然言語自由テキスト説明生成は、コモンセンス知識要求タスクのための説明可能な言語処理モデルを訓練するための効率的なアプローチである。
これらのモデルの最も重要な形式は、まず説明を生成し、意思決定に使用する説明-then-predict(EtP)構造である。
EtPモデルの性能は、その構造の性質によって説明器の性能に大きく依存する。
そのため,適切な説明モデルを構築するためには,大規模な説明データが必要となる。
しかし、注釈付きの説明は高価である。
また、近年の研究では、自由テキストの説明が意思決定に十分な情報を提供していないことが示されている。
これらの事実はEtPモデルの有効性に疑問を投げかけた。
本稿では,pte(predicter-then-explain)アーキテクチャはモデリングの観点からより効率的なアプローチであると主張する。
私たちの主な貢献は2つです。
まず、PtE構造は説明データが不足している場合に最もデータ効率のよい手法であることを示す。
第2に,PtE構造はEtP構造よりもトレーニング効率が良いことを明らかにする。
また,理論上の利点を確認する実験結果を提供する。 Natural language free-text explanation generation is an efficient approach to train explainable language processing models for commonsense-knowledge-requiring tasks. The most predominant form of these models is the explain-then-predict (EtP) structure, which first generates explanations and uses them for making decisions. The performance of EtP models is highly dependent on that of the explainer by the nature of their structure. Therefore, large-sized explanation data are required to train a good explainer model. However, annotating explanations is expensive. Also, recent works reveal that free-text explanations might not convey sufficient information for decision making. These facts cast doubts on the effectiveness of EtP models. In this paper, we argue that the predict-then-explain (PtE) architecture is a more efficient approach in terms of the modelling perspective. Our main contribution is twofold. First, we show that the PtE structure is the most data-efficient approach when explanation data are lacking. Second, we reveal that the PtE structure is always more training-efficient than the EtP structure. We also provide experimental results that confirm the theoretical advantages. | 翻訳日:2023-03-16 21:09:59 公開日:2021-08-29 |
# NoiER: より信頼性の高い微調整タスクモデルをトレーニングするためのアプローチ NoiER: An Approach for Training more Reliable Fine-TunedDownstream Task Models ( http://arxiv.org/abs/2110.02054v1 ) ライセンス: Link先を確認 | Myeongjun Jang and Thomas Lukasiewicz | (参考訳) BERTのような自己指導型言語モデルの最近の発展は、NLPの分野で急速に進歩している。
しかし、その素晴らしいパフォーマンスは、言語の本質的な意味を完全に理解するよりも、トレーニングデータの構文的アーティファクトを活用することに基づいている。
分散崩壊問題(英: distribution collapse problem)とは、下流のタスクで微調整されたモデルでは、高い信頼度を生み出す一方で、アウト・オブ・ディストリビューション(ood)文を区別できない現象である。
本稿では,事前学習された言語モデルにおいて,分散崩壊が主要な問題であり,補助モデルや付加データなしで問題を解くための学習パラダイムとしてノイズエントロピー正規化(NoiER)を提案する。
提案手法は従来のood検出評価基準を従来の微調整モデルと比較して平均55%改善した。 The recent development in pretrained language models trained in a self-supervised fashion, such as BERT, is driving rapid progress in the field of NLP. However, their brilliant performance is based on leveraging syntactic artifacts of the training data rather than fully understanding the intrinsic meaning of language. The excessive exploitation of spurious artifacts causes a problematic issue: The distribution collapse problem, which is the phenomenon that the model fine-tuned on downstream tasks is unable to distinguish out-of-distribution (OOD) sentences while producing a high confidence score. In this paper, we argue that distribution collapse is a prevalent issue in pretrained language models and propose noise entropy regularisation (NoiER) as an efficient learning paradigm that solves the problem without auxiliary models and additional~data. The proposed approach improved traditional OOD detection evaluation metrics by 55% on average compared to the original fine-tuned models. | 翻訳日:2023-03-16 21:09:27 公開日:2021-08-29 |
# ゼロショット自然言語ビデオローカライゼーション Zero-shot Natural Language Video Localization ( http://arxiv.org/abs/2110.00428v1 ) ライセンス: Link先を確認 | Jinwoo Nam and Daechul Ahn and Dongyeop Kang and Seong Jong Ha and Jonghyun Choi | (参考訳) 自然言語でモーメントをローカライズするビデオを理解するには、言語クエリと組み合わせた高価な注釈付きビデオ領域が必要となることが多い。
アノテーションコストを削減するために,自然言語ビデオローカライズモデルをゼロショットでトレーニングする最初の試みを行った。
教師なし画像キャプションのセットアップにインスパイアされて、ランダムテキストコーパス、ラベルなしビデオコレクション、および既製のオブジェクト検出器をモデルに組み込むだけでよい。
非ペアデータを用いて、候補時間領域と対応するクエリ文の擬似スーパービジョンを生成し、擬似スーパービジョンでトレーニングするための単純なNLVLモデルを開発する。
実験結果から,提案手法は,いくつかのベースラインアプローチや,charades-sta と activitynet-caption の厳格な監視手法よりも優れていることが示された。 Understanding videos to localize moments with natural language often requires large expensive annotated video regions paired with language queries. To eliminate the annotation costs, we make a first attempt to train a natural language video localization model in zero-shot manner. Inspired by unsupervised image captioning setup, we merely require random text corpora, unlabeled video collections, and an off-the-shelf object detector to train a model. With the unpaired data, we propose to generate pseudo-supervision of candidate temporal regions and corresponding query sentences, and develop a simple NLVL model to train with the pseudo-supervision. Our empirical validations show that the proposed pseudo-supervised method outperforms several baseline approaches and a number of methods using stronger supervision on Charades-STA and ActivityNet-Captions. | 翻訳日:2023-03-16 21:09:11 公開日:2021-08-29 |
# Googleによる量子超越性主張へのコメント Comment on the Quantum Supremacy Claim by Google ( http://arxiv.org/abs/2108.13862v1 ) ライセンス: Link先を確認 | Anirudh Reddy, Benjamin Perez-Garcia, Adenilton Jose da Silva and Thomas Konrad | (参考訳) 量子計算は、例えば大きな整数の素因子を計算するなど、既存の古典的コンピュータ上の既知のアルゴリズムよりもはるかに高速な時間スケールで特定の計算タスクを実行することを約束する。
最近、googleの研究チームは、量子コンピュータでこのようなタスクを実行し、このいわゆる量子超越性のケースを実際に実証したと主張した。
ここでは、この主張は正当化されなかったと論じる。
他のコメントとは異なり、我々の批判は量子計算の出力データの検証の欠如に関するものである。 Quantum computation promises to execute certain computational tasks on time scales much faster than any known algorithm on an existing classical computer, for example calculating the prime factors of large integers. Recently a research team from Google claimed to have carried out such a task with a quantum computer, demonstrating in practice a case of this so-called quantum supremacy. Here we argue that this claim was not justified. Unlike other comments, our criticism is concerned with the missing verification of the output data of the quantum computation. | 翻訳日:2023-03-16 21:08:31 公開日:2021-08-29 |
# DPN:網膜血管の高分解能セグメンテーションのための詳細保存ネットワーク DPN: Detail-Preserving Network with High Resolution Representation for Efficient Segmentation of Retinal Vessels ( http://arxiv.org/abs/2009.12053v2 ) ライセンス: Link先を確認 | Song Guo | (参考訳) 網膜血管は多くの眼科および心臓血管疾患にとって重要なバイオマーカーである。
したがって、コンピュータ支援診断のための自動モデルを開発することは極めて重要である。
U-Netのような既存の手法はエンコーダ・デコーダパイプラインに従っており、エンコーダの視野を大きくするために詳細な情報が失われる。
空間的詳細情報は部分的にデコーダで復元できるが、エンコーダの高解像度特徴マップにはノイズが存在する。
そして,このエンコーダ・デコーダアーキテクチャは容器分割に非効率であると主張する。
本稿では,エンコーダ/デコーダパイプラインを回避するディテール保存ネットワーク(DPN)を提案する。
詳細情報を同時に保存し,構造情報を学習するために,詳細保存ブロック(DP-Block)を設計した。
さらに8つのDP-Blockを積み重ねてDPNを形成した。
さらに重要なのは、これらのブロックにはダウンサンプリング操作がないことだ。
そのため、DPNは処理中に詳細な情報を失うのを回避し、高精細な解像度を維持することができた。
DPNの有効性を説明するために,3つの公開データセットを用いた実験を行った。
実験の結果, 最先端手法と比較して, dpnはセグメント化精度, セグメンテーション速度, モデルサイズにおいて, 競争力とベター性能を示した。
具体的には
1)本手法は,DRIVE,CHASE_DB1,HRFデータセットにおいて,同等のセグメンテーション性能を実現する。
2)DPNのセグメンテーション速度はDRIVEデータセットの他の手法よりも20~160倍高速である。
3) DPNのパラメータの数は約120kであり, 比較法よりもはるかに少ない。 Retinal vessels are important biomarkers for many ophthalmological and cardiovascular diseases. Hence, it is of great significance to develop automatic models for computer-aided diagnosis. Existing methods, such as U-Net follow the encoder-decoder pipeline, where detailed information is lost in the encoder in order to achieve a large field of view. Although spatial detailed information could be recovered partly in the decoder, while there is noise in the high-resolution feature maps of the encoder. And, we argue this encoder-decoder architecture is inefficient for vessel segmentation. In this paper, we present the detail-preserving network (DPN), which avoids the encoder-decoder pipeline. To preserve detailed information and learn structural information simultaneously, we designed the detail-preserving block (DP-Block). Further, we stacked eight DP-Blocks together to form the DPN. More importantly, there are no down-sampling operations among these blocks. Therefore, the DPN could maintain a high/full resolution during processing, avoiding the loss of detailed information. To illustrate the effectiveness of DPN, we conducted experiments over three public datasets. Experimental results show, compared to state-of-the-art methods, DPN shows competitive/better performance in terms of segmentation accuracy, segmentation speed, and model size. Specifically, 1) Our method achieves comparable segmentation performance on the DRIVE, CHASE_DB1, and HRF datasets. 2) The segmentation speed of DPN is over 20-160 times faster than other methods on the DRIVE dataset. 3) The number of parameters of DPN is1 around 120k, far less than all comparison methods. | 翻訳日:2022-10-14 23:16:07 公開日:2021-08-29 |
# 表現と半教師あり学習のためのパラメトリックUMAP埋め込み Parametric UMAP embeddings for representation and semi-supervised learning ( http://arxiv.org/abs/2009.12981v4 ) ライセンス: Link先を確認 | Tim Sainburg, Leland McInnes, Timothy Q Gentner | (参考訳) UMAPは、応用リーマン幾何学と代数トポロジーを用いて、構造化データの低次元埋め込みを求める非パラメトリックグラフに基づく次元減少アルゴリズムである。
UMAPアルゴリズムは,(1)データセットのグラフィカルな表現(ファジィ・シンプレクティック・コンプレックス)と(2)確率勾配勾配勾配の計算により,グラフの低次元埋め込みを最適化する2つのステップから構成される。
ここでは、UMAPの第2ステップをニューラルネットワーク重みに対するパラメトリック最適化に拡張し、データと埋め込みの間のパラメトリック関係を学習する。
まず、学習されたパラメトリックマッピング(例えば、新しいデータに対する高速なオンライン埋め込み)の利点を尊重しながら、パラメトリックな非パラメトリックな UMAP と互換性のある性能を示す。
次に, umapを正規化として検討し, オートエンコーダの潜在分布を制約し, パラメトリックな大域構造保存を行い, 半教師付き学習のための分類精度を向上させる。
google colab walkthrough: https://colab.research.google.com/drive/1wkxvz5pnmrm17m0ygmtonjm_xhdne5vp?
usp=共有 UMAP is a non-parametric graph-based dimensionality reduction algorithm using applied Riemannian geometry and algebraic topology to find low-dimensional embeddings of structured data. The UMAP algorithm consists of two steps: (1) Compute a graphical representation of a dataset (fuzzy simplicial complex), and (2) Through stochastic gradient descent, optimize a low-dimensional embedding of the graph. Here, we extend the second step of UMAP to a parametric optimization over neural network weights, learning a parametric relationship between data and embedding. We first demonstrate that Parametric UMAP performs comparably to its non-parametric counterpart while conferring the benefit of a learned parametric mapping (e.g. fast online embeddings for new data). We then explore UMAP as a regularization, constraining the latent distribution of autoencoders, parametrically varying global structure preservation, and improving classifier accuracy for semi-supervised learning by capturing structure in unlabeled data. Google Colab walkthrough: https://colab.research.google.com/drive/1WkXVZ5pnMrm17m0YgmtoNjM_XHdnE5Vp?usp=sharing | 翻訳日:2022-10-14 03:36:55 公開日:2021-08-29 |
# fedat: 非同期層を持つ高性能で通信効率のよいフェデレーション学習システム FedAT: A High-Performance and Communication-Efficient Federated Learning System with Asynchronous Tiers ( http://arxiv.org/abs/2010.05958v2 ) ライセンス: Link先を確認 | Zheng Chai, Yujing Chen, Ali Anwar, Liang Zhao, Yue Cheng, Huzefa Rangwala | (参考訳) federated learning(fl)は、トレーニングデータをローカライズしながら、大規模な分散デバイス上でモデルをトレーニングする。
このコラボレーティブラーニングの形式は、モデル収束速度、モデル精度、クライアント間のバランス、通信コストの新たなトレードオフを露呈する。(1)ストラグラー問題、データや(コンピューティングとネットワーク)リソースの不均一性によってクライアントが遅延する問題、2)通信ボトルネック、そして、多数のクライアントがローカルな更新を中央サーバに伝達し、サーバのボトルネックなど、新たな課題がある。
既存のFL法の多くは、トレードオフ空間の1次元だけを最適化することに集中している。
既存のソリューションでは、トラグラー問題に対処するために、非同期モデル更新または階層化ベースの同期メカニズムを使用している。
しかし、非同期メソッドはネットワーク通信のボトルネックを簡単に生成できるが、階層化はより短い応答遅延を持つより高速な階層を好むため、バイアスをもたらす可能性がある。
これらの問題に対処するため,非i.d.データに基づく非同期タイアを用いた新しいフェデレーション学習手法であるFedATを提案する。
FedATは同期層内トレーニングと非同期層間トレーニングを相乗的に組み合わせている。
階層化を通じて同期および非同期トレーニングをブリッジすることにより、FedATは収束速度とテスト精度を改善したストラグラー効果を最小化する。
FedATは、ストラグラー対応で重み付けされた集約ヒューリスティックを使用して、さらなる精度向上のためにトレーニングを操縦しバランスをとる。
FedATは、効率的なポリリンエンコーディングに基づく圧縮アルゴリズムを用いてアップリンクとダウンリンクの通信を圧縮し、通信コストを最小化する。
その結果、FedATは予測性能を最大21.09%改善し、最先端FL法と比較して通信コストを最大8.5倍削減した。 Federated learning (FL) involves training a model over massive distributed devices, while keeping the training data localized. This form of collaborative learning exposes new tradeoffs among model convergence speed, model accuracy, balance across clients, and communication cost, with new challenges including: (1) straggler problem, where the clients lag due to data or (computing and network) resource heterogeneity, and (2) communication bottleneck, where a large number of clients communicate their local updates to a central server and bottleneck the server. Many existing FL methods focus on optimizing along only one dimension of the tradeoff space. Existing solutions use asynchronous model updating or tiering-based synchronous mechanisms to tackle the straggler problem. However, the asynchronous methods can easily create a network communication bottleneck, while tiering may introduce biases as tiering favors faster tiers with shorter response latencies. To address these issues, we present FedAT, a novel Federated learning method with Asynchronous Tiers under Non-i.i.d. data. FedAT synergistically combines synchronous intra-tier training and asynchronous cross-tier training. By bridging the synchronous and asynchronous training through tiering, FedAT minimizes the straggler effect with improved convergence speed and test accuracy. FedAT uses a straggler-aware, weighted aggregation heuristic to steer and balance the training for further accuracy improvement. FedAT compresses the uplink and downlink communications using an efficient, polyline-encoding-based compression algorithm, therefore minimizing the communication cost. Results show that FedAT improves the prediction performance by up to 21.09%, and reduces the communication cost by up to 8.5x, compared to state-of-the-art FL methods. | 翻訳日:2022-10-08 08:18:46 公開日:2021-08-29 |
# Profile-Pseudo Likelihood 法による高速ネットワークコミュニティ検出 Fast Network Community Detection with Profile-Pseudo Likelihood Methods ( http://arxiv.org/abs/2011.00647v3 ) ライセンス: Link先を確認 | Jiangzhou Wang, Jingfei Zhang, Binghui Liu, Ji Zhu, and Jianhua Guo | (参考訳) 確率的ブロックモデルは、コミュニティ検出のための最も研究されたネットワークモデルの一つである。
確率的ブロックモデルに適合するアルゴリズムのほとんどが大規模ネットワークにスケールできないことが知られている。
この計算課題を克服する顕著な成果の1つは、Amini et alである。
(2013)は、確率的ブロックモデルを大きなスパースネットワークに適合させるための高速擬似類似アプローチを提案した。
しかし、このアプローチには収束保証がなく、小規模または中規模ネットワークには適していない。
本稿では,列ラベルと列ラベルを疎結合化することで,高速な交互最大化を実現し,計算効率が高く,小型ネットワークでも大規模ネットワークでも良好に動作し,コンバージェンス保証の証明が可能な,新しい可能性ベースアプローチを提案する。
本手法は,確率的ブロックモデルにおいて,コミュニティの強い一貫した推定を提供する。
シミュレーション研究で示されるように,提案手法は,推定精度と計算効率,特に大規模分散ネットワークにおいて疑似相似アプローチよりも優れている。
さらに,提案手法の拡張によるネットワークの次数不均一性と二部特性の処理について考察する。 The stochastic block model is one of the most studied network models for community detection. It is well-known that most algorithms proposed for fitting the stochastic block model likelihood function cannot scale to large-scale networks. One prominent work that overcomes this computational challenge is Amini et al.(2013), which proposed a fast pseudo-likelihood approach for fitting stochastic block models to large sparse networks. However, this approach does not have convergence guarantee, and is not well suited for small- or medium- scale networks. In this article, we propose a novel likelihood based approach that decouples row and column labels in the likelihood function, which enables a fast alternating maximization; the new method is computationally efficient, performs well for both small and large scale networks, and has provable convergence guarantee. We show that our method provides strongly consistent estimates of the communities in a stochastic block model. As demonstrated in simulation studies, the proposed method outperforms the pseudo-likelihood approach in terms of both estimation accuracy and computation efficiency, especially for large sparse networks. We further consider extensions of our proposed method to handle networks with degree heterogeneity and bipartite properties. | 翻訳日:2022-09-30 23:56:14 公開日:2021-08-29 |
# Sinoledge: 論理推論と分散マイクロサービスに基づく知識エンジン Sinoledge: A Knowledge Engine based on Logical Reasoning and Distributed Micro Services ( http://arxiv.org/abs/2109.08307v1 ) ライセンス: Link先を確認 | Yining Huang, Shaoze Lin, Yijun Wei, Keke Tang | (参考訳) 医療分野の医師,医師,研究者を対象に,思考の整理,推論プロセスの管理,テスト,運用環境へのデプロイを行うための知識エンジンであるsinoledgeを提案する。
我々の提案は、通常、ビジネスまたは医療分野で使用されるルールエンジンに関連付けることができる。
さらに重要なのは,ユーザフレンドリなインターフェース,知識の整理の容易な方法,理解可能なテスト機能,高可用性と効率的なバックエンドアーキテクチャを提供することです。 We propose a knowledge engine called Sinoledge mainly for doctors, physicians, and researchers in medical field to organize thoughts, manage reasoning process, test and deploy to production environments effortlessly. Our proposal can be related to rule engine usually used in business or medical fields. More importantly, our proposal provides a user-friendly interface, an easy-maintain way of organizing knowledge, an understandable testing functionality and a highly available and efficient back-end architecture. | 翻訳日:2021-09-26 22:30:53 公開日:2021-08-29 |
# ロボットエージェントのリアルタイム学習のための自律的好奇心 Autonomous Curiosity for Real-Time Training Onboard Robotic Agents ( http://arxiv.org/abs/2109.00927v1 ) ライセンス: Link先を確認 | Ervin Teng and Bob Iannucci | (参考訳) 学習には勉強と好奇心が必要だ。
優れた学習者は、与えられたデータから情報を抽出するだけでなく、学習するべき正しい新しい情報を見つけるのにも長けている。
これは、人間のオペレータが基礎的な真実を提供する必要がある場合に特に当てはまります。
本研究では,ロボットプラットフォーム上での物体検出アルゴリズムのオンライン,リアルタイム,人間-イン-ループトレーニングに関連する好奇心の問題に対処する。
そこで我々は,人間にいつ真実を尋ねるか,いつ動くのかを判断する深層強化学習手法を提案する。
一連の実験を通じて,エージェントは,オブジェクト検出の訓練に人間のインタラクションを使用する場合,未学習のアプローチよりも少なくとも3倍効果的で,さまざまな対象や環境に一般化可能な移動および要求ポリシを学習できることを実証する。 Learning requires both study and curiosity. A good learner is not only good at extracting information from the data given to it, but also skilled at finding the right new information to learn from. This is especially true when a human operator is required to provide the ground truth - such a source should only be queried sparingly. In this work, we address the problem of curiosity as it relates to online, real-time, human-in-the-loop training of an object detection algorithm onboard a robotic platform, one where motion produces new views of the subject. We propose a deep reinforcement learning approach that decides when to ask the human user for ground truth, and when to move. Through a series of experiments, we demonstrate that our agent learns a movement and request policy that is at least 3x more effective at using human user interactions to train an object detector than untrained approaches, and is generalizable to a variety of subjects and environments. | 翻訳日:2021-09-03 14:03:33 公開日:2021-08-29 |
# メトロ客数予測のための並列多グラフ畳み込みネットワーク Parallel Multi-Graph Convolution Network For Metro Passenger Volume Prediction ( http://arxiv.org/abs/2109.00924v1 ) ライセンス: Link先を確認 | Fuchen Gao, Zhanquan Wang, Zhenguang Liu | (参考訳) 地下鉄の乗客数(乗客数)の正確な予測は、インテリジェント交通において重要な課題でありながら、リアルタイムの地下鉄システム管理を実現するのに有用である。
都市地下鉄の乗車行動の複雑な空間的相関と時間的変動により、ディープラーニングは非線形空間-時間的依存関係を捉えるために広く使われている。
残念ながら、現在のディープラーニング手法では、局間の異なる空間相関パターンをフル活用することなく、グラフ畳み込みネットワークを空間関係をモデル化するためのコンポーネントとしてのみ採用している。
本研究では,metro passenger volume predictionの精度をさらに高めるために,並列マルチグラフ畳み込みと重ね合わせ双方向ゲートリカレントユニット(pb-gru)を組み合わせたディープラーニングモデルを提案する。
並列マルチグラフ畳み込みは、駅間のオリジン・デスティネーション(od)分布と類似のフローパターンを捉え、双方向ゲート再帰ユニットは、乗客の容積列を前後に考慮し、複雑な時間的特徴を学習する。
地下鉄の乗客フローの2つの実世界のデータセットに対する大規模な実験は、モデルの有効性を示している。
PB-GRUは既存の手法に比べて予測誤差がはるかに低い。 Accurate prediction of metro passenger volume (number of passengers) is valuable to realize real-time metro system management, which is a pivotal yet challenging task in intelligent transportation. Due to the complex spatial correlation and temporal variation of urban subway ridership behavior, deep learning has been widely used to capture non-linear spatial-temporal dependencies. Unfortunately, the current deep learning methods only adopt graph convolutional network as a component to model spatial relationship, without making full use of the different spatial correlation patterns between stations. In order to further improve the accuracy of metro passenger volume prediction, a deep learning model composed of Parallel multi-graph convolution and stacked Bidirectional unidirectional Gated Recurrent Unit (PB-GRU) was proposed in this paper. The parallel multi-graph convolution captures the origin-destination (OD) distribution and similar flow pattern between the metro stations, while bidirectional gated recurrent unit considers the passenger volume sequence in forward and backward directions and learns complex temporal features. Extensive experiments on two real-world datasets of subway passenger flow show the efficacy of the model. Surprisingly, compared with the existing methods, PB-GRU achieves much lower prediction error. | 翻訳日:2021-09-03 13:49:14 公開日:2021-08-29 |
# 理想と仮想現実 Ideals and Virtual Realities ( http://arxiv.org/abs/2109.00926v1 ) ライセンス: Link先を確認 | E. Canessa and L. Tenze | (参考訳) 世界の進歩の第一のステップは、今日の仮想現実の中で、科学と教育の理想を共有し続けることである。
オンライン教育は、現在進行中のSARS-CoV-2パンデミックにおいて、人間の社会を人々が教え、学ぶ方法の新たなレベルへと変えつつある。
コミュニケーションのための、より信頼性が高く、高速でシンプルなアプリや、従来のディダクティックな方法を用いた物理学と数学の分野におけるビデオや講義の記録、組み立て、配布に対する関心が高まっている。
ここでは,人気のYouTubeビデオプラットフォームであるOpenEyA-YTを用いて,黒板クラスを正確に再現する方法を説明する。
観客は、物理的孤立の影響を軽減するために、大陸を越えて拡大することができる。 A main step for world progress is to keep sharing ever-present Ideals for science and education within today Virtual Realities. On-line education is transforming human society to new levels in the way people teach and learn during the ongoing SARS-CoV-2 pandemic. There is an increasing interest in having more and more reliable, fast and simple apps to communicate and also to record, assemble and distribute videos and lectures in the fields of Physics & Maths still using traditional didactic methods. We describe here how to accurately reproduce chalkboard classes for the popular YouTube video platform using OpenEyA-YT. The audience can thus be expanded over continents to help mitigate the effects of physical isolation. | 翻訳日:2021-09-03 13:46:56 公開日:2021-08-29 |
# (参考訳) IQAに関する調査 A survey on IQA ( http://arxiv.org/abs/2109.00347v1 ) ライセンス: CC BY 4.0 | Lanjiang.Wang | (参考訳) 画像品質評価(IQA)は、画像ベースアプリケーションにおいてますます重要になる。
その目的は、画像品質を正確に評価するための人間を置き換えるモデルを確立することである。
参照画像が完全で利用可能かどうかに応じて、画像品質評価は、フル参照(FR)、還元参照(RR)、非参照(NR)画像品質評価の3つのカテゴリに分けられる。
深層学習の活発な発展と研究者の注目により,近年,深層学習に基づく非参照画像品質評価手法がいくつか提案されている。
本稿では,画像品質評価と映像品質評価の概念と指標を概観するとともに,完全参照および半参照画像品質評価の手法を簡潔に紹介するとともに,ディープラーニングに基づく非参照画像品質評価手法に注目する。
次に、よく使われる合成データベースと実世界のデータベースを紹介する。
最後に、課題を要約し提示する。 Image quality assessment(IQA) is of increasing importance for image-based applications. Its purpose is to establish a model that can replace humans for accurately evaluating image quality. According to whether the reference image is complete and available, image quality evaluation can be divided into three categories: full-reference(FR), reduced-reference(RR), and non-reference(NR) image quality assessment. Due to the vigorous development of deep learning and the widespread attention of researchers, several non-reference image quality assessment methods based on deep learning have been proposed in recent years, and some have exceeded the performance of reduced -reference or even full-reference image quality assessment models. This article will review the concepts and metrics of image quality assessment and also video quality assessment, briefly introduce some methods of full-reference and semi-reference image quality assessment, and focus on the non-reference image quality assessment methods based on deep learning. Then introduce the commonly used synthetic database and real-world database. Finally, summarize and present challenges. | 翻訳日:2021-09-02 21:16:05 公開日:2021-08-29 |
# (参考訳) 強化学習に基づくビデオ認識モデルにおけるスパースブラックボックス攻撃 Reinforcement Learning Based Sparse Black-box Adversarial Attack on Video Recognition Models ( http://arxiv.org/abs/2108.13872v1 ) ライセンス: CC BY 4.0 | Zeyuan Wang, Chaofeng Sha and Su Yang | (参考訳) ビデオ認識モデルに対するブラックボックス攻撃について検討する。
攻撃は選択されたキー領域とキーフレームでのみ行われ、高次元のためビデオ上の逆摂動を探索するための高い計算コストが削減される。
キーフレームを選択するには、ヒューリスティックアルゴリズムを使用して各フレームの重要性を評価し、必須のフレームを選択する。
しかし、ソートや検索では非効率である。
攻撃プロセスを高速化するために,強化学習に基づくフレーム選択戦略を提案する。
具体的には、エージェントは、元のクラスとターゲットビデオのクラスの違いを調べ、選択を決定する。
決定の質を示す脅威モデルから報酬を受け取る。
また,鍵領域の選択にはサリエンシ検出を用い,0次最適化では勾配ではなく勾配の符号のみを推定し,攻撃プロセスをさらに強化する。
訓練されたモデルを、対象外の攻撃で直接使用したり、ターゲット攻撃で微調整をほとんど行わずに使用することで、計算時間を短縮することができる。
実データセットにおける実験結果の範囲は,提案手法の有効性と有効性を示す。 We explore the black-box adversarial attack on video recognition models. Attacks are only performed on selected key regions and key frames to reduce the high computation cost of searching adversarial perturbations on a video due to its high dimensionality. To select key frames, one way is to use heuristic algorithms to evaluate the importance of each frame and choose the essential ones. However, it is time inefficient on sorting and searching. In order to speed up the attack process, we propose a reinforcement learning based frame selection strategy. Specifically, the agent explores the difference between the original class and the target class of videos to make selection decisions. It receives rewards from threat models which indicate the quality of the decisions. Besides, we also use saliency detection to select key regions and only estimate the sign of gradient instead of the gradient itself in zeroth order optimization to further boost the attack process. We can use the trained model directly in the untargeted attack or with little fine-tune in the targeted attack, which saves computation time. A range of empirical results on real datasets demonstrate the effectiveness and efficiency of the proposed method. | 翻訳日:2021-09-02 07:02:37 公開日:2021-08-29 |
# モデル抽出を超えて: Black-Box NLP APIの模倣攻撃 Beyond Model Extraction: Imitation Attack for Black-Box NLP APIs ( http://arxiv.org/abs/2108.13873v1 ) ライセンス: Link先を確認 | Qiongkai Xu, Xuanli He, Lingjuan Lyu, Lizhen Qu, Gholamreza Haffari | (参考訳) マシンラーニング・アズ・ア・サービス(MLaaS)は、数百万のユーザを惹きつけ、優れたモデルを実現している。
ブラックボックスapiとして公開されたが、これらのサービスの背後にある貴重なモデルは、依然として模倣攻撃に対して脆弱である。
最近、一連の研究により、攻撃者が被害者のモデルを盗んだり、抽出したりすることに成功した。
それでも、それまでの盗難モデルは、元のブラックボックスAPIより優れているものはない。
本研究は,攻撃者が非教師なしドメイン適応とマルチヴィクティアンサンブルにより,被害者を追い越す可能性を示す第一歩である。
ベンチマークデータセットと実世界のapiに関する広範囲な実験は、模倣者が元のブラックボックスモデルよりも優れたパフォーマンスを実現できることを検証している。
これは、特にNLP APIにおける模倣攻撃の研究におけるマイルストーンであり、優れたパフォーマンスがAPIプロバイダの防衛や公開戦略に影響を与える可能性があると考えている。 Machine-learning-as-a-service (MLaaS) has attracted millions of users to their outperforming sophisticated models. Although published as black-box APIs, the valuable models behind these services are still vulnerable to imitation attacks. Recently, a series of works have demonstrated that attackers manage to steal or extract the victim models. Nonetheless, none of the previous stolen models can outperform the original black-box APIs. In this work, we take the first step of showing that attackers could potentially surpass victims via unsupervised domain adaptation and multi-victim ensemble. Extensive experiments on benchmark datasets and real-world APIs validate that the imitators can succeed in outperforming the original black-box models. We consider this as a milestone in the research of imitation attack, especially on NLP APIs, as the superior performance could influence the defense or even publishing strategy of API providers. | 翻訳日:2021-09-01 14:34:16 公開日:2021-08-29 |
# (参考訳) $k$Folden: $k$-Fold Ensemble for Out-Of-Distribution Detection $k$Folden: $k$-Fold Ensemble for Out-Of-Distribution Detection ( http://arxiv.org/abs/2108.12731v1 ) ライセンス: CC BY 4.0 | Xiaoya Li, Jiwei Li, Xiaofei Sun, Chun Fan, Tianwei Zhang, Fei Wu, Yuxian Meng, Jun Zhang | (参考訳) アウト・オブ・ディストリビューション(OOD)検出は自然言語処理(NLP)において重要な問題である。
本研究では,外部データを使用しなくても,トレーニング中のOOD検出の動作を模倣する,シンプルで効果的なフレームワークである$k$Foldenを提案する。
k$のトレーニングラベルを持つタスクに対して、$k$foldenは$k$のサブモデルを誘導する。
トレーニング中に未知のラベルをサブモデルに公開し、未知のラベルの$k-1$ラベルの確率を等しく評価することを奨励し、このフレームワークはOODシミュレーションを通じて自然な方法で内分布と外分布の例を同時に解決することができる。
テキスト分類をアーチェタイプとし、既存のテキスト分類データセットを用いたOOD検出のためのベンチマークを開発する。
開発したベンチマークを包括的に比較分析することにより,ood検出性能の向上とドメイン内分類精度の向上を両立させ,現在の手法に対するk$foldenの優位性を実証する。 Out-of-Distribution (OOD) detection is an important problem in natural language processing (NLP). In this work, we propose a simple yet effective framework $k$Folden, which mimics the behaviors of OOD detection during training without the use of any external data. For a task with $k$ training labels, $k$Folden induces $k$ sub-models, each of which is trained on a subset with $k-1$ categories with the left category masked unknown to the sub-model. Exposing an unknown label to the sub-model during training, the model is encouraged to learn to equally attribute the probability to the seen $k-1$ labels for the unknown label, enabling this framework to simultaneously resolve in- and out-distribution examples in a natural way via OOD simulations. Taking text classification as an archetype, we develop benchmarks for OOD detection using existing text classification datasets. By conducting comprehensive comparisons and analyses on the developed benchmarks, we demonstrate the superiority of $k$Folden against current methods in terms of improving OOD detection performances while maintaining improved in-domain classification accuracy. | 翻訳日:2021-09-01 06:18:08 公開日:2021-08-29 |
# (参考訳) MLによるIIoT侵入検出の特徴解析 Feature Analysis for ML-based IIoT Intrusion Detection ( http://arxiv.org/abs/2108.12732v1 ) ライセンス: CC BY 4.0 | Mohanad Sarhan, Siamak Layeghy, Marius Portmann | (参考訳) iiot(industrial internet of things)ネットワークは、サイバー攻撃の標的になりつつある。
IIoTネットワークを保護するネットワーク侵入検知システム(NIDS)を実装するために、Powerful Machine Learning (ML)モデルが最近採用されている。
このようなMLモデルのトレーニングを成功させるためには、検出精度と計算効率を最大化する適切なデータ特徴セットを選択することが重要である。
本稿では,ネットワーク攻撃の重要性と予測力の観点から,最適な特徴セットを広範囲に分析する。
chi-square, information gain, correlationの3つの特徴選択アルゴリズムが,データ特徴の識別とランク付けに利用されている。
これらの特徴は、攻撃検出精度を測定するために、ディープフィードフォワードとランダムフォレストという2つのML分類器に供給される。
実験では、UNSW-NB15、CSE-CIC-IDS2018、ToN-IoTの3つのNIDSデータセットを独自のフローフォーマットで検討した。
さらにNetFlowフォーマットのそれぞれのバリエーション、すなわちNF-UNSW-NB15、NF-CSE-CIC-IDS2018、NF-ToN-IoTも検討された。
実験評価では,機能追加の限界的メリットについて検討した。
以上の結果から,機能追加により初期精度は急速に向上するが,最大検出精度に素早く収束することが示された。
本研究は, ほぼ最適検出精度を維持しつつ, NIDSの計算・記憶コストを低減できることを示す。
IIoTシステムには特に関連があり、通常は計算リソースとストレージリソースが限られている。 Industrial Internet of Things (IIoT) networks have become an increasingly attractive target of cyberattacks. Powerful Machine Learning (ML) models have recently been adopted to implement Network Intrusion Detection Systems (NIDSs), which can protect IIoT networks. For the successful training of such ML models, it is important to select the right set of data features, which maximise the detection accuracy as well as computational efficiency. This paper provides an extensive analysis of the optimal feature sets in terms of the importance and predictive power of network attacks. Three feature selection algorithms; chi-square, information gain and correlation have been utilised to identify and rank data features. The features are fed into two ML classifiers; deep feed-forward and random forest, to measure their attack detection accuracy. The experimental evaluation considered three NIDS datasets: UNSW-NB15, CSE-CIC-IDS2018, and ToN-IoT in their proprietary flow format. In addition, the respective variants in NetFlow format were also considered, i.e., NF-UNSW-NB15, NF-CSE-CIC-IDS2018, and NF-ToN-IoT. The experimental evaluation explored the marginal benefit of adding features one-by-one. Our results show that the accuracy initially increases rapidly with the addition of features, but converges quickly to the maximum achievable detection accuracy. Our results demonstrate a significant potential of reducing the computational and storage cost of NIDS while maintaining near-optimal detection accuracy. This has particular relevance in IIoT systems, with typically limited computational and storage resource. | 翻訳日:2021-09-01 05:58:47 公開日:2021-08-29 |
# (参考訳) 準スーパービジョンELBOへのディープダイブによる分類性能の向上 Deep Dive into Semi-Supervised ELBO for Improving Classification Performance ( http://arxiv.org/abs/2108.12734v1 ) ライセンス: CC BY 4.0 | Fahim Faisal Niloy, M. Ashraful Amin, AKM Mahbubur Rahman, Amin Ahsan Ali | (参考訳) 密度推定に用いたVAEのELBO目標値の分解により, 表現学習におけるVAEの欠如が明らかとなり, モデルの改善法が提案された。
本稿では,VAEモデルを用いた半教師付き分類のためのELBOを分解することで,同様の知見が得られるかどうかを検討する。
具体的には,ELBO目標の最大化時に,入力ラベルとクラスラベルの相互情報を減少させることを示す。
我々はこの問題に対処する方法を提案する。
分類を助けるためにクラスタの仮定も実施します。
多様なデータセットを用いた実験により,既存のVAEに基づく半教師付きモデルの分類性能向上に本手法が有効であることが確認された。
実験により、これはモデルの生成力を犠牲にすることなく達成できることを示した。 Decomposition of the evidence lower bound (ELBO) objective of VAE used for density estimation revealed the deficiency of VAE for representation learning and suggested ways to improve the model. In this paper, we investigate whether we can get similar insights by decomposing the ELBO for semi-supervised classification using VAE model. Specifically, we show that mutual information between input and class labels decreases during maximization of ELBO objective. We propose a method to address this issue. We also enforce cluster assumption to aid in classification. Experiments on a diverse datasets verify that our method can be used to improve the classification performance of existing VAE based semi-supervised models. Experiments also show that, this can be achieved without sacrificing the generative power of the model. | 翻訳日:2021-09-01 05:47:12 公開日:2021-08-29 |
# (参考訳) SummerTime: 非専門家向けのテキスト要約ツールキット SummerTime: Text Summarization Toolkit for Non-experts ( http://arxiv.org/abs/2108.12738v1 ) ライセンス: CC BY-SA 4.0 | Ansong Ni, Zhangir Azerbayev, Mutethia Mutuma, Troy Feng, Yusen Zhang, Tao Yu, Ahmed Hassan Awadallah, Dragomir Radev | (参考訳) 最近の要約の進歩は、高品質の要約を生成できるモデルを提供する。
このようなモデルは現在、クエリベースの要約、対話の要約、マルチドキュメントの要約など、多くの要約タスクに存在している。
このようなモデルやタスクは研究分野で急速に成長しているが、専門家以外の研究者が追跡することは困難になっている。
我々は,nlp非専門家の観点から要約タスクを再考することで,要約手法をより広いオーディエンスに利用しやすくするため,夏期の開発を行う。
SummerTimeは、さまざまなモデル、データセット、評価指標を含む、テキスト要約のための完全なツールキットである。
SummerTimeはNLP研究者向けに設計されたライブラリと統合されており、使いやすいAPIをユーザに提供する。
summertimeを使うと、ユーザーはパイプラインのソリューションを見つけ、自分のデータで最良のモデルを検索し、違いを数行のコードで視覚化できる。
モデルと評価メトリクスの説明も提供し、ユーザがモデルの振る舞いを理解し、ニーズに最も適したモデルを選択するのに役立ちます。
私たちのライブラリは、ノートブックのデモとともに、https://github.com/yale-lily/summertimeで利用可能です。 Recent advances in summarization provide models that can generate summaries of higher quality. Such models now exist for a number of summarization tasks, including query-based summarization, dialogue summarization, and multi-document summarization. While such models and tasks are rapidly growing in the research field, it has also become challenging for non-experts to keep track of them. To make summarization methods more accessible to a wider audience, we develop SummerTime by rethinking the summarization task from the perspective of an NLP non-expert. SummerTime is a complete toolkit for text summarization, including various models, datasets and evaluation metrics, for a full spectrum of summarization-related tasks. SummerTime integrates with libraries designed for NLP researchers, and enables users with easy-to-use APIs. With SummerTime, users can locate pipeline solutions and search for the best model with their own data, and visualize the differences, all with a few lines of code. We also provide explanations for models and evaluation metrics to help users understand the model behaviors and select models that best suit their needs. Our library, along with a notebook demo, is available at https://github.com/Yale-LILY/SummerTime. | 翻訳日:2021-09-01 05:35:26 公開日:2021-08-29 |
# (参考訳) 一相認証技術支援レビュー Certifying One-Phase Technology-Assisted Reviews ( http://arxiv.org/abs/2108.12746v1 ) ライセンス: CC BY 4.0 | David D. Lewis and Eugene Yang and Ophir Frieder | (参考訳) 反復型アクティブラーニングに基づく技術支援レビュー(tar)ワークフローは、ドキュメントレビューアプリケーションで広く使われている。
単相タールワークフローの停止規則のほとんどは、正当な統計保証を欠いているため、いくつかの法的文脈での使用を妨げている。
分位推定理論を基礎として,一相タールのサンプルベース停止規則を初めて広く適用し,統計的に有効なものにする。
さらに,単相タールワークフローにおいて,過去の停止規則の評価において無害あるいは望ましいものとして扱われてきたリコール対象のオーバーシューティングが,過大なコスト源であることを示す。
反対に、過剰なリコールを減らすためにサンプリングコストが大きくなると、ほとんどすべてのシナリオで総コストが低下する。 Technology-assisted review (TAR) workflows based on iterative active learning are widely used in document review applications. Most stopping rules for one-phase TAR workflows lack valid statistical guarantees, which has discouraged their use in some legal contexts. Drawing on the theory of quantile estimation, we provide the first broadly applicable and statistically valid sample-based stopping rules for one-phase TAR. We further show theoretically and empirically that overshooting a recall target, which has been treated as innocuous or desirable in past evaluations of stopping rules, is a major source of excess cost in one-phase TAR workflows. Counterintuitively, incurring a larger sampling cost to reduce excess recall leads to lower total cost in almost all scenarios. | 翻訳日:2021-09-01 05:21:45 公開日:2021-08-29 |
# (参考訳) 強調選択のための文構造と単語関係モデル Sentence Structure and Word Relationship Modeling for Emphasis Selection ( http://arxiv.org/abs/2108.12750v1 ) ライセンス: CC BY 4.0 | Haoran Yang and Wai Lam | (参考訳) 強調選択は、短い文で強調する単語の選択に焦点を当てた、新しく提案されたタスクである。
伝統的な方法は、リッチな文構造と単語関係情報を無視しながら、文のシーケンス情報のみを考える。
本稿では,文構造グラフによる文構造と,単語類似性グラフによる単語関係を考慮した新しい枠組みを提案する。
文構造グラフは、文の構文解析木から導出される。
類似度グラフは、重み付け選択において類似語が一緒に強調される可能性が高いと主張するので、ノードが隣人と情報を共有することができる。
グラフニューラルネットワークは、2つのグラフの各ノードの表現を学ぶために使用される。
実験の結果,我々のフレームワークは優れた性能を達成できることがわかった。 Emphasis Selection is a newly proposed task which focuses on choosing words for emphasis in short sentences. Traditional methods only consider the sequence information of a sentence while ignoring the rich sentence structure and word relationship information. In this paper, we propose a new framework that considers sentence structure via a sentence structure graph and word relationship via a word similarity graph. The sentence structure graph is derived from the parse tree of a sentence. The word similarity graph allows nodes to share information with their neighbors since we argue that in emphasis selection, similar words are more likely to be emphasized together. Graph neural networks are employed to learn the representation of each node of these two graphs. Experimental results demonstrate that our framework can achieve superior performance. | 翻訳日:2021-09-01 05:03:44 公開日:2021-08-29 |
# (参考訳) voxelwise rs-fmri表現学習 : 性,年齢,神経精神症状の評価 Variational voxelwise rs-fMRI representation learning: Evaluation of sex, age, and neuropsychiatric signatures ( http://arxiv.org/abs/2108.12756v1 ) ライセンス: CC BY 4.0 | Eloy Geenjaar, Tonya White, Vince Calhoun | (参考訳) 本稿では,Voxelwise rs-fMRIデータに非線形表現学習を適用することを提案する。
非線型表現の学習は変分オートエンコーダ(VAE)を用いて行われる。
VAEは、voxelwise rs-fMRIデータに基づいて訓練され、意味のある情報を保持する非線形次元削減を行う。
モデル表現における情報の保持は、下流年齢回帰および性別分類タスクを用いて評価される。
これらのタスクの結果は非常に奨励され、教師なしモデルの表現で訓練された線形回帰器は、同じデータセット上で特に年齢回帰のために訓練された教師付きニューラルネットワークと同様に、ほぼ同様に機能する。
このモデルは統合失調症の診断予測タスクでも評価され、神経心理学的データセットの次元性低減法としてその実現可能性を評価する。
これらの結果は、精神疾患を持たないより広い集団で事前訓練を行い、下流の神経精神科の作業結果を改善する可能性を浮き彫りにしている。
プレトレーニングされたモデルは、統合失調症データセット上の変動エポック数に対して微調整され、1エポックに対する微調整が最良の結果をもたらす。
したがって、この研究は、voxelwise rs-fMRIデータに対する非線形次元の削減を開放するだけでなく、voxelwise rs-fMRIデータセット上でディープラーニングモデルを事前学習することで、より小さなデータセットでも性能を大幅に向上させることを示す。
また、今後の研究で統合失調症のような異種性神経精神疾患に対して、VAEの潜伏空間におけるrs-fMRI時系列の分布を見ることができる。
これは、モデルが潜在空間から脳空間に戻す点を再構築し、VAEが主題、時間点、および被写体の特徴を学習する関係をより良く理解することを可能にするモデルの生成的側面と補完することができる。 We propose to apply non-linear representation learning to voxelwise rs-fMRI data. Learning the non-linear representations is done using a variational autoencoder (VAE). The VAE is trained on voxelwise rs-fMRI data and performs non-linear dimensionality reduction that retains meaningful information. The retention of information in the model's representations is evaluated using downstream age regression and sex classification tasks. The results on these tasks are highly encouraging and a linear regressor trained with the representations of our unsupervised model performs almost as well as a supervised neural network, trained specifically for age regression on the same dataset. The model is also evaluated with a schizophrenia diagnosis prediction task, to assess its feasibility as a dimensionality reduction method for neuropsychiatric datasets. These results highlight the potential for pre-training on a larger set of individuals who do not have mental illness, to improve the downstream neuropsychiatric task results. The pre-trained model is fine-tuned for a variable number of epochs on a schizophrenia dataset and we find that fine-tuning for 1 epoch yields the best results. This work therefore not only opens up non-linear dimensionality reduction for voxelwise rs-fMRI data but also shows that pre-training a deep learning model on voxelwise rs-fMRI datasets greatly increases performance even on smaller datasets. It also opens up the ability to look at the distribution of rs-fMRI time series in the latent space of the VAE for heterogeneous neuropsychiatric disorders like schizophrenia in future work. This can be complemented with the generative aspect of the model that allows us to reconstruct points from the model's latent space back into brain space and obtain an improved understanding of the relation that the VAE learns between subjects, timepoints, and a subject's characteristics. | 翻訳日:2021-09-01 04:55:28 公開日:2021-08-29 |
# (参考訳) TCCT:Tightly Coupled Convolutional Transformer on Time Series Forecasting TCCT: Tightly-Coupled Convolutional Transformer on Time Series Forecasting ( http://arxiv.org/abs/2108.12784v1 ) ライセンス: CC BY 4.0 | Li Shen and Yangzhu Wang | (参考訳) 時系列予測は現実世界の幅広いアプリケーションにとって不可欠である。
近年の研究では、このような問題、特にlsti(long sequence time series input)やlstf(long sequence time series forecasting)問題に対するトランスフォーマーの優位性が示されている。
トランスフォーマーの効率向上と局所性向上のために,トランスフォーマーとCNNを多変量で組み合わせた研究を行った。
しかし、それらの組み合わせは疎結合であり、CNNを完全に利用していない。
1) cspattention: cspnetと自己接続機構を融合させることにより、自己接続機構の計算コストを30%削減し、メモリ使用量を50%削減し、同等またはそれ以上の予測精度を達成する。
2) 拡張因果共進化(Dilated causal convolution): Informer が提案する蒸留操作を,拡張因果共進化層に置き換えて,指数関数的に受容的な磁場成長を得る。
3)パススルー機構:自己付着ブロックのスタックへのパススルー機構の適用は、トランスフォーマーのようなモデルが余分な計算コストでより細かい情報を得るのに役立つ。
実世界のデータセットに関する実験により、我々のtcctアーキテクチャは、従来の最先端トランスフォーマモデルの性能を大幅に向上し、計算コストとメモリコストを大幅に削減できることを示した。 Time series forecasting is essential for a wide range of real-world applications. Recent studies have shown the superiority of Transformer in dealing with such problems, especially long sequence time series input(LSTI) and long sequence time series forecasting(LSTF) problems. To improve the efficiency and enhance the locality of Transformer, these studies combine Transformer with CNN in varying degrees. However, their combinations are loosely-coupled and do not make full use of CNN. To address this issue, we propose the concept of tightly-coupled convolutional Transformer(TCCT) and three TCCT architectures which apply transformed CNN architectures into Transformer: (1) CSPAttention: through fusing CSPNet with self-attention mechanism, the computation cost of self-attention mechanism is reduced by 30% and the memory usage is reduced by 50% while achieving equivalent or beyond prediction accuracy. (2) Dilated causal convolution: this method is to modify the distilling operation proposed by Informer through replacing canonical convolutional layers with dilated causal convolutional layers to gain exponentially receptive field growth. (3) Passthrough mechanism: the application of passthrough mechanism to stack of self-attention blocks helps Transformer-like models get more fine-grained information with negligible extra computation costs. Our experiments on real-world datasets show that our TCCT architectures could greatly improve the performance of existing state-of-art Transformer models on time series forecasting with much lower computation and memory costs, including canonical Transformer, LogTrans and Informer. | 翻訳日:2021-09-01 04:42:40 公開日:2021-08-29 |
# (参考訳) 運転行動予測のためのマルコフ切替モデル:スマートフォンのユースケース Markov Switching Model for Driver Behavior Prediction: Use cases on Smartphones ( http://arxiv.org/abs/2108.12801v1 ) ライセンス: CC BY 4.0 | Ahmed B. Zaky, Mohamed A. Khamis, Walid Gomaa | (参考訳) いくつかのインテリジェント交通システムは、様々なドライバーの行動を研究することに焦点を当てている。
これにはドライバーの行動、感度、気晴らし、応答時間を分析する機能が含まれている。
データ収集は異なる運転状況の学習と検証における主要な関心事の一つであり,スマートフォンを用いた低コストデータ収集ソリューションによって検証された運転行動切替モデルを提案する。
提案モデルでは,短時間の運転行動を予測するために,実データを用いて検証を行う。
運動検出(特にスマートフォンを用いた行動検出)に関する文献調査を行った。
複数のマルコフスイッチング可変オートリグレッション(msvar)モデルを実装し、収集した運転行動データに高度な適合を実現する。
これにより、ドライバーの振る舞いだけでなく、運転状況全体の正確な予測が可能になる。
また,提案モデルの性能と適切なモデル選択基準についても述べる。
提案した運転行動予測フレームワークは事故予知や運転安全システムに使用することができる。 Several intelligent transportation systems focus on studying the various driver behaviors for numerous objectives. This includes the ability to analyze driver actions, sensitivity, distraction, and response time. As the data collection is one of the major concerns for learning and validating different driving situations, we present a driver behavior switching model validated by a low-cost data collection solution using smartphones. The proposed model is validated using a real dataset to predict the driver behavior in short duration periods. A literature survey on motion detection (specifically driving behavior detection using smartphones) is presented. Multiple Markov Switching Variable Auto-Regression (MSVAR) models are implemented to achieve a sophisticated fitting with the collected driver behavior data. This yields more accurate predictions not only for driver behavior but also for the entire driving situation. The performance of the presented models together with a suitable model selection criteria is also presented. The proposed driver behavior prediction framework can potentially be used in accident prediction and driver safety systems. | 翻訳日:2021-09-01 04:26:45 公開日:2021-08-29 |
# (参考訳) 医用画像分類のためのプライバシー保護機械学習 Privacy-preserving Machine Learning for Medical Image Classification ( http://arxiv.org/abs/2108.12816v1 ) ライセンス: CC BY 4.0 | Shreyansh Singh and K.K. Shukla | (参考訳) さまざまな産業で機械学習(ML)とディープラーニング(DL)の利用が増加しているため、医療産業もそれほど遅れていない。
この業界におけるMLの非常に単純なユースケースは、画像分類である。
これは、医師が特定の疾患をタイムリーに検出するのを助けるために重要であり、それによって人間の判断ミスの可能性を減少させる助けとなる。
しかし、このような自動化システムを使用する場合、プライバシーに関する懸念もある。
攻撃者は患者の医療記録や画像にアクセスできなければならない。
また、モデルがセキュアであること、モデルに送信されるデータと、受信される予測の両方を、明確なテキストでモデルに公開しないことも要求される。
本研究では,胸部X線画像から肺炎の診断を行う医療画像分類問題の文脈において,これらの課題を解決することを目的とする。 With the rising use of Machine Learning (ML) and Deep Learning (DL) in various industries, the medical industry is also not far behind. A very simple yet extremely important use case of ML in this industry is for image classification. This is important for doctors to help them detect certain diseases timely, thereby acting as an aid to reduce chances of human judgement error. However, when using automated systems like these, there is a privacy concern as well. Attackers should not be able to get access to the medical records and images of the patients. It is also required that the model be secure, and that the data that is sent to the model and the predictions that are received both should not be revealed to the model in clear text. In this study, we aim to solve these problems in the context of a medical image classification problem of detection of pneumonia by examining chest x-ray images. | 翻訳日:2021-09-01 04:13:42 公開日:2021-08-29 |
# (参考訳) パーティクルフィルタによるハイブリッドルールベースおよびデータ駆動型ドライバモデリング A Hybrid Rule-Based and Data-Driven Approach to Driver Modeling through Particle Filtering ( http://arxiv.org/abs/2108.12820v1 ) ライセンス: CC BY 4.0 | Raunak Bhattacharyya, Soyeon Jung, Liam Kruse, Ransalu Senanayake, and Mykel Kochenderfer | (参考訳) 自動運転車は、安全で効率的な交通参加者のために、周囲の人間の運転車両の挙動をモデル化する必要がある。
人間の運転動作をモデル化するための既存のアプローチは、データ駆動方式とルールベース方式の両方に依存している。
データ駆動モデルはより表現力のあるモデルだが、ルールベースのモデルは解釈可能である。
しかし、ルールベースモデルはデータに十分な代表性を持たず、衝突のような非現実的な運転行動のため、データ駆動モデルはまだ現実的な交通シミュレーションを生成できない。
本稿ではルールベースモデリングとデータ駆動学習を組み合わせた方法論を提案する。
ルールはドライバモデルの解釈可能なパラメータによって制御されるが、これらのパラメータは粒子フィルタリングを用いた実演データからオンラインで学習される。
3つの実世界の運転実演データセットのデータを用いて、高速道路走行とマージのタスクでドライバモデリング実験を行う。
以上の結果から, ハイブリッドルールに基づく運転モデルとデータ駆動型運転モデルにより, 実世界の運転行動を正確に把握できることを示す。
さらに,本モデルが生成する運転行動のリアリズムを,人間が運転チューリングテストを行うことで評価し,運転モデルを用いて生成した映像と実際の運転の映像とを区別するように求めた。 Autonomous vehicles need to model the behavior of surrounding human driven vehicles to be safe and efficient traffic participants. Existing approaches to modeling human driving behavior have relied on both data-driven and rule-based methods. While data-driven models are more expressive, rule-based models are interpretable, which is an important requirement for safety-critical domains like driving. However, rule-based models are not sufficiently representative of data, and data-driven models are yet unable to generate realistic traffic simulation due to unrealistic driving behavior such as collisions. In this paper, we propose a methodology that combines rule-based modeling with data-driven learning. While the rules are governed by interpretable parameters of the driver model, these parameters are learned online from driving demonstration data using particle filtering. We perform driver modeling experiments on the task of highway driving and merging using data from three real-world driving demonstration datasets. Our results show that driver models based on our hybrid rule-based and data-driven approach can accurately capture real-world driving behavior. Further, we assess the realism of the driving behavior generated by our model by having humans perform a driving Turing test, where they are asked to distinguish between videos of real driving and those generated using our driver models. | 翻訳日:2021-09-01 04:04:28 公開日:2021-08-29 |
# (参考訳) ニューラルアーキテクチャ探索における干渉の解析と緩和 Analyzing and Mitigating Interference in Neural Architecture Search ( http://arxiv.org/abs/2108.12821v1 ) ライセンス: CC BY 4.0 | Jin Xu, Xu Tan, Kaitao Song, Renqian Luo, Yichong Leng, Tao Qin, Tie-Yan Liu, Jian Li | (参考訳) 重みの共有は、以前訓練された子モデルから共有オペレーターの重みを再利用することで、ニューラルネットワーク検索(nas)のトレーニングコストを削減するための \textit{de facto} アプローチとなった。
しかし,これらの子モデルの推定精度は,体重共有による異なる子モデル間の干渉により,基底真理精度と低い相関関係を有する。
本稿では, 異なる子モデルをサンプリングし, 共用作用素の勾配類似度を算出し, 1) 2つの子モデル間の共用作用素に対する干渉は, 両者の異なる演算子の数と正の相関関係にあること, 2) 共用作用素の入出力がより似ている場合の干渉が小さいこと, について考察する。
これらの2つの観察から着想を得て,(1)ランダムに子モデルをサンプリングして最適化するのではなく,隣接する最適化ステップ間で1つの演算子を変更し,共有演算子の干渉を最小限に抑える段階的な修正スキームを提案し,2)すべての子モデルにまたがる演算子の入力と出力を,干渉を減少させるように強制する。
bert探索空間における実験により,提案手法による干渉の緩和がsuper-petのランク相関を改善し,両手法を組み合わせることで良好な結果が得られることを確認した。
検索したアーキテクチャは、RoBERTa$_{\rm base}$ 1.1 と 0.6 と ELECTRA$_{\rm base}$ 1.6 と 1.1 を GLUE ベンチマークのデベロップメントとテストセットで上回ります。
また,BERT圧縮タスクやSQuADデータセット,その他の検索空間の広範な結果から,提案手法の有効性と汎用性を示した。 Weight sharing has become the \textit{de facto} approach to reduce the training cost of neural architecture search (NAS) by reusing the weights of shared operators from previously trained child models. However, the estimated accuracy of those child models has a low rank correlation with the ground truth accuracy due to the interference among different child models caused by weight sharing. In this paper, we investigate the interference issue by sampling different child models and calculating the gradient similarity of shared operators, and observe that: 1) the interference on a shared operator between two child models is positively correlated to the number of different operators between them; 2) the interference is smaller when the inputs and outputs of the shared operator are more similar. Inspired by these two observations, we propose two approaches to mitigate the interference: 1) rather than randomly sampling child models for optimization, we propose a gradual modification scheme by modifying one operator between adjacent optimization steps to minimize the interference on the shared operators; 2) forcing the inputs and outputs of the operator across all child models to be similar to reduce the interference. Experiments on a BERT search space verify that mitigating interference via each of our proposed methods improves the rank correlation of super-pet and combining both methods can achieve better results. Our searched architecture outperforms RoBERTa$_{\rm base}$ by 1.1 and 0.6 scores and ELECTRA$_{\rm base}$ by 1.6 and 1.1 scores on the dev and test set of GLUE benchmark. Extensive results on the BERT compression task, SQuAD datasets and other search spaces also demonstrate the effectiveness and generality of our proposed methods. | 翻訳日:2021-09-01 03:43:16 公開日:2021-08-29 |
# (参考訳) シーンテンプレートによるフローガイド映像の描画 Flow-Guided Video Inpainting with Scene Templates ( http://arxiv.org/abs/2108.12845v1 ) ライセンス: CC BY 4.0 | Dong Lao, Peihao Zhu, Peter Wonka, Ganesh Sundaramoorthi | (参考訳) ビデオの時空間的欠落を埋めることの問題点を考察する。
シーン(欠落領域を除く)に関連する画像の生成モデルを導入し、シーンから画像へのマッピングを導入することにより、新しいフローベースのソリューションを提供する。
このモデルを用いて,シーンテンプレート,シーンの2次元表現,マッピングを共同で推測する。
これにより、基盤となるシーンに発生するフレーム間フローの一貫性が確保され、フローベースのインパインティングにおける幾何学的歪みが低減される。
テンプレートは、新しいl2-l1補間スキームによって、ビデオの欠落した領域にマッピングされ、鮮明なインペインティングを生成し、共通のぼやけや歪みのアーティファクトを減らす。
2つのベンチマークデータセットにおいて,我々のアプローチが定量的かつユーザ研究において最先端を上回っていることを示す。 We consider the problem of filling in missing spatio-temporal regions of a video. We provide a novel flow-based solution by introducing a generative model of images in relation to the scene (without missing regions) and mappings from the scene to images. We use the model to jointly infer the scene template, a 2D representation of the scene, and the mappings. This ensures consistency of the frame-to-frame flows generated to the underlying scene, reducing geometric distortions in flow based inpainting. The template is mapped to the missing regions in the video by a new L2-L1 interpolation scheme, creating crisp inpaintings and reducing common blur and distortion artifacts. We show on two benchmark datasets that our approach out-performs state-of-the-art quantitatively and in user studies. | 翻訳日:2021-09-01 03:23:51 公開日:2021-08-29 |
# (参考訳) 非パラメトリックニューラルスタイルトランスファー Non-Parametric Neural Style Transfer ( http://arxiv.org/abs/2108.12847v1 ) ライセンス: CC BY 4.0 | Nicholas Kolkin | (参考訳) エッフェル塔の写真がヴィンセント・ファン・ゴッホの『星の夜』のスタイルで描かれたとは想像がつくが、内観ではそれが何に関係するかを正確に定義することは難しい。
エッフェル塔の「コンテンツ」を表すために、どのような視覚要素を含む必要があるか。
星の夜」の視覚的な要素は、夜空の下で村を描くという決定よりも、ファン・ゴッホの「スタイル」によって引き起こされるのか?
正確に「コンテンツ」と「スタイル」を定義することは、アートスタイルの転送のためのアルゴリズムを設計する上で重要な課題である。
これらの用語を定義し、スタイル転送アルゴリズム自体を設計する私の努力がこの論文の焦点です。
まず、最適なトランスポートと自己相似性に基づくスタイルとコンテンツの新しい定義を提案し、これらの定義に基づくスタイル転送アルゴリズムが、視覚品質を改善した出力を生成する方法を示す。
次に, 従来のテクスチャに基づくスタイル定義を, 幾何学的要素を含むように拡張し, キーポイント誘導変形場をスタイライズされた出力の画素と共同で最適化する方法について述べる。
最後に、現代的なニューラルスタイル転送アルゴリズムと、高速で汎用的で最先端の視覚品質を提供する従来のパッチベースの合成アプローチの両方に触発されたフレームワークについて説明する。 It seems easy to imagine a photograph of the Eiffel Tower painted in the style of Vincent van Gogh's 'The Starry Night', but upon introspection it is difficult to precisely define what this would entail. What visual elements must an image contain to represent the 'content' of the Eiffel Tower? What visual elements of 'The Starry Night' are caused by van Gogh's 'style' rather than his decision to depict a village under the night sky? Precisely defining 'content' and 'style' is a central challenge of designing algorithms for artistic style transfer, algorithms which can recreate photographs using an artwork's style. My efforts defining these terms, and designing style transfer algorithms themselves, are the focus of this thesis. I will begin by proposing novel definitions of style and content based on optimal transport and self-similarity, and demonstrating how a style transfer algorithm based on these definitions generates outputs with improved visual quality. Then I will describe how the traditional texture-based definition of style can be expanded to include elements of geometry and proportion by jointly optimizing a keypoint-guided deformation field alongside the stylized output's pixels. Finally I will describe a framework inspired by both modern neural style transfer algorithms and traditional patch-based synthesis approaches which is fast, general, and offers state-of-the-art visual quality. | 翻訳日:2021-09-01 03:11:21 公開日:2021-08-29 |
# (参考訳) 事前学習型言語モデルのためのスパンファインタニング Span Fine-tuning for Pre-trained Language Models ( http://arxiv.org/abs/2108.12848v1 ) ライセンス: CC BY 4.0 | Rongzhou Bao, Zhuosheng Zhang, Hai Zhao | (参考訳) 事前学習言語モデル(PrLM)は、何百万もの単語からなる語彙を持つ非常に大きなテキストのトレーニングにおいて、入力単位を慎重に管理する必要がある。
前回の研究では、連続した単語にスパンレベルの情報を組み込むことでprlmの性能がさらに向上することが示されている。
しかしながら、事前トレーニングでスパンレベルのヒントが導入され、固定されることを考えると、以前の手法は時間がかかり、柔軟性が欠如している。
この不便を和らげるために,本論文では,微調整フェーズにおいて,特定の下流タスクによってスパン設定が適応的に決定されるような,PRLMのスパン微調整手法を提案する。
詳しくは、PrLMによって処理されたすべての文は、プリサンプル辞書に従って複数のスパンに分割される。
次に、セグメンテーション情報は、PrLMの表現出力とともに階層的なCNNモジュールを通して送信され、最終的にスパンエンハンスド表現を生成する。
GLUEベンチマーク実験により,提案手法はPrLMを大幅に向上させるとともに,効率よく柔軟性を向上することが示された。 Pre-trained language models (PrLM) have to carefully manage input units when training on a very large text with a vocabulary consisting of millions of words. Previous works have shown that incorporating span-level information over consecutive words in pre-training could further improve the performance of PrLMs. However, given that span-level clues are introduced and fixed in pre-training, previous methods are time-consuming and lack of flexibility. To alleviate the inconvenience, this paper presents a novel span fine-tuning method for PrLMs, which facilitates the span setting to be adaptively determined by specific downstream tasks during the fine-tuning phase. In detail, any sentences processed by the PrLM will be segmented into multiple spans according to a pre-sampled dictionary. Then the segmentation information will be sent through a hierarchical CNN module together with the representation outputs of the PrLM and ultimately generate a span-enhanced representation. Experiments on GLUE benchmark show that the proposed span fine-tuning method significantly enhances the PrLM, and at the same time, offer more flexibility in an efficient way. | 翻訳日:2021-09-01 03:09:31 公開日:2021-08-29 |
# (参考訳) ポイントクラウド処理のための微分畳み込み探索 Differentiable Convolution Search for Point Cloud Processing ( http://arxiv.org/abs/2108.12856v1 ) ライセンス: CC BY 4.0 | Xing Nie, Yongcheng Liu, Shaohong Chen, Jianlong Chang, Chunlei Huo, Gaofeng Meng, Qi Tian, Weiming Hu, Chunhong Pan | (参考訳) 点雲処理のための畳み込みニューラルネットワークの爆発は、特異な不規則分布と点雲の離散的な形状表現のため、非常に困難である。
これらの問題に対処するために、近年多くの手作りの畳み込み変種が生まれている。
精巧な設計ではあったが、これらの変種は離散点によって形成される多様な形状を十分に捉えるのに最適とはほど遠い。
本稿では,点雲上の新しい微分畳み込み探索パラダイムであるPointSeaConvを提案する。
純粋にデータ駆動型であり、幾何学的形状モデリングに適した畳み込みのグループを自動生成することができる。
また,内部畳み込みと外部アーキテクチャの同時探索のための統合最適化フレームワークを提案し,離散化誤差の影響を軽減するためのepsilon-greedyアルゴリズムを提案する。
その結果、畳み込みレベルとアーキテクチャレベルの両方で幾何学的形状をキャプチャするのに十分な深いネットワークであるPointSeaNetを、ポイントクラウド処理のために検索することができる。
広範な実験により,提案するpointseanetが,複数のタスクにまたがる難易度の高いベンチマークにおいて,現在の手作りの深層モデルを上回ることを強く証明した。 Exploiting convolutional neural networks for point cloud processing is quite challenging, due to the inherent irregular distribution and discrete shape representation of point clouds. To address these problems, many handcrafted convolution variants have sprung up in recent years. Though with elaborate design, these variants could be far from optimal in sufficiently capturing diverse shapes formed by discrete points. In this paper, we propose PointSeaConv, i.e., a novel differential convolution search paradigm on point clouds. It can work in a purely data-driven manner and thus is capable of auto-creating a group of suitable convolutions for geometric shape modeling. We also propose a joint optimization framework for simultaneous search of internal convolution and external architecture, and introduce epsilon-greedy algorithm to alleviate the effect of discretization error. As a result, PointSeaNet, a deep network that is sufficient to capture geometric shapes at both convolution level and architecture level, can be searched out for point cloud processing. Extensive experiments strongly evidence that our proposed PointSeaNet surpasses current handcrafted deep models on challenging benchmarks across multiple tasks with remarkable margins. | 翻訳日:2021-09-01 02:57:17 公開日:2021-08-29 |
# (参考訳) 難易度判別器によるエッジクラウド協調物体検出 Edge-Cloud Collaborated Object Detection via Difficult-Case Discriminator ( http://arxiv.org/abs/2108.12858v1 ) ライセンス: CC BY 4.0 | Zhiqiang Cao, Zhijun Li, Pan Heng, Yongrui Chen, Daqi Xie and Jie Liu | (参考訳) コンピュータビジョンの基本課題の一つとして、オブジェクト検出は多くのインテリジェントなアプリケーションで広く使われている。
しかし、オブジェクト検出アルゴリズムは通常計算において重く、リソース制約のあるエッジデバイスの実装を妨げる。
エッジクラウドデバイス上のCNNパーティションのような現在のエッジクラウドコラボレーションメソッドは、中間結果の巨大なデータサイズが余計な通信コストをもたらすため、オブジェクト検出には適していない。
この課題に対処するために,クラウド上に大きなモデルをデプロイし,エッジデバイス上に小さなモデルをデプロイする,小型のモデルフレームワークを提案する。
エッジ装置は、データを受信すると、画像の特定のセマンティクスに応じて、画像を簡単なケースと難しいケースに分類する難易度判別器を動作させる。
簡単なケースはエッジでローカルに処理され、難しいケースはクラウドにアップロードされる。
2つの異なるオブジェクト検出アルゴリズムを用いたVOC、COCO、HELMETデータセットの実験結果から、SSDを使用すると、約50%の画像しかクラウドにアップロードされていないオブジェクトの94.01%-97.84%を検出できることが示された。
さらに、小さな大きなモデルは、すべての画像をクラウドにアップロードするスキームの91.22%から92.52%のエンドツーエンドのmAPに達する。 As one of the basic tasks of computer vision, object detection has been widely used in many intelligent applications. However, object detection algorithms are usually heavyweight in computation, hindering their implementations on resource-constrained edge devices. Current edge-cloud collaboration methods, such as CNN partition over Edge-cloud devices, are not suitable for object detection since the huge data size of the intermediate results will introduce extravagant communication costs. To address this challenge, we propose a small-big model framework that deploys a big model in the cloud and a small model on the edge devices. Upon receiving data, the edge device operates a difficult-case discriminator to classify the images into easy cases and difficult cases according to the specific semantics of the images. The easy cases will be processed locally at the edge, and the difficult cases will be uploaded to the cloud. Experimental results on the VOC, COCO, HELMET datasets using two different object detection algorithms demonstrate that the small-big model system can detect 94.01%-97.84% of objects with only about 50% images uploaded to the cloud when using SSD. In addition, the small-big model averagely reaches 91.22%- 92.52% end-to-end mAP of the scheme that uploading all images to the cloud. | 翻訳日:2021-09-01 02:40:23 公開日:2021-08-29 |
# (参考訳) 深さ増加によるニューラルネットワークガウス過程 Neural Network Gaussian Processes by Increasing Depth ( http://arxiv.org/abs/2108.12862v1 ) ライセンス: CC BY 4.0 | Shao-Qun Zhang and Feng-Lei Fan | (参考訳) 近年、無限に広いネットワークとガウス過程の対応への関心が高まっている。
現在のニューラルネットワークガウス過程理論の有効性とエレガントさにもかかわらず、我々の知る限りでは、全てのニューラルネットワークガウス過程は基本的に幅の増大によって誘導される。
しかし、ディープラーニングの時代において、ニューラルネットワークに関してより関心を持つのは、その深さと、ネットワークの振る舞いに深さがどのように影響するかである。
幅-深さ対称性を考慮したショートカットネットワークを用いて、ニューラルネットワークの深さを増大させることで、ガウス過程がもたらされることを示し、これは既存の理論に価値ある追加であり、ディープラーニングの真の姿を明らかにすることに寄与する。
提案したガウス過程を超えて、理論的にはその一様密度特性と関連する核の最小固有値を特徴づける。
これらの特徴は、提案された深さ誘起ガウス過程の理解を深めるだけでなく、将来の応用への道を開くことができる。
最後に, 2つの実世界のデータセット上での回帰実験により, ガウス過程の性能を検証した。 Recent years have witnessed an increasing interest in the correspondence between infinitely wide networks and Gaussian processes. Despite the effectiveness and elegance of the current neural network Gaussian process theory, to the best of our knowledge, all the neural network Gaussian processes are essentially induced by increasing width. However, in the era of deep learning, what concerns us more regarding a neural network is its depth as well as how depth impacts the behaviors of a network. Inspired by a width-depth symmetry consideration, we use a shortcut network to show that increasing the depth of a neural network can also give rise to a Gaussian process, which is a valuable addition to the existing theory and contributes to revealing the true picture of deep learning. Beyond the proposed Gaussian process by depth, we theoretically characterize its uniform tightness property and the smallest eigenvalue of its associated kernel. These characterizations can not only enhance our understanding of the proposed depth-induced Gaussian processes, but also pave the way for future applications. Lastly, we examine the performance of the proposed Gaussian process by regression experiments on two real-world data sets. | 翻訳日:2021-09-01 02:23:26 公開日:2021-08-29 |
# (参考訳) MBDF-Net:3次元物体検出のためのマルチブランチディープフュージョンネットワーク MBDF-Net: Multi-Branch Deep Fusion Network for 3D Object Detection ( http://arxiv.org/abs/2108.12863v1 ) ライセンス: CC BY 4.0 | Xun Tan, Xingyu Chen, Guowei Zhang, Jishiyu Ding, Xuguang Lan | (参考訳) 点雲と画像は、3Dオブジェクトを表現する際に補完的な情報を提供する。
2種類のデータを融合することは、通常、検出結果を改善するのに役立つ。
しかし、異なる特徴と非関心領域からの干渉のため、2つのデータモダリティを融合させることは困難である。
そこで本研究では,3次元物体検出のためのマルチブランチディープフュージョンネットワーク(MBDF-Net)を提案する。
提案された検出器には2つのステージがある。
最初の段階では、我々のマルチブランチ機能抽出ネットワークは、アダプティブ・アテンション・フュージョン(AAF)モジュールを使用して、単一モーダルなセマンティックな特徴からクロスモーダルな融合特徴を生成する。
第2段階では、関心領域(RoI)をプールした核融合モジュールを用いて局所的な特徴を改良する。
ダウンサンプリングプロセスにおいてキーポイントを選択するための注意に基づく新しいハイブリッドサンプリング戦略も提案されている。
我々は、KITTIとSUN-RGBDを含む2つの広く使われているベンチマークデータセットに対するアプローチを評価する。
実験により,本手法の最先端手法に対する利点を実証した。 Point clouds and images could provide complementary information when representing 3D objects. Fusing the two kinds of data usually helps to improve the detection results. However, it is challenging to fuse the two data modalities, due to their different characteristics and the interference from the non-interest areas. To solve this problem, we propose a Multi-Branch Deep Fusion Network (MBDF-Net) for 3D object detection. The proposed detector has two stages. In the first stage, our multi-branch feature extraction network utilizes Adaptive Attention Fusion (AAF) modules to produce cross-modal fusion features from single-modal semantic features. In the second stage, we use a region of interest (RoI) -pooled fusion module to generate enhanced local features for refinement. A novel attention-based hybrid sampling strategy is also proposed for selecting key points in the downsampling process. We evaluate our approach on two widely used benchmark datasets including KITTI and SUN-RGBD. The experimental results demonstrate the advantages of our method over state-of-the-art approaches. | 翻訳日:2021-09-01 02:06:41 公開日:2021-08-29 |
# (参考訳) ビデオ広告理解のためのマルチモーダルフレームワーク A Multimodal Framework for Video Ads Understanding ( http://arxiv.org/abs/2108.12868v1 ) ライセンス: CC BY 4.0 | Zejia Weng, Lingchen Meng, Rui Wang, Zuxuan Wu, Yu-Gang Jiang | (参考訳) オンラインマーケティングのためのソーシャルプラットフォームにビデオ広告を配置する傾向が高まり、広告の内容を理解するための自動的アプローチが求められている。
2021年のTAACコンペティションを機会として,広告ビデオコンテンツの構造化分析能力を向上させるマルチモーダルシステムを開発した。
私たちのフレームワークでは、ビデオ構造化分析問題を、シーンセグメンテーションとマルチモーダルタグ付けという2つのタスクに分割する。
シーンセグメンテーションでは、時間モデルのための時間畳み込みモジュールを構築し、隣り合うフレームが同じシーンに属するかどうかを予測します。
マルチモーダルタグ付けでは、NeXt-SoftDBoFでフレームレベルの特徴を集約することで、クリップレベルの視覚的特徴を初めて計算する。
視覚的特徴は、OCR(Optical Character Recognition)とASR(Audio Speech Recognition)出力から有用な情報を抽出するために、グローバルローカルアテンション機構を用いて導出されるテキスト特徴とさらに補完される。
2021年のTAAC最終リーダーボードでは, 位置推定と予測精度を考慮した0.2470のスコアを得た。 There is a growing trend in placing video advertisements on social platforms for online marketing, which demands automatic approaches to understand the contents of advertisements effectively. Taking the 2021 TAAC competition as an opportunity, we developed a multimodal system to improve the ability of structured analysis of advertising video content. In our framework, we break down the video structuring analysis problem into two tasks, i.e., scene segmentation and multi-modal tagging. In scene segmentation, we build upon a temporal convolution module for temporal modeling to predict whether adjacent frames belong to the same scene. In multi-modal tagging, we first compute clip-level visual features by aggregating frame-level features with NeXt-SoftDBoF. The visual features are further complemented with textual features that are derived using a global-local attention mechanism to extract useful information from OCR (Optical Character Recognition) and ASR (Audio Speech Recognition) outputs. Our solution achieved a score of 0.2470 measured in consideration of localization and prediction accuracy, ranking fourth in the 2021 TAAC final leaderboard. | 翻訳日:2021-09-01 01:54:44 公開日:2021-08-29 |
# (参考訳) 抽出テキスト要約のための多重グラフニューラルネットワーク Multiplex Graph Neural Network for Extractive Text Summarization ( http://arxiv.org/abs/2108.12870v1 ) ライセンス: CC BY 4.0 | Baoyu Jing, Zeyu You, Tao Yang, Wei Fan and Hanghang Tong | (参考訳) 抽出テキスト要約は、ある文書から最も代表的な文章を要約として抽出することを目的としている。
長いテキスト文書から良好な要約を抽出するためには、文章埋め込みが重要な役割を果たす。
近年の研究では、グラフニューラルネットワークを活用して意味間関係(例えば、談話グラフ)を捉え、文脈文の埋め込みを学習している。
しかし、これらのアプローチは複数の意味間関係(意味的類似性や自然な関係など)や、意味内関係(単語間の意味的・統語的関係など)を考慮しない。
これらの問題に対処するために,文と単語の異なる関係を協調的にモデル化する,多重グラフ畳み込みネットワーク (multi-gcn) を提案する。
マルチGCNに基づいて,抽出テキスト要約のための多重グラフ要約(Multi-GraS)モデルを提案する。
最後に,cnn/dailymailベンチマークデータセット上で提案モデルを評価し,提案手法の有効性と優れていることを示す。 Extractive text summarization aims at extracting the most representative sentences from a given document as its summary. To extract a good summary from a long text document, sentence embedding plays an important role. Recent studies have leveraged graph neural networks to capture the inter-sentential relationship (e.g., the discourse graph) to learn contextual sentence embedding. However, those approaches neither consider multiple types of inter-sentential relationships (e.g., semantic similarity & natural connection), nor model intra-sentential relationships (e.g, semantic & syntactic relationship among words). To address these problems, we propose a novel Multiplex Graph Convolutional Network (Multi-GCN) to jointly model different types of relationships among sentences and words. Based on Multi-GCN, we propose a Multiplex Graph Summarization (Multi-GraS) model for extractive text summarization. Finally, we evaluate the proposed models on the CNN/DailyMail benchmark dataset to demonstrate the effectiveness and superiority of our method. | 翻訳日:2021-09-01 01:47:29 公開日:2021-08-29 |
# (参考訳) 同時位置と回転登録のための視聴グラフ最適化の解法 Solving Viewing Graph Optimization for Simultaneous Position and Rotation Registration ( http://arxiv.org/abs/2108.12876v1 ) ライセンス: CC BY 4.0 | Seyed-Mahdi Nasiri and Reshad Hosseini and Hadi Moradi | (参考訳) 観察グラフは、頂点としての未知のカメラポーズと、エッジとしての観測された相対運動の集合である。
相対的な動きの集合が2次元画像の集合から得られる構造移動過程において、観察グラフの解法は不可欠なステップである。
文献のほとんど全ての方法は、回転平均化過程を通じて、別々に回転を解き、それらを用いて位置を解く。
位置の取得は、翻訳の観察が動きの方向のみを示すため、難しい部分である。
エッジのセットが近距離カメラと遠距離カメラの対訳観測結果を含んでいる場合、より困難になる。
本稿では,これらの問題を克服する反復手法を提案する。
また,回転と位置を同時に取得する手法を提案する。
実験結果は,提案手法の最先端性能を示す。 A viewing graph is a set of unknown camera poses, as the vertices, and the observed relative motions, as the edges. Solving the viewing graph is an essential step in a Structure-from-Motion procedure, where a set of relative motions is obtained from a collection of 2D images. Almost all methods in the literature solve for the rotations separately, through rotation averaging process, and use them for solving the positions. Obtaining positions is the challenging part because the translation observations only tell the direction of the motions. It becomes more challenging when the set of edges comprises pairwise translation observations between either near and far cameras. In this paper an iterative method is proposed that overcomes these issues. Also a method is proposed which obtains the rotations and positions simultaneously. Experimental results show the-state-of-the-art performance of the proposed methods. | 翻訳日:2021-09-01 01:36:45 公開日:2021-08-29 |
# (参考訳) 低音源アラビア語-英語音声の音声認識システムの検討 Investigations on Speech Recognition Systems for Low-Resource Dialectal Arabic-English Code-Switching Speech ( http://arxiv.org/abs/2108.12881v1 ) ライセンス: CC BY 4.0 | Injy Hamed, Pavel Denisov, Chia-Yu Li, Mohamed Elmahdy, Slim Abdennadher, Ngoc Thang Vu | (参考訳) 会話における言語混合として定義されたコードスイッチング(CS)は、世界的な現象となっている。
CSの流行は近年、CS ASRシステム構築への需要と関心が高まっている。
本稿では,コードスイッチによるエジプト・アラビア英語自動音声認識(ASR)について述べる。
我々はまず,自発的なエジプト・アラビア語・英語音声コーパスを収集,分析,公開することにより,資源の巨大なギャップを埋めることに貢献した。
DNNベースのハイブリッドモデルとTransformerベースのエンドツーエンドモデルを用いて,ASRシステムを構築した。
本稿では,低リソース,正書法非標準化,形態的リッチな言語対の設定による両手法の徹底的な比較について述べる。
いずれのシステムも全体の認識結果に匹敵するものの,各システムは相補的な強度点を提供する。
両システムの出力を組み合わせることで,認識を向上できることを示す。
そこで本研究では,両システムの仮説を文と単語レベルで融合するシステム組み合わせ手法を提案する。
提案手法は,WERのベースライン性能32.1%に対して,WER全体の相対的改善4.7%となる。
文中CS文の場合,WERの相対改善率は4.8%であった。
我々の最高のパフォーマンスシステムはArzEnテストセット上で30.6%のWERを達成する。 Code-switching (CS), defined as the mixing of languages in conversations, has become a worldwide phenomenon. The prevalence of CS has been recently met with a growing demand and interest to build CS ASR systems. In this paper, we present our work on code-switched Egyptian Arabic-English automatic speech recognition (ASR). We first contribute in filling the huge gap in resources by collecting, analyzing and publishing our spontaneous CS Egyptian Arabic-English speech corpus. We build our ASR systems using DNN-based hybrid and Transformer-based end-to-end models. In this paper, we present a thorough comparison between both approaches under the setting of a low-resource, orthographically unstandardized, and morphologically rich language pair. We show that while both systems give comparable overall recognition results, each system provides complementary sets of strength points. We show that recognition can be improved by combining the outputs of both systems. We propose several effective system combination approaches, where hypotheses of both systems are merged on sentence- and word-levels. Our approaches result in overall WER relative improvement of 4.7%, over a baseline performance of 32.1% WER. In the case of intra-sentential CS sentences, we achieve WER relative improvement of 4.8%. Our best performing system achieves 30.6% WER on ArzEn test set. | 翻訳日:2021-09-01 01:23:49 公開日:2021-08-29 |
# (参考訳) リプシッツ連続性誘導知識蒸留 Lipschitz Continuity Guided Knowledge Distillation ( http://arxiv.org/abs/2108.12905v1 ) ライセンス: CC BY 4.0 | Yuzhang Shang, Bin Duan, Ziliang Zong, Liqiang Nie, Yan Yan | (参考訳) 知識蒸留は、より大きな教師ネットワークからより小さな生徒に知識を蒸留することで、最も重要なモデル圧縮技術の一つとなっている。
様々な種類の知識を繊細に設計することで、先行蒸留法によって大きな成功を収めてきたが、ニューラルネットワークの機能的特性を見落としており、これらの技術を新しいタスクに適用するプロセスは信頼できず、非自明である。
このような問題を緩和するため,本論文ではまず,リプシッツ連続性を利用してニューラルネットワークの機能特性を表現し,知識蒸留過程を導く。
特に,2つのニューラルネットワークのリプシッツ定数間の距離を最小化し,教師ネットワークによる学生ネットワークの正則化と対応性能の向上を実現することにより,知識を忠実に蒸留するための,新しいリプシッツ連続性知識蒸留フレームワークを提案する。
リプシッツ定数を計算するNP-hard問題に対処するために、明示的な理論的導出を伴う説明可能な近似アルゴリズムを導出する。
実験の結果,cifar-100,imagenet,pascal vocデータセットにおいて,複数の知識蒸留タスク(分類,セグメンテーション,オブジェクト検出など)に対して他のベンチマークを上回った。 Knowledge distillation has become one of the most important model compression techniques by distilling knowledge from larger teacher networks to smaller student ones. Although great success has been achieved by prior distillation methods via delicately designing various types of knowledge, they overlook the functional properties of neural networks, which makes the process of applying those techniques to new tasks unreliable and non-trivial. To alleviate such problem, in this paper, we initially leverage Lipschitz continuity to better represent the functional characteristic of neural networks and guide the knowledge distillation process. In particular, we propose a novel Lipschitz Continuity Guided Knowledge Distillation framework to faithfully distill knowledge by minimizing the distance between two neural networks' Lipschitz constants, which enables teacher networks to better regularize student networks and improve the corresponding performance. We derive an explainable approximation algorithm with an explicit theoretical derivation to address the NP-hard problem of calculating the Lipschitz constant. Experimental results have shown that our method outperforms other benchmarks over several knowledge distillation tasks (e.g., classification, segmentation and object detection) on CIFAR-100, ImageNet, and PASCAL VOC datasets. | 翻訳日:2021-09-01 00:33:41 公開日:2021-08-29 |
# (参考訳) KO符号:ディープラーニングによる信頼性の高い無線通信のための非線形エンコーディングとデコーディングの発明 KO codes: Inventing Nonlinear Encoding and Decoding for Reliable Wireless Communication via Deep-learning ( http://arxiv.org/abs/2108.12920v1 ) ライセンス: CC BY 4.0 | Ashok Vardhan Makkuva, Xiyang Liu, Mohammad Vahid Jamali, Hessam Mahdavifar, Sewoong Oh, Pramod Viswanath | (参考訳) ランドマークコードは、Reed-Muller、BCH、Convolution、Turbo、LDPC、Polarといった信頼性の高い物理層通信を支える。
これらのコードはそれぞれ、グローバルな無線通信標準(衛星、wi-fi、セルラー)で使われている。
古典的な付加的な白色ガウスノイズ(AWGN)チャネル上の通信の信頼性は、異なるコードのベンチマークとランキングを可能にする。
本稿では,ディープラーニング駆動型(エンコーダ,デコーダ)ペアの計算効率のよい KO コードを構築し,標準化された AWGN チャネルの信頼性性能を向上する。
ko符号は、awgnチャネル上では難易度の低い連続的なキャンセル復号の下で、最先端のreed-muller符号とpolar符号を打ち負かした。
我々は、KO符号の利得は、情報ビットの非線形マッピングにより、実シンボルを直接送信し(変調によって)、効率的で高性能なデコーダを持つことを示す。
これを可能にする重要な技術的革新は、 Reed-Muller と Polar code の中心となる {\bf K}ronecker {\bf O}peration (KO) の計算ツリーにインスパイアされた、新しいニューラルネットワークファミリーの設計である。
これらのアーキテクチャは、よりリッチなヒッヘルト非探索的な非線形代数構造の発見の道を開いた。
コードは \href{https://github.com/deepcomm/kocodes}{https://github.com/deepcomm/kocodes} で入手できる。 Landmark codes underpin reliable physical layer communication, e.g., Reed-Muller, BCH, Convolution, Turbo, LDPC and Polar codes: each is a linear code and represents a mathematical breakthrough. The impact on humanity is huge: each of these codes has been used in global wireless communication standards (satellite, WiFi, cellular). Reliability of communication over the classical additive white Gaussian noise (AWGN) channel enables benchmarking and ranking of the different codes. In this paper, we construct KO codes, a computationaly efficient family of deep-learning driven (encoder, decoder) pairs that outperform the state-of-the-art reliability performance on the standardized AWGN channel. KO codes beat state-of-the-art Reed-Muller and Polar codes, under the low-complexity successive cancellation decoding, in the challenging short-to-medium block length regime on the AWGN channel. We show that the gains of KO codes are primarily due to the nonlinear mapping of information bits directly to transmit real symbols (bypassing modulation) and yet possess an efficient, high performance decoder. The key technical innovation that renders this possible is design of a novel family of neural architectures inspired by the computation tree of the {\bf K}ronecker {\bf O}peration (KO) central to Reed-Muller and Polar codes. These architectures pave way for the discovery of a much richer class of hitherto unexplored nonlinear algebraic structures. The code is available at \href{https://github.com/deepcomm/KOcodes}{https://github.com/deepcomm/KOcodes} | 翻訳日:2021-09-01 00:19:00 公開日:2021-08-29 |
# (参考訳) 普遍依存における曖昧な固有構成 Mischievous Nominal Constructions in Universal Dependencies ( http://arxiv.org/abs/2108.12928v1 ) ライセンス: CC BY 4.0 | Nathan Schneider, Amir Zeldes | (参考訳) 高度に多言語なUniversal Dependencies (UD) プロジェクトは、クラウス構造と標準名詞句の構造に関する広範なガイドラインを提供しているが、標準的な治療は、モールドを壊す多くの「誤った」名目現象に欠けている。
その結果、コーパス内外の多くの矛盾が見られ、英語のような広範なud木バンク作業がある言語でも見られる。
本稿では,英語 UD コーパスで証明される難解な表現の種類を調査し,主に英語を念頭に置いて解を提案するが,多種多様な UD 言語に対する解への道筋を提供する可能性がある。 While the highly multilingual Universal Dependencies (UD) project provides extensive guidelines for clausal structure as well as structure within canonical nominal phrases, a standard treatment is lacking for many "mischievous" nominal phenomena that break the mold. As a result, numerous inconsistencies within and across corpora can be found, even in languages with extensive UD treebanking work, such as English. This paper surveys the kinds of mischievous nominal expressions attested in English UD corpora and proposes solutions primarily with English in mind, but which may offer paths to solutions for a variety of UD languages. | 翻訳日:2021-08-31 23:48:02 公開日:2021-08-29 |
# (参考訳) 畳み込みと高密度ニューラルネットワーク:建物形状に基づく運転エネルギー利用予測における2つのニューラルネットワーク性能の比較 Convolutional versus Dense Neural Networks: Comparing the Two Neural Networks Performance in Predicting Building Operational Energy Use Based on the Building Shape ( http://arxiv.org/abs/2108.12929v1 ) ライセンス: CC BY 4.0 | Farnaz Nazari and Wei Yan | (参考訳) 建物自己遮蔽形状は、建物が受ける直射日光量に実質的に影響し、材料や窓対壁比などの他の主要な寄与変数に加えて、運用エネルギー利用の構築に大きく寄与する。
Deep Learningは、エネルギーのパフォーマンスを効率的に予測することで、デザイナーやエンジニアを支援する可能性がある。
本稿では,DNN(Dense Neural Network, DNN)とCNN(Convolutional Neural Network, CNN)の2つの異なるニューラルネットワーク構造の適用性を評価する。
2つのニューラルネットワークの比較は、DNNモデルがCNNモデルを上回る性能、単純さ、計算時間を示している。
しかし、画像ベースのcnnはデザインコミュニケーションを容易にするアーキテクチャグラフィックスを利用する利点がある。 A building self-shading shape impacts substantially on the amount of direct sunlight received by the building and contributes significantly to building operational energy use, in addition to other major contributing variables, such as materials and window-to-wall ratios. Deep Learning has the potential to assist designers and engineers by efficiently predicting building energy performance. This paper assesses the applicability of two different neural networks structures, Dense Neural Network (DNN) and Convolutional Neural Network (CNN), for predicting building operational energy use with respect to building shape. The comparison between the two neural networks shows that the DNN model surpasses the CNN model in performance, simplicity, and computation time. However, image-based CNN has the benefit of utilizing architectural graphics that facilitates design communication. | 翻訳日:2021-08-31 23:31:16 公開日:2021-08-29 |
# ニュース記事における解釈可能なプロパガンダ検出 Interpretable Propaganda Detection in News Articles ( http://arxiv.org/abs/2108.12802v1 ) ライセンス: Link先を確認 | Seunghak Yu, Giovanni Da San Martino, Mitra Mohtarami, James Glass, Preslav Nakov | (参考訳) オンラインユーザーは毎日、誤解を招き、宣伝的なニュース記事やメディア投稿に晒されている。
これに対抗するために、より健全で安全なオンラインニュースやメディア消費を実現するために、多くのアプローチが設計されている。
自動システムは、人間がそのようなコンテンツを検出するのをサポートすることができるが、その広範な採用の大きな障害は、正確であることに加えて、ユーザーが信頼し広く採用するためには、そのシステムの決定も解釈可能である必要があることである。
誤解を招き,プロパガンダ的な内容が読者に影響を与えるため,解釈可能性を提供する手段として,このような手法を検知し,示すことを提案する。
特に,定性的記述的特徴を定式化し,その誤認検出の適性を分析した。
さらに,理解可能な機能を事前学習した言語モデルと組み合わせることで,最先端の成果が得られることを示す。 Online users today are exposed to misleading and propagandistic news articles and media posts on a daily basis. To counter thus, a number of approaches have been designed aiming to achieve a healthier and safer online news and media consumption. Automatic systems are able to support humans in detecting such content; yet, a major impediment to their broad adoption is that besides being accurate, the decisions of such systems need also to be interpretable in order to be trusted and widely adopted by users. Since misleading and propagandistic content influences readers through the use of a number of deception techniques, we propose to detect and to show the use of such techniques as a way to offer interpretability. In particular, we define qualitatively descriptive features and we analyze their suitability for detecting deception techniques. We further show that our interpretable features can be easily combined with pre-trained language models, yielding state-of-the-art results. | 翻訳日:2021-08-31 15:06:19 公開日:2021-08-29 |
# dropattack: ニューラルネットワークの一般化を改善するためのマスキングウェイト対向訓練法 DropAttack: A Masked Weight Adversarial Training Method to Improve Generalization of Neural Networks ( http://arxiv.org/abs/2108.12805v1 ) ライセンス: Link先を確認 | Shiwen Ni, Jiawen Li and Hung-Yu Kao | (参考訳) 敵対的訓練はモデルの一般化を改善する強力な正規化法であることが証明されている。
しかし、現在の敵の訓練方法は、元の入力サンプルまたは埋め込みベクターのみを攻撃し、それらの攻撃は範囲と多様性を欠いている。
攻撃の幅と深さをさらに高めるために,DropAttackと呼ばれる新しいマスク付き対向訓練法を提案し,各層が生成する対向リスクを最小化し,入力層と隠蔽層の両方に意図的に最悪の対向摂動を加えることにより,モデルの一般化を促進する。
DropAttackは一般的なテクニックであり、さまざまなアーキテクチャを持つさまざまなニューラルネットワークに適用することができる。
提案手法の有効性を検証するために,自然言語処理(NLP)とコンピュータビジョン(CV)の分野で5つの公開データセットを用いて実験を行った。
提案手法を他の逆訓練法や正規化法と比較し,全データセットの最先端化を実現する。
さらに、dropattackは、他の標準的なトレーニング方法と比較して、半分のトレーニングデータを使用する場合と同じパフォーマンスを達成できる。
理論的解析により、dropattackはモデルの入力パラメータとワイトパラメータのいくつかでランダムに勾配正規化を行うことができる。
さらなる可視化実験により、DropAttackはモデルの最小リスクを、より低く、より平坦なロスランドスケープに押し上げることができる。
ソースコードはhttps://github.com/nishiwen1214/DropAttack.comで公開されています。 Adversarial training has been proven to be a powerful regularization method to improve the generalization of models. However, current adversarial training methods only attack the original input sample or the embedding vectors, and their attacks lack coverage and diversity. To further enhance the breadth and depth of attack, we propose a novel masked weight adversarial training method called DropAttack, which enhances generalization of model by adding intentionally worst-case adversarial perturbations to both the input and hidden layers in different dimensions and minimize the adversarial risks generated by each layer. DropAttack is a general technique and can be adopt to a wide variety of neural networks with different architectures. To validate the effectiveness of the proposed method, we used five public datasets in the fields of natural language processing (NLP) and computer vision (CV) for experimental evaluating. We compare the proposed method with other adversarial training methods and regularization methods, and our method achieves state-of-the-art on all datasets. In addition, Dropattack can achieve the same performance when it use only a half training data compared to other standard training method. Theoretical analysis reveals that DropAttack can perform gradient regularization at random on some of the input and wight parameters of the model. Further visualization experiments show that DropAttack can push the minimum risk of the model to a lower and flatter loss landscapes. Our source code is publicly available on https://github.com/nishiwen1214/DropAttack. | 翻訳日:2021-08-31 15:06:03 公開日:2021-08-29 |
# クイズの解答候補生成と解答用質問生成装置 Generating Answer Candidates for Quizzes and Answer-Aware Question Generators ( http://arxiv.org/abs/2108.12898v1 ) ライセンス: Link先を確認 | Kristiyan Vachev, Momchil Hardalov, Georgi Karadzhov, Georgi Georgiev, Ivan Koychev, Preslav Nakov | (参考訳) 教育において,オープンエンドのクイズ質問は,学生の知識を評価する重要なツールとなっている。
しかし,このような質問を手作業で作成するのは面倒な作業であり,代替案として自動質問生成が提案されている。
これまでのところ、ほとんどの研究は質問テキストの生成に重点を置いており、簡単に選択された回答を持つ質問応答データセットに依存しており、そもそもどのように回答候補を思いつくかという問題は無視されている。
ここではこのギャップを埋めることを目指しています。
特に,テキストの任意の節に対して特定の数の回答候補を生成できるモデルを提案し,それをインストラクタが手作業で質問を書けるか,あるいは自動回答認識質問生成器への入力として渡すことができるかを提案する。
実験の結果,提案する回答候補生成モデルは,いくつかのベースラインよりも優れていた。 In education, open-ended quiz questions have become an important tool for assessing the knowledge of students. Yet, manually preparing such questions is a tedious task, and thus automatic question generation has been proposed as a possible alternative. So far, the vast majority of research has focused on generating the question text, relying on question answering datasets with readily picked answers, and the problem of how to come up with answer candidates in the first place has been largely ignored. Here, we aim to bridge this gap. In particular, we propose a model that can generate a specified number of answer candidates for a given passage of text, which can then be used by instructors to write questions manually or can be passed as an input to automatic answer-aware question generators. Our experiments show that our proposed answer candidate generation model outperforms several baselines. | 翻訳日:2021-08-31 15:03:15 公開日:2021-08-29 |
# 自然言語生成としてのイベント抽出 Event Extraction as Natural Language Generation ( http://arxiv.org/abs/2108.12724v1 ) ライセンス: Link先を確認 | I-Hung Hsu, Kuan-Hao Huang, Elizabeth Boschee, Scott Miller, Prem Natarajan, Kai-Wei Chang and Nanyun Peng | (参考訳) イベントトリガーとその引数をテキストで識別するタスクであるイベント抽出(EE)は通常、分類または構造化予測問題として定式化される。
このようなモデルは通常ラベルを数値識別子に還元し、ラベルのセマンティクス(例)を活用できない。
arrest というイベントタイプは arrest, detain, あるいは apprehend といった単語に関連している)。
これにより、新しいイベントタイプへの一般化が防止される。
この作業では、EEを自然言語生成タスクとして定式化し、イベント内の複雑な依存関係をキャプチャするだけでなく、目に見えないイベントタイプやまれなイベントタイプをうまく一般化するモデルであるGenEEを提案する。
節とイベントタイプが与えられると、geneeはそのイベントタイプに対して予め定義されたテンプレートに従って自然文を生成するように訓練される。
生成された出力はトリガーと引数の予測にデコードされる。
自己回帰生成プロセスは、予測間の依存関係を自然にモデル化します。
生成中に慎重に設計された入力プロンプトを使用して、GenEEは新しいイベントタイプへの一般化を可能にするラベルセマンティクスをキャプチャすることができる。
その結果,ゼロショット,少数ショット,高リソースのすべてのシナリオにおいて,イベント抽出タスクにおいて強い性能が得られることがわかった。
特に、高リソース環境では、GenEEは引数抽出の最先端モデルよりも優れており、エンドツーエンドのEEタスクで現在最高の結果を得ることができます。 Event extraction (EE), the task that identifies event triggers and their arguments in text, is usually formulated as a classification or structured prediction problem. Such models usually reduce labels to numeric identifiers, making them unable to take advantage of label semantics (e.g. an event type named Arrest is related to words like arrest, detain, or apprehend). This prevents the generalization to new event types. In this work, we formulate EE as a natural language generation task and propose GenEE, a model that not only captures complex dependencies within an event but also generalizes well to unseen or rare event types. Given a passage and an event type, GenEE is trained to generate a natural sentence following a predefined template for that event type. The generated output is then decoded into trigger and argument predictions. The autoregressive generation process naturally models the dependencies among the predictions -- each new word predicted depends on those already generated in the output sentence. Using carefully designed input prompts during generation, GenEE is able to capture label semantics, which enables the generalization to new event types. Empirical results show that our model achieves strong performance on event extraction tasks under all zero-shot, few-shot, and high-resource scenarios. Especially, in the high-resource setting, GenEE outperforms the state-of-the-art model on argument extraction and gets competitive results with the current best on end-to-end EE tasks. | 翻訳日:2021-08-31 15:01:46 公開日:2021-08-29 |
# マルチモーダル知識表現を用いたきめ細かい化学実体型付け Fine-Grained Chemical Entity Typing with Multimodal Knowledge Representation ( http://arxiv.org/abs/2108.12899v1 ) ライセンス: Link先を確認 | Chenkai Sun, Weijiang Li, Jinfeng Xiao, Nikolaus Nova Parulian, ChengXiang Zhai, Heng Ji | (参考訳) より効率的な生物医学研究には、トレンド化学文献からの知識の自動発見が不可欠である。
核化学文献から化学反応に関する詳細な知識を抽出する方法は、まだ十分に研究されていない新しい課題である。
本稿では,化学文献や図形表現において頻繁に発生する複雑な名前から,特に興味深い新たな課題を提起する,細粒度の化学実体型付けの新たな問題について考察する。
本稿では,新しい課題の研究を容易にするための新しいベンチマークデータセット(chemet)を導入し,外部資源を化学構造に活用し,クロスモーダル注意を活用して化学領域におけるテキストの効果的な表現を学ぶことにより,きめ細かな化学実体型付け問題を解決するための新しいマルチモーダル表現学習フレームワークを提案する。
実験の結果,提案手法は複数の最先端手法よりも優れていた。 Automated knowledge discovery from trending chemical literature is essential for more efficient biomedical research. How to extract detailed knowledge about chemical reactions from the core chemistry literature is a new emerging challenge that has not been well studied. In this paper, we study the new problem of fine-grained chemical entity typing, which poses interesting new challenges especially because of the complex name mentions frequently occurring in chemistry literature and graphic representation of entities. We introduce a new benchmark data set (CHEMET) to facilitate the study of the new task and propose a novel multi-modal representation learning framework to solve the problem of fine-grained chemical entity typing by leveraging external resources with chemical structures and using cross-modal attention to learn effective representation of text in the chemistry domain. Experiment results show that the proposed framework outperforms multiple state-of-the-art methods. | 翻訳日:2021-08-31 14:58:03 公開日:2021-08-29 |
# CrossedWires: シンタクティックに等価だがセマンティックに異なるディープラーニングモデルのデータセット CrossedWires: A Dataset of Syntactically Equivalent but Semantically Disparate Deep Learning Models ( http://arxiv.org/abs/2108.12768v1 ) ライセンス: Link先を確認 | Max Zvyagin, Thomas Brettin, Arvind Ramanathan, Sumit Kumar Jha | (参考訳) 異なるディープラーニングフレームワークを用いたニューラルネットワークのトレーニングは、同じニューラルネットワークアーキテクチャと、学習速度や最適化アルゴリズムの選択といった同じトレーニングハイパーパラメータを使用しても、精度レベルが大幅に異なる可能性がある。
現在、標準化されたディープラーニングモデルを構築する能力は、ニューラルネットワークスイートと、既存のディープラーニングフレームワークの違いを公開するトレーニングハイパーパラメータベンチマークの可用性によって制限されています。
本稿では,pytorchとtensorflowという2つの一般的なディープラーニングフレームワーク間の意味的差異を明らかにするcrosswiresと呼ばれる,モデルとハイパーパラメータの生きたデータセットを提案する。
CrossedWiresデータセットは現在、3つの異なるコンピュータビジョンアーキテクチャ(VGG16、ResNet50、DenseNet121)を使用してCIFAR10イメージでトレーニングされたモデルで構成されている。
ハイパーパラメータ最適化を用いて, ハイパースペース探索アルゴリズムによって提案される400組のハイパーパラメータを用いて, 3モデルそれぞれを訓練した。
crosswiresデータセットにはpytorchとtensforflowモデルが含まれており、構文的に等価なモデルと同一のハイパーパラメータの選択で0.681と異なる。
ここで提示された340GBのデータセットとベンチマークには、パフォーマンス統計、トレーニング曲線、1200のハイパーパラメータ選択すべてに対するモデルウェイトが含まれている。
CrossedWiresデータセットは、一般的なディープラーニングフレームワーク間の構文的に等価なモデル間のセマンティックな差異を研究する機会を提供する。
さらに,本研究から得られた知見は,ディープラーニングフレームワークの信頼性と再現性を向上させるアルゴリズムやツールの開発を可能にする。
データセットはPython APIと直接ダウンロードリンクを通じてhttps://github.com/maxzvyagin/crossedwiresで無償公開されている。 The training of neural networks using different deep learning frameworks may lead to drastically differing accuracy levels despite the use of the same neural network architecture and identical training hyperparameters such as learning rate and choice of optimization algorithms. Currently, our ability to build standardized deep learning models is limited by the availability of a suite of neural network and corresponding training hyperparameter benchmarks that expose differences between existing deep learning frameworks. In this paper, we present a living dataset of models and hyperparameters, called CrossedWires, that exposes semantic differences between two popular deep learning frameworks: PyTorch and Tensorflow. The CrossedWires dataset currently consists of models trained on CIFAR10 images using three different computer vision architectures: VGG16, ResNet50 and DenseNet121 across a large hyperparameter space. Using hyperparameter optimization, each of the three models was trained on 400 sets of hyperparameters suggested by the HyperSpace search algorithm. The CrossedWires dataset includes PyTorch and Tensforflow models with test accuracies as different as 0.681 on syntactically equivalent models and identical hyperparameter choices. The 340 GB dataset and benchmarks presented here include the performance statistics, training curves, and model weights for all 1200 hyperparameter choices, resulting in 2400 total models. The CrossedWires dataset provides an opportunity to study semantic differences between syntactically equivalent models across popular deep learning frameworks. Further, the insights obtained from this study can enable the development of algorithms and tools that improve reliability and reproducibility of deep learning frameworks. The dataset is freely available at https://github.com/maxzvyagin/crossedwires through a Python API and direct download link. | 翻訳日:2021-08-31 14:55:02 公開日:2021-08-29 |
# ドメインアライメントのない部分ドメイン適応 Partial Domain Adaptation without Domain Alignment ( http://arxiv.org/abs/2108.12867v1 ) ライセンス: Link先を確認 | Weikai Li and Songcan Chen | (参考訳) unsupervised domain adaptation (uda) は、十分にラベル付けされたソースドメインから、同じラベル空間を持つ異なるが関連していないターゲットドメインへ知識を転送することを目的としている。
現在、UDAを解決するための主要な作業はドメインアライメントであり、成功している。
しかし、同じラベル空間を持つ適切なソースドメインを見つけることはしばしば困難である。
より現実的なシナリオは、ソースラベルセットまたは空間が対象のドメインを仮定するいわゆる部分的ドメイン適応(PDA)である。
残念なことに、pdaでは、ソースドメインに無関係なカテゴリが存在するため、完全なアライメントを得るのは非常に困難であり、モードの崩壊と負の転送をもたらす。
無関係なソースカテゴリを下げることによって、いくつかの取り組みがなされてきたが、使用する戦略は、無関係なカテゴリが正確に不明であるため、重荷になり、危険が伴う傾向がある。
これらの課題は、PDAを解決するための比較的単純な選択肢を見つける動機となります。
そこで本研究ではまず,モデルの滑らかさとドメイン間の相違によって対象のリスクが拘束されることを示す。
PDAの解決における完全整合性の難しさを考慮すると、モデルの適用性を高めるためにリスクの高いドメインアライメントを捨てながら、モデルの滑らかさに焦点をあてる。
具体的には、モデルスムーズさを非常に単純なドメイン内構造保存(IDSP)としてインスタンス化する。
私たちの知る限りでは、ドメインのアライメントなしにPDAに対処しようとする最初の素直な試みである。
最後に、複数のベンチマークデータセットに対する実験結果から、IDSPはPDA SOTAよりも有意差(Cl->Rwでは+10%、Ar->Rwでは+8%)で優れているだけでなく、標準UDAにおけるドメインアライメントと相補的であることが示された。 Unsupervised domain adaptation (UDA) aims to transfer knowledge from a well-labeled source domain to a different but related unlabeled target domain with identical label space. Currently, the main workhorse for solving UDA is domain alignment, which has proven successful. However, it is often difficult to find an appropriate source domain with identical label space. A more practical scenario is so-called partial domain adaptation (PDA) in which the source label set or space subsumes the target one. Unfortunately, in PDA, due to the existence of the irrelevant categories in the source domain, it is quite hard to obtain a perfect alignment, thus resulting in mode collapse and negative transfer. Although several efforts have been made by down-weighting the irrelevant source categories, the strategies used tend to be burdensome and risky since exactly which irrelevant categories are unknown. These challenges motivate us to find a relatively simpler alternative to solve PDA. To achieve this, we first provide a thorough theoretical analysis, which illustrates that the target risk is bounded by both model smoothness and between-domain discrepancy. Considering the difficulty of perfect alignment in solving PDA, we turn to focus on the model smoothness while discard the riskier domain alignment to enhance the adaptability of the model. Specifically, we instantiate the model smoothness as a quite simple intra-domain structure preserving (IDSP). To our best knowledge, this is the first naive attempt to address the PDA without domain alignment. Finally, our empirical results on multiple benchmark datasets demonstrate that IDSP is not only superior to the PDA SOTAs by a significant margin on some benchmarks (e.g., +10% on Cl->Rw and +8% on Ar->Rw ), but also complementary to domain alignment in the standard UDA | 翻訳日:2021-08-31 14:54:35 公開日:2021-08-29 |
# openai gymにおけるフォトニック量子政策学習 Photonic Quantum Policy Learning in OpenAI Gym ( http://arxiv.org/abs/2108.12926v1 ) ライセンス: Link先を確認 | D\'aniel Nagy and Zsolt Tabi and P\'eter H\'aga and Zs\'ofia Kallus and Zolt\'an Zimbor\'as | (参考訳) 近年,近時雑音型中間スケール量子(NISQ)コンピューティングデバイスが利用可能になっている。
NISQ量子コンピュータのプロトタイプを利用する最も有望な応用分野の1つは量子機械学習である。
量子ニューラルネットワークは教師付き学習のために広く研究されているが、量子強化学習はこの領域の新たな分野である。
古典的連続制御問題を解決するために、連続可変量子機械学習アプローチを用いる。
フォトニック変量量子エージェントの近似ポリシ最適化を導入し、データ再アップロードの効果について検討する。
本稿では,イチゴ畑,フォトニックシミュレータフォックバックエンド,およびopenaiジム環境とtensorflowとを結合したハイブリッドトレーニングフレームワークを用いた実証実験による性能評価を行う。
制限されたCartPole問題に対して、フォトニックポリシー学習の2つのバリエーションは、同じ数のトレーニング可能なパラメータを持つベースラインの古典的ニューラルネットワークよりも同等のパフォーマンスレベルと高速な収束を達成する。 In recent years, near-term noisy intermediate scale quantum (NISQ) computing devices have become available. One of the most promising application areas to leverage such NISQ quantum computer prototypes is quantum machine learning. While quantum neural networks are widely studied for supervised learning, quantum reinforcement learning is still just an emerging field of this area. To solve a classical continuous control problem, we use a continuous-variable quantum machine learning approach. We introduce proximal policy optimization for photonic variational quantum agents and also study the effect of the data re-uploading. We present performance assessment via empirical study using Strawberry Fields, a photonic simulator Fock backend and a hybrid training framework connected to an OpenAI Gym environment and TensorFlow. For the restricted CartPole problem, the two variations of the photonic policy learning achieve comparable performance levels and a faster convergence than the baseline classical neural network of same number of trainable parameters. | 翻訳日:2021-08-31 14:52:33 公開日:2021-08-29 |
# MEDIC:災害画像分類のためのマルチタスク学習データセット MEDIC: A Multi-Task Learning Dataset for Disaster Image Classification ( http://arxiv.org/abs/2108.12828v1 ) ライセンス: Link先を確認 | Firoj Alam, Tanvirul Alam, Md. Arid Hasan, Abul Hasnat, Muhammad Imran, Ferda Ofli | (参考訳) 最近の災害情報学研究は、ソーシャルメディア(テキストと画像)に基づく自然災害時の人命と苦しみを救える人工知能の実用的かつ重要なユースケースを示している。
テキストによる顕著な進歩はあったが、画像の活用に関する研究はいまだに未発見のままである。
MEDIC(https://crisisnlp.qcri.org/medic/index.html)は、71,198個の画像からなる人道的応答のソーシャルメディア画像分類データセットであり、マルチタスク学習環境における4つのタスクに対処する。
この種のデータセットは、ソーシャルメディアイメージ、災害対応、マルチタスク学習研究などだ。
このデータセットの重要な特性は、最近機械学習コミュニティから多くの関心を集め、メモリ、推論速度、パフォーマンス、一般化能力の点で顕著な結果を示したマルチタスク学習の研究に貢献する可能性が高いことである。
そこで,提案するデータセットは,画像に基づく災害管理とマルチタスク機械学習研究を進める上で重要な資源である。 Recent research in disaster informatics demonstrates a practical and important use case of artificial intelligence to save human lives and sufferings during post-natural disasters based on social media contents (text and images). While notable progress has been made using texts, research on exploiting the images remains relatively under-explored. To advance the image-based approach, we propose MEDIC (available at: https://crisisnlp.qcri.org/medic/index.html), which is the largest social media image classification dataset for humanitarian response consisting of 71,198 images to address four different tasks in a multi-task learning setup. This is the first dataset of its kind: social media image, disaster response, and multi-task learning research. An important property of this dataset is its high potential to contribute research on multi-task learning, which recently receives much interest from the machine learning community and has shown remarkable results in terms of memory, inference speed, performance, and generalization capability. Therefore, the proposed dataset is an important resource for advancing image-based disaster management and multi-task machine learning research. | 翻訳日:2021-08-31 14:51:45 公開日:2021-08-29 |
# 効果的なディフェンダーの探索: 敵語置換に対する防御のベンチマーク Searching for an Effective Defender: Benchmarking Defense against Adversarial Word Substitution ( http://arxiv.org/abs/2108.12777v1 ) ライセンス: Link先を確認 | Zongyi Li, Jianhan Xu, Jiehang Zeng, Linyang Li, Xiaoqing Zheng, Qi Zhang, Kai-Wei Chang, Cho-Jui Hsieh | (参考訳) 近年の研究では、ディープニューラルネットワークは意図的に構築された敵の例に弱いことが示されており、ニューラルNLPモデルに対する敵の単語置換攻撃を防御する様々な方法が提案されている。
しかし、同じ攻撃条件下で異なる防御アプローチを比較する体系的な研究が欠如している。
本稿では,様々な防御手法によって訓練されたニューラルネットワーク分類器の行動を理解するための包括的研究を通じて,システム研究のギャップを埋めることを目的とする。
さらに,このような攻撃に対するニューラルネットワーク分類器の堅牢性をさらに向上する有効な手法を提案し,AGNEWS と IMDB データセットのクリーン例と逆例の両方において高い精度を実現した。 Recent studies have shown that deep neural networks are vulnerable to intentionally crafted adversarial examples, and various methods have been proposed to defend against adversarial word-substitution attacks for neural NLP models. However, there is a lack of systematic study on comparing different defense approaches under the same attacking setting. In this paper, we seek to fill the gap of systematic studies through comprehensive researches on understanding the behavior of neural text classifiers trained by various defense methods under representative adversarial attacks. In addition, we propose an effective method to further improve the robustness of neural text classifiers against such attacks and achieved the highest accuracy on both clean and adversarial examples on AGNEWS and IMDB datasets by a significant margin. | 翻訳日:2021-08-31 14:49:13 公開日:2021-08-29 |
# 感性を有するトピックの抽出・抽象文ラベリング Extractive and Abstractive Sentence Labelling of Sentiment-bearing Topics ( http://arxiv.org/abs/2108.12822v1 ) ライセンス: Link先を確認 | Mohamad Hardyman Barawi, Chenghua Lin, Advaith Siddharthan, Yinbin Liu | (参考訳) 本稿では,感情を有する話題を記述文ラベルで自動ラベリングする問題に取り組む。
この問題に対して,抽出法と抽象法という2つのアプローチを提案する。
どちらのアプローチも、そのコーパスから抽出された感情を持つトピックに対するコーパスの各文の関連性を自動的に学習する新しいメカニズムに依存している。
抽出手法はラベル選択に文ランキングアルゴリズムを用いており、このアルゴリズムは初めて話題の関連性やアスペクト感の共被覆を最適化する。
抽象的アプローチは、複数の文から関連するコンテンツを含むセンテンシャルラベルを生成するために、文融合を用いてアスペクト強調共被覆に対処する。
私たちの知識では、感情を持つトピックをラベル付けする問題を最初に研究しました。
実世界の3つのデータセットに対する実験結果から,抽出的アプローチと抽象的アプローチの両者が,トピック理解と解釈を容易にするという点で,4つの強いベースラインを上回ります。
また,抽出ラベルと抽象ラベルを比較する場合,提案手法は,抽出ラベルよりも少ない文法ラベルを生成するコストで,より少ない単語でより多くの話題情報をカバーできることを示す。
要約的手法は感情を有する話題に含まれるリッチな情報を効果的に合成できると結論づける。 This paper tackles the problem of automatically labelling sentiment-bearing topics with descriptive sentence labels. We propose two approaches to the problem, one extractive and the other abstractive. Both approaches rely on a novel mechanism to automatically learn the relevance of each sentence in a corpus to sentiment-bearing topics extracted from that corpus. The extractive approach uses a sentence ranking algorithm for label selection which for the first time jointly optimises topic--sentence relevance as well as aspect--sentiment co-coverage. The abstractive approach instead addresses aspect--sentiment co-coverage by using sentence fusion to generate a sentential label that includes relevant content from multiple sentences. To our knowledge, we are the first to study the problem of labelling sentiment-bearing topics. Our experimental results on three real-world datasets show that both the extractive and abstractive approaches outperform four strong baselines in terms of facilitating topic understanding and interpretation. In addition, when comparing extractive and abstractive labels, our evaluation shows that our best performing abstractive method is able to provide more topic information coverage in fewer words, at the cost of generating less grammatical labels than the extractive method. We conclude that abstractive methods can effectively synthesise the rich information contained in sentiment-bearing topics. | 翻訳日:2021-08-31 14:48:58 公開日:2021-08-29 |
# 舞台裏--Few-Shotイベント分類におけるトリガーバイアス問題の探索 Behind the Scenes: An Exploration of Trigger Biases Problem in Few-Shot Event Classification ( http://arxiv.org/abs/2108.12844v1 ) ライセンス: Link先を確認 | Peiyi Wang, Runxin Xu, Tianyu Liu, Damai Dai, Baobao Chang, and Zhifang Sui | (参考訳) FSEC(Few-Shot Event Classification)は、アノテーション付きデータに制限のある新しいイベントタイプに一般化可能な、イベント予測モデルの開発を目指している。
既存のFSECの研究は、異なるベンチマークで高い精度を達成した。
しかし、いくつかのトリガーワードとターゲットイベントタイプの間の統計的均質性を示すトリガーバイアスに苦しむことがわかり、トリガーオーバーラップとトリガー分離性としてまとめる。
バイアスは、コンテキストバイパスの問題、すなわち、すべてのコンテキストを無視しながらトリガーワードのみを見ることによって正しい分類を得ることができる。
したがって、既存のモデルは、実際のシナリオで見えないデータを一般化するのに弱い可能性がある。
さらにトリガバイアスを明らかにし,モデルの一般化能力を評価するために,評価中のメタタスク構築のための2つの新しいサンプリング手法,Trigger-Uniform Smpling (TUS) とConfusion Smpling (COS) を提案する。
さらに,fsecモデルにおける文脈横断問題に対処するために,逆訓練とトリガ再構成手法を導入する。
実験によると、これらの手法は性能を向上させるだけでなく、モデルの一般化能力を高めるのに役立つ。 Few-Shot Event Classification (FSEC) aims at developing a model for event prediction, which can generalize to new event types with a limited number of annotated data. Existing FSEC studies have achieved high accuracy on different benchmarks. However, we find they suffer from trigger biases that signify the statistical homogeneity between some trigger words and target event types, which we summarize as trigger overlapping and trigger separability. The biases can result in context-bypassing problem, i.e., correct classifications can be gained by looking at only the trigger words while ignoring the entire context. Therefore, existing models can be weak in generalizing to unseen data in real scenarios. To further uncover the trigger biases and assess the generalization ability of the models, we propose two new sampling methods, Trigger-Uniform Sampling (TUS) and COnfusion Sampling (COS), for the meta tasks construction during evaluation. Besides, to cope with the context-bypassing problem in FSEC models, we introduce adversarial training and trigger reconstruction techniques. Experiments show these techniques help not only improve the performance, but also enhance the generalization ability of models. | 翻訳日:2021-08-31 14:48:38 公開日:2021-08-29 |
# 長期視覚認識のためのクラスアクティベーションマップの校正 Calibrating Class Activation Maps for Long-Tailed Visual Recognition ( http://arxiv.org/abs/2108.12757v1 ) ライセンス: Link先を確認 | Chi Zhang, Guosheng Lin, Lvlong Lai, Henghui Ding, Qingyao Wu | (参考訳) 現実世界の視覚認識問題は、異なるカテゴリで学習するためのデータ量が大きな不均衡を示すロングテール分布を示すことが多い。
このようなデータ分布で学習された標準分類モデルは、しばしば尾のクラスを一般化しながら、ヘッドクラスに対してバイアスのある予測を行う。
本稿では,cnnの2つの効果的な修正を行い,ロングテール分布からのネットワーク学習を改善する。
まず,重要画像領域に基づくネットワーク予測を強制することにより,ネットワーク分類器の学習と予測を改善するためのクラスアクティベーションマップキャリブレーション(camc)モジュールを提案する。
提案するCAMCモジュールは,データ間の相関画像領域を強調表示し,これらの領域の表現を強化し,よりグローバルな分類表現を得る。
さらに,長期化問題における表現学習における正規化分類器の利用について検討した。
実験により, 適切なスカラーで分類器の出力をスケールすることで, ヘッドクラスの精度を損なうことなく, テールクラスの分類精度を効果的に向上できることを示した。
我々は,この設計の有効性を検証するための広範な実験を行い,ImageNet-LT, Places-LT, iNaturalist 2018, CIFAR10-LT, CIFAR100-LTの5つのベンチマークに対して,新しい最先端性能を設定した。 Real-world visual recognition problems often exhibit long-tailed distributions, where the amount of data for learning in different categories shows significant imbalance. Standard classification models learned on such data distribution often make biased predictions towards the head classes while generalizing poorly to the tail classes. In this paper, we present two effective modifications of CNNs to improve network learning from long-tailed distribution. First, we present a Class Activation Map Calibration (CAMC) module to improve the learning and prediction of network classifiers, by enforcing network prediction based on important image regions. The proposed CAMC module highlights the correlated image regions across data and reinforces the representations in these areas to obtain a better global representation for classification. Furthermore, we investigate the use of normalized classifiers for representation learning in long-tailed problems. Our empirical study demonstrates that by simply scaling the outputs of the classifier with an appropriate scalar, we can effectively improve the classification accuracy on tail classes without losing the accuracy of head classes. We conduct extensive experiments to validate the effectiveness of our design and we set new state-of-the-art performance on five benchmarks, including ImageNet-LT, Places-LT, iNaturalist 2018, CIFAR10-LT, and CIFAR100-LT. | 翻訳日:2021-08-31 14:41:42 公開日:2021-08-29 |
# 点クラウドに基づく大規模位置認識のための注意回転不変畳み込み Attentive Rotation Invariant Convolution for Point Cloud-based Large Scale Place Recognition ( http://arxiv.org/abs/2108.12790v1 ) ライセンス: Link先を確認 | Zhaoxin Fan, Zhenbo Song, Wenping Zhang, Hongyan Liu, Jun He, and Xiaoyong Du | (参考訳) 自動運転と同時ローカライゼーションとマッピング(slam)は、ポイントクラウドベースの大規模位置認識が彼らのスパイクである実世界でますます重要になっている。
従来の位置認識手法は,ポイントクラウド検索問題としてタスクを考慮し,許容可能な性能を実現している。
しかし、それらはすべて共通の欠陥に悩まされており、ポイント・クラウドが回転している場合、例えば視点やオートバイのタイプが変更された場合など、状況に対処できない。
この問題に対処するため,本論文では,注意回転不変変換(ARIConv)を提案する。
ARIConvは3種類の回転不変特徴 (RIF) を採用している: Spherical Signals (SS)、Personal-Local Rotation Invariant Features (ILRIF)、Group-Local Rotation Invariant Feature (GLRIF) である。
さらに、重要なRIFを強調するために、ARIConvに注意深いモジュールを注入して、カーネルを学ぶ際に異なる重要度を提供する。
最後に、ARIConvを利用してDenseNetのようなネットワークアーキテクチャを構築し、回転不感なグローバルディスクリプタを学習する。
実験により,本モデルは,ポイントクラウドスキャンを回転させた場合,大規模位置認識タスクにおいて最先端の性能を達成でき,元の非回転データセット上の既存の手法と同等の結果が得られることを実証した。 Autonomous Driving and Simultaneous Localization and Mapping(SLAM) are becoming increasingly important in real world, where point cloud-based large scale place recognition is the spike of them. Previous place recognition methods have achieved acceptable performances by regarding the task as a point cloud retrieval problem. However, all of them are suffered from a common defect: they can't handle the situation when the point clouds are rotated, which is common, e.g, when viewpoints or motorcycle types are changed. To tackle this issue, we propose an Attentive Rotation Invariant Convolution (ARIConv) in this paper. The ARIConv adopts three kind of Rotation Invariant Features (RIFs): Spherical Signals (SS), Individual-Local Rotation Invariant Features (ILRIF) and Group-Local Rotation Invariant features (GLRIF) in its structure to learn rotation invariant convolutional kernels, which are robust for learning rotation invariant point cloud features. What's more, to highlight pivotal RIFs, we inject an attentive module in ARIConv to give different RIFs different importance when learning kernels. Finally, utilizing ARIConv, we build a DenseNet-like network architecture to learn rotation-insensitive global descriptors used for retrieving. We experimentally demonstrate that our model can achieve state-of-the-art performance on large scale place recognition task when the point cloud scans are rotated and can achieve comparable results with most of existing methods on the original non-rotated datasets. | 翻訳日:2021-08-31 14:41:21 公開日:2021-08-29 |
# 階層型エージェントを用いた分散オートフォーカスシステム Decentralized Autofocusing System with Hierarchical Agents ( http://arxiv.org/abs/2108.12842v1 ) ライセンス: Link先を確認 | Anna Anikina, Oleg Y. Rogov and Dmitry V. Dylov | (参考訳) 最先端のオブジェクト検出モデルは、ImageNetのような利用可能なデータセットを使用して、頻繁にオフラインでトレーニングされる。
このような訓練は、照明の変化、環境条件(雨など)、レンズ位置決め(焦点外ぼけなど)が生じた場合、物体検出性能を低下させる。
本稿では,カメラとレンズ焦点設定をインテリジェントに制御するための分散階層型多エージェント深層強化学習手法を提案し,一般的な検出モデル(yolo,fast r-cnn,retinaが検討されている)の能力を大幅に向上させる。
このアルゴリズムは、カメラのストリームの潜在表現に依存しており、システム自身がオートフォーカス自体を訓練する、カメラの完全に非参照チューニングを可能にする最初の方法である。 State-of-the-art object detection models are frequently trained offline using available datasets, such as ImageNet: large and overly diverse data that are unbalanced and hard to cluster semantically. This kind of training drops the object detection performance should the change in illumination, in the environmental conditions (e.g., rain), or in the lens positioning (out-of-focus blur) occur. We propose a decentralized hierarchical multi-agent deep reinforcement learning approach for intelligently controlling the camera and the lens focusing settings, leading to significant improvement to the capacity of the popular detection models (YOLO, Fast R-CNN, and Retina are considered). The algorithm relies on the latent representation of the camera's stream and, thus, it is the first method to allow a completely no-reference tuning of the camera, where the system trains itself to auto-focus itself. | 翻訳日:2021-08-31 14:40:51 公開日:2021-08-29 |
# 二重プール生成逆数ネットワークを用いたレイアウト・画像変換 Layout-to-Image Translation with Double Pooling Generative Adversarial Networks ( http://arxiv.org/abs/2108.12900v1 ) ライセンス: Link先を確認 | Hao Tang, Nicu Sebe | (参考訳) 本稿では,入力セマンティックレイアウトをリアルな画像に変換することを目的としたレイアウト・ツー・イメージ翻訳の課題に対処する。
既存の手法で広く見られるオープンな課題は、画像翻訳プロセス中に効果的な意味的制約が欠如していることであり、意味的情報を保存できず、同じオブジェクト内の意味的依存関係を無視するモデルに繋がる。
この問題に対処するために、入力レイアウトからフォトリアリスティックでセマンティックに一貫性のある結果を生成するための新しいDouble Pooing GAN(DPGAN)を提案する。
また,角形プールモジュール (SPM) と矩形プールモジュール (RPM) からなる新しい二重プールモジュール (DPM) を提案する。
具体的には、SPMは入力レイアウトの短い範囲のセマンティック依存関係を異なる空間スケールでキャプチャすることを目的としており、RPMは水平方向と垂直方向の両方から長距離のセマンティック依存関係をキャプチャすることを目的としている。
次に、SPMとRPMの両方の出力を効果的に融合させて、ジェネレータの受容場をさらに拡大する。
5つの一般的なデータセットに対する大規模な実験により、提案したDPGANは最先端の手法よりも優れた結果が得られることが示された。
最後に、spmとspmの両方が一般的であり、機能表現を強化するために任意のganベースのアーキテクチャにシームレスに統合することができる。
コードはhttps://github.com/Ha0Tang/DPGANで公開されている。 In this paper, we address the task of layout-to-image translation, which aims to translate an input semantic layout to a realistic image. One open challenge widely observed in existing methods is the lack of effective semantic constraints during the image translation process, leading to models that cannot preserve the semantic information and ignore the semantic dependencies within the same object. To address this issue, we propose a novel Double Pooing GAN (DPGAN) for generating photo-realistic and semantically-consistent results from the input layout. We also propose a novel Double Pooling Module (DPM), which consists of the Square-shape Pooling Module (SPM) and the Rectangle-shape Pooling Module (RPM). Specifically, SPM aims to capture short-range semantic dependencies of the input layout with different spatial scales, while RPM aims to capture long-range semantic dependencies from both horizontal and vertical directions. We then effectively fuse both outputs of SPM and RPM to further enlarge the receptive field of our generator. Extensive experiments on five popular datasets show that the proposed DPGAN achieves better results than state-of-the-art methods. Finally, both SPM and SPM are general and can be seamlessly integrated into any GAN-based architectures to strengthen the feature representation. The code is available at https://github.com/Ha0Tang/DPGAN. | 翻訳日:2021-08-31 14:40:37 公開日:2021-08-29 |
# ニューロカルトグラフィー:ディープニューラルネットワークにおける概念のスケーラブルな自動ビジュアル要約 NeuroCartography: Scalable Automatic Visual Summarization of Concepts in Deep Neural Networks ( http://arxiv.org/abs/2108.12931v1 ) ライセンス: Link先を確認 | Haekyu Park, Nilaksh Das, Rahul Duggal, Austin P. Wright, Omar Shaikh, Fred Hohman, Duen Horng Chau | (参考訳) 深層ニューラルネットワークの理解に関する既存の研究は、しばしばニューロンレベルの解釈に焦点を当てている。
ニューロカルトグラフィー(neurocartography)は,ニューラルネットワークによって学習された概念をスカラブルに要約し,可視化する対話型システムである。
同じ概念を検出するニューロンを自動で見つけてグループ化し、そのようなニューロン群がどのように相互作用してハイレベルな概念とその後の予測を形成するかを記述する。
ニューロカルトグラフィーは、(1)神経細胞によって検出された概念のセマンティックな類似性に基づくニューロン群(例えば、異なる品種の「犬の顔」を検出するニューロンがグループ化される)、(2)ニューロンの埋め込みは、共起頻度に基づいて関連する概念間の関連を符号化する(例えば、「犬の顔」を検知するニューロンと「犬の尾」を埋め込む)。
スケーラブルな手法の鍵は、二次時間の代わりにニューロンの数に線形な時間で、すべてのニューロン対の関係を効率的に計算できることです。
NeuroCartographyは、1.2MイメージのImageNetデータセットなど、大規模なデータにスケールする。
システムの緊密に協調されたビューは、スケーラブルなテクニックを統合して概念とその関係を視覚化し、概念関連をニューロン投影ビューの2次元空間に投影し、ニューロンクラスタとその関係をグラフビューで要約する。
大規模人間の評価を通して、この手法は、コヒーレントで人間を意味する概念を表現するニューロン群を発見できることを実証する。
そして、利用シナリオを通じて、私たちのアプローチが、関連する概念や孤立した概念のカスケードなど、興味深い、驚くべき発見を可能にする方法を説明します。
neurocartography visualizationは、現代のブラウザで動作し、オープンソースである。 Existing research on making sense of deep neural networks often focuses on neuron-level interpretation, which may not adequately capture the bigger picture of how concepts are collectively encoded by multiple neurons. We present NeuroCartography, an interactive system that scalably summarizes and visualizes concepts learned by neural networks. It automatically discovers and groups neurons that detect the same concepts, and describes how such neuron groups interact to form higher-level concepts and the subsequent predictions. NeuroCartography introduces two scalable summarization techniques: (1) neuron clustering groups neurons based on the semantic similarity of the concepts detected by neurons (e.g., neurons detecting "dog faces" of different breeds are grouped); and (2) neuron embedding encodes the associations between related concepts based on how often they co-occur (e.g., neurons detecting "dog face" and "dog tail" are placed closer in the embedding space). Key to our scalable techniques is the ability to efficiently compute all neuron pairs' relationships, in time linear to the number of neurons instead of quadratic time. NeuroCartography scales to large data, such as the ImageNet dataset with 1.2M images. The system's tightly coordinated views integrate the scalable techniques to visualize the concepts and their relationships, projecting the concept associations to a 2D space in Neuron Projection View, and summarizing neuron clusters and their relationships in Graph View. Through a large-scale human evaluation, we demonstrate that our technique discovers neuron groups that represent coherent, human-meaningful concepts. And through usage scenarios, we describe how our approaches enable interesting and surprising discoveries, such as concept cascades of related and isolated concepts. The NeuroCartography visualization runs in modern browsers and is open-sourced. | 翻訳日:2021-08-31 14:40:12 公開日:2021-08-29 |
# マルチクラスデータ記述のための不確かさ定量化 Uncertainty quantification for multiclass data description ( http://arxiv.org/abs/2108.12857v1 ) ライセンス: Link先を確認 | Leila Kalantari, Jose Principe and Kathryn E. Sieving | (参考訳) 本稿では,自己適応型ハイパーパラメータ設定によるカーネルマハラノビス距離(MDD-KM)に基づくマルチクラスデータ記述モデルを提案する。
MDD-KMは、不確実な定量化を提供し、テストデータの中にOODサンプルが存在する現実的なシナリオのための分類システムを構築するためにデプロイすることができる。
試験信号が与えられた場合、信号と各トレーニングクラスとの間の経験的カーネルマハラノビス距離に関する量を算出する。
これらの量は同じ再生核ヒルベルト空間に対応するため、それらは可測であり、核融合技術のさらなる応用なしに容易に分類スコアとして扱うことができる。
カーネルパラメータの設定には,ガウス過程(GP)による予測分散が,集中型カーネルを使用する場合の経験的カーネルマハラノビス距離であるという事実を利用し,コスト関数としてGPの負の確率関数を用いることを提案する。
我々は鳥のノート分類の実問題に関する実験を行う。
我々はMDD-KMを成分とする階層線形力学系に基づく原型分類システムについて報告する。
本分類システムは,事前処理のステップとして音のイベント検出を必要とせず,実験音声クリップ中のoodサンプル(不利な未知の音符に対応する)間に異なる長さの鳥音の訓練例を見つけることができる。
ドメイン知識を活用して、生の分類スコアから鮮明な決定を行う。
我々は, MDD-KM が, K-アネレスト近傍で高い性能を示す。 In this manuscript, we propose a multiclass data description model based on kernel Mahalanobis distance (MDD-KM) with self-adapting hyperparameter setting. MDD-KM provides uncertainty quantification and can be deployed to build classification systems for the realistic scenario where out-of-distribution (OOD) samples are present among the test data. Given a test signal, a quantity related to empirical kernel Mahalanobis distance between the signal and each of the training classes is computed. Since these quantities correspond to the same reproducing kernel Hilbert space, they are commensurable and hence can be readily treated as classification scores without further application of fusion techniques. To set kernel parameters, we exploit the fact that predictive variance according to a Gaussian process (GP) is empirical kernel Mahalanobis distance when a centralized kernel is used, and propose to use GP's negative likelihood function as the cost function. We conduct experiments on the real problem of avian note classification. We report a prototypical classification system based on a hierarchical linear dynamical system with MDD-KM as a component. Our classification system does not require sound event detection as a preprocessing step, and is able to find instances of training avian notes with varying length among OOD samples (corresponding to unknown notes of disinterest) in the test audio clip. Domain knowledge is leveraged to make crisp decisions from raw classification scores. We demonstrate the superior performance of MDD-KM over possibilistic K-nearest neighbor. | 翻訳日:2021-08-31 14:31:49 公開日:2021-08-29 |
# Convex Constrained Deep Reinforcement Learning に対する政策効率化手法 A Policy Efficient Reduction Approach to Convex Constrained Deep Reinforcement Learning ( http://arxiv.org/abs/2108.12916v1 ) ライセンス: Link先を確認 | Tianchi Cai, Wenpeng Zhang, Lihong Gu, Xiaodong Zeng, Jinjie Gu | (参考訳) 一般強化学習(RL)では確立されているが、複数のアクション間でランダム化可能なポリシーを見つけることができないため、制約付きRL(CRL)ではバリューベースの手法が探索されることは稀である。
CRLに値ベースの手法を適用するために、近年のゲーム理論的アプローチの画期的なラインでは、慎重に生成されたポリシーの集合をランダム化し、所望の制約満足ポリシーに収束する混合ポリシーを用いる。
しかし、これらのアプローチはポリシー効率が良くなく、制約された深いrlのメモリコストを発生させる可能性がある、大量のポリシーを格納する必要がある。
この問題に対処するため、我々は別のアプローチを提案する。
提案手法はまずCRLを等価距離最適化問題に再構成する。
特別に設計された線形最適化オラクルを用いて,任意の既成RLアルゴリズムと任意の条件勾配(CG)型アルゴリズムをサブルーチンとするメタアルゴリズムを導出する。
次に,最小基準点法(MNP)を一般化したCG型アルゴリズムの新たな変種を提案する。
提案手法は,既存のゲーム理論アプローチの収束率と一致し,最悪の最適政策効率を実現する。
ナビゲーションタスクにおける実験により,本手法はメモリコストを1桁削減し,その効果と効率を両立させるとともに,より優れた性能を実現することを示す。 Although well-established in general reinforcement learning (RL), value-based methods are rarely explored in constrained RL (CRL) for their incapability of finding policies that can randomize among multiple actions. To apply value-based methods to CRL, a recent groundbreaking line of game-theoretic approaches uses the mixed policy that randomizes among a set of carefully generated policies to converge to the desired constraint-satisfying policy. However, these approaches require storing a large set of policies, which is not policy efficient, and may incur prohibitive memory costs in constrained deep RL. To address this problem, we propose an alternative approach. Our approach first reformulates the CRL to an equivalent distance optimization problem. With a specially designed linear optimization oracle, we derive a meta-algorithm that solves it using any off-the-shelf RL algorithm and any conditional gradient (CG) type algorithm as subroutines. We then propose a new variant of the CG-type algorithm, which generalizes the minimum norm point (MNP) method. The proposed method matches the convergence rate of the existing game-theoretic approaches and achieves the worst-case optimal policy efficiency. The experiments on a navigation task show that our method reduces the memory costs by an order of magnitude, and meanwhile achieves better performance, demonstrating both its effectiveness and efficiency. | 翻訳日:2021-08-31 14:31:24 公開日:2021-08-29 |
# サイバー物理コンテキストにおけるリスク対応細粒化アクセス制御 Risk-Aware Fine-Grained Access Control in Cyber-Physical Contexts ( http://arxiv.org/abs/2108.12739v1 ) ライセンス: Link先を確認 | Jinxin Liu, Murat Simsek, Burak Kantarci, Melike Erol-Kantarci, Andrew Malton, Andrew Walenstein | (参考訳) ユーザーによるリソースへのアクセスは、特定の状況や状況、特にサイバー物理環境でのみ許可される必要がある。
残念ながら、動的環境におけるコンテキスト依存アクセス制御ソリューションの作成と修正は、承認コンテキストを管理するための継続的な課題を生み出します。
本稿では、教師なし機械学習を利用してリスクベースの認証決定境界を自動的に推論するコンテキスト依存型アクセス認可手法であるRASAを提案する。
医療利用環境において、サイバーおよび物理的条件が個人の健康情報を保護するためのコンテキスト固有のリスクを生じさせるRASについて検討する。
リスクレベルは、セキュリティポリシーによって推奨されるアクセス制御決定と関連している。
コンテクスト内のオブジェクトの共存を周波数と持続時間を用いて追跡するために結合法を導入し、これらをクラスタ化して共通のリスクレベルを持つアクションの集合を示し、これらは認証決定境界を作成するために使用される。
また,リスクレベルの評価と,それに対応するリスクレベルに対するクラスタのラベル付けを行う手法を提案する。
ヒューリスティックなルールベースの政策に対するRASA生成ポリシーの約束を評価する。
3つの異なる結合特徴(周波数ベース、時間ベース、複合特徴)を採用することで、教師なし手法とポリシーの決定は99%以上一貫性がある。 Access to resources by users may need to be granted only upon certain conditions and contexts, perhaps particularly in cyber-physical settings. Unfortunately, creating and modifying context-sensitive access control solutions in dynamic environments creates ongoing challenges to manage the authorization contexts. This paper proposes RASA, a context-sensitive access authorization approach and mechanism leveraging unsupervised machine learning to automatically infer risk-based authorization decision boundaries. We explore RASA in a healthcare usage environment, wherein cyber and physical conditions create context-specific risks for protecting private health information. The risk levels are associated with access control decisions recommended by a security policy. A coupling method is introduced to track coexistence of the objects within context using frequency and duration of coexistence, and these are clustered to reveal sets of actions with common risk levels; these are used to create authorization decision boundaries. In addition, we propose a method for assessing the risk level and labelling the clusters with respect to their corresponding risk levels. We evaluate the promise of RASA-generated policies against a heuristic rule-based policy. By employing three different coupling features (frequency-based, duration-based, and combined features), the decisions of the unsupervised method and that of the policy are more than 99% consistent. | 翻訳日:2021-08-31 14:28:26 公開日:2021-08-29 |
# Mask RCNNとドローン画像を用いた航空機型識別 Airplane Type Identification Based on Mask RCNN and Drone Images ( http://arxiv.org/abs/2108.12811v1 ) ライセンス: Link先を確認 | W.T Alshaibani, Mustafa Helvaci, Ibraheem Shayea, Sawsan A. Saad, Azizul Azizan and Fitri Yakub | (参考訳) 空港の交通ボトルネックに対処するには、航空機の物体検出が不十分である。
どの空港にも、様々な物理的および技術的要件と多様なサービス要件を持つ様々な飛行機がある。
新しい飛行機の存在を検出することは、すべての渋滞問題に対処するものではない。
一方、飛行機の種類を特定することは、飛行機の技術仕様に関する重要な情報を提供するため、問題を完全に解決する(つまり、飛行機が運航される時間と空港の適切な場所)。
いくつかの研究は空港の交通渋滞に対処するために様々な貢献をしてきたが、最終的な目標は航空機の物体の存在を決定することであった。
本稿では,マスク領域畳み込みニューラルネットワークを用いた航空機検出プロセスの結果に応じて,空港における航空機の種類を識別するための実用的な手法を提案する。
航空機の種類を特定するために用いられる重要な特徴は、航空機検出の結果に基づいて計算された表面積である。
表面積は、航空機タイプを識別するための追加的特徴であると考えられるキャビン長の推定に使用される。
検出された平面の長さは、検出された平面の2つの端点間の距離を測定することで計算することができる。
提案手法の性能は平均確率と混乱行列を用いて評価される。
その結果,本手法は信頼性が高いことがわかった。
この方法は空港交通渋滞の管理に大いに役立ちます。 For dealing with traffic bottlenecks at airports, aircraft object detection is insufficient. Every airport generally has a variety of planes with various physical and technological requirements as well as diverse service requirements. Detecting the presence of new planes will not address all traffic congestion issues. Identifying the type of airplane, on the other hand, will entirely fix the problem because it will offer important information about the plane's technical specifications (i.e., the time it needs to be served and its appropriate place in the airport). Several studies have provided various contributions to address airport traffic jams; however, their ultimate goal was to determine the existence of airplane objects. This paper provides a practical approach to identify the type of airplane in airports depending on the results provided by the airplane detection process using mask region convolution neural network. The key feature employed to identify the type of airplane is the surface area calculated based on the results of airplane detection. The surface area is used to assess the estimated cabin length which is considered as an additional key feature for identifying the airplane type. The length of any detected plane may be calculated by measuring the distance between the detected plane's two furthest points. The suggested approach's performance is assessed using average accuracies and a confusion matrix. The findings show that this method is dependable. This method will greatly aid in the management of airport traffic congestion. | 翻訳日:2021-08-31 14:26:55 公開日:2021-08-29 |
# マスク領域畳み込みニューラルネットワークによる航空機検出 Airplane Detection Based on Mask Region Convolution Neural Network ( http://arxiv.org/abs/2108.12817v1 ) ライセンス: Link先を確認 | W.T. Alshaibani, Mustafa Helvaci, Ibraheem Shayea, Hafizal Mohamad | (参考訳) 空港交通渋滞への対処は、特に最も忙しい空港において、リモートセンシング分野において最も重要かつ困難な課題の1つである。
航空機検出プロセスに応じてこの問題に対処するために、いくつかの解決策が採用されている。
最も効果的な解決策は、ディープラーニング技術を用いた衛星画像の利用である。
しかし、このようなソリューションは非常にコストがかかり、世界中のほとんどの国では利用できない衛星や現代的な複雑な技術が必要となる。
本論文は空港における航空機検出のための普遍的で低コストで高速なソリューションを提供する。
本稿では,提案するディープラーニングモデルを用いて,衛星ではなく,システムに対してドローン画像を供給することを推奨する。
ドローン画像は、マスク領域畳み込みニューラルネットワーク(RCNN)モデルをトレーニングし、評価するためのデータセットとして使用される。
Mask RCNNモデルは、より高速なRCNNをベース構成として適用し、ヘッドニューラルネットワーク構造に重要な変更を加えている。
このモデルは、飛行機が存在するか否かを検知し、表面積と長さを近似するマスク推定を含む。
このソリューションは、空港での航空機検出のための低コストで高速なソリューションであるため、グローバルに容易に実装できる。
評価プロセスは、Microsoft Common Objects in Context(COCO)メトリクスによる有望な結果を明らかにする。 Addressing airport traffic jams is one of the most crucial and challenging tasks in the remote sensing field, especially for the busiest airports. Several solutions have been employed to address this problem depending on the airplane detection process. The most effective solutions are through the use of satellite images with deep learning techniques. Such solutions, however, are significantly costly and require satellites and modern complicated technology which may not be available in most countries worldwide. This paper provides a universal, low cost and fast solution for airplane detection in airports. This paper recommends the use of drones instead of satellites to feed the system with drone images using a proposed deep learning model. Drone images are employed as the dataset to train and evaluate a mask region convolution neural network (RCNN) model. The Mask RCNN model applies faster RCNN as its base configuration with critical modifications on its head neural network constructions. The model detects whether or not an airplane is present and includes mask estimations to approximate surface area and length, which will help future works identify the airplane type. This solution can be easily implemented globally as it is a low-cost and fast solution for airplane detection at airports. The evaluation process reveals promising results according to Microsoft Common Objects in Context (COCO) metrics. | 翻訳日:2021-08-31 14:26:39 公開日:2021-08-29 |
# Denoisingに先立ってディープイメージを再考 Rethinking Deep Image Prior for Denoising ( http://arxiv.org/abs/2108.12841v1 ) ライセンス: Link先を確認 | Yeonsik Jo, Se Young Chun and Jonghyun Choi | (参考訳) deep image prior (dip) は様々な逆問題に対して良い帰納的バイアスとなる。
その中でも、早期停止の要件とノイズフィッティングにより、ディノイジングが特にディップに困難であることが知られている。
この問題に対処するために,我々はまず,最適化の進捗を監視するための有効自由度(df)の概念を用いてディップを解析し,ガウス雑音の対の基底真理画像にアクセスせずに,雑音に適合する前の原理的停止基準を提案する。
また,ディップの性能をさらに向上させる手法を組み込んだ 'stochastic temporal ensemble (ste)' 法を提案する。
また、この手法をPoissonノイズに拡張する。
経験的検証により,ノイズの多い画像が1つある場合,提案手法は画像にノイズを与えながら,詳細なテキストを保存できることを示した。
さらに,本手法は,7つのデータセットにおいて,PSNRとSSIMに匹敵する差でLPIPSの先行技術よりも優れていた。 Deep image prior (DIP) serves as a good inductive bias for diverse inverse problems. Among them, denoising is known to be particularly challenging for the DIP due to noise fitting with the requirement of an early stopping. To address the issue, we first analyze the DIP by the notion of effective degrees of freedom (DF) to monitor the optimization progress and propose a principled stopping criterion before fitting to noise without access of a paired ground truth image for Gaussian noise. We also propose the `stochastic temporal ensemble (STE)' method for incorporating techniques to further improve DIP's performance for denoising. We additionally extend our method to Poisson noise. Our empirical validations show that given a single noisy image, our method denoises the image while preserving rich textual details. Further, our approach outperforms prior arts in LPIPS by large margins with comparable PSNR and SSIM on seven different datasets. | 翻訳日:2021-08-31 14:26:22 公開日:2021-08-29 |
# 角度計算に基づく分散Swarm衝突回避 Distributed Swarm Collision Avoidance Based on Angular Calculations ( http://arxiv.org/abs/2108.12934v1 ) ライセンス: Link先を確認 | SeyedZahir Qazavi and Samaneh Hosseini Semnani | (参考訳) 衝突回避はロボット分野における最も重要なトピックの1つである。
目標は、ロボットを初期位置から目標位置へ移動させることで、最短かつ最小限のエネルギーで、最短の非衝突経路をたどることである。
本稿では,高密度で複雑な2Dおよび3D環境のための分散リアルタイムアルゴリズムを提案する。
このアルゴリズムは、各ロボットの移動に最適な方向を選択するために角計算を使用し、これらの分離された計算がエージェント間の協調行動の形式をもたらすことが示されている。
提案手法を様々なシミュレーションおよび実験シナリオで評価し,この分野で重要な2つのアルゴリズムであるfmpとorcaと比較した。
その結果,提案手法はorcaよりも25%高速であり,fmpよりも7%高速であり,両手法よりも信頼性が高いことがわかった。
提案手法は,クレージーフライの群れの完全自律走行を可能にする。 Collision avoidance is one of the most important topics in the robotics field. The goal is to move the robots from initial locations to target locations such that they follow shortest non-colliding paths in the shortest time and with the least amount of energy. In this paper, a distributed and real-time algorithm for dense and complex 2D and 3D environments is proposed. This algorithm uses angular calculations to select the optimal direction for the movement of each robot and it has been shown that these separate calculations lead to a form of cooperative behavior among agents. We evaluated the proposed approach on various simulation and experimental scenarios and compared the results with FMP and ORCA, two important algorithms in this field. The results show that the proposed approach is at least 25% faster than ORCA and at least 7% faster than FMP and also more reliable than both methods. The proposed method is shown to enable fully autonomous navigation of a swarm of crazyflies. | 翻訳日:2021-08-31 14:25:03 公開日:2021-08-29 |
# ニューラルネットワークモデルを用いた障害データベースにおける障害事例分類の予測の試み Attempt to Predict Failure Case Classification in a Failure Database by using Neural Network Models ( http://arxiv.org/abs/2108.12788v1 ) ライセンス: Link先を確認 | Koichi Bando, Kenji Tanaka | (参考訳) 近年の情報技術の進歩により,ネットワーク情報システムの利用は急速に拡大している。
電子商取引や銀行や企業間の電子決済、一般市民が利用するオンラインショッピングやソーシャルネットワーキングサービスなどがその例である。
したがって,これらのシステムの信頼性を維持・向上するために,過去の障害事例から障害データベースを構築している。
新しい障害ケースをデータベースにインポートする場合、これらのケースを障害タイプに応じて分類する必要がある。
問題は、分類の正確さと効率である。
特に複数の個人と作業する場合、分類の統一が必要である。
そこで,機械学習を用いた分類の自動化を試みている。
評価モデルとして、ニューラルネットワークを用いたモデルである多層パーセプトロン(MLP)、畳み込みニューラルネットワーク(CNN)、リカレントニューラルネットワーク(RNN)を選択した。
その結果、精度の面での最適モデルは、まずMLP、次にCNNであり、分類の処理時間は実用的である。 With the recent progress of information technology, the use of networked information systems has rapidly expanded. Electronic commerce and electronic payments between banks and companies, and online shopping and social networking services used by the general public are examples of such systems. Therefore, in order to maintain and improve the dependability of these systems, we are constructing a failure database from past failure cases. When importing new failure cases to the database, it is necessary to classify these cases according to failure type. The problems are the accuracy and efficiency of the classification. Especially when working with multiple individuals, unification of classification is required. Therefore, we are attempting to automate classification using machine learning. As evaluation models, we selected the multilayer perceptron (MLP), the convolutional neural network (CNN), and the recurrent neural network (RNN), which are models that use neural networks. As a result, the optimal model in terms of accuracy is first the MLP followed by the CNN, and the processing time of the classification is practical. | 翻訳日:2021-08-31 14:22:05 公開日:2021-08-29 |
# エッジにおけるマシンビジョンアプリケーションのための翻訳コンピューティングの活用 Leveraging Transprecision Computing for Machine Vision Applications at the Edge ( http://arxiv.org/abs/2108.12914v1 ) ライセンス: Link先を確認 | Umar Ibrahim Minhas, Lev Mukhanov, Georgios Karakonstantis, Hans Vandierendonck and Roger Woods | (参考訳) マシンビジョンタスクは、リソース制約のあるエッジデバイス、特に可変ワークロードで複数のタスクを実行する場合の課題を示す。
リソース制約内でサービス(QoS)の最大品質を維持しながら、実行時に動的に適応できる堅牢なアプローチが必要である。
本稿では,実行時のワークロード制約を監視し,精度とスループットのトレードオフを活用する軽量なアプローチを提案する。
最適化技術は、各タスクの構成を最適精度、エネルギー、メモリで見つけ、構成間の透過的な切り替えを管理する。
1%の精度低下では、1.6倍のフレーム処理率を示し、より低い精度でさらなる改善が可能となる。 Machine vision tasks present challenges for resource constrained edge devices, particularly as they execute multiple tasks with variable workloads. A robust approach that can dynamically adapt in runtime while maintaining the maximum quality of service (QoS) within resource constraints, is needed. The paper presents a lightweight approach that monitors the runtime workload constraint and leverages accuracy-throughput trade-off. Optimisation techniques are included which find the configurations for each task for optimal accuracy, energy and memory and manages transparent switching between configurations. For an accuracy drop of 1%, we show a 1.6x higher achieved frame processing rate with further improvements possible at lower accuracy. | 翻訳日:2021-08-31 14:21:50 公開日:2021-08-29 |
# 悪質なurlキャンペーンを特徴付ける Characterizing Malicious URL Campaigns ( http://arxiv.org/abs/2108.12726v1 ) ライセンス: Link先を確認 | Mahathir Almashor, Ejaz Ahmed, Benjamin Pick, Sharif Abuadbba, Raj Gaire, Seyit Camtepe, Surya Nepal | (参考訳) URLはフィッシングからマルウェアの配布まで、無数のサイバーセキュリティの脅威の中心だ。
その本来の使いやすさと親しみは、攻撃者が防御を避け、エンドユーザをだますために継続的に悪用される。
フィッシング攻撃やマルウェアの配布を行う組織的な方法で、異種のURLが使用されているようだ。
このような行動をキャンペーンと呼び、攻撃は成功率を最大化し、回避戦術を開発するためにしばしば調整されるという仮説を唱える。
目的は、キャンペーンに対するより良い洞察を得て、その特性の把握を強化し、コミュニティがより堅牢なソリューションを開発するのを支援することです。
そこで我々は,2019年12月から2020年1月までの期間に,7700万のユニークな実世界urlを含む311mレコードの詳細な調査と分析を行った。
このデータセットから、関連するメタデータに基づいて2.6mの疑わしいキャンペーンが特定され、そのうち77,810件が悪意のあるものだと証明された。
悪意のあるキャンペーンで38.1Mレコードと9.9MURLを使用して、ターゲットとなるターゲットブランド、URLサイズ、異質性などのさまざまな洞察を提供する。
例えば、100以上のユニークなurlを使用するキャンペーンでは、検出率がわずか13.27%まで低下している。
論文は、攻撃者がユーザを妨害し、防御を回避するために使う一般的な悪質なテクニックを説明するいくつかのケーススタディで締めくくっている。 URLs are central to a myriad of cyber-security threats, from phishing to the distribution of malware. Their inherent ease of use and familiarity is continuously abused by attackers to evade defences and deceive end-users. Seemingly dissimilar URLs are being used in an organized way to perform phishing attacks and distribute malware. We refer to such behaviours as campaigns, with the hypothesis being that attacks are often coordinated to maximize success rates and develop evasion tactics. The aim is to gain better insights into campaigns, bolster our grasp of their characteristics, and thus aid the community devise more robust solutions. To this end, we performed extensive research and analysis into 311M records containing 77M unique real-world URLs that were submitted to VirusTotal from Dec 2019 to Jan 2020. From this dataset, 2.6M suspicious campaigns were identified based on their attached metadata, of which 77,810 were doubly verified as malicious. Using the 38.1M records and 9.9M URLs within these malicious campaigns, we provide varied insights such as their targeted victim brands as well as URL sizes and heterogeneity. Some surprising findings were observed, such as detection rates falling to just 13.27% for campaigns that employ more than 100 unique URLs. The paper concludes with several case-studies that illustrate the common malicious techniques employed by attackers to imperil users and circumvent defences. | 翻訳日:2021-08-31 14:17:06 公開日:2021-08-29 |
# Rosenbrock関数に応用した閉ループ勾配Descentアルゴリズム A Closed Loop Gradient Descent Algorithm applied to Rosenbrock's function ( http://arxiv.org/abs/2108.12883v1 ) ライセンス: Link先を確認 | Subhransu Bhattacharjee and Ian Petersen | (参考訳) 本稿では,非制約最適化のための勾配降下アルゴリズムとして応用できる慣性勾配系の適応減衰手法を提案する。
非凸ローゼンブロック関数を用いた例では、既存の運動量に基づく勾配最適化法の改善を示す。
また,lyapunovの安定性解析を用いて,アルゴリズムの連続時間バージョンの性能を示す。
数値シミュレーションを用いて,シンプレクティック・オイラー法による離散時間法の性能について考察する。 We introduce a novel adaptive damping technique for an inertial gradient system which finds application as a gradient descent algorithm for unconstrained optimisation. In an example using the non-convex Rosenbrock's function, we show an improvement on existing momentum-based gradient optimisation methods. Also using Lyapunov stability analysis, we demonstrate the performance of the continuous-time version of the algorithm. Using numerical simulations, we consider the performance of its discrete-time counterpart obtained by using the symplectic Euler method of discretisation. | 翻訳日:2021-08-31 14:16:41 公開日:2021-08-29 |