このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20210828となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# 導波路モード選択による自由空間サブテラヘルツ場分極制御 Free-space sub-terahertz field-polarization controlled by waveguide-mode-selection ( http://arxiv.org/abs/2002.03200v4 ) ライセンス: Link先を確認 | Marc Westig, Holger Thierschmann, Allard Katan, Matvey Finkel, Teun M. Klapwijk | (参考訳) 斜角アンテナを備えた多モード長方形導波路から放射される自由空間電磁界を実験的に検討した。
215-580ghzの周波数範囲を用いて、フォトミキサーは、入力対角角角アンテナを介して矩形導波路の入力で複数のモードを励起する自由空間の円偏波電磁場を発射する。
第2の光ミキサーは、シリコンミラーフレネル散乱器と共に、偏光感度コヒーレント検出器として作用し、放出された磁場を特徴付ける。
基本導波路モードによって励起される放射電界は、線形偏光によって特徴づけられる。
さらに,導波路の高次モードを選択的にエキサイティングすると,放射電界の偏光は45度回転することがわかった。
高次モードにもかかわらず、放射界は検出器への一方向結合が可能であり、一方一方向性は周波数に依存しないため、ガウスビーム特性を支配的に維持しているように見える。
我々はこの発見の応用の可能性について議論する。 We study experimentally the free-space electro-magnetic field emitted from a multimode rectangular waveguide equipped with a diagonal-horn antenna. Using the frequency range of 215-580 GHz, a photo-mixer is used to launch a free-space circularly-polarized electro-magnetic field, exciting multiple modes at the input of the rectangular waveguide via an input diagonal-horn antenna. A second photo-mixer is used, together with a silicon mirror Fresnel scatterer, to act as a polarization-sensitive coherent detector to characterize the emitted field. We find that the radiated field, excited by the fundamental waveguide mode, is characterized by a linear polarization. In addition, we find that the polarization of the radiated field rotates by 45 degree if selectively exciting higher-order modes in the waveguide. Despite the higher-order modes, the radiated field appears to maintain a predominant Gaussian beam character, since an unidirectional coupling to a detector was possible, whereas the unidirectionality is independent of the frequency. We discuss a possible application of this finding. | 翻訳日:2023-06-04 05:36:35 公開日:2021-08-28 |
# 高次元量子システムにおける高効率任意量子演算 High-efficiency arbitrary quantum operation on a high-dimensional quantum system ( http://arxiv.org/abs/2010.11427v2 ) ライセンス: Link先を確認 | Weizhou Cai, Jiaxiu Han, Ling Hu, Yuwei Ma, Xianghao Mu, Weiting Wang, Yuan Xu, Ziyue Hua, Haiyan Wang, Yipu Song, Jingning Zhang, Changling Zou, and Luyan Sun | (参考訳) 量子システムを操作する能力は、量子技術の発展の核心にある。
量子制御の最終的な目標は、任意の量子演算(AQuO)を全ての可能なオープン量子系の力学に対して実現することである。
しかし、余分な物理資源の要求は大きな障害となる。
ここでは,2段階のアンシラの最小物理資源と,$d$-次元システムのための$\log_{2}d$-scale回路深さを持つフォトニックqudit上でのaquoの普遍的アプローチを実験的に実証する。
AQuOは量子部分空間安定化と量子ゼノダイナミクスの量子軌道シミュレーションに応用され、コヒーレントな操作とquditの一般化された測定に応用される。
したがって、完全な量子制御のための実証されたAQuOは、量子情報科学において必須の役割を果たす。 The ability to manipulate quantum systems lies at the heart of the development of quantum technology. The ultimate goal of quantum control is to realize arbitrary quantum operations (AQuOs) for all possible open quantum system dynamics. However, the demanding extra physical resources impose great obstacles. Here, we experimentally demonstrate a universal approach of AQuO on a photonic qudit with minimum physical resource of a two-level ancilla and a $\log_{2}d$-scale circuit depth for a $d$-dimensional system. The AQuO is then applied in quantum trajectory simulation for quantum subspace stabilization and quantum Zeno dynamics, as well as incoherent manipulation and generalized measurements of the qudit. Therefore, the demonstrated AQuO for complete quantum control would play an indispensable role in quantum information science. | 翻訳日:2023-04-28 01:13:32 公開日:2021-08-28 |
# スケーラブルフォトニック量子コンピューティングプラットフォーム上の決定論的マルチモードゲート Deterministic multi-mode gates on a scalable photonic quantum computing platform ( http://arxiv.org/abs/2010.14422v2 ) ライセンス: Link先を確認 | Mikkel V. Larsen, Xueshi Guo, Casper R. Breum, Jonas S. Neergaard-Nielsen, and Ulrik L. Andersen | (参考訳) 量子コンピューティングは多くの異なるハードウェアプラットフォームと計算プロトコルで実現可能である。
スケーラビリティを高めるための非常に有望なアプローチは、測光誘起量子情報処理プロトコルと組み合わせて、いわゆるクラスタ状態である多部量子状態の光学的測定によってゲート操作を実現するフォトニックプラットフォームを適用することである。
これまでは、非ユニバーサルまたは非スケーラブルクラスタ状態の量子ゲートがいくつか存在したが、普遍的スケーラブル量子コンピューティングのための完全なゲートは実現されていない。
本研究では,位相制御型連続変数2次測定を用いた2次元光クラスター状態における多モード量子ゲートの決定論的実装を提案する。
各ゲートは、クラスタ状態を通してテレポーテーションによって変換を実行する高効率二次測定のフェーズにプログラムされる。
これらのプログラム可能なゲートを用いて、3モード入力状態で10個のシングルモードゲートと2つの2モードゲートからなる小さな量子回路を実証する。
このプラットフォームでは、クラスタ状態の絡み合いを改善し、Gottesman-Kitaev-Preskill量子ビットの供給が利用可能であれば、フォールトトレラントな普遍量子コンピューティングが可能となる。
さらに、テレコム波長で動作するため、量子トランスデューサを使わずにネットワーク接続可能である。 Quantum computing can be realized with numerous different hardware platforms and computational protocols. A highly promising approach to foster scalability is to apply a photonic platform combined with a measurement-induced quantum information processing protocol where gate operations are realized through optical measurements on a multipartite entangled quantum state -- a so-called cluster state. Heretofore, a few quantum gates on non-universal or non-scalable cluster states have been, but a full set of gates for universal scalable quantum computing has not been realized. We propose and demonstrate the deterministic implementation of a multi-mode set of measurement-induced quantum gates in a large two-dimensional (2D) optical cluster state using phase-controlled continuous variable quadrature measurements. Each gate is simply programmed into the phases of the high-efficiency quadrature measurements which execute the transformations by teleportation through the cluster state. Using these programmable gates, we demonstrate a small quantum circuit consisting of 10 single-mode gates and 2 two-mode gates on a three-mode input state. On this platform, fault-tolerant universal quantum computing is possible if the cluster state entanglement is improved and a supply of Gottesman-Kitaev-Preskill qubits is available. Moreover, it operates at the telecom wavelength and is therefore network connectable without quantum transducers. | 翻訳日:2023-04-27 08:43:40 公開日:2021-08-28 |
# フォールトトレラント連続変数計測に基づく量子計算アーキテクチャ A fault-tolerant continuous-variable measurement-based quantum computation architecture ( http://arxiv.org/abs/2101.03014v3 ) ライセンス: Link先を確認 | Mikkel V. Larsen, Christopher Chamberland, Kyungjoo Noh, Jonas S. Neergaard-Nielsen, Ulrik L. Andersen | (参考訳) 連続変数測定に基づくクラスタ状態の量子計算は、近年、Gottesman-Kitaev-Preskill(GKP)符号と量子誤り訂正と組み合わせることで、スケーラブルで普遍的でフォールトトレラントな量子計算に大きな可能性を示している。
しかしながら、クラスタ状態生成や有限スキューズ、現実的なノイズとエラー修正を備えたゲート実装など、すべてを含む完全なフォールトトレラントアーキテクチャは存在しない。
本研究では,ゲートテレポーテーションによるゲートの効率的な実装が可能な3次元のクラスタ状態作成のための簡単なアーキテクチャを提案する。
そこで本稿では,空間的および時間的多重化を可能とし,時間的符号化版では圧縮光源を2つしか必要としないアーキテクチャを提案する。
3次元構造のため、このアーキテクチャはトポロジカルキュービット誤差補正をサポートし、GKP誤差補正はテレポーテーションによりアーキテクチャ内で効率的に実現される。
耐故障性を検証するため,GKP状態からのノイズを含む表面GKP符号と,クラスタ状態の有限スキーズによるゲートノイズを用いてアーキテクチャをシミュレートする。
さらに改良の余地のある12.7dBの耐故障性スクイーズしきい値を見出した。 Continuous variable measurement-based quantum computation on cluster states has in recent years shown great potential for scalable, universal, and fault-tolerant quantum computation when combined with the Gottesman-Kitaev-Preskill (GKP) code and quantum error correction. However, no complete fault-tolerant architecture exists that includes everything from cluster state generation with finite squeezing to gate implementations with realistic noise and error correction. In this work, we propose a simple architecture for the preparation of a cluster state in three dimensions in which gates by gate teleportation can be efficiently implemented. To accommodate scalability, we propose architectures that allow for both spatial and temporal multiplexing, with the temporal encoded version requiring as little as two squeezed light sources. Due to its three-dimensional structure, the architecture supports topological qubit error correction, while GKP error correction is efficiently realized within the architecture by teleportation. To validate fault-tolerance, the architecture is simulated using surface-GKP codes, including noise from GKP-states as well as gate noise caused by finite squeezing in the cluster state. We find a fault-tolerant squeezing threshold of 12.7 dB with room for further improvement. | 翻訳日:2023-04-17 08:26:29 公開日:2021-08-28 |
# 有効場理論における絡み合い球とUV-IR接続 Entanglement Spheres and a UV-IR connection in Effective Field Theories ( http://arxiv.org/abs/2103.14999v2 ) ライセンス: Link先を確認 | Natalie Klco and Martin J. Savage | (参考訳) 長距離量子相関が短距離物理学を探索することを示す。
格子状で質量のないスカラー場真空の2つの解離領域を数値的に示し、負の球から離れた距離で分離可能であることを証明した。
この量子コヒーレント体積の大きさは、同一領域で支持される最大運動量モードによって決定される。
より一般的には、与えられた運動量スケール$\Lambda$までの系を記述する実効場理論(EFTs)がこの特徴を共有することが期待されている。
3次元に拡張された計算により、エンタングルメントが EFT (lattice or Other) 内の UV 物理学に敏感になる負性の大きさは、空間次元の個数とは無関係に$\sim e^{-\Lambda d}$としてスケールすることが予想される。
分離の増大における2領域真空絡み合いは運動量スケールの増加における理論の構造に依存すると結論づけた。
この現象は摂動qcd過程に現れる可能性がある。 We show that long-distance quantum correlations probe short-distance physics. Two disjoint regions of the latticized, massless scalar field vacuum are numerically demonstrated to become separable at distances beyond the negativity sphere, which extends to infinity in the continuum limit. The size of this quantum coherent volume is determined by the highest momentum mode supported in the identical regions, each of diameter $d$. More generally, effective field theories (EFTs), describing a system up to a given momentum scale $\Lambda$, are expected to share this feature -- entanglement between regions of the vacuum depends upon the UV-completion beyond a separation proportional to $\Lambda$. Through calculations extended to three-dimensions, the magnitude of the negativity at which entanglement becomes sensitive to UV physics in an EFT (lattice or otherwise) is conjectured to scale as $\sim e^{-\Lambda d}$, independent of the number of spatial dimensions. It is concluded that two-region vacuum entanglement at increasing separations depends upon the structure of the theory at increasing momentum scales. This phenomenon may be manifest in perturbative QCD processes. | 翻訳日:2023-04-06 17:02:58 公開日:2021-08-28 |
# tabu探索に基づく量子回路変換 Quantum Circuit Transformation Based on Tabu Search ( http://arxiv.org/abs/2104.05214v3 ) ライセンス: Link先を確認 | Hui Jiang, Yuxin Deng, Ming Xu | (参考訳) 量子回路変換の目標は、許容できる時間内に可能な限りゲートを挿入することで論理回路を物理デバイスにマッピングすることである。
マッピングを構築するために,TSAと呼ばれる効果的な手法を提案する。
1つは部分グラフ同型と完了を組み合わせていくつかの候補写像を初期化し、もう1つはタブ探索に基づく調整を用いてマッピングを動的に修正する。
本稿で提案した最新手法であるGA, SABRE, FiDLSと比較して, TSAは少ないゲート数でマッピングを生成でき, 大規模回路のスケーラビリティが向上することを示す。 The goal of quantum circuit transformation is to map a logical circuit to a physical device by inserting additional gates as few as possible in an acceptable amount of time. We present an effective approach called TSA to construct the mapping. It consists of two key steps: one makes use of a combined subgraph isomorphism and completion to initialize some candidate mappings, the other dynamically modifies the mappings by using tabu search-based adjustment. Our experiments show that, compared with state-of-the-art methods GA, SABRE and FiDLS proposed in the literature, TSA can generate mappings with a smaller number of additional gates and it has a better scalability for large-scale circuits. | 翻訳日:2023-04-04 02:01:27 公開日:2021-08-28 |
# 散逸境界を持つ量子臨界系 Quantum critical systems with dissipative boundaries ( http://arxiv.org/abs/2106.02539v2 ) ライセンス: Link先を確認 | Francesco Tarantelli, Ettore Vicari | (参考訳) ユニタリダイナミクスを駆動するハミルトニアンのパラメータが臨界値に近い場合,連続量子遷移における多体系における散逸境界の影響について検討する。
パラダイムモデルとして、粒子の汲み上げや損失に関連する境界における散逸相互作用を受けるフェルミオン線を考える。
それらはマルコフ浴とのカップリングによって誘導されるので、系の密度行列の進化はリンドブラッドマスター方程式によって記述できる。
我々は、臨界ハミルトニアンの基底状態から t=0 から始まるハミルトニアンおよび散逸パラメータの変動から生じる量子進化を研究する。
2つの異なるダイナミックレジームが現れます
(i)コヒーレント駆動と非コヒーレント駆動の競合が動的有限サイズスケーリングを発達し、閉系におけるコヒーレント臨界力学を記述したスケーリングフレームワークを拡張して境界散逸を可能にする、時刻t〜Lのアーリータイムレジーム。
(ii) t ~ l^3 の大規模レジームであり、その動的スケーリングは t->infty 定常状態につながる後期量子進化を記述する。 We study the effects of dissipative boundaries in many-body systems at continuous quantum transitions, when the parameters of the Hamiltonian driving the unitary dynamics are close to their critical values. As paradigmatic models, we consider fermionic wires subject to dissipative interactions at the boundaries, associated with pumping or loss of particles. They are induced by couplings with a Markovian baths, so that the evolution of the system density matrix can be described by a Lindblad master equation. We study the quantum evolution arising from variations of the Hamiltonian and dissipation parameters, starting at t=0 from the ground state of the critical Hamiltonian. Two different dynamic regimes emerge: (i) an early-time regime for times t ~ L, where the competition between coherent and incoherent drivings develops a dynamic finite-size scaling, obtained by extending the scaling framework describing the coherent critical dynamics of the closed system, to allow for the boundary dissipation; (ii) a large-time regime for t ~ L^3 whose dynamic scaling describes the late quantum evolution leading to the t->infty stationary states. | 翻訳日:2023-03-27 21:12:52 公開日:2021-08-28 |
# Pseudorandom Generators を用いた中間計測の除去 Eliminating Intermediate Measurements using Pseudorandom Generators ( http://arxiv.org/abs/2106.11877v2 ) ライセンス: Link先を確認 | Uma Girish, Ran Raz | (参考訳) 時間$T$と空間$S\ge \log T$の量子アルゴリズムは、単位演算と中間測度を持つ量子アルゴリズムにより、時間$T \cdot \mathrm{poly} (S)$と空間$ {O}(S\cdot \log T)$の量子アルゴリズムでシミュレートできることを示す。
この研究に先立つ最良の結果は、$Omega(T)$ space (deferred measurement principle) または $\mathrm{poly}(2^S)$ time [FR21,GRZ21] である。
この結果は,単位演算を伴うアルゴリズムの時間効率と空間効率のシミュレーションであり,中間測度を持たないアルゴリズムによる中間測度である。
この結果を証明するために,量子空間境界アルゴリズムのための擬似乱数生成器の研究を行った。
古典的空間有界アルゴリズムのINW擬似乱数生成器 [INW94] もまた量子空間有界アルゴリズムを騙していることを示す。
より正確には、ランダムなビットからなるリードオンステープにアクセス可能な量子空間有界アルゴリズムの場合、一様分布からランダムなビットを引いた場合のアルゴリズムの最終状態は、INW擬似乱数発生器を用いてランダムなビットを引いた場合の最終的な状態とほぼ同一であることを示す。
この結果は、ユニタリ演算を適用し、中間測定を行い、量子ビットをリセットする一般量子アルゴリズムに適用できる。 We show that quantum algorithms of time $T$ and space $S\ge \log T$ with unitary operations and intermediate measurements can be simulated by quantum algorithms of time $T \cdot \mathrm{poly} (S)$ and space $ {O}(S\cdot \log T)$ with unitary operations and without intermediate measurements. The best results prior to this work required either $\Omega(T)$ space (by the deferred measurement principle) or $\mathrm{poly}(2^S)$ time [FR21,GRZ21]. Our result is thus a time-efficient and space-efficient simulation of algorithms with unitary operations and intermediate measurements by algorithms with unitary operations and without intermediate measurements. To prove our result, we study pseudorandom generators for quantum space-bounded algorithms. We show that (an instance of) the INW pseudorandom generator for classical space-bounded algorithms [INW94] also fools quantum space-bounded algorithms. More precisely, we show that for quantum space-bounded algorithms that have access to a read-once tape consisting of random bits, the final state of the algorithm when the random bits are drawn from the uniform distribution is nearly identical to the final state when the random bits are drawn using the INW pseudorandom generator. This result applies to general quantum algorithms which can apply unitary operations, perform intermediate measurements and reset qubits. | 翻訳日:2023-03-25 20:54:50 公開日:2021-08-28 |
# 複数言語タスクのためのトランスファー学習--サーベイ Transfer Learning for Multi-lingual Tasks -- a Survey ( http://arxiv.org/abs/2110.02052v1 ) ライセンス: Link先を確認 | Amir Reza Jafari, Behnam Heidary, Reza Farahbakhsh, Mostafa Salehi, Mahdi Jalili | (参考訳) 最近では、ソーシャルメディアのようなさまざまなプラットフォームが、異なるバックグラウンドや言語からクライアントに情報を接続し交換する機会を提供している。
国際的有名人やデータプロバイダが投稿した投稿で、さまざまな言語からのコメントを見ることは、もはや驚きではない。
この時代には、自然言語処理(NLP)におけるクロス言語の内容と多言語主義の理解がホットな話題であり、この挑戦的な研究課題に取り組むために、NLPの既存の技術を活用しようと試みている。
本稿では,多言語タスクにおけるトランスファー学習技術に着目し,既存の文献の概要について概観する。
我々はまた、この領域でさらなる研究の機会を見出す。 These days different platforms such as social media provide their clients from different backgrounds and languages the possibility to connect and exchange information. It is not surprising anymore to see comments from different languages in posts published by international celebrities or data providers. In this era, understanding cross languages content and multilingualism in natural language processing (NLP) are hot topics, and multiple efforts have tried to leverage existing technologies in NLP to tackle this challenging research problem. In this survey, we provide a comprehensive overview of the existing literature with a focus on transfer learning techniques in multilingual tasks. We also identify potential opportunities for further research in this domain. | 翻訳日:2023-03-16 22:58:26 公開日:2021-08-28 |
# 資源効率のよい量子回路近似 Robust and Resource-Efficient Quantum Circuit Approximation ( http://arxiv.org/abs/2108.12714v1 ) ライセンス: Link先を確認 | Tirthak Patel, Ed Younis, Costin Iancu, Wibe de Jong, and Devesh Tiwari | (参考訳) 量子回路の近似を体系的に生成し、そのcnotゲート数を減少させる手法であるqestを提案する。
提案手法では,拡張性を考慮した回路分割方式を用いる。
1)近似合成による回路長の削減
2)近似空間における鍵サンプルを表す回路の動作による忠実度の向上,及び
3)近似上界の理由
評価結果から,この近似のアプローチが元の回路に密接な忠実性をもたらすことが示唆された。
全体として、QEstはCNOTゲート数を30~80%削減し、既存および近未来の量子システムに対するノイズの影響を低減できることを示す。 We present QEst, a procedure to systematically generate approximations for quantum circuits to reduce their CNOT gate count. Our approach employs circuit partitioning for scalability with procedures to 1) reduce circuit length using approximate synthesis, 2) improve fidelity by running circuits that represent key samples in the approximation space, and 3) reason about approximation upper bound. Our evaluation results indicate that our approach of "dissimilar" approximations provides close fidelity to the original circuit. Overall, the results indicate that QEst can reduce CNOT gate count by 30-80% on ideal systems and decrease the impact of noise on existing and near-future quantum systems. | 翻訳日:2023-03-16 22:57:52 公開日:2021-08-28 |
# 熱力学による確率的磁気トンネル接合の固有スパイクタイミング依存性塑性 Intrinsic Spike Timing Dependent Plasticity in Stochastic Magnetic Tunnel Junctions Mediated by Heat Dynamics ( http://arxiv.org/abs/2108.12684v1 ) ライセンス: Link先を確認 | Humberto Inzunza Velarde, Jheel Nagaria, Zihan Yin, Ajey Jacob, Akhilesh Jaiswal | (参考訳) 高度に効率的な認知コンピューティングの探求は、ニューロモルフィックコンピューティングの分野に対する広範な研究の関心につながった。
ニューロモルフィックコンピューティングは、固体デバイスや回路を用いて生物学的ニューロンやシナプスの挙動を模倣することを目的としている。
様々なアプローチの中で、新しい不揮発性記憶技術は神経シナプス行動の模倣に特に関心がある。
これらのデバイスは、生物学的ニューロンとシナプスの豊かなダイナミクスを、固有のデバイス物理学にマッピングすることができる。
本稿では,生体シナプスのスパイクタイミング依存塑性(STDP)挙動に着目し,磁気トンネル接合(MTJ)デバイスにおけるSTDP挙動の実装法を提案する。
具体的には,STDPの動作を模倣するために,時間依存性の熱力学とMTJの瞬時温度に対する応答を利用する。
磁化ダイナミクスのマクロスピンモデルに基づくシミュレーションにより,mtj装置を横断する前・後ニューロンのスパイク応答として単純な電圧波形を適用することで,stdpを確率的磁気トンネル接合部で模倣できることを示した。 The quest for highly efficient cognitive computing has led to extensive research interest for the field of neuromorphic computing. Neuromorphic computing aims to mimic the behavior of biological neurons and synapses using solid-state devices and circuits. Among various approaches, emerging non-volatile memory technologies are of special interest for mimicking neuro-synaptic behavior. These devices allow the mapping of the rich dynamics of biological neurons and synapses onto their intrinsic device physics. In this letter, we focus on Spike Timing Dependent Plasticity (STDP) behavior of biological synapses and propose a method to implement the STDP behavior in Magnetic Tunnel Junction (MTJ) devices. Specifically, we exploit the time-dependent heat dynamics and the response of an MTJ to the instantaneous temperature to imitate the STDP behavior. Our simulations, based on a macro-spin model for magnetization dynamics, show that, STDP can be imitated in stochastic magnetic tunnel junctions by applying simple voltage waveforms as the spiking response of pre- and post-neurons across an MTJ device. | 翻訳日:2023-03-16 22:57:32 公開日:2021-08-28 |
# カオス組込み対位法に基づく重力探索アルゴリズムの学習 Chaos embedded opposition based learning for gravitational search algorithm ( http://arxiv.org/abs/2108.12610v1 ) ライセンス: Link先を確認 | Susheel Kumar Joshi | (参考訳) その堅牢な探索機構のため、重力探索アルゴリズム(GSA)は様々な研究コミュニティから多くの人気を得ている。
しかし、スタグネーションは強固で複雑なマルチモーダル問題に対するグローバルオプティマへの探索性を低下させる。
本稿では, カオス組込みの対向学習を基本gsaに組み込んだ, スタギネーションフリー検索のためのgsa変種を提案する。
さらに,探索能力と搾取能力とのトレードオフをより効果的にバランスさせるために,サインコサイン系カオス重力定数が導入された。
提案された変種は、23の古典的ベンチマーク問題、CEC 2015テストスイートの15のテスト問題、CEC 2014テストスイートの15のテスト問題でテストされている。
グラフィカルな違いと経験的分析は、提案アルゴリズムが従来のメタヒューリスティックスや最近のGSAの変種よりも優れていることを示している。 Due to its robust search mechanism, Gravitational search algorithm (GSA) has achieved lots of popularity from different research communities. However, stagnation reduces its searchability towards global optima for rigid and complex multi-modal problems. This paper proposes a GSA variant that incorporates chaos-embedded opposition-based learning into the basic GSA for the stagnation-free search. Additionally, a sine-cosine based chaotic gravitational constant is introduced to balance the trade-off between exploration and exploitation capabilities more effectively. The proposed variant is tested over 23 classical benchmark problems, 15 test problems of CEC 2015 test suite, and 15 test problems of CEC 2014 test suite. Different graphical, as well as empirical analyses, reveal the superiority of the proposed algorithm over conventional meta-heuristics and most recent GSA variants. | 翻訳日:2023-03-16 22:56:54 公開日:2021-08-28 |
# 進化的アルゴリズムの有用な多様性について、系統学的指標から何が分かるか? What can phylogenetic metrics tell us about useful diversity in evolutionary algorithms? ( http://arxiv.org/abs/2108.12586v1 ) ライセンス: Link先を確認 | Jose Guadalupe Hernandez, Alexander Lalejini, Emily Dolson | (参考訳) 多様性」は進化的アルゴリズムの成功と関連していると一般に受け入れられている。
しかし、多様性は様々な方法で測定、定義できる幅広い概念である。
これまで、ほとんどの進化的計算研究は、特定の遺伝子型または表現型特性の豊かさおよび/または均一性を用いて多様性を測定してきた。
これらの指標は有益であるが、他の多様性指標が成功をより強く予測できると仮定する。
系統学的多様性指標(英: phylogenetic diversity metrics)は、生物学において一般的に用いられる指標の一種であり、集団の進化の歴史を考慮に入れる。
ここでは,その程度について検討する。
1)これらの指標は,従来の進化的計算法と異なる情報を提供する。
2)これらの指標は進化的計算の長期的成功を予測するのに役立つ。
ほとんどの場合、系統学的指標は他の多様性指標と有意に異なる振る舞いをする。
さらに, 系統多様性が成功の予測因子であることが示唆された。 It is generally accepted that "diversity" is associated with success in evolutionary algorithms. However, diversity is a broad concept that can be measured and defined in a multitude of ways. To date, most evolutionary computation research has measured diversity using the richness and/or evenness of a particular genotypic or phenotypic property. While these metrics are informative, we hypothesize that other diversity metrics are more strongly predictive of success. Phylogenetic diversity metrics are a class of metrics popularly used in biology, which take into account the evolutionary history of a population. Here, we investigate the extent to which 1) these metrics provide different information than those traditionally used in evolutionary computation, and 2) these metrics better predict the long-term success of a run of evolutionary computation. We find that, in most cases, phylogenetic metrics behave meaningfully differently from other diversity metrics. Moreover, our results suggest that phylogenetic diversity is indeed a better predictor of success. | 翻訳日:2023-03-16 22:56:42 公開日:2021-08-28 |
# ドラゴンフライアルゴリズムとその工学への応用に関する調査 A survey on dragonfly algorithm and its applications in engineering ( http://arxiv.org/abs/2002.12126v3 ) ライセンス: Link先を確認 | Chnoor M. Rahman, Tarik A. Rashid, Abeer Alsadoon, Nebojsa Bacanin, Polla Fattah, Seyedali Mirjalili | (参考訳) dragonflyのアルゴリズムは2016年に開発された。
研究者が様々な分野の幅広い用途や応用を最適化するために使用するアルゴリズムの1つである。
時には、最もよく知られた最適化技術よりも優れたパフォーマンスを提供する。
しかし, このアルゴリズムは, 複雑な最適化問題を解く上でいくつかの困難に直面している。
本研究は,実世界の最適化問題を解くための手法の頑健さと,複雑な最適化問題を改善するための欠如に対処した。
本稿では,工学領域におけるdragonflyアルゴリズムの包括的研究について述べる。
まず,アルゴリズムの概要について述べる。
また,アルゴリズムの修正についても検討した。
異なる技法によるこのアルゴリズムの融合形式と、アルゴリズムの性能を改善するために行われた修正は、対処される。
さらに、dragonflyアルゴリズムを使用したエンジニアリング分野のアプリケーションに関する調査も提供されている。
応用工学応用は、機械工学問題、電気工学問題、最適パラメータ、経済負荷分散、損失低減の分野における応用である。
本アルゴリズムは粒子群最適化アルゴリズムとファイアフライアルゴリズムを用いて試験および評価を行う。
トンボアルゴリズムや他の参加アルゴリズムの能力を評価するために,従来のベンチマーク(TF1-TF23)を用いた。
さらに,CEC-C2019ベンチマークを用いて,大規模最適化問題に対するアルゴリズムの適用性を検討した。
アルゴリズムと他のメタヒューリスティック手法の比較を行い、様々な問題を強化する能力を示す。 The dragonfly algorithm was developed in 2016. It is one of the algorithms used by researchers to optimize an extensive series of uses and applications in various areas. At times, it offers superior performance compared to the most well-known optimization techniques. However, this algorithm faces several difficulties when it is utilized to enhance complex optimization problems. This work addressed the robustness of the method to solve real-world optimization issues, and its deficiency to improve complex optimization problems. This review paper shows a comprehensive investigation of the dragonfly algorithm in the engineering area. First, an overview of the algorithm is discussed. Besides, we also examined the modifications of the algorithm. The merged forms of this algorithm with different techniques and the modifications that have been done to make the algorithm perform better are addressed. Additionally, a survey on applications in the engineering area that used the dragonfly algorithm is offered. The utilized engineering applications are the applications in the field of mechanical engineering problems, electrical engineering problems, optimal parameters, economic load dispatch, and loss reduction. The algorithm is tested and evaluated against particle swarm optimization algorithm and firefly algorithm. To evaluate the ability of the dragonfly algorithm and other participated algorithms a set of traditional benchmarks (TF1-TF23) were utilized. Moreover, to examine the ability of the algorithm to optimize large-scale optimization problems CEC-C2019 benchmarks were utilized. A comparison is made between the algorithm and other metaheuristic techniques to show its ability to enhance various problems. | 翻訳日:2022-12-30 13:25:24 公開日:2021-08-28 |
# シンプルさを維持する:言語科学における適応と学習の原原則の実装と性能 Keeping it simple: Implementation and performance of the proto-principle of adaptation and learning in the language sciences ( http://arxiv.org/abs/2003.03813v2 ) ライセンス: Link先を確認 | Petar Milin, Harish Tayyar Madabushi, Michael Croucher, Dagmar Divjak | (参考訳) 本稿では,Widrow-Hoffルールとその言語データへの応用について述べる。
ルールを歴史的に解釈し、ニューラルネットワークにインスパイアされた機械学習モデルの連鎖に配置した後、その理論的および実装的考察を説明する。
いくつかのケーススタディを用いて、widrow-hoff則が、新しい視点から古い問題にアプローチできる様々な言語現象の計算シミュレーションの予期せぬ機会を提供する方法を示す。 In this paper we present the Widrow-Hoff rule and its applications to language data. After contextualizing the rule historically and placing it in the chain of neurally inspired artificial learning models, we explain its rationale and implementational considerations. Using a number of case studies we illustrate how the Widrow-Hoff rule offers unexpected opportunities for the computational simulation of a range of language phenomena that make it possible to approach old problems from a novel perspective. | 翻訳日:2022-12-25 13:58:53 公開日:2021-08-28 |
# 分散非i.i.d.データによるビザンチン-ロバスト分散分散低減型フェデレート学習 Byzantine-Robust Variance-Reduced Federated Learning over Distributed Non-i.i.d. Data ( http://arxiv.org/abs/2009.08161v2 ) ライセンス: Link先を確認 | Jie Peng, Zhaoxian Wu, Qing Ling and Tianyi Chen | (参考訳) 我々は、労働者のデータが独立で、同一に分散されていない(d.d.)連邦学習問題を考える。
学習プロセス中に、未知数のビザンチン労働者が中央ノードに悪意のあるメッセージを送信し、顕著な学習エラーを引き起こす可能性がある。
byzantine-robustメソッドのほとんどは、受信したメッセージを集約するために堅牢なアグリゲーションルールを使用することでこの問題に対処しているが、すべての正規ワーカーがi.i.d.データを持っているという仮定に依存している。
ビザンチン攻撃の影響を緩和するための確率的勾配ノイズの低減の重要性を踏まえて,内部変動(正規労働者毎のサンプル異質性を示す)と外部変動(正規労働者間のサンプル異質性を表す)のインパクトを低減するための再サンプリング戦略と,内部変動を徐々に排除するための確率的平均勾配アルゴリズムを用いる。
分散削減されたメッセージは、ロバストな幾何学的中央値演算子で集約される。
提案手法は線形収束率で最適解近傍に到達し,学習誤差はビザンチン作業者の数によって決定される。
数値実験により理論結果が一致し,提案手法が非i.i.d.設定における最先端技術を上回ることを示した。 We consider the federated learning problem where data on workers are not independent and identically distributed (i.i.d.). During the learning process, an unknown number of Byzantine workers may send malicious messages to the central node, leading to remarkable learning error. Most of the Byzantine-robust methods address this issue by using robust aggregation rules to aggregate the received messages, but rely on the assumption that all the regular workers have i.i.d. data, which is not the case in many federated learning applications. In light of the significance of reducing stochastic gradient noise for mitigating the effect of Byzantine attacks, we use a resampling strategy to reduce the impact of both inner variation (that describes the sample heterogeneity on every regular worker) and outer variation (that describes the sample heterogeneity among the regular workers), along with a stochastic average gradient algorithm to gradually eliminate the inner variation. The variance-reduced messages are then aggregated with a robust geometric median operator. We prove that the proposed method reaches a neighborhood of the optimal solution at a linear convergence rate and the learning error is determined by the number of Byzantine workers. Numerical experiments corroborate the theoretical results and show that the proposed method outperforms the state-of-the-arts in the non-i.i.d. setting. | 翻訳日:2022-10-17 08:36:00 公開日:2021-08-28 |
# 早期グラフに基づく異常検出のための行動系列拡張 Action Sequence Augmentation for Early Graph-based Anomaly Detection ( http://arxiv.org/abs/2010.10016v2 ) ライセンス: Link先を確認 | Tong Zhao, Bo Ni, Wenhao Yu, Zhichun Guo, Neil Shah, Meng Jiang | (参考訳) webプラットフォームの普及は、オンライン乱用に対するインセンティブを生み出した。
疑わしいアカウントや行動を特定するために,グラフに基づく異常検出手法が多数提案されている。
しかし,そのほとんどは,ユーザがこのような動作を多く行えば,異常を検出する。
ユーザの観察データが早期に制限されている場合,財務損失を最小限に抑えるため,そのパフォーマンスが著しく損なわれる。
本研究では,早期異常検出にアクションシーケンス拡張を用いた新しいフレームワークであるElandを提案する。
elandは、各ユーザの次のアクションを予測するシーケンス予測器を使用し、アクションシーケンス拡張とユーザ-アクショングラフ異常検出の相互強化を利用する。
3つの実世界のデータセットの実験により、イーランドは様々なグラフベースの異常検出手法の性能を改善した。
イーランドでは、早期の異常検出性能は、ROC曲線の下でのエリアで最大15%以上の観測データを必要とする非増強法よりも優れている。 The proliferation of web platforms has created incentives for online abuse. Many graph-based anomaly detection techniques are proposed to identify the suspicious accounts and behaviors. However, most of them detect the anomalies once the users have performed many such behaviors. Their performance is substantially hindered when the users' observed data is limited at an early stage, which needs to be improved to minimize financial loss. In this work, we propose Eland, a novel framework that uses action sequence augmentation for early anomaly detection. Eland utilizes a sequence predictor to predict next actions of every user and exploits the mutual enhancement between action sequence augmentation and user-action graph anomaly detection. Experiments on three real-world datasets show that Eland improves the performance of a variety of graph-based anomaly detection methods. With Eland, anomaly detection performance at an earlier stage is better than non-augmented methods that need significantly more observed data by up to 15% on the Area under the ROC curve. | 翻訳日:2022-10-05 07:48:45 公開日:2021-08-28 |
# ニューラルネットワークモデルによるレーザー粉末充填Ti-6Al-4V合金の疲労寿命に及ぼす表面および細孔特性の影響 Impact of Surface and Pore Characteristics on Fatigue Life of Laser Powder Bed Fusion Ti-6Al-4V Alloy Described by Neural Network Models ( http://arxiv.org/abs/2109.09655v1 ) ライセンス: Link先を確認 | Seunghyun Moon, Ruimin Ma, Ross Attardo, Charles Tomonto, Mark Nordin, Paul Wheelock, Michael Glavicic, Maxwell Layman, Richard Billo, Tengfei Luo | (参考訳) 本研究では,レーザー粉末層融合(LPBF)Ti-6Al-4Vの疲労寿命に及ぼす表面粗さおよび細孔特性の影響について検討した。
197本の疲労バーは同じレーザーパワーで印刷されたが、走査速度は異なる。
これらの作用は微小孔のジオメトリーに変化をもたらし、マイクロ計算トモグラフィーを用いてその変動を特徴づけた。
疲労バーの表面粗さの違いを生じさせるため, 試料の半分をグリットブラスト, 残り半分を加工した。
表面粗さと気孔の統計について, 疲労挙動を解析した。
グリットブラスト試料では,LPBF法における凹面レーザースキャンにより細孔脱離帯と内部孔とに異なる特徴が認められた。
内部の細孔が内部の細孔に類似した加工試料に対して, 疲労寿命は応力方向に対して垂直な面内の平均細孔径および突出孔面積と高い相関を示した。
最後に, ドロップアウトニューラルネットワーク(donn)を用いた機械学習モデルを用いて, 疲労データ(logn)に対する表面特徴と細孔特徴のリンクを確立し, 良好な予測精度を示した。
疲労寿命の予測に加えて、DONNは予測の不確実性を推定することもできる。 In this study, the effects of surface roughness and pore characteristics on fatigue lives of laser powder bed fusion (LPBF) Ti-6Al-4V parts were investigated. The 197 fatigue bars were printed using the same laser power but with varied scanning speeds. These actions led to variations in the geometries of microscale pores, and such variations were characterized using micro-computed tomography. To generate differences in surface roughness in fatigue bars, half of the samples were grit-blasted and the other half machined. Fatigue behaviors were analyzed with respect to surface roughness and statistics of the pores. For the grit-blasted samples, the contour laser scan in the LPBF strategy led to a pore-depletion zone isolating surface and internal pores with different features. For the machined samples, where surface pores resemble internal pores, the fatigue life was highly correlated with the average pore size and projected pore area in the plane perpendicular to the stress direction. Finally, a machine learning model using a drop-out neural network (DONN) was employed to establish a link between surface and pore features to the fatigue data (logN), and good prediction accuracy was demonstrated. Besides predicting fatigue lives, the DONN can also estimate the prediction uncertainty. | 翻訳日:2021-09-26 22:30:45 公開日:2021-08-28 |
# 生成型adversarial networkと顔ランドマーク検出による細粒度画像分類 Towards Fine-grained Image Classification with Generative Adversarial Networks and Facial Landmark Detection ( http://arxiv.org/abs/2109.00891v1 ) ライセンス: Link先を確認 | Mahdi Darvish, Mahsa Pouramini, Hamid Bahador | (参考訳) カテゴリーを区別するには複雑で局所的な違いを学習する必要があるため、きめ細かい分類は依然として難しい課題である。
画像内のオブジェクトのポーズ、スケール、位置の多様性は、問題をさらに難しくします。
最近のVision Transformerモデルは高い性能を実現するが、大量の入力データが必要である。
この問題に対処するため、GANベースのデータ拡張を最大限活用して、余分なデータセットインスタンスを生成しました。
Oxford-IIIT Petsはこの実験で選択したデータセットです。
規模、ポーズ、照明のバリエーションがある37種類の猫と犬で構成されており、分類作業の難しさを高めている。
さらに,最近のGAN(Generative Adversarial Network)であるStyleGAN2-ADAモデルの性能を向上し,トレーニングセットへの過度な適合を防止しつつ,よりリアルな画像を生成する。
私たちは、動物の顔のランドマークを予測するために、MobileNetV2のカスタマイズバージョンをトレーニングしました。
最後に、合成画像を元のデータセットと組み合わせ、提案手法を標準のGANに比較し、トレーニングデータの異なるサブセットで拡張しない。
近年の視覚変換器 (ViT) モデルを用いて, きめ細かい画像分類の精度を評価し, 評価を行った。 Fine-grained classification remains a challenging task because distinguishing categories needs learning complex and local differences. Diversity in the pose, scale, and position of objects in an image makes the problem even more difficult. Although the recent Vision Transformer models achieve high performance, they need an extensive volume of input data. To encounter this problem, we made the best use of GAN-based data augmentation to generate extra dataset instances. Oxford-IIIT Pets was our dataset of choice for this experiment. It consists of 37 breeds of cats and dogs with variations in scale, poses, and lighting, which intensifies the difficulty of the classification task. Furthermore, we enhanced the performance of the recent Generative Adversarial Network (GAN), StyleGAN2-ADA model to generate more realistic images while preventing overfitting to the training set. We did this by training a customized version of MobileNetV2 to predict animal facial landmarks; then, we cropped images accordingly. Lastly, we combined the synthetic images with the original dataset and compared our proposed method with standard GANs augmentation and no augmentation with different subsets of training data. We validated our work by evaluating the accuracy of fine-grained image classification on the recent Vision Transformer (ViT) Model. | 翻訳日:2021-09-05 08:56:22 公開日:2021-08-28 |
# (参考訳) DASH:人工知能のための視覚と言語を用いたモジュール化されたヒューマンマニピュレーションシミュレーション DASH: Modularized Human Manipulation Simulation with Vision and Language for Embodied AI ( http://arxiv.org/abs/2108.12536v1 ) ライセンス: CC BY-SA 4.0 | Yifeng Jiang, Michelle Guo, Jiangshan Li, Ioannis Exarchos, Jiajun Wu, C. Karen Liu | (参考訳) 人間のような知覚とアクチュレーションの制約を具体化し、仮想的な人間を作ることは、多くの科学や工学のアプリケーションのための統合シミュレーションプラットフォームを提供することを約束する。
自然言語コマンドが与えられたとき、人間の動作データを必要とせずに、人間の視覚知覚、固有感覚、触覚のみを使用して、物理的にシミュレートされたクラッタ環境において把持と積み重ねを行う、具体化された仮想人間である、動的かつ自律的なシミュレート人間(dash)を提案する。
DASHシステムを視覚モジュール、言語モジュール、および2つのスキルカテゴリの操作モジュールに分解することにより、DASHがランダムに配置されたタスクを高い成功率で実行できるように、異なるモジュールに対して解析的および機械学習テクニックを混在させ、マッチングすることができる。
モジュラーデザインはまた、より複雑な操作スキルに対して分析と拡張性を好む。 Creating virtual humans with embodied, human-like perceptual and actuation constraints has the promise to provide an integrated simulation platform for many scientific and engineering applications. We present Dynamic and Autonomous Simulated Human (DASH), an embodied virtual human that, given natural language commands, performs grasp-and-stack tasks in a physically-simulated cluttered environment solely using its own visual perception, proprioception, and touch, without requiring human motion data. By factoring the DASH system into a vision module, a language module, and manipulation modules of two skill categories, we can mix and match analytical and machine learning techniques for different modules so that DASH is able to not only perform randomly arranged tasks with a high success rate, but also do so under anthropomorphic constraints and with fluid and diverse motions. The modular design also favors analysis and extensibility to more complex manipulation skills. | 翻訳日:2021-09-02 21:40:08 公開日:2021-08-28 |
# (参考訳) bitcoinネットワークにおけるランサムウェアアクタの識別 Identifying Ransomware Actors in the Bitcoin Network ( http://arxiv.org/abs/2108.13807v1 ) ライセンス: CC BY 4.0 | Siddhartha Dalal, Zihe Wang, Siddhanth Sabharwal | (参考訳) bitcoinネットワークの疑似匿名性のため、ユーザーは自分のbitcoinアドレスの後ろに隠れて、そのアドレス間の公式なリンクなしで、即座に無制限に生成することができる。
そのため、ランサムウェアなどの違法行為に関わった役者による支払いの転送に利用されている。
ギャンブルは違法な資金の送金によく用いられるため、私たちが考える他の活動はギャンブルに関連している。
ここでの問題は、Bitcoin取引の時間的に制限されたグラフが与えられた場合、不正行為に関連する共通パターンをどの程度特定し、他のランサムウェアアクターを見つけるために適用できるかということだ。
問題はかなり複雑で、何千ものアドレスが同一のアクターに属し、それらと共通の行動パターンの間に明らかなつながりがない。
本論文の主な貢献は,ローカルクラスタリングのための新しいアルゴリズムの導入と,悪意のあるアクタを識別するための教師付きグラフ機械学習の適用である。
既知のアクターの非常に局所的なサブグラフは、ランサムウェア、ランダム、ギャンブルのアクターを85%の精度で区別するのに十分であることを示す。 Due to the pseudo-anonymity of the Bitcoin network, users can hide behind their bitcoin addresses that can be generated in unlimited quantity, on the fly, without any formal links between them. Thus, it is being used for payment transfer by the actors involved in ransomware and other illegal activities. The other activity we consider is related to gambling since gambling is often used for transferring illegal funds. The question addressed here is that given temporally limited graphs of Bitcoin transactions, to what extent can one identify common patterns associated with these fraudulent activities and apply them to find other ransomware actors. The problem is rather complex, given that thousands of addresses can belong to the same actor without any obvious links between them and any common pattern of behavior. The main contribution of this paper is to introduce and apply new algorithms for local clustering and supervised graph machine learning for identifying malicious actors. We show that very local subgraphs of the known such actors are sufficient to differentiate between ransomware, random and gambling actors with 85% prediction accuracy on the test data set. | 翻訳日:2021-09-02 07:15:19 公開日:2021-08-28 |
# (参考訳) 単一投影画像からの変形可能な形状再構成のための画像対グラフ畳み込みネットワーク Image-to-Graph Convolutional Network for Deformable Shape Reconstruction from a Single Projection Image ( http://arxiv.org/abs/2108.12533v1 ) ライセンス: CC BY 4.0 | M. Nakao, F. Tong, M. Nakamura, T. Matsuda | (参考訳) 二次元x線画像からの変形可能な臓器の形状再構成は画像誘導介入の重要な技術である。
本稿では,一視点投影画像からの変形可能な形状再構成のための画像間畳み込みネットワーク(IGCN)を提案する。
IGCNは、変形マッピングスキームに基づいて、形状/変形変動と深部画像特徴の関係を学習する。
腹部臓器の呼吸運動を標的とした実験では, 平均距離3.6mmの単一デジタル再構成X線写真から肝臓の形状を復元できる正規化損失関数の枠組みを確認した。 Shape reconstruction of deformable organs from two-dimensional X-ray images is a key technology for image-guided intervention. In this paper, we propose an image-to-graph convolutional network (IGCN) for deformable shape reconstruction from a single-viewpoint projection image. The IGCN learns relationship between shape/deformation variability and the deep image features based on a deformation mapping scheme. In experiments targeted to the respiratory motion of abdominal organs, we confirmed the proposed framework with a regularized loss function can reconstruct liver shapes from a single digitally reconstructed radiograph with a mean distance error of 3.6mm. | 翻訳日:2021-09-01 09:15:58 公開日:2021-08-28 |
# (参考訳) SeeTheSeams:衛星画像におけるシーム彫刻画像の局所的検出 SeeTheSeams: Localized Detection of Seam Carving based Image Forgery in Satellite Imagery ( http://arxiv.org/abs/2108.12534v1 ) ライセンス: CC BY 4.0 | Chandrakanth Gudavalli, Erik Rosten, Lakshmanan Nataraj, Shivkumar Chandrasekaran, B. S. Manjunath | (参考訳) シーム彫刻はコンテンツ認識画像再ターゲティングの一般的な手法である。
例えば、建物のGPS位置を変更したり、衛星画像に道路を挿入/削除するなど、意図的に画像を操作できる。
本稿では,このような画像中のシームの検出と局所化のための新しい手法を提案する。
シーム彫刻に基づく操作を検出する方法は存在するが、シーム彫刻偽造のロバストなローカライズと検出が可能となるのはこれが初めてである。
また,海面局所化スコア(SLS)を用いて,海面局在化の有効性を評価する。
提案手法は,異なるソースからの大量の画像から広範囲に評価され,これらのデータセット間で高いレベルの検出とローカライズ性能を示す。
この作業中にキュレートされたデータセットは一般公開される予定だ。 Seam carving is a popular technique for content aware image retargeting. It can be used to deliberately manipulate images, for example, change the GPS locations of a building or insert/remove roads in a satellite image. This paper proposes a novel approach for detecting and localizing seams in such images. While there are methods to detect seam carving based manipulations, this is the first time that robust localization and detection of seam carving forgery is made possible. We also propose a seam localization score (SLS) metric to evaluate the effectiveness of localization. The proposed method is evaluated extensively on a large collection of images from different sources, demonstrating a high level of detection and localization performance across these datasets. The datasets curated during this work will be released to the public. | 翻訳日:2021-09-01 09:06:44 公開日:2021-08-28 |
# (参考訳) 昆虫害虫画像検出のための畳み込みニューラルネットワークの高性能アンサンブル High performing ensemble of convolutional neural networks for insect pest image detection ( http://arxiv.org/abs/2108.12539v1 ) ライセンス: CC BY 4.0 | Loris Nanni, Alessandro Manfe, Gianluca Maguolo, Alessandra Lumini and Sheryl Brahnam | (参考訳) 害虫の感染は、世界の作物の被害と収入の喪失の主な原因である。
侵入昆虫の自動識別は、害虫の同定を大幅にスピードアップし、除去を早める。
本稿では,異なるトポロジ(ResNet50, GoogleNet, ShuffleNet, MobileNetv2, DenseNet201)に基づいたCNNのアンサンブルを生成する。
DGradに基づくディープネットワーク最適化のための2つの新しいAdamアルゴリズムが提案され、学習率のスケーリング係数が導入された。
データ拡張またはAdam最適化のタイプに異なる5つのCNNのセットは、Deng(SMALL)と大きなIP102害データセットの両方でトレーニングされた。
アンサンブルを3つの性能指標を用いて比較評価した。
異なる拡張法とここで提案された2つの新しいアダム変種を用いてcnnを結合した最高の演奏アンサンブルは、両方の昆虫データセットの最先端(95.52%がdeng、73.46%がip102、これは人間の専門家の分類と競合するdengのスコアである。
医学画像分類のためのデータセットで追加のテストが行われ、提案されたアダム最適化モデルの堅牢性とパワーがさらに検証された。
すべてのMATLABソースコードはhttps://github.com/LorisNanni/で入手できる。 Pest infestation is a major cause of crop damage and lost revenues worldwide. Automatic identification of invasive insects would greatly speedup the identification of pests and expedite their removal. In this paper, we generate ensembles of CNNs based on different topologies (ResNet50, GoogleNet, ShuffleNet, MobileNetv2, and DenseNet201) altered by random selection from a simple set of data augmentation methods or optimized with different Adam variants for pest identification. Two new Adam algorithms for deep network optimization based on DGrad are proposed that introduce a scaling factor in the learning rate. Sets of the five CNNs that vary in either data augmentation or the type of Adam optimization were trained on both the Deng (SMALL) and the large IP102 pest data sets. Ensembles were compared and evaluated using three performance indicators. The best performing ensemble, which combined the CNNs using the different augmentation methods and the two new Adam variants proposed here, achieved state of the art on both insect data sets: 95.52% on Deng and 73.46% on IP102, a score on Deng that competed with human expert classifications. Additional tests were performed on data sets for medical imagery classification that further validated the robustness and power of the proposed Adam optimization variants. All MATLAB source code is available at https://github.com/LorisNanni/. | 翻訳日:2021-09-01 08:47:02 公開日:2021-08-28 |
# (参考訳) parallax eddie platformにおけるros自律ナビゲーションの実装 An implementation of ROS Autonomous Navigation on Parallax Eddie platform ( http://arxiv.org/abs/2108.12571v1 ) ライセンス: CC BY 4.0 | Hafiq Anas, Wee Hong Ong | (参考訳) 本稿では,ロボットオペレーティング・システム(ROS)に基づく自律ナビゲーション機能の実装について,Eddie Robotと呼ばれる車輪付きディファレンシャルドライブモバイルプラットフォーム上で実施する。
rosは、多くの再利用可能なソフトウェアスタックと、ロボットプロジェクト開発に理想的な環境を提供する可視化およびデバッグツールを含むフレームワークである。
本論文の主な貢献は,航法スタック(Navigation Stack)と呼ばれるROSの自律ナビゲーションシステムと連携し,自律ナビゲーションのための1つのアプリケーションユースケースを実装するための,Eddieロボットのカスタマイズハードウェアおよびソフトウェアシステムセットアップの説明である。
本稿では,この移動ロボットのユースケースを示すために写真撮影が選択される。 This paper presents an implementation of autonomous navigation functionality based on Robot Operating System (ROS) on a wheeled differential drive mobile platform called Eddie robot. ROS is a framework that contains many reusable software stacks as well as visualization and debugging tools that provides an ideal environment for any robotic project development. The main contribution of this paper is the description of the customized hardware and software system setup of Eddie robot to work with an autonomous navigation system in ROS called Navigation Stack and to implement one application use case for autonomous navigation. For this paper, photo taking is chosen to demonstrate a use case of the mobile robot. | 翻訳日:2021-09-01 08:30:51 公開日:2021-08-28 |
# (参考訳) 相互情報に基づく層別モデル刈り込み Layer-wise Model Pruning based on Mutual Information ( http://arxiv.org/abs/2108.12594v1 ) ライセンス: CC BY 4.0 | Chun Fan, Jiwei Li, Xiang Ao, Fei Wu, Yuxian Meng, Xiaofei Sun | (参考訳) The proposed pruning strategy offers merits over weight-based pruning techniques: (1) it avoids irregular memory access since representations and matrices can be squeezed into their smaller but dense counterparts, leading to greater speedup; (2) in a manner of top-down pruning, the proposed method operates from a more global perspective based on training signals in the top layer, and prunes each layer by propagating the effect of global signals through layers, leading to better performances at the same sparsity level.
広汎な実験により、提案手法は重量ベースプルーニング法(マグニチュードプルーニング、ムーブプルーニングなど)よりも高いスピードアップと高いパフォーマンスを提供する。 The proposed pruning strategy offers merits over weight-based pruning techniques: (1) it avoids irregular memory access since representations and matrices can be squeezed into their smaller but dense counterparts, leading to greater speedup; (2) in a manner of top-down pruning, the proposed method operates from a more global perspective based on training signals in the top layer, and prunes each layer by propagating the effect of global signals through layers, leading to better performances at the same sparsity level. Extensive experiments show that at the same sparsity level, the proposed strategy offers both greater speedup and higher performances than weight-based pruning methods (e.g., magnitude pruning, movement pruning). | 翻訳日:2021-09-01 08:19:17 公開日:2021-08-28 |
# (参考訳) あら 間違いです!
ターンバック発話を含むリアル対話状態追跡に向けて Oh My Mistake!: Toward Realistic Dialogue State Tracking including Turnback Utterances ( http://arxiv.org/abs/2108.12637v1 ) ライセンス: CC BY 4.0 | Takyoung Kim, Yukyung Lee, Hoonsang Yoon, Pilsung Kang, Misuk Kim | (参考訳) エンド・ツー・エンドの会話システムの重要な構成要素である対話状態追跡(dst)の目的は、実世界の状況によく反応するモデルを構築することである。
通常の会話では心を変えることが多いが、現在のベンチマークデータセットはそのような出来事を適切に反映せず、代わりに過剰に単純化された会話で構成されている。
この研究を刺激する主要な質問として、‘現在のベンチマークデータセットは、頭が変わるカジュアルな会話を扱うのに十分な多様性を持っているか?
テンプレートベースのターンバック発話を単に注入するだけでDSTモデルの性能が大幅に低下するため、その答えは ``No'' であることがわかった。
マルチウォズにおける試験目標精度は, 最も単純なターンバック発話を注入した場合, 5\%p以上低下した。
さらに、複雑なターンバックの状況に直面すると、パフォーマンスの劣化が悪化する。
しかし、学習データセットに返り値が適切に含まれている場合、パフォーマンスがリバウンドするのも観察し、問題はdstモデルではなく、ベンチマークデータセットの構築にあることを示唆した。 The primary purpose of dialogue state tracking (DST), a critical component of an end-to-end conversational system, is to build a model that responds well to real-world situations. Although we often change our minds during ordinary conversations, current benchmark datasets do not adequately reflect such occurrences and instead consist of over-simplified conversations, in which no one changes their mind during a conversation. As the main question inspiring the present study,``Are current benchmark datasets sufficiently diverse to handle casual conversations in which one changes their mind?'' We found that the answer is ``No'' because simply injecting template-based turnback utterances significantly degrades the DST model performance. The test joint goal accuracy on the MultiWOZ decreased by over 5\%p when the simplest form of turnback utterance was injected. Moreover, the performance degeneration worsens when facing more complicated turnback situations. However, we also observed that the performance rebounds when a turnback is appropriately included in the training dataset, implying that the problem is not with the DST models but rather with the construction of the benchmark dataset. | 翻訳日:2021-09-01 08:00:04 公開日:2021-08-28 |
# (参考訳) 単一変数ダイナミクスを用いた遅延型リザーバコンピュータのマスタメモリ機能 Master memory function for delay-based reservoir computers with single-variable dynamics ( http://arxiv.org/abs/2108.12643v1 ) ライセンス: CC BY 4.0 | Felix K\"oster, Serhiy Yanchuk, Kathy L\"udge | (参考訳) 本論文では,多くの遅延型貯水池コンピュータがユニバーサルマスターメモリ機能(MMF)によって特徴付けられることを示す。
2つの独立したパラメータで計算すると、この関数は、小さな入力を持つ遅延ベースの1変数のリニアメモリ容量を提供する。
さらに,その効率的かつ高速な計算を可能にするMMFの解析記述を提案する。
本手法は,マッキーグラスや池田系などの既知の力学規則を満たした貯水池だけでなく,力学モデルが利用できない貯水池にも適用できる。
また,貯水池コンピュータの性能とMMFが与えるメモリ容量を比較した。 We show that many delay-based reservoir computers considered in the literature can be characterized by a universal master memory function (MMF). Once computed for two independent parameters, this function provides linear memory capacity for any delay-based single-variable reservoir with small inputs. Moreover, we propose an analytical description of the MMF that enables its efficient and fast computation. Our approach can be applied not only to reservoirs governed by known dynamical rules such as Mackey-Glass or Ikeda-like systems but also to reservoirs whose dynamical model is not available. We also present results comparing the performance of the reservoir computer and the memory capacity given by the MMF. | 翻訳日:2021-09-01 07:44:15 公開日:2021-08-28 |
# (参考訳) denselidar: real-time pseudo dense depth guided depth completion network DenseLiDAR: A Real-Time Pseudo Dense Depth Guided Depth Completion Network ( http://arxiv.org/abs/2108.12655v1 ) ライセンス: CC BY 4.0 | Jiaqi Gu, Zhiyu Xiang, Yuwen Ye, Lingxuan Wang | (参考訳) Depth Completionはスパース入力から深度マップを生成し、環境のより完全な3D記述を提供する。
深さの完成に大きな進歩があったにもかかわらず、入力の空間性や基底の真理密度の低さがこの問題を難しくしている。
本研究では,実時間擬似奥行きガイド付きニューラルネットワークであるdeeplidarを提案する。
我々は,(1)出力の残差構造の構築,(2)スパース入力データの修正,(3)ネットワークのトレーニングのための構造的損失の密集という3つの側面において,単純な形態素演算から得られた密集した擬似深層マップを用いてネットワークを導出する。
これらの新しい設計のおかげで、出力のより高い性能が達成できた。
また,予測深度マップの品質を評価するための2つの新しい指標も提示した。
KITTI深度補完ベンチマークの大規模な実験により,50Hzのフレームレートで最先端の性能を達成できることが示唆された。
予測された深度は、下流のロボット知覚や位置決めタスクによってさらに評価される。
3Dオブジェクト検出のタスクでは、KITTI 3Dオブジェクト検出データセット上で、小さなオブジェクトカテゴリのパフォーマンスが3~5%向上する。
RGB-D SLAMでは、KITTIオドメトリーデータセットでも車両軌道の精度が向上している。
これらの有望な結果は、深度予測の高品質性を検証するだけでなく、深度完了結果を用いて下流タスクの改善の可能性も示している。 Depth Completion can produce a dense depth map from a sparse input and provide a more complete 3D description of the environment. Despite great progress made in depth completion, the sparsity of the input and low density of the ground truth still make this problem challenging. In this work, we propose DenseLiDAR, a novel real-time pseudo-depth guided depth completion neural network. We exploit dense pseudo-depth map obtained from simple morphological operations to guide the network in three aspects: (1) Constructing a residual structure for the output; (2) Rectifying the sparse input data; (3) Providing dense structural loss for training the network. Thanks to these novel designs, higher performance of the output could be achieved. In addition, two new metrics for better evaluating the quality of the predicted depth map are also presented. Extensive experiments on KITTI depth completion benchmark suggest that our model is able to achieve the state-of-the-art performance at the highest frame rate of 50Hz. The predicted dense depth is further evaluated by several downstream robotic perception or positioning tasks. For the task of 3D object detection, 3~5 percent performance gains on small objects categories are achieved on KITTI 3D object detection dataset. For RGB-D SLAM, higher accuracy on vehicle's trajectory is also obtained in KITTI Odometry dataset. These promising results not only verify the high quality of our depth prediction, but also demonstrate the potential of improving the related downstream tasks by using depth completion results. | 翻訳日:2021-09-01 07:23:04 公開日:2021-08-28 |
# (参考訳) 政府がAI開発を監視すべき理由と方法 Why and How Governments Should Monitor AI Development ( http://arxiv.org/abs/2108.12427v1 ) ライセンス: CC BY 4.0 | Jess Whittlestone, Jack Clark | (参考訳) 本稿では,AIシステムの能力と影響を体系的に計測し,監視する政府の能力に投資することで,人工知能(AI)のガバナンスを改善するための提案を概説する。
もし採用されれば、政府はAIエコシステムに関するより多くの情報を提供し、より効果的にAI開発と展開を最も社会的かつ経済的に有益な方向に導くことができる。
また、戦略的に変革的な能力の出現や有害なシステムの展開など、AIエコシステムの変化によって起こりうる潜在的な脅威や害を迅速に特定するインフラストラクチャも構築される。
簡単に言うと、従来のガバナンスアプローチは、AIの進歩のスピードに合わせてペースを維持するのに苦労しています。
政府はインフラの計測とモニタリングに投資しなければならない。
我々はこの提案を詳細に議論し、政府が測定と監視にフォーカスできる具体的な内容と、それが政策立案にもたらすメリットについて概説する。
最後に,いくつかのパイロットプロジェクトの概要と,実際に実施するための考慮事項について概説する。 In this paper we outline a proposal for improving the governance of artificial intelligence (AI) by investing in government capacity to systematically measure and monitor the capabilities and impacts of AI systems. If adopted, this would give governments greater information about the AI ecosystem, equipping them to more effectively direct AI development and deployment in the most societally and economically beneficial directions. It would also create infrastructure that could rapidly identify potential threats or harms that could occur as a consequence of changes in the AI ecosystem, such as the emergence of strategically transformative capabilities, or the deployment of harmful systems. We begin by outlining the problem which motivates this proposal: in brief, traditional governance approaches struggle to keep pace with the speed of progress in AI. We then present our proposal for addressing this problem: governments must invest in measurement and monitoring infrastructure. We discuss this proposal in detail, outlining what specific things governments could focus on measuring and monitoring, and the kinds of benefits this would generate for policymaking. Finally, we outline some potential pilot projects and some considerations for implementing this in practice. | 翻訳日:2021-09-01 07:06:42 公開日:2021-08-28 |
# (参考訳) 胎児脳自動計測のための二重反転校正フレームワーク A Dual Adversarial Calibration Framework for Automatic Fetal Brain Biometry ( http://arxiv.org/abs/2108.12719v1 ) ライセンス: CC BY 4.0 | Yuan Gao and Lok Hin Lee and Richard Droste and Rachel Craik and Sridevi Beriwal and Aris Papageorghiou and Alison Noble | (参考訳) 本稿では,低所得国と中所得国の需要に動機付けられた胎児脳自動計測への新たなアプローチを提案する。
具体的には、ハイエンド(HE)超音波画像を利用して、低コスト(LC)超音波画像のバイオメトリソリューションを構築する。
画像タイプ間の重要な画像分布シフトに不変な深層モデルを訓練するための新しい教師なし領域適応手法を提案する。
提案手法は,デュアル・アドバーサル・キャリブレーション(dac)フレームワークを用いて,モデル不変性(i)lc画像から派生した特徴空間におけるアドバーサル・摂動,ii)出現領域の不一致を強制する逆経路からなる。
提案手法では,平均絶対誤差(mae)が2.43mmと1.65mmの低コスト超音波装置から得られた画像の頭部径と頭部周囲径を推定し,それぞれ7.28mmと5.65mmと算出した。 This paper presents a novel approach to automatic fetal brain biometry motivated by needs in low- and medium- income countries. Specifically, we leverage high-end (HE) ultrasound images to build a biometry solution for low-cost (LC) point-of-care ultrasound images. We propose a novel unsupervised domain adaptation approach to train deep models to be invariant to significant image distribution shift between the image types. Our proposed method, which employs a Dual Adversarial Calibration (DAC) framework, consists of adversarial pathways which enforce model invariance to; i) adversarial perturbations in the feature space derived from LC images, and ii) appearance domain discrepancy. Our Dual Adversarial Calibration method estimates transcerebellar diameter and head circumference on images from low-cost ultrasound devices with a mean absolute error (MAE) of 2.43mm and 1.65mm, compared with 7.28 mm and 5.65 mm respectively for SOTA. | 翻訳日:2021-09-01 06:49:49 公開日:2021-08-28 |
# (参考訳) IoTネットワークにおける機械学習による侵入検出のための特徴抽出 Feature Extraction for Machine Learning-based Intrusion Detection in IoT Networks ( http://arxiv.org/abs/2108.12722v1 ) ライセンス: CC BY 4.0 | Mohanad Sarhan, Siamak Layeghy, Nour Moustafa, Marcus Gallagher, Marius Portmann | (参考訳) IoTネットワークで発生した膨大な数のネットワークセキュリティ違反は、現在のネットワーク侵入検知システム(NIDS)の信頼性を実証している。
その結果、ネットワークの中断と機密データの損失が発生し、nids技術を改善するための研究領域が活発になった。
関連研究の分析において、ほとんどの研究者は、NIDSデータセット上の特徴量削減(FR)と機械学習(ML)の未検索組み合わせを用いて、より良い分類結果を得ることを目標とした。
しかし、これらのデータセットは、機能セット、攻撃タイプ、ネットワーク設計で異なる。
そこで本稿は,これらの手法が様々なデータセットにまたがって一般化できるかどうかを明らかにすることを目的とする。
6つのMLモデル(Deep Feed Forward、Convolutional Neural Network、Recurrent Neural Network、Decision Tree、Logistic Regression、Naive Bayes)が使用されている。
主成分分析(PCA)、自動エンコーダ(AE)、線形識別分析(LDA)の3つの特徴抽出(FE)アルゴリズムの検出精度を,UNSW-NB15,ToN-IoT,CSE-CIC-IDS2018の3つのベンチマークデータセットを用いて評価した。
PCA と AE のアルゴリズムは広く用いられているが、抽出された次元の最適な数を決定することは見過ごされている。
その結果、すべてのデータセットに最適なスコアを得られる明確なFEメソッドやMLモデルは存在しないことがわかった。
抽出された次元の最適な数はデータセット毎に特定され、LDAは2つのデータセット上でのMLモデルの性能を低下させる。
分散はLDAとPCAの抽出次元を分析するために用いられる。
最後に,データセットの選択は応用技術の性能を著しく変化させることを結論づけるとともに,この研究分野のさらなる進歩と進歩を促進するための普遍的(ベンチマーク)機能セットの必要性を論じる。 The tremendous numbers of network security breaches that have occurred in IoT networks have demonstrated the unreliability of current Network Intrusion Detection Systems (NIDSs). Consequently, network interruptions and loss of sensitive data have occurred which led to an active research area for improving NIDS technologies. During an analysis of related works, it was observed that most researchers aimed to obtain better classification results by using a set of untried combinations of Feature Reduction (FR) and Machine Learning (ML) techniques on NIDS datasets. However, these datasets are different in feature sets, attack types, and network design. Therefore, this paper aims to discover whether these techniques can be generalised across various datasets. Six ML models are utilised: a Deep Feed Forward, Convolutional Neural Network, Recurrent Neural Network, Decision Tree, Logistic Regression, and Naive Bayes. The detection accuracy of three Feature Extraction (FE) algorithms; Principal Component Analysis (PCA), Auto-encoder (AE), and Linear Discriminant Analysis (LDA) is evaluated using three benchmark datasets; UNSW-NB15, ToN-IoT and CSE-CIC-IDS2018. Although PCA and AE algorithms have been widely used, determining their optimal number of extracted dimensions has been overlooked. The results obtained indicate that there is no clear FE method or ML model that can achieve the best scores for all datasets. The optimal number of extracted dimensions has been identified for each dataset and LDA decreases the performance of the ML models on two datasets. The variance is used to analyse the extracted dimensions of LDA and PCA. Finally, this paper concludes that the choice of datasets significantly alters the performance of the applied techniques and we argue for the need for a universal (benchmark) feature set to facilitate further advancement and progress in this field of research. | 翻訳日:2021-09-01 06:39:16 公開日:2021-08-28 |
# DKM:ニューラルネットワーク圧縮のための微分可能なK平均クラスタリング層 DKM: Differentiable K-Means Clustering Layer for Neural Network Compression ( http://arxiv.org/abs/2108.12659v1 ) ライセンス: Link先を確認 | Minsik Cho, Keivan A. Vahid, Saurabh Adya, Mohammad Rastegari | (参考訳) 効率的なオンデバイス推論のためのディープニューラルネットワーク(dnn)モデル圧縮は、メモリ要件を削減し、ユーザデータをデバイス上に保持するためにますます重要になっている。
そこで本研究では,新しい微分可能なk-meansクラスタリング層(dkm)の提案と,それを用いたdnnモデル圧縮への応用について述べる。
DKMは、k平均クラスタリングを注目問題とし、パラメータの合同最適化とセントロイドのクラスタリングを可能にする。
追加の正規化器やパラメータに依存する以前の作業とは異なり、DKMベースの圧縮は元の損失関数とモデルアーキテクチャを固定し続ける。
コンピュータビジョンと自然言語処理(NLP)タスクのための様々なDNNモデルのDKMに基づく圧縮を評価した。
その結果, DMK は ImageNet1k および GLUE ベンチマークにおいて, 優れた圧縮と精度のトレードオフをもたらすことが示された。
例えば、DKMベースの圧縮は、3.3MBモデルサイズ(29.4倍)のResNet50 DNNモデル上で74.5%のトップ-1 ImageNet1kの精度を提供する。
圧縮が難しいMobileNet-v1では、DKMは62.8%のトップ-1 ImageNet1kの精度を0.74MBのモデルサイズ(22.4倍)で提供する。
この結果は6.8%の精度で、現在のDNN圧縮アルゴリズムよりもモデルサイズが33%小さい。
さらに、DKM は GLUE NLP ベンチマークで最小 (1.1%) の精度で DistilBERT モデルを 11.8x 圧縮できる。 Deep neural network (DNN) model compression for efficient on-device inference is becoming increasingly important to reduce memory requirements and keep user data on-device. To this end, we propose a novel differentiable k-means clustering layer (DKM) and its application to train-time weight clustering-based DNN model compression. DKM casts k-means clustering as an attention problem and enables joint optimization of the parameters and clustering centroids. Unlike prior works that rely on additional regularizers and parameters, DKM-based compression keeps the original loss function and model architecture fixed. We evaluated DKM-based compression on various DNN models for computer vision and natural language processing (NLP) tasks. Our results demonstrate that DMK delivers superior compression and accuracy trade-off on ImageNet1k and GLUE benchmarks. For example, DKM-based compression can offer 74.5% top-1 ImageNet1k accuracy on ResNet50 DNN model with 3.3MB model size (29.4x model compression factor). For MobileNet-v1, which is a challenging DNN to compress, DKM delivers 62.8% top-1 ImageNet1k accuracy with 0.74 MB model size (22.4x model compression factor). This result is 6.8% higher top-1 accuracy and 33% relatively smaller model size than the current state-of-the-art DNN compression algorithms. Additionally, DKM enables compression of DistilBERT model by 11.8x with minimal (1.1%) accuracy loss on GLUE NLP benchmarks. | 翻訳日:2021-08-31 15:04:40 公開日:2021-08-28 |
# 効率的なオープンドメイン会話のための大規模生成モデルの知識を検索モデルに割く Distilling the Knowledge of Large-scale Generative Models into Retrieval Models for Efficient Open-domain Conversation ( http://arxiv.org/abs/2108.12582v1 ) ライセンス: Link先を確認 | Beomsu Kim, Seokjun Seo, Seungju Han, Enkhbayar Erdenee, Buru Chang | (参考訳) オープンドメイン会話における大規模生成モデルの顕著な性能にもかかわらず、レイテンシが高いためにリアルタイム会話システムを構築するには実用的でないことが知られている。
一方,検索モデルはより低レイテンシで応答を返すことができるが,会話品質は予め定義された応答セットによって制限されているため,大規模生成モデルでは性能が劣る。
両者のアプローチを生かして, 生成モデルの知識を検索モデルに取り入れることで, 大規模生成モデルの会話能力を活用しつつ, 検索モデルの効率を保ちながら, g2r (generative-to-retrieval distillation) と呼ばれる新たな訓練法を提案する。
データレベルG2Rは、大規模生成モデルによって生成された追加応答で対話データセットを増強し、モデルレベルG2Rは、生成モデルによって評価された応答品質スコアを、知識蒸留損失により検索モデルのスコアに転送する。
人間の評価を含む広範囲な実験を通して,G2Rで訓練した検索ベースの会話システムは,ベースライン検索モデルと比較して大幅に性能が向上し,大規模な生成モデルよりも推論遅延が著しく低いことを示した。 Despite the remarkable performance of large-scale generative models in open-domain conversation, they are known to be less practical for building real-time conversation systems due to high latency. On the other hand, retrieval models could return responses with much lower latency but show inferior performance to the large-scale generative models since the conversation quality is bounded by the pre-defined response set. To take advantage of both approaches, we propose a new training method called G2R (Generative-to-Retrieval distillation) that preserves the efficiency of a retrieval model while leveraging the conversational ability of a large-scale generative model by infusing the knowledge of the generative model into the retrieval model. G2R consists of two distinct techniques of distillation: the data-level G2R augments the dialogue dataset with additional responses generated by the large-scale generative model, and the model-level G2R transfers the response quality score assessed by the generative model to the score of the retrieval model by the knowledge distillation loss. Through extensive experiments including human evaluation, we demonstrate that our retrieval-based conversation system trained with G2R shows a substantially improved performance compared to the baseline retrieval model while showing significantly lower inference latency than the large-scale generative models. | 翻訳日:2021-08-31 15:02:09 公開日:2021-08-28 |
# QACE: イメージキャプションを評価するための質問 QACE: Asking Questions to Evaluate an Image Caption ( http://arxiv.org/abs/2108.12560v1 ) ライセンス: Link先を確認 | Hwanhee Lee, Thomas Scialom, Seunghyun Yoon, Franck Dernoncourt, Kyomin Jung | (参考訳) 本稿では,キャプション評価のための質問応答に基づく新しい尺度であるQACEを提案する。
QACEは評価されたキャプションの質問を生成し、参照キャプションまたはソースイメージの質問によってその内容をチェックする。
まず,評価されたキャプションの回答を基準と比較したQACE-Refを開発し,その結果を最先端の指標と比較した。
そこで本研究では,参照ではなく,画像上で直接質問を行うQACE-Imgを提案する。
QACE-ImgにはビジュアルQAシステムが必要である。
残念ながら、標準的なVQAモデルは、わずか数千のカテゴリに分類される。
代わりに、抽象的なVQAシステムであるVisual-T5を提案する。
結果として得られる計量 QACE-Img はマルチモーダル、参照なし、説明可能である。
実験の結果,QACE-Imgは良好にw.r.tと比較された。
他の参照なしメトリクス。
QACEを計算するためにトレーニング済みのモデルをリリースします。 In this paper, we propose QACE, a new metric based on Question Answering for Caption Evaluation. QACE generates questions on the evaluated caption and checks its content by asking the questions on either the reference caption or the source image. We first develop QACE-Ref that compares the answers of the evaluated caption to its reference, and report competitive results with the state-of-the-art metrics. To go further, we propose QACE-Img, which asks the questions directly on the image, instead of reference. A Visual-QA system is necessary for QACE-Img. Unfortunately, the standard VQA models are framed as a classification among only a few thousand categories. Instead, we propose Visual-T5, an abstractive VQA system. The resulting metric, QACE-Img is multi-modal, reference-less, and explainable. Our experiments show that QACE-Img compares favorably w.r.t. other reference-less metrics. We will release the pre-trained models to compute QACE. | 翻訳日:2021-08-31 15:00:54 公開日:2021-08-28 |
# 画像のためのゴール駆動テキスト記述 Goal-driven text descriptions for images ( http://arxiv.org/abs/2108.12575v1 ) ライセンス: Link先を確認 | Ruotian Luo | (参考訳) AI(Artificial General Intelligence, AGI)の達成の大きな要因は、人間のように見聞きできるマシンを作ることだ。
画像分類、映像分類、物体検出、ポーズ推定、音声認識等のためのモデルの設計に多くの研究が集中しており、近年はディープラーニングによって大きな進歩を遂げている。
しかし、世界を理解するだけでは十分ではない。
AIエージェントは、会話の仕方、特に人間とのコミュニケーションの仕方を知る必要がある。
知覚(視覚など)は動物種の間で一般的であるが、複雑な言語の使用は人間特有のものであり、知性の最も重要な側面の1つである。
本論文では,視覚入力によるテキスト出力の生成に焦点をあてる。
第3章では、画像中のオブジェクトの参照表現、テキスト記述を生成し、受信者がどのオブジェクトが記述されているかを推測できるようにする。
我々は,生成した参照表現がより識別的になるように,理解機械を用いて直接ガイドする。
第4章では,画像キャプション生成における識別性を促進する手法を提案する。
識別的キャプションモデルがより記述的キャプションを生成することを示す。
第5章では,学習目標とサンプリング手法がモデルが多様なキャプションを生成する能力に与える影響について検討した。
一般的な字幕学習戦略は,字幕生成の多様性を損なうことが判明した。
第6章では,生成キャプションの長さを制御できるモデルを提案する。
所望の長さを変えることで、キャプションのスタイルや記述性に影響を与えることができる。
最後に,第7章では,情報の有用性に応じて情報タグをランク付け・生成する。
提案手法は、画像の最も重要なタグである人間の考えに合致する。 A big part of achieving Artificial General Intelligence(AGI) is to build a machine that can see and listen like humans. Much work has focused on designing models for image classification, video classification, object detection, pose estimation, speech recognition, etc., and has achieved significant progress in recent years thanks to deep learning. However, understanding the world is not enough. An AI agent also needs to know how to talk, especially how to communicate with a human. While perception (vision, for example) is more common across animal species, the use of complicated language is unique to humans and is one of the most important aspects of intelligence. In this thesis, we focus on generating textual output given visual input. In Chapter 3, we focus on generating the referring expression, a text description for an object in the image so that a receiver can infer which object is being described. We use a comprehension machine to directly guide the generated referring expressions to be more discriminative. In Chapter 4, we introduce a method that encourages discriminability in image caption generation. We show that more discriminative captioning models generate more descriptive captions. In Chapter 5, we study how training objectives and sampling methods affect the models' ability to generate diverse captions. We find that a popular captioning training strategy will be detrimental to the diversity of generated captions. In Chapter 6, we propose a model that can control the length of generated captions. By changing the desired length, one can influence the style and descriptiveness of the captions. Finally, in Chapter 7, we rank/generate informative image tags according to their information utility. The proposed method better matches what humans think are the most important tags for the images. | 翻訳日:2021-08-31 15:00:42 公開日:2021-08-28 |
# AMMASurv:全スライド画像と遺伝子発現データを用いた生存分析のための非対称多モード注意 AMMASurv: Asymmetrical Multi-Modal Attention for Accurate Survival Analysis with Whole Slide Images and Gene Expression Data ( http://arxiv.org/abs/2108.12565v1 ) ライセンス: Link先を確認 | Ruoqi Wang, Ziwang Huang, Haitao Wang, Hejun Wu | (参考訳) 生存解析に全スライド画像(WSI)と遺伝子発現データの組み合わせなどのマルチモーダルデータを使用することにより、より正確な生存予測が可能になる。
従来のマルチモーダルサバイバルモデルは、各モーダリティ内の本質的な情報を効率的に掘り出すことができない。
さらに, 実験結果から, WSIsは遺伝子発現データよりも有効な情報を提供することが示されたが, 従来の手法では, 異なるモダリティからの情報を同様に重要視しており, モダリティ間の潜在的な接続を柔軟に利用できない。
上記の問題に対処するため、AMMASurvと呼ばれる新しい非対称多モード法を提案する。
具体的には、トランスフォーマーエンコーダの非対称なマルチモーダルアテンション機構(AMMA)を設計し、より柔軟なマルチモーダル情報融合による生存予測を実現する。
以前の研究と異なり、AMMASurvはすべてのモダリティにおいて本質的な情報を効果的に活用し、異なる重要性のモダリティに柔軟に適用することができる。
提案モデルの有効性を検証するために,広範な実験を行った。
提案手法は他の最先端手法よりも優れていることを示す。 The use of multi-modal data such as the combination of whole slide images (WSIs) and gene expression data for survival analysis can lead to more accurate survival predictions. Previous multi-modal survival models are not able to efficiently excavate the intrinsic information within each modality. Moreover, despite experimental results show that WSIs provide more effective information than gene expression data, previous methods regard the information from different modalities as similarly important so they cannot flexibly utilize the potential connection between the modalities. To address the above problems, we propose a new asymmetrical multi-modal method, termed as AMMASurv. Specifically, we design an asymmetrical multi-modal attention mechanism (AMMA) in Transformer encoder for multi-modal data to enable a more flexible multi-modal information fusion for survival prediction. Different from previous works, AMMASurv can effectively utilize the intrinsic information within every modality and flexibly adapts to the modalities of different importance. Extensive experiments are conducted to validate the effectiveness of the proposed model. Encouraging results demonstrate the superiority of our method over other state-of-the-art methods. | 翻訳日:2021-08-31 15:00:18 公開日:2021-08-28 |
# 偽ニュース検出データセットにおけるダイアクロニックバイアスの軽減 Mitigation of Diachronic Bias in Fake News Detection Dataset ( http://arxiv.org/abs/2108.12601v1 ) ライセンス: Link先を確認 | Taichi Murayama and Shoko Wakamiya and Eiji Aramaki | (参考訳) フェイクニュースは、こうしたフェイクニュースに対処するために、検出モデルの構築とデータセットの整理に関するいくつかの研究が行われている。
偽ニュースデータセットのほとんどは、特定の期間に依存する。
したがって、このようなデータセットで訓練された検出モデルは、政治的変化や社会的変化によって生じる新しい偽ニュースの検出が困難であり、特定の人物名や組織名を含む入力からの偏りのある出力をもたらす可能性がある。
この問題は、各データセットにおけるニュースの生成日によって引き起こされるため、 \textbf{Diachronic Bias} と呼ぶ。
本研究では,各データセットにおける句出現の偏りから,人名を含む適切な名詞の偏りを確認する。
そこで本研究では,ウィキデータを用いたマスキング手法を提案し,ドメイン内およびドメイン外データを用いた実験により,人物名の影響を緩和し,偽ニュース検出モデルを堅牢化するかどうかを検証する。 Fake news causes significant damage to society.To deal with these fake news, several studies on building detection models and arranging datasets have been conducted. Most of the fake news datasets depend on a specific time period. Consequently, the detection models trained on such a dataset have difficulty detecting novel fake news generated by political changes and social changes; they may possibly result in biased output from the input, including specific person names and organizational names. We refer to this problem as \textbf{Diachronic Bias} because it is caused by the creation date of news in each dataset. In this study, we confirm the bias, especially proper nouns including person names, from the deviation of phrase appearances in each dataset. Based on these findings, we propose masking methods using Wikidata to mitigate the influence of person names and validate whether they make fake news detection models robust through experiments with in-domain and out-of-domain data. | 翻訳日:2021-08-31 14:58:51 公開日:2021-08-28 |
# WALNUT: 自然言語理解のための弱教師付き学習ベンチマーク WALNUT: A Benchmark on Weakly Supervised Learning for Natural Language Understanding ( http://arxiv.org/abs/2108.12603v1 ) ライセンス: Link先を確認 | Guoqing Zheng, Giannis Karamanolakis, Kai Shu, Ahmed Hassan Awadallah | (参考訳) 自然言語理解(nlu)タスクのための高品質な機械学習モデルの構築は、ラベル付きデータに大きく依存する。
大量のラベル付きデータが入手できない、あるいは入手に費用がかかる場合、弱みの監視が貴重な監視を提供することが示されている。
NLUの弱い監督を研究する研究は、主に特定のタスクに焦点をあてるか、または地上の真実のラベルから弱い監督信号をシミュレートする。
現在までに、NLUタスクのコレクションに対する現実の弱い監視信号を持つNLUのベンチマークは、まだ利用できない。
本稿では,NLUの弱監督研究を提唱し,促進するため,WALNUTというベンチマークを提案する。
WALNUTは、文書レベルの予測タスクとトークンレベルの予測タスクの両方を含む異なるタイプのNLUタスクで構成され、各タスクには複数の現実世界の弱いソースによって生成される弱いラベルが含まれている。
我々は,NLUタスクの弱い監督手法とモデルアーキテクチャを用いて,ベンチマークのベースライン評価を行い,弱い監督手法の価値を体系的に検証する。
我々は、低リソースのNLUタスクに対する弱い監督の利点を実証し、WALNUTが弱い監督を最大限活用するための方法論のさらなる研究を促進することを期待する。
ベースラインのベンチマークとコードは、aka.ms/walnut_benchmarkで公開される。 Building quality machine learning models for natural language understanding (NLU) tasks relies heavily on labeled data. Weak supervision has been shown to provide valuable supervision when large amount of labeled data is unavailable or expensive to obtain. Existing works studying weak supervision for NLU either mostly focus on a specific task or simulate weak supervision signals from ground-truth labels. To date a benchmark for NLU with real world weak supervision signals for a collection of NLU tasks is still not available. In this paper, we propose such a benchmark, named WALNUT, to advocate and facilitate research on weak supervision for NLU. WALNUT consists of NLU tasks with different types, including both document-level prediction tasks and token-level prediction tasks and for each task contains weak labels generated by multiple real-world weak sources. We conduct baseline evaluations on the benchmark to systematically test the value of weak supervision for NLU tasks, with various weak supervision methods and model architectures. We demonstrate the benefits of weak supervision for low-resource NLU tasks and expect WALNUT to stimulate further research on methodologies to best leverage weak supervision. The benchmark and code for baselines will be publicly available at aka.ms/walnut_benchmark. | 翻訳日:2021-08-31 14:58:35 公開日:2021-08-28 |
# HeadlineCause: 事件を検知するためのニュース見出しのデータセット HeadlineCause: A Dataset of News Headlines for Detecting Casualties ( http://arxiv.org/abs/2108.12626v1 ) ライセンス: Link先を確認 | Ilya Gusev and Alexey Tikhonov | (参考訳) テキスト中の暗黙の因果関係を検出することは、常識と世界知識の両方を必要とする課題である。
既存のデータセットは、常識因果関係または明示因果関係に重点を置いている。
本稿では,ニュース見出しのペア間の暗黙的な因果関係を検出するデータセットであるHeadlineCauseを紹介する。
データセットには、英国のニュースから5000以上の見出しペアと、クラウドソーシングを通じてラベル付けされたロシアのニュースから9000以上の見出しペアが含まれている。
対は、全く無関係か、同じ一般トピックに属するものから、因果関係や反感関係を含むものまで様々である。
また、因果検出のための多言語XLM-RoBERTaモデルと、効果予測のためのGPT-2モデルを含む、データセットの有効性を示す一連のモデルと実験を示す。 Detecting implicit causal relations in texts is a task that requires both common sense and world knowledge. Existing datasets are focused either on commonsense causal reasoning or explicit causal relations. In this work, we present HeadlineCause, a dataset for detecting implicit causal relations between pairs of news headlines. The dataset includes over 5000 headline pairs from English news and over 9000 headline pairs from Russian news labeled through crowdsourcing. The pairs vary from totally unrelated or belonging to the same general topic to the ones including causation and refutation relations. We also present a set of models and experiments that demonstrates the dataset validity, including a multilingual XLM-RoBERTa based model for causality detection and a GPT-2 based model for possible effects prediction. | 翻訳日:2021-08-31 14:58:15 公開日:2021-08-28 |
# オープン会話機械読解のための平滑な対話状態 Smoothing Dialogue States for Open Conversational Machine Reading ( http://arxiv.org/abs/2108.12599v1 ) ライセンス: Link先を確認 | Zhuosheng Zhang, Siru Ouyang, Hai Zhao, Masao Utiyama and Eiichiro Sumita | (参考訳) 会話型機械読取(cmr)は、意思決定と質問生成過程の2つの有能な対話状態間のマルチターンインタラクションを通じて機械と人間とのコミュニケーションを要求する。
オープンcmrの設定では、より現実的なシナリオとして、検索された背景知識は騒がしいため、情報伝達に深刻な課題が生じる。
既存の研究は通常、2つのサブタスクに対して独立したパイプラインシステムを訓練する。
しかし、これらの手法は、ハードラベル決定を用いて質問生成を活性化することで自明であり、最終的にはモデル性能を阻害する。
本研究では,2つの対話状態を1つのデコーダとブリッジ決定と質問生成でスムーズにすることで,よりリッチな対話状態参照を提供する効果的なゲーティング戦略を提案する。
OR-ShARCデータセットを用いた実験により,本手法の有効性が示された。 Conversational machine reading (CMR) requires machines to communicate with humans through multi-turn interactions between two salient dialogue states of decision making and question generation processes. In open CMR settings, as the more realistic scenario, the retrieved background knowledge would be noisy, which results in severe challenges in the information transmission. Existing studies commonly train independent or pipeline systems for the two subtasks. However, those methods are trivial by using hard-label decisions to activate question generation, which eventually hinders the model performance. In this work, we propose an effective gating strategy by smoothing the two dialogue states in only one decoder and bridge decision making and question generation to provide a richer dialogue state reference. Experiments on the OR-ShARC dataset show the effectiveness of our method, which achieves new state-of-the-art results. | 翻訳日:2021-08-31 14:57:47 公開日:2021-08-28 |
# ロバスト学習のための一般化されたハマー損失とそのロバスト統計の効率的最小化 Generalized Huber Loss for Robust Learning and its Efficient Minimization for a Robust Statistics ( http://arxiv.org/abs/2108.12627v1 ) ライセンス: Link先を確認 | Kaan Gokcesu, Hakan Gokcesu | (参考訳) フーバー損失の一般化した定式化を提案する。
選択に適した関数、特にlog-exp変換により、絶対損失と二次損失の両方の望ましい性質を組み合わせた損失関数を実現できることを示す。
このような損失関数の最小化を求めるアルゴリズムを提供し、集中化計量の発見が従来の平均値や中央値よりもそれほど難しくないことを示す。 We propose a generalized formulation of the Huber loss. We show that with a suitable function of choice, specifically the log-exp transform; we can achieve a loss function which combines the desirable properties of both the absolute and the quadratic loss. We provide an algorithm to find the minimizer of such loss functions and show that finding a centralizing metric is not that much harder than the traditional mean and median. | 翻訳日:2021-08-31 14:56:22 公開日:2021-08-28 |
# NoFASによる変分推論:計算費用モデルに対する適応サーロゲート付き流れの正規化 Variational Inference with NoFAS: Normalizing Flow with Adaptive Surrogate for Computationally Expensive Models ( http://arxiv.org/abs/2108.12657v1 ) ライセンス: Link先を確認 | Yu Wang, Fang Liu and Daniele E. Schiavazzi | (参考訳) データからの数値モデルパラメータの高速推論は、広範囲のアプリケーションに対して予測モデルを生成するための重要な前提条件である。
マルコフ連鎖モンテカルロのようなサンプリングベースアプローチの使用は、各可能性評価が計算コストが高い場合、難解になる可能性がある。
変分推論と正規化フローを組み合わせた新しいアプローチは、潜在変数空間の次元と線形にのみ成長する計算コストを特徴とし、サンプリングではなく勾配に基づく最適化に依存し、モデルパラメータに関するベイズ推論をより効率的なアプローチを提供する。
さらに、高い確率を頻繁に評価するコストを、ニューラルネットワークのようなオフラインで訓練された代理モデルに置き換えることで軽減することができる。
しかし、この手法は後部モードの周囲のサロゲートの精度が不十分な場合に有意なバイアスを引き起こす可能性がある。
推定精度を犠牲にすることなく計算コストを削減するため,ニューラルネットワークサーロゲートモデルの正規化フローパラメータと重み付けを交互に更新する最適化戦略であるadaptive surrogate(nofas)による正規化フローを提案する。
また,サロゲートモデル学習のための効率的なサンプル重み付け手法を提案する。
基礎となるモデルが識別性に欠ける場合を含む、様々なベンチマークに対するnofasの推論と計算の優位性を示す。
この研究に使用されたソースコードと数値実験は、https://github.com/cedricwangyu/nofasで利用可能である。 Fast inference of numerical model parameters from data is an important prerequisite to generate predictive models for a wide range of applications. Use of sampling-based approaches such as Markov chain Monte Carlo may become intractable when each likelihood evaluation is computationally expensive. New approaches combining variational inference with normalizing flow are characterized by a computational cost that grows only linearly with the dimensionality of the latent variable space, and rely on gradient-based optimization instead of sampling, providing a more efficient approach for Bayesian inference about the model parameters. Moreover, the cost of frequently evaluating an expensive likelihood can be mitigated by replacing the true model with an offline trained surrogate model, such as neural networks. However, this approach might generate significant bias when the surrogate is insufficiently accurate around the posterior modes. To reduce the computational cost without sacrificing inferential accuracy, we propose Normalizing Flow with Adaptive Surrogate (NoFAS), an optimization strategy that alternatively updates the normalizing flow parameters and the weights of a neural network surrogate model. We also propose an efficient sample weighting scheme for surrogate model training that ensures some global accuracy of the surrogate while capturing the likely regions of the parameters that yield the observed data. We demonstrate the inferential and computational superiority of NoFAS against various benchmarks, including cases where the underlying model lacks identifiability. The source code and numerical experiments used for this study are available at https://github.com/cedricwangyu/NoFAS. | 翻訳日:2021-08-31 14:56:14 公開日:2021-08-28 |
# 局所線形埋め込みにおける不要な結果を避ける:正規化の新しい理解 Avoiding unwanted results in locally linear embedding: A new understanding of regularization ( http://arxiv.org/abs/2108.12680v1 ) ライセンス: Link先を確認 | Liren Lin | (参考訳) 局所線形埋め込み (lle) は, 正規化が不要な場合, 元のアルゴリズムでは正規化が不要な場合においても, 本来不要な結果が認められることを実証する。
データの各近傍で正確な局所的線形関係が達成される状況において,「射影パターン」と呼ばれる特殊な結果が存在することが数学的に証明される。
これらの特別なパターンと、より一般的な状況で起こる可能性のある他の奇妙な結果は、高次元空間に穴が埋め込まれたスイスロールの数値例によって示される。
これらすべての悪い結果が、正則化を用いることで効果的に防止できることが観察される。 We demonstrate that locally linear embedding (LLE) inherently admits some unwanted results when no regularization is used, even for cases in which regularization is not supposed to be needed in the original algorithm. The existence of one special type of result, which we call ``projection pattern'', is mathematically proved in the situation that an exact local linear relation is achieved in each neighborhood of the data. These special patterns as well as some other bizarre results that may occur in more general situations are shown by numerical examples on the Swiss roll with a hole embedded in a high dimensional space. It is observed that all these bad results can be effectively prevented by using regularization. | 翻訳日:2021-08-31 14:52:44 公開日:2021-08-28 |
# 自己充足バンド:アルゴリズム決定における内在性スパイルオーバーと動的選択 Self-fulfilling Bandits: Endogeneity Spillover and Dynamic Selection in Algorithmic Decision-making ( http://arxiv.org/abs/2108.12547v1 ) ライセンス: Link先を確認 | Jin Li, Ye Luo, Xiaowei Zhang | (参考訳) 本稿では,データと行動が相互依存するアルゴリズム決定における内在性問題について検討する。
文脈的多腕バンディットモデルに内在的共変量が存在するとき、その共変量の内在性が作用にこぼれるため、新しいバイアス(自己満足バイアス)が発生する。
本稿では,オンライン学習アルゴリズムにインストゥルメンタル変数を組み込むことでバイアスを補正するアルゴリズムのクラスを提案する。
これらのアルゴリズムは、内在性のない場合に最もよく知られた下限に合致する後悔レベルも達成する。
理論的性質を確立するため,データと行動間の相互依存を解き放つ一般的な手法を開発した。 In this paper, we study endogeneity problems in algorithmic decision-making where data and actions are interdependent. When there are endogenous covariates in a contextual multi-armed bandit model, a novel bias (self-fulfilling bias) arises because the endogeneity of the covariates spills over to the actions. We propose a class of algorithms to correct for the bias by incorporating instrumental variables into leading online learning algorithms. These algorithms also attain regret levels that match the best known lower bound for the cases without endogeneity. To establish the theoretical properties, we develop a general technique that untangles the interdependence between data and actions. | 翻訳日:2021-08-31 14:50:50 公開日:2021-08-28 |
# タスク指向ダイアログシステムにおけるマイトショット学習のための事前学習の改善 Self-training Improves Pre-training for Few-shot Learning in Task-oriented Dialog Systems ( http://arxiv.org/abs/2108.12589v1 ) ライセンス: Link先を確認 | Fei Mi, Wanhao Zhou, Fengyu Cai, Lingjing Kong, Minlie Huang, and Boi Faltings | (参考訳) タスク指向ダイアログ(ToD)システムにおける異なるモジュールのラベリングコストは高価であるため、ラベル付きデータが最も少ない異なるモジュールをトレーニングすることが大きな課題である。
近年,大規模事前訓練型言語モデルでは,ToDにおける数発の学習に有望な結果が示されている。
本稿では,todシステムの少数学習シナリオにおける最先端の事前学習モデルをさらに改善するために,豊富なラベルなしダイアログデータを活用するための自己学習手法を考案する。
具体的には,最も自信のあるラベルのないデータを反復的にラベル付けして,より強力な学習モデルを構築する自己学習手法を提案する。
さらに,非クレーシアルトークンをマスキング言語モデルで置き換えることで,学生の学習を改善するための新しいテキスト拡張手法(gradaug)を提案する。
目的分類,ダイアログ状態追跡,ダイアログ行動予測,応答選択など,ToDの4つの下流タスクに関する広範な実験と分析を行った。
実験により,提案手法は,少数のラベル付きデータしか利用できない場合に,最先端の事前学習モデル(BERT,ToD-BERT)を一貫して改善することを示した。 As the labeling cost for different modules in task-oriented dialog (ToD) systems is expensive, a major challenge is to train different modules with the least amount of labeled data. Recently, large-scale pre-trained language models, have shown promising results for few-shot learning in ToD. In this paper, we devise a self-training approach to utilize the abundant unlabeled dialog data to further improve state-of-the-art pre-trained models in few-shot learning scenarios for ToD systems. Specifically, we propose a self-training approach that iteratively labels the most confident unlabeled data to train a stronger Student model. Moreover, a new text augmentation technique (GradAug) is proposed to better train the Student by replacing non-crucial tokens using a masked language model. We conduct extensive experiments and present analyses on four downstream tasks in ToD, including intent classification, dialog state tracking, dialog act prediction, and response selection. Empirical results demonstrate that the proposed self-training approach consistently improves state-of-the-art pre-trained models (BERT, ToD-BERT) when only a small number of labeled data are available. | 翻訳日:2021-08-31 14:49:34 公開日:2021-08-28 |
# 自己監督深度推定による半教師付き領域適応セマンティックセマンティックセグメンテーションの改善 Improving Semi-Supervised and Domain-Adaptive Semantic Segmentation with Self-Supervised Depth Estimation ( http://arxiv.org/abs/2108.12545v1 ) ライセンス: Link先を確認 | Lukas Hoyer, Dengxin Dai, Qin Wang, Yuhua Chen, Luc Van Gool | (参考訳) セマンティックセグメンテーションのためのディープネットワークのトレーニングには、大量のラベル付きトレーニングデータが必要であり、セグメンテーションマスクのラベル付けは極めて労働集約的なプロセスであるため、実際には大きな課題となっている。
この問題に対処するために,半教師付きおよびドメイン適応型セマンティックセマンティックセマンティックセマンティクスのためのフレームワークを提案する。
まず、サンプルの多様性とSDEとセマンティックセグメンテーションの難易度との相関に基づいて、意味セグメンテーションにアノテートする最も有用なサンプルを自動的に選択する。
第2に,シーンの形状を用いて画像とラベルを混合することにより,強いデータ拡張を実現する。
第3に,sde中に学習した特徴から,伝達とマルチタスク学習による意味セグメンテーションへ知識を伝達する。
そして第4に、Cross-Domain DepthMixとMatching Geometry Smplingによるラベル付き合成データを利用して、合成データと実データを組み合わせる。
提案モデルをcityscapesデータセット上で検証し,これら4つのコントリビュートが有意な性能向上を示し,半教師付き意味セグメンテーションと半教師付きドメイン適応の最先端結果を得る。
特に,Cityscapesラベルの1/30に過ぎず,全教師付きベースライン性能の92%,GTAから追加データを利用する場合の97%を達成できた。
ソースコードはhttps://github.com/lhoyer/improving_segmentation_with_selfsupervised_depthで入手できる。 Training deep networks for semantic segmentation requires large amounts of labeled training data, which presents a major challenge in practice, as labeling segmentation masks is a highly labor-intensive process. To address this issue, we present a framework for semi-supervised and domain-adaptive semantic segmentation, which is enhanced by self-supervised monocular depth estimation (SDE) trained only on unlabeled image sequences. In particular, we utilize SDE as an auxiliary task comprehensively across the entire learning framework: First, we automatically select the most useful samples to be annotated for semantic segmentation based on the correlation of sample diversity and difficulty between SDE and semantic segmentation. Second, we implement a strong data augmentation by mixing images and labels using the geometry of the scene. Third, we transfer knowledge from features learned during SDE to semantic segmentation by means of transfer and multi-task learning. And fourth, we exploit additional labeled synthetic data with Cross-Domain DepthMix and Matching Geometry Sampling to align synthetic and real data. We validate the proposed model on the Cityscapes dataset, where all four contributions demonstrate significant performance gains, and achieve state-of-the-art results for semi-supervised semantic segmentation as well as for semi-supervised domain adaptation. In particular, with only 1/30 of the Cityscapes labels, our method achieves 92% of the fully-supervised baseline performance and even 97% when exploiting additional data from GTA. The source code is available at https://github.com/lhoyer/improving_segmentation_with_selfsupervised_depth. | 翻訳日:2021-08-31 14:44:44 公開日:2021-08-28 |
# 視覚質問応答における問合せエンコーダ系列モデルの分散性能における意義について On the Significance of Question Encoder Sequence Model in the Out-of-Distribution Performance in Visual Question Answering ( http://arxiv.org/abs/2108.12585v1 ) ライセンス: Link先を確認 | Gouthaman KV, Anurag Mittal | (参考訳) 経験を超えて一般化することは、実践的なAIシステムの開発において重要な役割を果たす。
現在の視覚質問応答(vqa)モデルは、列車から言語プライオリエント(質問タイプと最も頻繁な回答の相関関係)に過度に依存しており、out-of-distribution(ood)テストセットで性能が低下していることが示されている。
この行為はそれらの一般化性を制限し、現実の状況での利用を制限する。
本稿では,質問エンコーダで使用されるシーケンスモデルアーキテクチャが,VQAモデルの一般化に重要な役割を果たすことを示す。
そこで本研究では,既存のrnnベースおよびtransformerベースの質問エンコーダの詳細な解析を行い,新しいグラフアテンションネットワーク(gat)ベースの質問エンコーダを提案する。
質問エンコーダにおけるシーケンスモデルのより良い選択は、より複雑なバイアス緩和アプローチを使わずに、VQAモデルの一般化性を向上することを発見した。 Generalizing beyond the experiences has a significant role in developing practical AI systems. It has been shown that current Visual Question Answering (VQA) models are over-dependent on the language-priors (spurious correlations between question-types and their most frequent answers) from the train set and pose poor performance on Out-of-Distribution (OOD) test sets. This conduct limits their generalizability and restricts them from being utilized in real-world situations. This paper shows that the sequence model architecture used in the question-encoder has a significant role in the generalizability of VQA models. To demonstrate this, we performed a detailed analysis of various existing RNN-based and Transformer-based question-encoders, and along, we proposed a novel Graph attention network (GAT)-based question-encoder. Our study found that a better choice of sequence model in the question-encoder improves the generalizability of VQA models even without using any additional relatively complex bias-mitigation approaches. | 翻訳日:2021-08-31 14:44:14 公開日:2021-08-28 |
# threshold: 密結合畳み込みネットワークのためのプルーニングツール Threshold: Pruning Tool for Densely Connected Convolutional Networks ( http://arxiv.org/abs/2108.12604v1 ) ライセンス: Link先を確認 | Rui-Yang Ju, Ting-Yu Lin, Jen-Shiun Chiang | (参考訳) ディープニューラルネットワークはコンピュータビジョンの分野で大きな進歩を遂げている。
近年の研究では、ニューラルネットワークアーキテクチャの深さ、幅、ショートカット接続が、その性能において重要な役割を果たすことが示されている。
最も先進的なニューラルネットワークアーキテクチャのひとつであるDenseNetは、高密度接続による優れた収束率を達成した。
しかし、メモリ使用量にはまだ明らかな欠点がある。
本稿では,MOSFETにおけるしきい値電圧の原理を参考に,新しいタイプのプルーニングツール「しきい値」を提案する。
この手法は、異なる深さのブロックを異なる方法で接続し、メモリの使用を減らすために使用される。
ThresholdNetと表記される。
フロッピーとメモリ使用量の異なるネットワークとしきい値ネットを比較した結果,しきい値ネットのメモリ使用量は,元々のdungnetより70%少ないことがわかった。 Deep neural networks have made significant progress in the field of computer vision. Recent studies have shown that depth, width and shortcut connections of neural network architectures play a crucial role in their performance. One of the most advanced neural network architectures, DenseNet, has achieved excellent convergence rates through dense connections. However, it still has obvious shortcomings in the usage of amount of memory. In this paper, we introduce a new type of pruning tool, threshold, which refers to the principle of the threshold voltage in MOSFET. This work employs this method to connect blocks of different depths in different ways to reduce the usage of memory. It is denoted as ThresholdNet. We compare ThresholdNet with other different networks for FLOPs and memory usage, and the experiments show that ThresholdNet is 70% less memory than that of the original DenseNet. | 翻訳日:2021-08-31 14:43:54 公開日:2021-08-28 |
# リモートセンシング画像の道路分割のための適応的自己訓練による段階的教師なし領域適応 Stagewise Unsupervised Domain Adaptation with Adversarial Self-Training for Road Segmentation of Remote Sensing Images ( http://arxiv.org/abs/2108.12611v1 ) ライセンス: Link先を確認 | Lefei Zhang, Meng Lan, Jing Zhang, Dacheng Tao | (参考訳) リモートセンシング画像からの道路セグメンテーションは、幅広い応用可能性を持つ課題である。
ディープニューラルネットワークは、大規模ラベル付きデータのパワーを活用することによって、この分野を進歩させてきた。
ひとつの解決策は、安価な利用可能なデータを使ってモデルをトレーニングし、それをデプロイして、特定のアプリケーションドメインから直接データを処理することです。
それでも、よく知られたドメインシフト(DS)問題は、トレーニングされたモデルがターゲットドメイン上でうまく一般化することを妨げる。
本稿では,この分野におけるDS問題に対処するため,RoadDAと呼ばれる段階的ドメイン適応モデルを提案する。
最初の段階では、RoadDAはターゲットドメインの特徴をGAN(Generative Adversarial Network)ベースのドメイン間適応を介してソースドメインと整合させる。
特に、長細い道路の情報損失を回避し、識別的でロバストな特徴を学ぶために、特徴ピラミッド融合モジュールが考案されている。
また,対象ドメインにおけるドメイン内不一致に対処するため,第2段階では,対向自己学習法を提案する。
我々は、訓練されたジェネレータを用いてターゲットドメインの擬似ラベルを生成し、道路信頼度スコアに基づいて、容易な分割と未ラベルのハード分割に分割する。
ハード分割の特徴は、対角学習を用いた容易な特徴と整合し、ドメイン内適応プロセスを繰り返してセグメント化性能を段階的に改善する。
2つのベンチマーク実験の結果、RoadDAはドメインギャップを効率的に減らし、最先端の手法より優れていることが示された。 Road segmentation from remote sensing images is a challenging task with wide ranges of application potentials. Deep neural networks have advanced this field by leveraging the power of large-scale labeled data, which, however, are extremely expensive and time-consuming to acquire. One solution is to use cheap available data to train a model and deploy it to directly process the data from a specific application domain. Nevertheless, the well-known domain shift (DS) issue prevents the trained model from generalizing well on the target domain. In this paper, we propose a novel stagewise domain adaptation model called RoadDA to address the DS issue in this field. In the first stage, RoadDA adapts the target domain features to align with the source ones via generative adversarial networks (GAN) based inter-domain adaptation. Specifically, a feature pyramid fusion module is devised to avoid information loss of long and thin roads and learn discriminative and robust features. Besides, to address the intra-domain discrepancy in the target domain, in the second stage, we propose an adversarial self-training method. We generate the pseudo labels of target domain using the trained generator and divide it to labeled easy split and unlabeled hard split based on the road confidence scores. The features of hard split are adapted to align with the easy ones using adversarial learning and the intra-domain adaptation process is repeated to progressively improve the segmentation performance. Experiment results on two benchmarks demonstrate that RoadDA can efficiently reduce the domain gap and outperforms state-of-the-art methods. | 翻訳日:2021-08-31 14:43:39 公開日:2021-08-28 |
# 教師なしクロスドメインオブジェクト検出のための不確実性認識モデル適応 Uncertainty-Aware Model Adaptation for Unsupervised Cross-Domain Object Detection ( http://arxiv.org/abs/2108.12612v1 ) ライセンス: Link先を確認 | Minjie Cai, Minyi Luo, Xionghu Zhong, Hao Chen | (参考訳) 本研究は、事前学習対象検出器をラベルなしで新しいターゲットドメインに一般化することを目的とした、教師なしのクロスドメインオブジェクト検出問題に取り組む。
1)新しい領域におけるモデル不確実性の推定と活用は信頼性の高いドメイン適応には不可欠であり,2)入力(特徴のアライメント)と出力(自己学習)のための分布の協調的アライメントが必要である。
そこで我々は,物体検出における不確実性推定のためのベイズCNNベースのフレームワークを構築し,不確実性を考慮した擬似ラベル生成アルゴリズムを提案する。
また,不確実性を認識した擬似ラベルを用いたオブジェクト検出モデルの協調的特徴アライメントと自己学習の手法も考案した。
複数のクロスドメインオブジェクト検出ベンチマーク実験により,提案手法が最先端性能を実現することを示す。 This work tackles the unsupervised cross-domain object detection problem which aims to generalize a pre-trained object detector to a new target domain without labels. We propose an uncertainty-aware model adaptation method, which is based on two motivations: 1) the estimation and exploitation of model uncertainty in a new domain is critical for reliable domain adaptation; and 2) the joint alignment of distributions for inputs (feature alignment) and outputs (self-training) is needed. To this end, we compose a Bayesian CNN-based framework for uncertainty estimation in object detection, and propose an algorithm for generation of uncertainty-aware pseudo-labels. We also devise a scheme for joint feature alignment and self-training of the object detection model with uncertainty-aware pseudo-labels. Experiments on multiple cross-domain object detection benchmarks show that our proposed method achieves state-of-the-art performance. | 翻訳日:2021-08-31 14:43:13 公開日:2021-08-28 |
# AP-10K:野生における動物行動推定のベンチマーク AP-10K: A Benchmark for Animal Pose Estimation in the Wild ( http://arxiv.org/abs/2108.12617v1 ) ライセンス: Link先を確認 | Hang Yu, Yufei Xu, Jing Zhang, Wei Zhao, Ziyu Guan, Dacheng Tao | (参考訳) 正確な動物のポーズ推定は動物の行動を理解するための重要なステップであり、野生生物保護のような下流の多くの応用に利益をもたらす可能性がある。
以前の研究は特定の動物にのみ焦点をあて、動物種の多様性を無視して一般化能力を制限する。
本稿では,動物ポーズ推定における研究を容易にするために,動物ポーズ推定のための最初の大規模ベンチマークであるAP-10Kを提案する。
AP-10Kは、23の動物科と60の種から収集・フィルタリングされた10,015の画像と、手動でラベル付けされた高品質なキーポイントアノテーションから構成されている。
ap-10kに基づいて,(1)動物のポーズ推定のための教師付き学習,(2)人的ポーズ推定から動物的ポーズ推定へのクロスドメイン・トランスファー学習,(3)目に見えない動物の家族内および家族間ドメインの一般化,の3つのトラックで代表的なポーズ推定モデルをベンチマークした。
実験結果は, 精度と一般化能力の両方の観点から, 多様な動物種からの学習の優位性に関する実験的な証拠を提供する。
動物のポーズ推定の将来の研究を促進するための新しい方向を開く。
AP-10kはhttps://github.com/AlexTheBad/AP10Kで公開されている。 Accurate animal pose estimation is an essential step towards understanding animal behavior, and can potentially benefit many downstream applications, such as wildlife conservation. Previous works only focus on specific animals while ignoring the diversity of animal species, limiting the generalization ability. In this paper, we propose AP-10K, the first large-scale benchmark for general animal pose estimation, to facilitate the research in animal pose estimation. AP-10K consists of 10,015 images collected and filtered from 23 animal families and 60 species following the taxonomic rank and high-quality keypoint annotations labeled and checked manually. Based on AP-10K, we benchmark representative pose estimation models on the following three tracks: (1) supervised learning for animal pose estimation, (2) cross-domain transfer learning from human pose estimation to animal pose estimation, and (3) intra- and inter-family domain generalization for unseen animals. The experimental results provide sound empirical evidence on the superiority of learning from diverse animals species in terms of both accuracy and generalization ability. It opens new directions for facilitating future research in animal pose estimation. AP-10k is publicly available at https://github.com/AlexTheBad/AP10K. | 翻訳日:2021-08-31 14:42:59 公開日:2021-08-28 |
# groupformer:クラスタ型空間時空間トランスフォーマによるグループアクティビティ認識 GroupFormer: Group Activity Recognition with Clustered Spatial-Temporal Transformer ( http://arxiv.org/abs/2108.12630v1 ) ライセンス: Link先を確認 | Shuaicheng Li, Qianggang Cao, Lingbo Liu, Kunlin Yang, Shinan Liu, Jun Hou and Shuai Yi | (参考訳) グループ活動認識は、個人間の空間的時間的相互作用を完全に探索し、合理的なグループ表現を生成することが中心となる重要な問題である。
しかし、従来の手法では、空間的情報と時間的情報を別々にモデル化するか、個別の特徴を直接集約してグループの特徴を形成する。
そこで本稿では,グループ活動認識ネットワークであるgroupformerを提案する。
個人とグループ表現をクラスタ化された時空間変換器で効果的に増強する。
具体的には, グループフォーマーには3つの利点がある: 1) 個別表現とグループ表現を強化するために, クラスタ化された空間時間変換器, テーラー修飾変換器を提案する。
2)空間的・時間的依存関係を総合的にモデル化し,デコーダを用いて空間的・時間的情報間の橋渡しを行う。
3) クラスタ化された注意機構を用いて個人を複数のクラスタに動的に分割し,アクティビティを意識したセマンティック表現を学習する。
さらに, バレーボールデータセットと集団活動データセットにおいて, 提案フレームワークが最先端手法よりも優れていることを示した。
コードはhttps://github.com/xueyee/groupformerで入手できる。 Group activity recognition is a crucial yet challenging problem, whose core lies in fully exploring spatial-temporal interactions among individuals and generating reasonable group representations. However, previous methods either model spatial and temporal information separately, or directly aggregate individual features to form group features. To address these issues, we propose a novel group activity recognition network termed GroupFormer. It captures spatial-temporal contextual information jointly to augment the individual and group representations effectively with a clustered spatial-temporal transformer. Specifically, our GroupFormer has three appealing advantages: (1) A tailor-modified Transformer, Clustered Spatial-Temporal Transformer, is proposed to enhance the individual representation and group representation. (2) It models the spatial and temporal dependencies integrally and utilizes decoders to build the bridge between the spatial and temporal information. (3) A clustered attention mechanism is utilized to dynamically divide individuals into multiple clusters for better learning activity-aware semantic representations. Moreover, experimental results show that the proposed framework outperforms state-of-the-art methods on the Volleyball dataset and Collective Activity dataset. Code is available at https://github.com/xueyee/GroupFormer. | 翻訳日:2021-08-31 14:42:38 公開日:2021-08-28 |
# ラベルのないビデオからオブジェクトを追跡する学習 Learning to Track Objects from Unlabeled Videos ( http://arxiv.org/abs/2108.12711v1 ) ライセンス: Link先を確認 | Jilai Zheng, Chao Ma, Houwen Peng and Xiaokang Yang | (参考訳) 本稿では,Unsupervised Single Object Tracker (USOT) をスクラッチから学習することを提案する。
我々は、オブジェクト発見、リッチな時間的変動回避、オンライン更新という3つの大きな課題が、既存の教師なしトラッカーのパフォーマンスボトルネックの中心的な原因であると特定した。
教師なしトラッカと教師なしトラッカのギャップを狭めるため,3段階からなる効果的な教師なし学習手法を提案する。
まず、ランダムな切り抜きではなく、教師なしの光フローと動的プログラミングで順次動くオブジェクトをサンプリングする。
第2に、単一フレームペアを使用して、ネイティブなSiameseトラッカーをスクラッチからトレーニングする。
第3に,トラッカを長い時間スパンで実行し,オンライン更新を可能にする,新たなサイクルメモリ学習スキームによるトレーニングを継続する。
広範囲にわたる実験の結果、unlabeledビデオから得られたusotは、最先端のunsupervisedトラッカーよりも大きなマージンで、そして最近のsupervised deep trackerと同等の性能を発揮していることがわかった。
コードはhttps://github.com/VISION-SJTU/USOTで入手できる。 In this paper, we propose to learn an Unsupervised Single Object Tracker (USOT) from scratch. We identify that three major challenges, i.e., moving object discovery, rich temporal variation exploitation, and online update, are the central causes of the performance bottleneck of existing unsupervised trackers. To narrow the gap between unsupervised trackers and supervised counterparts, we propose an effective unsupervised learning approach composed of three stages. First, we sample sequentially moving objects with unsupervised optical flow and dynamic programming, instead of random cropping. Second, we train a naive Siamese tracker from scratch using single-frame pairs. Third, we continue training the tracker with a novel cycle memory learning scheme, which is conducted in longer temporal spans and also enables our tracker to update online. Extensive experiments show that the proposed USOT learned from unlabeled videos performs well over the state-of-the-art unsupervised trackers by large margins, and on par with recent supervised deep trackers. Code is available at https://github.com/VISION-SJTU/USOT. | 翻訳日:2021-08-31 14:42:18 公開日:2021-08-28 |
# 不整合性頭部電位によるDeepFake検出:再現性と解析 DeepFake Detection with Inconsistent Head Poses: Reproducibility and Analysis ( http://arxiv.org/abs/2108.12715v1 ) ライセンス: Link先を確認 | Kevin Lutz and Robert Bassett | (参考訳) ディープラーニングの合成メディア生成への応用により、DeepFakesと呼ばれる説得力のある偽造物を作ることができる。
DeepFake検出は、ますます活発な研究分野である。
本稿では,自動エンコーダベースの顔スワップを用いて偽画像を生成する場合に適用可能な頭部位置推定に基づく既存のディープフェイク検出手法を分析する。
既存の文献では、この手法は有効なDeepFake検出器であり、その動機付け原理は魅力的に単純である。
これらの原理を新しいDeepFake検出器の開発に活用することを目的として,本手法の再現性の検討を行った。
我々は、その名声にもかかわらず、そのメリットは劇的に誇張されていると結論づける。
この差異を調べることで、deepfake検出器における顔のランドマーク検出、アイデンティティ非依存な頭部ポーズ推定、アルゴリズムバイアスに関する、多くの重要かつ一般化された洞察を明らかにする。
以上の結果から,DeepFake検出のためのアートパフォーマンスに対する現在の文献の認識を正すことができた。 Applications of deep learning to synthetic media generation allow the creation of convincing forgeries, called DeepFakes, with limited technical expertise. DeepFake detection is an increasingly active research area. In this paper, we analyze an existing DeepFake detection technique based on head pose estimation, which can be applied when fake images are generated with an autoencoder-based face swap. Existing literature suggests that this method is an effective DeepFake detector, and its motivating principles are attractively simple. With an eye towards using these principles to develop new DeepFake detectors, we conduct a reproducibility study of the existing method. We conclude that its merits are dramatically overstated, despite its celebrated status. By investigating this discrepancy we uncover a number of important and generalizable insights related to facial landmark detection, identity-agnostic head pose estimation, and algorithmic bias in DeepFake detectors. Our results correct the current literature's perception of state of the art performance for DeepFake detection. | 翻訳日:2021-08-31 14:41:58 公開日:2021-08-28 |
# 内在的動機づけエージェントに対する影響に基づく強化学習 Influence-based Reinforcement Learning for Intrinsically-motivated Agents ( http://arxiv.org/abs/2108.12581v1 ) ライセンス: Link先を確認 | Ammar Fayad, Majd Ibrahim | (参考訳) 強化学習(RL)研究領域は非常に活発であり、いくつかの重要な応用がある。
しかしながら、特定のタスクを解決しながら十分な探索と調整を達成するポリシーを見つける能力について言及できるような、特定の課題に対処する必要がある。
本研究では、2つのRLエージェントをそれぞれ異なる目的を持つアルゴリズムフレームワークを提案する。
我々は,ある政策が他者に与える影響を評価するために,新たな関数近似手法を導入する。
F$を$\pi$の目的の正規化子として最適化する一方で、エージェントはソリューション空間の高逆領域を利用してチームの振る舞いを調整することを学ぶ。
さらに、どちらのエージェントも予測エラーを本質的な動機付けとして使用し、可能な限り異なる振る舞いをするポリシを学ぶ。
本手法は, エージェント集団が様々な身体的, 情報的コーディネーション戦略を発見でき, 有名なベースラインと比較して, 最先端のパフォーマンスを示すことができる, オープンAIジムタスクと協調・混合シナリオを用いて評価した。 The reinforcement learning (RL) research area is very active, with several important applications. However, certain challenges still need to be addressed, amongst which one can mention the ability to find policies that achieve sufficient exploration and coordination while solving a given task. In this work, we present an algorithmic framework of two RL agents each with a different objective. We introduce a novel function approximation approach to assess the influence $F$ of a certain policy on others. While optimizing $F$ as a regularizer of $\pi$'s objective, agents learn to coordinate team behavior while exploiting high-reward regions of the solution space. Additionally, both agents use prediction error as intrinsic motivation to learn policies that behave as differently as possible, thus achieving the exploration criterion. Our method was evaluated on the suite of OpenAI gym tasks as well as cooperative and mixed scenarios, where agent populations are able to discover various physical and informational coordination strategies, showing state-of-the-art performance when compared to famous baselines. | 翻訳日:2021-08-31 14:32:45 公開日:2021-08-28 |
# 連続学習のためのプロトタイプ誘導メモリリプレイ Prototypes-Guided Memory Replay for Continual Learning ( http://arxiv.org/abs/2108.12641v1 ) ライセンス: Link先を確認 | Stella Ho, Ming Liu, Lan Du, Longxiang Gao and Yong Xiang | (参考訳) 継続学習(英: Continual Learning, CL)とは、学習性能を高めるために、トレーニングサンプルの小さな記述と以前に学んだ知識のみを使用する機械学習パラダイムである。
CLモデルは、様々なドメインから連続的にタスクを学習する。
CLの最大の困難は、データ分布の変化によって引き起こされた、以前に学習されたタスクの破滅的な忘れである。
既存のCLモデルは、しばしば破滅的な忘れを抑えるためにリプレイベースのアプローチを採用する。
ほとんどのCLモデルは、学習知識を保持するために、前に見たサンプルを確率的に選択する。
しかし、占有メモリサイズは学習タスクの蓄積とともに拡大し続ける。
本稿ではメモリ効率のよいcl法を提案する。
我々は動的プロトタイプによるメモリリプレイモジュールを考案し,それをオンラインメタラーニングモデルに組み込む。
テキスト分類に関する広範な実験を行い,clモデル性能に対する集合順序の訓練の効果についても検討した。
実験により, 破滅的忘れを緩和し, 効率的な知識伝達を可能にする方法の優位性を検証した。 Continual learning (CL) refers to a machine learning paradigm that using only a small account of training samples and previously learned knowledge to enhance learning performance. CL models learn tasks from various domains in a sequential manner. The major difficulty in CL is catastrophic forgetting of previously learned tasks, caused by shifts in data distributions. The existing CL models often employ a replay-based approach to diminish catastrophic forgetting. Most CL models stochastically select previously seen samples to retain learned knowledge. However, occupied memory size keeps enlarging along with accumulating learned tasks. Hereby, we propose a memory-efficient CL method. We devise a dynamic prototypes-guided memory replay module, incorporating it into an online meta-learning model. We conduct extensive experiments on text classification and additionally investigate the effect of training set orders on CL model performance. The experimental results testify the superiority of our method in alleviating catastrophic forgetting and enabling efficient knowledge transfer. | 翻訳日:2021-08-31 14:32:26 公開日:2021-08-28 |
# 重みプラニングと量子化による畳み込みニューラルネットワークのコンパクト表現 Compact representations of convolutional neural networks via weight pruning and quantization ( http://arxiv.org/abs/2108.12704v1 ) ライセンス: Link先を確認 | Giosu\`e Cataldo Marin\`o, Alessandro Petrini, Dario Malchiodi, Marco Frasca | (参考訳) いくつかの現実世界の問題に対する最先端のパフォーマンスは現在、畳み込みニューラルネットワーク(CNN)によって達成されている。
このような学習モデルは、ディープラーニングの分野における最近の結果を利用しており、通常は(少なくとも)数百万のパラメータを持つ高性能で、非常に大きなニューラルネットワークにつながる。
その結果、少量のramしか利用できない場合、あるいはリソース制限されたプラットフォーム内でのみ、そのようなモデルのデプロイは不可能となり、cnnを圧縮する戦略が最重要になった。
本稿では、ソース符号化と重み付けと量子化の両面を利用した新しいCNNのロスレスストレージフォーマットを提案する。
理論的には、提案した構造に対する空間上界を導出し、重み行列の空間性と量子化レベルとの関係を示す。
行列圧縮の基準法に対して圧縮速度と抽出時間の両方を試験し, 重み共有に基づく最先端量子化スキームの実証評価を行い, 畳み込み層と完全連結層の両方に適用した場合の性能への影響について検討した。
分類と回帰問題に対する4つのベンチマークと、ベースライン未圧縮ネットワークとの比較により、全接続層で最大0.6%、ネットワーク全体で最大5.44%の空間占有率を達成し、少なくともベースラインと同じくらいの競争力を発揮した。 The state-of-the-art performance for several real-world problems is currently reached by convolutional neural networks (CNN). Such learning models exploit recent results in the field of deep learning, typically leading to highly performing, yet very large neural networks with (at least) millions of parameters. As a result, the deployment of such models is not possible when only small amounts of RAM are available, or in general within resource-limited platforms, and strategies to compress CNNs became thus of paramount importance. In this paper we propose a novel lossless storage format for CNNs based on source coding and leveraging both weight pruning and quantization. We theoretically derive the space upper bounds for the proposed structures, showing their relationship with both sparsity and quantization levels of the weight matrices. Both compression rates and excution times have been tested against reference methods for matrix compression, and an empirical evaluation of state-of-the-art quantization schemes based on weight sharing is also discussed, to assess their impact on the performance when applied to both convolutional and fully connected layers. On four benchmarks for classification and regression problems and comparing to the baseline pre-trained uncompressed network, we achieved a reduction of space occupancy up to 0.6% on fully connected layers and 5.44% on the whole network, while performing at least as competitive as the baseline. | 翻訳日:2021-08-31 14:32:14 公開日:2021-08-28 |
# 任意の確率的タスクと動作ポリシー Anytime Stochastic Task and Motion Policies ( http://arxiv.org/abs/2108.12537v1 ) ライセンス: Link先を確認 | Naman Shah, Siddharth Srivastava | (参考訳) 複雑な長期的タスクを解決するためには、インテリジェントロボットは、動き計画と連動して高度な抽象的な計画と推論を実行する必要がある。
しかし、抽象モデルは一般的に損失が多く、それらを用いて計算された計画やポリシーは実行不可能である。
これらの問題は、ロボットが複数の状況について推論し計画する必要がある確率論的状況において悪化する。
確率的設定におけるタスクと動作計画の統合のための新しいアプローチを提案する。
この方向の先行作業とは対照的に,本手法では,複数の実行時コンティンジェンシーを処理するエージェントの振る舞いを分岐構造がエンコードする統合タスクとモーションポリシを効果的に計算できることを示す。
提案アルゴリズムは確率論的に完全であり,任意の方法で実現可能な解法ポリシーを計算し,未解決の並行性に遭遇する確率が時間の経過とともに減少することを示す。
課題の集合に関する実証的な結果は,本手法の有用性と適用範囲を示している。 In order to solve complex, long-horizon tasks, intelligent robots need to carry out high-level, abstract planning and reasoning in conjunction with motion planning. However, abstract models are typically lossy and plans or policies computed using them can be inexecutable. These problems are exacerbated in stochastic situations where the robot needs to reason about and plan for multiple contingencies. We present a new approach for integrated task and motion planning in stochastic settings. In contrast to prior work in this direction, we show that our approach can effectively compute integrated task and motion policies whose branching structures encode agent behaviors that handle multiple execution-time contingencies. We prove that our algorithm is probabilistically complete and can compute feasible solution policies in an anytime fashion so that the probability of encountering an unresolved contingency decreases over time. Empirical results on a set of challenging problems show the utility and scope of our method. | 翻訳日:2021-08-31 14:28:58 公開日:2021-08-28 |
# CHAINGE: サブスクリプションサービスの支払い詳細アップデートを自動化するブロックチェーンソリューション CHAINGE: A Blockchain Solution to Automate Payment Detail Updates to Subscription Services ( http://arxiv.org/abs/2108.12705v1 ) ライセンス: Link先を確認 | David Buckley, Gueltoum Bendiab, Stavros Shiaeles, Nick Savage, Nicholas Kolokotronis | (参考訳) サブスクリプションベースのビジネスモデルの台頭は、顧客が支払いを管理する必要があるサブスクリプションの数の増加につながった。
複数のサブスクリプションに対する支払いの管理は、特にカードが失われたり、盗まれたり、期限切れになったりした場合、顧客にとって非常に複雑で安全でないタスクとなっている。
さらに、主に手動で行うこのプロセスは、人間のエラー、デジタル詐欺、データ漏洩に対して脆弱である、とセキュリティレポートは述べている。
そこで本稿では,ユーザサブスクリプションへの支払いを更新・管理するプロセスにおいて,金融サプライチェーンを自動化・管理・簡素化する新たなアプローチを提案する。
これはHyperledger Sawtoothブロックチェーンフレームワークを利用して、消費者が支払いカードの詳細を中央のデジタルウォレットに入力し、サブスクリプションをカードにリンクすることを可能にする。
カードが更新されると、ブロックチェーン上のイベントがトリガーされ、支払いの詳細がサブスクリプションシステムで自動的に更新される。
提案システムのプロトタイプで実施した検証テストは,その実装が確実に達成されていることを示す。 The rise of the subscription-based business model has led to a corresponding increase in the number of subscriptions where a customer needs to manage their payments. This management of payments for multiple subscriptions has become a very complicated and insecure task for customers, especially when it comes to renewing payment details when the card is lost, stolen, or expires. In addition, this, mostly manual, process is vulnerable to human error, digital frauds, and data breaches, according to security reports. Thus, in this paper, we propose a novel approach to automate, manage and simplify the Financial Supply Chain involved in the process of updating and managing payments to user subscriptions. This is done by utilising the Hyperledger Sawtooth blockchain framework, that allows a consumer to enter their payment card details in a central digital wallet and link their subscriptions to their cards. The card being updated triggers an event on the blockchain, which allow for the payment details to be updated on subscription systems automatically. The verification tests performed on the prototype of the proposed system shows that its current implementation has been securely achieved. | 翻訳日:2021-08-31 14:28:43 公開日:2021-08-28 |
# スペクトルスナップショット圧縮イメージングのための自己教師型ニューラルネットワーク Self-supervised Neural Networks for Spectral Snapshot Compressive Imaging ( http://arxiv.org/abs/2108.12654v1 ) ライセンス: Link先を確認 | Ziyi Meng and Zhenming Yu and Kun Xu and Xin Yuan | (参考訳) 我々は,2次元(通常3次元)検出器を用いて高次元(通常3次元)データキューブを圧縮的にキャプチャする,スナップショット圧縮イメージング(SCI)の再構成問題を解決するために,.bf\em未学習ニューラルネットワークを用いる。
近年、高速ビデオやハイパースペクトル画像などのデータを取り込むために様々なsciシステムが構築され、ディープニューラルネットワークによって最先端の再構築が得られている。
しかし、これらのネットワークのほとんどは、しばしばシミュレーションされた地上真理、測定ペアを持つ大量のコーパスによってエンドツーエンドで訓練されている。
本稿では,DIP(Deep Image Priors)やディープデコーダ(Deep Decoder)といった未学習のニューラルネットワークにヒントを得て,DIPをプラグアンドプレイシステムに統合して,スペクトルSCI再構成のための自己教師型ネットワークを構築する。
広範な合成データと実データの結果から,提案アルゴリズムはトレーニングベースネットワークと競合する結果が得られることがわかった。
さらに,提案手法を事前学習したディープデノゲーションと統合することにより,最先端の成果を得た。
Our コードは \url{https://github.com/mengziyi64/CASSI-Self-Supervised} で利用可能である。 We consider using {\bf\em untrained neural networks} to solve the reconstruction problem of snapshot compressive imaging (SCI), which uses a two-dimensional (2D) detector to capture a high-dimensional (usually 3D) data-cube in a compressed manner. Various SCI systems have been built in recent years to capture data such as high-speed videos, hyperspectral images, and the state-of-the-art reconstruction is obtained by the deep neural networks. However, most of these networks are trained in an end-to-end manner by a large amount of corpus with sometimes simulated ground truth, measurement pairs. In this paper, inspired by the untrained neural networks such as deep image priors (DIP) and deep decoders, we develop a framework by integrating DIP into the plug-and-play regime, leading to a self-supervised network for spectral SCI reconstruction. Extensive synthetic and real data results show that the proposed algorithm without training is capable of achieving competitive results to the training based networks. Furthermore, by integrating the proposed method with a pre-trained deep denoising prior, we have achieved state-of-the-art results. {Our code is available at \url{https://github.com/mengziyi64/CASSI-Self-Supervised}.} | 翻訳日:2021-08-31 14:27:20 公開日:2021-08-28 |
# 非局所クラマー・モヤル公式による確率的統治則の抽出 Extracting Stochastic Governing Laws by Nonlocal Kramers-Moyal Formulas ( http://arxiv.org/abs/2108.12570v1 ) ライセンス: Link先を確認 | Yubin Lu, Yang Li and Jinqiao Duan | (参考訳) 計算技術と科学ツールの急速な開発により、データから動的システムの法則を抽出するデータ駆動分析が大幅に進歩した。
非ガウス的ゆらぎの広さにもかかわらず、非ガウス的L'evyノイズを持つ確率微分方程式を同定する効果的なデータ駆動法は、今のところ比較的少ない。
本研究では,(ガウシアン)ブラウン運動と(非ガウシアン)l\'evy運動の両方の確率的支配則を,短いシミュレーションデータから抽出するデータ駆動手法を提案する。
具体的には,データから遷移確率密度関数(非局所フォッカー・プランク方程式の解法)を推定するために正規化流れ技術を用い,最近提案された非局所クラマーズ・モヤル公式に置き換え,l\'evy jump測度,ドリフト係数,拡散係数を近似する。
このアプローチがL'evy運動を伴う確率微分方程式を学習できることを実証する。
本手法を説明するために, 1次元および2次元のデカップリング結合系を用いて実例を示す。
このアプローチは確率的統治法則を発見し、複雑な力学挙動を理解するための効果的なツールとなる。 With the rapid development of computational techniques and scientific tools, great progress of data-driven analysis has been made to extract governing laws of dynamical systems from data. Despite the wide occurrences of non-Gaussian fluctuations, the effective data-driven methods to identify stochastic differential equations with non-Gaussian L\'evy noise are relatively few so far. In this work, we propose a data-driven approach to extract stochastic governing laws with both (Gaussian) Brownian motion and (non-Gaussian) L\'evy motion, from short bursts of simulation data. Specifically, we use the normalizing flows technology to estimate the transition probability density function (solution of nonlocal Fokker-Planck equation) from data, and then substitute it into the recently proposed nonlocal Kramers-Moyal formulas to approximate L\'evy jump measure, drift coefficient and diffusion coefficient. We demonstrate that this approach can learn the stochastic differential equation with L\'evy motion. We present examples with one- and two-dimensional, decoupled and coupled systems to illustrate our method. This approach will become an effective tool for discovering stochastic governing laws and understanding complex dynamical behaviors. | 翻訳日:2021-08-31 14:24:29 公開日:2021-08-28 |
# 空間DNN加速器のパワーベース攻撃 Power-Based Attacks on Spatial DNN Accelerators ( http://arxiv.org/abs/2108.12579v1 ) ライセンス: Link先を確認 | Ge Li, Mohit Tiwari, and Michael Orshansky | (参考訳) DNNベースのアプリケーションの普及に伴い、DNNモデルの機密性は重要な商業目標である。
行列/ベクトル演算を並列化する空間加速器は、DNN計算のエネルギー効率を高めるために使用される。
近年,DPA(差分電力解析)による暗号デバイスへの攻撃から導いた手法を用いて,単純なアクセルに対するモデル抽出攻撃を,単一の処理要素やバイナライズされたネットワーク上で行った。
本稿では,一般,8ビット数表現を用いた現実空間加速器の脆弱性について検討する。
本研究では,(1)ドット積演算のための3$\times$ 1配列,(2)行列ベクトル乗算のための3$\times$ 3配列の2つのsystolic配列アーキテクチャについて検討した。
どちらもSAkura-G FPGAボード上に実装されている。
両方のアーキテクチャが最終的に脆弱であることを示します。
従来のDPAは1Dアレイで完全に成功し、20Kの電力測定を必要とする。
しかし、2Dアレイは460Kのトレースでも高いセキュリティを示す。
これは、2D配列が本質的に同じ入力に依存する複数のMACを同時に持つためである。
しかし,複数のプロファイリングフェーズを持つテンプレートベースの新しいDPAは,40Kのトレースしか持たない2次元配列を完全に破壊できることがわかった。
空間的DNN加速器の対応策を検討する必要がある。 With proliferation of DNN-based applications, the confidentiality of DNN model is an important commercial goal. Spatial accelerators, that parallelize matrix/vector operations, are utilized for enhancing energy efficiency of DNN computation. Recently, model extraction attacks on simple accelerators, either with a single processing element or running a binarized network, were demonstrated using the methodology derived from differential power analysis (DPA) attack on cryptographic devices. This paper investigates the vulnerability of realistic spatial accelerators using general, 8-bit, number representation. We investigate two systolic array architectures with weight-stationary dataflow: (1) a 3 $\times$ 1 array for a dot-product operation, and (2) a 3 $\times$ 3 array for matrix-vector multiplication. Both are implemented on the SAKURA-G FPGA board. We show that both architectures are ultimately vulnerable. A conventional DPA succeeds fully on the 1D array, requiring 20K power measurements. However, the 2D array exhibits higher security even with 460K traces. We show that this is because the 2D array intrinsically entails multiple MACs simultaneously dependent on the same input. However, we find that a novel template-based DPA with multiple profiling phases is able to fully break the 2D array with only 40K traces. Corresponding countermeasures need to be investigated for spatial DNN accelerators. | 翻訳日:2021-08-31 14:23:13 公開日:2021-08-28 |
# 忘れることなく新しい知識を学習するための表現記憶 Representation Memorization for Fast Learning New Knowledge without Forgetting ( http://arxiv.org/abs/2108.12596v1 ) ライセンス: Link先を確認 | Fei Mi, Tao Lin, and Boi Faltings | (参考訳) 新しい知識(例えば、新しい知識)を素早く学ぶ能力
新しいクラスやデータ分布)は人間レベルの知性への大きな一歩です。
本稿では,実世界の動的環境においてしばしば発生するため,新しいクラスやデータ分布の学習を迅速かつ漸進的に行うシナリオについて考察する。
我々は,この目標を統一されたフレームワークで達成するための2つの大きな課題(破滅的な忘れとサンプル効率)に取り組むために,メモリベースのヘビアンパラメータ適応(Hebb)を提案する。
壊滅的な忘れを緩和するため、hebbは通常の神経分類器を連続的に更新したメモリモジュールで増強し、以前のデータの表現を格納する。
サンプル効率を向上させるために、メモリから取得した類似表現と出力ネットワークのパラメータを直接"配線"する、よく知られたヘビアン理論に基づくパラメータ適応手法を提案する。
我々は,様々な学習タスク(画像分類,言語モデル)と学習シナリオ(継続的な,インクリメンタル,オンライン)の広範な実験を通じて,hebbの優れた性能を実証する。
hebbは破滅的な忘れを効果的に軽減し、現在の最先端技術よりも、新しい知識をより良く、より速く学習できることを実証する。 The ability to quickly learn new knowledge (e.g. new classes or data distributions) is a big step towards human-level intelligence. In this paper, we consider scenarios that require learning new classes or data distributions quickly and incrementally over time, as it often occurs in real-world dynamic environments. We propose "Memory-based Hebbian Parameter Adaptation" (Hebb) to tackle the two major challenges (i.e., catastrophic forgetting and sample efficiency) towards this goal in a unified framework. To mitigate catastrophic forgetting, Hebb augments a regular neural classifier with a continuously updated memory module to store representations of previous data. To improve sample efficiency, we propose a parameter adaptation method based on the well-known Hebbian theory, which directly "wires" the output network's parameters with similar representations retrieved from the memory. We empirically verify the superior performance of Hebb through extensive experiments on a wide range of learning tasks (image classification, language model) and learning scenarios (continual, incremental, online). We demonstrate that Hebb effectively mitigates catastrophic forgetting, and it indeed learns new knowledge better and faster than the current state-of-the-art. | 翻訳日:2021-08-31 14:22:53 公開日:2021-08-28 |
# 強化学習によるサーバレスコンピューティングにおけるアイドルリソースのハーベスティング Harvesting Idle Resources in Serverless Computing via Reinforcement Learning ( http://arxiv.org/abs/2108.12717v1 ) ライセンス: Link先を確認 | Hanfei Yu, Hao Wang, Jian Li, Seung-Jong Park | (参考訳) サーバレスコンピューティングは新しいクラウドコンピューティングパラダイムとなり、コスト効率が高く、自動化されたリソーススケーリングを細かい粒度で実現する。
クラウドアプリケーションをチェーン関数に分離し、各サーバレス関数のメモリとCPU要求をそれぞれメガバイトレベルとコアレベルにプリセットする。
サーバレスプラットフォームは、ワークロードに対応する関数数を自動的にスケールする。
しかし、連鎖関数の複雑さは、ユーザに対する各関数のリソース要求を正確に決定することが非自明であり、個々の関数のリソースオーバープロビジョンかアンダープロビジョンのいずれかに繋がる。
本稿では、過給関数から過給関数からアイドルリソースを動的に回収し、リソース効率を最大化するサーバーレスプラットフォーム向けの新しいリソースマネージャであるFaaSRMを提案する。
faasrmは、各機能のリソース利用をリアルタイムで監視し、過剰なプロビジョンと過度なプロビジョンを検出し、保護機構を用いて安全にアイドルリソースを収集し、効率的に機能を加速する。
我々は,FaaSRMのプロトタイプを13ノードのApache OpenWhiskクラスタに実装し,デプロイした。
OpenWhiskクラスタの実験結果によると、FaaSRMは38.8%のアイドルリソースを収穫し、39.2%の呼び出しを加速することにより、ファンクション呼び出しの98%の実行時間をベースラインRMと比較して35.81%削減している。 Serverless computing has become a new cloud computing paradigm that promises to deliver high cost-efficiency and simplified cloud deployment with automated resource scaling at a fine granularity. Users decouple a cloud application into chained functions and preset each serverless function's memory and CPU demands at megabyte-level and core-level, respectively. Serverless platforms then automatically scale the number of functions to accommodate the workloads. However, the complexities of chained functions make it non-trivial to accurately determine the resource demands of each function for users, leading to either resource over-provision or under-provision for individual functions. This paper presents FaaSRM, a new resource manager (RM) for serverless platforms that maximizes resource efficiency by dynamically harvesting idle resources from functions over-supplied to functions under-supplied. FaaSRM monitors each function's resource utilization in real-time, detects over-provisioning and under-provisioning, and applies deep reinforcement learning to harvest idle resources safely using a safeguard mechanism and accelerate functions efficiently. We have implemented and deployed a FaaSRM prototype in a 13-node Apache OpenWhisk cluster. Experimental results on the OpenWhisk cluster show that FaaSRM reduces the execution time of 98% of function invocations by 35.81% compared to the baseline RMs by harvesting idle resources from 38.8% of the invocations and accelerating 39.2% of the invocations. | 翻訳日:2021-08-31 14:22:31 公開日:2021-08-28 |
# (参考訳) 説明可能なバイオメディカルテキスト分類のためのラベル注意型微調整事前学習言語モデル Fine-tuning Pretrained Language Models with Label Attention for Explainable Biomedical Text Classification ( http://arxiv.org/abs/2108.11809v2 ) ライセンス: CC BY-SA 4.0 | Bruce Nguyen and Shaoxiong Ji | (参考訳) デジタルバイオメディカルデータの大規模成長により、バイオメディカルテキストのインデクシングと分類がますます重要になっている。
そのため、以前の研究では、フィードフォワード、畳み込み、または反復的なニューラルアーキテクチャの使用に焦点を当てた多くのディープラーニング技術が考案された。
最近では、多くの自然言語処理タスクにおいて、微調整トランスフォーマーベース事前訓練モデル(PTM)は、そのようなモデルよりも優れた性能を示している。
しかし、バイオメディカル領域におけるPTMの直接使用は、ラベル記述の豊富な意味情報を無視して、対象文書のみに限られる。
本稿では,PTMの微調整プロセスに意味ラベル記述を注入する改良されたラベルアテンションに基づくアーキテクチャを提案する。
2つの公開医療データセットの結果、提案手法は従来の微調整PTMと先行技術モデルよりも優れていた。
さらに, ラベル注意機構による微調整は, 解釈可能性研究において解釈可能であることを示す。 The massive growth of digital biomedical data is making biomedical text indexing and classification increasingly important. Accordingly, previous research has devised numerous deep learning techniques focused on using feedforward, convolutional or recurrent neural architectures. More recently, fine-tuned transformers-based pretrained models (PTMs) have demonstrated superior performance compared to such models in many natural language processing tasks. However, the direct use of PTMs in the biomedical domain is only limited to the target documents, ignoring the rich semantic information in the label descriptions. In this paper, we develop an improved label attention-based architecture to inject semantic label description into the fine-tuning process of PTMs. Results on two public medical datasets show that the proposed fine-tuning scheme outperforms the conventionally fine-tuned PTMs and prior state-of-the-art models. Furthermore, we show that fine-tuning with the label attention mechanism is interpretable in the interpretability study. | 翻訳日:2021-08-31 11:43:28 公開日:2021-08-28 |
# MCML:少しショットスロットタグ付けのための新しいメモリベースコントラストメタラーニング手法 MCML: A Novel Memory-based Contrastive Meta-Learning Method for Few Shot Slot Tagging ( http://arxiv.org/abs/2108.11635v2 ) ライセンス: Link先を確認 | Hongru Wang, Zezhong Wang, Gabriel Pui Cheong Fung, Kam-Fai Wong | (参考訳) メタラーニングは、数ショット学習のタスクにおいて、数ショットスロットタギングに広く使用されている。
しかし、既存手法の性能は破滅的な忘れ込みの影響を強く受けている。
この現象は、トレーニングとテストモジュールが歴史的情報、すなわち歴史的情報を考慮していないため、ディープラーニングでは一般的である。
メトリックベースのメタラーニングでトレーニング済みのエピソード。
そこで本研究では,メモリベースのContrastive Meta-learning(MCML)手法を提案する。
具体的には,前訓練されたエピソードのラベル表現の追跡に明示的なメモリを使用する学習・メモリ機構を提案し,少数のショットエピソードに埋め込まれた現在のラベルとメモリに記憶されている歴史的なラベルを比較し,テストエピソードに埋め込まれた入力ラベルとメモリ内のラベルクラスタとのコントラストに基づいて出力ラベルを決定する適応型メモリ機構を提案する。
実験の結果,mmlはsnipsデータセットの1ショット,5ショット,10ショット,20ショットのシナリオすべてにおいて,メトリクスベースのメタラーニングと最適化に基づくメタラーニングよりも優れていた。 Meta-learning is widely used for few-shot slot tagging in the task of few-shot learning. The performance of existing methods is, however, seriously affected by catastrophic forgetting. This phenomenon is common in deep learning as the training and testing modules fail to take into account historical information, i.e. previously trained episodes in the metric-based meta-learning. To overcome this predicament, we propose the Memory-based Contrastive Meta-learning (MCML) method. Specifically, we propose a learn-from-memory mechanism that use explicit memory to keep track of the label representations of previously trained episodes and propose a contrastive learning method to compare the current label embedded in the few shot episode with the historic ones stored in the memory, and an adaption-from memory mechanism to determine the output label based on the contrast between the input labels embedded in the test episode and the label clusters in the memory. Experimental results show that MCML is scalable and outperforms metric-based meta-learning and optimization-based meta-learning on all 1shot, 5-shot, 10-shot, and 20-shot scenarios of the SNIPS dataset. | 翻訳日:2021-08-31 10:26:15 公開日:2021-08-28 |