このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。



PDF登録状況(公開日: 20210102)

# ホログラム双対性に訴えることなく高速スクランブル

Fast scrambling without appealing to holographic duality ( http://arxiv.org/abs/2004.11269v2 )

ライセンス: Link先を確認
Zehan Li, Sayan Choudhury, W. Vincent Liu(参考訳) すべての高速スクランブラーがホログラフィック的に量子重力に双対であるかどうかという問題に動機づけられ、2つの成分からなる非可積分スピンチェーンモデルのダイナミクス、すなわち近接イジングカップリング結合と無限距離$xx$相互作用の研究を行った。 他の高速スクランブル多体系とは異なり、このモデルはブラックホールと双対であることが知られていない。 我々は,out-of-time-ordered correlator (otoc) を用いて量子情報の拡散を定量化し,このモデルが広いパラメータ領域で高速にスクランブルすることを示す。 そのクエンチダイナミクスのシミュレーションにより、otocの急速な減少は、エントロピーのエントロピーの速やかな成長と、磁化の急速な変化を伴うことが判明した。 最後に,現在の実験環境において,モデルの実現可能性について提案する。 私たちの仕事は、高速スクランブラを作るための有望なルートを確立します。

Motivated by the question of whether all fast scramblers are holographically dual to quantum gravity, we study the dynamics of a non-integrable spin chain model composed of two ingredients - a nearest neighbor Ising coupling, and an infinite range $XX$ interaction. Unlike other fast scrambling many-body systems, this model is not known to be dual to a black hole. We quantify the spreading of quantum information using an out-of time-ordered correlator (OTOC), and demonstrate that our model exhibits fast scrambling for a wide parameter regime. Simulation of its quench dynamics finds that the rapid decline of the OTOC is accompanied by a fast growth of the entanglement entropy, as well as a swift change in the magnetization. Finally, potential realizations of our model are proposed in current experimental setups. Our work establishes a promising route to create fast scramblers.
翻訳日:2023-05-22 08:19:51 公開日:2021-01-02
# 非視的脱畳畳み込みゴーストイメージング

Unsighted deconvolution ghost imaging ( http://arxiv.org/abs/2006.00161v2 )

ライセンス: Link先を確認
Yuan Yuan and Hui Chen(参考訳) ゴーストイメージング(英: ghost imaging, gi)とは、一連の既知の照明パターンと全反射(または透過)強度を関連付けて、物体の画像を検索する非慣習的イメージング手法である。 本稿では,オブジェクトのインシデントパターンを知る基本的な要件を取り除き,タービッドメディアを介して非侵襲的にオブジェクトをイメージできる方式を示す。 実験的な証明として, タービッドメディアの内部に隠された物体に対して一連のパターンを投影し, 照明をスクランブルし, 物体に落下するパターンを完全に不明にする。 オブジェクトと照明の両方の空間情報が失われても、オブジェクトの空間周波数がGIの測定に保存されていることを理論的に証明する。 その後、画像は位相検索アルゴリズムで再構成される。

Ghost imaging (GI) is an unconventional imaging method that retrieves the image of an object by correlating a series of known illumination patterns with the total reflected (or transmitted) intensity. We here demonstrate a scheme which can remove the basic requirement of knowing the incident patterns on the object, enabling GI to non-invasively image objects through turbid media. As an experimental proof, we project a set of patterns towards an object hidden inside turbid media that scramble the illumination, making the patterns falling on the object completely unknown. We theoretically prove that the spatial frequency of the object is preserved in the measurement of GI, even though the spatial information of both the object and the illumination is lost. The image is then reconstructed with phase retrieval algorithms.
翻訳日:2023-05-17 22:45:42 公開日:2021-01-02
# 圧縮発振器のエコー

Echoes of a Squeezed Oscillator ( http://arxiv.org/abs/2006.06299v2 )

ライセンス: Link先を確認
Roberto Merlin and Andrea Bianchini(参考訳) 不均一に拡張された高調波発振器に印加されたパルスは、かつて圧縮された状態で準備され、コヒーレンスを回復させ、適切に設計された電磁パルスによって励起されたスピンのアンサンブルに類似したエコーとして現れる。 このようなエコーは古典的あるいは量子的な性質において、様々な種類の線形系のスクイーズ、特に光と振動のモードで生じることが期待されている。

Pulses applied to an inhomogeneously broadened set of harmonic oscillators, previously prepared in squeezed states, can lead to a recovery of coherence, manifesting itself as echoes, similar to those exhibited by an ensemble of spins when excited by properly designed electromagnetic pulses. Such echoes, of classical or quantum nature, are expected to arise in the squeezing of linear systems of various sorts and, in particular, light and vibrational modes.
翻訳日:2023-05-16 00:49:06 公開日:2021-01-02
# エキゾチックな高次対称性破砕によるフラクトン相

Fracton phases via exotic higher-form symmetry-breaking ( http://arxiv.org/abs/2010.02254v2 )

ライセンス: Link先を確認
Marvin Qi, Leo Radzihovsky, Michael Hermele(参考訳) フラクトン相のp-弦凝縮機構を高次対称性の観点から研究し、x-cubeモデルとランク2対称テンソルu(1)スカラー電荷理論の例に焦点を当てた。 この研究はフラクトン相と連続量子場理論の関係に関する疑問によって動機付けられ、また特定の格子モデル構造に依存しないp弦凝縮を記述するための一般的な原理を提供する。 格子モデルにおける高次対称性について、細胞ホモロジーの観点から考察する。 この視点をx-cubeモデルの結合層構成に適用し、x-cube相では破れ、分離されたトーリック符号層では保存される葉状1型対称性を同定した。 スカラー電荷理論に対する同様の考察は、フレーム化された1-形式対称性をもたらす。 これらの対称性は、例えば相対論的場の量子論において生じる標準1形式対称性とは異なる。 また, p-弦凝縮の解釈や, 高次対称性の観点からの対称性の観測を含む関連する構成について, 一般的な議論を行う。

We study p-string condensation mechanisms for fracton phases from the viewpoint of higher-form symmetry, focusing on the examples of the X-cube model and the rank-two symmetric-tensor U(1) scalar charge theory. This work is motivated by questions of the relationship between fracton phases and continuum quantum field theories, and also provides general principles to describe p-string condensation independent of specific lattice model constructions. We give a perspective on higher-form symmetry in lattice models in terms of cellular homology. Applying this perspective to the coupled-layer construction of the X-cube model, we identify a foliated 1-form symmetry that is broken in the X-cube phase, but preserved in the phase of decoupled toric code layers. Similar considerations for the scalar charge theory lead to a framed 1-form symmetry. These symmetries are distinct from standard 1-form symmetries that arise, for instance, in relativistic quantum field theory. We also give a general discussion on interpreting p-string condensation, and related constructions involving gauging of symmetry, in terms of higher-form symmetry.
翻訳日:2023-04-29 22:17:58 公開日:2021-01-02
# 非可積分系における量子クエンチに続く局在力学:ソートゥースはしごの例

Localized dynamics following a quantum quench in a non-integrable system: An example on the sawtooth ladder ( http://arxiv.org/abs/2010.15548v2 )

ライセンス: Link先を確認
Rishabh Khare and Sayan Choudhury(参考訳) 幾何的フラストレーション系における最近のエルゴディキシティの破れの発見に動機づけられ, ソートゥース・ラダー上のハードコア・ボソン相互作用のクエンチダイナミクスの研究を行った。 そこで,本システムでは,初期状態記憶保持やエンタングルメントエントロピーの緩やかな成長といった,局所化の特徴的な特徴を示す初期状態の集合を同定する。 この局在は、多体スペクトルが熱化している場合でも持続する。 局所力学は相互作用によって引き起こされる量子干渉に由来すると論じる。 以上の結果から,sawtooth ladderは物質の非平衡量子状態を実現するためのプラットフォームである可能性が示唆された。

Motivated by the recent discovery of ergodicity breaking in geometrically frustrated systems, we study the quench dynamics of interacting hardcore bosons on a sawtooth ladder. We identify a set of initial states for which this system exhibits characteristic signatures of localization like initial state memory retention and slow growth of entanglement entropy for a wide parameter regime. Remarkably, this localization persists even when the many-body spectrum is thermalizing. We argue that the localized dynamics originates from an interaction induced quantum interference. Our results show that the sawtooth ladder can be a fertile platform for realizing non-equilibrium quantum states of matter.
翻訳日:2023-04-27 00:46:27 公開日:2021-01-02
# GISと計算ノート

GIS and Computational Notebooks ( http://arxiv.org/abs/2101.00351v1 )

ライセンス: Link先を確認
Geoff Boeing and Dani Arribas-Bel(参考訳) 多くの分野の研究者や実践者は、最近計算ノートブックを採用して、彼らの科学的ワークフローを開発、文書化し、共有している。 本章では,地理的文脈における計算ノートを紹介する。 ノートブックを支える計算パラダイムと哲学を説明することから始まります。 次に、ノートブックユーザの典型的なワークフローを説明するために、アーキテクチャをパッケージ化する。 ノートブックがGIS研究者や実践者にもたらす主なメリットとして、現代のソフトウェアとの統合性の向上、新しい形式のデータへのアクセス性の向上、オープンサイエンスの原則とメリットとの整合性の向上などを挙げている。 この文脈では、ノートブックを、計算地理学のためのオープンソースパッケージと転送可能なプラットフォームのより広いエコシステムを結合する接着剤として識別する。 この章は、一連の基本的なGIS操作のためにノートブックを使用する簡単なイラストで締めくくっている。 従来のデスクトップGISと比較すると、ノートブックは空間分析をより細く、拡張可能で、再現可能であるため、地理空間科学ツールキットの重要な構成要素へと進化してきた。

Researchers and practitioners across many disciplines have recently adopted computational notebooks to develop, document, and share their scientific workflows - and the GIS community is no exception. This chapter introduces computational notebooks in the geographical context. It begins by explaining the computational paradigm and philosophy that underlie notebooks. Next it unpacks their architecture to illustrate a notebook user's typical workflow. Then it discusses the main benefits notebooks offer GIS researchers and practitioners, including better integration with modern software, more natural access to new forms of data, and better alignment with the principles and benefits of open science. In this context, it identifies notebooks as the glue that binds together a broader ecosystem of open source packages and transferable platforms for computational geography. The chapter concludes with a brief illustration of using notebooks for a set of basic GIS operations. Compared to traditional desktop GIS, notebooks can make spatial analysis more nimble, extensible, and reproducible and have thus evolved into an important component of the geospatial science toolkit.
翻訳日:2023-04-18 01:59:00 公開日:2021-01-02
# 量子マイクロ波フォトニクス

Quantum microwave photonics ( http://arxiv.org/abs/2101.04078v1 )

ライセンス: Link先を確認
Ye Yang, Yaqing Jin, Xiao Xiang, Wei Li, Tao Liu, Shougang Zhang, Ruifang Dong and Ming Li(参考訳) 量子的重畳と絡み合いを利用して、コミュニケーション計算とシミュレーションのさまざまな分野の研究から、過去30年間に顕著な進歩が見られた。 本研究では,マイクロ波フォトニックスの処理能力をさらに向上させるために,低ジッタ超伝導ナノワイヤ単一光子検出器 (snspd) と時間相関単光子計数 (tcspc) モジュールを用いた量子マイクロ波フォトニック処理方式を実証した。 この方法は、単一光子レベル(低-100 dbm)までの極端光感度と、ケーブルの伝送帯域より2倍高い広帯域の処理帯域とを一意に結合する。 さらに、トリガの恩恵を受け、所望のRF信号を選択的に処理し、所望の信号出力よりも15dB大きい電力であっても、他のインセンスノイズ及び望ましくないRF成分を減衰させることができる。 この方法を用いて,単一光子レベルで所望のrf信号に対するマイクロ波位相シフトと周波数フィルタリングを示す。 宇宙や水中での通信やテスト、プレパッケージのフォトニック変調器や検出器の適性などにも応用されている。 この単一光子レベルでのrf信号処理能力は、高速量子処理法の発展に繋がる可能性がある。

By harnessing quantum superposition and entanglement, remarkable progress has sprouted over the past three decades from different areas of research in communication computation and simulation. To further improve the processing ability of microwave pho-tonics, here, we have demonstrated a quantum microwave photonic processing system using a low jitter superconducting nanowire single photon detector (SNSPD) and a time-correlated single-photon counting (TCSPC) module. This method uniquely combines extreme optical sensitivity, down to a single-photon level (below -100 dBm), and wide processing bandwidth, twice higher than the transmission bandwidth of the cable. Moreover, benefitted from the trigger, the system can selectively process the desired RF signal and attenuates the other in-tense noise and undesired RF components even the power is 15dB greater than the desired signal power. Using this method we show microwave phase shifting and frequency filtering for the desired RF signal on the single-photon level. Besides its applications in space and under-water communications and testing and qualification of pre-packaged photonic modulators and detectors. This RF signal processing capability at the single-photon level can lead to significant development in the high-speed quantum processing method.
翻訳日:2023-04-18 01:56:07 公開日:2021-01-02
# IoTセンサを用いた感染症の検出と予測

Detection and Prediction of Infectious Diseases Using IoT Sensors: A Review ( http://arxiv.org/abs/2101.02029v1 )

ライセンス: Link先を確認
Mohammad Meraj, Surendra Pal Singh, Prashant Johri, Mohammad Tabrez Quasim(参考訳) 伝染病は大量の人間に影響を与える。 世界中で多くの調査が行われている。 医療分野には、スマートトラッキング、スマートセンサー、臨床機器の統合など、IoTのようなインタラクティブなハードウェアプラットフォームパッケージが数多く出回っている。 iotのような新しい技術は、患者を安全で健康に保ち、医師が医療を提供する方法も強化する。 医療用IoTは、患者が医師との交流により多くの時間を費やすことを許すことで、患者のプライドを高めることができます。 医療におけるIoTの最大のアドバンテージは、世界中のプロフェッショナルな労働力不足を経験している専門職で、医師がさらなる重要な臨床業務を行うのをサポートすることだ。 本稿では,医療システムにおけるIoTの適用性に関する基礎調査を行う。

An infectious kind of disease affects a huge number of human beings. A lot of investigation being conducted throughout the world. There are many interactive hardware platform packages like IoT in healthcare including smart tracking, smart sensors, and clinical device integration available in the market. Emerging technology like IoT has a notable ability to hold patients secure and healthful and also enhance how physicians supply care. Healthcare IoT also can bolster affected person pride by permitting patients to spend more time interacting with their medical doctors due to the fact docs aren't as taken with the mundane and rote aspects of their career. The most considerable advantage to IoT in healthcare is that it supports doctors in undertaking extra significant clinical work in a profession that already is experiencing a worldwide professional hard work shortage. This paper investigates the basis exploration of the applicability of IoT in the healthcare System.
翻訳日:2023-04-18 01:55:47 公開日:2021-01-02
# 高次バタフライネットワークにおけるghz状態を有するネットワークエンコーディングによるマルチノード故障からの量子ネットワーク回復

Quantum Network Recovery from Multinode Failure using Network Encoding with GHZ-States on Higher-Order Butterfly Networks ( http://arxiv.org/abs/2101.01541v1 )

ライセンス: Link先を確認
Mrittunjoy Guha Majumdar and Shayan Srinivasa Garani(参考訳) 本稿では,3つの送信者間でのGHZ状態の形で,バタフライネットワーク上で3つの量子状態を相互に送信するプロトコルを提案する。 提案プロトコルは、ネットワークの各チャネルで1つの量子ビット伝送または2つの古典ビット伝送のみを必要とする。 我々は,このプロトコルを,高次バタフライネットワーク上での多ビットGHZ状態を用いたネットワーク符号化を用いて,多ビットGHZ状態の量子ネットワーク操作性へ一般化する。

We propose a protocol to transmit three quantum states crossly in a butterfly network with prior entanglement, in the form of GHZ states, between three senders. The proposed protocol requires only one qubit transmission or two classical bits transmission in each channel of the network. We generalize this protocol to higher number of qubits with multiqubit GHZ states towards quantum network operability using network coding with multiqubit GHZ states on higher-order butterfly networks.
翻訳日:2023-04-18 01:55:33 公開日:2021-01-02
# 四コニウム系に対するHulthen-Hellmannポテンシャルを持つシュロディンガー方程式の近似解

Approximate solutions of the Schrodinger equation with Hulthen-Hellmann Potentials for a Quarkonium system ( http://arxiv.org/abs/2101.01175v1 )

ライセンス: Link先を確認
I. O. Akpan, E. P. Inyang, E. P. Inyang and E. S. William(参考訳) Hulth\'en + Hellmann電位は重い中間子の質量スペクトルを研究するためのクォーク-反クォーク相互作用ポテンシャルとして採用されている。 ニキフォロフ-ウバロフ法を用いてラジアルシュラディンガー方程式を解析的に解いた。 ラゲール多項式を用いてエネルギー固有値と対応する波動関数を得た。 本結果は, チャーモニウムやボトニウムなどの重粒子の質量を計算するために応用された。 ポテンシャルパラメータがゼロに設定された場合, ヘルマンポテンシャル, 湯川ポテンシャル, クーロンポテンシャル, hulth\'en電位の4つの特別なケースが検討された。 現在のポテンシャルは、実験データや他の研究者の成果と比較して満足な結果をもたらす。

Hulth\'en plus Hellmann potentials are adopted as the quark-antiquark interaction potential for studying the mass spectra of heavy mesons. We solved the radial Schr\"odinger equation analytically using the Nikiforov-Uvarov method. The energy eigenvalues and corresponding wave function in terms of Laguerre polynomials were obtained. The present results are applied for calculating the mass of heavy mesons such as charmonium and bottomonium . Four special cases were considered when some of the potential parameters were set to zero, resulting into Hellmann potential, Yukawa potential, Coulomb potential, and Hulth\'en potential, respectively. The present potential provides satisfying results in comparison with experimental data and the work of other researchers.
翻訳日:2023-04-18 01:55:25 公開日:2021-01-02
# ナノフリクションモデルエミュレータに向けた表面電極トラップにおける二重井戸電位の創出

Creation of double-well potentials in a surface-electrode trap towards a nanofriction model emulator ( http://arxiv.org/abs/2101.00459v1 )

ライセンス: Link先を確認
U. Tanaka, M. Nakamura, K. Hayasaka, A. Bautista-Salvadora, C. Ospelkaus, and T. E. Mehlst\"aubler(参考訳) ナノフリクションエミュレータとして適用可能なマイクロファブリケード表面電極イオントラップと相互作用系の多体ダイナミクスの研究を実証する。 このトラップは、印加されたRF電圧により2つの電位井戸間の距離を調整することができる放射方向の単井戸および二重井戸トラップ電位の両方を可能にする。 二重ウェル構成では、frenkel-kontorova(fk)モデルのエミュレーションに適したシステムである平行イオン弦が形成される。 トラップがfkモデルエミュレータとして機能する条件を導出する。 このトラップは、2つのイオン弦間のクーロン相互作用が重要になるように設計されている。 このような小型トラップ電極のマイクロファブリケーションプロセスと,カルシウムイオンを用いた単孔・二重孔操作の実験結果について報告する。 この研究で証明されたトラップにより、fkモデルにおけるコルゲーションパラメータの広いチューニング範囲で、原子的にアクセス可能な自己組み立てクーロンシステムを作成することができる。 これは量子シミュレーションにとって有望なシステムであり、一次元および高次元のシステムにおけるナノフリクションの研究にも役立つ。

We demonstrate a microfabricated surface-electrode ion trap that is applicable as a nanofriction emulator and studies of many-body dynamics of interacting systems. The trap enables both single-well and double-well trapping potentials in the radial direction, where the distance between the two potential wells can be adjusted by the applied RF voltage. In the double-well configuration, parallel ion strings can be formed, which is a suitable system for the emulation of the Frenkel-Kontorova (FK) model. We derive the condition under which the trap functions as a FK model emulator. The trap is designed so that the Coulomb interaction between two ion strings becomes significant. We report on the microfabrication process for such downsized trap electrodes and experimental results of single-well and double-well operation with calcium ions. With the trap demonstrated in this work we can create atomically accessible, self-assembled Coulomb systems with a wide tuning range of the corrugation parameter in the FK model. This makes it a promising system for quantum simulations, but also for the study of nanofriction in one and higher dimensional systems.
翻訳日:2023-04-18 01:55:13 公開日:2021-01-02
# 通信システムの物理層における深層学習の2つの応用

Two Applications of Deep Learning in the Physical Layer of Communication Systems ( http://arxiv.org/abs/2001.03350v2 )

ライセンス: Link先を確認
Emil Bj\"ornson and Pontus Giselsson(参考訳) ディープラーニングは、エンジニアリング問題に挑戦するデータ駆動信号処理アルゴリズムを開発するための強力なツールであることが証明されている。 入力信号の重要な特徴や特徴を学習することで、まず人間に識別してモデル化させる代わりに、学習アルゴリズムは多くの人造アルゴリズムを破ることができる。 特にディープニューラルネットワークは、写真やオーディオ記録などの自然に作られた信号の複雑な特徴を学習し、分類と意思決定に使用することができる。 情報信号が人為的に作成され、伝播チャネルがモデル化が比較的容易な通信システムでは、状況がかなり異なり、シャノン容量制限に近い運用方法が分かっている。 これは、将来の通信システムの開発において、ディープラーニングには何の役割も持たないことを意味するのか?

Deep learning has proved itself to be a powerful tool to develop data-driven signal processing algorithms for challenging engineering problems. By learning the key features and characteristics of the input signals, instead of requiring a human to first identify and model them, learned algorithms can beat many man-made algorithms. In particular, deep neural networks are capable of learning the complicated features in nature-made signals, such as photos and audio recordings, and use them for classification and decision making. The situation is rather different in communication systems, where the information signals are man-made, the propagation channels are relatively easy to model, and we know how to operate close to the Shannon capacity limits. Does this mean that there is no role for deep learning in the development of future communication systems?
翻訳日:2023-01-12 23:56:21 公開日:2021-01-02
# acenet:神経解剖学セグメンテーションのための解剖学的コンテキストエンコーディングネットワーク

ACEnet: Anatomical Context-Encoding Network for Neuroanatomy Segmentation ( http://arxiv.org/abs/2002.05773v3 )

ライセンス: Link先を確認
Yuemeng Li, Hongming Li, Yong Fan(参考訳) 磁気共鳴(MR)スキャンによる脳構造の分離は、脳形態の定量化において重要な役割を果たす。 3次元深層学習モデルは計算コストが高いため、2次元深層学習法はその計算効率に好適である。 しかし、既存の2次元深層学習法では、正確な脳構造セグメンテーションを実現するために必要な3次元空間文脈情報を効果的に捉えることができない。 この制限を克服するために、MRスキャンから脳構造の効率的かつ正確なセグメンテーションを行うために、2次元畳み込みニューラルネットワーク(CNN)に3次元空間的および解剖学的コンテキストを組み込む、ACEnet(Anatomical Context-Encoding Network)を開発した。 1)2次元CNNに解剖情報を組み込む解剖学的文脈符号化モジュール及び 2)2次元CNNに3次元画像情報を統合する空間コンテキスト符号化モジュール。 さらに、脳への2D CNNを誘導するために頭蓋骨剥離モジュールが採用されている。 3つのベンチマークデータセットの大規模な実験により、計算効率とセグメンテーション精度の両面から、脳構造セグメンテーションの最先端の代替手法と比較して有望な性能が得られることを示した。

Segmentation of brain structures from magnetic resonance (MR) scans plays an important role in the quantification of brain morphology. Since 3D deep learning models suffer from high computational cost, 2D deep learning methods are favored for their computational efficiency. However, existing 2D deep learning methods are not equipped to effectively capture 3D spatial contextual information that is needed to achieve accurate brain structure segmentation. In order to overcome this limitation, we develop an Anatomical Context-Encoding Network (ACEnet) to incorporate 3D spatial and anatomical contexts in 2D convolutional neural networks (CNNs) for efficient and accurate segmentation of brain structures from MR scans, consisting of 1) an anatomical context encoding module to incorporate anatomical information in 2D CNNs and 2) a spatial context encoding module to integrate 3D image information in 2D CNNs. In addition, a skull stripping module is adopted to guide the 2D CNNs to attend to the brain. Extensive experiments on three benchmark datasets have demonstrated that our method achieves promising performance compared with state-of-the-art alternative methods for brain structure segmentation in terms of both computational efficiency and segmentation accuracy.
翻訳日:2023-01-01 13:39:54 公開日:2021-01-02
# 情報付きkoopman不変部分空間の発見のためのスパーシティプロモーティングアルゴリズム

Sparsity-promoting algorithms for the discovery of informative Koopman invariant subspaces ( http://arxiv.org/abs/2002.10637v4 )

ライセンス: Link先を確認
Shaowu Pan, Nicholas Arnold-Medabalimi, Karthik Duraisamy(参考訳) クープマン分解は固有分解の非線形一般化であり、時空間力学の解析にますます利用されている。 動的モード分解(dmd)やその線形変種のようなよく知られた手法はクープマン作用素の近似を提供し、多くの流体力学問題に適用されている。 非線形可観測体のリッチな辞書が与えられたにもかかわらず、拡張/カーネル動的モード分解(EDMD/KDMD)のようなDMDの非線形変種は、Koopman不変部分空間を数千のKoopman固有モデムから識別することが困難であるため、大規模問題にはほとんど適用されない。 そこで本研究では,マルチタスク機能学習に基づくフレームワークを提案し,冗長かつスプリアスなkoopmanトリプレットを除去し,最も有益なkoopman不変部分空間を抽出する。 特に,線形進化からの離脱を罰するプルーニング法を開発した。 これらのアルゴリズムはEDMD/KDMDの拡張を促進していると見なすことができる。 さらに、KDMDを連続時間設定に拡張し、非凸最適化の観点から、現在のアルゴリズム、空間的プロモーティングDMDと経験的基準の関係を示す。 本アルゴリズムの有効性は, 単純な力学系から, レイノルズ数の違いによる2次元シリンダー流, および3次元乱流船体気流の例に示される。 後者の2つの問題は、非常に強い非線形過渡度が存在するように設計されており、クープマン作用素の正確な近似が必要である。 過渡的な力学を特徴づけることに重点を置いて、下層の物理的メカニズムを解析する。 結果は、既存の理論計算と数値近似と比較される。

Koopman decomposition is a non-linear generalization of eigen-decomposition, and is being increasingly utilized in the analysis of spatio-temporal dynamics. Well-known techniques such as the dynamic mode decomposition (DMD) and its linear variants provide approximations to the Koopman operator, and have been applied extensively in many fluid dynamic problems. Despite being endowed with a richer dictionary of nonlinear observables, nonlinear variants of the DMD, such as extended/kernel dynamic mode decomposition (EDMD/KDMD) are seldom applied to large-scale problems primarily due to the difficulty of discerning the Koopman invariant subspace from thousands of resulting Koopman eigenmodes. To address this issue, we propose a framework based on multi-task feature learning to extract the most informative Koopman invariant subspace by removing redundant and spurious Koopman triplets. In particular, we develop a pruning procedure that penalizes departure from linear evolution. These algorithms can be viewed as sparsity promoting extensions of EDMD/KDMD. Further, we extend KDMD to a continuous-time setting and show a relationship between the present algorithm, sparsity-promoting DMD, and an empirical criterion from the viewpoint of non-convex optimization. The effectiveness of our algorithm is demonstrated on examples ranging from simple dynamical systems to two-dimensional cylinder wake flows at different Reynolds numbers and a three-dimensional turbulent ship air-wake flow. The latter two problems are designed such that very strong nonlinear transients are present, thus requiring an accurate approximation of the Koopman operator. Underlying physical mechanisms are analyzed, with an emphasis on characterizing transient dynamics. The results are compared to existing theoretical expositions and numerical approximations.
翻訳日:2022-12-28 22:14:48 公開日:2021-01-02
# ミニバッチによる連続性重み更新によるバックプロパゲーションアルゴリズムの改善

Improving the Backpropagation Algorithm with Consequentialism Weight Updates over Mini-Batches ( http://arxiv.org/abs/2003.05164v2 )

ライセンス: Link先を確認
Naeem Paeedeh, Kamaledin Ghiasi-Shirazi(参考訳) 多くの試みは、バックプロパゲーション(BP)の改善にも役立つ適応フィルタを改善するために行われた。 正規化最小平均平方 (NLMS) は、最小平均平方 (LMS) から派生した最も成功したアルゴリズムの1つである。 しかし、マルチ層ニューラルネットワークへの拡張はこれまで行われていない。 本稿では,まず,多層ニューラルネットワークを適応フィルタのスタックとして考えることができることを示す。 さらに,畳み込みニューラルネットワークへの一般化が容易であり,ミニバッチトレーニングでもうまく機能する,単一の完全連結(fc)層に対するアフィン射影アルゴリズム(apa)の複雑な幾何学的解釈よりも,nlmのより理解しやすい解釈を導入する。 この新しい視点では、bpで発生した行動の悪影響を予測し、それが起こる前に修正することでより良いアルゴリズムを導入する。 最後に,本手法は確率勾配降下法 (sgd) に適合し, rmsprop, adam, nagなどの運動量に基づく誘導体に適用できる。 実験では,深層ニューラルネットワークの学習におけるアルゴリズムの有用性を示す。

Many attempts took place to improve the adaptive filters that can also be useful to improve backpropagation (BP). Normalized least mean squares (NLMS) is one of the most successful algorithms derived from Least mean squares (LMS). However, its extension to multi-layer neural networks has not happened before. Here, we first show that it is possible to consider a multi-layer neural network as a stack of adaptive filters. Additionally, we introduce more comprehensible interpretations of NLMS than the complicated geometric interpretation in affine projection algorithm (APA) for a single fully-connected (FC) layer that can easily be generalized to, for instance, convolutional neural networks and also works better with mini-batch training. With this new viewpoint, we introduce a better algorithm by predicting then emending the adverse consequences of the actions that take place in BP even before they happen. Finally, the proposed method is compatible with stochastic gradient descent (SGD) and applicable to momentum-based derivatives such as RMSProp, Adam, and NAG. Our experiments show the usefulness of our algorithm in the training of deep neural networks.
翻訳日:2022-12-24 13:36:48 公開日:2021-01-02
# ニューラルアーキテクチャジェネレータ最適化

Neural Architecture Generator Optimization ( http://arxiv.org/abs/2004.01395v3 )

ライセンス: Link先を確認
Binxin Ru, Pedro Esperanca, Fabio Carlucci(参考訳) neural architecture search (nas)は、人間の介入なしに新しいアーキテクチャパターンの発見を通じて最先端のパフォーマンスを達成するために最初に提案された。 しかし、検索空間設計における専門家の知識への過度な依存は、重要なアーキテクチャ上のブレークスルーを伴わずにパフォーマンス(ローカルオプティマ)を増加させ、真に新しい解決策に到達するのを防いでいる。 この作品では 1) 最適ネットワークジェネレータの探索問題としてnasの鋳造を最初に検討した。 2) 非常に多様なネットワークタイプを表現できる新しい階層型グラフベースの探索空間を提案するが, 連続したハイパーパラメータは少ない。 これにより,ベイズ最適化を探索戦略として有効活用することが可能となる。 同時に、私たちは、多目的学習アプローチを動機付けながら、有効なアーキテクチャの範囲を広げます。 我々は,この戦略の有効性を6つのベンチマークデータセットで実証し,検索空間が極めて軽量かつ競争性の高いモデルを生成することを示す。

Neural Architecture Search (NAS) was first proposed to achieve state-of-the-art performance through the discovery of new architecture patterns, without human intervention. An over-reliance on expert knowledge in the search space design has however led to increased performance (local optima) without significant architectural breakthroughs, thus preventing truly novel solutions from being reached. In this work we 1) are the first to investigate casting NAS as a problem of finding the optimal network generator and 2) we propose a new, hierarchical and graph-based search space capable of representing an extremely large variety of network types, yet only requiring few continuous hyper-parameters. This greatly reduces the dimensionality of the problem, enabling the effective use of Bayesian Optimisation as a search strategy. At the same time, we expand the range of valid architectures, motivating a multi-objective learning approach. We demonstrate the effectiveness of this strategy on six benchmark datasets and show that our search space generates extremely lightweight yet highly competitive models.
翻訳日:2022-12-17 03:45:03 公開日:2021-01-02
# 線形力学系の予測と学習における公平性

Fairness in Forecasting and Learning Linear Dynamical Systems ( http://arxiv.org/abs/2006.07315v2 )

ライセンス: Link先を確認
Quan Zhou, Jakub Marecek, Robert N. Shorten(参考訳) 機械学習では、トレーニングデータはしばしば、下層の人間集団の複数のサブグループの振る舞いを捉えている。 サブグループのトレーニングデータの量を注意深く制御しない場合には、自己表現バイアスが発生する。 時系列予測問題における非表現バイアスに対処するために,サブグループフェアネスと瞬時フェアネスという2つの自然概念を導入する。 特に,線形力学系(lds)のサブグループフェアおよびインスタントフェア学習を,長さの異なる複数の軌道と関連する予測問題から考える。 非可換多項式最適化問題の凸化階層を用いた学習問題のグローバル収束手法を提案する。 保険申請に動機づけられたバイアスデータセットとよく知られたCompASデータセットに関する実証実験の結果は、公正配慮が統計的パフォーマンスに与える影響と、時空利用の効果の両方を示している。

In machine learning, training data often capture the behaviour of multiple subgroups of some underlying human population. When the amounts of training data for the subgroups are not controlled carefully, under-representation bias arises. We introduce two natural notions of subgroup fairness and instantaneous fairness to address such under-representation bias in time-series forecasting problems. In particular, we consider the subgroup-fair and instant-fair learning of a linear dynamical system (LDS) from multiple trajectories of varying lengths, and the associated forecasting problems. We provide globally convergent methods for the learning problems using hierarchies of convexifications of non-commutative polynomial optimisation problems. Our empirical results on a biased data set motivated by insurance applications and the well-known COMPAS data set demonstrate both the beneficial impact of fairness considerations on statistical performance and encouraging effects of exploiting sparsity on run time.
翻訳日:2022-11-22 04:08:35 公開日:2021-01-02
# D2P-Fed: 効果的なコミュニケーションによる個人的フェデレーション学習

D2P-Fed: Differentially Private Federated Learning With Efficient Communication ( http://arxiv.org/abs/2006.13039v5 )

ライセンス: Link先を確認
Lun Wang, Ruoxi Jia and Dawn Song(参考訳) 本稿では,差分プライバシ(DP)と連立学習(FL)の両面を両立させる統一スキームであるD2P-Fed(D2P-Fed)を提案する。 特にD2P-Fedは、両方の面を扱う唯一の先行作業と比較して、より強力なプライバシ保証、より良いコンポーザビリティ、より少ない通信コストを提供します。 鍵となるアイデアは、離散ガウスノイズをプライベートデータ伝送に適用することである。 我々は、D2P-Fedのプライバシー保証、通信コスト、収束率の完全な分析を行う。 INFIMNISTおよびCIFAR10によるD2P-Fedの評価を行った。 その結果、D2P-Fedは通信コストの3分の1を節約しつつ、モデル精度の点で最先端の4.7%から13.0%を上回った。

In this paper, we propose the discrete Gaussian based differentially private federated learning (D2P-Fed), a unified scheme to achieve both differential privacy (DP) and communication efficiency in federated learning (FL). In particular, compared with the only prior work taking care of both aspects, D2P-Fed provides stronger privacy guarantee, better composability and smaller communication cost. The key idea is to apply the discrete Gaussian noise to the private data transmission. We provide complete analysis of the privacy guarantee, communication cost and convergence rate of D2P-Fed. We evaluated D2P-Fed on INFIMNIST and CIFAR10. The results show that D2P-Fed outperforms the-state-of-the-art by 4.7% to 13.0% in terms of model accuracy while saving one third of the communication cost.
翻訳日:2022-11-18 05:46:29 公開日:2021-01-02
# 部分点雲解析のための点集合投票

Point Set Voting for Partial Point Cloud Analysis ( http://arxiv.org/abs/2007.04537v2 )

ライセンス: Link先を確認
Junming Zhang, Weijia Chen, Yuping Wang, Ram Vasudevan, Matthew Johnson-Roberson(参考訳) 3Dセンサーの継続的な改良により、ポイントクラウド分析を行うアルゴリズムの開発が進められた。 実際、ポイントクラウド分類とセグメンテーションのテクニックは、近年、大規模な合成データセットを活用することで、素晴らしいパフォーマンスを実現している。 残念なことに、これらの同じ最先端のアプローチは、不完全点雲に適用すると、うまく機能しない。 既存のアルゴリズムのこの制限は、現実世界の3Dセンサーが生成する点雲が、視界や他の物体による隠蔽によって通常不完全であるため、特に関係している。 本稿では,局所的点集合投票戦略を適用し,完全点群を符号化する潜在特徴を推定する部分点群解析の一般モデルを提案する。 特に、各局所点集合は、潜在空間内の分布に対応する投票を構成し、最適な潜在性特徴は、最も確率の高い投票である。 このアプローチは、後続の点雲解析が部分観測に対して堅牢であることを保証すると同時に、提案したモデルが複数の可能な結果を出力できることを保証する。 本稿では, 形状分類, 部分分割, 点雲完了における最先端性能を実現する手法を提案する。

The continual improvement of 3D sensors has driven the development of algorithms to perform point cloud analysis. In fact, techniques for point cloud classification and segmentation have in recent years achieved incredible performance driven in part by leveraging large synthetic datasets. Unfortunately these same state-of-the-art approaches perform poorly when applied to incomplete point clouds. This limitation of existing algorithms is particularly concerning since point clouds generated by 3D sensors in the real world are usually incomplete due to perspective view or occlusion by other objects. This paper proposes a general model for partial point clouds analysis wherein the latent feature encoding a complete point clouds is inferred by applying a local point set voting strategy. In particular, each local point set constructs a vote that corresponds to a distribution in the latent space, and the optimal latent feature is the one with the highest probability. This approach ensures that any subsequent point cloud analysis is robust to partial observation while simultaneously guaranteeing that the proposed model is able to output multiple possible results. This paper illustrates that this proposed method achieves state-of-the-art performance on shape classification, part segmentation and point cloud completion.
翻訳日:2022-11-12 04:59:29 公開日:2021-01-02
# deep preset:写真とカラースタイル転送のブレンドとリタッチ

Deep Preset: Blending and Retouching Photos with Color Style Transfer ( http://arxiv.org/abs/2007.10701v2 )

ライセンス: Link先を確認
Man M. Ho, Jinjia Zhou(参考訳) エンドユーザーは写真に詳しくないが、よく修正された参照と同様のカラースタイルで写真を美化したい。 しかし、近年のイメージスタイル転送作品におけるスタイル定義は不適切である。 彼らは通常、正確な色を間違った目的地に移すことで望ましくない結果を合成する。 肖像画などの繊細なケースではさらに悪化する。 本研究では,背景特徴を混合するのではなく,低レベル画像変換,特にカラーシフト法を学習することに集中し,接地面を用いたカラー変換を訓練する新しい手法を提案する。 さらに,Deep Presetというカラースタイルのトランスファーを提案する。 設計されている。 1) 色変化を表す特徴を自然色から変化した参照に一般化し, 内容の文脈的特徴にブレンドする。 2)低レベル色変換法のハイパーパラメータ(設定または事前設定)を予測する。 3)スタイライズ内容は参照と類似した色調を有する。 写真を編集する強力なツールであるlightroomは、flick2kデータセットから1200の画像と、69設定のユーザ生成プリセット500を使って、60万のトレーニングサンプルを生成します。 実験結果から,我々のDeep Presetはカラースタイルの伝達において,従来よりも定量的に,質的に優れていたことがわかった。

End-users, without knowledge in photography, desire to beautify their photos to have a similar color style as a well-retouched reference. However, the definition of style in recent image style transfer works is inappropriate. They usually synthesize undesirable results due to transferring exact colors to the wrong destination. It becomes even worse in sensitive cases such as portraits. In this work, we concentrate on learning low-level image transformation, especially color-shifting methods, rather than mixing contextual features, then present a novel scheme to train color style transfer with ground-truth. Furthermore, we propose a color style transfer named Deep Preset. It is designed to 1) generalize the features representing the color transformation from content with natural colors to retouched reference, then blend it into the contextual features of content, 2) predict hyper-parameters (settings or preset) of the applied low-level color transformation methods, 3) stylize content to have a similar color style as reference. We script Lightroom, a powerful tool in editing photos, to generate 600,000 training samples using 1,200 images from the Flick2K dataset and 500 user-generated presets with 69 settings. Experimental results show that our Deep Preset outperforms the previous works in color style transfer quantitatively and qualitatively.
翻訳日:2022-11-08 04:39:15 公開日:2021-01-02
# コルモゴロフ-アーノルド表現定理の再検討

The Kolmogorov-Arnold representation theorem revisited ( http://arxiv.org/abs/2007.15884v2 )

ライセンス: Link先を確認
Johannes Schmidt-Hieber(参考訳) コルモゴロフ・アルノルド表現定理がニューラルネットワークにおける複数の隠蔽層の使用を説明できるかどうか、長年にわたる議論がある。 コルモゴロフ・アルノルド表現は多変量関数を内部と外部に分解し、2つの隠れた層を持つニューラルネットワークと同様の構造を持つ。 しかし、異なる点がある。 主な障害の1つは、外函数が表される関数に依存しており、表される関数が滑らかであっても、大きく変化することである。 我々は、表現関数の滑らか性特性を外部関数に伝達し、ReLUネットワークによりうまく近似できるコルモゴロフ・アルノルド表現の修正を導出する。 2つの隠れた層の代わりに、コルモゴロフ・アルノルド表現のより自然な解釈は、ほとんどの層が内部関数を近似するために必要となるディープニューラルネットワークのものである。

There is a longstanding debate whether the Kolmogorov-Arnold representation theorem can explain the use of more than one hidden layer in neural networks. The Kolmogorov-Arnold representation decomposes a multivariate function into an interior and an outer function and therefore has indeed a similar structure as a neural network with two hidden layers. But there are distinctive differences. One of the main obstacles is that the outer function depends on the represented function and can be wildly varying even if the represented function is smooth. We derive modifications of the Kolmogorov-Arnold representation that transfer smoothness properties of the represented function to the outer function and can be well approximated by ReLU networks. It appears that instead of two hidden layers, a more natural interpretation of the Kolmogorov-Arnold representation is that of a deep neural network where most of the layers are required to approximate the interior function.
翻訳日:2022-11-04 05:37:43 公開日:2021-01-02
# エンティティアライメントのための属性、価値、構造の検討と評価

Exploring and Evaluating Attributes, Values, and Structures for Entity Alignment ( http://arxiv.org/abs/2010.03249v2 )

ライセンス: Link先を確認
Zhiyuan Liu, Yixin Cao, Liangming Pan, Juanzi Li, Zhiyuan Liu, Tat-Seng Chua(参考訳) エンティティアライメント(EA)は、さまざまなKGから等価なエンティティをリンクすることで、リッチコンテンツの統合知識グラフ(KG)を構築することを目的としている。 GNNに基づくEA法は, 関係3重項で定義されたKG構造をモデル化することにより, 有望な性能を示す。 しかし、属性トリプルは重要なアライメント信号を提供することもできるが、まだ十分に研究されていない。 本稿では,帰属値エンコーダを活用し,kgをサブグラフに分割し,各種属性トリプルを効率的にモデル化する。 さらに、既存のEAデータセットの名前バイアスのため、現在のEAメソッドのパフォーマンスは過大評価されている。 客観的な評価を行うために,テストセットと全く異なる名前の等価なエンティティペアを選択するための実験的な設定を提案する。 正規設定とハード設定の両方で、我々の手法は、言語間データセットとモノリンガルデータセットにおいて、12ドルのベースラインに対して、Hits@$1$ in DBP$15$kで5.10\%の大幅な改善を実現している。 異なる部分グラフのアブレーション研究と属性型に関するケーススタディにより,本手法の有効性がさらに示された。 ソースコードとデータはhttps://github.com/thunlp/explore-and-evaluateで確認できる。

Entity alignment (EA) aims at building a unified Knowledge Graph (KG) of rich content by linking the equivalent entities from various KGs. GNN-based EA methods present promising performances by modeling the KG structure defined by relation triples. However, attribute triples can also provide crucial alignment signal but have not been well explored yet. In this paper, we propose to utilize an attributed value encoder and partition the KG into subgraphs to model the various types of attribute triples efficiently. Besides, the performances of current EA methods are overestimated because of the name-bias of existing EA datasets. To make an objective evaluation, we propose a hard experimental setting where we select equivalent entity pairs with very different names as the test set. Under both the regular and hard settings, our method achieves significant improvements ($5.10\%$ on average Hits@$1$ in DBP$15$k) over $12$ baselines in cross-lingual and monolingual datasets. Ablation studies on different subgraphs and a case study about attribute types further demonstrate the effectiveness of our method. Source code and data can be found at https://github.com/thunlp/explore-and-evaluate.
翻訳日:2022-10-09 23:11:48 公開日:2021-01-02
# 事前学習モデルの効率的な微調整による多言語音声翻訳

Multilingual Speech Translation with Efficient Finetuning of Pretrained Models ( http://arxiv.org/abs/2010.12829v4 )

ライセンス: Link先を確認
Xian Li, Changhan Wang, Yun Tang, Chau Tran, Yuqing Tang, Juan Pino, Alexei Baevski, Alexis Conneau, Michael Auli(参考訳) 本稿では,事前学習された音声エンコーダとテキストデコーダからの効率的な転送学習により,多言語音声からテキストへの翻訳を実現するための簡易かつ効果的な手法を提案する。 我々のキーとなる発見は、最小限のLNA(LayerNorm and Attention)微調整が、事前訓練されたパラメータの10%未満を微調整するだけで、ゼロショットのクロスリンガルとクロスモーダリティの伝達能力を達成できることである。 これにより、トレーニングコストの低い大規模な事前訓練モデルの有効活用が可能になる。 音響モデルにwav2vec 2.0、多言語テキスト生成にmbartを用い、大規模多言語stベンチマークcovost 2(平均15en-x方向で+6.4 bleu、平均19x-en方向で+5.1 bleu)で34の翻訳方向(うち23はカスケードstを上回り)の新たな最先端技術を開発した。 提案手法は,多言語多言語モデル(18の非英語方向に平均5.7 BLEU)において強いゼロショット性能を示し,パラメータとデータ効率を向上した高品質な音声翻訳を実現するための魅力的なアプローチである。

We present a simple yet effective approach to build multilingual speech-to-text (ST) translation by efficient transfer learning from pretrained speech encoder and text decoder. Our key finding is that a minimalistic LNA (LayerNorm and Attention) finetuning can achieve zero-shot crosslingual and cross-modality transfer ability by only finetuning less than 10% of the pretrained parameters. This enables effectively leveraging large pretrained models with low training cost. Using wav2vec 2.0 for acoustic modeling, and mBART for multilingual text generation, our approach advanced the new state-of-the-art for 34 translation directions (and surpassing cascaded ST for 23 of them) on large-scale multilingual ST benchmark CoVoST 2 (+6.4 BLEU on average across 15 En-X directions and +5.1 BLEU on average across 19 X-En directions). Our approach demonstrates strong zero-shot performance in a many-to-many multilingual model (+5.7 BLEU on average across 18 non-English directions), making it an appealing approach for attaining high-quality speech translation with improved parameter and data efficiency.
翻訳日:2022-10-03 13:01:51 公開日:2021-01-02
# eegベースの脳コンピューターインタフェースはバックドア攻撃に弱い

EEG-Based Brain-Computer Interfaces Are Vulnerable to Backdoor Attacks ( http://arxiv.org/abs/2011.00101v2 )

ライセンス: Link先を確認
Lubin Meng, Jian Huang, Zhigang Zeng, Xue Jiang, Shan Yu, Tzyy-Ping Jung, Chin-Teng Lin, Ricardo Chavarriaga, Dongrui Wu(参考訳) 脳波(EEG)に基づく脳-コンピュータインターフェース(BCI)の研究と開発は、脳の深い理解と脳波信号を復号するための高度な機械学習アプローチの広範な採用により、急速に進んでいる。 しかし、最近の研究では、機械学習アルゴリズムは敵攻撃に弱いことが示されている。 本稿では,実際に実施可能であり,これまで検討されたことのない脳波ベースのbcisの毒殺攻撃に,狭周期パルスを用いる方法を提案する。 トレーニングセットに毒素サンプルを注入することで、マシンラーニングモデルに危険なバックドアを作成することができる。 バックドアキーを使ったテストサンプルは、攻撃者が指定したターゲットクラスに分類される。 私たちのアプローチと以前のアプローチを最も区別しているのは、バックドアキーがEEGトライアルと同期する必要がなく、実装が非常に簡単であることです。 バックドアアタックアプローチの有効性と堅牢性が示され、脳波ベースのBCIにとって重要なセキュリティ上の懸念が浮き彫りになり、それに対応するために緊急の注意を喚起する。

Research and development of electroencephalogram (EEG) based brain-computer interfaces (BCIs) have advanced rapidly, partly due to deeper understanding of the brain and wide adoption of sophisticated machine learning approaches for decoding the EEG signals. However, recent studies have shown that machine learning algorithms are vulnerable to adversarial attacks. This article proposes to use narrow period pulse for poisoning attack of EEG-based BCIs, which is implementable in practice and has never been considered before. One can create dangerous backdoors in the machine learning model by injecting poisoning samples into the training set. Test samples with the backdoor key will then be classified into the target class specified by the attacker. What most distinguishes our approach from previous ones is that the backdoor key does not need to be synchronized with the EEG trials, making it very easy to implement. The effectiveness and robustness of the backdoor attack approach is demonstrated, highlighting a critical security concern for EEG-based BCIs and calling for urgent attention to address it.
翻訳日:2022-10-01 17:37:18 公開日:2021-01-02
# CNNとLSTMに基づくディープラーニングモデルを用いた株価時系列のロバスト分析

Robust Analysis of Stock Price Time Series Using CNN and LSTM-Based Deep Learning Models ( http://arxiv.org/abs/2011.08011v2 )

ライセンス: Link先を確認
Sidra Mehtab, Jaydip Sen and Subhasis Dasgupta(参考訳) 株価と株価の動きの予測は、常に重要な研究領域である。 良く知られた効率的市場仮説は、株価を正確に予測する可能性を否定する一方で、非常に高い精度で株価を予測できる予測システムの正確なモデリングを示す文献に正式な提案がある。 本稿では,株価予測において非常に高い精度が得られるディープラーニングに基づく回帰モデルについて述べる。 予測モデルの構築には、2012年12月31日から2015年1月9日までの期間に、インドの国立証券取引所(nse)に上場した有名な企業の株価データを使用します。 株価は1週間の勤務日ごとに5分間隔で記録される。 これらの極めてきめ細かい株価データを用いて、将来の株価を正確に予測するために、4つの畳み込みニューラルネットワーク(CNN)と5つの長期記憶に基づくディープラーニングモデルを構築します。 提案手法は,実行時間と根平均二乗誤差(RMSE)値に基づいて,提案したモデル全体の予測精度について詳細な結果を提供する。

Prediction of stock price and stock price movement patterns has always been a critical area of research. While the well-known efficient market hypothesis rules out any possibility of accurate prediction of stock prices, there are formal propositions in the literature demonstrating accurate modeling of the predictive systems that can enable us to predict stock prices with a very high level of accuracy. In this paper, we present a suite of deep learning-based regression models that yields a very high level of accuracy in stock price prediction. To build our predictive models, we use the historical stock price data of a well-known company listed in the National Stock Exchange (NSE) of India during the period December 31, 2012 to January 9, 2015. The stock prices are recorded at five minutes intervals of time during each working day in a week. Using these extremely granular stock price data, we build four convolutional neural network (CNN) and five long- and short-term memory (LSTM)-based deep learning models for accurate forecasting of the future stock prices. We provide detailed results on the forecasting accuracies of all our proposed models based on their execution time and their root mean square error (RMSE) values.
翻訳日:2022-09-28 22:51:01 公開日:2021-01-02
# climatext: 気候変動のトピック検出のためのデータセット

ClimaText: A Dataset for Climate Change Topic Detection ( http://arxiv.org/abs/2012.00483v2 )

ライセンス: Link先を確認
Francesco S. Varini and Jordan Boyd-Graber and Massimiliano Ciaramita and Markus Leippold(参考訳) マスメディアや他のテキストソースにおける気候変動のコミュニケーションは、大衆の認識に影響を与え、形作る可能性がある。 これらのソースから気候変動情報を抽出することは、コンテンツのフィルタリングやe発見、感情分析、自動要約、質問応答、事実チェックといった重要なタスクである。 しかし、気候変動は複雑で、素早く動き、しばしば曖昧なトピックであり、人気のあるテキストベースのAIタスクのためのリソースが不足しているため、このプロセスを自動化することは難しい。 本稿では,文に基づく気候変動トピック検出のためのデータセットである \textsc{ClimaText} を紹介する。 さまざまなテキストソースで気候変動のトピックを特定するためのさまざまなアプローチを探索する。 一般的なキーワードベースのモデルは、そのような複雑で進化するタスクには不十分である。 BERT \cite{devlin2018bert}のようなコンテキストベースのアルゴリズムは、多くの自明なケースに加えて、さまざまな複雑で暗黙的なトピックパターンを検出することができる。 それにもかかわらず、気候変動の間接的影響に関する議論を捉えるなど、いくつかの方向に改善する大きな可能性を分析によって明らかにしています。 したがって、この研究が、このトピックに関するさらなる研究の出発点となることを願っている。

Climate change communication in the mass media and other textual sources may affect and shape public perception. Extracting climate change information from these sources is an important task, e.g., for filtering content and e-discovery, sentiment analysis, automatic summarization, question-answering, and fact-checking. However, automating this process is a challenge, as climate change is a complex, fast-moving, and often ambiguous topic with scarce resources for popular text-based AI tasks. In this paper, we introduce \textsc{ClimaText}, a dataset for sentence-based climate change topic detection, which we make publicly available. We explore different approaches to identify the climate change topic in various text sources. We find that popular keyword-based models are not adequate for such a complex and evolving task. Context-based algorithms like BERT \cite{devlin2018bert} can detect, in addition to many trivial cases, a variety of complex and implicit topic patterns. Nevertheless, our analysis reveals a great potential for improvement in several directions, such as, e.g., capturing the discussion on indirect effects of climate change. Hence, we hope this work can serve as a good starting point for further research on this topic.
翻訳日:2021-05-30 20:10:17 公開日:2021-01-02
# CLIMATE-FEVER: 実世界の気候問題を検証するデータセット

CLIMATE-FEVER: A Dataset for Verification of Real-World Climate Claims ( http://arxiv.org/abs/2012.00614v2 )

ライセンス: Link先を確認
Thomas Diggelmann and Jordan Boyd-Graber and Jannis Bulian and Massimiliano Ciaramita and Markus Leippold(参考訳) CLIMATE-FEVERは、気候変動関連クレームを検証するための新しい公開データセットである。 研究コミュニティにデータセットを提供することで、気候変動に対する誤った情報の影響を軽減し、基礎となる言語理解の課題に対処し、気候変動に対する明確な支持を得るためのアルゴリズムの改善を促進・促進することを目指している。 人工的に設計されたクレームの最大のデータセットであるFEVER [1]の方法論を,インターネットから収集した実生活クレームに適用する。 この過程の間、私たちは著名な気候科学者の専門知識に頼ることができたが、それは容易な作業ではないことがわかった。 我々は,実世界の気候関連クレームをモデル化する驚くべき,微妙な複雑さを,一般的な自然言語理解に有用な課題であると考える \textsc{fever} フレームワークで議論する。 私たちの研究が、気候科学とAIコミュニティによる、新たなエキサイティングな長期的な共同作業の始まりになることを期待しています。

We introduce CLIMATE-FEVER, a new publicly available dataset for verification of climate change-related claims. By providing a dataset for the research community, we aim to facilitate and encourage work on improving algorithms for retrieving evidential support for climate-specific claims, addressing the underlying language understanding challenges, and ultimately help alleviate the impact of misinformation on climate change. We adapt the methodology of FEVER [1], the largest dataset of artificially designed claims, to real-life claims collected from the Internet. While during this process, we could rely on the expertise of renowned climate scientists, it turned out to be no easy task. We discuss the surprising, subtle complexity of modeling real-world climate-related claims within the \textsc{fever} framework, which we believe provides a valuable challenge for general natural language understanding. We hope that our work will mark the beginning of a new exciting long-term joint effort by the climate science and AI community.
翻訳日:2021-05-30 20:09:45 公開日:2021-01-02
# スケールでのフラスのディエンス表現の学習

Learning Dense Representations of Phrases at Scale ( http://arxiv.org/abs/2012.12624v2 )

ライセンス: Link先を確認
Jinhyuk Lee, Mujeen Sung, Jaewoo Kang, Danqi Chen(参考訳) オープンドメイン質問応答は、推論中の文書をオンデマンドで処理する必要なく、フレーズ検索問題として再構築することができる(Seo et al., 2019)。 しかし、現在のフレーズ検索モデルは、レトリーバーリーダーアプローチがパフォーマンスが低いにもかかわらず、スパース表現に大きく依存している。 本研究では,オープンドメインのQAにおいて,より強力な性能を実現するために,単語表現のみを学習できることを初めて示す。 提案手法は,(1)質問生成と蒸留による問合せ非依存句表現の学習,(2)グローバル正規化のための新しい否定サンプリング法,(3)問合せ側微調整による転送学習を含む。 5つの一般的なqaデータセットにおいて,従来の句検索モデルを15%~25%の絶対精度で改善し,最先端の検索モデルに適合させた。 私たちのモデルは、純粋に密度の高い表現とCPU上で毎秒10問以上のプロセスのために、並列化が容易です。 最後に,2つのスロット充填タスクに対して,事前インデックスされた密接な句表現を直接使用することで,下流タスクの密集した知識ベースとして密接なフレーズを利用することを期待する。

Open-domain question answering can be reformulated as a phrase retrieval problem, without the need for processing documents on-demand during inference (Seo et al., 2019). However, current phrase retrieval models heavily depend on their sparse representations while still underperforming retriever-reader approaches. In this work, we show for the first time that we can learn dense phrase representations alone that achieve much stronger performance in open-domain QA. Our approach includes (1) learning query-agnostic phrase representations via question generation and distillation; (2) novel negative-sampling methods for global normalization; (3) query-side fine-tuning for transfer learning. On five popular QA datasets, our model DensePhrases improves previous phrase retrieval models by 15%-25% absolute accuracy and matches the performance of state-of-the-art retriever-reader models. Our model is easy to parallelize due to pure dense representations and processes more than 10 questions per second on CPUs. Finally, we directly use our pre-indexed dense phrase representations for two slot filling tasks, showing the promise of utilizing DensePhrases as a dense knowledge base for downstream tasks.
翻訳日:2021-04-25 18:11:56 公開日:2021-01-02
# 深層学習に基づく人間のポーズ推定:調査

Deep Learning-Based Human Pose Estimation: A Survey ( http://arxiv.org/abs/2012.13392v3 )

ライセンス: Link先を確認
Ce Zheng and Wenhan Wu and Taojiannan Yang and Sijie Zhu and Chen Chen and Ruixu Liu and Ju Shen and Nasser Kehtarnavaz and Mubarak Shah(参考訳) 人間のポーズ推定は、人体の部位を特定し、画像やビデオなどの入力データから人体表現(体骨格など)を構築することを目的としている。 この技術は過去10年間で注目を集め、人間とコンピュータのインタラクション、モーション分析、拡張現実、バーチャルリアリティーなど幅広い用途で利用されてきた。 最近開発されたディープラーニングベースのソリューションは、人間のポーズ推定において高いパフォーマンスを達成しているが、トレーニングデータ不足、深度あいまいさ、閉塞性などの問題はまだ残っている。 本研究の目的は,近年の深層学習に基づく2次元・3次元ポーズ推定手法の総合的なレビューを,入力データと推論手順に基づいて,体系的な解析と比較により提供することである。 2014年以降、240以上の研究論文が調査の対象となっている。 さらに、2次元および3次元の人格推定データセットおよび評価指標を含む。 一般的なデータセットに対するレビュー手法の定量的性能比較を要約し,考察した。 最後に、関連する課題、応用、今後の研究の方向性をまとめる。 また、定期的に更新されたプロジェクトページも提供しています。

Human pose estimation aims to locate the human body parts and build human body representation (e.g., body skeleton) from input data such as images and videos. It has drawn increasing attention during the past decade and has been utilized in a wide range of applications including human-computer interaction, motion analysis, augmented reality, and virtual reality. Although the recently developed deep learning-based solutions have achieved high performance in human pose estimation, there still remain challenges due to insufficient training data, depth ambiguities, and occlusion. The goal of this survey paper is to provide a comprehensive review of recent deep learning-based solutions for both 2D and 3D pose estimation via a systematic analysis and comparison of these solutions based on their input data and inference procedures. More than 240 research papers since 2014 are covered in this survey. Furthermore, 2D and 3D human pose estimation datasets and evaluation metrics are included. Quantitative performance comparisons of the reviewed methods on popular datasets are summarized and discussed. Finally, the challenges involved, applications, and future research directions are concluded. We also provide a regularly updated project page: \url{https://github.com/zczcwh/DL-HPE}
翻訳日:2021-04-25 08:05:15 公開日:2021-01-02
# (参考訳) 肺結節分類における3次元軸位置

3D Axial-Attention for Lung Nodule Classification ( http://arxiv.org/abs/2012.14117v2 )

ライセンス: CC0 1.0
Mundher Al-Shabi, Kelvin Shak, Maxine Tan(参考訳) 目的: 近年,肺結節分類に局所的でない方法が適用されている。 しかし、これらの手法は2次元の注意または低解像度の特徴地図に限られた3次元の注意を与える。 さらに、コンボリューションのような便利なローカルフィルタに依存しているため、フル3Dの注意が計算に高価であり、大きなデータセットを必要とするため、利用できない可能性がある。 方法: 通常の非局所ネットワークの計算能力のごく一部を必要とする3次元アキシアルアテンションの利用を提案する。 さらに,共有埋め込みに3次元位置符号化を追加することで,非局所ネットワークの位置不変問題を解く。 結果: LIDC-IDRIデータセット上で, 少なくとも3名の放射線技師が注記した結節のみを用いて, 厳密な実験を行った。 以上の結果から,3次元アキシャルアテンションモデルは,aucと精度を含む全評価指標において最先端の性能を得ることができた。 結論: 提案モデルでは,すべてのレイヤでローカルフィルタを必要とせずに使用可能な,完全な3dアテンションを効果的に提供する。 実験の結果,肺結節の分類における全3次元注意の重要性が示された。

Purpose: In recent years, Non-Local based methods have been successfully applied to lung nodule classification. However, these methods offer 2D attention or a limited 3D attention to low-resolution feature maps. Moreover, they still depend on a convenient local filter such as convolution as full 3D attention is expensive to compute and requires a big dataset, which might not be available. Methods: We propose to use 3D Axial-Attention, which requires a fraction of the computing power of a regular Non-Local network. Additionally, we solve the position invariant problem of the Non-Local network by proposing adding 3D positional encoding to shared embeddings. Results: We validated the proposed method on the LIDC-IDRI dataset by following a rigorous experimental setup using only nodules annotated by at least three radiologists. Our results show that the 3D Axial-Attention model achieves state-of-the-art performance on all evaluation metrics including AUC and Accuracy. Conclusions: The proposed model provides full 3D attention effectively, which can be used in all layers without the need for local filters. The experimental results show the importance of full 3D attention for classifying lung nodules.
翻訳日:2021-04-24 16:32:00 公開日:2021-01-02
# TensorX: ニューラルネットワークモデルの設計とデプロイのための拡張可能なAPI

TensorX: Extensible API for Neural Network Model Design and Deployment ( http://arxiv.org/abs/2012.14539v2 )

ライセンス: Link先を確認
Davide Nunes and Luis Antunes(参考訳) TensorXは、TensorFlowで複雑なニューラルネットワークモデルをプロトタイピング、設計、デプロイするためのPythonライブラリである。 使いやすさ、パフォーマンス、APIの一貫性に特に重点を置いている。 ニューラルネットワーク層のような、ステートフルな機能や構成や再利用が容易な高レベルなコンポーネントを提供することを目指している。 そのアーキテクチャは、研究または産業の設定でニューラルネットワークモデルを構築する際によく見られるパターンを表現することができる。 他のディープラーニングライブラリからのアイデアを取り入れることで、最先端のモデルでよく見られるコンポーネントを簡単に利用できる。 ライブラリ設計は、関数型データフロー計算グラフとオブジェクト指向ニューラルネットワークビルディングブロックを混合する。 TensorXはPythonの動的性質とTensorFlowの高性能GPU対応操作を組み合わせる。 このライブラリは、最小限のコア依存関係(TensorFlowとNumPy)を持ち、Apache License 2.0ライセンス下で配布されており、学術的および商業的な設定での使用を奨励している。 完全なドキュメント、ソースコード、バイナリはhttps://tensorx.org/にある。

TensorX is a Python library for prototyping, design, and deployment of complex neural network models in TensorFlow. A special emphasis is put on ease of use, performance, and API consistency. It aims to make available high-level components like neural network layers that are, in effect, stateful functions, easy to compose and reuse. Its architecture allows for the expression of patterns commonly found when building neural network models either on research or industrial settings. Incorporating ideas from several other deep learning libraries, it makes it easy to use components commonly found in state-of-the-art models. The library design mixes functional dataflow computation graphs with object-oriented neural network building blocks. TensorX combines the dynamic nature of Python with the high-performance GPU-enabled operations of TensorFlow. This library has minimal core dependencies (TensorFlow and NumPy) and is distributed under Apache License 2.0 licence, encouraging its use in both an academic and commercial settings. Full documentation, source code, and binaries can be found in https://tensorx.org/.
翻訳日:2021-04-18 20:34:26 公開日:2021-01-02
# (参考訳) 相互情報正規化政策勾配によるプライバシー保護政策

Privacy-Constrained Policies via Mutual Information Regularized Policy Gradients ( http://arxiv.org/abs/2012.15019v2 )

ライセンス: CC BY 4.0
Chris Cundy, Stefano Ermon(参考訳) 実世界の意思決定問題に強化学習技術がますます適用されるにつれて、これらのアルゴリズムが潜在的に敏感な情報を使用する方法に注意が向けられている。 報酬を最大化するポリシーを訓練し、そのアクションを通じて特定の機密状態変数の開示を最小化するタスクを考える。 この設定が、シーケンシャルな意思決定のためのプライバシーにおける現実世界の問題をどのようにカバーしているかの例を示す。 政策グラデーションの枠組みでは、ある時点におけるセンシティブな状態と行動の間の相互情報(MI)に基づいて正規化器を導入することで、この問題を解決する。 プライバシー制約ポリシーの最適化のためのモデルベース確率勾配推定器を開発した。 また、主要なMI正則化器の上限として機能し、モデルフリー設定で最適化できる代替MI正則化器についても論じる。 我々は、情報開示の相互情報定式化と、従来の微分プライベートなRLにおける研究を対比する。 実験の結果,本手法は敏感な状態を隠蔽する方針が得られた。

As reinforcement learning techniques are increasingly applied to real-world decision problems, attention has turned to how these algorithms use potentially sensitive information. We consider the task of training a policy that maximizes reward while minimizing disclosure of certain sensitive state variables through the actions. We give examples of how this setting covers real-world problems in privacy for sequential decision-making. We solve this problem in the policy gradients framework by introducing a regularizer based on the mutual information (MI) between the sensitive state and the actions at a given timestep. We develop a model-based stochastic gradient estimator for optimization of privacy-constrained policies. We also discuss an alternative MI regularizer that serves as an upper bound to our main MI regularizer and can be optimized in a model-free setting. We contrast previous work in differentially-private RL to our mutual-information formulation of information disclosure. Experimental results show that our training method results in policies which hide the sensitive state.
翻訳日:2021-04-18 18:12:53 公開日:2021-01-02
# (参考訳) 内在バイアスメトリクスはアプリケーションバイアスと相関しない

Intrinsic Bias Metrics Do Not Correlate with Application Bias ( http://arxiv.org/abs/2012.15859v2 )

ライセンス: CC BY 4.0
Seraphina Goldfarb-Tarrant, Rebecca Marchant, Ricardo Mu\~noz Sanchez, Mugdha Pandya, Adam Lopez(参考訳) 自然言語処理(NLP)システムは有害な社会的バイアスを学習し、ますます多くの状況に配備されるにつれて不平等が広範に拡大する。 この問題に対処し、対処するために、NLPコミュニティは、ブラックボックスモデルのバイアスを特定し、定量化し、デバイアスの取り組みをガイドするために、さまざまな指標に依存している。 これらの指標のいくつかは内在的であり、単語埋め込み空間で測定され、一部は外在的であり、単語埋め込みがプラグインされるタスクの下流に存在するバイアスを測定する。 本研究は, 測定容易な内在的指標が実世界の外在的指標とよく相関するかどうかを検討する。 異なるタスクと実験的な条件をカバーする数百のトレーニングモデルを通じて内在バイアスと外部バイアスを計測し、これらのメトリクスがタスクと言語をまたいだすべてのシナリオに持つ信頼できる相関関係がないことを発見した。 我々は、埋め込み空間をデバイアスする努力は、常に下流モデルのバイアスの測定と組み合わせることを推奨し、コミュニティは、追加のチャレンジセットと注釈付きテストデータの作成によって下流の計測をより実現可能にする努力を増すことを示唆する。 さらに、コード、新しい本質的なメトリクス、hatspeechのジェンダーバイアスのための注釈付きテストセットをリリースしました。

Natural Language Processing (NLP) systems learn harmful societal biases that cause them to widely proliferate inequality as they are deployed in more and more situations. To address and combat this, the NLP community relies on a variety of metrics to identify and quantify bias in black-box models and to guide efforts at debiasing. Some of these metrics are intrinsic, and are measured in word embedding spaces, and some are extrinsic, which measure the bias present downstream in the tasks that the word embeddings are plugged into. This research examines whether easy-to-measure intrinsic metrics correlate well to real world extrinsic metrics. We measure both intrinsic and extrinsic bias across hundreds of trained models covering different tasks and experimental conditions and find that there is no reliable correlation between these metrics that holds in all scenarios across tasks and languages. We advise that efforts to debias embedding spaces be always also paired with measurement of downstream model bias, and suggest that that community increase effort into making downstream measurement more feasible via creation of additional challenge sets and annotated test data. We additionally release code, a new intrinsic metric, and an annotated test set for gender bias for hatespeech.
翻訳日:2021-04-17 20:04:16 公開日:2021-01-02
# 量子制御のためのカリキュラムに基づく深層強化学習

Curriculum-based Deep Reinforcement Learning for Quantum Control ( http://arxiv.org/abs/2012.15427v2 )

ライセンス: Link先を確認
Hailan Ma, Daoyi Dong, Steven X. Ding, Chunlin Chen(参考訳) 深層強化学習は,制御環境の事前知識を必要とせず,複雑なシステムの最適戦略を設計するための効率的な手法として認識されてきた。 量子システムの高速かつ高精度な制御を実現するために,忠実度閾値で定義された一連の中間タスクからなるカリキュラムを構築し,新しい深層強化学習手法を提案する。 カリキュラム内のタスクは経験的知識を用いて静的に決定したり、学習プロセスで適応的に生成することができる。 本提案手法は,2つの連続タスク間の知識の伝達と課題のシークエンシングを困難さに応じて行うことで,エージェントが早期に簡単なタスクに集中し,困難なタスクに移行し,最終的に最終タスクにアプローチすることを可能にする。 クローズド量子系とオープン量子系の数値シミュレーションにより,提案手法は量子系の制御性能を向上し,制御パルスが少ない最適戦略を同定する効率的な方法を提供することを示した。

Deep reinforcement learning has been recognized as an efficient technique to design optimal strategies for different complex systems without prior knowledge of the control landscape. To achieve a fast and precise control for quantum systems, we propose a novel deep reinforcement learning approach by constructing a curriculum consisting of a set of intermediate tasks defined by a fidelity threshold. Tasks among a curriculum can be statically determined using empirical knowledge or adaptively generated with the learning process. By transferring knowledge between two successive tasks and sequencing tasks according to their difficulties, the proposed curriculum-based deep reinforcement learning (CDRL) method enables the agent to focus on easy tasks in the early stage, then move onto difficult tasks, and eventually approaches the final task. Numerical simulations on closed quantum systems and open quantum systems demonstrate that the proposed method exhibits improved control performance for quantum systems and also provides an efficient way to identify optimal strategies with fewer control pulses.
翻訳日:2021-04-17 16:56:04 公開日:2021-01-02
# (参考訳) 機械学習プロジェクトにおける最小生存モデル推定

Minimum Viable Model Estimates for Machine Learning Projects ( http://arxiv.org/abs/2101.00346v1 )

ライセンス: CC BY 4.0
John Hawkins(参考訳) 機械学習プロジェクトの優先順位付けには、ビジネスケースの潜在的なroiと必要な特性を持つモデルを構築する技術的困難の両方を見積もる必要がある。 本稿では,その利用方法に関する一連の情報から,予測モデルの最小要求性能特性を推定する手法を提案する。 この手法は潜在的プロジェクト間の堅牢で客観的な比較をもたらす。 その結果、データサイエンティストとマネージャは、モデリングを行う前に提案された機械学習プロジェクトが成功するかどうかを評価することができる。 この技術はオープンソースアプリケーションMinViME (Minimum Viable Model Estimator)に実装されており、PyPI pythonパッケージ管理システム経由でインストールするか、GitHubリポジトリから直接ダウンロードすることができる。 https://github.com/john-hawkins/MinViME

Prioritization of machine learning projects requires estimates of both the potential ROI of the business case and the technical difficulty of building a model with the required characteristics. In this work we present a technique for estimating the minimum required performance characteristics of a predictive model given a set of information about how it will be used. This technique will result in robust, objective comparisons between potential projects. The resulting estimates will allow data scientists and managers to evaluate whether a proposed machine learning project is likely to succeed before any modelling needs to be done. The technique has been implemented into the open source application MinViME (Minimum Viable Model Estimator) which can be installed via the PyPI python package management system, or downloaded directly from the GitHub repository. Available at https://github.com/john-hawkins/MinViME
翻訳日:2021-04-16 10:41:56 公開日:2021-01-02
# (参考訳) SDA:Self Data Augmentationによるテキスト生成の改善

SDA: Improving Text Generation with Self Data Augmentation ( http://arxiv.org/abs/2101.03236v1 )

ライセンス: CC0 1.0
Ping Yu, Ruiyi Zhang, Yang Zhao, Yizhe Zhang, Chunyuan Li, Changyou Chen(参考訳) データ拡張はコンピュータビジョンなど多くの研究分野でディープニューラルネットワークを改善するために広く使われている。 しかし、テキストの文脈では、その離散的な性質と自然言語の複雑さによって、より少ない作業がなされている。 本稿では,自動データ拡張のための自己模倣学習フェーズを組み込むことにより,mle(standard maximum likelihood estimation)パラダイムを改善することを提案する。 特定のモデルにのみ適用可能な既存の文レベルの拡張戦略とは異なり,本手法はより汎用的で,MLEベースの訓練手順にも容易に適用できる。 さらに,本フレームワークは,例えば語彙使用の制御や非自明な繰り返しの回避などにおいて,生成した文を柔軟に制御するタスク固有の評価指標を設計することができる。 広範な実験結果から,2つの合成データと数種類の標準実データに対する本手法の優位性が示され,関連するベースラインを著しく改善した。

Data augmentation has been widely used to improve deep neural networks in many research fields, such as computer vision. However, less work has been done in the context of text, partially due to its discrete nature and the complexity of natural languages. In this paper, we propose to improve the standard maximum likelihood estimation (MLE) paradigm by incorporating a self-imitation-learning phase for automatic data augmentation. Unlike most existing sentence-level augmentation strategies, which are only applied to specific models, our method is more general and could be easily adapted to any MLE-based training procedure. In addition, our framework allows task-specific evaluation metrics to be designed to flexibly control the generated sentences, for example, in terms of controlling vocabulary usage and avoiding nontrivial repetitions. Extensive experimental results demonstrate the superiority of our method on two synthetic and several standard real datasets, significantly improving related baselines.
翻訳日:2021-04-16 10:34:49 公開日:2021-01-02
# (参考訳) ディープニューラルネットワークを用いたマルチイメージステレオグラフィ

Multi-Image Steganography Using Deep Neural Networks ( http://arxiv.org/abs/2101.00350v1 )

ライセンス: CC BY-SA 4.0
Abhishek Das, Japsimar Singh Wahi, Mansi Anand, Yugant Rana(参考訳) ステガノグラフィーは、秘密のメッセージを普通の公開メッセージの中に隠す科学である。 長年にわたり、低解像度画像をLSB操作のような単純な方法で高解像度画像に符号化するためにステガノグラフィーが用いられてきた。 本研究では,ディープニューラルネットワークを用いて,同一解像度の単一のカバー画像内の複数の秘密画像の符号化と復号を行う。

Steganography is the science of hiding a secret message within an ordinary public message. Over the years, steganography has been used to encode a lower resolution image into a higher resolution image by simple methods like LSB manipulation. We aim to utilize deep neural networks for the encoding and decoding of multiple secret images inside a single cover image of the same resolution.
翻訳日:2021-04-16 10:11:07 公開日:2021-01-02
# (参考訳) ニューラルジェネレーションのためのオンザフライアテンションモジュール化

On-the-Fly Attention Modularization for Neural Generation ( http://arxiv.org/abs/2101.00371v1 )

ライセンス: CC BY 4.0
Yue Dong, Chandra Bhagavatula, Ximing Lu, Jena D. Hwang, Antoine Bosselut, Jackie Chi Kit Cheung, Yejin Choi(参考訳) 深層言語モデル(LM)によるかなりの進歩にもかかわらず、ニューラルテキスト生成は依然として変性に悩まされている。 文章レベルの注意パターンに関する経験的分析から,神経テキストの変性は注意機構による帰納的バイアスの学習不足と関連している可能性が示唆された。 本研究は,インダクティブバイアスを推論中に注意計算に注入する簡易かつ効果的な手法である,オンザフライアテンションモダナイゼーションを動機付けている。 モジュール化に注意を向けた言語モデルによって生成された結果のテキストは、拡散性とコヒーレンスを維持しながら、多様性とコモンセンス推論を向上させることができる。

Despite considerable advancements with deep neural language models (LMs), neural text generation still suffers from degeneration: generated text is repetitive, generic, self-inconsistent, and lacking commonsense. The empirical analyses on sentence-level attention patterns reveal that neural text degeneration may be associated with insufficient learning of inductive biases by the attention mechanism. Our findings motivate on-the-fly attention modularization, a simple but effective method for injecting inductive biases into attention computation during inference. The resulting text produced by the language model with attention modularization can yield enhanced diversity and commonsense reasoning while maintaining fluency and coherence.
翻訳日:2021-04-16 10:04:10 公開日:2021-01-02
# (参考訳) riddlesense: 常識的推論としての謎の質問に答える

RiddleSense: Answering Riddle Questions as Commonsense Reasoning ( http://arxiv.org/abs/2101.00376v1 )

ライセンス: CC BY 4.0
Bill Yuchen Lin, Ziyi Wu, Yichi Yang, Dong-Ho Lee, Xiang Ren(参考訳) 謎めいた、毎日のコンセプトに関する謎めいた疑問です。 例えば「私は5本の指を持っているが、私は生きているわけではない。 私は何者ですか? 手袋の概念について尋ねます 謎を解くことは人間にとって困難な認知プロセスであり、複雑なコモンセンス推論能力と図形言語を理解する必要がある。 しかしながら、これらの能力をテストするコモンセンス推論データセットは今のところ存在しない。 我々は,高階のコモンセンス推論モデルのベンチマークを行うための,新しいマルチチョイス質問応答チャレンジであるRiddleSenseを提案し,人間のアノテーションからイントラクタをクラウドソーシングする,リグルスタイルのコモンセンス質問応答のための最初の大規模データセットである。 体系的に様々な推論モデルを評価し、最高の教師付きモデルと人間のパフォーマンスの間には大きなギャップがあることを指摘した上で、高次常識推論と計算創造性に関する興味深い研究を指摘した。

A riddle is a mystifying, puzzling question about everyday concepts. For example, the riddle "I have five fingers but I am not alive. What am I?" asks about the concept of a glove. Solving riddles is a challenging cognitive process for humans, in that it requires complex commonsense reasoning abilities and an understanding of figurative language. However, there are currently no commonsense reasoning datasets that test these abilities. We propose RiddleSense, a novel multiple-choice question answering challenge for benchmarking higher-order commonsense reasoning models, which is the first large dataset for riddle-style commonsense question answering, where the distractors are crowdsourced from human annotators. We systematically evaluate a wide range of reasoning models over it and point out that there is a large gap between the best-supervised model and human performance -- pointing to interesting future research for higher-order commonsense reasoning and computational creativity.
翻訳日:2021-04-13 13:37:05 公開日:2021-01-02
# (参考訳) イメージベース繊維デコード

Image-based Textile Decoding ( http://arxiv.org/abs/2101.00395v1 )

ライセンス: CC BY 4.0
Siqiang Chen, Masahiro Toyoura, Takamasa Terada, Xiaoyang Mao, Gang Xu(参考訳) 繊維織物は、無数の平行な垂直糸(ワープ)と水平糸(ウェフト)からなる。 一般的な織機は繰り返しパターンを織ることができるが、ジャカード織機は繰り返し制限なしでパターンを織ることができる。 グリッド上のワープとウェフトが交差するパターンはバイナリ行列で定義される。 二項行列は、ジャカードファブリックの各格子点の上のワープとウェフトを定義することができる。 このプロセスは、パターンから織物へのエンコーディングと見なすことができる。 本研究では,すでに編まれている織物からバイナリパターンを生成する復号法を提案する。 パターンのトレーニングセットと観測されたファブリックイメージのみに基づいて、ディープニューラルネットワークを使ってプロセスを学習することはできませんでした。 観測画像の交差点が格子点に完全に位置していたわけではないため, 深層学習の枠組みにおいて, ファブリック画像と行列で表されるパターンとを直接対応付けることは困難であった。 そこで本研究では,パターンと画像の中間表現を通じてディープラーニングの枠組みを適用する手法を提案する。 パターンを中間表現に変換する方法と、出力をパターンに変換する方法を示し、その有効性を確認する。 本実験では,実際の織物画像からパターンをデコードし,再度織ることにより,正しいパターンの93%が得られたことを確認した。

A textile fabric consists of countless parallel vertical yarns (warps) and horizontal yarns (wefts). While common looms can weave repetitive patterns, Jacquard looms can weave the patterns without repetition restrictions. A pattern in which the warps and wefts cross on a grid is defined in a binary matrix. The binary matrix can define which warp and weft is on top at each grid point of the Jacquard fabric. The process can be regarded as encoding from pattern to textile. In this work, we propose a decoding method that generates a binary pattern from a textile fabric that has been already woven. We could not use a deep neural network to learn the process based solely on the training set of patterns and observed fabric images. The crossing points in the observed image were not completely located on the grid points, so it was difficult to take a direct correspondence between the fabric images and the pattern represented by the matrix in the framework of deep learning. Therefore, we propose a method that can apply the framework of deep learning via the intermediate representation of patterns and images. We show how to convert a pattern into an intermediate representation and how to reconvert the output into a pattern and confirm its effectiveness. In this experiment, we confirmed that 93% of correct pattern was obtained by decoding the pattern from the actual fabric images and weaving them again.
翻訳日:2021-04-13 12:56:06 公開日:2021-01-02
# (参考訳) Lex-BERT: LexiconによるBERTベースのNERの強化

Lex-BERT: Enhancing BERT based NER with lexicons ( http://arxiv.org/abs/2101.00396v1 )

ライセンス: CC BY 4.0
Wei Zhu, Daniel Cheung(参考訳) 本研究は,名前付きエンティティ認識(NER)タスクに対して,辞書情報を中国語のBERTに組み込んだLex-BERTを自然な方法で表現する。 単語埋め込みと新たに設計されたトランスフォーマー層をフラットに使用する代わりに、特別なトークンを使って文中の単語の境界を識別し、修正された文はbertによって直接エンコードされる。 我々のモデルは新しいパラメータを導入せず、FLATよりも効率的です。 さらに、レキシコンコレクションに付随する単語埋め込みは不要である。 OntonotesとZhCrossNERの実験では、私たちのモデルはFLATや他のベースラインよりも優れています。

In this work, we represent Lex-BERT, which incorporates the lexicon information into Chinese BERT for named entity recognition (NER) tasks in a natural manner. Instead of using word embeddings and a newly designed transformer layer as in FLAT, we identify the boundary of words in the sentences using special tokens, and the modified sentence will be encoded directly by BERT. Our model does not introduce any new parameters and are more efficient than FLAT. In addition, we do not require any word embeddings accompanying the lexicon collection. Experiments on Ontonotes and ZhCrossNER show that our model outperforms FLAT and other baselines.
翻訳日:2021-04-13 12:41:05 公開日:2021-01-02
# (参考訳) 大規模マルチプレイヤーコンペティションのためのエロ様システム

An Elo-like System for Massive Multiplayer Competitions ( http://arxiv.org/abs/2101.00400v1 )

ライセンス: CC BY 4.0
Aram Ebtekar and Paul Liu(参考訳) レーティングシステムは競技や競技において重要な役割を果たしている。 プレイヤーのスキルを測り、競争力を高め、バランスの取れた試合を可能にする。 本稿では,多数の参加者が参加するコンテストのベイズ評価システムを提案する。 オンラインプログラミング競技、障害物コースレース、いくつかのビデオゲームなど、個別のランキングマッチを持つ競技形式に広く適用されている。 システムの単純さにより、ロバスト性とランタイムに関する理論的境界を証明できます。 さらに,評価を最大化しようとするプレイヤーは,決して過度にパフォーマンスを損なうことはない。 実験的に、レーティングシステムは予測精度で既存のシステムと競合するか、あるいは上回っており、既存のシステムよりも桁違いに高速に計算する。

Rating systems play an important role in competitive sports and games. They provide a measure of player skill, which incentivizes competitive performances and enables balanced match-ups. In this paper, we present a novel Bayesian rating system for contests with many participants. It is widely applicable to competition formats with discrete ranked matches, such as online programming competitions, obstacle courses races, and some video games. The simplicity of our system allows us to prove theoretical bounds on robustness and runtime. In addition, we show that the system aligns incentives: that is, a player who seeks to maximize their rating will never want to underperform. Experimentally, the rating system rivals or surpasses existing systems in prediction accuracy, and computes faster than existing systems by up to an order of magnitude.
翻訳日:2021-04-13 12:37:42 公開日:2021-01-02
# (参考訳) クロスドキュメント言語モデリング

Cross-Document Language Modeling ( http://arxiv.org/abs/2101.00406v1 )

ライセンス: CC BY 4.0
Avi Caciularu, Arman Cohan, Iz Beltagy, Matthew E. Peters, Arie Cattan, Ido Dagan(参考訳) マルチドキュメントNLPタスクをサポートする言語モデルに対して,新たな事前学習手法を提案する。 我々のクロスドキュメント言語モデル (CD-LM) は2つの重要なアイデアでこれらのタスクのマスキング言語モデリングを改善する。 まず、複数の関連文書を1つの入力で事前トレーニングし、クロスドキュメントマスキングにより、クロスドキュメントと長距離関係の学習を促す。 第二に、最近のLongformerモデルを拡張して、何千ものトークンの長いコンテキストで事前訓練を行い、シーケンシャルなグローバルな注意を用いてマスク付きトークンを予測する新しい注意パターンを導入します。 本研究のCD-LMは,クロスドキュメントイベントやエンティティコア参照解決,論文引用推薦,文書盗作検出など,複数のマルチテキストタスクに対して,従来よりも格段に少ないトレーニングパラメータを用いて,新たな最先端結果を設定する。

We introduce a new pretraining approach for language models that are geared to support multi-document NLP tasks. Our cross-document language model (CD-LM) improves masked language modeling for these tasks with two key ideas. First, we pretrain with multiple related documents in a single input, via cross-document masking, which encourages the model to learn cross-document and long-range relationships. Second, extending the recent Longformer model, we pretrain with long contexts of several thousand tokens and introduce a new attention pattern that uses sequence-level global attention to predict masked tokens, while retaining the familiar local attention elsewhere. We show that our CD-LM sets new state-of-the-art results for several multi-text tasks, including cross-document event and entity coreference resolution, paper citation recommendation, and documents plagiarism detection, while using a significantly reduced number of training parameters relative to prior works.
翻訳日:2021-04-13 10:51:01 公開日:2021-01-02
# (参考訳) シーケンススパン書き換えによるシーケンス間事前学習の改善

Improving Sequence-to-Sequence Pre-training via Sequence Span Rewriting ( http://arxiv.org/abs/2101.00416v1 )

ライセンス: CC BY 4.0
Wangchunshu Zhou, Tao Ge, Ke Xu, Furu Wei(参考訳) 本稿では,ssr(sequence span rewriting)を自己教師付きsequence-to-sequence(seq2seq)事前学習目的として提案することにより,テキストインフィルディング(例えばマスク言語モデル)を一般化する。 SSRは、不完全を真理に書き直すモデルを監督することで、テキスト表現のためのよりきめ細かい学習信号を提供し、ソース文をターゲット文に書き直す多くの下流のseq2seqタスクでテキストを埋め込むよりも一貫性がある。 各種Seq2seqタスクのT5モデルによる実験により,SSRはSeq2seq事前学習を大幅に改善できることが示された。 さらに,ssrは,大規模モデルからsseq2seqプリトレーニングモデルへ知識を移す新たな視点を示す,強力な不完全スパンジェネレータを備えた小型seq2seqモデルの事前学習を改善するのに特に有用である。

In this paper, we generalize text infilling (e.g., masked language models) by proposing Sequence Span Rewriting (SSR) as a self-supervised sequence-to-sequence (seq2seq) pre-training objective. SSR provides more fine-grained learning signals for text representations by supervising the model to rewrite imperfect spans to ground truth, and it is more consistent than text infilling with many downstream seq2seq tasks that rewrite a source sentences into a target sentence. Our experiments with T5 models on various seq2seq tasks show that SSR can substantially improve seq2seq pre-training. Moreover, we observe SSR is especially helpful to improve pre-training a small-size seq2seq model with a powerful imperfect span generator, which indicates a new perspective of transferring knowledge from a large model to a smaller model for seq2seq pre-training.
翻訳日:2021-04-13 10:33:18 公開日:2021-01-02
# (参考訳) ランダムウォークグラフ畳み込みネットワークを用いた再構成グラフの表現学習

Representation Learning of Reconstructed Graphs Using Random Walk Graph Convolutional Network ( http://arxiv.org/abs/2101.00417v1 )

ライセンス: CC BY 4.0
Xing Li, Wei Wei, Xiangnan Feng, Zhiming Zheng(参考訳) グラフは単純なトポロジ構造のため、しばしばデータを整理するために使われ、機械学習において重要な役割を果たす。 また,グラフ表現学習によって得られる低次元埋め込み表現は,ノード分類,コンテンツ推薦,リンク予測など,様々な典型的なタスクにおいて極めて有用であることがわかった。 しかし、既存の手法は主にグラフのミクロ構造(すなわちエッジ)から始まり、メソスコピック構造(高次局所構造)を無視している。 本稿では,ランダムウォークをグラフのノード固有のメソスコピック構造に利用し,これらのメソピック構造を用いてグラフを再構築し,ノードの特性情報を整理する新しい枠組みであるwgcnを提案する。 提案手法は,引用ネットワークとソーシャルネットワークで実施した一連の実験で証明された,従来未発見のデータに対するノード埋め込みを効果的に生成することができる(本手法はベースライン手法よりも優れている)。 高次局所構造情報を組み合わせることで、ニューラルネットワークの学習効率を大幅に向上し、新しい学習モデルの確立を促進するネットワークの可能性をより効率的に探求できると信じている。

Graphs are often used to organize data because of their simple topological structure, and therefore play a key role in machine learning. And it turns out that the low-dimensional embedded representation obtained by graph representation learning are extremely useful in various typical tasks, such as node classification, content recommendation and link prediction. However, the existing methods mostly start from the microstructure (i.e., the edges) in the graph, ignoring the mesoscopic structure (high-order local structure). Here, we propose wGCN -- a novel framework that utilizes random walk to obtain the node-specific mesoscopic structures of the graph, and utilizes these mesoscopic structures to reconstruct the graph And organize the characteristic information of the nodes. Our method can effectively generate node embeddings for previously unseen data, which has been proven in a series of experiments conducted on citation networks and social networks (our method has advantages over baseline methods). We believe that combining high-order local structural information can more efficiently explore the potential of the network, which will greatly improve the learning efficiency of graph neural network and promote the establishment of new learning models.
翻訳日:2021-04-13 10:20:30 公開日:2021-01-02
# (参考訳) KM-BART:ビジュアルコモンセンス生成のための知識強化型マルチモーダルBART

KM-BART: Knowledge Enhanced Multimodal BART for Visual Commonsense Generation ( http://arxiv.org/abs/2101.00419v1 )

ライセンス: CC BY 4.0
Yiran Xing, Zai Shi, Zhao Meng, Yunpu Ma, Roger Wattenhofer(参考訳) 本稿では、画像やテキストのマルチモーダル入力から常識知識を推論できるトランスフォーマーベースのシーケンス・ツー・シーケンスモデルであるKM-BARTを提案する。 一般的なBARTアーキテクチャをマルチモーダルモデルに拡張する。 我々は,visual commonsense生成タスクのモデル性能を改善するために,新しい事前学習タスクを設計する。 本課題は,外部知識グラフ上で事前学習した大規模言語モデルからの知識を活用し,視覚コモンセンス生成性能を向上させる。 私たちの知る限り、私たちはVisual Commonsense Generationのモデルパフォーマンスを改善するための専用のタスクを最初に提案します。 実験の結果,事前学習により,視覚コモンセンス生成タスクにおいて最先端の性能が得られることがわかった。

We present Knowledge Enhanced Multimodal BART (KM-BART), which is a Transformer-based sequence-to-sequence model capable of reasoning about commonsense knowledge from multimodal inputs of images and texts. We extend the popular BART architecture to a multi-modal model. We design a new pretraining task to improve the model performance on Visual Commonsense Generation task. Our pretraining task improves the Visual Commonsense Generation performance by leveraging knowledge from a large language model pretrained on an external knowledge graph. To the best of our knowledge, we are the first to propose a dedicated task for improving model performance on Visual Commonsense Generation. Experimental results show that by pretraining, our model reaches state-of-the-art performance on the Visual Commonsense Generation task.
翻訳日:2021-04-13 10:05:09 公開日:2021-01-02
# (参考訳) スパン表現のない参照分解能

Coreference Resolution without Span Representations ( http://arxiv.org/abs/2101.00434v1 )

ライセンス: CC0 1.0
Yuval Kirstain, Ori Ram, Omer Levy(参考訳) 深く事前訓練された言語モデルの導入以来、ほとんどのタスク固有のNLPモデルは単純な軽量層に縮小された。 このトレンドの例外は、高度なエンドツーエンドモデルを事前訓練されたトランスフォーマーエンコーダに追加する、コア参照解決の難しいタスクである。 非常に効果的だが、モデルは非常に大きなメモリフットプリントを持ち、主に動的に構成されたスパンとスパンペアの表現によって、完全なドキュメントの処理と単一のバッチで複数のインスタンスをトレーニングする能力を妨げる。 我々は,スパン表現や手作り特徴,ヒューリスティックに依存しない軽量なコリファレンスモデルを導入する。 我々のモデルは現行のエンドツーエンドモデルと競合するが、よりシンプルで効率的である。

Since the introduction of deep pretrained language models, most task-specific NLP models were reduced to simple lightweight layers. An exception to this trend is the challenging task of coreference resolution, where a sophisticated end-to-end model is appended to a pretrained transformer encoder. While highly effective, the model has a very large memory footprint -- primarily due to dynamically-constructed span and span-pair representations -- which hinders the processing of complete documents and the ability to train on multiple instances in a single batch. We introduce a lightweight coreference model that removes the dependency on span representations, handcrafted features, and heuristics. Our model performs competitively with the current end-to-end model, while being simpler and more efficient.
翻訳日:2021-04-13 09:51:03 公開日:2021-01-02
# (参考訳) Baleen: 凝縮検索による大規模マルチホップ推論

Baleen: Robust Multi-Hop Reasoning at Scale via Condensed Retrieval ( http://arxiv.org/abs/2101.00436v1 )

ライセンス: CC BY 4.0
Omar Khattab, Christopher Potts, Matei Zaharia(参考訳) マルチホップ推論(Multi-hop reasoning、すなわち2つ以上の文書をまたがる推論)は、大規模な文書コレクションを活用することで幅広い世界の知識を表現できるNLPモデルへの重要なステップである。 本稿では,マルチホップ推論のロバスト性と拡張性を向上させるシステムであるbaleenを提案する。 Baleen氏は、検索スペースのサイズを軽減するために、ホップ毎の縮合された検索パイプライン、複雑なマルチホップクエリをモデル化可能な集中遅延インタラクションレトリバー(FliBERT)、クエリを検索するドキュメントの限られた信号から学ぶための弱い監視戦略である潜時ホップオーダを導入した。 我々は,新たなマルチホップクレーム検証データセットであるHoVer上でバリーンを評価し,最先端の性能を確立した。

Multi-hop reasoning (i.e., reasoning across two or more documents) at scale is a key step toward NLP models that can exhibit broad world knowledge by leveraging large collections of documents. We propose Baleen, a system that improves the robustness and scalability of multi-hop reasoning over current approaches. Baleen introduces a per-hop condensed retrieval pipeline to mitigate the size of the search space, a focused late interaction retriever (FliBERT) that can model complex multi-hop queries, and a weak supervision strategy, latent hop ordering, to learn from limited signal about which documents to retrieve for a query. We evaluate Baleen on the new many-hop claim verification dataset HoVer, establishing state-of-the-art performance.
翻訳日:2021-04-13 09:45:02 公開日:2021-01-02
# (参考訳) 予備学習スパン選択による少数質問応答

Few-Shot Question Answering by Pretraining Span Selection ( http://arxiv.org/abs/2101.00438v1 )

ライセンス: CC0 1.0
Ori Ram and Yuval Kirstain and Jonathan Berant and Amir Globerson and Omer Levy(参考訳) 多くの質問応答(QA)ベンチマークでは、事前訓練されたモデルは10万の注釈付き質問と回答の順序で微調整することで人間と同等に到達している。 私たちは、数百のトレーニングサンプルしか利用できない、より現実的な数ショットの設定を探求します。 標準スパン選択モデルの性能は低いことを示し、現在の事前学習対象が質問応答から遠く離れたという事実を強調した。 そこで本研究では,質問応答の抽出に適した新しい事前学習方式を提案する。 複数の繰り返しスパンからなるパスが与えられた場合、各セットにおいて、繰り返しスパン以外のすべてのスパンをマスキングし、各マスキングスパンに対して正しいスパンを選択するようモデルに求める。 仮面のスパンは特別なトークンに置き換えられ、質問表現と見なされ、後に微調整中に答えスパンを選択するために使われる。 結果のモデルは、SQuADでわずか128例の72.7 F1のような、複数のベンチマークで驚くほど良い結果が得られる一方で、高リソース環境での競争力(時にはより良い)性能を維持している。 本研究は,事前学習方式とモデルアーキテクチャの注意深い設計が,数ショット設定における性能に劇的な影響を及ぼすことを示唆している。

In a number of question answering (QA) benchmarks, pretrained models have reached human parity through fine-tuning on an order of 100,000 annotated questions and answers. We explore the more realistic few-shot setting, where only a few hundred training examples are available. We show that standard span selection models perform poorly, highlighting the fact that current pretraining objective are far removed from question answering. To address this, we propose a new pretraining scheme that is more suitable for extractive question answering. Given a passage with multiple sets of recurring spans, we mask in each set all recurring spans but one, and ask the model to select the correct span in the passage for each masked span. Masked spans are replaced with a special token, viewed as a question representation, that is later used during fine-tuning to select the answer span. The resulting model obtains surprisingly good results on multiple benchmarks, e.g., 72.7 F1 with only 128 examples on SQuAD, while maintaining competitive (and sometimes better) performance in the high-resource setting. Our findings indicate that careful design of pretraining schemes and model architecture can have a dramatic effect on performance in the few-shot settings.
翻訳日:2021-04-13 09:32:43 公開日:2021-01-02
# (参考訳) COVID19-HPSMP:株価変動予測のためのハイブリッド・並列深層情報統合フレームワーク

COVID19-HPSMP: COVID-19 Adopted Hybrid and Parallel Deep Information Fusion Framework for Stock Price Movement Prediction ( http://arxiv.org/abs/2101.02287v1 )

ライセンス: CC BY 4.0
Farnoush Ronaghi, Mohammad Salimibeni, Farnoosh Naderkhani, and Arash Mohammadi(参考訳) 新型コロナウイルス(COVID-19)は、21世紀の3世紀初頭に我々が知ったように、突然、そして突然、世界を変えた。 特に新型コロナウイルスのパンデミックは、世界中の経済指標や株式市場に悪影響を及ぼしている。 人工知能(AI)と機械学習(ML)ベースの予測モデル、特にDeep Neural Network(DNN)アーキテクチャは、新型コロナウイルス(COVID-19)パンデミックと将来の金融市場に対する悪影響を軽減する重要な要因として機能する可能性がある。 本稿では,まず,covid-19プライスムーブメント予測(covid19 primo)データセットを導入し,covid-19関連ソーシャルメディアの動向が株価変動に与える影響について考察する。 その後、異なる多様な学習アーキテクチャを統合する新しいハイブリッドかつ並列DNNベースのフレームワークが提案されている。 株価変動予測(COVID19-HPSMP)のためのハイブリッドと並列の深層融合フレームワーク(Hybrid and Parallel Deep fusion framework)として、新型コロナウイルスに関連するソーシャルメディアニュースと歴史的なマークデータを組み合わせた革新的な融合戦略が用いられている。 提案したCOVID19-HPSMPは、2つの並列パス(hence hybrid)で構成され、1つは畳み込みニューラルネットワーク(CNN)とローカル/グローバルアテンションモジュール、もう1つは統合されたCNNと双方向長短項メモリ(BLSTM)からなる。 2つの平行経路は、局所的な特徴を結合する融合中心として働く多層核融合層が続く。 提案フレームワークの優れた性能を示す COVID19 PRIMO データセットを用いて性能評価を行う。

The novel of coronavirus (COVID-19) has suddenly and abruptly changed the world as we knew at the start of the 3rd decade of the 21st century. Particularly, COVID-19 pandemic has negatively affected financial econometrics and stock markets across the globe. Artificial Intelligence (AI) and Machine Learning (ML)-based prediction models, especially Deep Neural Network (DNN) architectures, have the potential to act as a key enabling factor to reduce the adverse effects of the COVID-19 pandemic and future possible ones on financial markets. In this regard, first, a unique COVID-19 related PRIce MOvement prediction (COVID19 PRIMO) dataset is introduced in this paper, which incorporates effects of social media trends related to COVID-19 on stock market price movements. Afterwards, a novel hybrid and parallel DNN-based framework is proposed that integrates different and diversified learning architectures. Referred to as the COVID-19 adopted Hybrid and Parallel deep fusion framework for Stock price Movement Prediction (COVID19-HPSMP), innovative fusion strategies are used to combine scattered social media news related to COVID-19 with historical mark data. The proposed COVID19-HPSMP consists of two parallel paths (hence hybrid), one based on Convolutional Neural Network (CNN) with Local/Global Attention modules, and one integrated CNN and Bi-directional Long Short term Memory (BLSTM) path. The two parallel paths are followed by a multilayer fusion layer acting as a fusion centre that combines localized features. Performance evaluations are performed based on the introduced COVID19 PRIMO dataset illustrating superior performance of the proposed framework.
翻訳日:2021-04-13 09:00:26 公開日:2021-01-02
# (参考訳) 自然災害時のソーシャルメディアデータのマイニングに対するマルチモーダルアプローチ-ハリケーンイルマの事例研究

A multi-modal approach towards mining social media data during natural disasters -- a case study of Hurricane Irma ( http://arxiv.org/abs/2101.00480v1 )

ライセンス: CC BY 4.0
Somya D. Mohanty and Brown Biggers and Saed Sayedahmed and Nastaran Pourebrahim and Evan B. Goldstein and Rick Bunch and Guangqing Chi and Fereidoon Sadri and Tom P. McCoy and Arthur Cosby(参考訳) ソーシャルメディアのストリーミングは、極端な気象の影響をリアルタイムで見ることができる。 しかし、ストリーミングデータの量は、マイニング情報を緊急管理者、政策立案者、学際的な科学者にとって困難にしている。 本稿では,アメリカフロリダ州のハリケーン・イルマの地すべりから,ストリーミングソーシャルメディアデータから情報をマイニングし,フィルタリングするためのデータ学習の有効性について検討する。 我々は,2017年9月10日から12日までの16,598人のユーザから,54,383件のtwitterメッセージ(784kの位置情報メッセージのうち)を使用して,関連するデータをフィルタリングするための4つの独立したモデルを開発した。 4つのモデルはそれぞれ独立してテストされており、各サブモデルのユーザ定義しきい値に基づいてツイートを素早くフィルタリングして視覚化することができる。 このタイプのフィルタリングと可視化ルーチンは,Twitterなどのノイズの多いソースからのデータキャプチャーのベースモデルとして有用であると考えられる。 データはその後、政策立案者、環境管理者、緊急管理者、および災害の異なる段階(例えば、準備、応答、回復)で使用する特定の属性のツイートを見つけることに興味のあるドメイン科学者によって使用される。

Streaming social media provides a real-time glimpse of extreme weather impacts. However, the volume of streaming data makes mining information a challenge for emergency managers, policy makers, and disciplinary scientists. Here we explore the effectiveness of data learned approaches to mine and filter information from streaming social media data from Hurricane Irma's landfall in Florida, USA. We use 54,383 Twitter messages (out of 784K geolocated messages) from 16,598 users from Sept. 10 - 12, 2017 to develop 4 independent models to filter data for relevance: 1) a geospatial model based on forcing conditions at the place and time of each tweet, 2) an image classification model for tweets that include images, 3) a user model to predict the reliability of the tweeter, and 4) a text model to determine if the text is related to Hurricane Irma. All four models are independently tested, and can be combined to quickly filter and visualize tweets based on user-defined thresholds for each submodel. We envision that this type of filtering and visualization routine can be useful as a base model for data capture from noisy sources such as Twitter. The data can then be subsequently used by policy makers, environmental managers, emergency managers, and domain scientists interested in finding tweets with specific attributes to use during different stages of the disaster (e.g., preparedness, response, and recovery), or for detailed research.
翻訳日:2021-04-13 08:50:41 公開日:2021-01-02
# (参考訳) グラフェンのモジュラリティの最大化

Modularity maximisation for graphons ( http://arxiv.org/abs/2101.00503v1 )

ライセンス: CC BY 4.0
Florian Klimm, Nick S. Jones and Michael T. Schaub(参考訳) ネットワークは複雑なシステムにおける大規模接続構造を調べるために広く使われているツールであり、高密度ネットワークの無限大限界としてグラフェンが提案されている。 複雑なシステムにおける機能的ビルディングブロックの識別を可能にするため、ネットワーク科学におけるコミュニティや他のメソスケール構造の検出は重要なトピックである。 そのようなビルディングブロックがグラフンに存在する場合、オープンな問題である。 本稿では,graphon-modularityを定義し,graphonにおけるコミュニティの検出を最大化できることを実証する。 次に, 特定の合成グラフを解析し, 広い範囲の異なるコミュニティ構造を示すことを示す。 また、グラトンモジュラリティの最大化を連続的最適化問題として再構成し、ネットワークでは一般的に不可能であるような、いくつかのグラトンに対する最適なコミュニティ構造または欠如を証明する。 さらに,中間段階としてネットワークデータからグラフを推定することで,ネットワークのモジュール性が最大化されるのに比べ,コミュニティの検出性が向上することを示す。 グラフトン推定器の選択は,ネットワークのコミュニティ構造と推定したグラフトンとの一致に強く影響する可能性があるが,適切な推定器を使用すると,かなりの重複が存在することが分かる。 本研究は,グラフオンのコミュニティ検出が可能であり,ネットワークデータをクラスタ化するためのプライバシ保護手段として有効であることを示す。

Networks are a widely-used tool to investigate the large-scale connectivity structure in complex systems and graphons have been proposed as an infinite size limit of dense networks. The detection of communities or other meso-scale structures is a prominent topic in network science as it allows the identification of functional building blocks in complex systems. When such building blocks may be present in graphons is an open question. In this paper, we define a graphon-modularity and demonstrate that it can be maximised to detect communities in graphons. We then investigate specific synthetic graphons and show that they may show a wide range of different community structures. We also reformulate the graphon-modularity maximisation as a continuous optimisation problem and so prove the optimal community structure or lack thereof for some graphons, something that is usually not possible for networks. Furthermore, we demonstrate that estimating a graphon from network data as an intermediate step can improve the detection of communities, in comparison with exclusively maximising the modularity of the network. While the choice of graphon-estimator may strongly influence the accord between the community structure of a network and its estimated graphon, we find that there is a substantial overlap if an appropriate estimator is used. Our study demonstrates that community detection for graphons is possible and may serve as a privacy-preserving way to cluster network data.
翻訳日:2021-04-13 08:49:15 公開日:2021-01-02
# (参考訳) マルチレイヤ関連トピックモデル

A Multilayer Correlated Topic Model ( http://arxiv.org/abs/2101.02028v1 )

ライセンス: CC BY 4.0
Ye Tian(参考訳) 論文の構造を理解する上で有効な,文書とそのセグメント間の主アイデアの相違を解析するための,新しい多層相関トピックモデル (MCTM) を提案する。 変動予測最大化(EM)アルゴリズムは,MCTMの後方およびパラメータを推定するために導出された。 我々は,段落レベルの文書分析とマーケットバスケットデータ分析を含む,MCTMの潜在的な2つの応用を紹介した。 文書構造理解におけるmctmの有効性は,保持文書の予測性能と直感的可視化によって検証された。 また,マーケットバスケット分析において,MCTMが顧客の一般的なショッピングパターンを捉えることができた。

We proposed a novel multilayer correlated topic model (MCTM) to analyze how the main ideas inherit and vary between a document and its different segments, which helps understand an article's structure. The variational expectation-maximization (EM) algorithm was derived to estimate the posterior and parameters in MCTM. We introduced two potential applications of MCTM, including the paragraph-level document analysis and market basket data analysis. The effectiveness of MCTM in understanding the document structure has been verified by the great predictive performance on held-out documents and intuitive visualization. We also showed that MCTM could successfully capture customers' popular shopping patterns in the market basket analysis.
翻訳日:2021-04-13 08:24:55 公開日:2021-01-02
# (参考訳) 医療画像の意味セグメンテーションのためのプライバシー保護ドメイン適応

Privacy Preserving Domain Adaptation for Semantic Segmentation of Medical Images ( http://arxiv.org/abs/2101.00522v1 )

ライセンス: CC BY 4.0
Serban Stan, Mohammad Rostami(参考訳) 畳み込みニューラルネットワーク(CNN)は、画像の意味的セグメンテーションを含むタスクを大幅に改善した。 CNNは、異なるデータモダリティを持つ2つのソースとターゲットドメイン間の分散ギャップがドメインシフトをもたらすため、バイオメディカルイメージセグメンテーションの領域で脆弱である。 ドメインシフトは、モデルをゼロから再トレーニングする必要があるため、新しいモダリティでデータアノテーションを必要とする。 非教師付きドメイン適応(UDA)は、未ラベルのターゲットドメインデータのみを用いて新しいモダリティにモデルを適用するために提案される。 共通のUDAアルゴリズムは、プライバシ上の懸念から医療画像では実現不可能なソースドメインのデータポイントへのアクセスを必要とする。 本研究では,ソースドメインデータがアクセス不能なプライバシ制約設定において,udaのアルゴリズムを開発する。 提案手法は,対象領域分布とソース領域分布を整合させる中間分布として使用される原型分布に,ソースサンプルからの情報を符号化することに基づく。 2つの医用画像意味セグメンテーションデータセットにおける最新の医用画像セグメンテーションアプローチと比較し,本アルゴリズムの有効性を示す。

Convolutional neural networks (CNNs) have led to significant improvements in tasks involving semantic segmentation of images. CNNs are vulnerable in the area of biomedical image segmentation because of distributional gap between two source and target domains with different data modalities which leads to domain shift. Domain shift makes data annotations in new modalities necessary because models must be retrained from scratch. Unsupervised domain adaptation (UDA) is proposed to adapt a model to new modalities using solely unlabeled target domain data. Common UDA algorithms require access to data points in the source domain which may not be feasible in medical imaging due to privacy concerns. In this work, we develop an algorithm for UDA in a privacy-constrained setting, where the source domain data is inaccessible. Our idea is based on encoding the information from the source samples into a prototypical distribution that is used as an intermediate distribution for aligning the target domain distribution with the source domain distribution. We demonstrate the effectiveness of our algorithm by comparing it to state-of-the-art medical image semantic segmentation approaches on two medical image semantic segmentation datasets.
翻訳日:2021-04-13 08:07:21 公開日:2021-01-02
# (参考訳) 生体認証とデバイス認証のためのワンショット表現学習

One-shot Representational Learning for Joint Biometric and Device Authentication ( http://arxiv.org/abs/2101.00524v1 )

ライセンス: CC BY 4.0
Sudipta Banerjee and Arun Ross(参考訳) 本稿では,1枚の生体画像,例えば顔画像から,(i)生体認証(すなわち個人を識別)と(ii)デバイス認識(すなわち、デバイスを識別)を同時に行う方法を提案する。 このような共同認識方式は、スマートフォンなどのデバイスでセキュリティとプライバシの向上に有用である。 生体特異的特徴とセンサ固有特徴の両方をカプセル化した共同表現を自動学習する。 近赤外線センサとスマートフォンカメラを用いて得られた虹彩, 顔, および眼周囲画像を用いて, 提案手法の評価を行った。 15個のセンサから14,451枚の画像を用いて実験した結果、rank-1の識別精度は最大99.81%、検証精度は100%と誤一致率1%であった。

In this work, we propose a method to simultaneously perform (i) biometric recognition (i.e., identify the individual), and (ii) device recognition, (i.e., identify the device) from a single biometric image, say, a face image, using a one-shot schema. Such a joint recognition scheme can be useful in devices such as smartphones for enhancing security as well as privacy. We propose to automatically learn a joint representation that encapsulates both biometric-specific and sensor-specific features. We evaluate the proposed approach using iris, face and periocular images acquired using near-infrared iris sensors and smartphone cameras. Experiments conducted using 14,451 images from 15 sensors resulted in a rank-1 identification accuracy of upto 99.81% and a verification accuracy of upto 100% at a false match rate of 1%.
翻訳日:2021-04-13 07:44:15 公開日:2021-01-02
# ボックス埋め込みによるきめ細かいエンティティ型モデリング

Modeling Fine-Grained Entity Types with Box Embeddings ( http://arxiv.org/abs/2101.00345v1 )

ライセンス: Link先を確認
Yasumasa Onoe, Michael Boratko, Greg Durrett(参考訳) ニューラルエンティティ型モデルは通常、エンティティタイプを高次元空間内のベクトルとして表現するが、そのような空間はこれらのタイプの複雑な相互依存性のモデル化には適していない。 これらの関係がオントロジーで明示的に定義されていない場合でも,d-次元超矩形として表現するボックス埋め込みが細粒度エンティティ型ラベルの階層を表現できる能力について検討した。 私たちのモデルは、型とエンティティ参照の両方をボックスとして表現します。 各参照とそのコンテキストは、bertベースのモデルに送られて、その参照をボックス空間に埋め込む;本質的に、このモデルは、参照のための型表現を仮定するために、表面テキストに存在するタイプ論的手がかりを利用する。 ソフトボックスの封じ込めは、与えられた型を示す言及の後続確率と、タイプ間の条件付き確率関係の両方を導出するために用いられる。 我々は,このアプローチをベクトル型付けモデルと比較し,いくつかのエンティティ型付けベンチマークで最先端のパフォーマンスを観察した。 競合型付け性能に加えて,ボックスベースモデルでは予測一貫性(スーパータイプとサブタイプを同時に予測する)と信頼性(キャリブレーション)が向上し,ボックスベースモデルの方がベクトルベースモデルよりも遅延型階層を捕えることが示唆された。

Neural entity typing models typically represent entity types as vectors in a high-dimensional space, but such spaces are not well-suited to modeling these types' complex interdependencies. We study the ability of box embeddings, which represent entity types as d-dimensional hyperrectangles, to represent hierarchies of fine-grained entity type labels even when these relationships are not defined explicitly in the ontology. Our model represents both types and entity mentions as boxes. Each mention and its context are fed into a BERT-based model to embed that mention in our box space; essentially, this model leverages typological clues present in the surface text to hypothesize a type representation for the mention. Soft box containment can then be used to derive probabilities, both the posterior probability of a mention exhibiting a given type and the conditional probability relations between types themselves. We compare our approach with a strong vector-based typing model, and observe state-of-the-art performance on several entity typing benchmarks. In addition to competitive typing performance, our box-based model shows better performance in prediction consistency (predicting a supertype and a subtype together) and confidence (i.e., calibration), implying that the box-based model captures the latent type hierarchies better than the vector-based model does.
翻訳日:2021-04-13 07:24:06 公開日:2021-01-02
# 低リソースエンティティ認識のためのロバストかつドメイン適応型アプローチ

A Robust and Domain-Adaptive Approach for Low-Resource Named Entity Recognition ( http://arxiv.org/abs/2101.00388v1 )

ライセンス: Link先を確認
Houjin Yu, Xian-Ling Mao, Zewen Chi, Wei Wei and Heyan Huang(参考訳) 近年,限られたアノテートデータを用いた信頼性の高いエンティティ認識(NER)システムの構築が注目されている。 既存の作業のほとんどは、外部のレキシコンや知識ベースなど、ドメイン固有のリソースに大きく依存しています。 しかし、そのようなドメイン固有のリソースは、しばしば利用できませんが、リソースを構築するのは困難で費用がかかります。 そこで本研究では,低コストかつ容易に入手可能なリソースのみを使用する低リソースNERのための,新しい堅牢でドメイン適応的なアプローチRDANERを提案する。 3つのベンチマークデータセットに関する広範な実験は、安価で容易に得られるリソースのみを使用する場合の最高のパフォーマンスを達成し、難易度の高いドメイン固有リソースを使用する最先端のメソッドに対して、競争力のある結果をもたらすことを証明します。 コードとコーポラはすべてhttps://github.com/houking-can/RDANER.comにある。

Recently, it has attracted much attention to build reliable named entity recognition (NER) systems using limited annotated data. Nearly all existing works heavily rely on domain-specific resources, such as external lexicons and knowledge bases. However, such domain-specific resources are often not available, meanwhile it's difficult and expensive to construct the resources, which has become a key obstacle to wider adoption. To tackle the problem, in this work, we propose a novel robust and domain-adaptive approach RDANER for low-resource NER, which only uses cheap and easily obtainable resources. Extensive experiments on three benchmark datasets demonstrate that our approach achieves the best performance when only using cheap and easily obtainable resources, and delivers competitive results against state-of-the-art methods which use difficultly obtainable domainspecific resources. All our code and corpora can be found on https://github.com/houking-can/RDANER.
翻訳日:2021-04-13 07:23:42 公開日:2021-01-02
# スイッチングコストの低い線形マルコフ決定過程の確率的効率的アルゴリズム

A Provably Efficient Algorithm for Linear Markov Decision Process with Low Switching Cost ( http://arxiv.org/abs/2101.00494v1 )

ライセンス: Link先を確認
Minbo Gao, Tianle Xie, Simon S. Du, Lin F. Yang(参考訳) 医療領域やレコメンデーションシステムなど、多くの現実世界のアプリケーションは、政策変更の数の小さな予算、すなわち、スイッチングコストの低減によって、大きな状態空間強化学習問題として定式化することができる。 本稿では, 線形マルコフ決定過程 (MDP) を最近の[Yang et al 2019, Jin et al 2020] で研究し, 大規模状態空間の一般化に線形関数近似を用いる。 スイッチングコストの低い線形MDPのための最初のアルゴリズムを提案する。 我々のアルゴリズムは$\widetilde{O}\left(\sqrt{d^3H^4K}\right)$ regret bound with a near-optimal $O\left(d H\log K\right)$ global switch cost where $d$ is the feature dimension, $H$ is the planning horizon, $K$ is the number of the agent play。 我々の後悔の限界は[Jin et al 2020]による最高の多項式アルゴリズムと一致し、スイッチングコストは彼らのものよりも指数関数的に小さい。 表式MDPに特化すれば,[Bai et al 2019, Zhang et al 20020]の切り替えコストが向上します。 正の結果を$\Omega\left(dH/\log d\right)$大域的なスイッチングコストの低い非回帰アルゴリズムで補う。

Many real-world applications, such as those in medical domains, recommendation systems, etc, can be formulated as large state space reinforcement learning problems with only a small budget of the number of policy changes, i.e., low switching cost. This paper focuses on the linear Markov Decision Process (MDP) recently studied in [Yang et al 2019, Jin et al 2020] where the linear function approximation is used for generalization on the large state space. We present the first algorithm for linear MDP with a low switching cost. Our algorithm achieves an $\widetilde{O}\left(\sqrt{d^3H^4K}\right)$ regret bound with a near-optimal $O\left(d H\log K\right)$ global switching cost where $d$ is the feature dimension, $H$ is the planning horizon and $K$ is the number of episodes the agent plays. Our regret bound matches the best existing polynomial algorithm by [Jin et al 2020] and our switching cost is exponentially smaller than theirs. When specialized to tabular MDP, our switching cost bound improves those in [Bai et al 2019, Zhang et al 20020]. We complement our positive result with an $\Omega\left(dH/\log d\right)$ global switching cost lower bound for any no-regret algorithm.
翻訳日:2021-04-13 07:23:00 公開日:2021-01-02
# オープンドメイン質問応答のためのニューラルレトリバーのエンドツーエンドトレーニング

End-to-End Training of Neural Retrievers for Open-Domain Question Answering ( http://arxiv.org/abs/2101.00408v1 )

ライセンス: Link先を確認
Devendra Singh Sachan and Mostofa Patwary and Mohammad Shoeybi and Neel Kant and Wei Ping and William L Hamilton and Bryan Catanzaro(参考訳) オープンドメイン質問応答(OpenQA)のためのニューラルレトリバーのトレーニングに関する最近の研究は、教師なしと教師なしの両方のアプローチを採用している。 しかし, 神経検索において, 教師なし, 教師なしの手法が効果的に利用できるかは, いまだ不明である。 本研究では,レトリバーの事前学習を体系的に研究する。 Inverse Cloze Taskとマスク付きサルエントスパンによる教師なし事前学習のアプローチをまず提案し,続いて質問文ペアを用いた教師付き微調整を行った。 このアプローチは、Natural QuestionsとTriviaQAデータセット上のトップ20検索精度において、前回の最高値よりも2以上の絶対的なゲインをもたらす。 また,OpenQAモデルにおけるリーダとレシーバコンポーネントのエンドツーエンド教師付きトレーニングのための2つのアプローチについても検討する。 第1のアプローチでは、読者は検索した文書を別々に検討し、第2のアプローチでは、検索した文書はすべて一緒に検討する。 実験は,新たな最先端の成果を得る際に,これらの手法の有効性を示す。 また,Natural Questionsデータセットでは,最新のDPRモデルよりも5ポイント向上し,検索精度が84の上位20点を得た。 さらに,REALMやRAGといった最近のモデルよりも3点以上優れた解答抽出結果が得られる。 さらに,エンド・ツー・エンドのトレーニングを大規模モデルにスケールアップし,小規模モデルに対するパフォーマンスの一貫した向上を示す。

Recent work on training neural retrievers for open-domain question answering (OpenQA) has employed both supervised and unsupervised approaches. However, it remains unclear how unsupervised and supervised methods can be used most effectively for neural retrievers. In this work, we systematically study retriever pre-training. We first propose an approach of unsupervised pre-training with the Inverse Cloze Task and masked salient spans, followed by supervised finetuning using question-context pairs. This approach leads to absolute gains of 2+ points over the previous best result in the top-20 retrieval accuracy on Natural Questions and TriviaQA datasets. We also explore two approaches for end-to-end supervised training of the reader and retriever components in OpenQA models. In the first approach, the reader considers each retrieved document separately while in the second approach, the reader considers all the retrieved documents together. Our experiments demonstrate the effectiveness of these approaches as we obtain new state-of-the-art results. On the Natural Questions dataset, we obtain a top-20 retrieval accuracy of 84, an improvement of 5 points over the recent DPR model. In addition, we achieve good results on answer extraction, outperforming recent models like REALM and RAG by 3+ points. We further scale up end-to-end training to large models and show consistent gains in performance over smaller models.
翻訳日:2021-04-13 07:22:31 公開日:2021-01-02
# タスク固有アダプタ生成によるゼロショット学習

Zero-shot Learning by Generating Task-specific Adapters ( http://arxiv.org/abs/2101.00420v1 )

ライセンス: Link先を確認
Qinyuan Ye, Xiang Ren(参考訳) プリトレーニングされたテキストからテキストへのトランスフォーマーは、幅広いnlpタスクで印象的なパフォーマンスを実現し、入力のプロンプトとしてタスク記述を使用することで、自然にゼロショット学習(zsl)をサポートする。 しかし、このアプローチには潜在的な制限があり、タスクレベルでタスクを解決するために学習するのではなく、インスタンスレベルで入出力ペアから学習する。 あるいは、既存のZSLメソッドをテキスト・トゥ・テキスト・トランスフォーマーに適用することは、テキスト生成の目的と巨大なサイズのために簡単ではない。 タスク記述からタスク固有のアダプタを生成するためにハイパーネットワークをトレーニングすることで、ゼロショット転送性を改善するフレームワークであるHypterを導入する。 この定式化はタスクレベルでの学習を可能にし、軽量アダプタを使用することでパラメータの数を大幅に削減する。 2つのデータセットの実験は、微調整されたベースラインでHypterの改善を示す。

Pre-trained text-to-text transformers achieve impressive performance across a wide range of NLP tasks, and they naturally support zero-shot learning (ZSL) by using the task description as prompt in the input. However, this approach has potential limitations, as it learns from input-output pairs at instance level, instead of learning to solve tasks at task level. Alternatively, applying existing ZSL methods to text-to-text transformers is non-trivial due to their text generation objective and huge size. To address these issues, we introduce Hypter, a framework that improves zero-shot transferability by training a hypernetwork to generate task-specific adapters from task descriptions. This formulation enables learning at task level, and greatly reduces the number of parameters by using light-weight adapters. Experiments on two datasets demonstrate Hypter improves upon fine-tuning baselines.
翻訳日:2021-04-13 07:22:09 公開日:2021-01-02
# NLP応用における透明性の次元

Dimensions of Transparency in NLP Applications ( http://arxiv.org/abs/2101.00433v1 )

ライセンス: Link先を確認
Michael Saxon, Sharon Levy, Xinyi Wang, Alon Albalak, William Yang Wang(参考訳) aiシステムに関する記述とコミュニケーションに関する幅広い透明性が望ましいと考えられている。 これは、一般に公開されているシステムにおける公平性と説明責任に関する議論において特に当てはまる。 しかし、以前の研究は、システムの透明性向上とユーザの混乱の間にトレードオフが存在することを示唆している。 残念ながら、透明性は曖昧な概念であり、定義と定量化が難しい。 本稿では,システム記述の透明性を定量化するためのフレームワークを提案し,nlpカンファレンスの要約を用いて,透明性とエンドユーザの混乱のトレードオフを分析する。

Broader transparency in descriptions of and communication regarding AI systems is widely considered desirable. This is particularly the case in discussions of fairness and accountability in systems exposed to the general public. However, previous work has suggested that a trade-off exists between greater system transparency and user confusion, where `too much information' clouds a reader's understanding of what a system description means. Unfortunately, transparency is a nebulous concept, difficult to both define and quantify. In this work we address these two issues by proposing a framework for quantifying transparency in system descriptions and apply it to analyze the trade-off between transparency and end-user confusion using NLP conference abstracts.
翻訳日:2021-04-13 07:21:41 公開日:2021-01-02
# 予測タスクと規範タスクの統合最適化

Integrated Optimization of Predictive and Prescriptive Tasks ( http://arxiv.org/abs/2101.00354v1 )

ライセンス: Link先を確認
Mehmet Kolcu, Alper E. Murat(参考訳) 従来の機械学習技術では、真と予測値の近さの度合いは一般的に予測の質を測る。 しかし、これらの学習アルゴリズムは、予測値が決定問題への入力として使用されるような処方問題を考慮していない。 本稿では,機能変数を効率的に活用し,予測タスクを規範的タスクで直接統合し,一貫した決定を規定する新しいフレームワークを提案する。 我々は,二段階最適化手法を用いて,処方問題内の予測アルゴリズムのパラメータを訓練する。 本稿では,提案手法の構造と合成データを用いた性能を,点推定,確率的最適化といった古典的手法と比較し,最近開発された機械学習に基づく最適化手法と比較した。 さらに,異なるペナルティアプローチを用いて一般化誤差を制御し,検証データセット上での統合を最適化する。

In traditional machine learning techniques, the degree of closeness between true and predicted values generally measures the quality of predictions. However, these learning algorithms do not consider prescription problems where the predicted values will be used as input to decision problems. In this paper, we efficiently leverage feature variables, and we propose a new framework directly integrating predictive tasks under prescriptive tasks in order to prescribe consistent decisions. We train the parameters of predictive algorithm within a prescription problem via bilevel optimization techniques. We present the structure of our method and demonstrate its performance using synthetic data compared to classical methods like point-estimate-based, stochastic optimization and recently developed machine learning based optimization methods. In addition, we control generalization error using different penalty approaches and optimize the integration over validation data set.
翻訳日:2021-04-13 07:21:11 公開日:2021-01-02
# オーディオトランスフォーマーモデルは何が聞こえますか? 言語伝達のための音響表現の探索とその構造

What all do audio transformer models hear? Probing Acoustic Representations for Language Delivery and its Structure ( http://arxiv.org/abs/2101.00387v1 )

ライセンス: Link先を確認
Jui Shah, Yaman Kumar Singla, Changyou Chen, Rajiv Ratn Shah(参考訳) 近年、BERTベースのトランスモデルは、テキスト処理モデルの「技術スタック」の分離不能な部分となっている。 音声トランスフォーマモデルを用いて音声を符号化することにより, 音声領域における類似の進展が観測されている。 これは、これらのオーディオトランスフォーマーモデルが学習しているものについて疑問を呈する。 さらに、標準の方法論は、ダウンストリームタスクに埋め込む最後のレイヤを選択することですが、それは最適な選択でしょうか? 我々は、最近の2つのオーディオトランスフォーマーモデル、MockingjayとWave2vec2.0に対するこれらの質問に答えようとしている。 音声, 流音, 発音機能など, 言語提供機能と構造機能を総合的に比較した。 さらに,音声モデルのテキスト面,構文,意味的特徴に対する理解を探索し,BERTと比較する。 ネイティブ、非ネイティブ、合成、読み取り、自発的な音声データセットの完全な設定でこれを実行します。

In recent times, BERT based transformer models have become an inseparable part of the 'tech stack' of text processing models. Similar progress is being observed in the speech domain with a multitude of models observing state-of-the-art results by using audio transformer models to encode speech. This begs the question of what are these audio transformer models learning. Moreover, although the standard methodology is to choose the last layer embedding for any downstream task, but is it the optimal choice? We try to answer these questions for the two recent audio transformer models, Mockingjay and wave2vec2.0. We compare them on a comprehensive set of language delivery and structure features including audio, fluency and pronunciation features. Additionally, we probe the audio models' understanding of textual surface, syntax, and semantic features and compare them to BERT. We do this over exhaustive settings for native, non-native, synthetic, read and spontaneous speech datasets
翻訳日:2021-04-13 07:20:59 公開日:2021-01-02
# 離散生産における異常検出のための正規化に基づく連続学習

Regularization-based Continual Learning for Anomaly Detection in Discrete Manufacturing ( http://arxiv.org/abs/2101.00509v1 )

ライセンス: Link先を確認
Benjamin Maschler, Thi Thu Huong Pham, Michael Weyrich(参考訳) 個別の製造プロセスで発生する異常の早期かつ堅牢な検出により、オペレーターは害を防止できる。 生産機械や製品に欠陥があります データ駆動異常検出に対する現在のアプローチは、トレーニングされたプロセスの正確な結果をもたらすが、多くの場合、変更に柔軟に適応する能力に欠ける。 製品で 継続的学習はこのような柔軟性を約束し、以前の学習した知識を新しいタスクに自動適応させることができる。 そこで本論文では, 実産業用金属形成データセットに基づいて実装, 評価, 比較を行う正則化戦略群から, 連続学習アプローチについて述べる。

The early and robust detection of anomalies occurring in discrete manufacturing processes allows operators to prevent harm, e.g. defects in production machinery or products. While current approaches for data-driven anomaly detection provide good results on the exact processes they were trained on, they often lack the ability to flexibly adapt to changes, e.g. in products. Continual learning promises such flexibility, allowing for an automatic adaption of previously learnt knowledge to new tasks. Therefore, this article discusses different continual learning approaches from the group of regularization strategies, which are implemented, evaluated and compared based on a real industrial metal forming dataset.
翻訳日:2021-04-13 07:20:47 公開日:2021-01-02
# ロボットマッピング,知覚,インタラクションのためのセマンティクス:調査

Semantics for Robotic Mapping, Perception and Interaction: A Survey ( http://arxiv.org/abs/2101.00443v1 )

ライセンス: Link先を確認
Sourav Garg, Niko S\"underhauf, Feras Dayoub, Douglas Morrison, Akansel Cosgun, Gustavo Carneiro, Qi Wu, Tat-Jun Chin, Ian Reid, Stephen Gould, Peter Corke, Michael Milford(参考訳) ロボットが周囲の世界をナビゲートし、よりリッチに対話するためには、操作する世界についてより深く理解する必要があるだろう。 ロボット工学および関連する研究分野において、理解の研究はしばしば意味論(semantics)と呼ばれ、世界がロボットに何を「意味」するかを決定し、その意味をいかに表現するかという問題に強く結びついている。 人間とロボットが同じ世界で活動するようになるにつれ、人間とロボットの相互作用の展望は、自然言語のセマンティクスとオントロジをもたらす。 ニーズや、トレーニングデータや計算リソースの可用性向上などによって駆動されるセマンティックスは、ロボティクスにおける急速に成長している研究領域である。 この分野は、これまで研究文献で大きな注目を集めてきたが、ほとんどのレビューや調査は、そのトピックの特定の側面に焦点を当てている: マッピングやセグメンテーションのような特定のロボットトピックにおけるその使用に関する技術的研究問題、あるいは自動運転のような特定のアプリケーションドメインとの関連性。 それゆえ、新たな治療法が必要であり、多くの主要な調査が公表されて以来、多くの関連する研究が起きているため、タイムリーである。 この調査は、ロボット工学のセマンティクスが現在どこにあるのかを概観するスナップショットを提供する。 ロボット工学のセマンティクス研究のための分類学を確立し、セマンティクスを抽出、使用、または両方する4つの幅広い活動カテゴリに分けた。 これらの幅広いカテゴリの中で、コンピュータビジョン分野の基本や、マッピング、ナビゲーション、世界との対話など、セマンティクスを利用した重要なロボティクス研究領域を含む数十の主要なトピックを調査します。 この調査は、データアベイラビリティーの向上、計算ハードウェアの改善、そして主要なアプリケーション領域を含む、重要な実用的考慮事項もカバーしている。

For robots to navigate and interact more richly with the world around them, they will likely require a deeper understanding of the world in which they operate. In robotics and related research fields, the study of understanding is often referred to as semantics, which dictates what does the world "mean" to a robot, and is strongly tied to the question of how to represent that meaning. With humans and robots increasingly operating in the same world, the prospects of human-robot interaction also bring semantics and ontology of natural language into the picture. Driven by need, as well as by enablers like increasing availability of training data and computational resources, semantics is a rapidly growing research area in robotics. The field has received significant attention in the research literature to date, but most reviews and surveys have focused on particular aspects of the topic: the technical research issues regarding its use in specific robotic topics like mapping or segmentation, or its relevance to one particular application domain like autonomous driving. A new treatment is therefore required, and is also timely because so much relevant research has occurred since many of the key surveys were published. This survey therefore provides an overarching snapshot of where semantics in robotics stands today. We establish a taxonomy for semantics research in or relevant to robotics, split into four broad categories of activity, in which semantics are extracted, used, or both. Within these broad categories we survey dozens of major topics including fundamentals from the computer vision field and key robotics research areas utilizing semantics, including mapping, navigation and interaction with the world. The survey also covers key practical considerations, including enablers like increased data availability and improved computational hardware, and major application areas where...
翻訳日:2021-04-13 07:20:36 公開日:2021-01-02
# 病変予測のための教師なし学習と教師なし学習の併用

Combining unsupervised and supervised learning for predicting the final stroke lesion ( http://arxiv.org/abs/2101.00489v1 )

ライセンス: Link先を確認
Adriano Pinto, S\'ergio Pereira, Raphael Meier, Roland Wiest, Victor Alves, Mauricio Reyes, Carlos A.Silva(参考訳) 最終的な虚血性脳卒中病変の予測は、救済可能な低灌流組織量に関する重要な情報を提供する。 治療選択は、脳卒中病変の診断と脳血流動態のニューロイメージングによる特徴付けを必要とする臨床診断の影響を受けている。 しかし, 虚血性脳卒中後に発生する病変の大きさ, 形状, 位置, 脳の血行動態の変動から, 最終脳梗塞の予測は複雑な作業である。 さらに、脳卒中から治療までの経過時間が脳組織の喪失と関連しているため、最終脳卒中病変の評価と予測を短時間で行う必要があるため、作業はさらに複雑になる。 そのため、最終脳卒中病変を予測し、治療決定過程において医師を支援する自動的な方法が必要となる。 90日後の最終脳卒中病変を予測するために,教師なしおよび教師なし学習に基づく完全自動深層学習法を提案する。 本研究の目的は、脳卒中の最終病変の位置と範囲を予測し、その予測に影響を与える脳血流動態を考慮に入れることである。 そこで本研究では,標準パラメトリック磁気共鳴イメージングマップの異なるセットから,特殊なデータ駆動機能を備えた2分岐制限ボルツマンマシンを提案する。 これらのデータ駆動型特徴マップは、パラメトリック磁気共鳴イメージングマップと結合され、畳み込みおよびリカレントニューラルネットワークアーキテクチャに供給される。 公に入手可能なisles 2017テストデータセットについて評価を行い、サイススコア0.38、ハウスドルフ距離29.21mm、平均対称表面距離5.52mmとした。

Predicting the final ischaemic stroke lesion provides crucial information regarding the volume of salvageable hypoperfused tissue, which helps physicians in the difficult decision-making process of treatment planning and intervention. Treatment selection is influenced by clinical diagnosis, which requires delineating the stroke lesion, as well as characterising cerebral blood flow dynamics using neuroimaging acquisitions. Nonetheless, predicting the final stroke lesion is an intricate task, due to the variability in lesion size, shape, location and the underlying cerebral haemodynamic processes that occur after the ischaemic stroke takes place. Moreover, since elapsed time between stroke and treatment is related to the loss of brain tissue, assessing and predicting the final stroke lesion needs to be performed in a short period of time, which makes the task even more complex. Therefore, there is a need for automatic methods that predict the final stroke lesion and support physicians in the treatment decision process. We propose a fully automatic deep learning method based on unsupervised and supervised learning to predict the final stroke lesion after 90 days. Our aim is to predict the final stroke lesion location and extent, taking into account the underlying cerebral blood flow dynamics that can influence the prediction. To achieve this, we propose a two-branch Restricted Boltzmann Machine, which provides specialized data-driven features from different sets of standard parametric Magnetic Resonance Imaging maps. These data-driven feature maps are then combined with the parametric Magnetic Resonance Imaging maps, and fed to a Convolutional and Recurrent Neural Network architecture. We evaluated our proposal on the publicly available ISLES 2017 testing dataset, reaching a Dice score of 0.38, Hausdorff Distance of 29.21 mm, and Average Symmetric Surface Distance of 5.52 mm.
翻訳日:2021-04-13 07:20:06 公開日:2021-01-02
# クラス不均衡談話分類のためのマルチタスク学習

Multitask Learning for Class-Imbalanced Discourse Classification ( http://arxiv.org/abs/2101.00389v1 )

ライセンス: Link先を確認
Alexander Spangher, Jonathan May, Sz-rung Shiang and Lingjia Deng(参考訳) 談話分析のような多くのハイレベルなセマンティックタスクに共通する小さなクラス不均衡データセットは、現在のディープラーニングアーキテクチャに特に挑戦する。 本研究では,最近公表された最大レベルの意味談話データセットの一つであるNews Discourseデータセットに対して,文レベルの分類アプローチに関する広範な分析を行う。 マルチタスクアプローチは,タスク間のラベル補正によって,現在最先端のベンチマークで7%のマイクロF1スコアを向上できることを示す。 また, NLPにおける資源不足問題に対処するための追加手法の比較検討を行い, いずれの手法も分類精度を向上できないことを示した。

Small class-imbalanced datasets, common in many high-level semantic tasks like discourse analysis, present a particular challenge to current deep-learning architectures. In this work, we perform an extensive analysis on sentence-level classification approaches for the News Discourse dataset, one of the largest high-level semantic discourse datasets recently published. We show that a multitask approach can improve 7% Micro F1-score upon current state-of-the-art benchmarks, due in part to label corrections across tasks, which improve performance for underrepresented classes. We also offer a comparative review of additional techniques proposed to address resource-poor problems in NLP, and show that none of these approaches can improve classification accuracy in such a setting.
翻訳日:2021-04-13 07:19:35 公開日:2021-01-02
# どの言語学者が電球を発明したのか? 質問応答の前提検証

Which Linguist Invented the Lightbulb? Presupposition Verification for Question-Answering ( http://arxiv.org/abs/2101.00391v1 )

ライセンス: Link先を確認
Najoung Kim, Ellie Pavlick, Burcu Karagol Ayan, Deepak Ramachandran(参考訳) 多くのQAデータセットには解決不可能な質問が含まれているが、QAシステムでの扱いは原始的である。 自然問題(kwiatkowski et al.)の分析を行った。 2019年)データセットによると、未解決の質問のかなりの部分($21%)は、検証不可能な前提の存在に基づいて説明できる。 このような質問に対する現在のモデルの欠点を考察し,その対処方法について述べる。 ユーザの選好調査を通じて,既存のqaシステムのoracleの動作よりも,前提条件の失敗に基づく応答を提供する提案システムのoracleの動作が望ましいことを実証する。 次に,提案システムの実装方法について検討し,前提生成,前提検証,説明生成という3つのステップに分けた新しい枠組みを提案する。 本稿では,各サブプロブレムへの取り組みの進捗状況を報告するとともに,これらのステップを既存のQAシステムに統合するための予備的アプローチを提案する。 既存のモデルに前提条件と検証可能性を加えると、下流のパフォーマンスとアンサーバーサビリティ検出が緩やかに向上することがわかった。 最大のボトルネックは検証コンポーネントである。このコンポーネントは、理想的な振る舞いにアプローチするために、統合システムのために大幅に改善される必要がある。

Many Question-Answering (QA) datasets contain unanswerable questions, but their treatment in QA systems remains primitive. Our analysis of the Natural Questions (Kwiatkowski et al. 2019) dataset reveals that a substantial portion of unanswerable questions ($\sim$21%) can be explained based on the presence of unverifiable presuppositions. We discuss the shortcomings of current models in handling such questions, and describe how an improved system could handle them. Through a user preference study, we demonstrate that the oracle behavior of our proposed system that provides responses based on presupposition failure is preferred over the oracle behavior of existing QA systems. Then we discuss how our proposed system could be implemented, presenting a novel framework that breaks down the problem into three steps: presupposition generation, presupposition verification and explanation generation. We report our progress in tackling each subproblem, and present a preliminary approach to integrating these steps into an existing QA system. We find that adding presuppositions and their verifiability to an existing model yields modest gains in downstream performance and unanswerability detection. The biggest bottleneck is the verification component, which needs to be substantially improved for the integrated system to approach ideal behavior -- even transfer from the best entailment models currently falls short.
翻訳日:2021-04-13 07:19:23 公開日:2021-01-02
# ニューラル遷移モデルを用いたエンドツーエンドのセマンティックロールラベリング

End-to-end Semantic Role Labeling with Neural Transition-based Model ( http://arxiv.org/abs/2101.00394v1 )

ライセンス: Link先を確認
Hao Fei, Meishan Zhang, Bobo Li, Donghong Ji(参考訳) エンドツーエンドのセマンティックロールラベリング(SRL)が注目されている。 SRLの2つのサブタスク、述語識別と引数ロールのラベル付けを共同で行う。 最近の研究は主にグラフベースのニューラルモデルに焦点を当てているが、多くの密接に関連するタスクで広く使われているトランジションベースのニューラルネットワークフレームワークはまだ研究されていない。 本稿では、エンドツーエンドSRLのための遷移ベースニューラルネットワークの最初の研究について述べる。 我々の遷移モデルは、一連の遷移アクションによって、すべてのセンテンシャル述語とそれらの引数を漸進的に発見する。 2つのサブタスクのアクションは、完全なインタラクションのために相互に実行される。 さらに,非局所的な特徴を抽出するための高次合成を提案する。 CoNLL09とUniversal Proposition Bankの実験結果から、最終モデルは最先端の性能を生み出すことができ、一方、復号化には高い効率が保たれることが示された。 また,提案モデルの深い理解のために,詳細な実験分析を行う。

End-to-end semantic role labeling (SRL) has been received increasing interest. It performs the two subtasks of SRL: predicate identification and argument role labeling, jointly. Recent work is mostly focused on graph-based neural models, while the transition-based framework with neural networks which has been widely used in a number of closely-related tasks, has not been studied for the joint task yet. In this paper, we present the first work of transition-based neural models for end-to-end SRL. Our transition model incrementally discovers all sentential predicates as well as their arguments by a set of transition actions. The actions of the two subtasks are executed mutually for full interactions. Besides, we suggest high-order compositions to extract non-local features, which can enhance the proposed transition model further. Experimental results on CoNLL09 and Universal Proposition Bank show that our final model can produce state-of-the-art performance, and meanwhile keeps highly efficient in decoding. We also conduct detailed experimental analysis for a deep understanding of our proposed model.
翻訳日:2021-04-13 07:19:06 公開日:2021-01-02
# スーパービザレは最高ではない: 派生形態を持つ複雑な単語のBERT解釈を改善する

Superbizarre Is Not Superb: Improving BERT's Interpretations of Complex Words with Derivational Morphology ( http://arxiv.org/abs/2101.00403v1 )

ライセンス: Link先を確認
Valentin Hofmann, Janet B. Pierrehumbert, Hinrich Sch\"utze(参考訳) 事前学習言語モデル(PLM)の入力セグメンテーションは一般化能力にどのように影響しますか? 本稿では, bert をplm の例とし, 導出的に複雑な単語の意味表現に着目した最初の研究を行う。 PLMはシリアルな二重ルートモデルとして解釈可能であること、すなわち、複雑な単語の意味が格納されているか、あるいはそのサブワードから計算される必要があることを示し、これは最大意味のある入力トークンが新しい単語の最高の一般化を可能にすることを意味する。 この仮説は、導出的セグメンテーションがbertのワードピースセグメンテーションを大きく上回る一連の意味的プロビングタスクによって証明される。 入力トークンの形態的インフォームドボキャブラリを用いた場合, PLMの一般化能力はさらに向上する可能性が示唆された。

How does the input segmentation of pretrained language models (PLMs) affect their generalization capabilities? We present the first study investigating this question, taking BERT as the example PLM and focusing on the semantic representations of derivationally complex words. We show that PLMs can be interpreted as serial dual-route models, i.e., the meanings of complex words are either stored or else need to be computed from the subwords, which implies that maximally meaningful input tokens should allow for the best generalization on new words. This hypothesis is confirmed by a series of semantic probing tasks on which derivational segmentation consistently outperforms BERT's WordPiece segmentation by a large margin. Our results suggest that the generalization capabilities of PLMs could be further improved if a morphologically-informed vocabulary of input tokens were used.
翻訳日:2021-04-13 07:18:50 公開日:2021-01-02
# サブストラクチャー代替:NLPのための構造化データ拡張

Substructure Substitution: Structured Data Augmentation for NLP ( http://arxiv.org/abs/2101.00411v1 )

ライセンス: Link先を確認
Haoyue Shi, Karen Livescu, Kevin Gimpel(参考訳) 本研究では,自然言語処理(NLP)タスクのためのデータ拡張手法であるサブ構造置換(SUB2)のファミリーについて検討する。 SUB2は、サブ構造(サブツリーやサブシーケンスなど)を同じラベルのサブ構造に置換することで、新しい例を生成する。 明示的に注釈付けされた部分構造を持たないより一般的なタスク(例えばテキスト分類)については、一般のNLPタスクに構造対応データ拡張手法を導入し、選挙区解析木に基づくSUB2のバリエーションを示す。 ほとんどの場合、SUB2による強化データセットによるトレーニングは、元のトレーニングセットでのトレーニングよりも優れたパフォーマンスを達成する。 さらなる実験により、SUB2はシードデータセットのさまざまなタスクとサイズで、他の調査された拡張メソッドよりも一貫性のある性能を示している。

We study a family of data augmentation methods, substructure substitution (SUB2), for natural language processing (NLP) tasks. SUB2 generates new examples by substituting substructures (e.g., subtrees or subsequences) with ones with the same label, which can be applied to many structured NLP tasks such as part-of-speech tagging and parsing. For more general tasks (e.g., text classification) which do not have explicitly annotated substructures, we present variations of SUB2 based on constituency parse trees, introducing structure-aware data augmentation methods to general NLP tasks. For most cases, training with the augmented dataset by SUB2 achieves better performance than training with the original training set. Further experiments show that SUB2 has more consistent performance than other investigated augmentation methods, across different tasks and sizes of the seed dataset.
翻訳日:2021-04-13 07:18:34 公開日:2021-01-02
# 時間語彙領域適応によるニューラルネットワーク翻訳

Decoding Time Lexical Domain Adaptationfor Neural Machine Translation ( http://arxiv.org/abs/2101.00421v1 )

ライセンス: Link先を確認
Nikolay Bogoychev and Pinzhen Chen(参考訳) 機械翻訳システムは、特に低リソースのタスクの場合、ドメインミスマッチに対して脆弱である。 この設定では、ドメイン内翻訳はしばしば品質が悪く幻覚を起こしやすいが、これは訓練中に見た一般的な単語を予測することを好む翻訳モデルのためであり、異なるドメインのより一般的でない翻訳とは対照的である。 まず,ibmモデル計算アライメントによるニューラルネットワークの予測を制限するために,語彙的短縮リストを用いる。 次に、互いに重なり合う量に基づいて全ての翻訳を並べ替えることで、n$-bestリストの順序付けを行います。 提案手法は,他の手法よりも計算がシンプルで高速であり,ドメインテストセットの明示的な外付けで低リソース設定を適度に成功させることを示す。 しかし、ドメインミスマッチが大きすぎる場合やリソース設定が高すぎる場合、我々のメソッドは効果を失います。

Machine translation systems are vulnerable to domain mismatch, especially when the task is low-resource. In this setting, out of domain translations are often of poor quality and prone to hallucinations, due to the translation model preferring to predict common words it has seen during training, as opposed to the more uncommon ones from a different domain. We present two simple methods for improving translation quality in this particular setting: First, we use lexical shortlisting in order to restrict the neural network predictions by IBM model computed alignments. Second, we perform $n$-best list reordering by reranking all translations based on the amount they overlap with each other. Our methods are computationally simpler and faster than alternative approaches, and show a moderate success on low-resource settings with explicit out of domain test sets. However, our methods lose their effectiveness when the domain mismatch is too great, or in high resource setting.
翻訳日:2021-04-13 07:18:18 公開日:2021-01-02
# 強調する学習:プレゼンテーションスライドにおける強調選択のためのデータセットと共有タスクモデル

Learning to Emphasize: Dataset and Shared Task Models for Selecting Emphasis in Presentation Slides ( http://arxiv.org/abs/2101.03237v1 )

ライセンス: Link先を確認
Amirreza Shirani, Giai Tran, Hieu Trinh, Franck Dernoncourt, Nedim Lipka, Paul Asente, Jose Echevarria, and Thamar Solorio(参考訳) プレゼンテーションスライドは教材に共通する付加物となっている。 プレゼンテーションスライドで強力なリードワードを強調することで、聴衆はスライド全体を読むのではなく、特定の焦点に目を向けることができ、プレゼンテーション中にスピーカーに注意を向けることができます。 自動スライド生成に関する多くの研究にもかかわらず、作成過程における設計支援の自動化に関する研究はほとんどない。 この需要に動機づけられ、プレゼンテーションスライドにおける強調選択(es)の問題、すなわち強調する候補を選ぶ問題を、様々なトピックのプレゼンテーションスライドを含む新しいデータセットを導入し、クラウドソースされた設定で強調語をアノテートする。 共有タスクを編成し、複数の研究者にこの新しい領域に重きを置くように促すことにより、この新しいデータセットに関する最先端のモデルの範囲を評価した。 本研究は,これらのモデルの主な知見を提示し,それらの結果を比較し,データセットの課題を調べることにより,異なる分析成分を提供する。

Presentation slides have become a common addition to the teaching material. Emphasizing strong leading words in presentation slides can allow the audience to direct the eye to certain focal points instead of reading the entire slide, retaining the attention to the speaker during the presentation. Despite a large volume of studies on automatic slide generation, few studies have addressed the automation of design assistance during the creation process. Motivated by this demand, we study the problem of Emphasis Selection (ES) in presentation slides, i.e., choosing candidates for emphasis, by introducing a new dataset containing presentation slides with a wide variety of topics, each is annotated with emphasis words in a crowdsourced setting. We evaluate a range of state-of-the-art models on this novel dataset by organizing a shared task and inviting multiple researchers to model emphasis in this new domain. We present the main findings and compare the results of these models, and by examining the challenges of the dataset, we provide different analysis components.
翻訳日:2021-04-13 07:18:02 公開日:2021-01-02
# 圧縮ビデオにおけるビデオキャプション

Video Captioning in Compressed Video ( http://arxiv.org/abs/2101.00359v1 )

ライセンス: Link先を確認
Mingjian Zhu, Chenrui Duan, Changbin Yu(参考訳) ビデオキャプションにおける既存のアプローチは、未圧縮ビデオにおけるグローバルフレーム機能の検討に集中しているが、圧縮ビデオで既にエンコードされている無償とクリティカルなサリエンシー情報は一般的に無視されている。 本稿では,保存された圧縮映像を直接操作する映像キャプション手法を提案する。 映像キャプションのための識別的視覚表現を学習するために,残像フレームの助けを借りてIフレームへの関心領域を検出する残像支援エンコーダ (RAE) を設計する。 まず,i-frameにおける各位置のサリエンシー値として残差の特徴を抽出し,注意重みを洗練するための空間注意モジュールを設計することにより,空間注意重みを求める。 さらに,圧縮ビデオにおけるノイズ信号の乱れを抑えるために,付随する特徴がキャプション生成にどの程度寄与するかを決定するための時間ゲートモジュールを提案する。 最後に、Long Short-Term Memoryを使用して視覚表現を記述にデコードする。 本手法を2つのベンチマークデータセットで評価し,本手法の有効性を示す。

Existing approaches in video captioning concentrate on exploring global frame features in the uncompressed videos, while the free of charge and critical saliency information already encoded in the compressed videos is generally neglected. We propose a video captioning method which operates directly on the stored compressed videos. To learn a discriminative visual representation for video captioning, we design a residuals-assisted encoder (RAE), which spots regions of interest in I-frames under the assistance of the residuals frames. First, we obtain the spatial attention weights by extracting features of residuals as the saliency value of each location in I-frame and design a spatial attention module to refine the attention weights. We further propose a temporal gate module to determine how much the attended features contribute to the caption generation, which enables the model to resist the disturbance of some noisy signals in the compressed videos. Finally, Long Short-Term Memory is utilized to decode the visual representations into descriptions. We evaluate our method on two benchmark datasets and demonstrate the effectiveness of our approach.
翻訳日:2021-04-13 07:17:46 公開日:2021-01-02
# 不確かさに敏感な活動認識:信頼性ベンチマークとキャリングモデル

Uncertainty-sensitive Activity Recognition: a Reliability Benchmark and the CARING Models ( http://arxiv.org/abs/2101.00468v1 )

ライセンス: Link先を確認
Alina Roitberg, Monica Haurilet, Manuel Martinez and Rainer Stiefelhagen(参考訳) 正しいクラスを割り当てる以外に、アクティビティ認識モデルは、その予測にどの程度の確証があるかを判断できる必要があります。 本稿では、現代の行動認識アーキテクチャの信頼度が正しい結果の確率を実際に反映することを示す最初の研究を行い、それを改善するための学習に基づくアプローチを提案する。 まず,2つの一般的な行動認識データセットを,期待される校正誤差と信頼性図を用いて信頼性ベンチマークで拡張する。 本評価では,標準動作認識アーキテクチャの信頼性値が不確かさをよく表さないことを強調しているので,新たなキャリブレーションネットワークを通じてモデル出力を現実的な信頼度推定に変換する手法を提案する。 CARING(Callibrated Action Recognition with Input Guidance)モデルの主な考え方は、ビデオ表現に依存する最適なスケーリングパラメータを学習することである。 本モデルとネイティブな行動認識ネットワークと温度スケーリング手法を比較し,画像分類に応用した広汎なキャリブレーション手法を提案する。 温度スケーリングだけで信頼性値の信頼性が大幅に向上する一方、我々のCARing法は、全てのベンチマーク設定において、常に最良の不確実性推定結果をもたらす。

Beyond assigning the correct class, an activity recognition model should also be able to determine, how certain it is in its predictions. We present the first study of how welthe confidence values of modern action recognition architectures indeed reflect the probability of the correct outcome and propose a learning-based approach for improving it. First, we extend two popular action recognition datasets with a reliability benchmark in form of the expected calibration error and reliability diagrams. Since our evaluation highlights that confidence values of standard action recognition architectures do not represent the uncertainty well, we introduce a new approach which learns to transform the model output into realistic confidence estimates through an additional calibration network. The main idea of our Calibrated Action Recognition with Input Guidance (CARING) model is to learn an optimal scaling parameter depending on the video representation. We compare our model with the native action recognition networks and the temperature scaling approach - a wide spread calibration method utilized in image classification. While temperature scaling alone drastically improves the reliability of the confidence values, our CARING method consistently leads to the best uncertainty estimates in all benchmark settings.
翻訳日:2021-04-13 07:17:12 公開日:2021-01-02
# エッジ畳み込みニューラルネットワークを用いた点雲の回転不変表現の学習

Learning Rotation-Invariant Representations of Point Clouds Using Aligned Edge Convolutional Neural Networks ( http://arxiv.org/abs/2101.00483v1 )

ライセンス: Link先を確認
Junming Zhang, Ming-Yuan Yu, Ram Vasudevan, Matthew Johnson-Roberson(参考訳) ポイントクラウド分析は、シーンの深さを正確に測定できる3Dセンサーの開発によって、関心が高まる分野である。 残念ながら、これらの手法が目に見えない回転に一般化できないため、点雲解析にディープラーニング技術を適用することは簡単ではない。 この制限に対処するためには通常、トレーニングデータを増強する必要がある。 本稿では,局所参照フレーム(LRF)に対する点雲の特徴表現を学習し,回転の不変性を保証するニューラルネットワークであるAligned Edge Convolutional Neural Network (AECNN)を提案する。 特に、特徴は局所的に学習され、自動的に計算された基準点のLRFに対して整列される。 提案手法は,ポイントクラウド分類と部分分割タスクで評価される。 提案手法は, 付加的なデータ拡張を必要とせず, 回転の堅牢性の観点から, 各種技術(強化データセットで訓練した者でさえ)の諸特性に優れることを示す。

Point cloud analysis is an area of increasing interest due to the development of 3D sensors that are able to rapidly measure the depth of scenes accurately. Unfortunately, applying deep learning techniques to perform point cloud analysis is non-trivial due to the inability of these methods to generalize to unseen rotations. To address this limitation, one usually has to augment the training data, which can lead to extra computation and require larger model complexity. This paper proposes a new neural network called the Aligned Edge Convolutional Neural Network (AECNN) that learns a feature representation of point clouds relative to Local Reference Frames (LRFs) to ensure invariance to rotation. In particular, features are learned locally and aligned with respect to the LRF of an automatically computed reference point. The proposed approach is evaluated on point cloud classification and part segmentation tasks. This paper illustrates that the proposed technique outperforms a variety of state of the art approaches (even those trained on augmented datasets) in terms of robustness to rotation without requiring any additional data augmentation.
翻訳日:2021-04-13 07:16:52 公開日:2021-01-02
# 真実: テキスト生成における陰謀論の調査

The Truth is Out There: Investigating Conspiracy Theories in Text Generation ( http://arxiv.org/abs/2101.00379v1 )

ライセンス: Link先を確認
Sharon Levy, Michael Saxon, William Yang Wang(参考訳) 現代社会におけるテキスト生成モデルの普及に伴い、ユーザーはますます機械生成テキストに曝されている。 これにより、陰謀論のような有害な情報の発生に対してユーザーを脆弱にすることができる。 ソーシャルメディアによる陰謀論の伝播は研究されているが、以前の研究はテキスト生成による拡散を評価していない。 本研究では,共謀理論テキストを生成する言語モデルの妥当性について検討する。 本研究は,これらのモデルを用いて陰謀論を解明し,redditの人文的理論と比較することに焦点を当てた。 また,共謀説,機械生成共謀説,人文共謀説からなる新たなデータセットも紹介する。 我々の実験は、多くの有名な陰謀論のトピックが事前訓練された言語モデルに深く根付いており、異なるモデル設定によってより普及していることを示している。

With the growing adoption of text generation models in today's society, users are increasingly exposed to machine-generated text. This in turn can leave users vulnerable to the generation of harmful information such as conspiracy theories. While the propagation of conspiracy theories through social media has been studied, previous work has not evaluated their diffusion through text generation. In this work, we investigate the propensity for language models to generate conspiracy theory text. Our study focuses on testing these models for the elicitation of conspiracy theories and comparing these generations to human-written theories from Reddit. We also introduce a new dataset consisting of conspiracy theory topics, machine-generated conspiracy theories, and human-written conspiracy theories. Our experiments show that many well-known conspiracy theory topics are deeply rooted in the pre-trained language models, and can become more prevalent through different model settings.
翻訳日:2021-04-13 07:16:34 公開日:2021-01-02
# VoxPopuli: 表現学習,半教師付き学習,解釈のための大規模多言語音声コーパス

VoxPopuli: A Large-Scale Multilingual Speech Corpus for Representation Learning, Semi-Supervised Learning and Interpretation ( http://arxiv.org/abs/2101.00390v1 )

ライセンス: Link先を確認
Changhan Wang, Morgane Rivi\`ere, Ann Lee, Anne Wu, Chaitanya Talnikar, Daniel Haziza, Mary Williamson, Juan Pino, Emmanuel Dupoux(参考訳) 提案するvoxpopuliは,23言語で10万時間分のラベルなし音声データを提供する大規模多言語コーパスである。 教師なし表現学習や半教師なし学習にとって、これまでで最大のオープンデータである。 また、VoxPopuliには16の言語で1.8Kの音声が書き起こされ、その口頭での解釈は5.1K時間である。 半教師付き学習におけるvoxpopuli unlabelledデータの汎用性を,領域外設定で検証する音声認識ベースラインを提供する。 コーパスはhttps://github.com/facebookresearch/voxpopuliで公開します。

We introduce VoxPopuli, a large-scale multilingual corpus providing 100K hours of unlabelled speech data in 23 languages. It is the largest open data to date for unsupervised representation learning as well as semi-supervised learning. VoxPopuli also contains 1.8K hours of transcribed speeches in 16 languages and their aligned oral interpretations into 5 other languages totaling 5.1K hours. We provide speech recognition baselines and validate the versatility of VoxPopuli unlabelled data in semi-supervised learning under challenging out-of-domain settings. We will release the corpus at https://github.com/facebookresearch/voxpopuli under an open license.
翻訳日:2021-04-13 07:16:20 公開日:2021-01-02
# 非定常環境におけるコンテキスト対応型安全強化学習

Context-Aware Safe Reinforcement Learning for Non-Stationary Environments ( http://arxiv.org/abs/2101.00531v1 )

ライセンス: Link先を確認
Baiming Chen, Zuxin Liu, Jiacheng Zhu, Mengdi Xu, Wenhao Ding, Ding Zhao(参考訳) 現実的なタスクのために強化学習エージェントを展開する場合、安全は重要な問題である。 近年,安全性制約違反を回避しつつ,エージェントの性能を最適化する安全強化学習アルゴリズムが開発されている。 しかし、環境の非定常的障害に対処する研究はほとんどなく、破滅的な結果をもたらす可能性がある。 本稿では,非定常環境における安全な適応を実現するためのメタ学習フレームワークCASRL法を提案する。 本研究では、確率的潜在変数モデルを用いて、文脈データから後環境遷移分布を高速に推定する。 安全制約は不確実性を考慮した軌道サンプリングによって評価される。 安全性違反のコストが高いため、データセット内の安全でないレコードは稀である。 モデルトレーニング中に優先度付きサンプリングを有効にし、制約付き計画中にドメイン知識を用いて事前安全制約を定式化することでこの問題に対処する。 このアルゴリズムは、非定常障害を伴う現実的な安全クリティカル環境において評価される。 提案アルゴリズムは,安全性とロバスト性の観点から,既存のベースラインを著しく上回ることを示す。

Safety is a critical concern when deploying reinforcement learning agents for realistic tasks. Recently, safe reinforcement learning algorithms have been developed to optimize the agent's performance while avoiding violations of safety constraints. However, few studies have addressed the non-stationary disturbances in the environments, which may cause catastrophic outcomes. In this paper, we propose the context-aware safe reinforcement learning (CASRL) method, a meta-learning framework to realize safe adaptation in non-stationary environments. We use a probabilistic latent variable model to achieve fast inference of the posterior environment transition distribution given the context data. Safety constraints are then evaluated with uncertainty-aware trajectory sampling. The high cost of safety violations leads to the rareness of unsafe records in the dataset. We address this issue by enabling prioritized sampling during model training and formulating prior safety constraints with domain knowledge during constrained planning. The algorithm is evaluated in realistic safety-critical environments with non-stationary disturbances. Results show that the proposed algorithm significantly outperforms existing baselines in terms of safety and robustness.
翻訳日:2021-04-13 07:16:10 公開日:2021-01-02
# 幸せな人は、それを知る: 幸せと悲しみの論理...

If You're Happy, Then You Know It: The Logic of Happiness... and Sadness ( http://arxiv.org/abs/2101.00485v1 )

ライセンス: Link先を確認
Sanaz Azimipour and Pavel Naumov(参考訳) 本稿では不完全な情報設定における幸福と悲しみの形式的意味論を提案する。 これらのモジュラリティは互いに定義できないことを示し、音を与え、それらの性質の完全な公理化を与える。

The article proposes a formal semantics of happiness and sadness modalities in imperfect information setting. It shows that these modalities are not definable through each other and gives a sound and complete axiomatization of their properties.
翻訳日:2021-04-13 07:15:55 公開日:2021-01-02
# 逆機械学習によるマルウェア防御のためのDGAに基づく悪意ドメイン分類器の改良

Improving DGA-Based Malicious Domain Classifiers for Malware Defense with Adversarial Machine Learning ( http://arxiv.org/abs/2101.00521v1 )

ライセンス: Link先を確認
Ibrahim Yilmaz, Ambareen Siraj, Denis Ulybyshev(参考訳) ドメイン生成アルゴリズム(DGA)は、サイバー攻撃中にコマンド・アンド・コントロール(C\&C)サーバー通信を確立するために敵によって使用される。 既知の/同定されたC\&Cドメインのブラックリストは、しばしば防御メカニズムの1つとして使用される。 しかし、ブラックリストは静的であり、シグネチャベースのアプローチによって生成されるため、悪質なドメイン名を維持することも検出することもできない。 このブラックリストドメインチェックの欠点のため、機械学習アルゴリズムはこの問題にある程度対処するために使われてきた。 しかし、限られたデータセットでトレーニングを行う場合、アルゴリズムは新しいDGA変種を検出するのに失敗する可能性が高い。 この弱点を緩和するため,我々は長短期メモリ(LSTM)法を用いてDGAベースの悪意のあるドメイン分類器を新しい特徴工学手法で適用した。 本モデルの性能は,先行研究で報告したモデルと比較して高い精度を示す。 さらに,この点において機械学習アルゴリズムの欠点を説明できるマルウェア関連ドメインファミリーを生成するために,敵対的機械学習を用いた新しい手法を提案する。 次に、トレーニングデータセットを新しいサンプルで強化し、機械学習モデルのトレーニングをより効果的にすることで、予期せぬ悪意のあるドメイン名変種を検出する。 最後に、悪意のあるドメイン名のブラックリストを開示や改ざんから保護するために、ブラックリストを格納し、敵のアクセスや修正に対する保護を保証するセキュアなデータコンテナを考案する。

Domain Generation Algorithms (DGAs) are used by adversaries to establish Command and Control (C\&C) server communications during cyber attacks. Blacklists of known/identified C\&C domains are often used as one of the defense mechanisms. However, since blacklists are static and generated by signature-based approaches, they can neither keep up nor detect never-seen-before malicious domain names. Due to this shortcoming of blacklist domain checking, machine learning algorithms have been used to address the problem to some extent. However, when training is performed with limited datasets, the algorithms are likely to fail in detecting new DGA variants. To mitigate this weakness, we successfully applied a DGA-based malicious domain classifier using the Long Short-Term Memory (LSTM) method with a novel feature engineering technique. Our model's performance shows a higher level of accuracy compared to a previously reported model from prior research. Additionally, we propose a new method using adversarial machine learning to generate never-before-seen malware-related domain families that can be used to illustrate the shortcomings of machine learning algorithms in this regard. Next, we augment the training dataset with new samples such that it makes training of the machine learning models more effective in detecting never-before-seen malicious domain name variants. Finally, to protect blacklists of malicious domain names from disclosure and tampering, we devise secure data containers that store blacklists and guarantee their protection against adversarial access and modifications.
翻訳日:2021-04-13 07:15:52 公開日:2021-01-02
# 現代テキスト処理ツールにおける絵文字の利用評価

Assessing Emoji Use in Modern Text Processing Tools ( http://arxiv.org/abs/2101.00430v1 )

ライセンス: Link先を確認
Abu Awal Md Shoeb and Gerard de Melo(参考訳) 絵文字は、その視覚的な魅力と、人間の感情を鮮明に伝える能力によって、デジタルコミュニケーションにおいてユビキタスになってきている。 ソーシャルメディアや他のインスタントメッセージングにおける絵文字の普及は、絵文字を含むテキストを操作するシステムやツールの必要性も高まっている。 本研究では,絵文字を用いたツイートのテストセットを検討することで,このサポートを評価する。そこでは,著名なnlpおよびテキスト処理ツールが適切に処理できるかどうかについて,一連の実験を行う。 特に、トークン化、音声タグ付け、感情分析について検討する。 以上の結果から,絵文字を含むテキストで操作する場合,多くのツールに目立った欠点があることがわかった。

Emojis have become ubiquitous in digital communication, due to their visual appeal as well as their ability to vividly convey human emotion, among other factors. The growing prominence of emojis in social media and other instant messaging also leads to an increased need for systems and tools to operate on text containing emojis. In this study, we assess this support by considering test sets of tweets with emojis, based on which we perform a series of experiments investigating the ability of prominent NLP and text processing tools to adequately process them. In particular, we consider tokenization, part-of-speech tagging, as well as sentiment analysis. Our findings show that many tools still have notable shortcomings when operating on text containing emojis.
翻訳日:2021-04-13 07:15:28 公開日:2021-01-02
# 視覚的高次元仮説テスト

Visual High Dimensional Hypothesis Testing ( http://arxiv.org/abs/2101.00362v1 )

ライセンス: Link先を確認
Xi Yang, Jan Hannig, J.S. Marron(参考訳) 高次元データの既知のクラスに関する探索データ分析では、どのクラスがどの程度異なるのかが中心的な疑問である。 Direction Projection Permutation (DiProPerm)仮説テスト(英語版)は、データの視覚的分析と直接接続されたそれに対する回答を提供する。 本稿では,オリジナル版の3つの課題を解決する改良されたDiProPermテストを提案する。 まず、強い信号を持つデータのテスト能力を高めるために、バランスの取れた置換のみを実装する。 第2に、我々の数学的解析は、バランスと従来の全置換の両方のヌル挙動を補正する調整につながる。 第三に、異なる文脈における結果の比較のために、テスト重要度に対する新しい信頼区間(置換変動の反射)も提案されている。 このDiProPerm推論の改善は、The Cancer Genome Atlasの例でがんのタイプを比較する文脈で説明されている。

In exploratory data analysis of known classes of high dimensional data, a central question is how distinct are the classes? The Direction Projection Permutation (DiProPerm) hypothesis test provides an answer to this that is directly connected to a visual analysis of the data. In this paper, we propose an improved DiProPerm test that solves 3 major challenges of the original version. First, we implement only balanced permutations to increase the test power for data with strong signals. Second, our mathematical analysis leads to an adjustment to correct the null behavior of both balanced and the conventional all permutations. Third, new confidence intervals (reflecting permutation variation) for test significance are also proposed for comparison of results across different contexts. This improvement of DiProPerm inference is illustrated in the context of comparing cancer types in examples from The Cancer Genome Atlas.
翻訳日:2021-04-13 07:15:18 公開日:2021-01-02
# 箱をより大きな箱に詰め込む空間的な定式化

A space-indexed formulation of packing boxes into a larger box ( http://arxiv.org/abs/2101.00441v1 )

ライセンス: Link先を確認
Sam D. Allen and Edmund K.Burke and Jakub Marecek(参考訳) 現在の整数プログラミングソルバは、chen/padbergの自然な緩和を用いて、1時間以内に12個の単位キューブを1x1x11ボックスに詰め込むことはできない。 箱を大きな箱に詰め込むという問題を、別の緩和策として提示することで、はるかに大きなインスタンスを解決できるようにします。

Current integer programming solvers fail to decide whether 12 unit cubes can be packed into a 1x1x11 box within an hour using the natural relaxation of Chen/Padberg. We present an alternative relaxation of the problem of packing boxes into a larger box, which makes it possible to solve much larger instances.
翻訳日:2021-04-13 07:15:04 公開日:2021-01-02
# CryoNuSeg:Cryosectioned H&E-Stained Histological ImageのNuclei Instance Segmentationのためのデータセット

CryoNuSeg: A Dataset for Nuclei Instance Segmentation of Cryosectioned H&E-Stained Histological Images ( http://arxiv.org/abs/2101.00442v1 )

ライセンス: Link先を確認
Amirreza Mahbod, Gerald Schaefer, Benjamin Bancher, Christine L\"ow, Georg Dorffner, Rupert Ecker, Isabella Ellinger(参考訳) 核インスタンスセグメンテーションは、ヘマトキシリンとエオシン(H&E)染色画像の解析において重要な役割を果たす。 教師付きディープラーニング(DL)ベースのアプローチは、自動核インスタンスセグメンテーションの最先端を表現しているが、これらのモデルのトレーニングには注釈付きデータセットが必要である。 組織処理プロトコルには、ホルマリン固定パラフィン埋め込みサンプル(FFPE)と凍結組織サンプル(FS)の2種類がある。 FFPE由来のH&E染色組織は最も広く用いられている標本であるが,FS試料由来の凍結した部位のH&E染色は術中手術において,高速に行うことができるため重要な方法である。 これらの2種類のサンプルのプロトコルが異なるため、得られた画像と、特に核の外観は、取得した全スライド画像で異なる可能性がある。 FS領域の高速な調製, 染色, 走査により, 画質が劣化する可能性があるため, H&E染色画像の解析は困難である。 本稿では,fs-from cryosectioned および h&e-stained nuclei instance segmentation データセットである cryonuseg について述べる。 データセットには、他の公開データセットでは利用されていない10の人間の臓器の画像が含まれており、オブザーバ内およびオブザーバ間変動を測定するための3つの手動マークアップが提供されている。 さらに, 組織固定・埋め込みプロトコル(FSまたはFFPE)が, 最先端のDLアプローチの1つの自動核インスタンス分割性能に及ぼす影響について検討した。 また、将来の研究で使用できるデータセットのベースラインセグメンテーションベンチマークを作成します。 データセットやデータセット、その他の詳細な情報はhttps://github.com/masih4/cryonuseg.comの同僚研究者に提供されている。

Nuclei instance segmentation plays an important role in the analysis of Hematoxylin and Eosin (H&E)-stained images. While supervised deep learning (DL)-based approaches represent the state-of-the-art in automatic nuclei instance segmentation, annotated datasets are required to train these models. There are two main types of tissue processing protocols, namely formalin-fixed paraffin-embedded samples (FFPE) and frozen tissue samples (FS). Although FFPE-derived H&E stained tissue sections are the most widely used samples, H&E staining on frozen sections derived from FS samples is a relevant method in intra-operative surgical sessions as it can be performed fast. Due to differences in the protocols of these two types of samples, the derived images and in particular the nuclei appearance may be different in the acquired whole slide images. Analysis of FS-derived H&E stained images can be more challenging as rapid preparation, staining, and scanning of FS sections may lead to deterioration in image quality. In this paper, we introduce CryoNuSeg, the first fully annotated FS-derived cryosectioned and H&E-stained nuclei instance segmentation dataset. The dataset contains images from 10 human organs that were not exploited in other publicly available datasets, and is provided with three manual mark-ups to allow measuring intra-observer and inter-observer variability. Moreover, we investigate the effects of tissue fixation/embedding protocol (i.e., FS or FFPE) on the automatic nuclei instance segmentation performance of one of the state-of-the-art DL approaches. We also create a baseline segmentation benchmark for the dataset that can be used in future research. A step-by-step guide to generate the dataset as well as the full dataset and other detailed information are made available to fellow researchers at https://github.com/masih4/CryoNuSeg.
翻訳日:2021-04-13 07:14:20 公開日:2021-01-02
# 脳腫瘍セグメンテーションのための多段階深層凝集法

Multi-stage Deep Layer Aggregation for Brain Tumor Segmentation ( http://arxiv.org/abs/2101.00490v1 )

ライセンス: Link先を確認
Carlos A. Silva, Adriano Pinto, S\'ergio Pereira, and Ana Lopes(参考訳) グリオーマは最も攻撃的で致命的な脳腫瘍である。 本稿では,磁気共鳴画像を用いた脳腫瘍分割のための深層ニューラルネットワークアーキテクチャについて述べる。 アーキテクチャは、3つのディープ層アグリゲーションニューラルネットワークのカスケードで構成されており、各ステージは特徴マップと前のステージの確率を使って応答を詳細に記述し、mriチャネルを入力として使用する。 神経画像データは、BraTS 2020チャレンジデータセットの一部として公開されており、BraTS 2020 Validation and Test Setで提案した提案を評価した。 実験では, 腫瘍, コア腫瘍, 造影腫瘍全例に対して, 0.8858, 0.8297, 0.7900, ハウスドルフ距離 5.32 mm, 22.32 mm, 20.44 mmのdiceスコアを得た。

Gliomas are among the most aggressive and deadly brain tumors. This paper details the proposed Deep Neural Network architecture for brain tumor segmentation from Magnetic Resonance Images. The architecture consists of a cascade of three Deep Layer Aggregation neural networks, where each stage elaborates the response using the feature maps and the probabilities of the previous stage, and the MRI channels as inputs. The neuroimaging data are part of the publicly available Brain Tumor Segmentation (BraTS) 2020 challenge dataset, where we evaluated our proposal in the BraTS 2020 Validation and Test sets. In the Test set, the experimental results achieved a Dice score of 0.8858, 0.8297 and 0.7900, with an Hausdorff Distance of 5.32 mm, 22.32 mm and 20.44 mm for the whole tumor, core tumor and enhanced tumor, respectively.
翻訳日:2021-04-13 07:13:48 公開日:2021-01-02
# 四元数高次特異値分解とそのカラー画像処理への応用

Quaternion higher-order singular value decomposition and its applications in color image processing ( http://arxiv.org/abs/2101.00364v1 )

ライセンス: Link先を確認
Jifei Miao and Kit Ian Kou(参考訳) 高次特異値分解(HOSVD)は、最も効率的なテンソル分解手法の一つである。 高い次元のデータを表現し、特徴を抽出することができる。 近年では、四元数はカラーチャネルのクロスチャネル相関を保存できるため、カラーピクセル表現に非常に適したツールであることが証明されている。 本稿では,HOSVDと四元数ツールの利点を活かして,HOSVDを四元数ドメインに一般化し,四元数ベースのHOSVD(QHOSVD)を定義する。 四元数乗算の非可換性のため、QHOSVD は HOSVD の自明な拡張ではない。 計算手順は似ているが異なる。 定義されたQHOSVDは、カラーピクセルを用いた様々な視覚データ処理で広く利用することができる。 本稿では,カラー画像処理における定義されたqhosvdの2つの応用について述べる。 この2つの応用実験の結果は,提案手法の既存手法に対する競合性能をそれぞれ示すものである。

Higher-order singular value decomposition (HOSVD) is one of the most efficient tensor decomposition techniques. It has the salient ability to represent high_dimensional data and extract features. In more recent years, the quaternion has proven to be a very suitable tool for color pixel representation as it can well preserve cross-channel correlation of color channels. Motivated by the advantages of the HOSVD and the quaternion tool, in this paper, we generalize the HOSVD to the quaternion domain and define quaternion-based HOSVD (QHOSVD). Due to the non-commutability of quaternion multiplication, QHOSVD is not a trivial extension of the HOSVD. They have similar but different calculation procedures. The defined QHOSVD can be widely used in various visual data processing with color pixels. In this paper, we present two applications of the defined QHOSVD in color image processing: multi_focus color image fusion and color image denoising. The experimental results on the two applications respectively demonstrate the competitive performance of the proposed methods over some existing ones.
翻訳日:2021-04-13 07:13:32 公開日:2021-01-02
# ニュータイプホッフディングの不等式とテール境界への応用

New-Type Hoeffding's Inequalities and Application in Tail Bounds ( http://arxiv.org/abs/2101.00360v1 )

ライセンス: Link先を確認
Pingyi Fan(参考訳) ホッフディングの不等式が信号処理や情報処理の分野で多くの応用があることはよく知られている。 どのようにhoeffdingの不平等を改善し、そのアプリケーションの改良を見出すかは、常に多くの注目を集めている。 ホッフィング不等式の改善は、最近 hertz \cite{r1} によって与えられた。 このような改善はそれほど大きくないが、オリジナルのホーフディングの不平等、特にマーチンガルのホーフディング-東の不平等で多くの既知の結果の更新に使用できる。 しかし、ホッフィングの不等式とヘルツによる改良の結果は、確率変数の第一次モーメントのみを考慮したものであった。 本稿では,確率変数の高次モーメントを考慮したHoeffdingの不等式について述べる。 既知の結果と比較して、テールバウンドの評価が大幅に改善される可能性がある。 新たに開発されたHoeffdingの不等式は、Hoeffdingの結果を使用するいくつかの関連分野においてより興味深い応用が期待できる。

It is well known that Hoeffding's inequality has a lot of applications in the signal and information processing fields. How to improve Hoeffding's inequality and find the refinements of its applications have always attracted much attentions. An improvement of Hoeffding inequality was recently given by Hertz \cite{r1}. Eventhough such an improvement is not so big, it still can be used to update many known results with original Hoeffding's inequality, especially for Hoeffding-Azuma inequality for martingales. However, the results in original Hoeffding's inequality and its refinement one by Hertz only considered the first order moment of random variables. In this paper, we present a new type of Hoeffding's inequalities, where the high order moments of random variables are taken into account. It can get some considerable improvements in the tail bounds evaluation compared with the known results. It is expected that the developed new type Hoeffding's inequalities could get more interesting applications in some related fields that use Hoeffding's results.
翻訳日:2021-04-13 07:13:18 公開日:2021-01-02
# DEVI:インタラクティブレセプタリストシステムのためのオープンソースのヒューマンロボットインタフェース

DEVI: Open-source Human-Robot Interface for Interactive Receptionist Systems ( http://arxiv.org/abs/2101.00479v1 )

ライセンス: Link先を確認
Ramesha Karunasena, Piumi Sandarenu, Madushi Pinto, Achala Athukorala, Ranga Rodrigo, Peshala Jayasekara(参考訳) 社会的スキルを備えたヒューマンロボットインタフェースとして機能するヒューマノイドロボットは、日々の活動の多くを支援できる。 受容主義ロボットは、社会的スキルと外観が最重要となるアプリケーションである。 既存のロボット受信システムは高いコストを被り、ロボット研究者のさらなる開発のために内部アーキテクチャを開示していない。 さらに、特定のアプリケーション向けにデプロイされるカスタマイズ可能なオープンソースのロボット受信フレームワークは存在しない。 そこで,本稿では,オープンソースのロボット受話器知能コアであるdevi(means 'lady' in sinhala)について紹介する。 また,本論文では,DEVIシステムを用いた物理ロボットのプロトタイプ実装について詳述する。 ロボットは、物理的ジェスチャーによる方向案内を行い、音声認識と合成システムを使って基本的な質問に答え、顔認識を使って既知の人々を認識して挨拶し、自己学習ニューラルネットワークを使用してデータベースに新しい人を登録することができる。 DEVIを用いて行った実験は,提案方式の有効性を示した。

Humanoid robots that act as human-robot interfaces equipped with social skills can assist people in many of their daily activities. Receptionist robots are one such application where social skills and appearance are of utmost importance. Many existing robot receptionist systems suffer from high cost and they do not disclose internal architectures for further development for robot researchers. Moreover, there does not exist customizable open-source robot receptionist frameworks to be deployed for any given application. In this paper we present an open-source robot receptionist intelligence core -- "DEVI"(means 'lady' in Sinhala), that provides researchers with ease of creating customized robot receptionists according to the requirements (cost, external appearance, and required processing power). Moreover, this paper also presents details on a prototype implementation of a physical robot using the DEVI system. The robot can give directional guidance with physical gestures, answer basic queries using a speech recognition and synthesis system, recognize and greet known people using face recognition and register new people in its database, using a self-learning neural network. Experiments conducted with DEVI show the effectiveness of the proposed system.
翻訳日:2021-04-13 07:12:46 公開日:2021-01-02