このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200429となっている論文です。

PDF登録状況(公開日: 20200429)

TitleAuthorsAbstract論文公表日・翻訳日
# クエンチされた1次元オープン量子多体系における相互情報の成長

Growth of mutual information in a quenched one-dimensional open quantum many body system ( http://arxiv.org/abs/2001.09802v3 )

ライセンス: Link先を確認
Somnath Maity, Souvik Bandyopadhyay, Sourav Bhattacharjee and Amit Dutta(参考訳) 1次元キタエフ鎖における相互情報(mi)の時間的進化とフェルミオン性マルコフ浴との結合、そして化学ポテンシャルのグローバルクエンチの研究を行った。 ユニタリの場合、MI(または同値な二部エンタングルメントエントロピー)は、弾道的な成長の後、定常値(体積法則に従う)に飽和する。 反対に, 散逸性の場合, miは初期弾道成長と定常状態へのアプローチの両方において指数関数的に減衰する。 散逸系においても,ポストクエンチ情報は有限寿命を持つ準粒子の絡み合った対を通じてのみ伝播し,この準粒子像は2点フェルミオン相関の平衡外解析によりさらに相関している。 驚くべきことに、準粒子の有限寿命にもかかわらず、miの有限定常状態値は非有界な2点相関の人工物である漸近的に存続する。 さらに、準粒子の有限寿命は、これらの定常状態相関において有限長スケールに収まる。

We study the temporal evolution of the mutual information (MI) in a one-dimensional Kitaev chain, coupled to a fermionic Markovian bath, subsequent to a global quench of the chemical potential. In the unitary case, the MI (or equivalently the bipartite entanglement entropy) saturates to a steady-state value (obeying a volume law) following a ballistic growth. On the contrary, we establish that in the dissipative case the MI is exponentially damped both during the initial ballistic growth as well as in the approach to the steady state. We observe that even in a dissipative system, postquench information propagates solely through entangled pairs of quasiparticles having a finite lifetime; this quasiparticle picture is further corroborated by the out-of-equilibrium analysis of two-point fermionic correlations. Remarkably, in spite of the finite lifetime of the quasiparticles, a finite steady-state value of the MI survives in asymptotic times which is an artifact of nonvanishing two-point correlations. Further, the finite lifetime of quasiparticles renders to a finite length scale in these steady-state correlations.
翻訳日:2023-06-05 11:53:03 公開日:2020-04-29
# 一般化エルマコフ方程式の厳密解による相互作用するボース・アインシュタイン凝縮体の断熱性への近道

Shortcuts to adiabaticity for an interacting Bose-Einstein condensate via exact solutions of the generalized Ermakov equation ( http://arxiv.org/abs/2002.03632v2 )

ライセンス: Link先を確認
Tang-You Huang, Boris A. Malomed, and Xi Chen(参考訳) 高調波オシレータ(HO)トラップに装荷された1次元ボース・アインシュタイン凝縮体(BEC)の断熱膨張に対するショートカットについて, 変動近似と逆工学の技法を組み合わせて検討した。 最適制御理論における既知のバンバン形式に類似した(不連続な)中間トラップ周波数は、一般化されたエルマコフ方程式の正確な解から導かれる。 論文で検討されている制御スキームには、短時間スケールでの仮想トラップ周波数、すなわち二次反発型に置き換えられたhoポテンシャルが含まれる。 BECの本質的な非線形性を考慮すると、最小転送時間、励起エネルギー(有効断熱性からの偏差を測定する)、短絡断熱性プロトコルの安定性が報告される。 これらの結果は、高速な摩擦のない冷却の実現だけでなく、量子速度限界と熱力学の基本的な問題にも対処するのに役立つ。

Shortcuts to adiabatic expansion of the effectively one-dimensional Bose-Einstein condensate (BEC) loaded in the harmonic-oscillator (HO) trap is investigated by combining techniques of the variational approximation and inverse engineering. Piecewise-constant (discontinuous) intermediate trap frequencies, similar to the known bang-bang forms in the optimal-control theory, are derived from an exact solution of a generalized Ermakov equation. Control schemes considered in the paper include imaginary trap frequencies at short time scales, i.e., the HO potential replaced by the quadratic repulsive one. Taking into regard the BEC's intrinsic nonlinearity, results are reported for the minimal transfer time, excitation energy (which measures deviation from the effective adiabaticity), and stability for the shortcut-to-adiabaticity protocols. These results are not only useful for the realization of fast frictionless cooling, but also help to address fundamental problems of the quantum speed limit and thermodynamics.
翻訳日:2023-06-04 02:03:08 公開日:2020-04-29
# 零ギャップ MIP* の複雑性について

On the complexity of zero gap MIP* ( http://arxiv.org/abs/2002.10490v2 )

ライセンス: Link先を確認
Hamoon Mousavi, Seyed Sajjad Nezhadi, and Henry Yuen(参考訳) クラス $\mathsf{mip}^*$ は、量子絡み合ったプロバーを持つ多元証明によって決定可能な言語の集合である。 Ji, Natarajan, Vidick, Wright and Yuen が最近示したところによると、$\mathsf{MIP}^*$ は再帰可算言語の集合である $\mathsf{RE}$ に等しい。 特にこのことは、非局所ゲーム$G$の量子値の近似の複雑さがハルティング問題の複雑性と同値であることを示している。 本稿では,非ローカルゲームである$g$の量子値が正確に1ドルであるかどうかを判断する複雑さについて検討する。 この問題は、 0 のギャップ $\mathsf{MIP}^*$ を $\mathsf{MIP}^*_0$ と表現する複雑性クラスに対応しており、YES と NO のケースでは、検証者の受容確率の間に約束のギャップはない。 我々は、$\mathsf{MIP}^*_0$ が算術階層の最初のレベルを越えて拡張されることを証明し($\mathsf{RE}$ とその補集合 $\mathsf{coRE}$ を含む)、実際に $\Pi_2^0$ と同値であり、$\forall y \, \exists z \, R(x,y,z)$ という形の量式で決定できる言語クラスである。 これまで知られていた結果と、$\mathsf{MIP}^{co}_0$($\mathsf{MIP}^*_0$の可換作用素変種)が$\mathsf{coRE}$に等しいことと合わせて、この結果は、量子マルチプロペラインタラクティブ証明の様々なモデルと計算可能性理論の異なるクラスの間の魅力的な関係をさらに強調する。

The class $\mathsf{MIP}^*$ is the set of languages decidable by multiprover interactive proofs with quantum entangled provers. It was recently shown by Ji, Natarajan, Vidick, Wright and Yuen that $\mathsf{MIP}^*$ is equal to $\mathsf{RE}$, the set of recursively enumerable languages. In particular this shows that the complexity of approximating the quantum value of a non-local game $G$ is equivalent to the complexity of the Halting problem. In this paper we investigate the complexity of deciding whether the quantum value of a non-local game $G$ is exactly $1$. This problem corresponds to a complexity class that we call zero gap $\mathsf{MIP}^*$, denoted by $\mathsf{MIP}^*_0$, where there is no promise gap between the verifier's acceptance probabilities in the YES and NO cases. We prove that $\mathsf{MIP}^*_0$ extends beyond the first level of the arithmetical hierarchy (which includes $\mathsf{RE}$ and its complement $\mathsf{coRE}$), and in fact is equal to $\Pi_2^0$, the class of languages that can be decided by quantified formulas of the form $\forall y \, \exists z \, R(x,y,z)$. Combined with the previously known result that $\mathsf{MIP}^{co}_0$ (the commuting operator variant of $\mathsf{MIP}^*_0$) is equal to $\mathsf{coRE}$, our result further highlights the fascinating connection between various models of quantum multiprover interactive proofs and different classes in computability theory.
翻訳日:2023-06-02 05:07:50 公開日:2020-04-29
# 放射状基底関数再構成法による単スピン走査磁気顕微鏡

Single-spin scanning magnetic microscopy with radial basis function reconstruction algorithm ( http://arxiv.org/abs/2002.12023v2 )

ライセンス: Link先を確認
Cheng-Jie Wang, Rui Li, Bei Ding, Pengfei Wang, Wenhong Wang, Mengqi Wang, Maosen Guo, Chang-Kui Duan, Fazhan Shi and Jiangfeng Du(参考訳) 磁気スキャニング磁気測定において、磁気スキャミオンや磁壁などの異種磁気構造がより重要になっている。 しかし、そのような構造によって生じる数ミリ石のゆらぎを伴う成層圏のマッピングへの体系的イメージング手法はまだ利用できない。 ここでは、磁場の複数の輪郭線を記録できる磁気共鳴周波数を追跡することにより、ミリスラ磁場を撮像する手法を提案する。 半径基底関数アルゴリズムを用いて、輪郭線から磁場を再構成する。 ショットノイズによるシミュレーションは、再構成アルゴリズムの高品質さを定量的に確認する。 この方法はフラストレーションマグネットの成界をイメージングすることで検証された。 提案手法は,1ピクセルあたり0.86mTの磁場勾配を最大で検出し,ミライトスラ磁場の効率的なイメージングを可能にする。

Exotic magnetic structures, such as magnetic skyrmions and domain walls, are becoming more important in nitrogen-vacancy center scanning magnetometry. However, a systematic imaging approach to mapping stray fields with fluctuation of several milliteslas generated by such structures is not yet available. Here we present a scheme to image a millitesla magnetic field by tracking the magnetic resonance frequency, which can record multiple contour lines for a magnetic field. The radial basis function algorithm is employed to reconstruct the magnetic field from the contour lines. Simulations with shot noise quantitatively confirm the high quality of the reconstruction algorithm. The method was validated by imaging the stray field of a frustrated magnet. Our scheme had a maximum detectable magnetic field gradient of 0.86 mT per pixel, which enables the efficient imaging of millitesla magnetic fields.
翻訳日:2023-06-01 12:48:57 公開日:2020-04-29
# 時間分解光検出とボーソンサンプリングの識別性理論

Distinguishability theory for time-resolved photodetection and boson sampling ( http://arxiv.org/abs/2003.01273v3 )

ライセンス: Link先を確認
V. S. Shchesnovich and M. E. O. Bezerra(参考訳) 高精度な時間分解能を持つ高速検出器を用いたマルチポートでのマルチ光子干渉における光子の識別性について検討した。 このようなセットアップは、単一光子を用いたボソンサンプリングの実験的な実現に先立って提案された。 高速光検出が混合状態における現実的な単一光子の識別性を回避できるかどうかを検討する。 この目的のために、2つの設定で光子の識別性を比較する。 (a)空間干渉計上の同じ平均(時間的)プロファイルの光子と、時間分解能が(または強く不正確で)不可能である光検出 (b)同じ空間干渉計上の平均時間プロファイルと正確な時間分解能を持つ光検出が一般的に異なる光子を持つ。 ガウス型単一光子の光子到達時間のガウス分布について, 具体的な解析結果を得た。 2つの装置における光子の識別性は著しく類似している。 光子状態の同じ純度の場合、同じ品質の実験ボソンサンプリングのみが2つの設定のいずれかを使用して達成できる。 その結果, 混合状態による識別性は光検出方式によらず, 光子の固有特性であることがわかった。

We study distinguishability of photons in multiphoton interference on a multiport when fast detectors, capable of precise time resolution, are employed. Such a setup was previously suggested for experimental realization of boson sampling with single photons. We investigate if fast photodetection allows to circumvent distinguishability of realistic single photons in mixed states. To this goal we compare distinguishability of photons in two setups: (a) with photons in the same average (temporal) profile on a spatial interferometer and photodetection incapable of (or with strongly imprecise) time resolution and (b) with photons in generally different average temporal profiles on the same spatial interferometer and photodetection with precise time resolution. Exact analytical results are obtained for Gaussian-shaped single photons with Gaussian distribution of photon arrival time. Distinguishability of photons in the two setups is found to be strikingly similar. For the same purity of photon states, only the same quality experimental boson sampling can be achieved using either of the two setups. The upshot of our results is that distinguishability due to mixed states is an intrinsic property of photons, whatever the photodetection scheme.
翻訳日:2023-05-31 07:47:22 公開日:2020-04-29
# 科学的な発見を可能にする新しいカラーセンタープラットフォーム

Novel color center platforms enabling fundamental scientific discovery ( http://arxiv.org/abs/2003.11135v2 )

ライセンス: Link先を確認
Victoria Norman, Sridhar Majety, Zhipan Wang, William H. Casey, Nicholas Curro, Marina Radulaski(参考訳) カラーセンターは、量子光を生成し、磁場を感知し、スピン光子絡み合いを生成する多用途システムである。 これらの性質が、局所現実理論の拒絶から超伝導相転移の検知に至るまで、様々な科学分野における基本的な知識の限界をいかに押し上げたかをレビューする。 材料加工とデバイス製造の最近の進歩を踏まえ,物理・地球化学における学際的基礎発見の新たな機会を見出した。

Color centers are versatile systems that generate quantum light, sense magnetic fields and produce spin-photon entanglement. We review how these properties have pushed the limits of fundamental knowledge in a variety of scientific disciplines, from rejecting local-realistic theories to sensing superconducting phase transitions. In the light of recent progress in material processing and device fabrication, we identify new opportunities for interdisciplinary fundamental discoveries in physics and geochemistry.
翻訳日:2023-05-28 00:46:31 公開日:2020-04-29
# 南アフリカでのCOVID-19アウトブレイクをインフォームするデータの利用:ケーススタディ

Use of Available Data To Inform The COVID-19 Outbreak in South Africa: A Case Study ( http://arxiv.org/abs/2004.04813v2 )

ライセンス: Link先を確認
Vukosi Marivate, Herkulaas MvE Combrink(参考訳) 新型コロナウイルス(covid-19)は2020年2月に世界保健機関(who)によってパンデミックとして宣言された。 現在、臨床試験後に承認されたワクチンや治療は存在していない。 旅行禁止や学校閉鎖、国や地域に適用される検疫などの社会的距離の確保は、感染拡大や医療インフラの需要の抑制に利用されている。 グループや個人の隔離は、正確な情報へのアクセスを制限している。 特に南アフリカでは、公衆をアップデートするために、厚生労働省が発表している。 これらの発表は、新型コロナウイルス(covid-19)の感染者が確認されたことを示し、この病気に陽性反応を示した人の年齢、性別、旅行歴を含む。 さらに、南アフリカ国立伝染病研究所は、実施された検査回数、確認された症例、死亡率、影響を受けた地域を要約した日刊インフォグラフィックを更新している。 しかし、患者の年齢やその他の送信に関するニュアンスデータは、更新されたインフォグラフィックではなく、毎日の発表でのみ共有される。 この情報を広めるため、南アフリカのプレトリア大学のデータサイエンス・フォー・ソーシャル・インパクト・リサーチ・グループ(data science for social impact research group)は、情報リポジトリとダッシュボードの両方を使用して、情報をコンピュータで読める方法で公開データをキュレートし、適用することに取り組んでいる。 協力的な実践を通じて、南アフリカで公開されているデータに関連するさまざまな課題が前面に浮かび上がった。 これらには、政府部門と南アフリカ国民の間のアクセシビリティ、完全性、データ管理のプラクティスの欠点が含まれる。 本稿では,公開データリポジトリとダッシュボードをケーススタディとして利用することで,この問題に対する解決策を共有する。

The coronavirus disease (COVID-19), caused by the SARS-CoV-2 virus, was declared a pandemic by the World Health Organization (WHO) in February 2020. Currently, there are no vaccines or treatments that have been approved after clinical trials. Social distancing measures, including travel bans, school closure, and quarantine applied to countries or regions are being used to limit the spread of the disease and the demand on the healthcare infrastructure. The seclusion of groups and individuals has led to limited access to accurate information. To update the public, especially in South Africa, announcements are made by the minister of health daily. These announcements narrate the confirmed COVID-19 cases and include the age, gender, and travel history of people who have tested positive for the disease. Additionally, the South African National Institute for Communicable Diseases updates a daily infographic summarising the number of tests performed, confirmed cases, mortality rate, and the regions affected. However, the age of the patient and other nuanced data regarding the transmission is only shared in the daily announcements and not on the updated infographic. To disseminate this information, the Data Science for Social Impact research group at the University of Pretoria, South Africa, has worked on curating and applying publicly available data in a way that is computer-readable so that information can be shared to the public - using both a data repository and a dashboard. Through collaborative practices, a variety of challenges related to publicly available data in South Africa came to the fore. These include shortcomings in the accessibility, integrity, and data management practices between governmental departments and the South African public. In this paper, solutions to these problems will be shared by using a publicly available data repository and dashboard as a case study.
翻訳日:2023-05-27 03:06:48 公開日:2020-04-29
# Kochen-Specker論における可換性、可測性、文脈性

Commutativity, comeasurability, and contextuality in the Kochen-Specker arguments ( http://arxiv.org/abs/2004.14053v1 )

ライセンス: Link先を確認
G\'abor Hofer-Szab\'o(参考訳) 非コンテキスト性が他の同時測定に対する測定に対するシステムの応答の堅牢性として定義されるなら、コッチェン=スペクターの議論は量子的文脈性の代数的証明を提供しない。 すなわち、議論が効果的であるために。 (i)各オペレータは、測定と一意に関連付けられなければならない (ii)通勤オペレータは同時測定を表現しなければならない。 しかし、文献で論じられた全ての公変・諸説において (i)または (ii)は合っていない。 論説会議 (i) 相互可換作用素の少なくとも1つの部分集合を含み、これは同時測定を表現せず、従って機能構成原理を物理的に正当化できない。 論説会議 (ii) 複数の測度を持つ作用素を関連付けるため、非文脈性とは異なる余分な仮定を呼び出す必要がある。

If noncontextuality is defined as the robustness of a system's response to a measurement against other simultaneous measurements, then the Kochen-Specker arguments do not provide an algebraic proof for quantum contextuality. Namely, for the argument to be effective, (i) each operator must be uniquely associated with a measurement and (ii) commuting operators must represent simultaneous measurements. However, in all Kochen-Specker arguments discussed in the literature either (i) or (ii) is not met. Arguments meeting (i) contain at least one subset of mutually commuting operators which do not represent simultaneous measurements and hence fail to physically justify the functional composition principle. Arguments meeting (ii) associate some operators with more than one measurement and hence need to invoke an extra assumption different from noncontextuality.
翻訳日:2023-05-21 19:47:22 公開日:2020-04-29
# すべての技術に対する技術改善率の推定:特許データの利用と拡張ドメイン記述

Technological improvement rate estimates for all technologies: Use of patent data and an extended domain description ( http://arxiv.org/abs/2004.13919v1 )

ライセンス: Link先を確認
Anuraag Singh, Giorgio Triulzi and Christopher L. Magee(参考訳) 本研究は,技術変化のペースを包括的に把握することを目的としている。 より具体的には、ほぼすべての定義可能な技術の年次パフォーマンス改善率を初めて調査する。 我々は、米国特許システム内のすべての特許を一連の技術ドメインに対応させることによって、これを行う。 技術ドメイン(Technology domain)は、同じ知識と科学的原則を用いて同じ技術機能を達成する特許発明の団体である。 従来定義されていた分類重複法(COM)の拡張を用いて、1757個のドメインの集合を得る。 これらのドメインは、米国特許システム全体の97.14%の特許を含んでいる。 特定された特許セットから,各ドメインにおける特許の平均集中度を算出し,先行研究で検証した方法論に従って改善率を推定した。 メカニカル・スキンの処理では1年1.9%、ネットワーク・マネジメントでは228.8%、クライアント・サーバ・アプリケーション・ドメインでは1年228.8%と見積もられている。 我々は,特許システムの40%以上をカバーする最大20のドメインと,最も遅い20のドメインにおいて,達成された技術機能と基礎となる知識基盤を識別する一行記述子を開発した。 一般的に、改善率は特許群の大きさの強い機能ではなく、最も高速な改善ドメインはソフトウェアベースである。 我々は、研究者、ストラテジスト、政策立案者にとって興味のある技術に対応するドメインの自動検索と改善率を可能にするオンラインシステムを提供する。

In this work, we attempt to provide a comprehensive granular account of the pace of technological change. More specifically, we survey estimated yearly performance improvement rates for nearly all definable technologies for the first time. We do this by creating a correspondence of all patents within the US patent system to a set of technology domains. A technology domain is a body of patented inventions achieving the same technological function using the same knowledge and scientific principles. We obtain a set of 1757 domains using an extension of the previously defined classification overlap method (COM). These domains contain 97.14% of all patents within the entire US patent system. From the identified patent sets, we calculated the average centrality of the patents in each domain to estimate their improvement rates, following a methodology tested in prior work. The estimated improvement rates vary from a low of 1.9% per year for the Mechanical Skin treatment - Hair Removal and wrinkles domain to a high of 228.8% per year for the Network management - client-server applications domain. We developed a one-line descriptor identifying the technological function achieved and the underlying knowledge base for the largest 50, fastest 20 as well as slowest 20 of these domains, which cover more than forty percent of the patent system. In general, the rates of improvement were not a strong function of the patent set size and the fastest improving domains are predominantly software-based. We make available an online system that allows for automated searching for domains and improvement rates corresponding to any technology of interest to researchers, strategists and policy formulators.
翻訳日:2023-05-21 19:45:46 公開日:2020-04-29
# 量子および古典的雑音の力学効果の統一

Unifying the dynamical effects of quantum and classical noises ( http://arxiv.org/abs/2004.13901v1 )

ライセンス: Link先を確認
Li Yu(参考訳) 本研究では,2次元級数展開法を用いて,量子ノイズ(システム-バス相互作用)と古典ノイズの両方の効果を統一的に記述した新しいマスター方程式を開発した。 量子ノイズと古典ノイズの両方が存在するとき、システムのダイナミクスに対するそれらの結合効果は必ずしも2つの個々の効果の単純な和ではない。 したがって、開放系や古典的雑音に対する以前のマスター方程式は、たとえ共用しても、完全な物理学を捉えることができない。 我々の形式主義は、量子ノイズと古典ノイズの間に干渉があるかどうかを判断することができ、そのような干渉を(摂動的に)捉えて記述することができる。 興味深いことに、量子ノイズと古典ノイズの2次干渉は同一に消失する。 この研究は、特に弱い結合状態において、量子および古典的な雑音の単純な付加的処理を正当化するのに役立つ。 光学キャビティと相互作用する確率磁場中のゼーマンスプリット原子に対しては、ここで発達したフォーマリズムを用いて、原子のエネルギーレベル間の全体的なデコヒーレンス速度を求める。

We develop a new master equation as a unified description of the effects of both quantum noise (system-bath interaction) and classical noise on a system's dynamics, using a two-dimensional series expansion method. When quantum and classical noises are both present, their combined effect on a system's dynamics is not necessarily a simple sum of the two individual effects. Thus previous master equations for open systems and those for classical noise, even when jointly used, may not capture the full physics. Our formalism can determine whether there is interference between quantum and classical noises and will be able to capture and describe such interference if there is any (in a perturbative manner). We find that, interestingly, second-order interference between quantum and classical noises vanishes identically. This work thus also serves to justify simple additive treatments of quantum and classical noises, especially in the weak coupling regime. For a Zeeman-splitted atom in a stochastic magnetic field interacting with an optical cavity, we use the formalism developed herein to find the overall decoherence rate between the atom's energy levels.
翻訳日:2023-05-21 19:45:24 公開日:2020-04-29
# SNAPゲートを用いた高効率空洞制御

Efficient cavity control with SNAP gates ( http://arxiv.org/abs/2004.14256v1 )

ライセンス: Link先を確認
Thomas F\"osel, Stefan Krastanov, Florian Marquardt, Liang Jiang(参考訳) 超伝導量子ビットに結合したマイクロ波共振器は、量子情報処理の有望なプラットフォームであることが示されている。 このセットアップの大きな課題は、空洞に対する普遍的な制御を実現することである。 有望なアプローチは、空洞変位と組み合わせた選択数依存任意の位相(SNAP)ゲートである。 これは普遍ゲート集合であることが証明されているが、現在はまだ中心的な疑問が開かれている。 本稿では,この問題に対処するための実践的な手法を提案する。 これは、新しいゲートをシーケンスに挿入する階層的戦略と、短い高忠実度シーケンスを生成する制御パラメータの共最適化を含む。 幅広い実験的に関連のあるアプリケーションでは、3つから4つのスナップゲートで実装できるが、従来知られていた技術では最大50個まで実装できる。

Microwave cavities coupled to superconducting qubits have been demonstrated to be a promising platform for quantum information processing. A major challenge in this setup is to realize universal control over the cavity. A promising approach are selective number-dependent arbitrary phase (SNAP) gates combined with cavity displacements. It has been proven that this is a universal gate set, but a central question remained open so far: how can a given target operation be realized efficiently with a sequence of these operations. In this work, we present a practical scheme to address this problem. It involves a hierarchical strategy to insert new gates into a sequence, followed by a co-optimization of the control parameters, which generates short high-fidelity sequences. For a broad range of experimentally relevant applications, we find that they can be implemented with 3 to 4 SNAP gates, compared to up to 50 with previously known techniques.
翻訳日:2023-05-21 19:37:51 公開日:2020-04-29
# 無限次元ヒルベルト空間の熱平衡分布

Thermal Equilibrium Distribution in Infinite-Dimensional Hilbert Spaces ( http://arxiv.org/abs/2004.14226v1 )

ライセンス: Link先を確認
Roderich Tumulka(参考訳) 量子力学波動関数上の熱平衡分布は、逆温度での熱密度演算子$\rho_\beta$に対して、いわゆるガウス調整射影(GAP)測度である$GAP(\rho_\beta)$である。 より一般に、$GAP(\rho)$ はヒルベルト空間の単位球面上の任意の密度作用素 $\rho$(つまり、トレース 1 を持つ正の作用素)の確率測度である。 ここでは、無限次元分離ヒルベルト空間における$GAP(\rho)$の厳密な定義に関する数学的詳細を収集する。 その存在と一意性は、与えられた平均と共分散を持つヒルベルト空間におけるガウス測度の存在と一意性に関するプロホロフの定理から従う。 我々はまた別の存在証明を与える。 最後に、トレースノルムにおける$\rho$の収束は$GAP(\rho)$の弱収束を意味するという意味で、$GAP(\rho)$が連続的に$\rho$に依存するという証明を与える。

The thermal equilibrium distribution over quantum-mechanical wave functions is a so-called Gaussian adjusted projected (GAP) measure, $GAP(\rho_\beta)$, for a thermal density operator $\rho_\beta$ at inverse temperature $\beta$. More generally, $GAP(\rho)$ is a probability measure on the unit sphere in Hilbert space for any density operator $\rho$ (i.e., a positive operator with trace 1). In this note, we collect the mathematical details concerning the rigorous definition of $GAP(\rho)$ in infinite-dimensional separable Hilbert spaces. Its existence and uniqueness follows from Prohorov's theorem on the existence and uniqueness of Gaussian measures in Hilbert spaces with given mean and covariance. We also give an alternative existence proof. Finally, we give a proof that $GAP(\rho)$ depends continuously on $\rho$ in the sense that convergence of $\rho$ in the trace norm implies weak convergence of $GAP(\rho)$.
翻訳日:2023-05-21 19:37:38 公開日:2020-04-29
# ベルの不等式三種類について

On the three types of Bell's inequalities ( http://arxiv.org/abs/2004.14055v1 )

ライセンス: Link先を確認
G\'abor Hofer-Szab\'o(参考訳) ベルの不等式は古典的確率、古典的条件付き確率、量子的確率と解釈されるかどうかによって3つの異なる方法で理解することができる。 論文では、ベルの不等式違反は3つのケースで異なる意味を持っていると論じる。 最初のケースでは、ある数の解釈を事象の確率として定義する。 第2のケースでは、他のイベント(測定結果)に条件付けられた特定のイベント(測定結果)の条件付き相関に関する共通の因果説明を除外する。 最後に、第三のケースではベルの不等式違反は、これらの数の解釈を事象の確率として、あるいはこれらの事象間の相関に関する共通の因果的説明として除外しない。

Bell's inequalities can be understood in three different ways depending on whether the numbers featuring in the inequalities are interpreted as classical probabilities, classical conditional probabilities, or quantum probabilities. In the paper I will argue that the violation of Bell's inequalities has different meanings in the three cases. In the first case it rules out the interpretation of certain numbers as probabilities of events. In the second case it rules out a common causal explanation of conditional correlations of certain events (measurement outcomes) conditioned on other events (measurement settings). Finally, in the third case the violation of Bell's inequalities neither rules out the interpretation of these numbers as probabilities of events nor a common causal explanation of the correlations between these events---provided both the events and the common causes are interpreted non-classically.
翻訳日:2023-05-21 19:36:26 公開日:2020-04-29
# 短スピンチェーンにおける量子カオス遷移のシグネチャ

Signatures of quantum chaos transition in short spin chains ( http://arxiv.org/abs/2004.14440v1 )

ライセンス: Link先を確認
Emiliano M. Fortes, Ignacio Garc\'ia-Mata, Rodolfo A. Jalabert, and Diego A. Wisniacki(参考訳) 量子系の非可積分性(英: non-integrability of quantum systems, 英: non-integrability)は、通常、高次元ヒルベルト空間を持つ場合に適用される概念であり、この挙動を示す様々な指標の中で、時間外秩序付き相関器(OTOC)の長時間の振動の研究は多目的ツールとして現れ、自由度の少ない系に適応することができる。 このようなアプローチを用いて、核磁気共鳴量子シミュレータ(J. Li,et al, Phys. X 7, 031011 (2017))上のイジングスピン鎖の局所作用素のOTOCの測定において、揺らぎ時間後に観測された振動を考察する。 OTOC振動の系統は4つのスピンしか持たない鎖において、無限鎖から受け継がれた可積分-カオス遷移を定性的に表す。

The non-integrability of quantum systems, often associated with chaotic behavior, is a concept typically applied to cases with a high-dimensional Hilbert space Among different indicators signaling this behavior, the study of the long-time oscillations of the out-of-time-ordered correlator (OTOC) appears as a versatile tool, that can be adapted to the case of systems with a small number of degrees of freedom. Using such an approach, we consider the oscillations observed after the scrambling time in the measurement of OTOCs of local operators for an Ising spin chain on a nuclear magnetic resonance quantum simulator [J. Li,et al, Phys. Rev. X 7, 031011 (2017)]. We show that the systematic of the OTOC oscillations describes qualitatively well, in a chain with only 4 spins, the integrability-to-chaos transition inherited from the infinite chain.
翻訳日:2023-05-21 19:31:18 公開日:2020-04-29
# リニア光学を用いたfeedforward-enhanced fock状態変換

Feedforward-enhanced Fock state conversion with linear optics ( http://arxiv.org/abs/2004.14436v1 )

ライセンス: Link先を確認
Vojt\v{e}ch \v{S}varc, Josef Hlou\v{s}ek, Martina Nov\'akov\'a, Jarom\'ir Fiur\'a\v{s}ek, and Miroslav Je\v{z}ek(参考訳) 光の工学的な量子状態は、ほとんどのフォトニック量子技術応用において重要な課題である。 単光子減算や加算などの光信号中の光子数を直接操作することは、このタスクの効率的な戦略であることが判明した。 本稿では,先行する全ての減算イベントによって特定の減算タスクが条件付けされ,減算が成功する確率を最大化する適応的多光子減算スキームを提案する。 理論的には、フォトンサブトラクションによるフォック状態の変換のモデル例にこの手法を解説する。 また,2光子状態から1光子状態へのフィードフォワード支援変換により提案手法のコアビルディングブロックを実験的に実証した。 超高速フィードフォワードループを用いて,第2サブトラクションビームスプリッタの分割比が第1サブトラクションブロックの測定結果に影響される2つの基本光子サブトラクションブロックを組み合わせた実験を行った。 報告された最適化された光子サブトラクションスキームは、非常に古典的なフォック状態や圧縮光を含む幅広いフォトニック状態に適用され、フォトニック量子ツールボックスが前進する。

Engineering quantum states of light represents a crucial task in the vast majority of photonic quantum technology applications. Direct manipulation of the number of photons in the light signal, such as single-photon subtraction and addition, proved to be an efficient strategy for the task. Here we propose an adaptive multi-photon subtraction scheme where a particular subtraction task is conditioned by all previous subtraction events in order to maximize the probability of successful subtraction. We theoretically illustrate this technique on the model example of conversion of Fock states via photon subtraction. We also experimentally demonstrate the core building block of the proposal by implementing a feedforward-assisted conversion of two-photon state to a single-photon state. Our experiment combines two elementary photon subtraction blocks where the splitting ratio of the second subtraction beam splitter is affected by the measurement result from the first subtraction block in real time using an ultra-fast feedforward loop. The reported optimized photon subtraction scheme applies to a broad range of photonic states, including highly nonclassical Fock states and squeezed light, advancing the photonic quantum toolbox.
翻訳日:2023-05-21 19:30:57 公開日:2020-04-29
# 光による機械振動子と原子スピンの1メートル間隔の強い結合

Light-mediated strong coupling between a mechanical oscillator and atomic spins one meter apart ( http://arxiv.org/abs/2004.14424v1 )

ライセンス: Link先を確認
Thomas M. Karg, Baptiste Gouraud, Chun Tat Ngai, Gian-Luca Schmid, Klemens Hammerer, and Philipp Treutlein(参考訳) 量子系間の強い相互作用は、量子物理学やテクノロジーの多くの現象に不可欠である。 通常、強い結合は短距離力や高品質の電磁共振器にシステムを置くことに依存し、結合の範囲を小さな距離に制限する。 自由空間レーザービームを用いて, 室温環境において, 原子スピンとマイクロメカニカル膜を1メートル以上の距離で強く結合する。 カップリングは高度に調整可能であり、通常のモード分割、コヒーレントなエネルギー交換振動、2モードの熱雑音、散逸結合を観測できる。 光との長距離相互作用をエンジニアリングする我々のアプローチは、非常に異なるシステムをモジュラーな方法で結合させることを可能にし、量子制御とコヒーレントフィードバックネットワークの幅広い機会を開放する。

Engineering strong interactions between quantum systems is essential for many phenomena of quantum physics and technology. Typically, strong coupling relies on short-range forces or on placing the systems in high-quality electromagnetic resonators, restricting the range of the coupling to small distances. We use a free-space laser beam to strongly couple a collective atomic spin and a micromechanical membrane over a distance of one meter in a room-temperature environment. The coupling is highly tunable and allows the observation of normal-mode splitting, coherent energy exchange oscillations, two-mode thermal noise squeezing and dissipative coupling. Our approach to engineer coherent long-distance interactions with light makes it possible to couple very different systems in a modular way, opening up a range of opportunities for quantum control and coherent feedback networks.
翻訳日:2023-05-21 19:30:22 公開日:2020-04-29
# 奇フラクトン理論、近位位数、およびパルトン構成

Odd Fracton Theories, Proximate Orders, and Parton Constructions ( http://arxiv.org/abs/2004.14393v1 )

ライセンス: Link先を確認
Michael Pretko, S. A. Parameswaran, Michael Hermele(参考訳) lieb-schultz-mattis (lsm) の定理は、格子変換と u(1)$ 対称性の組み合わせが課されるとき、物質のガッピング位相はそれらの低エネルギー特性の非自明な条件を満たさなければならないことを示している。 フラクトンおよび他の部分次元分数励起に対する対称性の作用を特徴づける枠組みを記述し、これをlsm定理と合わせて、x-cubeフラクトン次数は整数または半オード・インテガー充填でのみ起こり得ることを立証する。 明示的なパートン構成を用いて、x-cubeフラクトンオーダーの「オッド」バージョンが半オッド-インテガー充填系で起こり、奇数 $z_2$ ゲージ理論の概念をフラクトン設定に一般化できることを実証する。 半オード-インテガー充填では, 分数準粒子を凝縮してx-cube相を離脱すると対称性が破れ, フラクトンオーダーの相に近似する従来の秩序相のクラスを同定できる。 これらの秩序相のうちの1つを双対記述して、その位相的欠陥が自然にモビリティに制限されていることを示す。 これらの欠陥のペアを凝縮するとフラクトン相となり、励起がこれらのモビリティ制限を継承する。

The Lieb-Schultz-Mattis (LSM) theorem implies that gapped phases of matter must satisfy non-trivial conditions on their low-energy properties when a combination of lattice translation and $U(1)$ symmetry are imposed. We describe a framework to characterize the action of symmetry on fractons and other sub-dimensional fractional excitations, and use this together with the LSM theorem to establish that X-cube fracton order can occur only at integer or half-odd-integer filling. Using explicit parton constructions, we demonstrate that "odd" versions of X-cube fracton order can occur in systems at half-odd-integer filling, generalizing the notion of odd $Z_2$ gauge theory to the fracton setting. At half-odd-integer filling, exiting the X-cube phase by condensing fractional quasiparticles leads to symmetry-breaking, thereby allowing us to identify a class of conventional ordered phases proximate to phases with fracton order. We leverage a dual description of one of these ordered phases to show that its topological defects naturally have restricted mobility. Condensing pairs of these defects then leads to a fracton phase, whose excitations inherit these mobility restrictions.
翻訳日:2023-05-21 19:29:08 公開日:2020-04-29
# 量子機械振動子による量子重力効果の探索

Probing quantum gravity effects with quantum mechanical oscillators ( http://arxiv.org/abs/2004.14371v1 )

ライセンス: Link先を確認
M. Bonaldi, A. Borrielli, A. Chowdhury, G. Di Giuseppe, W. Li, N. Malossi, F. Marino, B. Morana, R. Natali, P. Piergentili, G. A. Prodi, P. M. Sarro, E. Serra, P. Vezio, D. Vitali, and F. Marin(参考訳) 重力と量子力学を結合しようとする現象論的モデルは、洗練された低エネルギー実験で測定可能な効果をしばしば予測する。 例えば、最小のスケール長を持つ位置と運動量の間の交換可換関係は、追加のハミルトン項で符号化できるダイナミクスをもたらす。 メカニカル発振器のパラダイム的ケースに適用すると、変形パラメータの最低次において、弱い固有非線形性を導入し、その結果、古典的軌道からの偏差が生じる。 この視点はいくつかの実験的提案と実現を刺激し、変形パラメータに意味のある上限を与えた。 これらの実験はすべて、熱状態から励起される古典的な機械振動子に基づいている。 実際、古典を(マクロスコープ)システムの量子挙動と区別する上で重要な役割を担っているデコヒーレンスは、現象論的量子重力モデルには通常含まれない。 しかし、重力と量子物理学の結合した役割を考えることで予測される特異な特徴が純粋に量子オブジェクトにのみ現れていれば、驚くにはあたらない。 そこで本研究では,高純度状態で準備されたマクロメカニカル振動子に対する量子重力効果の観測を目的とした実験を行い,その実現状況について報告する。

Phenomenological models aiming to join gravity and quantum mechanics often predict effects that are potentially measurable in refined low-energy experiments. For instance, modified commutation relations between position and momentum, that accounts for a minimal scale length, yield a dynamics that can be codified in additional Hamiltonian terms. When applied to the paradigmatic case of a mechanical oscillator, such terms, at the lowest order in the deformation parameter, introduce a weak intrinsic nonlinearity and, consequently, deviations from the classical trajectory. This point of view has stimulated several experimental proposals and realizations, leading to meaningful upper limits to the deformation parameter. All such experiments are based on classical mechanical oscillators, i.e., excited from a thermal state. We remark indeed that decoherence, that plays a major role in distinguishing the classical from the quantum behavior of (macroscopic) systems, is not usually included in phenomenological quantum gravity models. However, it would not be surprising if peculiar features that are predicted by considering the joined roles of gravity and quantum physics should manifest themselves just on purely quantum objects. On the base of this consideration, we propose experiments aiming to observe possible quantum gravity effects on macroscopic mechanical oscillators that are preliminary prepared in a high purity state, and we report on the status of their realization.
翻訳日:2023-05-21 19:28:40 公開日:2020-04-29
# 量子コンピューティングアルゴリズムの穏やかな紹介と普遍予測への応用

A Gentle Introduction to Quantum Computing Algorithms with Applications to Universal Prediction ( http://arxiv.org/abs/2005.03137v1 )

ライセンス: Link先を確認
Elliot Catt and Marcus Hutter(参考訳) 本報告では,非物理学者のための量子コンピューティングの基礎的紹介を行う。 この紹介では、Deutsch-Jozsa Algorithm、Shor's Algorithm、Grocer Search、Quantum Counting Algorithm、Harrow-Lloyd Algorithmなどの基本的な量子アルゴリズムについて詳述する。 さらに,理論上最適な予測法であるソロモンオフ帰納法について紹介する。 次に、量子コンピューティングを使ってソロモンオフ帰納法の近似のより良いアルゴリズムを見つけようとする。 これは、他の量子コンピューティングアルゴリズムの手法を使って、ソロモンフ誘導の重要な部分であるソロモンフの先行の近似である速度の計算のスピードアップを達成することによって行われる。 主な制限要因は、計算される確率が非常に小さく、十分な(しばしば大規模な)試行がなければ、エラーは結果よりも大きい可能性があることである。 ソロモノフ誘導の近似の計算の大幅な高速化が量子コンピューティングによって達成できれば、エージェントAIXIの近似の重要な部分としてインテリジェントエージェントの分野に適用することができる。

In this technical report we give an elementary introduction to Quantum Computing for non-physicists. In this introduction we describe in detail some of the foundational Quantum Algorithms including: the Deutsch-Jozsa Algorithm, Shor's Algorithm, Grocer Search, and Quantum Counting Algorithm and briefly the Harrow-Lloyd Algorithm. Additionally we give an introduction to Solomonoff Induction, a theoretically optimal method for prediction. We then attempt to use Quantum computing to find better algorithms for the approximation of Solomonoff Induction. This is done by using techniques from other Quantum computing algorithms to achieve a speedup in computing the speed prior, which is an approximation of Solomonoff's prior, a key part of Solomonoff Induction. The major limiting factors are that the probabilities being computed are often so small that without a sufficient (often large) amount of trials, the error may be larger than the result. If a substantial speedup in the computation of an approximation of Solomonoff Induction can be achieved through quantum computing, then this can be applied to the field of intelligent agents as a key part of an approximation of the agent AIXI.
翻訳日:2023-05-21 19:20:01 公開日:2020-04-29
# 完全w状態の単一光子生成と非局所性

Single photon generation and non-locality of perfect W-state ( http://arxiv.org/abs/2005.00376v1 )

ライセンス: Link先を確認
Manoranjan Swain, Amit Rai, M. Karthick Selvan, and Prasanta K. Panigrahi(参考訳) 我々は、単一光子完全w状態の生成を研究する。 この完全W状態の重要な側面は、極大に絡み合ったW状態では達成できない完全テレポーテーションと超大域符号化に使用できることである。 フェムト秒レーザー直接書き込み技術を用いて高精度に作製できる小型・弱結合集積導波路システムにおいて、単一光子の様々な自由度間の絡み合いを発生させる。 これらのプラットフォームは、干渉的に安定でスケーラブルであり、デコヒーレンスに対する感度が低く、光子伝播中に0.1db/cmという非常に低い損失率を保証するため、完全なw状態を生成するのに理想的である。 単一光子完全w状態の生成に加えて、その非局所的性質を現実の局所的要素の理論を用いて研究する。

We study the generation of single photon perfect W-state. An important aspect of this perfect W-state is that, it can be used for perfect teleportation and superdense coding, which are not achievable with maximally entangled W-state. Our scheme for generation involves entanglement between various path degrees of freedom of a single photon in a compact and weakly coupled integrated waveguide system, which can be fabricated precisely with femtosecond laser direct writing technique. These platforms are interferometrically stable, scalable, less sensitive to decoherence and ensures a very low loss factor of 0.1dB/cm during photon propagation and hence are ideal for generation of perfect W-state. In addition to generation of single photon perfect W-state we study its non local properties using theory of local elements of reality.
翻訳日:2023-05-21 19:19:34 公開日:2020-04-29
# 空間における1次元強制調和振動子の量子化 (x, v$)

Quantization of the 1-D forced harmonic oscillator in the space ($x, v$) ( http://arxiv.org/abs/2005.00344v1 )

ライセンス: Link先を確認
Gustavo Lopez and Omar Bravo(参考訳) The quantization of the forced harmonic oscillator is studied with the quantum variable ($x,\hat v$), with the commutation relation $[x,\hat v]=i\hbar/m$, and using a Shr\"odinger's like equation on these variable, and associating a linear operator to a constant of motion $K(x,v,t)$ of the classical system, The comparison with the quantization in the space ($x,p$) is done with the usual Schr\"odinger's equation for the Hamiltonian $H(x,p,t)$, and with the commutation relation $[x,\hat p]=i\hbar$. 非共振の場合、量子化の2つの形式は同じ結果をもたらすことが判明した。 しかし、共振器の場合、両方の量子化の形式が異なるため、(x,\hat v$)量子化が(x,\hat p$)量子化よりも出力状態にある確率は低く、(x,\hat v$)量子化よりも(x,\hat p$)量子化の方が系の平均エネルギーは高く、(x,\hat v$)量子化のボルツマン・シャノンエントロピーは(x,\hat p$)量子化のボルツマン・シャノンエントロピーは(x,\hat v$)量子化の値よりも高い。

The quantization of the forced harmonic oscillator is studied with the quantum variable ($x,\hat v$), with the commutation relation $[x,\hat v]=i\hbar/m$, and using a Shr\"odinger's like equation on these variable, and associating a linear operator to a constant of motion $K(x,v,t)$ of the classical system, The comparison with the quantization in the space ($x,p$) is done with the usual Schr\"odinger's equation for the Hamiltonian $H(x,p,t)$, and with the commutation relation $[x,\hat p]=i\hbar$. It is found that for the non resonant case, both forms of quantization brings about the same result. However, for the resonant case, both forms of quantization are different, and the probability for the system to be in the exited state for the ($x,\hat v$) quantization has less oscillations than the ($x,\hat p$) quantization, the average energy of the system is higher in ($x,\hat p$) quantization than on the $(x,\hat v$) quantization, and the Boltzmann-Shannon entropy on the ($x,\hat p$) quantization is higher than on the ($x,\hat v$) quantization.
翻訳日:2023-05-21 19:19:18 公開日:2020-04-29
# ダイアモンド量子欠陥に基づくベクトル磁気測定による単一ニューロン分解能3次元機能神経イメージングを可能にするaxon hillock電流

Axon Hillock Currents Allow Single-Neuron-Resolution 3-Dimensional Functional Neural Imaging Using Diamond Quantum Defect-Based Vector Magnetometry ( http://arxiv.org/abs/2004.14802v1 )

ライセンス: Link先を確認
Madhur Parashar, Kasturi Saha, Sharba Bandyopadhyay(参考訳) 近年の磁場センシングは、活動電位関連磁場(APMFs)を感知することで、脳内の単一ニューロンの機能的活動を測定するための有効な代替手段として浮上している。 昆虫の大きな軸索のAPMFの測定は、その大きさのため可能である。 哺乳類の脳では、軸索の大きさ、その数と経路は、そのような機能的イメージング法を用いて制限される。 哺乳類の錐体ニューロンの分節モデルを用いて、軸索の軸索内電流のAPMFが他のニューロンの部位よりも2桁大きいことを示す。 広視野ダイヤモンド-窒素空洞中心磁力計(DNVM)を用いた2次元ベクトル磁場図によるニューロンの自然的スパイク活性のシミュレーションを行った。 アクソン・ヒロックのAPMFシグネチャを用いた辞書ベースマッチング追尾型アルゴリズムにより, 単一細胞の分解能で脳組織の体積におけるAPの時空間再構成が可能となった。 apmf信号の増強とnvmmの進歩は、現在の機能的脳マッピング技術を置き換える可能性がある。

Magnetic field sensing, with its recent advances, is emerging as a viable alternative to measure functional activity of single neurons in the brain by sensing action potential associated magnetic fields (APMFs). Measurement of APMFs of large axons of worms have been possible due to their size. In the mammalian brain, axon sizes, their numbers and routes, restricts using such functional imaging methods. With segmented model of mammalian pyramidal neurons, we show that the APMF of intra-axonal currents in the axon hillock are two orders of magnitude larger than other neuronal locations. Expected 2-dimensional vector magnetic field maps of naturalistic spiking activity of a volume of neurons via widefield diamond-nitrogen-vacancy-center-magnetometry (DNVM) were simulated. A dictionary based matching pursuit type algorithm applied to the data using the axon-hillock's APMF signature allowed spatiotemporal reconstruction of APs in the volume of brain tissue at single cell resolution. Enhancement of APMF signals coupled with NVMM advances thus can potentially replace current functional brain mapping techniques.
翻訳日:2023-05-21 19:18:29 公開日:2020-04-29
# モーメントマップ推定のための大偏差原理

Large deviation principle for moment map estimation ( http://arxiv.org/abs/2004.14504v1 )

ライセンス: Link先を確認
Alonso Botero, Matthias Christandl, P\'eter Vrana(参考訳) コンパクト連結リー群の表現に関連する正の作用素値測度の族を考える。 単一状態の多くの独立コピーとテンソルパワー表現に対して、観測された確率分布がモーメントマップの値に収束することを示す。 可逆状態に対しては、測度は明示的に与えられたレート関数を持つ大きな偏差原理を満たすことが証明される。

We consider a family of positive operator valued measures associated with representations of compact connected Lie groups. For many independent copies of a single state and a tensor power representation we show that the observed probability distributions converge to the value of the moment map. For invertible states we prove that the measures satisfy the large deviation principle with an explicitly given rate function.
翻訳日:2023-05-21 19:17:45 公開日:2020-04-29
# 平均場相互作用型量子キックローターのダイナミクス

Dynamics of the mean-field interacting quantum kicked rotor ( http://arxiv.org/abs/2001.06406v2 )

ライセンス: Link先を確認
Samuel Lellouch, Adam Ran\c{c}on, Stephan De Bi\`evre, Dominique Delande, and Jean Claude Garreau(参考訳) 我々はGross-Pitaevskii方程式によって支配される平均場レベルでの相互作用を持つ多体原子キックローターの動力学を研究する。 動的局所化は相互作用によって破壊され、サブ拡散的挙動に置き換えられることを示す。 gross-pitaevskii方程式の簡略版から得られた結果とは対照的に、部分微分指数は普遍的ではない。 平均場波動関数の位相を研究することにより,従来の近似の計算コストの低減を保ちながら,拡散開始に近い実験的な時間における力学を正確に記述する新しい近似法を提案する。

We study the dynamics of the many-body atomic kicked rotor with interactions at the mean-field level, governed by the Gross-Pitaevskii equation. We show that dynamical localization is destroyed by the interaction, and replaced by a subdiffusive behavior. In contrast to results previously obtained from a simplified version of the Gross-Pitaevskii equation, the subdiffusive exponent does not appear to be universal. By studying the phase of the mean-field wave function, we propose a new approximation that describes correctly the dynamics at experimentally relevant times close to the start of subdiffusion, while preserving the reduced computational cost of the former approximation.
翻訳日:2023-01-10 13:12:50 公開日:2020-04-29
# 教師なしテキストスタイル転送の確率的定式化

A Probabilistic Formulation of Unsupervised Text Style Transfer ( http://arxiv.org/abs/2002.03912v3 )

ライセンス: Link先を確認
Junxian He, Xinyi Wang, Graham Neubig, Taylor Berg-Kirkpatrick(参考訳) 従来提案されていた非生成手法を統一した教師なしテキストスタイル転送のための深層生成モデルを提案する。 確率論的アプローチは,2つの領域から非並列データを部分的に観測された並列コーパスとしてモデル化する。 各観測されたシーケンスを生成する並列潜在シーケンスを仮定することで、モデルは完全に教師なしの方法である領域から別の領域へシーケンスを変換することを学習する。 従来の生成シーケンスモデル(例えばhmm)とは対照的に、このモデルでは生成されたデータについての仮定がほとんどありません。 このモデルクラスでは、限界データ確率の計算は難解であるが、償却された変分推論は実用的な代理であることを示す。 さらに, 変分目的と最近の非教師付きスタイル転送と機械翻訳技術との接続関係を描き, バックトランスレーションや敵対的損失といった既知の非生成目的を, 確率論的視点が一体化できることを示す。 最後に, 感情伝達, 形式性伝達, 単語の解読, 著者の模倣, 関連言語翻訳など, 幅広い教師なしスタイル転送タスクにおいて, 提案手法の有効性を示す。 全てのスタイル転送タスクにおいて、我々のアプローチは、我々のアプローチが一般化する最先端の教師なし機械翻訳技術を含む、最先端の非生成ベースラインよりも大幅に向上する。 さらに、標準の教師なし機械翻訳タスクの実験を行い、我々の統一的なアプローチが現在の技術と一致していることを見出す。

We present a deep generative model for unsupervised text style transfer that unifies previously proposed non-generative techniques. Our probabilistic approach models non-parallel data from two domains as a partially observed parallel corpus. By hypothesizing a parallel latent sequence that generates each observed sequence, our model learns to transform sequences from one domain to another in a completely unsupervised fashion. In contrast with traditional generative sequence models (e.g. the HMM), our model makes few assumptions about the data it generates: it uses a recurrent language model as a prior and an encoder-decoder as a transduction distribution. While computation of marginal data likelihood is intractable in this model class, we show that amortized variational inference admits a practical surrogate. Further, by drawing connections between our variational objective and other recent unsupervised style transfer and machine translation techniques, we show how our probabilistic view can unify some known non-generative objectives such as backtranslation and adversarial loss. Finally, we demonstrate the effectiveness of our method on a wide range of unsupervised style transfer tasks, including sentiment transfer, formality transfer, word decipherment, author imitation, and related language translation. Across all style transfer tasks, our approach yields substantial gains over state-of-the-art non-generative baselines, including the state-of-the-art unsupervised machine translation techniques that our approach generalizes. Further, we conduct experiments on a standard unsupervised machine translation task and find that our unified approach matches the current state-of-the-art.
翻訳日:2023-01-02 07:32:27 公開日:2020-04-29
# convlab-2:対話システムの構築、評価、診断のためのオープンソースツールキット

ConvLab-2: An Open-Source Toolkit for Building, Evaluating, and Diagnosing Dialogue Systems ( http://arxiv.org/abs/2002.04793v2 )

ライセンス: Link先を確認
Qi Zhu, Zheng Zhang, Yan Fang, Xiang Li, Ryuichi Takanobu, Jinchao Li, Baolin Peng, Jianfeng Gao, Xiaoyan Zhu, Minlie Huang(参考訳) 本研究では,最先端モデルを用いたタスク指向対話システムの構築,エンドツーエンド評価,システムの弱点の診断を可能にするオープンソースツールキットConvLab-2を提案する。 ConvLab (Lee et al., 2019b)の後継として、ConvLab-2はConvLabのフレームワークを継承するが、より強力な対話モデルを統合し、より多くのデータセットをサポートする。 さらに,研究者の対話システム診断を支援する解析ツールと対話ツールを開発した。 分析ツールは、豊富な統計データを提示し、シミュレーションされた対話から一般的な誤りを要約する。 このインタラクティブツールは、システムと対話し、各システムコンポーネントの出力を変更することで、組み立てられた対話システムの診断を可能にするユーザインターフェースを提供する。

We present ConvLab-2, an open-source toolkit that enables researchers to build task-oriented dialogue systems with state-of-the-art models, perform an end-to-end evaluation, and diagnose the weakness of systems. As the successor of ConvLab (Lee et al., 2019b), ConvLab-2 inherits ConvLab's framework but integrates more powerful dialogue models and supports more datasets. Besides, we have developed an analysis tool and an interactive tool to assist researchers in diagnosing dialogue systems. The analysis tool presents rich statistics and summarizes common mistakes from simulated dialogues, which facilitates error analysis and system improvement. The interactive tool provides a user interface that allows developers to diagnose an assembled dialogue system by interacting with the system and modifying the output of each system component.
翻訳日:2023-01-01 19:03:17 公開日:2020-04-29
# 英語から外国語へ:事前学習された言語モデルを転送する

From English To Foreign Languages: Transferring Pre-trained Language Models ( http://arxiv.org/abs/2002.07306v2 )

ライセンス: Link先を確認
Ke Tran(参考訳) 事前訓練されたモデルは、多くの下流自然言語処理(NLP)タスクにおいてその効果を実証している。 多言語事前訓練モデルの可用性により、高リソース言語から低リソース言語へのNLPタスクのゼロショット転送が可能となる。 しかし、事前訓練されたモデルを改善する最近の研究は英語に重点を置いている。 他の言語の最新のニューラルアーキテクチャをスクラッチからトレーニングすることは可能だが、必要な計算量のために望ましくない。 本研究では,既存の事前学習済みモデルを英語から他の言語へ,限られた計算予算で移行する問題に取り組む。 1つのgpuで1日以内に外部bertベースモデルを取得し、2日以内に外部bertモデルを取得することができる。 さらに,6つの言語でモデルを評価することにより,自然言語推論と依存関係解析という2つのゼロショットタスクにおいて,多言語bertよりもモデルが優れていることを示す。

Pre-trained models have demonstrated their effectiveness in many downstream natural language processing (NLP) tasks. The availability of multilingual pre-trained models enables zero-shot transfer of NLP tasks from high resource languages to low resource ones. However, recent research in improving pre-trained models focuses heavily on English. While it is possible to train the latest neural architectures for other languages from scratch, it is undesirable due to the required amount of compute. In this work, we tackle the problem of transferring an existing pre-trained model from English to other languages under a limited computational budget. With a single GPU, our approach can obtain a foreign BERT base model within a day and a foreign BERT large within two days. Furthermore, evaluating our models on six languages, we demonstrate that our models are better than multilingual BERT on two zero-shot tasks: natural language inference and dependency parsing.
翻訳日:2022-12-30 19:59:31 公開日:2020-04-29
# 畳み込みニューラルネットワークのための特徴関連スコアを用いた訓練中の経時的チャネルプルーニング

Gradual Channel Pruning while Training using Feature Relevance Scores for Convolutional Neural Networks ( http://arxiv.org/abs/2002.09958v2 )

ライセンス: Link先を確認
Sai Aparna Aketi, Sourjya Roy, Anand Raghunathan, Kaushik Roy(参考訳) ディープニューラルネットワークの膨大な推論コストは、ネットワーク圧縮によってスケールダウンすることができる。 プルーニングは、ディープネットワーク圧縮に使われる主要なアプローチの1つである。 しかし、既存の刈り取り技術には、次のような制限がある。 1)刈り込みおよび微調整工程による計算重度訓練段階の上におけるエネルギーコストの増大。 2)ネットワークにおける誤り伝播の影響を無視して,特定の統計値に基づく層別プルーニングを行う。 3) グローバルに重要なチャネルを決定するための効率的な見積もりの欠如。 4)非構造化プルーニングは、有効利用のために特別なハードウェアを必要とする。 以上の課題に対処するために,特徴関連スコアと呼ばれる新しいデータ駆動メトリックを用いた訓練手法を実践しながら,単純かつ効果的な段階的なチャネルプルーニングを提案する。 提案手法は,実際の訓練期間中に一定の間隔で,構造化された方法で最重要でないチャネルを刈り取ることにより,追加のリトレーニングサイクルを解消する。 特徴関連スコアは、ネットワークの識別力に対する各チャネルの寄与を効率的に評価するのに役立つ。 CIFAR-10, CIFAR-100, ImageNet などのデータセットを用いた VGG や ResNet などのアーキテクチャにおける提案手法の有効性を実証し, 精度を1\% 以下に抑えながら重要なモデル圧縮を実現した。 特に、ResNet-110でトレーニングされたCIFAR-10データセットでは、未処理のネットワークと比較して精度が0.01\%のFLOPの2.4\times$圧縮と56\%$削減を実現しています。

The enormous inference cost of deep neural networks can be scaled down by network compression. Pruning is one of the predominant approaches used for deep network compression. However, existing pruning techniques have one or more of the following limitations: 1) Additional energy cost on top of the compute heavy training stage due to pruning and fine-tuning stages, 2) Layer-wise pruning based on the statistics of a particular, ignoring the effect of error propagation in the network, 3) Lack of an efficient estimate for determining the important channels globally, 4) Unstructured pruning requires specialized hardware for effective use. To address all the above issues, we present a simple-yet-effective gradual channel pruning while training methodology using a novel data-driven metric referred to as feature relevance score. The proposed technique gets rid of the additional retraining cycles by pruning the least important channels in a structured fashion at fixed intervals during the actual training phase. Feature relevance scores help in efficiently evaluating the contribution of each channel towards the discriminative power of the network. We demonstrate the effectiveness of the proposed methodology on architectures such as VGG and ResNet using datasets such as CIFAR-10, CIFAR-100 and ImageNet, and successfully achieve significant model compression while trading off less than $1\%$ accuracy. Notably on CIFAR-10 dataset trained on ResNet-110, our approach achieves $2.4\times$ compression and a $56\%$ reduction in FLOPs with an accuracy drop of $0.01\%$ compared to the unpruned network.
翻訳日:2022-12-29 09:03:13 公開日:2020-04-29
# 解釈可能な動的関係データモデリングのためのリカレントディリクレ信念ネットワーク

Recurrent Dirichlet Belief Networks for Interpretable Dynamic Relational Data Modelling ( http://arxiv.org/abs/2002.10235v2 )

ライセンス: Link先を確認
Yaqiong Li, Xuhui Fan, Ling Chen, Bin Li, Zheng Yu, Scott A. Sisson(参考訳) Dirichlet Belief Network~(DirBN)は、オブジェクトの解釈可能な深層潜伏表現の学習において有望なアプローチとして提案されている。 本研究では、その解釈可能なモデリングアーキテクチャを活用し、動的関係データから解釈可能な隠れ構造を研究するための深い動的確率的フレームワーク、Recurrent Dirichlet Belief Network~(Recurrent-DBN)を提案する。 提案したリカレントDBNは,(1)時間ステップ内および時間ステップ内におけるオブジェクトの解釈可能な階層的潜在構造を推論し,整理し,(2)動的確率的フレームワークの多くにおいてマルコフ記述よりも優れた長期的時間的依存モデリングを可能にする。 さらに,提案手法では,まず潜時数と下向きサンプル変数を上下に伝播させる新しい推論手法を開発し,リカレントDBNの効率的なギブズサンプリングを実現する。 リカレントDBNを動的関係データ問題に適用する。 実世界のデータに対する広範な実験結果は、解釈可能な潜在構造探索における最先端モデルに対するRecurrent-DBNの利点を検証し、リンク予測性能を改善した。

The Dirichlet Belief Network~(DirBN) has been recently proposed as a promising approach in learning interpretable deep latent representations for objects. In this work, we leverage its interpretable modelling architecture and propose a deep dynamic probabilistic framework -- the Recurrent Dirichlet Belief Network~(Recurrent-DBN) -- to study interpretable hidden structures from dynamic relational data. The proposed Recurrent-DBN has the following merits: (1) it infers interpretable and organised hierarchical latent structures for objects within and across time steps; (2) it enables recurrent long-term temporal dependence modelling, which outperforms the one-order Markov descriptions in most of the dynamic probabilistic frameworks. In addition, we develop a new inference strategy, which first upward-and-backward propagates latent counts and then downward-and-forward samples variables, to enable efficient Gibbs sampling for the Recurrent-DBN. We apply the Recurrent-DBN to dynamic relational data problems. The extensive experiment results on real-world data validate the advantages of the Recurrent-DBN over the state-of-the-art models in interpretable latent structure discovery and improved link prediction performance.
翻訳日:2022-12-29 03:01:21 公開日:2020-04-29
# コーパスに基づく単位選択音声に対する統計的文脈依存単位境界補正

Statistical Context-Dependent Units Boundary Correction for Corpus-based Unit-Selection Text-to-Speech ( http://arxiv.org/abs/2003.02837v2 )

ライセンス: Link先を確認
Claudio Zito, Fabio Tesser, Mauro Nicolao, Piero Cosi(参考訳) 本研究では, 分割の精度を向上し, 単位選択テキスト音声(TTS)システムに適用するために, 話者適応のための革新的な手法を提案する。 従来の話者適応手法とは違って, 話者特性に対してより頑健な音響モデルを用いて, セグメンテーションの精度向上を図っている。 簡単な言い方をすれば、文脈依存情報は関連する音響波形と密接に相関しているという直感的な考えを用いる。 本稿では,HMMに基づく音声セグメント化により生じる系統的誤差を低減するために,補正値を予測する統計モデルを提案する。 本手法は,(1)文脈依存音素単位クラス(例えば,母音を単音節単語の核として識別するクラス)の同定,(2)単音節語コーパスのセグメンテーション中にasrが生成する平均誤差値を各クラスに関連付ける回帰モデルの構築という2つのフェーズからなる。 提案手法の成功は, 最適解と考えられる基準アライメントに対して, 補正された単位の境界と最先端HHMセグメンテーションを比較して評価する。 結論として,本研究は,話者依存特性に敏感なモデル,欠陥情報や雑音情報に頑健なモデル,より高価な話者適応システムや多数の手動修正セッションの代替として利用できる極めて単純な実装について,最初の分析を提供する。

In this study, we present an innovative technique for speaker adaptation in order to improve the accuracy of segmentation with application to unit-selection Text-To-Speech (TTS) systems. Unlike conventional techniques for speaker adaptation, which attempt to improve the accuracy of the segmentation using acoustic models that are more robust in the face of the speaker's characteristics, we aim to use only context dependent characteristics extrapolated with linguistic analysis techniques. In simple terms, we use the intuitive idea that context dependent information is tightly correlated with the related acoustic waveform. We propose a statistical model, which predicts correcting values to reduce the systematic error produced by a state-of-the-art Hidden Markov Model (HMM) based speech segmentation. Our approach consists of two phases: (1) identifying context-dependent phonetic unit classes (for instance, the class which identifies vowels as being the nucleus of monosyllabic words); and (2) building a regression model that associates the mean error value made by the ASR during the segmentation of a single speaker corpus to each class. The success of the approach is evaluated by comparing the corrected boundaries of units and the state-of-the-art HHM segmentation against a reference alignment, which is supposed to be the optimal solution. In conclusion, our work supplies a first analysis of a model sensitive to speaker-dependent characteristics, robust to defective and noisy information, and a very simple implementation which could be utilized as an alternative to either more expensive speaker-adaptation systems or of numerous manual correction sessions.
翻訳日:2022-12-26 06:49:54 公開日:2020-04-29
# 人口レベルラベル分布学習のための近傍型プール

Neighborhood-based Pooling for Population-level Label Distribution Learning ( http://arxiv.org/abs/2003.07406v2 )

ライセンス: Link先を確認
Tharindu Cyril Weerasooriya, Tong Liu, Christopher M. Homan(参考訳) 教師付き機械学習は、しばしば人間の注釈データを必要とする。 アノテータの不一致は通常、ノイズの証拠として解釈されるが、人口レベルラベル分布学習(pldl)は、各データ項目に対するアノテーションの収集を、ノイズがなくても、不一致が適切で期待できる人間のアノテータの意見のサンプルとして扱う。 この観点からすると、典型的なトレーニングセットには多数の非常に小さなサンプルが含まれており、各データ項目に対して1つであり、それ自身は、その項目に関する人口の信念を表すのに十分な大きさではない。 サンプリングサイズを考慮したPLDLのためのアルゴリズムフレームワークと新しい統計的テストを提案する。 類似したデータ項目間でラベルを共有するために,提案手法を適用した。 また,ラベル共有のための新しい手法を提案する。

Supervised machine learning often requires human-annotated data. While annotator disagreement is typically interpreted as evidence of noise, population-level label distribution learning (PLDL) treats the collection of annotations for each data item as a sample of the opinions of a population of human annotators, among whom disagreement may be proper and expected, even with no noise present. From this perspective, a typical training set may contain a large number of very small-sized samples, one for each data item, none of which, by itself, is large enough to be considered representative of the underlying population's beliefs about that item. We propose an algorithmic framework and new statistical tests for PLDL that account for sampling size. We apply them to previously proposed methods for sharing labels across similar data items. We also propose new approaches for label sharing, which we call neighborhood-based pooling.
翻訳日:2022-12-23 02:48:10 公開日:2020-04-29
# トランスフォーマによるシーンテキスト認識

Scene Text Recognition via Transformer ( http://arxiv.org/abs/2003.08077v4 )

ライセンス: Link先を確認
Xinjie Feng, Hongxun Yao, Yuankai Qi, Jun Zhang, and Shengping Zhang(参考訳) 任意の形状のシーンテキスト認識は、テキストの形、フォント、色、背景などに大きなバリエーションがあるため、非常に難しい。 ほとんどの最先端アルゴリズムは入力画像を正規化画像に補正し、認識をシーケンス予測タスクとして扱う。 このような手法のボトルネックは修正であり、歪みの観点による誤差を引き起こす。 本稿では,整流が全く不要であることを示す。 必要なのは空間的な注意です。 そこで我々は,変換器 [50] に基づく簡易かつ極めて効果的なシーンテキスト認識手法を提案する。 畳み込み注意の復号化にトランスフォーマのデコーダのみを使用する従来のトランスフォーマ [56,34] とは異なり,提案手法では畳み込み特徴マップをトランスフォーマへの単語埋め込み入力として用いる。 このようにして,本手法は変圧器の強力な注意機構をフル活用することができる。 実験結果から, 提案手法は, 正規および不規則なテキストデータセットにおいて, 最先端の手法を著しく上回ることがわかった。 最先端の予測精度が89.6%である最も難しいCUTEデータセットの1つで、我々の手法は99.3%を達成した。 我々は、ソースコードをリリースし、任意の形状のシーンテキスト認識の新しいベンチマークとなることを確信する。

Scene text recognition with arbitrary shape is very challenging due to large variations in text shapes, fonts, colors, backgrounds, etc. Most state-of-the-art algorithms rectify the input image into the normalized image, then treat the recognition as a sequence prediction task. The bottleneck of such methods is the rectification, which will cause errors due to distortion perspective. In this paper, we find that the rectification is completely unnecessary. What all we need is the spatial attention. We therefore propose a simple but extremely effective scene text recognition method based on transformer [50]. Different from previous transformer based models [56,34], which just use the decoder of the transformer to decode the convolutional attention, the proposed method use a convolutional feature maps as word embedding input into transformer. In such a way, our method is able to make full use of the powerful attention mechanism of the transformer. Extensive experimental results show that the proposed method significantly outperforms state-of-the-art methods by a very large margin on both regular and irregular text datasets. On one of the most challenging CUTE dataset whose state-of-the-art prediction accuracy is 89.6%, our method achieves 99.3%, which is a pretty surprising result. We will release our source code and believe that our method will be a new benchmark of scene text recognition with arbitrary shapes.
翻訳日:2022-12-22 12:43:24 公開日:2020-04-29
# エチオピアにおける糖尿病網膜症の診断--ディープラーニングによる自動化前

Diagnosis of Diabetic Retinopathy in Ethiopia: Before the Deep Learning based Automation ( http://arxiv.org/abs/2003.09208v2 )

ライセンス: Link先を確認
Misgina Tsighe Hagos(参考訳) 最近の報告では、訓練されたディープラーニング(dl)ベースのdr分類器が手動のグレードラーを上回っているが、エチオピアに自動糖尿病網膜症(dr)の診断を導入することは依然として難しい課題である。 これは主にdlベースの分類器で使用される従来の網膜イメージング装置のコストが高いためである。 本稿では,モバイルベースのDRのバイナリ分類を提供する現在のアプローチと,より安価でオフラインなDRのマルチクラス分類への道について述べる。

Introducing automated Diabetic Retinopathy (DR) diagnosis into Ethiopia is still a challenging task, despite recent reports that present trained Deep Learning (DL) based DR classifiers surpassing manual graders. This is mainly because of the expensive cost of conventional retinal imaging devices used in DL based classifiers. Current approaches that provide mobile based binary classification of DR, and the way towards a cheaper and offline multi-class classification of DR will be discussed in this paper.
翻訳日:2022-12-21 22:25:05 公開日:2020-04-29
# 自己教師付き深部非対称メトリック学習による縮小テキスト文書の高速(er)再構成

Fast(er) Reconstruction of Shredded Text Documents via Self-Supervised Deep Asymmetric Metric Learning ( http://arxiv.org/abs/2003.10063v4 )

ライセンス: Link先を確認
Thiago M. Paix\~ao, Rodrigo F. Berriel, Maria C. S. Boeres, Alessando L. Koerich, Claudine Badue, Alberto F. De Souza and Thiago Oliveira-Santos(参考訳) 細断文書の復元は、これらの文書の本来の側面を再構築するために、紙(細断)を整理することである。 この任務は法医学的な捜査を支援するために特に重要であり、文書には刑事証拠が含まれている可能性がある。 手間と時間のかかる手作業の代替として、数人の研究者が自動デジタル再構築の方法を調査している。 細断文書の自動復元における中心的な問題は、細断文書の相互互換性の評価である。 この文脈において、深層学習は機械処理文書の領域における正確な再構築に大きく進歩した。 しかし、センシティブな問題は、現在の深層モデルソリューションでは、一対のシュレッズを評価する必要がある場合、推論が必要になることだ。 本研究は,2次ではなく2次ではなく2次に線形にスケールするペアワイド互換性を測るスケーラブルな深層学習手法を提案する。 互換性を直接予測する代わりに、深層モデルは、距離が互換性に比例する共通の計量空間に生のシュレッジコンテンツを非対称に投影するために利用される。 実験結果から,本手法は505シュレッズ(異なる文書から20の混合シュレッダーページ)のテストインスタンスにおいて,22倍のスピードアップで最先端技術に匹敵する精度を示した。

The reconstruction of shredded documents consists in arranging the pieces of paper (shreds) in order to reassemble the original aspect of such documents. This task is particularly relevant for supporting forensic investigation as documents may contain criminal evidence. As an alternative to the laborious and time-consuming manual process, several researchers have been investigating ways to perform automatic digital reconstruction. A central problem in automatic reconstruction of shredded documents is the pairwise compatibility evaluation of the shreds, notably for binary text documents. In this context, deep learning has enabled great progress for accurate reconstructions in the domain of mechanically-shredded documents. A sensitive issue, however, is that current deep model solutions require an inference whenever a pair of shreds has to be evaluated. This work proposes a scalable deep learning approach for measuring pairwise compatibility in which the number of inferences scales linearly (rather than quadratically) with the number of shreds. Instead of predicting compatibility directly, deep models are leveraged to asymmetrically project the raw shred content onto a common metric space in which distance is proportional to the compatibility. Experimental results show that our method has accuracy comparable to the state-of-the-art with a speed-up of about 22 times for a test instance with 505 shreds (20 mixed shredded-pages from different documents).
翻訳日:2022-12-20 23:58:14 公開日:2020-04-29
# 低消費電力エッジコンピューティングのための正確なEEGNetベースモータ画像脳-コンピュータインタフェース

An Accurate EEGNet-based Motor-Imagery Brain-Computer Interface for Low-Power Edge Computing ( http://arxiv.org/abs/2004.00077v2 )

ライセンス: Link先を確認
Xiaying Wang, Michael Hersche, Batuhan T\"omekce, Burak Kaya, Michele Magno, Luca Benini(参考訳) 本稿では,mi-bci (embedded motor-imagery brain-computer interface) の精度とロバスト性について述べる。 EEGNetに基づく新しいモデルでは、ARM Cortex-Mファミリのような低消費電力マイクロコントローラユニット(MCU)のメモリフットプリントと計算資源の要求に合致する。 さらに,本論文では,時間的ダウンサンプリング,チャネル選択,分類ウィンドウの絞りなど,メモリ要件の緩和のためにモデルをさらにスケールダウンし,精度を損なうことなくメモリ要件を緩和する手法を提案する。 Physionet EEG Motor Movement/Imagery Datasetの実験結果によると、標準的なEEGNetは2-、3-および4-class MIタスクで82.43%、75.07%、65.07%の分類精度を達成し、最先端(SoA)畳み込みニューラルネットワーク(CNN)を2.05%、5.25%、そして5.48%で上回った。 提案手法では,7.6倍のメモリフットプリント削減で0.31%,15倍削減で2.51%の精度低下を実現した。 スケールされたモデルは、商用のcortex-m4f mcuに101ms、最小のモデルを操作する推論に4.28mj、中型モデルの推論に44msと18.1mjのcortex-m7にデプロイされ、完全に自律的でウェアラブルで正確な低消費電力bciを実現する。

This paper presents an accurate and robust embedded motor-imagery brain-computer interface (MI-BCI). The proposed novel model, based on EEGNet, matches the requirements of memory footprint and computational resources of low-power microcontroller units (MCUs), such as the ARM Cortex-M family. Furthermore, the paper presents a set of methods, including temporal downsampling, channel selection, and narrowing of the classification window, to further scale down the model to relax memory requirements with negligible accuracy degradation. Experimental results on the Physionet EEG Motor Movement/Imagery Dataset show that standard EEGNet achieves 82.43%, 75.07%, and 65.07% classification accuracy on 2-, 3-, and 4-class MI tasks in global validation, outperforming the state-of-the-art (SoA) convolutional neural network (CNN) by 2.05%, 5.25%, and 5.48%. Our novel method further scales down the standard EEGNet at a negligible accuracy loss of 0.31% with 7.6x memory footprint reduction and a small accuracy loss of 2.51% with 15x reduction. The scaled models are deployed on a commercial Cortex-M4F MCU taking 101ms and consuming 4.28mJ per inference for operating the smallest model, and on a Cortex-M7 with 44ms and 18.1mJ per inference for the medium-sized model, enabling a fully autonomous, wearable, and accurate low-power BCI.
翻訳日:2022-12-18 02:06:24 公開日:2020-04-29
# FastBERT: 適応推論時間付き自己蒸留式BERT

FastBERT: a Self-distilling BERT with Adaptive Inference Time ( http://arxiv.org/abs/2004.02178v2 )

ライセンス: Link先を確認
Weijie Liu, Peng Zhou, Zhe Zhao, Zhiruo Wang, Haotang Deng, Qi Ju(参考訳) BERTのような事前訓練された言語モデルは高性能であることが証明されている。 しかし、そのような重いモデルは限られた資源で容易に実装できないため、多くの実践的なシナリオでは計算コストがかかることが多い。 モデル性能が保証された場合の効率を向上させるため,適応的な推論時間を持つ高速可変FastBERTを提案する。 予測時の速度は様々な要求で柔軟に調整でき、サンプルの冗長な計算は避けられる。 さらに、このモデルは微調整時に独自の自己蒸留機構を採用し、性能の損失を最小限に抑えた計算効率を向上させる。 我々のモデルは12の英語と中国語のデータセットで有望な結果を得る。 速度性能のトレードオフを行うために異なるスピードアップしきい値が与えられた場合、BERTの1倍から12倍の範囲でスピードアップすることができる。

Pre-trained language models like BERT have proven to be highly performant. However, they are often computationally expensive in many practical scenarios, for such heavy models can hardly be readily implemented with limited resources. To improve their efficiency with an assured model performance, we propose a novel speed-tunable FastBERT with adaptive inference time. The speed at inference can be flexibly adjusted under varying demands, while redundant calculation of samples is avoided. Moreover, this model adopts a unique self-distillation mechanism at fine-tuning, further enabling a greater computational efficacy with minimal loss in performance. Our model achieves promising results in twelve English and Chinese datasets. It is able to speed up by a wide range from 1 to 12 times than BERT if given different speedup thresholds to make a speed-performance tradeoff.
翻訳日:2022-12-16 12:43:49 公開日:2020-04-29
# k-nearestの隣の分類器:第2版(python例付き)

k-Nearest Neighbour Classifiers: 2nd Edition (with Python examples) ( http://arxiv.org/abs/2004.04523v2 )

ライセンス: Link先を確認
Padraig Cunningham, Sarah Jane Delany(参考訳) おそらく、兵器や機械学習のテクニックで最も単純な分類法は、Nearest Neighbour Classifierである -- クエリの例に最も近い隣人を識別し、クエリのクラスを決定するためにそれらの隣人を使用することによって、分類が達成される。 この分類へのアプローチは特に重要であり、最近は計算能力に問題があるが、実行時の性能の低下は問題にならない。 本稿では, 周辺地域分類の手法の概要, 類似性(距離)を評価するメカニズム, 近隣地域を特定する際の計算問題, データの次元を小さくするメカニズムについて述べる。 本論文は,以前に技術報告として公表した論文の第2版である。 時系列,検索速度,内在次元の類似度に関する節が追加されている。 Appendixは、キーメソッドのPythonコードへのアクセスを提供する。

Perhaps the most straightforward classifier in the arsenal or machine learning techniques is the Nearest Neighbour Classifier -- classification is achieved by identifying the nearest neighbours to a query example and using those neighbours to determine the class of the query. This approach to classification is of particular importance because issues of poor run-time performance is not such a problem these days with the computational power that is available. This paper presents an overview of techniques for Nearest Neighbour classification focusing on; mechanisms for assessing similarity (distance), computational issues in identifying nearest neighbours and mechanisms for reducing the dimension of the data. This paper is the second edition of a paper previously published as a technical report. Sections on similarity measures for time-series, retrieval speed-up and intrinsic dimensionality have been added. An Appendix is included providing access to Python code for the key methods.
翻訳日:2022-12-15 02:10:41 公開日:2020-04-29
# 自己認識モデルによる拡散検出の改善

Improving Disfluency Detection by Self-Training a Self-Attentive Model ( http://arxiv.org/abs/2004.05323v2 )

ライセンス: Link先を確認
Paria Jamshid Lou, Mark Johnson(参考訳) 文脈化された単語埋め込み(例えば ELMo や BERT)を用いた自己注意型ニューラル構文解析器は、現在、音声書き起こしにおける共同構文解析と拡散検出の最先端の結果を生成する。 コンテキスト化された単語埋め込みは、大量のラベルなしデータで事前訓練されているため、追加のラベルなしデータを使用してニューラルネットワークをトレーニングすることは冗長に思える。 しかし, ラベル付きデータを組み込む半教師付き手法である自己学習が, 拡散検出における自己注意型パーサーの新たな技術として, 事前学習した文脈表現に直交する利益をもたらすことを示した。 また, 自己学習型パーサは, 分散検出のさらなる向上をもたらすことを示した。

Self-attentive neural syntactic parsers using contextualized word embeddings (e.g. ELMo or BERT) currently produce state-of-the-art results in joint parsing and disfluency detection in speech transcripts. Since the contextualized word embeddings are pre-trained on a large amount of unlabeled data, using additional unlabeled data to train a neural model might seem redundant. However, we show that self-training - a semi-supervised technique for incorporating unlabeled data - sets a new state-of-the-art for the self-attentive parser on disfluency detection, demonstrating that self-training provides benefits orthogonal to the pre-trained contextualized word representations. We also show that ensembling self-trained parsers provides further gains for disfluency detection.
翻訳日:2022-12-14 12:40:39 公開日:2020-04-29
# 航空画像からの建物抽出のためのドメイン適応移動攻撃(データ)に基づくセグメンテーションネットワーク

Domain Adaptive Transfer Attack (DATA)-based Segmentation Networks for Building Extraction from Aerial Images ( http://arxiv.org/abs/2004.11819v2 )

ライセンス: Link先を確認
Younghwan Na, Jun Hee Kim, Kyungsu Lee, Juhum Park, Jae Youn Hwang, Jihwan P. Choi(参考訳) 畳み込みニューラルネットワーク(CNN)に基づく意味的セグメンテーションモデルはリモートセンシングに大きく注目されており、高解像度の空中画像から建物を抽出する際、顕著な性能を発揮している。 しかし、未確認画像に対する限定的な一般化の問題が残っている。 トレーニングデータセットとテストデータセットの間にドメインギャップがある場合、トレーニングデータセットによってトレーニングされたCNNベースのセグメンテーションモデルは、テストデータセットの建物をセグメンテーションできない。 本稿では,航空画像からの建物抽出のためのドメイン適応転送攻撃(data)方式に基づくセグメンテーションネットワークを提案する。 提案システムは,ドメイン転送と敵攻撃の概念を組み合わせたシステムである。 データスキームに基づいて、入力画像の分布を対象画像の分布にシフトさせ、対象ネットワークに対して、画像を逆の例に変換することができる。 対象のドメインに適応した敵の例を守ることは、ドメインギャップによる性能劣化を克服し、セグメンテーションモデルの堅牢性を高めることができる。 inria空中画像ラベリングデータセット,マサチューセッツビルディングデータセット,whu東アジアデータセットの3つの異なるデータセットについて,クロスデータセット実験とアブレーション研究を行った。 データスキームのないセグメンテーションネットワークの性能と比較して,提案手法はIoU全体の改善を示す。 また,提案手法は特徴適応 (FA) や出力空間適応 (OSA) と比較しても性能が優れていることを確認した。

Semantic segmentation models based on convolutional neural networks (CNNs) have gained much attention in relation to remote sensing and have achieved remarkable performance for the extraction of buildings from high-resolution aerial images. However, the issue of limited generalization for unseen images remains. When there is a domain gap between the training and test datasets, CNN-based segmentation models trained by a training dataset fail to segment buildings for the test dataset. In this paper, we propose segmentation networks based on a domain adaptive transfer attack (DATA) scheme for building extraction from aerial images. The proposed system combines the domain transfer and adversarial attack concepts. Based on the DATA scheme, the distribution of the input images can be shifted to that of the target images while turning images into adversarial examples against a target network. Defending adversarial examples adapted to the target domain can overcome the performance degradation due to the domain gap and increase the robustness of the segmentation model. Cross-dataset experiments and the ablation study are conducted for the three different datasets: the Inria aerial image labeling dataset, the Massachusetts building dataset, and the WHU East Asia dataset. Compared to the performance of the segmentation network without the DATA scheme, the proposed method shows improvements in the overall IoU. Moreover, it is verified that the proposed method outperforms even when compared to feature adaptation (FA) and output space adaptation (OSA).
翻訳日:2022-12-14 09:58:44 公開日:2020-04-29
# グラフシーケンス反復推論によるAMR解析

AMR Parsing via Graph-Sequence Iterative Inference ( http://arxiv.org/abs/2004.05572v2 )

ライセンス: Link先を確認
Deng Cai and Wai Lam(参考訳) 本稿では,AMR解析を入力シーケンスとインクリメンタルに構築されたグラフ上での2つの決定の連続として扱うエンド・ツー・エンドのモデルを提案する。 各段階において、本モデルでは、(1)入力の「textit{sequence}」のどの部分を抽象化するか、(2)出力の「textit{graph}」で新しい概念を構築するかという2つの重要な疑問に答えるために、複数の注意、推論、合成を行う。 この2つの質問に対する回答が相互因果関係であることを示す。 我々は、両方の視点でより良い回答を得るのに役立つ反復推論に基づくモデルを設計し、解析精度を大幅に改善する。 実験結果は,前回報告したすべての \textsc{smatch} スコアを大きく上回った。 注目すべきは、大規模な事前訓練された言語モデル(例えばBERT)の助けなしに、我々のモデルは、既にBERTを使った以前の最先端の言語モデルを上回っていることだ。 BERT の助けを借りて、最先端の結果を LDC2017T10 (AMR 2.0) で 80.2 %、 LDC2014T12 (AMR 1.0) で 75.4 % まで押し上げることができる。

We propose a new end-to-end model that treats AMR parsing as a series of dual decisions on the input sequence and the incrementally constructed graph. At each time step, our model performs multiple rounds of attention, reasoning, and composition that aim to answer two critical questions: (1) which part of the input \textit{sequence} to abstract; and (2) where in the output \textit{graph} to construct the new concept. We show that the answers to these two questions are mutually causalities. We design a model based on iterative inference that helps achieve better answers in both perspectives, leading to greatly improved parsing accuracy. Our experimental results significantly outperform all previously reported \textsc{Smatch} scores by large margins. Remarkably, without the help of any large-scale pre-trained language model (e.g., BERT), our model already surpasses previous state-of-the-art using BERT. With the help of BERT, we can push the state-of-the-art results to 80.2\% on LDC2017T10 (AMR 2.0) and 75.4\% on LDC2014T12 (AMR 1.0).
翻訳日:2022-12-14 05:05:10 公開日:2020-04-29
# 無線センサネットワークにおける臨界ノード同定のための教師付き能動学習法

A supervised active learning method for identifying critical nodes in Wireless Sensor Network ( http://arxiv.org/abs/2004.08885v3 )

ライセンス: Link先を確認
Behnam Ojaghi Kahjogh and Mohammad Mahdi Dehshibi(参考訳) 無線センサネットワーク(WSN)のエネルギー効率は、ホップ数、ユーザの位置、割り当てられた電力、リレーなどの主な特性に依存する。 しかし,これらの特徴に影響を及ぼすノードの同定は,計算オーバーヘッドやエネルギー消費に大きく影響している。 本稿では,wsnにおける臨界ノード同定の計算オーバーヘッドに対処するためのアクティブラーニング手法を提案する。 提案手法は非クリティカルノードを識別するバイアスを克服し、wsnの動的性質に適応するための微調整の労力をはるかに少なくする。 この手法はクラスタリングと分類モジュールの協調によって、典型的な教師付き学習シナリオにおけるデータの要求数を反復的に減少させ、非クリティカルノードである非形式的な例の存在下での精度を高めることができる。 実験の結果,提案手法は,大規模WSN環境,第5世代モバイルネットワーク(5G),大規模分散IoT(センサネットワーク)など,ネットワークの寿命を延ばすことができる。

Energy Efficiency of a wireless sensor network (WSN) relies on its main characteristics, including hop-number, user's location, allocated power, and relay. Identifying nodes, which have more impact on these characteristics, is, however, subject to a substantial computational overhead and energy consumption. In this paper, we proposed an active learning approach to address the computational overhead of identifying critical nodes in a WSN. The proposed approach can overcome biasing in identifying non-critical nodes and needs much less effort in fine-tuning to adapt to the dynamic nature of WSN. This method benefits from the cooperation of clustering and classification modules to iteratively decrease the required number of data in a typical supervised learning scenario and to increase the accuracy in the presence of uninformative examples, i.e., non-critical nodes. Experiments show that the proposed method has more flexibility, compared to the state-of-the-art, to be employed in large scale WSN environments, the fifth-generation mobile networks (5G), and massively distributed IoT (i.e., sensor networks), where it can prolong the network lifetime.
翻訳日:2022-12-12 00:41:57 公開日:2020-04-29
# 大規模ニューラルネットワークモデルの逆学習

Adversarial Training for Large Neural Language Models ( http://arxiv.org/abs/2004.08994v2 )

ライセンス: Link先を確認
Xiaodong Liu, Hao Cheng, Pengcheng He, Weizhu Chen, Yu Wang, Hoifung Poon and Jianfeng Gao(参考訳) 一般化と堅牢性は、機械学習手法を設計する上で重要なデシデラタである。 敵対的なトレーニングは堅牢性を高めるが、過去の作業は一般化を損なうことが多い。 自然言語処理(NLP)では、BERTのような事前学習された大規模ニューラルネットワークモデルが、様々なタスクを一般化し、対向的な微調整によってさらに改善された。 しかし、これらのモデルはまだ敵攻撃に弱い。 本稿では,逆事前学習が一般化とロバスト性の両方を改善することを示す。 本研究では,学習目標を最大化する埋め込み空間に摂動を適用することにより,学習目標を定式化する汎用アルゴリズムアラムを提案する。 本研究は,全段階における対人訓練の総合的研究であり,スクラッチからの事前訓練,訓練済みモデルの継続事前訓練,タスク固有の微調整などである。 ALUMは、通常のシナリオと逆シナリオの両方において、広範囲のNLPタスクにおいてBERTよりも大幅に向上する。 RoBERTaのような非常に大きなテキストコーパスで十分に訓練されたモデルであっても、ALUMは継続的な事前学習から大きな利益を得られるが、従来の非逆行法では得られない。 ALUMはさらにタスク固有の微調整と組み合わせて追加のゲインを得ることもできる。 ALUMコードはhttps://github.com/namisan/mt-dnnで公開されている。

Generalization and robustness are both key desiderata for designing machine learning methods. Adversarial training can enhance robustness, but past work often finds it hurts generalization. In natural language processing (NLP), pre-training large neural language models such as BERT have demonstrated impressive gain in generalization for a variety of tasks, with further improvement from adversarial fine-tuning. However, these models are still vulnerable to adversarial attacks. In this paper, we show that adversarial pre-training can improve both generalization and robustness. We propose a general algorithm ALUM (Adversarial training for large neural LangUage Models), which regularizes the training objective by applying perturbations in the embedding space that maximizes the adversarial loss. We present the first comprehensive study of adversarial training in all stages, including pre-training from scratch, continual pre-training on a well-trained model, and task-specific fine-tuning. ALUM obtains substantial gains over BERT on a wide range of NLP tasks, in both regular and adversarial scenarios. Even for models that have been well trained on extremely large text corpora, such as RoBERTa, ALUM can still produce significant gains from continual pre-training, whereas conventional non-adversarial methods can not. ALUM can be further combined with task-specific fine-tuning to attain additional gains. The ALUM code is publicly available at https://github.com/namisan/mt-dnn.
翻訳日:2022-12-11 18:28:14 公開日:2020-04-29
# CodNN - コード分類によるロバストニューラルネットワーク

CodNN -- Robust Neural Networks From Coded Classification ( http://arxiv.org/abs/2004.10700v2 )

ライセンス: Link先を確認
Netanel Raviv, Siddharth Jain, Pulakesh Upadhyaya, Jehoshua Bruck, and Anxiao Jiang(参考訳) ディープニューラルネットワーク(Deep Neural Networks, DNN)は、現在進行中の情報革命における革命的な力である。 特に、dnnは、逆境であれランダムであれ、ノイズに非常に敏感であることが広く知られている。 これは、DNNのハードウェア実装と、自律運転のような重要なアプリケーションへの展開において、根本的な課題となる。 本稿では,誤り訂正符号を用いて堅牢なDNNを構築する。 提案手法により,DNNのデータ層あるいは内部層は誤り訂正符号で符号化され,ノイズ下での計算が成功することが保証される。 DNNは分類タスクの階層的結合と見なすことができるので、我々の研究はノイズコード入力を分類するコアタスクから始まり、堅牢なDNNへと進む。 バイナリデータと線形コードに重点を置いています。 我々の主な成果は、一般的なパリティコードは、最近普及した二項化ニューラルネットワークを含むDNNの大規模なファミリーに対して堅牢性を保証することができるということです。 さらに,符号付き分類問題はブール関数のフーリエ解析と深く関係していることを示す。 文献の既存のソリューションとは対照的に、我々の結果はDNNのトレーニングプロセスの変更に頼らず、実験的な証拠よりも数学的に厳密な保証を提供する。

Deep Neural Networks (DNNs) are a revolutionary force in the ongoing information revolution, and yet their intrinsic properties remain a mystery. In particular, it is widely known that DNNs are highly sensitive to noise, whether adversarial or random. This poses a fundamental challenge for hardware implementations of DNNs, and for their deployment in critical applications such as autonomous driving. In this paper we construct robust DNNs via error correcting codes. By our approach, either the data or internal layers of the DNN are coded with error correcting codes, and successful computation under noise is guaranteed. Since DNNs can be seen as a layered concatenation of classification tasks, our research begins with the core task of classifying noisy coded inputs, and progresses towards robust DNNs. We focus on binary data and linear codes. Our main result is that the prevalent parity code can guarantee robustness for a large family of DNNs, which includes the recently popularized binarized neural networks. Further, we show that the coded classification problem has a deep connection to Fourier analysis of Boolean functions. In contrast to existing solutions in the literature, our results do not rely on altering the training process of the DNN, and provide mathematically rigorous guarantees rather than experimental evidence.
翻訳日:2022-12-10 18:05:12 公開日:2020-04-29
# 顔と虹彩の提示攻撃検出のための深層畳み込みニューラルネットワーク:調査とケーススタディ

Deep convolutional neural networks for face and iris presentation attack detection: Survey and case study ( http://arxiv.org/abs/2004.12040v2 )

ライセンス: Link先を確認
Yomna Safaa El-Din, Mohamed N. Moustafa, Hani Mahdi(参考訳) バイオメトリック・プレゼンテーションによる攻撃検出が注目されている。 モバイルデバイスのユーザは、パスワードの代わりに指、顔、虹彩認証でスマートアプリケーションをアンロックする方が便利だ。 本稿では,近年の文献で提示された顔と虹彩の提示攻撃の検出手法について検討する。 具体的には、顔と虹彩のアンチスポーフィングのタスクに非常に深い畳み込みニューラルネットワークを微調整する効果について検討する。 6つのベンチマークデータセットに対する2つの異なる微調整手法を比較した。 その結果, 誤り率が非常に低い偽バイオメトリック画像と現実を区別できる識別的特徴の学習において, これらの深層モデルの有効性が示された。 顔PADのクロスデータセット評価は,術式よりも一般化が良好であった。 また,irispadデータセットに対して,従来文献では報告されていなかった同等のエラー率でクロスデータセットテストを実施した。 さらに,顔と虹彩の両方の攻撃を検出する訓練を施した1つのディープネットワークを提案する。 バイオメトリックスを個別にトレーニングしたネットワークと比較して,精度の劣化には気付いていない。 最後に,ネットワークによる学習特徴を画像周波数成分と相関して解析し,その予測決定を正当化した。

Biometric presentation attack detection is gaining increasing attention. Users of mobile devices find it more convenient to unlock their smart applications with finger, face or iris recognition instead of passwords. In this paper, we survey the approaches presented in the recent literature to detect face and iris presentation attacks. Specifically, we investigate the effectiveness of fine tuning very deep convolutional neural networks to the task of face and iris antispoofing. We compare two different fine tuning approaches on six publicly available benchmark datasets. Results show the effectiveness of these deep models in learning discriminative features that can tell apart real from fake biometric images with very low error rate. Cross-dataset evaluation on face PAD showed better generalization than state of the art. We also performed cross-dataset testing on iris PAD datasets in terms of equal error rate which was not reported in literature before. Additionally, we propose the use of a single deep network trained to detect both face and iris attacks. We have not noticed accuracy degradation compared to networks trained for only one biometric separately. Finally, we analyzed the learned features by the network, in correlation with the image frequency components, to justify its prediction decision.
翻訳日:2022-12-09 21:51:40 公開日:2020-04-29
# プライバシー保護型ディープニューラルネットワークにおける画像暗号化方式の攻撃

Attacks on Image Encryption Schemes for Privacy-Preserving Deep Neural Networks ( http://arxiv.org/abs/2004.13263v2 )

ライセンス: Link先を確認
Alex Habeen Chang, Benjamin M. Case(参考訳) プライバシ保存機械学習は、通常、同型暗号化やセキュアなマルチパーティ計算のような技術に依存する研究の活発な領域である。 近年,画像上でのディープニューラルネットワークを用いた機械学習の新たな暗号化技術が,田中,Sirichotedumrong,木下,木屋らによって提案されている。 本稿では,これら2つの画像暗号化方式に対する新しい選択平文と暗号文のみの攻撃を提案し,いくつかの例で攻撃の有効性を実証する。

Privacy preserving machine learning is an active area of research usually relying on techniques such as homomorphic encryption or secure multiparty computation. Recent novel encryption techniques for performing machine learning using deep neural nets on images have recently been proposed by Tanaka and Sirichotedumrong, Kinoshita, and Kiya. We present new chosen-plaintext and ciphertext-only attacks against both of these proposed image encryption schemes and demonstrate the attacks' effectiveness on several examples.
翻訳日:2022-12-08 22:40:54 公開日:2020-04-29
# 畳み込みネットワークに完全接続された出力層が必要か?

Do We Need Fully Connected Output Layers in Convolutional Networks? ( http://arxiv.org/abs/2004.13587v2 )

ライセンス: Link先を確認
Zhongchao Qian, Tyler L. Hayes, Kushal Kafle, Christopher Kanan(参考訳) 従来、深い畳み込みニューラルネットワークは一連の畳み込み層とプール層からなり、さらに1つ以上の完全連結層(fc層)が最終的な分類を行う。 この設計は成功したが、多くのカテゴリのデータセットでは、完全に接続された層がネットワークのパラメータの大部分を占めることが多い。 モバイルデバイスや組み込みプラットフォームのようなメモリ制約のあるアプリケーションにとって、これは理想的ではありません。 近年,学習された完全接続された出力層を固定層に置き換えるアーキテクチャのファミリが提案されている。 本稿では,この概念をさらに検討し,固定分類器がパラメータとともに出力層を単に取り除くことに比べ,追加の利点をもたらさないことを示す。 さらに,完全連結な最終出力層を持つ典型的なアプローチはパラメータ数では非効率であることを示す。 私たちは、ImageNet-1K、CIFAR-100、Stanford Cars-196、Oxford Flowers-102データセット上で、従来から学習されていた完全に接続された分類出力層に匹敵するパフォーマンスを実現しています。

Traditionally, deep convolutional neural networks consist of a series of convolutional and pooling layers followed by one or more fully connected (FC) layers to perform the final classification. While this design has been successful, for datasets with a large number of categories, the fully connected layers often account for a large percentage of the network's parameters. For applications with memory constraints, such as mobile devices and embedded platforms, this is not ideal. Recently, a family of architectures that involve replacing the learned fully connected output layer with a fixed layer has been proposed as a way to achieve better efficiency. In this paper we examine this idea further and demonstrate that fixed classifiers offer no additional benefit compared to simply removing the output layer along with its parameters. We further demonstrate that the typical approach of having a fully connected final output layer is inefficient in terms of parameter count. We are able to achieve comparable performance to a traditionally learned fully connected classification output layer on the ImageNet-1K, CIFAR-100, Stanford Cars-196, and Oxford Flowers-102 datasets, while not having a fully connected output layer at all.
翻訳日:2022-12-08 21:58:34 公開日:2020-04-29
# 照明変化に適応したプローブによる網膜血管の分節化

Retinal vessel segmentation by probing adaptive to lighting variations ( http://arxiv.org/abs/2004.13992v1 )

ライセンス: Link先を確認
Guillaume Noyel (IPRI, SIGPH@iPRI), Christine Vartin (HCL), Peter Boyle (IPRI, SIGPH@iPRI), Laurent Kodjikian (MATEIS, HCL)(参考訳) そこで本研究では,光の変動に適応したアイファンダス画像の血管抽出手法を提案する。 対数画像処理フレームワークにおいて、3セグメントプローブは、下方から画像の地形面を探査して容器を検出する。 プローブと画像の間のコントラストのマップは、しきい値によって容器を検出することができる。 低コントラスト画像では,本手法が他の最先端技術よりも船体を抽出する方がよいことが示された。 高いコントラストを持つ画像データベース(DRIVE)では,その精度は0.9454であり,その精度は3つの最先端手法と同等かそれ以上である。 3つのベストメソッドは、別の専門家による手動セグメンテーションよりも精度が高い。 重要なことに,本手法は画像取得の照明条件に自動的に適応する。

We introduce a novel method to extract the vessels in eye fun-dus images which is adaptive to lighting variations. In the Logarithmic Image Processing framework, a 3-segment probe detects the vessels by probing the topographic surface of an image from below. A map of contrasts between the probe and the image allows to detect the vessels by a threshold. In a lowly contrasted image, results show that our method better extract the vessels than another state-of the-art method. In a highly contrasted image database (DRIVE) with a reference , ours has an accuracy of 0.9454 which is similar or better than three state-of-the-art methods and below three others. The three best methods have a higher accuracy than a manual segmentation by another expert. Importantly, our method automatically adapts to the lighting conditions of the image acquisition.
翻訳日:2022-12-08 14:47:41 公開日:2020-04-29
# Caramel: 計算スケジューリングによる分散分散ディープラーニングの高速化

Caramel: Accelerating Decentralized Distributed Deep Learning with Computation Scheduling ( http://arxiv.org/abs/2004.14020v1 )

ライセンス: Link先を確認
Sayed Hadi Hashemi, Sangeetha Abdu Jyothi, Brighten Godfrey, Roy Campbell(参考訳) ネットワーク集約型タスクであるdeep neural network(dnn)トレーニングにおけるパラメータアグリゲーションの選択方法は、より優れたパフォーマンスの理論的保証にインスパイアされたパラメータサーバモデルから分散アグリゲーションスキーム(allreduce)に移行する。 しかし、AllReduceの現在の実装は、通信と計算の相互依存性を見落とし、性能が大幅に低下する。 本稿では,AllReduceのモデル対応計算スケジューリングと通信最適化により分散分散ディープラーニングを高速化するシステムであるCaramelを開発する。 キャラメルはこの目標を達成する (a)各パラメータ(転送境界)の転送可能なウィンドウを拡張する計算DAGスケジューリング、及び b) 適応的バッチ化やパラメータ転送のパイプライン化を含む負荷の平滑化のためのネットワーク最適化を行う。 Caramelは、データフローモデルの正確性を維持し、ハードウェアに依存しず、ユーザーレベルやフレームワークレベルの変更を必要としない。 TensorFlow上でCaramelを実装し、クラウド環境でのDNNトレーニングのイテレーション時間が最大3.62倍改善可能であることを示す。

The method of choice for parameter aggregation in Deep Neural Network (DNN) training, a network-intensive task, is shifting from the Parameter Server model to decentralized aggregation schemes (AllReduce) inspired by theoretical guarantees of better performance. However, current implementations of AllReduce overlook the interdependence of communication and computation, resulting in significant performance degradation. In this paper, we develop Caramel, a system that accelerates decentralized distributed deep learning through model-aware computation scheduling and communication optimizations for AllReduce. Caramel achieves this goal through (a) computation DAG scheduling that expands the feasible window of transfer for each parameter (transfer boundaries), and (b) network optimizations for smoothening of the load including adaptive batching and pipelining of parameter transfers. Caramel maintains the correctness of the dataflow model, is hardware-independent, and does not require any user-level or framework-level changes. We implement Caramel over TensorFlow and show that the iteration time of DNN training can be improved by up to 3.62x in a cloud environment.
翻訳日:2022-12-08 14:47:11 公開日:2020-04-29
# てんかん性脳波およびfmriデータの構造化因子化による神経血管結合バイオマーカーによるインターイクタルマッピングの増強

Augmenting interictal mapping with neurovascular coupling biomarkers by structured factorization of epileptic EEG and fMRI data ( http://arxiv.org/abs/2004.14185v1 )

ライセンス: Link先を確認
Simon Van Eyndhoven, Patrick Dupont, Simon Tousseyn, Nico Vervliet, Wim Van Paesschen, Sabine Van Huffel, Borb\'ala Hunyadi(参考訳) eeg-correlated fmri分析は、ictalの発症部位の局在を示す証拠となる、ictal epileptic dischargesと著しく同期する局所血中酸素濃度依存性の変動を検出するために広く用いられている。 しかし、このような非対称で大量不活性化的なアプローチでは、脳波データに内在する高次構造や、fmriデータにおける多変量関係は捉えられず、患者と脳領域の様々な神経血管結合を正確に扱うことは非自明である。 我々は,新しい構造的行列-テンソル因子分解法を用いて,これらの欠点を克服することを目的としている。 単一サブジェクトeegデータ(3次スペクトログラムテンソルとして表される)とfmriデータ(時空間的大胆な信号行列として表される)は,時空周波数プロファイルを特徴とする複数のソースの重ね合わせに分解される。 時間的共有モードでは、Toeplitz構造化因子は脳波とfMRIの時間的変動の間の空間的に特異的な神経血管の「ブリッジ」を説明でき、脳領域における血行動態の変動を捉える。 抽出されたソースシグネチャは、ictal発症ゾーンの感度の高い局在を提供し、さらに血行動態応答の空間的変動から補完的な局所化情報を導出できることを示す。 したがって、この多変量多変量分解は脳波-fMRIバイオマーカーの2つの有用なセットを提供する。 計算の実行に必要なすべてのコードを利用可能にします。

EEG-correlated fMRI analysis is widely used to detect regional blood oxygen level dependent fluctuations that are significantly synchronized to interictal epileptic discharges, which can provide evidence for localizing the ictal onset zone. However, such an asymmetrical, mass-univariate approach cannot capture the inherent, higher order structure in the EEG data, nor multivariate relations in the fMRI data, and it is nontrivial to accurately handle varying neurovascular coupling over patients and brain regions. We aim to overcome these drawbacks in a data-driven manner by means of a novel structured matrix-tensor factorization: the single-subject EEG data (represented as a third-order spectrogram tensor) and fMRI data (represented as a spatiotemporal BOLD signal matrix) are jointly decomposed into a superposition of several sources, characterized by space-time-frequency profiles. In the shared temporal mode, Toeplitz-structured factors account for a spatially specific, neurovascular `bridge' between the EEG and fMRI temporal fluctuations, capturing the hemodynamic response's variability over brain regions. We show that the extracted source signatures provide a sensitive localization of the ictal onset zone, and, moreover, that complementary localizing information can be derived from the spatial variation of the hemodynamic response. Hence, this multivariate, multimodal factorization provides two useful sets of EEG-fMRI biomarkers, which can inform the presurgical evaluation of epilepsy. We make all code required to perform the computations available.
翻訳日:2022-12-08 14:46:52 公開日:2020-04-29
# シャノンエントロピーを用いたNPAのグロース低減とデフォルマの分類

To Reduce Gross NPA and Classify Defaulters Using Shannon Entropy ( http://arxiv.org/abs/2004.14418v1 )

ライセンス: Link先を確認
Ambarish Moharil, Nikhil Sonavane, Chirag Kedia, Mansimran Singh Anand(参考訳) 非業績資産(NPA)はここ数年、銀行から深刻な注目を集めている。 NPAは銀行に大きな損失をもたらすため、どのローンがNPAになる能力を持つかを決め、どのローンを承認するか、どのローンを拒否するかを決定する非常に重要なステップとなる。 本稿では,金融データの正確さに着目したアルゴリズムを提案し,将来,特定のローンがNPAに分類されるかどうかを極めて高精度に予測する。 従来のより正確でない分類器の代わりに、どのローンをNPAにするかを決定するために、Entropyをベースとして独自の分類器モデルを構築します。 シャノンエントロピーを用いたエントロピーに基づく分類器を開発した。 分類器モデルは、データポイントを2つのカテゴリに分類します。 局所エントロピーとグローバルエントロピーを使用して、アウトプットを決定するのに役立ちます。 エントロピー分類器モデルは、NPAの予測に使われている既存の分類器と比較され、性能に関するアイデアが得られます。

Non Performing Asset(NPA) has been in a serious attention by banks over the past few years. NPA cause a huge loss to the banks hence it becomes an extremely critical step in deciding which loans have the capabilities to become an NPA and thereby deciding which loans to grant and which ones to reject. In this paper which focuses on the exact crux of the matter we have proposed an algorithm which is designed to handle the financial data very meticulously to predict with a very high accuracy whether a particular loan would be classified as a NPA in future or not. Instead of the conventional less accurate classifiers used to decide which loans can turn to be NPA we build our own classifier model using Entropy as the base. We have created an entropy based classifier using Shannon Entropy. The classifier model categorizes our data points in two categories accepted or rejected. We make use of local entropy and global entropy to help us determine the output. The entropy classifier model is then compared with existing classifiers used to predict NPAs thereby giving us an idea about the performance.
翻訳日:2022-12-08 14:45:29 公開日:2020-04-29
# 特異摂動近似を用いた低次元強化学習制御

Reduced-Dimensional Reinforcement Learning Control using Singular Perturbation Approximations ( http://arxiv.org/abs/2004.14501v1 )

ライセンス: Link先を確認
Sayak Mukherjee, He Bai, Aranya Chakrabortty(参考訳) 本稿では,線形時間不変特異摂動(SP)システムに対するモデルフリー,還元次元強化学習(RL)に基づく最適制御設計を提案する。 まず,未知状態と入力行列を持つ汎用spシステムの状態フィードバックと出力フィードバックに基づくrl制御設計を提案する。 プラントの時間スケール分離特性を生かして、線形二次制御器(LQR)を学習し、従来のフル次元RLコントローラと比較して学習時間を大幅に短縮する。 我々はSP近似定理を用いて設計の準最適性を解析し、閉ループ安定性に十分な条件を提供する。 その後,sp特性がクラスタリングを通じて反映するマルチエージェントコンセンサスネットワークに,両設計を拡張した。 このようなネットワークのための集中型およびクラスタ型ブロック分散RLコントローラを,次元を縮小した形で開発する。 関連する数値例のシミュレーションを用いて,これらの制御器の実装の詳細を実証し,従来のrl設計と比較し,計算の利点を示す。

We present a set of model-free, reduced-dimensional reinforcement learning (RL) based optimal control designs for linear time-invariant singularly perturbed (SP) systems. We first present a state-feedback and output-feedback based RL control design for a generic SP system with unknown state and input matrices. We take advantage of the underlying time-scale separation property of the plant to learn a linear quadratic regulator (LQR) for only its slow dynamics, thereby saving a significant amount of learning time compared to the conventional full-dimensional RL controller. We analyze the sub-optimality of the design using SP approximation theorems and provide sufficient conditions for closed-loop stability. Thereafter, we extend both designs to clustered multi-agent consensus networks, where the SP property reflects through clustering. We develop both centralized and cluster-wise block-decentralized RL controllers for such networks, in reduced dimensions. We demonstrate the details of the implementation of these controllers using simulations of relevant numerical examples and compare them with conventional RL designs to show the computational benefits of our approach.
翻訳日:2022-12-08 14:45:13 公開日:2020-04-29
# QUBOタスクのためのニューラルネットワークのトレーニングに関する考察

Insights on Training Neural Networks for QUBO Tasks ( http://arxiv.org/abs/2004.14036v1 )

ライセンス: Link先を確認
Thomas Gabor, Sebastian Feld, Hila Safi, Thomy Phan, Claudia Linnhoff-Popien (LMU Munich)(参考訳) 現在のハードウェア制限は、量子近似最適化アルゴリズム(QAOA)または量子アニーリング(QA)を介して2次非制約バイナリ最適化(QUBO)問題を解く際のポテンシャルを制限する。 したがって、この文脈でニューラルネットワークを訓練することを検討する。 本稿ではまず,旅行セールスマン問題(TSP)の翻訳事例から得られたQUBO問題について論じる。 次に、qubo入力とオートエンコーダのhiddenstate表現の両方からtspインスタンスを解くためにニューラルネットワークが使用できることを示す。 最終的にこのアプローチを一般化し、任意のQUBO問題を解決するためにニューラルネットワークをトレーニングし、神経型ハードウェアをシミュレータや量子コンピューティングのための余分なコプロセッサとして使用するためのスケッチを行う。

Current hardware limitations restrict the potential when solving quadratic unconstrained binary optimization (QUBO) problems via the quantum approximate optimization algorithm (QAOA) or quantum annealing (QA). Thus, we consider training neural networks in this context. We first discuss QUBO problems that originate from translated instances of the traveling salesman problem (TSP): Analyzing this representation via autoencoders shows that there is way more information included than necessary to solve the original TSP. Then we show that neural networks can be used to solve TSP instances from both QUBO input and autoencoders' hiddenstate representation. We finally generalize the approach and successfully train neural networks to solve arbitrary QUBO problems, sketching means to use neuromorphic hardware as a simulator or an additional co-processor for quantum computing.
翻訳日:2022-12-08 14:38:16 公開日:2020-04-29
# サイバー脅威報告のためのATT&CK戦術と技術の自動検索

Automated Retrieval of ATT&CK Tactics and Techniques for Cyber Threat Reports ( http://arxiv.org/abs/2004.14322v1 )

ライセンス: Link先を確認
Valentine Legoy, Marco Caselli, Christin Seifert, and Andreas Peter(参考訳) 過去数年間、脅威情報共有は着実に増加し、サイバーセキュリティの専門家はますます大量の異種データにアクセスするようになった。 このうち、サイバー攻撃の戦術・技術・手続き(TTP)は、脅威俳優の行動を特徴づけ、防御対策を改善するために特に有用であることが証明されている。 残念ながら、この情報は人間が読めるテキストのレポートの中に隠されており、手動で抽出する必要がある。 本稿では,非構造化テキストからTPを自動的に抽出するいくつかの分類手法を評価する。 これらのアプローチを実装するために、我々はmitre att&ckフレームワークを利用する。mitre att&ckフレームワークは、敵戦術とテクニックのオープンナレッジベースで、分類器とラベル結果のトレーニングを行う。 最後に、我々の発見に基づいて構築されたツールrcATTを紹介し、サイバー脅威レポートの自動分析をサポートするために、セキュリティコミュニティに自由に配布する。

Over the last years, threat intelligence sharing has steadily grown, leading cybersecurity professionals to access increasingly larger amounts of heterogeneous data. Among those, cyber attacks' Tactics, Techniques and Procedures (TTPs) have proven to be particularly valuable to characterize threat actors' behaviors and, thus, improve defensive countermeasures. Unfortunately, this information is often hidden within human-readable textual reports and must be extracted manually. In this paper, we evaluate several classification approaches to automatically retrieve TTPs from unstructured text. To implement these approaches, we take advantage of the MITRE ATT&CK framework, an open knowledge base of adversarial tactics and techniques, to train classifiers and label results. Finally, we present rcATT, a tool built on top of our findings and freely distributed to the security community to support cyber threat report automated analysis.
翻訳日:2022-12-08 14:38:00 公開日:2020-04-29
# スパースデータセットからの学習:機械学習によるコンクリートの強度予測

Learning from Sparse Datasets: Predicting Concrete's Strength by Machine Learning ( http://arxiv.org/abs/2004.14407v1 )

ライセンス: Link先を確認
Boya Ouyang, Yuhai Li, Yu Song, Feishu Wu, Huizi Yu, Yongzhe Wang, Mathieu Bauchy, and Gaurav Sant(参考訳) コンクリート比例と強度の関係を確立するための過去数十年の多大な努力にもかかわらず、正確なコンクリートの強度予測のための堅牢な知識ベースモデルはまだ不足している。 物理モデルや化学モデルに代わるものとして、データ駆動機械学習(ML)メソッドは、この問題に対する新しい解決策を提供する。 このアプローチは、コンクリート混合物の割合と強度の間の複雑で非線形で非付加的な関係を扱うことを約束するが、MLの大きな制限は、モデルトレーニングに大規模なデータセットが必要であるという事実にある。 信頼性が高く、一貫性のある強度のデータは、特に現実的な工業用コンクリートでは、かなり限られている。 ここでは, 産業生産コンクリートから得られた圧縮強度の大規模データセット (>10,000) を分析した結果, MLアルゴリズムを選択して, モデルの大きさの関数として, コンクリート強度を確実に予測する方法を「学習」する能力の比較を行った。 これらの結果に基づき、与えられたモデルが最終的に(大規模なデータセットでトレーニングされた場合)どれだけ正確であるかと、そのモデルのトレーニングに実際にどれだけのデータが必要かの競合について論じる。

Despite enormous efforts over the last decades to establish the relationship between concrete proportioning and strength, a robust knowledge-based model for accurate concrete strength predictions is still lacking. As an alternative to physical or chemical-based models, data-driven machine learning (ML) methods offer a new solution to this problem. Although this approach is promising for handling the complex, non-linear, non-additive relationship between concrete mixture proportions and strength, a major limitation of ML lies in the fact that large datasets are needed for model training. This is a concern as reliable, consistent strength data is rather limited, especially for realistic industrial concretes. Here, based on the analysis of a large dataset (>10,000 observations) of measured compressive strengths from industrially-produced concretes, we compare the ability of select ML algorithms to "learn" how to reliably predict concrete strength as a function of the size of the dataset. Based on these results, we discuss the competition between how accurate a given model can eventually be (when trained on a large dataset) and how much data is actually required to train this model.
翻訳日:2022-12-08 14:37:21 公開日:2020-04-29
# Packet2Vec: パケットデータの特徴抽出にWord2Vecを使用する

Packet2Vec: Utilizing Word2Vec for Feature Extraction in Packet Data ( http://arxiv.org/abs/2004.14477v1 )

ライセンス: Link先を確認
Eric L. Goodman, Chase Zimmerman, Corey Hudson(参考訳) 深層学習の魅力的な利点の1つは、人工学的・エラーがちな手工芸的特徴ではなく、主に生のデータからターゲット問題に関連する特徴を自動的に抽出する能力である。 ディープラーニングは画像分類や自然言語処理といった分野で成功を収めているが、侵入検出のための生のネットワークパケットデータの特徴抽出への応用はほとんど未定である。 本稿では,Word2Vecを用いてテキスト処理を行い,それをパケットデータに適用して自動特徴抽出を行う。 これをPacket2Vecと呼ぶ。 2009 DARPA のネットワークデータセット上での良性対悪性トラフィックの分類タスクでは、0.988-0.996 と精度/リコール曲線 0.604-0.667 の間の受信機動作特性(ROC)の曲線(AUC)の下の領域を得る。

One of deep learning's attractive benefits is the ability to automatically extract relevant features for a target problem from largely raw data, instead of utilizing human engineered and error prone handcrafted features. While deep learning has shown success in fields such as image classification and natural language processing, its application for feature extraction on raw network packet data for intrusion detection is largely unexplored. In this paper we modify a Word2Vec approach, used for text processing, and apply it to packet data for automatic feature extraction. We call this approach Packet2Vec. For the classification task of benign versus malicious traffic on a 2009 DARPA network data set, we obtain an area under the curve (AUC) of the receiver operating characteristic (ROC) between 0.988-0.996 and an AUC of the Precision/Recall curve between 0.604-0.667.
翻訳日:2022-12-08 14:37:02 公開日:2020-04-29
# コード切り換え音声認識のためのメタ転送学習

Meta-Transfer Learning for Code-Switched Speech Recognition ( http://arxiv.org/abs/2004.14228v1 )

ライセンス: Link先を確認
Genta Indra Winata, Samuel Cahyawijaya, Zhaojiang Lin, Zihan Liu, Peng Xu, Pascale Fung(参考訳) 今日、多言語である結果として、世界の多くの人々が混合言語を話します。 しかし,コードスイッチングのための音声認識システムの構築は,限られた資源と混在するデータ収集に要する費用と多大な労力のため,依然として困難である。 そこで本稿では,低リソース環境下でのコード切替音声認識システムにおける学習を,高リソースのモノリンガルデータセットから任意に抽出することで,新たな学習手法であるメタトランスファー学習を提案する。 本モデルでは,コードスイッチングデータに最適化を条件付けることにより,個々の言語を識別し,混合言語音声をよりよく認識できるように変換する。 実験結果に基づいて,本モデルは音声認識や言語モデリングタスクにおける既存のベースラインよりも優れ,収束がより高速である。

An increasing number of people in the world today speak a mixed-language as a result of being multilingual. However, building a speech recognition system for code-switching remains difficult due to the availability of limited resources and the expense and significant effort required to collect mixed-language data. We therefore propose a new learning method, meta-transfer learning, to transfer learn on a code-switched speech recognition system in a low-resource setting by judiciously extracting information from high-resource monolingual datasets. Our model learns to recognize individual languages, and transfer them so as to better recognize mixed-language speech by conditioning the optimization on the code-switching data. Based on experimental results, our model outperforms existing baselines on speech recognition and language modeling tasks, and is faster to converge.
翻訳日:2022-12-08 14:30:07 公開日:2020-04-29
# 適応画像分割のためのオートエンコーダ戦略

An Auto-Encoder Strategy for Adaptive Image Segmentation ( http://arxiv.org/abs/2004.13903v1 )

ライセンス: Link先を確認
Evan M. Yu, Juan Eugenio Iglesias, Adrian V. Dalca, Mert R. Sabuncu(参考訳) ディープニューラルネットワークは、バイオメディカルイメージセグメンテーションの強力なツールである。 これらのモデルは、しばしば、画像のペアと対応するボクセルレベルのラベルに依存して、重い監督で訓練される。 しかし、多くのケースで解剖学的領域のセグメント化を得ることは、非常に高価である。 したがって、深層学習に基づくセグメンテーションツールには、大量の監督を必要としない、継続的に適応できる強いニーズがある。 本稿では,離散表現学習問題としてのセグメンテーションの新しい展望を提案し,柔軟かつ適応的な変分オートエンコーダセグメンテーション戦略を提案する。 我々の手法は、SAE(Segmentation Auto-Encoder)と呼ばれ、利用可能なすべての未ラベルのスキャンを活用し、単に1つの未ペアのセグメンテーションイメージであるセグメンテーション前を必要とするだけである。 実験では、脳MRIスキャンにSAEを適用した。 以上の結果から,SAEは品質のよいセグメンテーションを生成できることが示唆された。 マルコフ確率場前駆は空間的に独立な前駆体よりもはるかに良い結果が得られることを示す。 私たちのコードはhttps://github.com/evanmy/saeで無料で利用できます。

Deep neural networks are powerful tools for biomedical image segmentation. These models are often trained with heavy supervision, relying on pairs of images and corresponding voxel-level labels. However, obtaining segmentations of anatomical regions on a large number of cases can be prohibitively expensive. Thus there is a strong need for deep learning-based segmentation tools that do not require heavy supervision and can continuously adapt. In this paper, we propose a novel perspective of segmentation as a discrete representation learning problem, and present a variational autoencoder segmentation strategy that is flexible and adaptive. Our method, called Segmentation Auto-Encoder (SAE), leverages all available unlabeled scans and merely requires a segmentation prior, which can be a single unpaired segmentation image. In experiments, we apply SAE to brain MRI scans. Our results show that SAE can produce good quality segmentations, particularly when the prior is good. We demonstrate that a Markov Random Field prior can yield significantly better results than a spatially independent prior. Our code is freely available at https://github.com/evanmy/sae.
翻訳日:2022-12-08 14:29:54 公開日:2020-04-29
# ハイパースペクトル画像分類のための高速3次元CNN

A Fast 3D CNN for Hyperspectral Image Classification ( http://arxiv.org/abs/2004.14152v1 )

ライセンス: Link先を確認
Muhammad Ahmad(参考訳) ハイパースペクトルイメージング(HSI)は、多くの現実世界の用途に広く利用されている。 HSI分類(HSIC)は、高いクラス間類似性、高いクラス内変動性、重複、ネストされた領域のために難しい課題である。 2次元畳み込みニューラルネットワーク(CNN)は、HSICがスペクトル空間情報と空間情報の両方に大きく依存しているため、3D CNNは体積とスペクトル次元のため、代替となるが計算量が大きい。 さらに、これらのモデルは質の高い特徴マップを抽出せず、類似したテクスチャを持つ領域で性能が劣る可能性がある。 そこで本研究では,空間スペクトル特徴マップを併用した3次元cnnモデルを提案する。 この性能を達成するために、まずHSI立方体を小さな重なり合う3Dパッチに分割する。 これらのパッチは後に処理され、スペクトル情報を持続する複数の連続帯域上の3Dカーネル関数を使用して3D特徴マップを生成する。 ベンチマークhsiデータセット (pavia university, salinas and indian pines) は,提案手法の性能を検証する。 結果はいくつかの最先端手法と比較される。

Hyperspectral imaging (HSI) has been extensively utilized for a number of real-world applications. HSI classification (HSIC) is a challenging task due to high inter-class similarity, high intra-class variability, overlapping, and nested regions. A 2D Convolutional Neural Network (CNN) is a viable approach whereby HSIC highly depends on both Spectral-Spatial information, therefore, 3D CNN can be an alternative but highly computational complex due to the volume and spectral dimensions. Furthermore, these models do not extract quality feature maps and may underperform over the regions having similar textures. Therefore, this work proposed a 3D CNN model that utilizes both spatial-spectral feature maps to attain good performance. In order to achieve the said performance, the HSI cube is first divided into small overlapping 3D patches. Later these patches are processed to generate 3D feature maps using a 3D kernel function over multiple contiguous bands that persevere the spectral information as well. Benchmark HSI datasets (Pavia University, Salinas and Indian Pines) are considered to validate the performance of our proposed method. The results are further compared with several state-of-the-art methods.
翻訳日:2022-12-08 14:28:45 公開日:2020-04-29
# 地図と社会的コンテキストを用いた都市環境における車両の行動系列予測

Action Sequence Predictions of Vehicles in Urban Environments using Map and Social Context ( http://arxiv.org/abs/2004.14251v1 )

ライセンス: Link先を確認
Jan-Nico Zaech, Dengxin Dai, Alexander Liniger, Luc Van Gool(参考訳) 本研究は、実世界の運転シナリオにおける周辺車両の将来の行動の系列予測の問題を研究するものである。 この目的のために、私たちは3つの主要な貢献をします。 最初の貢献は、現実世界の運転シナリオに記録された軌跡をHDマップの助けを借りてアクションシーケンスに変換する自動手法である。 この方法は大規模運転データからこのタスクの自動データセット作成を可能にする。 2つめの貢献は、よく知られたトラヒックエージェントの追跡と予測データセットargoverseに適用し、228,000のアクションシーケンスを生成することです。 さらに、2,245のアクションシーケンスが手動でアノテートされた。 第3のコントリビューションは,交通エージェント,地図情報,社会状況の過去の位置と速度を,単一エンドツーエンドのトレーニング可能なニューラルネットワークに統合して,新たな行動シーケンス予測手法を提案することである。 本実験は,データ生成法と生成したデータセットの値のメリットを実証する。予測性能はデータセットのサイズと一貫して向上し,提案手法が比較モデルを上回ることを示す。

This work studies the problem of predicting the sequence of future actions for surround vehicles in real-world driving scenarios. To this aim, we make three main contributions. The first contribution is an automatic method to convert the trajectories recorded in real-world driving scenarios to action sequences with the help of HD maps. The method enables automatic dataset creation for this task from large-scale driving data. Our second contribution lies in applying the method to the well-known traffic agent tracking and prediction dataset Argoverse, resulting in 228,000 action sequences. Additionally, 2,245 action sequences were manually annotated for testing. The third contribution is to propose a novel action sequence prediction method by integrating past positions and velocities of the traffic agents, map information and social context into a single end-to-end trainable neural network. Our experiments prove the merit of the data creation method and the value of the created dataset - prediction performance improves consistently with the size of the dataset and shows that our action prediction method outperforms comparing models.
翻訳日:2022-12-08 14:28:28 公開日:2020-04-29
# 数発パッチベーストレーニングによるインタラクティブビデオスタイライゼーション

Interactive Video Stylization Using Few-Shot Patch-Based Training ( http://arxiv.org/abs/2004.14489v1 )

ライセンス: Link先を確認
Ond\v{r}ej Texler, David Futschik, Michal Ku\v{c}era, Ond\v{r}ej Jamri\v{s}ka, \v{S}\'arka Sochorov\'a, Menglei Chai, Sergey Tulyakov, and Daniel S\'ykora(参考訳) 本稿では,キーフレームに基づくビデオスタイライゼーションにおいて,アーティストが選択したキーフレームから他のシーケンスへスタイルを伝達する学習ベースの手法を提案する。 その主な利点は、結果として得られるスタイル化が意味論的に意味があり、つまり、動く物体の特定の部分がアーティストの意図に従ってスタイル化されることである。 従来のスタイル転送技術とは対照的に、このアプローチでは、長い事前トレーニングプロセスや大規模なトレーニングデータセットは不要です。 時間的一貫性を暗黙的に保ちながら,数種類のスタイリッシュなexemplarのみを使用して,出現翻訳ネットワークをスクラッチからトレーニングする方法を実証する。 これにより、リアルタイム推論、並列処理、任意の出力フレームへのランダムアクセスをサポートするビデオスタイライゼーションフレームワークが実現される。 明示的なブレンディング操作を行う必要なしに、複数のキーフレームからコンテンツをマージすることもできる。 ユーザが選択したキーフレームにペンキを塗り、そのスタイルを既存の記録シーケンスやライブビデオストリームに転送する、様々なインタラクティブなシナリオにおいて、その実用性を実証する。

In this paper, we present a learning-based method to the keyframe-based video stylization that allows an artist to propagate the style from a few selected keyframes to the rest of the sequence. Its key advantage is that the resulting stylization is semantically meaningful, i.e., specific parts of moving objects are stylized according to the artist's intention. In contrast to previous style transfer techniques, our approach does not require any lengthy pre-training process nor a large training dataset. We demonstrate how to train an appearance translation network from scratch using only a few stylized exemplars while implicitly preserving temporal consistency. This leads to a video stylization framework that supports real-time inference, parallel processing, and random access to an arbitrary output frame. It can also merge the content from multiple keyframes without the need to perform an explicit blending operation. We demonstrate its practical utility in various interactive scenarios, where the user paints over a selected keyframe and sees her style transferred to an existing recorded sequence or a live video stream.
翻訳日:2022-12-08 14:28:11 公開日:2020-04-29
# FitChat:高齢者の身体活動を促進するための会話型人工知能

FitChat: Conversational Artificial Intelligence Interventions for Encouraging Physical Activity in Older Adults ( http://arxiv.org/abs/2004.14067v1 )

ライセンス: Link先を確認
Nirmalie Wiratunga, Kay Cooper, Anjana Wijekoon, Chamath Palihawadana, Vanessa Mendham, Ehud Reiter, Kyle Martin(参考訳) 身体活動を促進するデジタル行動変化の介入は、様々な形で試みられている。 ほとんどの場合、介入はテキスト通知として配信されるが、インタラクションを促進するものではない。 会話型AIの進歩は、自然言語の理解と生成を改善し、AIチャットボットがユーザと魅力的な体験を提供できるようにした。 このため、チャットボットは最近、無料テキストや選択の選択を通じてデジタル介入を提供する医療分野で見られるようになった。 本研究では,高齢者の身体活動を促進することを目的とした,音声ベースのaiチャットボットを,新たな介入配信方式として利用することを検討する。 我々は、AIチャットボット「FitChat」を高齢者と共同で作成し、Think Aloud Sessionsを用いた最初のプロトタイプを評価した。 私たちのテーマ評価は、高齢者がテキスト通知や無料テキスト入力よりも音声ベースのチャットを好むことを示唆している。

Delivery of digital behaviour change interventions which encourage physical activity has been tried in many forms. Most often interventions are delivered as text notifications, but these do not promote interaction. Advances in conversational AI have improved natural language understanding and generation, allowing AI chatbots to provide an engaging experience with the user. For this reason, chatbots have recently been seen in healthcare delivering digital interventions through free text or choice selection. In this work, we explore the use of voice-based AI chatbots as a novel mode of intervention delivery, specifically targeting older adults to encourage physical activity. We co-created "FitChat", an AI chatbot, with older adults and we evaluate the first prototype using Think Aloud Sessions. Our thematic evaluation suggests that older adults prefer voice-based chat over text notifications or free text entry and that voice is a powerful mode for encouraging motivation.
翻訳日:2022-12-08 14:27:54 公開日:2020-04-29
# 学習手法を用いた自動車用TS-MPC

TS-MPC for Autonomous Vehicle using a Learning Approach ( http://arxiv.org/abs/2004.14362v1 )

ライセンス: Link先を確認
Eugenio Alcal\'a, Olivier Sename, Vicen\c{c} Puig, and Joseba Quevedo(参考訳) 本稿では,車両力学の高木・スゲノ(TS)表現を学習するために,データ駆動方式を用いたモデル予測制御(MPC)と移動水平推定器(MHE)戦略を提案する。 TSモデリングに対処するため,適応型ニューロファジィ推論システム(ANFIS)アプローチを用いて,異なる線形サブシステムに対して非線形に関連付けられたメンバーシップ関数のセットと,ポリトピックに基づく線形表現のセットを得る。 提案手法は,外部プランナのレースベース参照と,レースモードで高い駆動性能を提供するMHEからの推定により提案される。 提案手法の有効性を示すため, シミュレーションレース環境で制御推定方式を検証した。

In this paper, the Model Predictive Control (MPC) and Moving Horizon Estimator (MHE) strategies using a data-driven approach to learn a Takagi-Sugeno (TS) representation of the vehicle dynamics are proposed to solve autonomous driving control problems in real-time. To address the TS modeling, we use the Adaptive Neuro-Fuzzy Inference System (ANFIS) approach to obtain a set of polytopic-based linear representations as well as a set of membership functions relating in a non-linear way the different linear subsystems. The proposed control approach is provided by racing-based references of an external planner and estimations from the MHE offering a high driving performance in racing mode. The control-estimation scheme is tested in a simulated racing environment to show the potential of the presented approaches.
翻訳日:2022-12-08 14:27:39 公開日:2020-04-29
# 透明な巨大ページによる推論の高速化に向けて

Towards Faster Reasoners By Using Transparent Huge Pages ( http://arxiv.org/abs/2004.14378v1 )

ライセンス: Link先を確認
Johannes K. Fichte, Norbert Manthey, Julian Stecklina, Andr\'e Schidler(参考訳) 様々な最先端自動化推論(ar)ツールは、知識表現と推論の研究や産業アプリケーションでバックエンドツールとして広く使われている。 テストと検証では、これらのツールは連続的あるいは夜間に実行されることが多い。 本研究では,ARツールのランタイムを平均で10%,長期実行タスクで最大20%削減するアプローチを提案する。 我々の改善は、ARツールで使用されるデータ構造に付随する高メモリ使用量に対処しています。 最新のハードウェアのメモリキャッシュラインをより効率的に利用することにより、メモリアクセスを高速化する一般的な方法を確立する。 そこで我々は,標準cライブラリ(glibc)を動的に拡張し,巨大ページと呼ばれるメモリ管理機能を利用可能にした。 巨大なページは、オペレーティングシステムの仮想メモリとハードウェアの物理メモリの間でメモリアドレスを変換するために必要なオーバーヘッドを削減することができる。 このようにして、コンパイル時にツールとこの新しいglibcライブラリをリンクするだけで、同様のメモリアクセスパターンを持つarツールやアプリケーションのランタイム、コスト、エネルギー消費量を削減できる。 毎日の産業アプリケーションでは、計算においてよりエコフレンドリーになる。 要求されるスピードアップを支援するために、ASP、BMC、MaxSAT、SAT、SMTといったARコミュニティで一般的に使われているツールの実験結果を示す。

Various state-of-the-art automated reasoning (AR) tools are widely used as backend tools in research of knowledge representation and reasoning as well as in industrial applications. In testing and verification, those tools often run continuously or nightly. In this work, we present an approach to reduce the runtime of AR tools by 10% on average and up to 20% for long running tasks. Our improvement addresses the high memory usage that comes with the data structures used in AR tools, which are based on conflict driven no-good learning. We establish a general way to enable faster memory access by using the memory cache line of modern hardware more effectively. Therefore, we extend the standard C library (glibc) by dynamically allowing to use a memory management feature called huge pages. Huge pages allow to reduce the overhead that is required to translate memory addresses between the virtual memory of the operating system and the physical memory of the hardware. In that way, we can reduce runtime, costs, and energy consumption of AR tools and applications with similar memory access patterns simply by linking the tool against this new glibc library when compiling it. In every day industrial applications this easily allows to be more eco-friendly in computation. To back up the claimed speed-up, we present experimental results for tools that are commonly used in the AR community, including the domains ASP, BMC, MaxSAT, SAT, and SMT.
翻訳日:2022-12-08 14:27:22 公開日:2020-04-29
# 会話検索における話題伝播

Topic Propagation in Conversational Search ( http://arxiv.org/abs/2004.14054v1 )

ライセンス: Link先を確認
I. Mele, C. I. Muntean, F. M. Nardini, R. Perego, N. Tonellotto, O. Frieder(参考訳) 会話的文脈において、ユーザは、多面的な情報を必要とすることを、自然言語の質問、すなわち発話のシーケンスとして表現する。 あるトピックから始まる会話は、ユーザの発話とシステム応答を通じて進化する。 会話における発話に関連する文書の検索は、自然言語のあいまいさと、発話間の話題の変化や意味的関係を検出することの難しさにより困難である。 2019 TREC Conversational Assistant Track (CAsT) フレームワークを採用して、モジュールアーキテクチャのパフォーマンスを実験する。 (i)話題対応の発話書き直し (ii)書き直し文の候補文の検索 (iii) 候補パスのニューラルベース再ランキング。 従来の赤外計測値から評価したアーキテクチャを,小さなカットオフで総合的に実験的に評価した。 実験の結果, p@1では0.28 (+93%) , ndcg@3 w.r.tでは 0.19 (+89.9%) の改善が得られた。

In a conversational context, a user expresses her multi-faceted information need as a sequence of natural-language questions, i.e., utterances. Starting from a given topic, the conversation evolves through user utterances and system replies. The retrieval of documents relevant to a given utterance in a conversation is challenging due to ambiguity of natural language and to the difficulty of detecting possible topic shifts and semantic relationships among utterances. We adopt the 2019 TREC Conversational Assistant Track (CAsT) framework to experiment with a modular architecture performing: (i) topic-aware utterance rewriting, (ii) retrieval of candidate passages for the rewritten utterances, and (iii) neural-based re-ranking of candidate passages. We present a comprehensive experimental evaluation of the architecture assessed in terms of traditional IR metrics at small cutoffs. Experimental results show the effectiveness of our techniques that achieve an improvement up to 0.28 (+93%) for P@1 and 0.19 (+89.9%) for nDCG@3 w.r.t. the CAsT baseline.
翻訳日:2022-12-08 14:20:29 公開日:2020-04-29
# 文脈化単語表現を用いた語彙意味変化の分析

Analysing Lexical Semantic Change with Contextualised Word Representations ( http://arxiv.org/abs/2004.14118v1 )

ライセンス: Link先を確認
Mario Giulianelli, Marco Del Tredici, Raquel Fern\'andez(参考訳) 本稿では,文脈化された単語表現を用いた語彙意味変化に対する最初の教師なしアプローチを提案する。 本稿では,BERTニューラルネットワークモデルを用いて単語使用率の表現を取得し,これらの表現を使用形態にクラスタ化し,時間とともに変化を測定する手法を提案する。 我々は,新しい評価データセットを作成し,モデル表現と検出された意味変化が人間の判断と正の相関を示す。 定量的解析により,我々の手法は様々なシンクロ・ダイアクロニックな言語現象を捉えることができる。 我々はこの方向にさらなる研究を促すことを期待している。

This paper presents the first unsupervised approach to lexical semantic change that makes use of contextualised word representations. We propose a novel method that exploits the BERT neural language model to obtain representations of word usages, clusters these representations into usage types, and measures change along time with three proposed metrics. We create a new evaluation dataset and show that the model representations and the detected semantic shifts are positively correlated with human judgements. Our extensive qualitative analysis demonstrates that our method captures a variety of synchronic and diachronic linguistic phenomena. We expect our work to inspire further research in this direction.
翻訳日:2022-12-08 14:20:05 公開日:2020-04-29
# ハリケーン災害における感情認識

Detecting Perceived Emotions in Hurricane Disasters ( http://arxiv.org/abs/2004.14299v1 )

ライセンス: Link先を確認
Shrey Desai, Cornelia Caragea, and Junyi Jessy Li(参考訳) 自然災害(例:ハリケーン)は毎年何百万人もの人々に影響を与え、覚醒によって広範囲に破壊される。 最近、人々はソーシャルメディアのウェブサイト(例えばtwitter)に行き、自分の感情や感情をより大きなコミュニティと共有した。 その結果、これらのプラットフォームは、大規模な感情の理解と知覚に役立っている。 本稿では,3つのハリケーン(Harvey,Irma,Maria)にまたがる15,000の英語ツイートの感情データセットであるHurricaneEmoを紹介する。 本稿では,細粒度感情の包括的研究を行い,粗粒度感情群を判別するための分類タスクを提案する。 私たちの最高のBERTモデルは、未ラベルのTwitterデータを活用するタスク誘導事前トレーニングの後でさえ、わずか68%の精度しか達成していません。 hurricaneemoはモデルに対する挑戦的なベンチマークとしてだけでなく、災害中心のドメインにおける感情分析の貴重なリソースとしても機能する。

Natural disasters (e.g., hurricanes) affect millions of people each year, causing widespread destruction in their wake. People have recently taken to social media websites (e.g., Twitter) to share their sentiments and feelings with the larger community. Consequently, these platforms have become instrumental in understanding and perceiving emotions at scale. In this paper, we introduce HurricaneEmo, an emotion dataset of 15,000 English tweets spanning three hurricanes: Harvey, Irma, and Maria. We present a comprehensive study of fine-grained emotions and propose classification tasks to discriminate between coarse-grained emotion groups. Our best BERT model, even after task-guided pre-training which leverages unlabeled Twitter data, achieves only 68% accuracy (averaged across all groups). HurricaneEmo serves not only as a challenging benchmark for models but also as a valuable resource for analyzing emotions in disaster-centric domains.
翻訳日:2022-12-08 14:19:48 公開日:2020-04-29
# 量子人工知能の聖杯: 機械学習パイプラインの加速における大きな課題

The Holy Grail of Quantum Artificial Intelligence: Major Challenges in Accelerating the Machine Learning Pipeline ( http://arxiv.org/abs/2004.14035v1 )

ライセンス: Link先を確認
Thomas Gabor (1), Leo S\"unkel (1), Fabian Ritz (1), Thomy Phan (1), Lenz Belzner (2), Christoph Roch (1), Sebastian Feld (1), Claudia Linnhoff-Popien (1) ((1) LMU Munich, (2) MaibornWolff)(参考訳) 量子コンピューティングと人工知能の相乗関係について論じる。 量子人工知能への現在のアプローチを調査し、それらを機械学習プロセスの正式なモデルに関連づけた後、量子人工知能の未来に対する4つの大きな課題を導き出す。 (i)高速な量子アルゴリズムで反復訓練を置き換える。 (ii) トレーニングプロセスに大量のデータの経験を蒸留すること。 (iii)量子部品と古典部品の結合・交換を容易に行うこと、及び (4) 観測された利点がアルゴリズムの量子的性質に由来するかどうかを徹底的に分析するツールを構築する。

We discuss the synergetic connection between quantum computing and artificial intelligence. After surveying current approaches to quantum artificial intelligence and relating them to a formal model for machine learning processes, we deduce four major challenges for the future of quantum artificial intelligence: (i) Replace iterative training with faster quantum algorithms, (ii) distill the experience of larger amounts of data into the training process, (iii) allow quantum and classical components to be easily combined and exchanged, and (iv) build tools to thoroughly analyze whether observed benefits really stem from quantum properties of the algorithm.
翻訳日:2022-12-08 14:18:54 公開日:2020-04-29
# リカレントニューラルネットワークを用いたシステムオンチップ設計のためのメッセージフローマイニング

Mining Message Flows using Recurrent Neural Networks for System-on-Chip Designs ( http://arxiv.org/abs/2005.01574v1 )

ライセンス: Link先を確認
Yuting Cao, Parijat Mukherjee, Mahesh Ketkar, Jin Yang, Hao Zheng(参考訳) 包括的な仕様はsystem-on-chip(soc)設計のための検証連続体全体にわたる様々な活動に不可欠である。 しかし、仕様は曖昧、不完全、あるいは矛盾やエラーを含むことが多い。 本稿では,soc設計のためのシステムレベルの仕様を総合的に特徴付けるような,socトランザクションレベルのトレースからシーケンシャルパターンを自動的に抽出する仕様マイニング手法を開発した。 このアプローチは、収集されたSoC実行トレースでトレーニングされた長期記憶(LSTM)ネットワークを利用して、さまざまな通信イベント間のシーケンシャルな依存関係をキャプチャする。 そこで,学習したLSTMモデルから,システムレベルの通信パターンを効率的に抽出するアルゴリズムを開発した。 また, マイニング性能を高めるため, いくつかのトレース処理技術も提案されている。 非自明なマルチコアSoCプロトタイプのシミュレーショントレースに対する提案手法の評価を行った。 最初の結果から,提案手法は,高度に並列なsoc実行トレースからシステムレベル仕様の様々なパターンを抽出することができることがわかった。

Comprehensive specifications are essential for various activities across the entire validation continuum for system-on-chip (SoC) designs. However, specifications are often ambiguous, incomplete, or even contain inconsistencies or errors. This paper addresses this problem by developing a specification mining approach that automatically extracts sequential patterns from SoC transaction-level traces such that the mined patterns collectively characterize system-level specifications for SoC designs. This approach exploits long short-term memory (LSTM) networks trained with the collected SoC execution traces to capture sequential dependencies among various communication events. Then, a novel algorithm is developed to efficiently extract sequential patterns on system-level communications from the trained LSTM models. Several trace processing techniques are also proposed to enhance the mining performance. We evaluate the proposed approach on simulation traces of a non-trivial multi-core SoC prototype. Initial results show that the proposed approach is capable of extracting various patterns on system-level specifications from the highly concurrent SoC execution traces.
翻訳日:2022-12-08 14:18:18 公開日:2020-04-29
# 社会と文化におけるAI:意思決定と価値観

AI in society and culture: decision making and values ( http://arxiv.org/abs/2005.02777v1 )

ライセンス: Link先を確認
Katalin Feher and Asta Zelenkauskaite(参考訳) 人工知能の期待が高まり、学術研究は社会や文化に埋め込まれた人間中心、責任、信頼できる技術に関する複雑な疑問に直面している。 いくつかの学術的な議論、社会相談、影響研究は、変化する人間と機械のエコシステムの重要な側面を明らかにするために利用可能である。 これらの研究に貢献するために、AI主導の意思決定と貴重なAIについて、何百という関連する学術資料を以下にまとめる。 詳細では、社会文化的フィルター、人間機械決定の分類、価値に基づくAIの視点がこの文献レビューの焦点となっている。 より深く理解するために、技術を超えた問題を調査する次世代AIに関する大規模な調査にステークホルダーを招待することが提案されている。

With the increased expectation of artificial intelligence, academic research face complex questions of human-centred, responsible and trustworthy technology embedded into society and culture. Several academic debates, social consultations and impact studies are available to reveal the key aspects of the changing human-machine ecosystem. To contribute to these studies, hundreds of related academic sources are summarized below regarding AI-driven decisions and valuable AI. In details, sociocultural filters, taxonomy of human-machine decisions and perspectives of value-based AI are in the focus of this literature review. For better understanding, it is proposed to invite stakeholders in the prepared large-scale survey about the next generation AI that investigates issues that go beyond the technology.
翻訳日:2022-12-08 14:18:02 公開日:2020-04-29
# クロネッカーグラフモデルの自己回帰同定

Autoregressive Identification of Kronecker Graphical Models ( http://arxiv.org/abs/2004.14199v1 )

ライセンス: Link先を確認
Mattia Zorzi(参考訳) 自己回帰型ガウス確率過程に対応するKroneckerグラフィカルモデルを推定するために,この問題に対処する。 後者は完全にパワースペクトル密度関数によって記述され、その逆はクロネッカー積分解を許す支持を持つ。 そのようなモデルを推定するベイズ的手法を提案する。 提案手法の有効性を数値実験により検証した。 また,本手法を都市汚染モニタリングデータに適用する。

We address the problem to estimate a Kronecker graphical model corresponding to an autoregressive Gaussian stochastic process. The latter is completely described by the power spectral density function whose inverse has support which admits a Kronecker product decomposition. We propose a Bayesian approach to estimate such a model. We test the effectiveness of the proposed method by some numerical experiments. We also apply the procedure to urban pollution monitoring data.
翻訳日:2022-12-08 14:17:52 公開日:2020-04-29
# 映像からの3次元姿勢推定

Motion Guided 3D Pose Estimation from Videos ( http://arxiv.org/abs/2004.13985v1 )

ライセンス: Link先を確認
Jingbo Wang, Sijie Yan, Yuanjun Xiong, Dahua Lin(参考訳) 2次元ポーズからの単眼的3次元ポーズ推定問題に対する運動損失と呼ばれる新しい損失関数を提案する。 動き損失の計算では、ペアワイズモーションエンコーディングと呼ばれる、単純かつ効果的なキーポイントモーションの表現が導入される。 我々は新しいグラフ畳み込みネットワークアーキテクチャ、UGCN(U-shaped GCN)を設計する。 短期および長期の動作情報をキャプチャして、運動損失から追加の監視をフル活用する。 大規模ベンチマークであるHuman3.6MとMPI-INF-3DHPでUGCNの運動損失をトレーニングした。 我々のモデルは、他の最先端モデルを大きく上回っている。 また、スムーズな3Dシーケンスの生成とキーポイント運動の回復に強い能力を示す。

We propose a new loss function, called motion loss, for the problem of monocular 3D Human pose estimation from 2D pose. In computing motion loss, a simple yet effective representation for keypoint motion, called pairwise motion encoding, is introduced. We design a new graph convolutional network architecture, U-shaped GCN (UGCN). It captures both short-term and long-term motion information to fully leverage the additional supervision from the motion loss. We experiment training UGCN with the motion loss on two large scale benchmarks: Human3.6M and MPI-INF-3DHP. Our model surpasses other state-of-the-art models by a large margin. It also demonstrates strong capacity in producing smooth 3D sequences and recovering keypoint motion.
翻訳日:2022-12-08 14:11:58 公開日:2020-04-29
# 畳み込みニューラルネットワークを用いた意味セグメンテーションによる画像中のブドウ果実の計数

Counting of Grapevine Berries in Images via Semantic Segmentation using Convolutional Neural Networks ( http://arxiv.org/abs/2004.14010v1 )

ライセンス: Link先を確認
Laura Zabawa, Anna Kicherer, Lasse Klingbeil, Reinhard T\"opfer, Heiner Kuhlmann, Ribana Roscher(参考訳) 表現型形質の抽出は、しばしば非常に時間と労力を集中的に行う。 特にブドウ栽培に関する調査は、ブドウの多年生性によるオンサイト分析に限られている。 伝統的に熟練した専門家は小さなサンプルを調べ、結果全体をプロットに外挿する。 これにより、垂直撮影位置決め(VSP)や半最小プルーンド・ヘッジ(SMPH)など、ブドウ品種や訓練システムが異なる課題が生じる。 本稿では、2つの異なるトレーニングシステムで動作する自動画像解析に基づく客観的フレームワークを提案する。 この画像は、修正ブドウ収穫機に設置されるカメラシステムにより半自動で収集される。 このシステムは、植物の側面から重なり合う画像を生成する。 本フレームワークでは,畳み込みニューラルネットワークを用いて,意味セグメンテーションを行うことで画像中の単一ベリーを検出する。 各ベリーは連結成分アルゴリズムでカウントされる。 本研究では, 実例分割のための最先端ネットワークであるMask-RCNNと, カウントのための回帰手法との比較を行った。 そこで,本研究では,異なるトレーニングシステムを用いながら,画像中の緑ベリーを検出できる実験を行った。 VSPでは94.0%,SMPHでは85.6%のベリー検出が可能であった。

The extraction of phenotypic traits is often very time and labour intensive. Especially the investigation in viticulture is restricted to an on-site analysis due to the perennial nature of grapevine. Traditionally skilled experts examine small samples and extrapolate the results to a whole plot. Thereby different grapevine varieties and training systems, e.g. vertical shoot positioning (VSP) and semi minimal pruned hedges (SMPH) pose different challenges. In this paper we present an objective framework based on automatic image analysis which works on two different training systems. The images are collected semi automatic by a camera system which is installed in a modified grape harvester. The system produces overlapping images from the sides of the plants. Our framework uses a convolutional neural network to detect single berries in images by performing a semantic segmentation. Each berry is then counted with a connected component algorithm. We compare our results with the Mask-RCNN, a state-of-the-art network for instance segmentation and with a regression approach for counting. The experiments presented in this paper show that we are able to detect green berries in images despite of different training systems. We achieve an accuracy for the berry detection of 94.0% in the VSP and 85.6% in the SMPH.
翻訳日:2022-12-08 14:11:49 公開日:2020-04-29
# 顔アンチスプーフィングのための一側ドメイン一般化

Single-Side Domain Generalization for Face Anti-Spoofing ( http://arxiv.org/abs/2004.14043v1 )

ライセンス: Link先を確認
Yunpei Jia, Jie Zhang, Shiguang Shan, Xilin Chen(参考訳) フェース・アンチ・スプーフィングの既存の領域一般化手法は、一般化を改善するために共通の微分特徴を抽出する。 しかし、異なる領域の偽顔間での分布の相違が大きいため、偽顔に対してコンパクトで一般化された特徴空間を求めることは困難である。 本研究では,対面型アンチスプーフィングの一般化能力を向上させるために,エンドツーエンドのシングルサイドドメイン一般化フレームワーク(SSDG)を提案する。 主なアイデアは一般化された機能空間を学習することであり、現実の顔の特徴分布はコンパクトであり、偽の顔はドメインに分散しているが、各ドメイン内でコンパクトである。 具体的には、機能ジェネレータは、異なるドメインの実際の顔だけを識別できないように訓練するが、偽の顔は見分けがつかない。 さらに、非対称三重項損失は、実領域が集約されている間に異なる領域の偽の顔が分離されるのを制限するように設計されている。 上記の2つのポイントはエンドツーエンドのトレーニング方法で統一されたフレームワークに統合され、より一般化されたクラス境界、特に新しいドメインのサンプルに適している。 一般化能力をさらに向上させるために、特徴量および重量正規化が組み込まれている。 大規模な実験の結果,提案手法は4つの公開データベース上での最先端手法よりも優れていることがわかった。

Existing domain generalization methods for face anti-spoofing endeavor to extract common differentiation features to improve the generalization. However, due to large distribution discrepancies among fake faces of different domains, it is difficult to seek a compact and generalized feature space for the fake faces. In this work, we propose an end-to-end single-side domain generalization framework (SSDG) to improve the generalization ability of face anti-spoofing. The main idea is to learn a generalized feature space, where the feature distribution of the real faces is compact while that of the fake ones is dispersed among domains but compact within each domain. Specifically, a feature generator is trained to make only the real faces from different domains undistinguishable, but not for the fake ones, thus forming a single-side adversarial learning. Moreover, an asymmetric triplet loss is designed to constrain the fake faces of different domains separated while the real ones aggregated. The above two points are integrated into a unified framework in an end-to-end training manner, resulting in a more generalized class boundary, especially good for samples from novel domains. Feature and weight normalization is incorporated to further improve the generalization ability. Extensive experiments show that our proposed approach is effective and outperforms the state-of-the-art methods on four public databases.
翻訳日:2022-12-08 14:11:30 公開日:2020-04-29
# 未知の焦点長と放射歪を有する最小転がりシャッター絶対ポース

Minimal Rolling Shutter Absolute Pose with Unknown Focal Length and Radial Distortion ( http://arxiv.org/abs/2004.14052v1 )

ライセンス: Link先を確認
Zuzana Kukelova, Cenek Albl, Akihiro Sugimoto, Konrad Schindler, Tomas Pajdla(参考訳) ほとんどの現代の消費者向けカメラの内部形状は視点投影によって適切に記述されていない。 ほぼ全てのカメラは放射状レンズの歪みを示しており、撮影中にカメラが動くと歪みを引き起こす電子式ローリングシャッターを備えている。 焦点長が調整されていない場合、放射状および回転シャッター歪みを記述するパラメータは通常不明である。 グローバルシャッターカメラでは、絶対的なカメラポーズと未知の焦点距離と放射歪の最小解法があるが、ローリングシャッターの解法は欠落していた。 我々は, ローリングシャッターパラメータ, 焦点長, 放射歪が不明なローリングシャッターカメラの絶対位置について, 最初の極小解を提案する。 我々の新しいミニマルソルバは、ローリングシャッターカメラのキャリブレーションのために設計された反復型スキームと、高速な一般化固有値とGroebnerベースソルバを組み合わせたものである。 合成データと実データの両方を用いた一連の実験で、新しいソルバーはカメラのポーズ、ローリングシャッターパラメータ、焦点距離、放射歪パラメータを正確に推定できることを示しました。

The internal geometry of most modern consumer cameras is not adequately described by the perspective projection. Almost all cameras exhibit some radial lens distortion and are equipped with an electronic rolling shutter that induces distortions when the camera moves during the image capture. When focal length has not been calibrated offline, the parameters that describe the radial and rolling shutter distortions are usually unknown. While for global shutter cameras, minimal solvers for the absolute camera pose and unknown focal length and radial distortion are available, solvers for the rolling shutter were missing. We present the first minimal solutions for the absolute pose of a rolling shutter camera with unknown rolling shutter parameters, focal length, and radial distortion. Our new minimal solvers combine iterative schemes designed for calibrated rolling shutter cameras with fast generalized eigenvalue and Groebner basis solvers. In a series of experiments, with both synthetic and real data, we show that our new solvers provide accurate estimates of the camera pose, rolling shutter parameters, focal length, and radial distortion parameters.
翻訳日:2022-12-08 14:11:09 公開日:2020-04-29
# トランスファー学習に基づくディープフェイクビデオ鑑識

Deepfake Video Forensics based on Transfer Learning ( http://arxiv.org/abs/2004.14178v1 )

ライセンス: Link先を確認
Rahul U, Ragul M, Raja Vignesh K, Tejeswinee K(参考訳) ディープラーニングは様々な領域の複雑な問題を解決するために使われてきた。 それはまた、私たちのプライバシーやセキュリティ、さらには民主主義に対する大きな脅威となるアプリケーションを生み出します。 最近開発されているアプリケーションは、"deepfake"(ディープフェイク)だ。 Deepfakeモデルは、人間が本物のものと区別できない偽のイメージやビデオを作成することができる。 したがって,デジタル映像メディアを自動的に検出・解析するカウンタアプリケーションは,現代世界では必要である。 本稿では,各ディープフェイク映像フレームの特徴を把握するために,画像分類モデルを再学習する方法について述べる。 ビデオフレーム毎に、ニューラルネットワークで予め訓練されたボトルネック層を通じてビデオフリンジのディープフェイククリップの異なるセットを供給した後、すでに述べられている層は、すべての画像の凝縮データを含み、ディープフェイクビデオにおける人工的な操作を露出する。 deepfakeビデオをチェックすると、このテクニックは87パーセント以上の精度を得た。 この技術はFace Forensicsデータセットでテストされ、検出の精度が向上した。

Deeplearning has been used to solve complex problems in various domains. As it advances, it also creates applications which become a major threat to our privacy, security and even to our Democracy. Such an application which is being developed recently is the "Deepfake". Deepfake models can create fake images and videos that humans cannot differentiate them from the genuine ones. Therefore, the counter application to automatically detect and analyze the digital visual media is necessary in today world. This paper details retraining the image classification models to apprehend the features from each deepfake video frames. After feeding different sets of deepfake clips of video fringes through a pretrained layer of bottleneck in the neural network is made for every video frame, already stated layer contains condense data for all images and exposes artificial manipulations in Deepfake videos. When checking Deepfake videos, this technique received more than 87 per cent accuracy. This technique has been tested on the Face Forensics dataset and obtained good accuracy in detection.
翻訳日:2022-12-08 14:10:51 公開日:2020-04-29
# テンソル補完のための非局所自己相似性を有するテンソルトレインランク最小化

Tensor train rank minimization with nonlocal self-similarity for tensor completion ( http://arxiv.org/abs/2004.14273v1 )

ライセンス: Link先を確認
Meng Ding, Ting-Zhu Huang, Xi-Le Zhao, Michael K. Ng, Tian-Hui Ma(参考訳) テンソルトレイン(TT)のランクは、高次テンソル(\textrm{order} >3$)のグローバルな相関を捉えることができるため、テンソルコンプリートにおいて注目されている。 3次視覚データでは、TTランクの最小化は高次テンソルのTTランクの可能性を生かしていない。 TTランクの最小化には、低階テンソル(例えば、視覚データ)を高階テンソルに変換する 'emph{ket augmentation} が伴い、深刻なブロックアーティファクトに悩まされる。 この問題を解決するために,視覚データにおける空間,時間/スペクトル,非局所冗長性を同時に探索することにより,テンソル完了のための非局所自己相似性によるTTランク最小化を提案する。 より正確には、TTランクの最小化は、高階テンソルに対するTTランクの能力を自然に完全に活用する類似の立方体を積み重ねることで、グループと呼ばれる高階テンソル上で行われる。 また、各グループのtt低ランク性に対する摂動解析が確立される。 そこで本研究では,特定の構造に適した乗算器の交互方向法を開発し,提案モデルの解法を提案する。 大規模実験により,提案手法は定性的,定量的両面で既存の最先端手法よりも優れていることが示された。

The tensor train (TT) rank has received increasing attention in tensor completion due to its ability to capture the global correlation of high-order tensors ($\textrm{order} >3$). For third order visual data, direct TT rank minimization has not exploited the potential of TT rank for high-order tensors. The TT rank minimization accompany with \emph{ket augmentation}, which transforms a lower-order tensor (e.g., visual data) into a higher-order tensor, suffers from serious block-artifacts. To tackle this issue, we suggest the TT rank minimization with nonlocal self-similarity for tensor completion by simultaneously exploring the spatial, temporal/spectral, and nonlocal redundancy in visual data. More precisely, the TT rank minimization is performed on a formed higher-order tensor called group by stacking similar cubes, which naturally and fully takes advantage of the ability of TT rank for high-order tensors. Moreover, the perturbation analysis for the TT low-rankness of each group is established. We develop the alternating direction method of multipliers tailored for the specific structure to solve the proposed model. Extensive experiments demonstrate that the proposed method is superior to several existing state-of-the-art methods in terms of both qualitative and quantitative measures.
翻訳日:2022-12-08 14:10:19 公開日:2020-04-29
# クラス識別に基づくCNNチャネルプルーニングの再考

Rethinking Class-Discrimination Based CNN Channel Pruning ( http://arxiv.org/abs/2004.14492v1 )

ライセンス: Link先を確認
Yuchen Liu, David Wentzlaff, and S.Y. Kung(参考訳) チャネルプルーニングは、ネットワーク圧縮に着目し続けている。 特に、CNNの分類目的とシームレスに適合し、優れた説明性を提供するため、クラス識別に基づくチャネルプルーニングは大きな道のりをたどった。 先行研究は,その識別機能を単独で提案し,評価する一方で,適用指標の有効性に関するさらなる研究は欠如している。 そこで本研究では,チャネルプルーニングにおける幅広い識別関数の有効性に関する最初の研究を開始する。 学生のT-Testのような従来の単一変数のバイナリクラス統計も直感的な一般化を通じてこの研究に含まれる。 我々の研究の勝利度は、他の最先端手法よりも情報チャネルを選択する能力が高く、質的、定量的分析によって裏付けられている。 さらに,構造解析の自動化を目的としたFLOP正規化感度解析手法を開発した。 CIFAR-10, CIFAR-100, ILSVRC-2012データセットでは, 最先端結果と比較して予測コストが低く, 精度が向上した。 例えば ILSVRC-2012 では、44.3% の FLOPs-pruned ResNet-50 は、0.3% のトップ-1 の精度低下しかなく、芸術の状態を著しく上回っている。

Channel pruning has received ever-increasing focus on network compression. In particular, class-discrimination based channel pruning has made major headway, as it fits seamlessly with the classification objective of CNNs and provides good explainability. Prior works singly propose and evaluate their discriminant functions, while further study on the effectiveness of the adopted metrics is absent. To this end, we initiate the first study on the effectiveness of a broad range of discriminant functions on channel pruning. Conventional single-variate binary-class statistics like Student's T-Test are also included in our study via an intuitive generalization. The winning metric of our study has a greater ability to select informative channels over other state-of-the-art methods, which is substantiated by our qualitative and quantitative analysis. Moreover, we develop a FLOP-normalized sensitivity analysis scheme to automate the structural pruning procedure. On CIFAR-10, CIFAR-100, and ILSVRC-2012 datasets, our pruned models achieve higher accuracy with less inference cost compared to state-of-the-art results. For example, on ILSVRC-2012, our 44.3% FLOPs-pruned ResNet-50 has only a 0.3% top-1 accuracy drop, which significantly outperforms the state of the art.
翻訳日:2022-12-08 14:09:55 公開日:2020-04-29
# EPIC-KITCHENSデータセット:コレクション,チャレンジ,ベースライン

The EPIC-KITCHENS Dataset: Collection, Challenges and Baselines ( http://arxiv.org/abs/2005.00343v1 )

ライセンス: Link先を確認
Dima Damen, Hazel Doughty, Giovanni Maria Farinella, Sanja Fidler, Antonino Furnari, Evangelos Kazakos, Davide Moltisanti, Jonathan Munro, Toby Perrett, Will Price, Michael Wray(参考訳) 2018年に導入されて以来、EPIC-KITCHENSは最もエゴセントリックなビデオベンチマークとして注目され、人々のオブジェクトとのインタラクション、注意、意図などに関するユニークな視点を提供している。 本稿では,この大規模データセットが,現地のキッチン環境において32名の参加者によってどのように捉えられ,アクションやオブジェクトインタラクションで密に注釈付けされたかを詳述する。 私たちのビデオは、参加者がキッチンに入るたびに録音が始まるので、無記述の日々の活動を描いています。 記録は10の異なる国籍の参加者によって4か国で行われ、非常に多様なキッチン習慣と料理スタイルをもたらした。 私たちのデータセットは、11.5万フレームからなる55時間のビデオで構成されており、合計39.6Kアクションセグメントと454.2Kオブジェクトバウンディングボックスを密にラベル付けしています。 私たちのアノテーションは、参加者が録画後に自身のビデオをナレーションして、真の意図を反映させるという点でユニークなものです。 対象と行動とを記述します。 2つのテスト分割(seeとunseen kitchens)で、いくつかのベースラインを評価します。 我々は、データセットのマルチモーダルな性質と明確な時間的モデリングの重要性を強調した新しいベースラインを導入し、例えば「タップを閉じる」といったきめ細かいアクションを「開ける」から識別する。

Since its introduction in 2018, EPIC-KITCHENS has attracted attention as the largest egocentric video benchmark, offering a unique viewpoint on people's interaction with objects, their attention, and even intention. In this paper, we detail how this large-scale dataset was captured by 32 participants in their native kitchen environments, and densely annotated with actions and object interactions. Our videos depict nonscripted daily activities, as recording is started every time a participant entered their kitchen. Recording took place in 4 countries by participants belonging to 10 different nationalities, resulting in highly diverse kitchen habits and cooking styles. Our dataset features 55 hours of video consisting of 11.5M frames, which we densely labelled for a total of 39.6K action segments and 454.2K object bounding boxes. Our annotation is unique in that we had the participants narrate their own videos after recording, thus reflecting true intention, and we crowd-sourced ground-truths based on these. We describe our object, action and. anticipation challenges, and evaluate several baselines over two test splits, seen and unseen kitchens. We introduce new baselines that highlight the multimodal nature of the dataset and the importance of explicit temporal modelling to discriminate fine-grained actions e.g. 'closing a tap' from 'opening' it up.
翻訳日:2022-12-08 14:09:35 公開日:2020-04-29
# 正当性主張のベンチマークデータセット

A Benchmark Dataset of Check-worthy Factual Claims ( http://arxiv.org/abs/2004.14425v1 )

ライセンス: Link先を確認
Fatma Arslan, Naeemul Hassan, Chengkai Li, Mark Tremayne(参考訳) 本稿では,米国大統領選挙の討論会から抽出された23,533文のクレームバスターデータセットについて述べる。 ClaimBusterデータセットは、デジタルまたは伝統的なメディアの無数のソースから事実チェックに値するクレームを特定するための計算方法の構築に活用することができる。 ClaimBusterデータセットは研究コミュニティで公開されており、http://doi.org/10.5281/zenodo.3609356で見ることができる。

In this paper we present the ClaimBuster dataset of 23,533 statements extracted from all U.S. general election presidential debates and annotated by human coders. The ClaimBuster dataset can be leveraged in building computational methods to identify claims that are worth fact-checking from the myriad of sources of digital or traditional media. The ClaimBuster dataset is publicly available to the research community, and it can be found at http://doi.org/10.5281/zenodo.3609356.
翻訳日:2022-12-08 14:02:20 公開日:2020-04-29
# 微調整中にBERTの埋め込みがどうなるか?

What Happens To BERT Embeddings During Fine-tuning? ( http://arxiv.org/abs/2004.14448v1 )

ライセンス: Link先を確認
Amil Merchant, Elahe Rahimtoroghi, Ellie Pavlick, Ian Tenney(参考訳) 事前学習された文表現で言語情報がどのようにエンコードされるかの研究は近年行われてきたが、下流のタスクに適応してこれらのモデルがどのように変化するかについては、比較的理解されていない。 分類器,表現類似性解析,モデルアブレーションといった一連の分析手法を用いて,bertモデルの表現に微調整がどのように影響するかを検討する。 微調整は必然的に大きな変化をもたらすが、言語現象を破滅的に忘れてしまうことはない。 代わりに、細調整はBERTの上位層に主に影響するが、タスク間で注目すべきバリエーションがある。 特に、依存関係解析はモデルのほとんどを再構成するが、SQuADとMNLIはより浅い処理を必要とする。 最後に、ファインチューニングがドメイン外文の表現に弱い影響を持つことも分かり、モデル一般化の改善の余地が示唆された。

While there has been much recent work studying how linguistic information is encoded in pre-trained sentence representations, comparatively little is understood about how these models change when adapted to solve downstream tasks. Using a suite of analysis techniques (probing classifiers, Representational Similarity Analysis, and model ablations), we investigate how fine-tuning affects the representations of the BERT model. We find that while fine-tuning necessarily makes significant changes, it does not lead to catastrophic forgetting of linguistic phenomena. We instead find that fine-tuning primarily affects the top layers of BERT, but with noteworthy variation across tasks. In particular, dependency parsing reconfigures most of the model, whereas SQuAD and MNLI appear to involve much shallower processing. Finally, we also find that fine-tuning has a weaker effect on representations of out-of-domain sentences, suggesting room for improvement in model generalization.
翻訳日:2022-12-08 14:02:11 公開日:2020-04-29
# The Boating Store Had Its Best Sail: Pronunciation-attentive Contextualized Pun Recognition

"The Boating Store Had Its Best Sail Ever": Pronunciation-attentive Contextualized Pun Recognition ( http://arxiv.org/abs/2004.14457v1 )

ライセンス: Link先を確認
Yichao Zhou, Jyun-Yu Jiang, Jieyu Zhao, Kai-Wei Chang and Wei Wang(参考訳) ヒューモアは人間の言語において重要な役割を担い、インテリジェンスシステムを構築する際にユーモアをモデル化することが不可欠である。 様々な形態のユーモアの中で、句は二重エンテンドレスと高い音韻類似性を持つ単語を用いてユーモラスな効果の言葉遊びを行う。 しかしながら、句の識別とモデル化は、通常暗黙的な意味論や音韻学的なトリックを含む句として困難である。 本稿では,人間のユーモアを知覚し,文が句を含むかどうかを検知し,文中の句を同定するための,発音対応型文脈付き句認識(pcpr)を提案する。 PCPRは、周囲の文脈とその対応する音韻記号の関連を捉え、文中の各単語の文脈表現を導出する。 2つのベンチマークデータセットで大規模な実験を行う。 その結果,提案手法はパント検出や位置情報タスクにおいて最先端の手法よりも優れていた。 詳細な分析によりPCPRの有効性とロバスト性を検証した。

Humor plays an important role in human languages and it is essential to model humor when building intelligence systems. Among different forms of humor, puns perform wordplay for humorous effects by employing words with double entendre and high phonetic similarity. However, identifying and modeling puns are challenging as puns usually involved implicit semantic or phonological tricks. In this paper, we propose Pronunciation-attentive Contextualized Pun Recognition (PCPR) to perceive human humor, detect if a sentence contains puns and locate them in the sentence. PCPR derives contextualized representation for each word in a sentence by capturing the association between the surrounding context and its corresponding phonetic symbols. Extensive experiments are conducted on two benchmark datasets. Results demonstrate that the proposed approach significantly outperforms the state-of-the-art methods in pun detection and location tasks. In-depth analyses verify the effectiveness and robustness of PCPR.
翻訳日:2022-12-08 14:01:41 公開日:2020-04-29
# 多言語BERTを用いたクロスランゲージスパン予測に基づく単語アライメント法

A Supervised Word Alignment Method based on Cross-Language Span Prediction using Multilingual BERT ( http://arxiv.org/abs/2004.14516v1 )

ライセンス: Link先を確認
Masaaki Nagata, Chousa Katsuki, Masaaki Nishino(参考訳) 本稿では,クロスランゲージスパン予測に基づく単語アライメント手法を提案する。 まず、単語アライメント問題を、ソース文のトークンからターゲット文のスパンまでの独立した予測の集合として定式化する。 これはSQuAD v2.0スタイルの質問応答タスクに相当するので、手動で作成したゴールドワードアライメントデータに基づいて微調整された多言語BERTを用いてこの問題を解決する。 質問にトークンのコンテキストを追加することにより,単語アライメントの精度を大幅に向上した。 中国語,日本語,ドイツ語,ルーマニア語,フランス語,英語の5つの単語アライメントデータセットを用いて実験したところ,提案手法は事前学習にビットックスを用いることなく,従来の教師付き単語アライメント手法と教師なし単語アライメント手法を著しく上回った。 例えば、中国英語データに対するf1スコアは86.7で、これは以前の最先端の教師付きメソッドよりも13.3ポイント高い。

We present a novel supervised word alignment method based on cross-language span prediction. We first formalize a word alignment problem as a collection of independent predictions from a token in the source sentence to a span in the target sentence. As this is equivalent to a SQuAD v2.0 style question answering task, we then solve this problem by using multilingual BERT, which is fine-tuned on a manually created gold word alignment data. We greatly improved the word alignment accuracy by adding the context of the token to the question. In the experiments using five word alignment datasets among Chinese, Japanese, German, Romanian, French, and English, we show that the proposed method significantly outperformed previous supervised and unsupervised word alignment methods without using any bitexts for pretraining. For example, we achieved an F1 score of 86.7 for the Chinese-English data, which is 13.3 points higher than the previous state-of-the-art supervised methods.
翻訳日:2022-12-08 14:01:06 公開日:2020-04-29
# 読書理解としてのバイリンガルテキスト抽出

Bilingual Text Extraction as Reading Comprehension ( http://arxiv.org/abs/2004.14517v1 )

ライセンス: Link先を確認
Katsuki Chousa, Masaaki Nagata, Masaaki Nishino(参考訳) 本稿では,SQuADスタイルの読解理解のようなトークンレベルのスパン予測として,ノイズの多い並列コーパスからバイリンガルテキストを自動的に抽出する手法を提案する。 与えられたソース文(スパン)の翻訳である対象文書のスパンを抽出するために、QANetまたは多言語BERTを使用する。 QANetはスクラッチから特定の並列コーパスをトレーニングでき、マルチリンガルBERTは事前訓練されたマルチリンガル表現を利用することができる。 QANetを用いたスパン予測法について,予測並列スパンの整合性を実現するために整数線形プログラミングを用いた全最適化手法を提案する。 本研究では,2つの言語対(en-fr,en-ja)を用いた有声並列コーパスを用いた並列文抽出実験を行い,提案手法が2つの双方向rnnエンコーダ,特に遠方言語対(en-ja)を用いたベースライン法よりも有意に精度が向上することを示す。 また,En-Ja新聞の記事を用いて文アライメント実験を行い,多言語BERTを用いた提案手法は,バイリンガル辞書と動的プログラミングを用いたベースライン手法よりも有意に精度が高いことがわかった。

In this paper, we propose a method to extract bilingual texts automatically from noisy parallel corpora by framing the problem as a token-level span prediction, such as SQuAD-style Reading Comprehension. To extract a span of the target document that is a translation of a given source sentence (span), we use either QANet or multilingual BERT. QANet can be trained for a specific parallel corpus from scratch, while multilingual BERT can utilize pre-trained multilingual representations. For the span prediction method using QANet, we introduce a total optimization method using integer linear programming to achieve consistency in the predicted parallel spans. We conduct a parallel sentence extraction experiment using simulated noisy parallel corpora with two language pairs (En-Fr and En-Ja) and find that the proposed method using QANet achieves significantly better accuracy than a baseline method using two bi-directional RNN encoders, particularly for distant language pairs (En-Ja). We also conduct a sentence alignment experiment using En-Ja newspaper articles and find that the proposed method using multilingual BERT achieves significantly better accuracy than a baseline method using a bilingual dictionary and dynamic programming.
翻訳日:2022-12-08 14:00:48 公開日:2020-04-29
# 多目的最適化のためのハイブリッド適応進化アルゴリズム

Hybrid Adaptive Evolutionary Algorithm for Multi-objective Optimization ( http://arxiv.org/abs/2004.13925v1 )

ライセンス: Link先を確認
Jeisson Prieto, Jonatan Gomez(参考訳) 多目的最適化進化アルゴリズム(MOEA)の最大の難しさは、多様性の高い真のパレートフロントに収束できる適切な解を見つける方法である。 既存の方法論の多くは、2つの目的と3つの目的を含む様々な実用的問題にニッチを示しており、eaパラメータの選択に依存する重要な課題に直面している。 さらに、そのようなパラメータを設定するプロセスは時間を要すると考えられており、いくつかの研究がこの問題に対処しようとしている。 本稿では、MoHAEAと呼ばれるハイブリッド適応進化アルゴリズム(HAEA)の拡張として、新しい多目的アルゴリズムを提案する。 MoHAEAは、演算子確率(rate)の適用を、支配と分解に基づくアプローチを組み合わせた多目的問題の解によって動的に適応することができる。 MoHAEAは、MOEA/D、pa$\lambda$-MOEA/D、MOEA/D-AWA、NSGA-IIの4つの最先端のMOEAと比較される。 実験の結果、MoHAEAはPareto Front上でよく発見された、よく分散された点の集合を見つけることができるという点で、ベンチマークアルゴリズムよりも優れていた。

The major difficulty in Multi-objective Optimization Evolutionary Algorithms (MOEAs) is how to find an appropriate solution that is able to converge towards the true Pareto Front with high diversity. Most existing methodologies, which have demonstrated their niche on various practical problems involving two and three objectives, face significant challenges in the dependency of the selection of the EA parameters. Moreover, the process of setting such parameters is considered time-consuming, and several research works have tried to deal with this problem. This paper proposed a new Multi-objective Algorithm as an extension of the Hybrid Adaptive Evolutionary algorithm (HAEA) called MoHAEA. MoHAEA allows dynamic adaptation of the application of operator probabilities (rates) to evolve with the solution of the multi-objective problems combining the dominance- and decomposition-based approaches. MoHAEA is compared with four states of the art MOEAs, namely MOEA/D, pa$\lambda$-MOEA/D, MOEA/D-AWA, and NSGA-II on ten widely used multi-objective test problems. Experimental results indicate that MoHAEA outperforms the benchmark algorithms in terms of how it is able to find a well-covered and well-distributed set of points on the Pareto Front.
翻訳日:2022-12-08 14:00:25 公開日:2020-04-29
# ディープニューラルネットワークを用いた映像コンテンツ理解

Video Contents Understanding using Deep Neural Networks ( http://arxiv.org/abs/2004.13959v1 )

ライセンス: Link先を確認
Mohammadhossein Toutiaee, Abbas Keshavarzi, Abolfazl Farahani, John A. Miller(参考訳) 複数のクラスにまたがるビデオフレームシーケンスを分類するトランスファーラーニングの新たな応用を提案する。 これは、新しいCNNをトレーニングする必要のないプレウェイトモデルである。 この表現は、近年多くの研究者によって研究されている"deep neural network"(dnn)の出現によって達成されている。 本研究は,Google Video Intelligence APIなどのオブジェクト検出技術を用いて,映像分類タスクの古典的手法を用いて,霧や雨の天候下でこれらのアーキテクチャがどのように機能するかを実験する。 ビデオコレクションの実験的評価により,新しい分類器が既存のソリューションよりも優れた性能を実現することが示された。

We propose a novel application of Transfer Learning to classify video-frame sequences over multiple classes. This is a pre-weighted model that does not require to train a fresh CNN. This representation is achieved with the advent of "deep neural network" (DNN), which is being studied these days by many researchers. We utilize the classical approaches for video classification task using object detection techniques for comparison, such as "Google Video Intelligence API" and this study will run experiments as to how those architectures would perform in foggy or rainy weather conditions. Experimental evaluation on video collections shows that the new proposed classifier achieves superior performance over existing solutions.
翻訳日:2022-12-08 14:00:03 公開日:2020-04-29
# プラントセンターローカライゼーションのためのDeep Transfer Learning

Deep Transfer Learning For Plant Center Localization ( http://arxiv.org/abs/2004.13973v1 )

ライセンス: Link先を確認
Enyu Cai, Sriram Baireddy, Changye Yang, Melba Crawford, Edward J. Delp(参考訳) 植物表現型は、通常、植物育種のための遺伝子型を評価することを目的として、成長期を通して植物特性を測定することに焦点を当てている。 植物の位置の推定は、発生頻度の低い遺伝子型を特定するのに重要である。 本研究の目的は、無人航空機(UAV)を用いたRGB空中画像を用いて、畑型作物の植物位置を推定する方法を検討することである。 深層学習アプローチは、RGB画像で観察された植物を探索するために有望な能力を提供するが、トレーニングには大量のラベル付きデータ(地上真実)を必要とする。 深層学習アーキテクチャーを1つの分野や、他の地理的領域の畑や他の作物の畑で微調整すると、良い結果が得られないかもしれない。 新しい分野ごとに根本真実を生み出す問題は、労働集約的で退屈である。 本稿では,既存のモデルから地上データを用いた新しいシナリオへ移行することにより,プラントセンタの推定手法を提案する。 本研究は, 異なる作物や畑の種々に対して, 単一畑や一種類の植物を微調整したモデルを用いた移動学習の利用について述べる。 移動学習が植物位置の検出に有望な結果をもたらすことを示す。

Plant phenotyping focuses on the measurement of plant characteristics throughout the growing season, typically with the goal of evaluating genotypes for plant breeding. Estimating plant location is important for identifying genotypes which have low emergence, which is also related to the environment and management practices such as fertilizer applications. The goal of this paper is to investigate methods that estimate plant locations for a field-based crop using RGB aerial images captured using Unmanned Aerial Vehicles (UAVs). Deep learning approaches provide promising capability for locating plants observed in RGB images, but they require large quantities of labeled data (ground truth) for training. Using a deep learning architecture fine-tuned on a single field or a single type of crop on fields in other geographic areas or with other crops may not have good results. The problem of generating ground truth for each new field is labor-intensive and tedious. In this paper, we propose a method for estimating plant centers by transferring an existing model to a new scenario using limited ground truth data. We describe the use of transfer learning using a model fine-tuned for a single field or a single type of plant on a varied set of similar crops and fields. We show that transfer learning provides promising results for detecting plant locations.
翻訳日:2022-12-08 13:59:52 公開日:2020-04-29
# 透明かつ説明可能な注意モデルに向けて

Towards Transparent and Explainable Attention Models ( http://arxiv.org/abs/2004.14243v1 )

ライセンス: Link先を確認
Akash Kumar Mohankumar, Preksha Nema, Sharan Narasimhan, Mitesh M. Khapra, Balaji Vasan Srinivasan, Balaraman Ravindran(参考訳) 注意分布の解釈可能性に関する最近の研究は、モデルの予測に対する忠実で妥当な説明の概念を導いた。 注意分布は、より高い注意重みがモデルの予測により大きな影響を与えることを示唆するならば、忠実な説明と見なすことができる。 モデルの予測に対する人間の理解可能な正当性を提供するならば、それらは妥当な説明と見なすことができる。 本研究では,LSTMをベースとしたエンコーダにおける現在の注意機構が,モデルの予測を忠実に,あるいは妥当に説明できない理由を説明する。 LSTMに基づくエンコーダでは、異なる時間ステップにおける隠れ表現は互いに非常によく似ており、これらの状況における注意重みは、注意重みのランダムな置換でさえモデルの予測に影響を与えないため、あまり意味を持たない。 様々なタスクやデータセットに関する実験に基づき、注意分布は、モデルの予測を句読点のような重要でない単語に分類し、予測に対して妥当な説明を提供しないことが多い。 注意機構をより忠実かつ確実なものにするため,異なる時間ステップで学習した隠蔽表現が多様であることを保証するために,多様性駆動型学習目標を持つ改良LSTM細胞を提案する。 結果として生じる注意分布は より透明性をもたらします (i)隠された状態のより正確な重要度ランキングを提供する (ii)モデルの予測に重要な単語を示すこと (iii)勾配に基づく帰属法と相関する。 人的評価は,モデルから得られた注意分布がモデル予測の妥当な説明を与えることを示している。 私たちのコードはhttps://github.com/akashkm99/Interpretable-Attentionで公開されています。

Recent studies on interpretability of attention distributions have led to notions of faithful and plausible explanations for a model's predictions. Attention distributions can be considered a faithful explanation if a higher attention weight implies a greater impact on the model's prediction. They can be considered a plausible explanation if they provide a human-understandable justification for the model's predictions. In this work, we first explain why current attention mechanisms in LSTM based encoders can neither provide a faithful nor a plausible explanation of the model's predictions. We observe that in LSTM based encoders the hidden representations at different time-steps are very similar to each other (high conicity) and attention weights in these situations do not carry much meaning because even a random permutation of the attention weights does not affect the model's predictions. Based on experiments on a wide variety of tasks and datasets, we observe attention distributions often attribute the model's predictions to unimportant words such as punctuation and fail to offer a plausible explanation for the predictions. To make attention mechanisms more faithful and plausible, we propose a modified LSTM cell with a diversity-driven training objective that ensures that the hidden representations learned at different time steps are diverse. We show that the resulting attention distributions offer more transparency as they (i) provide a more precise importance ranking of the hidden states (ii) are better indicative of words important for the model's predictions (iii) correlate better with gradient-based attribution methods. Human evaluations indicate that the attention distributions learned by our model offer a plausible explanation of the model's predictions. Our code has been made publicly available at https://github.com/akashkm99/Interpretable-Attention
翻訳日:2022-12-08 13:53:15 公開日:2020-04-29
# GePpeTto、イタリア語を言語モデルに彫る

GePpeTto Carves Italian into a Language Model ( http://arxiv.org/abs/2004.14253v1 )

ライセンス: Link先を確認
Lorenzo De Mattei, Michele Cafagna, Felice Dell'Orletta, Malvina Nissim, Marco Guerini(参考訳) ここ数年、トレーニング済みのニューラルアーキテクチャは、いくつかのNLPタスクで大幅に改善されている。 しかし、生成言語モデルは主に英語で利用可能である。 GPT-2アーキテクチャを用いて構築されたイタリア初の生成言語モデルであるGePpeTtoを開発した。 本稿では,自動評価と人的評価の両方を用いて,GePpeTtoの品質を徹底的に分析する。 自動評価は (i)異なるジャンル・ジャンルのパープレキシティの算出 (ii)ゲッペットの筆記特性のプロファイリング分析 GePpeTtoの生産は、短いが複雑な文で、人間の生産のボンサイの一種であることがわかった。 GePpeTtoのアウトプットは、より自然なものと判断され、ベースラインとして扱う単純な言語モデルよりも、オリジナルの人間のテキストにずっと近い。

In the last few years, pre-trained neural architectures have provided impressive improvements across several NLP tasks. Still, generative language models are available mainly for English. We develop GePpeTto, the first generative language model for Italian, built using the GPT-2 architecture. We provide a thorough analysis of GePpeTto's quality by means of both an automatic and a human-based evaluation. The automatic assessment consists in (i) calculating perplexity across different genres and (ii) a profiling analysis over GePpeTto's writing characteristics. We find that GePpeTto's production is a sort of bonsai version of human production, with shorter but yet complex sentences. Human evaluation is performed over a sentence completion task, where GePpeTto's output is judged as natural more often than not, and much closer to the original human texts than to a simpler language model which we take as baseline.
翻訳日:2022-12-08 13:52:48 公開日:2020-04-29
# スケーラブル推論のための事前学習言語モデルからの汎用テキスト埋め込み

General Purpose Text Embeddings from Pre-trained Language Models for Scalable Inference ( http://arxiv.org/abs/2004.14287v1 )

ライセンス: Link先を確認
Jingfei Du, Myle Ott, Haoran Li, Xing Zhou, Veselin Stoyanov(参考訳) 多くのNLPタスクにおける技術の現状は、現在、大量の計算を必要とする大規模な事前訓練された言語モデルによって達成されている。 1つのテキストで多くの異なる予測がされるような設定について検討する。 この場合、推論中の計算コストのいくつかは、共有テキストエンコーダを使用して異なるタスクで償却することができる。 このようなエンコーダをトレーニングするためのアプローチを比較し、複数のタスクで事前学習したエンコーダが、見当たらないタスクによく当てはまることを示す。 また、複数の層や位置から抽出した特徴をプールする方法を含め、固定および制限サイズの表現をこのエンコーダから抽出する方法を比較する。 我々のベストアプローチは、知識蒸留と比較し、システムが約7つのタスクを処理すれば、高い精度と低い計算コストが得られる。 さらに,二項量子化により,抽出された表現のサイズを16倍に削減し,後で使用するための保存が容易になることを示す。 提案手法は,複数のタスクが同じテキスト上で実行される場合,計算コストのごく一部で大規模事前学習モデルを使用するための説得力のある解を提供する。

The state of the art on many NLP tasks is currently achieved by large pre-trained language models, which require a considerable amount of computation. We explore a setting where many different predictions are made on a single piece of text. In that case, some of the computational cost during inference can be amortized over the different tasks using a shared text encoder. We compare approaches for training such an encoder and show that encoders pre-trained over multiple tasks generalize well to unseen tasks. We also compare ways of extracting fixed- and limited-size representations from this encoder, including different ways of pooling features extracted from multiple layers or positions. Our best approach compares favorably to knowledge distillation, achieving higher accuracy and lower computational cost once the system is handling around 7 tasks. Further, we show that through binary quantization, we can reduce the size of the extracted representations by a factor of 16 making it feasible to store them for later use. The resulting method offers a compelling solution for using large-scale pre-trained models at a fraction of the computational cost when multiple tasks are performed on the same text.
翻訳日:2022-12-08 13:52:08 公開日:2020-04-29
# 応答選択による対話生成システムの評価

Evaluating Dialogue Generation Systems via Response Selection ( http://arxiv.org/abs/2004.14302v1 )

ライセンス: Link先を確認
Shiki Sato, Reina Akama, Hiroki Ouchi, Jun Suzuki, Kentaro Inui(参考訳) オープンドメイン対話応答生成システムにおける既存の評価指標は人的評価と相関が低い。 応答選択による応答生成システムの評価に注目する。 応答選択を適切に評価するために, 応答選択テストセットを構成する手法を提案する。 具体的には,いくつかの偽候補をフィルタリングするテストセットを構築することを提案する。 (i)地対地反応に無関係な者、及び (ii)適切な回答として受け入れられる者 実験により,本手法で開発したテストセットを用いた応答選択による評価システムは,bleuなどの広く使われている自動評価指標と比較して,人間評価に強く相関することを示した。

Existing automatic evaluation metrics for open-domain dialogue response generation systems correlate poorly with human evaluation. We focus on evaluating response generation systems via response selection. To evaluate systems properly via response selection, we propose the method to construct response selection test sets with well-chosen false candidates. Specifically, we propose to construct test sets filtering out some types of false candidates: (i) those unrelated to the ground-truth response and (ii) those acceptable as appropriate responses. Through experiments, we demonstrate that evaluating systems via response selection with the test sets developed by our method correlates more strongly with human evaluation, compared with widely used automatic evaluation metrics such as BLEU.
翻訳日:2022-12-08 13:51:51 公開日:2020-04-29
# reddit音声タグのロバストな部分に対するクロスジェネラルアンサンブルアプローチ

A Cross-Genre Ensemble Approach to Robust Reddit Part of Speech Tagging ( http://arxiv.org/abs/2004.14312v1 )

ライセンス: Link先を確認
Shabnam Behzad, Amir Zeldes(参考訳) 音声タグ付けの一部は、英語などの高リソース言語でしばしば解決される、基本的なNLPタスクである。 現在の最先端モデルは特にニュース領域において高い精度を達成している。 しかし、これらのモデルが異なるジャンルの他のコーパス、特にWebからのユーザ生成データに適用されると、性能は大幅に低下する。 本研究では,異なるジャンルでトレーニングされた最先端のタグ付けモデルが,未フィルタリングRedditフォーラムの議論からWebコンテンツ上でどのように機能するかを検討する。 テキストを備えた大規模なベンチマークコーパスであるOntoNotes,5つのWebジャンルを持つ英国Web Treebank,さらに7つのジャンルを持つGUMなどです。 redditでテストしたデータの異なる分割に関するトレーニングの結果を報告する。 この結果から,少数のドメイン内データであっても,他のWebドメインから得られる桁違いのデータのコントリビューションよりも優れることがわかった。 ドメイン外タグ付けの進展には,複数の単一世代タグをメタ分類器への入力機能として使用するアンサンブルアプローチを評価する必要がある。 本稿では,Redditデータのタグ付けに関する技術パフォーマンスの状況と,これらのモデルの結果のエラー解析について述べるとともに,トレーニングコーパスによって分解された,最も一般的なエラータイプのタイプをタイプする。

Part of speech tagging is a fundamental NLP task often regarded as solved for high-resource languages such as English. Current state-of-the-art models have achieved high accuracy, especially on the news domain. However, when these models are applied to other corpora with different genres, and especially user-generated data from the Web, we see substantial drops in performance. In this work, we study how a state-of-the-art tagging model trained on different genres performs on Web content from unfiltered Reddit forum discussions. More specifically, we use data from multiple sources: OntoNotes, a large benchmark corpus with 'well-edited' text, the English Web Treebank with 5 Web genres, and GUM, with 7 further genres other than Reddit. We report the results when training on different splits of the data, tested on Reddit. Our results show that even small amounts of in-domain data can outperform the contribution of data an order of magnitude larger coming from other Web domains. To make progress on out-of-domain tagging, we also evaluate an ensemble approach using multiple single-genre taggers as input features to a meta-classifier. We present state of the art performance on tagging Reddit data, as well as error analysis of the results of these models, and offer a typology of the most common error types among them, broken down by training corpus.
翻訳日:2022-12-08 13:51:41 公開日:2020-04-29
# 感性語彙における単語の領域極性変化の検出

Detecting Domain Polarity-Changes of Words in a Sentiment Lexicon ( http://arxiv.org/abs/2004.14357v1 )

ライセンス: Link先を確認
Shuai Wang, Guangyi Lv, Sahisnu Mazumder, Bing Liu(参考訳) 感覚レキシコンは感情分析に有効である。 感情分類を行うために、感情辞書と語彙ベースの分類器に提供される感情単語のセットを使用することができる。 このアプローチの大きな問題のひとつは、多くの感情語がドメインに依存しています。 すなわち、ある領域では肯定的であるが、別の領域では否定的である。 この問題をドメイン極性変化(domain polarity changes of words)と呼ぶ。 このような言葉の検出とアプリケーションドメインに対する感情の修正は、非常に重要です。 本稿では,この問題に対処するためのグラフベース手法を提案する。 実験の結果,複数の実世界のデータセットでの有効性が示された。

Sentiment lexicons are instrumental for sentiment analysis. One can use a set of sentiment words provided in a sentiment lexicon and a lexicon-based classifier to perform sentiment classification. One major issue with this approach is that many sentiment words are domain dependent. That is, they may be positive in some domains but negative in some others. We refer to this problem as domain polarity-changes of words. Detecting such words and correcting their sentiment for an application domain is very important. In this paper, we propose a graph-based technique to tackle this problem. Experimental results show its effectiveness on multiple real-world datasets.
翻訳日:2022-12-08 13:50:50 公開日:2020-04-29
# FSTとニューラルネットワークによる南サミの形態的曖昧化

Morphological Disambiguation of South S\'ami with FSTs and Neural Networks ( http://arxiv.org/abs/2004.14062v1 )

ライセンス: Link先を確認
Mika H\"am\"al\"ainen, Linda Wiechetek(参考訳) 本稿では,絶滅危惧言語である南サミに対する形態的曖昧化を行う手法を提案する。 本手法は,FSTに基づく形態素解析装置を用いて,文中の各単語に対する不明瞭な形態素読影集合を生成する。 これらの読みは、関連するNorth S\'ami UD Treebankと合成生成されたSouth S\'amiデータに基づいて訓練されたBi-RNNモデルで曖昧である。 この曖昧さの解消は、単語の形や補題を無視した形態的タグのレベルに基づいて行われ、二言語辞書や単語埋め込みを必要とせずに、南スナミの訓練データを使用することができる。 我々のアプローチでは、South S\'amiにとって最小限のリソースしか必要とせず、他の絶滅危惧言語でも使用でき、適用できます。

We present a method for conducting morphological disambiguation for South S\'ami, which is an endangered language. Our method uses an FST-based morphological analyzer to produce an ambiguous set of morphological readings for each word in a sentence. These readings are disambiguated with a Bi-RNN model trained on the related North S\'ami UD Treebank and some synthetically generated South S\'ami data. The disambiguation is done on the level of morphological tags ignoring word forms and lemmas; this makes it possible to use North S\'ami training data for South S\'ami without the need for a bilingual dictionary or aligned word embeddings. Our approach requires only minimal resources for South S\'ami, which makes it usable and applicable in the contexts of any other endangered language as well.
翻訳日:2022-12-08 13:43:43 公開日:2020-04-29
# タスク指向対話状態生成のための長期文脈のモデル化

Modeling Long Context for Task-Oriented Dialogue State Generation ( http://arxiv.org/abs/2004.14080v1 )

ライセンス: Link先を確認
Jun Quan and Deyi Xiong(参考訳) 本稿では,最近提案する発話結合対話コンテキストから対話状態を予測するトランスファラブル対話状態生成システム(trade)に基づいて,タスク指向対話状態生成のための補助タスクとして,単純かつ効果的な発話タグ付け手法と双方向言語モデルを用いたマルチタスク学習モデルを提案する。 提案手法は,長い対話コンテキストの表現性の向上をモデルが学べるようにすることで,入力対話コンテキストシーケンスが長い場合に,ベースラインの性能が著しく低下するという問題を解決する。 本実験では,MultiWOZ 2.0データセットにおいて,ベースラインに対する相対的改善を7.03%達成し,新しい最先端共同目標精度を52.04%とした。

Based on the recently proposed transferable dialogue state generator (TRADE) that predicts dialogue states from utterance-concatenated dialogue context, we propose a multi-task learning model with a simple yet effective utterance tagging technique and a bidirectional language model as an auxiliary task for task-oriented dialogue state generation. By enabling the model to learn a better representation of the long dialogue context, our approaches attempt to solve the problem that the performance of the baseline significantly drops when the input dialogue context sequence is long. In our experiments, our proposed model achieves a 7.03% relative improvement over the baseline, establishing a new state-of-the-art joint goal accuracy of 52.04% on the MultiWOZ 2.0 dataset.
翻訳日:2022-12-08 13:43:17 公開日:2020-04-29
# エンティティ認識のためのエンティティ候補ネットワーク

Entity Candidate Network for Whole-Aware Named Entity Recognition ( http://arxiv.org/abs/2004.14145v1 )

ライセンス: Link先を確認
Wendong He, Yizhen Shao, Pingjian Zhang(参考訳) 名前付きエンティティ認識(NER)は自然言語処理(NLP)において重要な上流タスクである。 従来のタグスキームアプローチは、コリファレンス解決のような多くの下流タスクのニーズを満たさない単一の認識を提供する。 一方、タグスキームは実体の連続性を無視する。 コンピュータビジョン(CV)における一段階物体検出モデルにインスパイアされた本研究では,NERをオブジェクト検出タスクとする新しいノタグスキームであるWhole-Aware Detectionを提案する。 本稿では,新しいモデルであるentity candidate network (ecnet) と,特定の畳み込みネットワークであるadaptive context convolution network (accn) を提案する。 ECNetは、エンティティロスに基づいて、名前付きエンティティとそのタイプの全スパンを特定します。 さらに、ECNetは最高精度と最高リコールの間で調整可能であるが、タグスキームのアプローチはそうではない。 CoNLL 2003の英語データセットとWNUT 2017データセットの実験結果によると、ECNetは他の最先端の手法よりも優れていた。

Named Entity Recognition (NER) is a crucial upstream task in Natural Language Processing (NLP). Traditional tag scheme approaches offer a single recognition that does not meet the needs of many downstream tasks such as coreference resolution. Meanwhile, Tag scheme approaches ignore the continuity of entities. Inspired by one-stage object detection models in computer vision (CV), this paper proposes a new no-tag scheme, the Whole-Aware Detection, which makes NER an object detection task. Meanwhile, this paper presents a novel model, Entity Candidate Network (ECNet), and a specific convolution network, Adaptive Context Convolution Network (ACCN), to fuse multi-scale contexts and encode entity information at each position. ECNet identifies the full span of a named entity and its type at each position based on Entity Loss. Furthermore, ECNet is regulable between the highest precision and the highest recall, while the tag scheme approaches are not. Experimental results on the CoNLL 2003 English dataset and the WNUT 2017 dataset show that ECNet outperforms other previous state-of-the-art methods.
翻訳日:2022-12-08 13:42:49 公開日:2020-04-29
# ニューラルマシン翻訳のための構文認識データ拡張

Syntax-aware Data Augmentation for Neural Machine Translation ( http://arxiv.org/abs/2004.14200v1 )

ライセンス: Link先を確認
Sufeng Duan, Hai Zhao, Dongdong Zhang, Rui Wang(参考訳) データ拡張は、追加のバイリンガルデータを生成することにより、ニューラルネットワーク翻訳(NMT)における効果的なパフォーマンス向上である。 本稿では,ニューラルマシン翻訳のための新しいデータ拡張強化戦略を提案する。 修正のために異なる文間で同じ確率で単語を選択する既存のデータ拡張法とは異なり、文中の単語の役割を考慮し、単語選択のための文固有の確率を設定する。 各文中の各単語の選択確率を決定するための効果的な手がかりとして,入力文の係り受け解析木を用いる。 提案手法はWMT14の英語-ドイツ語データセットとIWSLT14のドイツ語-英語データセットを用いて評価する。 大規模な実験の結果,提案手法は既存の文非依存の手法を効果的に強化し,翻訳性能を大幅に向上させる可能性が示唆された。

Data augmentation is an effective performance enhancement in neural machine translation (NMT) by generating additional bilingual data. In this paper, we propose a novel data augmentation enhancement strategy for neural machine translation. Different from existing data augmentation methods which simply choose words with the same probability across different sentences for modification, we set sentence-specific probability for word selection by considering their roles in sentence. We use dependency parse tree of input sentence as an effective clue to determine selecting probability for every words in each sentence. Our proposed method is evaluated on WMT14 English-to-German dataset and IWSLT14 German-to-English dataset. The result of extensive experiments show our proposed syntax-aware data augmentation method may effectively boost existing sentence-independent methods for significant translation performance improvement.
翻訳日:2022-12-08 13:42:14 公開日:2020-04-29
# ゼロショットトピック生成

Zero-shot topic generation ( http://arxiv.org/abs/2004.13956v1 )

ライセンス: Link先を確認
Oleg Vasilyev, Kathryn Evans, Anna Venancio-Marques, John Bohannon(参考訳) 本稿では,文書タイトル生成にのみ訓練されたモデルを用いてトピックを生成する手法を提案する。 我々は、その文書のタイトルを生成するために、文書中の候補スパンの関連性をキャプチャする機能を利用する。 出力は、文書を記述し、コーパス内で区別するのに最も関係のある句の重み付けされたコレクションであり、コーパスの残りの部分にアクセスする必要はない。 我々は、The GuardianやThe Huffington Postのニュース記事に関連するオリジナルの人書きのトピックとともに、人間のアノテータが機械生成トピックの質を評価した二重盲検試験を行った。 その結果, ゼロショットモデルでは, 人によって判断されるような, 平均的あるいは高い品質のニュース文書に対して, 話題ラベルを生成することがわかった。

We present an approach to generating topics using a model trained only for document title generation, with zero examples of topics given during training. We leverage features that capture the relevance of a candidate span in a document for the generation of a title for that document. The output is a weighted collection of the phrases that are most relevant for describing the document and distinguishing it within a corpus, without requiring access to the rest of the corpus. We conducted a double-blind trial in which human annotators scored the quality of our machine-generated topics along with original human-written topics associated with news articles from The Guardian and The Huffington Post. The results show that our zero-shot model generates topic labels for news documents that are on average equal to or higher quality than those written by humans, as judged by humans.
翻訳日:2022-12-08 13:34:04 公開日:2020-04-29
# 特徴階層全体の摂動による標準および厳格なブラックボックス攻撃伝達性の向上

Perturbing Across the Feature Hierarchy to Improve Standard and Strict Blackbox Attack Transferability ( http://arxiv.org/abs/2004.14861v1 )

ライセンス: Link先を確認
Nathan Inkawhich, Kevin J Liang, Binghui Wang, Matthew Inkawhich, Lawrence Carin and Yiran Chen(参考訳) 我々は,deep neural network (dnn) 画像分類器の領域におけるblackbox transfer-based target adversarial attack threatモデルについて考察する。 ソースモデルの出力層における決定境界の交差に焦点をあてるのではなく、抽出した特徴階層全体の表現を他のクラスに類似させる。 我々は,多層摂動が可能なフレキシブルアタックフレームワークを設計し,ImageNet DNN間の最先端のターゲット転送性能を示す。 また、ソースモデルとターゲットモデルが同じデータセットとラベル空間でトレーニングされているという一般的な仮定の緩和の下で、我々の機能空間メソッドの優位性を示す。 最後に,提案手法が既存の攻撃戦略に勝る理由を分析し,ブラックボックスモデルへの限定クエリが許可された場合のメソッドの拡張を示す。

We consider the blackbox transfer-based targeted adversarial attack threat model in the realm of deep neural network (DNN) image classifiers. Rather than focusing on crossing decision boundaries at the output layer of the source model, our method perturbs representations throughout the extracted feature hierarchy to resemble other classes. We design a flexible attack framework that allows for multi-layer perturbations and demonstrates state-of-the-art targeted transfer performance between ImageNet DNNs. We also show the superiority of our feature space methods under a relaxation of the common assumption that the source and target models are trained on the same dataset and label space, in some instances achieving a $10\times$ increase in targeted success rate relative to other blackbox transfer methods. Finally, we analyze why the proposed methods outperform existing attack strategies and show an extension of the method in the case when limited queries to the blackbox model are allowed.
翻訳日:2022-12-08 13:27:32 公開日:2020-04-29
# LambdaNet: グラフニューラルネットワークを用いた確率型推論

LambdaNet: Probabilistic Type Inference using Graph Neural Networks ( http://arxiv.org/abs/2005.02161v1 )

ライセンス: Link先を確認
Jiayi Wei, Maruth Goyal, Greg Durrett, Isil Dillig(参考訳) PythonやTypeScriptなどの言語では徐々に型付けが普及しているため、型アノテーションを自動で推論する必要性が高まっている。 型アノテーションは、コード補完や静的エラー捕捉のようなタスクに役立つが、これらのアノテーションはコンパイラによって完全に決定することはできない。 本稿では,グラフニューラルネットワークに基づくTypeScriptの確率型推論手法を提案する。 私たちのアプローチでは、まず軽量なソースコード解析を使用して、型依存グラフと呼ばれるプログラム抽象化を生成します。 このプログラムの抽象化を考えると、グラフニューラルネットワークを使用して、関連する型変数間の情報を伝搬し、最終的に型予測を行います。 私たちのニューラルアーキテクチャは、数値や文字列のような標準型と、トレーニング中に遭遇していないユーザ定義型の両方を予測できます。 実験の結果,提案手法は,既存の手法では適用できない型予測を行う能力を持つ一方で,ライブラリ型に対して14\%$ (絶対的) の先行作業を上回っていることがわかった。

As gradual typing becomes increasingly popular in languages like Python and TypeScript, there is a growing need to infer type annotations automatically. While type annotations help with tasks like code completion and static error catching, these annotations cannot be fully determined by compilers and are tedious to annotate by hand. This paper proposes a probabilistic type inference scheme for TypeScript based on a graph neural network. Our approach first uses lightweight source code analysis to generate a program abstraction called a type dependency graph, which links type variables with logical constraints as well as name and usage information. Given this program abstraction, we then use a graph neural network to propagate information between related type variables and eventually make type predictions. Our neural architecture can predict both standard types, like number or string, as well as user-defined types that have not been encountered during training. Our experimental results show that our approach outperforms prior work in this space by $14\%$ (absolute) on library types, while having the ability to make type predictions that are out of scope for existing techniques.
翻訳日:2022-12-08 13:27:17 公開日:2020-04-29
# 小さなデータセットに基づく効果的な人間行動認識

Effective Human Activity Recognition Based on Small Datasets ( http://arxiv.org/abs/2004.13977v1 )

ライセンス: Link先を確認
Bruce X. B. Yu, Yan Liu, Keith C. C. Chan(参考訳) 視覚に基づくヒューマンアクティビティ認識(HAR)に関する最近の研究は、タスクのための複雑なディープラーニングモデルの設計に焦点を当てている。 そのためには、大規模なデータセットを収集する必要がある。 大規模なトレーニングデータセットの取得と処理は通常非常に費用がかかるため、認識精度に影響を与えることなくデータセットのサイズを削減できるという課題に取り組まなければならない。 そこで我々は3つのステップからなるHAR法を提案する。 (i)生データの変換に基づく新機能の生成を伴うデータ変換 (ii)adaboostアルゴリズムに基づく分類器の学習と、変換された特徴からなる訓練データの使用を含む特徴抽出と、 (iii)生成した特徴に基づくパラメータ決定を伴うパラメータ決定とパターン認識 (II) 深層学習アルゴリズムのトレーニングデータとしてパラメータを用いることで, 人間の活動を認識することができる。 既存のアプローチと比較して、提案手法は単純かつ堅牢であるという利点がある。 提案手法は比較的小さな実データセットで多数の実験によって検証されている。 実験の結果, 学習データサイズが小さくても, 人間の活動をより正確に把握できることがわかった。

Most recent work on vision-based human activity recognition (HAR) focuses on designing complex deep learning models for the task. In so doing, there is a requirement for large datasets to be collected. As acquiring and processing large training datasets are usually very expensive, the problem of how dataset size can be reduced without affecting recognition accuracy has to be tackled. To do so, we propose a HAR method that consists of three steps: (i) data transformation involving the generation of new features based on transforming of raw data, (ii) feature extraction involving the learning of a classifier based on the AdaBoost algorithm and the use of training data consisting of the transformed features, and (iii) parameter determination and pattern recognition involving the determination of parameters based on the features generated in (ii) and the use of the parameters as training data for deep learning algorithms to be used to recognize human activities. Compared to existing approaches, this proposed approach has the advantageous characteristics that it is simple and robust. The proposed approach has been tested with a number of experiments performed on a relatively small real dataset. The experimental results indicate that using the proposed method, human activities can be more accurately recognized even with smaller training data size.
翻訳日:2022-12-08 13:26:57 公開日:2020-04-29
# rgbビデオにおけるスケルトン焦点ヒト活動認識

Skeleton Focused Human Activity Recognition in RGB Video ( http://arxiv.org/abs/2004.13979v1 )

ライセンス: Link先を確認
Bruce X. B. Yu, Yan Liu, Keith C. C. Chan(参考訳) スケルトンフレームやrgbビデオといった視覚機能の最適な表現を学ぶデータ駆動アプローチは、現在アクティビティ認識の主要なパラダイムである。 より大きなデータセットを持つ既存の単一モーダルアプローチから大きな改善が得られたが、機能レベルでの様々なデータモーダルの融合はめったに試みられていない。 本稿では,骨格とRGBモダリティを併用したマルチモーダル特徴融合モデルを提案する。 目的は、異なるデータモダリティ間の相互補完情報を有効活用することにより、アクティビティ認識精度を向上させることである。 骨格のモダリティについて,スケルトン表現の学習にグラフ畳み込みサブネットワークを用いることを提案する。 RGBのモダリティとは対照的に、RGBビデオの空間的時間的関心領域を用いて、骨格のモダリティから注目特徴を取り入れて学習プロセスを導く。 モデルは、エンドツーエンドの方法で、バックプロパゲーションアルゴリズムによって個別または均一にトレーニングすることができる。 ntu-rgb+dとnorthern-ucla multiviewデータセットの実験結果から,提案するrgbモダリティのスケルトン駆動型注意機構は,異なるデータモダリティ間の相互通信を増加させ,ヒューマンアクティビティを推定するためのより識別的特徴をもたらすことが示唆された。

The data-driven approach that learns an optimal representation of vision features like skeleton frames or RGB videos is currently a dominant paradigm for activity recognition. While great improvements have been achieved from existing single modal approaches with increasingly larger datasets, the fusion of various data modalities at the feature level has seldom been attempted. In this paper, we propose a multimodal feature fusion model that utilizes both skeleton and RGB modalities to infer human activity. The objective is to improve the activity recognition accuracy by effectively utilizing the mutual complemental information among different data modalities. For the skeleton modality, we propose to use a graph convolutional subnetwork to learn the skeleton representation. Whereas for the RGB modality, we will use the spatial-temporal region of interest from RGB videos and take the attention features from the skeleton modality to guide the learning process. The model could be either individually or uniformly trained by the back-propagation algorithm in an end-to-end manner. The experimental results for the NTU-RGB+D and Northwestern-UCLA Multiview datasets achieved state-of-the-art performance, which indicates that the proposed skeleton-driven attention mechanism for the RGB modality increases the mutual communication between different data modalities and brings more discriminative features for inferring human activities.
翻訳日:2022-12-08 13:26:43 公開日:2020-04-29
# 知覚制約とSTNアライメントを用いた画像修正

Image Morphing with Perceptual Constraints and STN Alignment ( http://arxiv.org/abs/2004.14071v1 )

ライセンス: Link先を確認
Noa Fish, Richard Zhang, Lilach Perry, Daniel Cohen-Or, Eli Shechtman, Connelly Barnes(参考訳) 画像変形では、与えられたインスタンス間のスムーズな変換を形成するために、可塑性フレームのシーケンスを合成して合成する。 中間者はインプットに忠実であり続け、セットのメンバーとして独自の立場を保ち、それぞれから次の視覚的遷移を維持しなければならない。 本稿では,一対の入力画像で動作する条件付きGANモーフィングフレームワークを提案する。 ネットワークは、変換に沿った時間サンプルに対応するフレームを合成するように訓練され、中間フレームの妥当性を高めるための適切な形状を事前に学習する。 対向的な設定により、個々のフレームの可視性が向上する一方、知覚的類似性損失と組み合わせてフレームのシーケンスを生成する特別なトレーニングプロトコルは、時間とともにスムーズな変換を促進する。 対応の明示的な記述は、入力間の幾何学的ワープを予測するグリッドベースの自由形変形空間変換器に置き換えられ、形状を初期アライメントにすることで滑らかな幾何学的効果を構成する。 古典的手法と潜伏空間モーフィング手法との比較を行い, 自己スーパービジョンのための画像集合を与えられたネットワークは, 形状やテクスチャの変化に対して頑健性を持ち, 対応注釈を必要とせず, 視覚的にモーフィング効果を生成できることを実証する。

In image morphing, a sequence of plausible frames are synthesized and composited together to form a smooth transformation between given instances. Intermediates must remain faithful to the input, stand on their own as members of the set, and maintain a well-paced visual transition from one to the next. In this paper, we propose a conditional GAN morphing framework operating on a pair of input images. The network is trained to synthesize frames corresponding to temporal samples along the transformation, and learns a proper shape prior that enhances the plausibility of intermediate frames. While individual frame plausibility is boosted by the adversarial setup, a special training protocol producing sequences of frames, combined with a perceptual similarity loss, promote smooth transformation over time. Explicit stating of correspondences is replaced with a grid-based freeform deformation spatial transformer that predicts the geometric warp between the inputs, instituting the smooth geometric effect by bringing the shapes into an initial alignment. We provide comparisons to classic as well as latent space morphing techniques, and demonstrate that, given a set of images for self-supervision, our network learns to generate visually pleasing morphing effects featuring believable in-betweens, with robustness to changes in shape and texture, requiring no correspondence annotation.
翻訳日:2022-12-08 13:26:18 公開日:2020-04-29
# 群衆分析・比較・シミュレーション指導のための情報的シーン分解

Informative Scene Decomposition for Crowd Analysis, Comparison and Simulation Guidance ( http://arxiv.org/abs/2004.14107v1 )

ライセンス: Link先を確認
Feixiang He, Yuanhang Xiang, Xi Zhao, He Wang(参考訳) 群衆シミュレーションはグラフィックを含むいくつかの分野において中心的なトピックである。 高忠実度シミュレーションを実現するため、分析やシミュレーションガイダンスにデータが頼りになってきた。 しかし、実世界のデータはノイズが多く、混在し、構造化されていないため、効果的な分析が難しいため、十分に活用されていない。 クラウドデータの急増に伴い、このようなボトルネックに対処する必要がある。 本稿では,この問題を包括的に解決する新しい枠組みを提案する。 管理されていない分析方法に集中する。 本手法は,多次元情報(空間,時間,ダイナミクス)を高度に混合した入力生・雑音データとして,これらの次元間の相関関係を学習して自動的に構成する。 これらの次元とそれらの相関関係は、時間的および動的プロファイルを持つ空間の流れとして表されるシーン内の活動パターンからなるシーンセマンティクスを完全に記述している。 分析の有効性とロバスト性は、ボリューム、持続時間、環境、群集のダイナミクスに大きな変化があるデータセットで検証されている。 また,データ可視化,シミュレーション評価,シミュレーション指導のための新しい手法を提案する。 このフレームワークは,生データからクラウド分析,比較,シミュレーションガイダンスに至るまで,高度に自動化されたパイプラインを構築する。 フレームワークの柔軟性,汎用性,直感性を示すために,広範な実験と評価が行われてきた。

Crowd simulation is a central topic in several fields including graphics. To achieve high-fidelity simulations, data has been increasingly relied upon for analysis and simulation guidance. However, the information in real-world data is often noisy, mixed and unstructured, making it difficult for effective analysis, therefore has not been fully utilized. With the fast-growing volume of crowd data, such a bottleneck needs to be addressed. In this paper, we propose a new framework which comprehensively tackles this problem. It centers at an unsupervised method for analysis. The method takes as input raw and noisy data with highly mixed multi-dimensional (space, time and dynamics) information, and automatically structure it by learning the correlations among these dimensions. The dimensions together with their correlations fully describe the scene semantics which consists of recurring activity patterns in a scene, manifested as space flows with temporal and dynamics profiles. The effectiveness and robustness of the analysis have been tested on datasets with great variations in volume, duration, environment and crowd dynamics. Based on the analysis, new methods for data visualization, simulation evaluation and simulation guidance are also proposed. Together, our framework establishes a highly automated pipeline from raw data to crowd analysis, comparison and simulation guidance. Extensive experiments and evaluations have been conducted to show the flexibility, versatility and intuitiveness of our framework.
翻訳日:2022-12-08 13:25:53 公開日:2020-04-29
# 精密農業のための衛星駆動植生指標のUAVと機械学習によるリファインメント

UAV and Machine Learning Based Refinement of a Satellite-Driven Vegetation Index for Precision Agriculture ( http://arxiv.org/abs/2004.14421v1 )

ライセンス: Link先を確認
Vittorio Mazzia, Lorenzo Comba, Aleem Khaliq, Marcello Chiaberge, Paolo Gay(参考訳) 精密農業は、サイト固有の経営実践を行う際に、低出力で高効率で持続可能な農業を追求する基本的なアプローチであると考えられている。 この目的を達成するには、作物の地域的地位の信頼性と更新が必要である。 リモートセンシング、特に衛星ベースの画像は、作物のマッピング、モニタリング、病気の評価に有用なツールであることが証明された。 しかし、低解像度または適度な解像度の衛星画像は、例えば作物が列で栽培される特定の農業用途にいくつかの限界を示していた。 実際、この枠組みでは、衛星の出力は列内被覆によって偏り、作物の状態に関する不正確な情報を与える可能性がある。 本稿では,無人航空機(uav)空中マルチスペクトルセンサによって取得された高解像度画像から得られた情報を適切に活用する深層学習技術に基づく,新しい衛星画像改良枠組みを提案する。 畳み込みニューラルネットワークのトレーニングには、1つのUAV駆動データセットのみが必要であるため、提案手法は単純で費用対効果が高い。 北イタリアのセラルンガ・ダルバ(serralunga d'alba)にあるブドウ畑が、検証目的のケーススタディとして選ばれた。 NDVI(Refined Satellite-driven normalized difference vegetation Index)マップは、ブドウ栽培期間中に4つの異なる期間に取得され、相関分析とANOVAによる生データに対する作物のステータスをよりよく記述した。 さらに,K-meansをベースとした分類器を用いて,NDVIマップから3級ブドウ畑のビゴールマップを収益性で抽出した。

Precision agriculture is considered to be a fundamental approach in pursuing a low-input, high-efficiency, and sustainable kind of agriculture when performing site-specific management practices. To achieve this objective, a reliable and updated description of the local status of crops is required. Remote sensing, and in particular satellite-based imagery, proved to be a valuable tool in crop mapping, monitoring, and diseases assessment. However, freely available satellite imagery with low or moderate resolutions showed some limits in specific agricultural applications, e.g., where crops are grown by rows. Indeed, in this framework, the satellite's output could be biased by intra-row covering, giving inaccurate information about crop status. This paper presents a novel satellite imagery refinement framework, based on a deep learning technique which exploits information properly derived from high resolution images acquired by unmanned aerial vehicle (UAV) airborne multispectral sensors. To train the convolutional neural network, only a single UAV-driven dataset is required, making the proposed approach simple and cost-effective. A vineyard in Serralunga d'Alba (Northern Italy) was chosen as a case study for validation purposes. Refined satellite-driven normalized difference vegetation index (NDVI) maps, acquired in four different periods during the vine growing season, were shown to better describe crop status with respect to raw datasets by correlation analysis and ANOVA. In addition, using a K-means based classifier, 3-class vineyard vigor maps were profitably derived from the NDVI maps, which are a valuable tool for growers.
翻訳日:2022-12-08 13:25:34 公開日:2020-04-29
# 外観と行動からのディープフェイク映像の検出

Detecting Deep-Fake Videos from Appearance and Behavior ( http://arxiv.org/abs/2004.14491v1 )

ライセンス: Link先を確認
Shruti Agarwal (1), Tarek El-Gaaly (2), Hany Farid (1), Ser-Nam Lim (2) ((1) Univeristy of California, Berkeley, Berkeley, CA, USA, (2) Facebook Research, New York, NY, USA)(参考訳) 合成生成されたオーディオやビデオ ― いわゆるディープフェイク ― は、コンピュータグラフィックやコンピュータビジョンのコミュニティの想像力を捉え続けている。 同時に、テクノロジーへのアクセスの民主化は、民主主義の選挙を妨害し、小規模の不正行為を犯し、偽情報キャンペーンを燃やし、コンセンサス的でないポルノを創造する力によって、あらゆることを心配し続けている、洗練された操作されたビデオを作り出すことができる。 本研究は, 生体計測に基づく深部フェイクの検出手法について述べる。 この手法は, 顔認識に基づく静的バイオメトリックと, 顔の表情と頭部の動きに基づく時間的, 行動的バイオメトリックを組み合わせる。 我々は,このアプローチが複数の大規模ビデオデータセットにまたがって有効であること,さらには奥行きの深いフェイクも示す。

Synthetically-generated audios and videos -- so-called deep fakes -- continue to capture the imagination of the computer-graphics and computer-vision communities. At the same time, the democratization of access to technology that can create sophisticated manipulated video of anybody saying anything continues to be of concern because of its power to disrupt democratic elections, commit small to large-scale fraud, fuel dis-information campaigns, and create non-consensual pornography. We describe a biometric-based forensic technique for detecting face-swap deep fakes. This technique combines a static biometric based on facial recognition with a temporal, behavioral biometric based on facial expressions and head movements, where the behavioral embedding is learned using a CNN with a metric-learning objective function. We show the efficacy of this approach across several large-scale video datasets, as well as in-the-wild deep fakes.
翻訳日:2022-12-08 13:24:51 公開日:2020-04-29
# どの紙幣がロビーですか。 アメリカにおけるロビー活動の予測と解釈

Which bills are lobbied? Predicting and interpreting lobbying activity in the US ( http://arxiv.org/abs/2005.06386v1 )

ライセンス: Link先を確認
Ivan Slobozhan, Peter Ormosi, Rajesh Sharma(参考訳) opensecrets.orgのロビー活動データを用いて、法律(法案)の一部がロビー活動の対象にされたかどうかを予測するために、機械学習技術を適用したいくつかの実験を行う。 また、ロビー活動の強度が、ロビー活動の対象となっていない法案の識別性に及ぼす影響についても検討した。 我々は,複数の異なるモデル(論理回帰,ランダムフォレスト,CNN,LSTM)とテキスト埋め込み表現(BOW,TF-IDF,GloVe,Law2Vec)の性能を比較した。 ROC AUCスコアは0.85%以上,精度は78%であった。 モデル性能はロビー強度の高い紙幣をみると顕著に向上する(95% ROC AUC, 88%の精度)。 また,非ラベルデータに利用できる手法を提案する。 これを通じて、我々の予測ではロビー活動が行われたことを示唆する、これまで未定の米国法案がかなり多いことを示しています。 我々は,ロビー活動の影響を受けがちな法案を提出することで,米国ロビー活動開示法(LDA)の施行に寄与する可能性があると考えている。

Using lobbying data from OpenSecrets.org, we offer several experiments applying machine learning techniques to predict if a piece of legislation (US bill) has been subjected to lobbying activities or not. We also investigate the influence of the intensity of the lobbying activity on how discernible a lobbied bill is from one that was not subject to lobbying. We compare the performance of a number of different models (logistic regression, random forest, CNN and LSTM) and text embedding representations (BOW, TF-IDF, GloVe, Law2Vec). We report results of above 0.85% ROC AUC scores, and 78% accuracy. Model performance significantly improves (95% ROC AUC, and 88% accuracy) when bills with higher lobbying intensity are looked at. We also propose a method that could be used for unlabelled data. Through this we show that there is a considerably large number of previously unlabelled US bills where our predictions suggest that some lobbying activity took place. We believe our method could potentially contribute to the enforcement of the US Lobbying Disclosure Act (LDA) by indicating the bills that were likely to have been affected by lobbying but were not filed as such.
翻訳日:2022-12-08 13:17:31 公開日:2020-04-29
# EmbraceNet for Activity: アクティビティ認識のための深いマルチモーダル融合アーキテクチャ

EmbraceNet for Activity: A Deep Multimodal Fusion Architecture for Activity Recognition ( http://arxiv.org/abs/2004.13918v1 )

ライセンス: Link先を確認
Jun-Ho Choi, Jong-Seok Lee(参考訳) 複数のセンサーを用いた人間の行動認識は、ここ数十年で難しいが有望な課題だ。 本稿では,最近提案されたEmbraceNetという機能融合アーキテクチャに基づく,アクティビティ認識のための深層マルチモーダル融合モデルを提案する。 当社のモデルでは,各センサデータを独立して処理し,機能とacceptnetアーキテクチャを組み合わせることで,融合した機能を処理してアクティビティを予測する。 さらに,モデルの性能を向上させるためのプロセスも提案する。 提案したモデルから得られた結果を,チーム名「Yonsei-MCML」を用いてSHL認識課題に提出する。

Human activity recognition using multiple sensors is a challenging but promising task in recent decades. In this paper, we propose a deep multimodal fusion model for activity recognition based on the recently proposed feature fusion architecture named EmbraceNet. Our model processes each sensor data independently, combines the features with the EmbraceNet architecture, and post-processes the fused feature to predict the activity. In addition, we propose additional processes to boost the performance of our model. We submit the results obtained from our proposed model to the SHL recognition challenge with the team name "Yonsei-MCML."
翻訳日:2022-12-08 13:17:02 公開日:2020-04-29
# 変分ベイズ法によるマルチデコーダRNNオートエンコーダ

Multi-Decoder RNN Autoencoder Based on Variational Bayes Method ( http://arxiv.org/abs/2004.14016v1 )

ライセンス: Link先を確認
Daisuke Kaji, Kazuho Watanabe, Masahiro Kobayashi(参考訳) クラスタリングアルゴリズムは幅広い応用があり、時系列データ分析を含むデータ分析の分野で重要な役割を果たす。 しかし時系列解析では、ほとんどのアルゴリズムは信号形状の特徴やニューラルネットワークの隠れ変数の初期値を用いていた。 時系列の生成モデルに基づく手法についてはほとんど議論されていない。 本稿では,リカレントニューラルネットワークを用いた信号の生成過程と変分ベイズ法に着目した新しいクラスタリングアルゴリズムを提案する。 実験の結果,提案アルゴリズムは位相シフト,振幅,信号長の変動に対する頑健性だけでなく,変分ベイズ法の特性に基づく柔軟なクラスタリングも可能であることがわかった。

Clustering algorithms have wide applications and play an important role in data analysis fields including time series data analysis. However, in time series analysis, most of the algorithms used signal shape features or the initial value of hidden variable of a neural network. Little has been discussed on the methods based on the generative model of the time series. In this paper, we propose a new clustering algorithm focusing on the generative process of the signal with a recurrent neural network and the variational Bayes method. Our experiments show that the proposed algorithm not only has a robustness against for phase shift, amplitude and signal length variations but also provide a flexible clustering based on the property of the variational Bayes method.
翻訳日:2022-12-08 13:16:32 公開日:2020-04-29
# 合成データによる学習による破滅的忘れの低減

Reducing catastrophic forgetting with learning on synthetic data ( http://arxiv.org/abs/2004.14046v1 )

ライセンス: Link先を確認
Wojciech Masarczyk and Ivona Tautkute(参考訳) 破滅的な忘れは、ニューラルネットワークが順番にデータを学習できないことに起因する問題である。 2つのタスクを順番に学習した後、最初のタスクのパフォーマンスは大幅に低下する。 これは深刻な不利であり、多くのディープラーニングアプリケーションが、すべてのオブジェクトクラスが事前に知られていないような現実的な問題に陥ることを防ぐ。 この問題を解決するために、我々は合成データの使用、すなわち、ある疑問に答える: シーケンスで学習したデータを合成して生成することは、破滅的な忘れ物にはならないか? 本研究では,2段階の最適化プロセスにおいて,メタ勾配を用いてデータを生成する手法を提案する。 Split-MNISTデータセットによる実験結果から,このような合成データに基づいてモデルを連続的にトレーニングしても,破滅的な忘れが生じることはないことがわかった。 また,異なる学習シナリオに対してロバストなデータ生成手法を示す。

Catastrophic forgetting is a problem caused by neural networks' inability to learn data in sequence. After learning two tasks in sequence, performance on the first one drops significantly. This is a serious disadvantage that prevents many deep learning applications to real-life problems where not all object classes are known beforehand; or change in data requires adjustments to the model. To reduce this problem we investigate the use of synthetic data, namely we answer a question: Is it possible to generate such data synthetically which learned in sequence does not result in catastrophic forgetting? We propose a method to generate such data in two-step optimisation process via meta-gradients. Our experimental results on Split-MNIST dataset show that training a model on such synthetic data in sequence does not result in catastrophic forgetting. We also show that our method of generating data is robust to different learning scenarios.
翻訳日:2022-12-08 13:09:21 公開日:2020-04-29
# モデル提供のためのニューラルネットワークリトレーニング

Neural Network Retraining for Model Serving ( http://arxiv.org/abs/2004.14203v1 )

ライセンス: Link先を確認
Diego Klabjan, Xiaofeng Zhu(参考訳) モデル提供中の推論における新しいデータの継続的な流れに対処するニューラルネットワークモデルの漸進的(再)学習を提案する。 そのため、これは生涯にわたる学習プロセスである。 破滅的な再トレーニングと効率的な再トレーニングの2つの課題に対処する。 すべての過去のデータと新しいデータを組み合わせれば、ニューラルネットワークモデルを再トレーニングするのも容易になります。 一方で、モデルが新しいデータのみを使用して再トレーニングされた場合、破滅的な忘れがちとなり、適切なバランスをとることが最重要となる。 さらに、新しいデータが収集されるたびにモデルのすべての重みをリトレーニングする場合、再トレーニングには計算リソースが多すぎる傾向があります。 この2つの問題を解決するために,多腕バンディットを用いた重要なサンプルと重みを選択できる新しいトレーニングモデルを提案する。 さらに,シナプスとニューロンの重要性に着目した新しい正規化用語を提案する。 提案手法の結果を示すために,複数のデータセットを分析した。 種々の実験により, モデル性能を向上しながら, 破滅的な忘れ込みを軽減できることが示されている。

We propose incremental (re)training of a neural network model to cope with a continuous flow of new data in inference during model serving. As such, this is a life-long learning process. We address two challenges of life-long retraining: catastrophic forgetting and efficient retraining. If we combine all past and new data it can easily become intractable to retrain the neural network model. On the other hand, if the model is retrained using only new data, it can easily suffer catastrophic forgetting and thus it is paramount to strike the right balance. Moreover, if we retrain all weights of the model every time new data is collected, retraining tends to require too many computing resources. To solve these two issues, we propose a novel retraining model that can select important samples and important weights utilizing multi-armed bandits. To further address forgetting, we propose a new regularization term focusing on synapse and neuron importance. We analyze multiple datasets to document the outcome of the proposed retraining methods. Various experiments demonstrate that our retraining methodologies mitigate the catastrophic forgetting problem while boosting model performance.
翻訳日:2022-12-08 13:08:52 公開日:2020-04-29
# 量子化ネットワークにおけるバッチ正規化

Batch Normalization in Quantized Networks ( http://arxiv.org/abs/2004.14214v1 )

ライセンス: Link先を確認
Eyy\"ub Sari, Vahid Partovi Nia(参考訳) 計算ハードウェア上の量子化ニューラルネットワークの実装は、相当なスピードアップとメモリ節約をもたらす。 しかし、量子化深層ネットワークは訓練が困難であり、バッチ−正規化(batchnorm)層は、全精度と量子化ネットワークのトレーニングにおいて重要な役割を果たす。 BatchNormに関するほとんどの研究は、完全精度のネットワークに焦点を当てており、BatchNormが量子化されたトレーニングに影響を及ぼすことを理解する研究はほとんどない。 BatchNormは直感に反し、最近他の研究者による数値実験で観察された勾配爆発を避ける。

Implementation of quantized neural networks on computing hardware leads to considerable speed up and memory saving. However, quantized deep networks are difficult to train and batch~normalization (BatchNorm) layer plays an important role in training full-precision and quantized networks. Most studies on BatchNorm are focused on full-precision networks, and there is little research in understanding BatchNorm affect in quantized training which we address here. We show BatchNorm avoids gradient explosion which is counter-intuitive and recently observed in numerical experiments by other researchers.
翻訳日:2022-12-08 13:08:35 公開日:2020-04-29
# 半教師深層学習のための類似ネットワークによるメトリクス学習

Metric learning by Similarity Network for Deep Semi-Supervised Learning ( http://arxiv.org/abs/2004.14227v1 )

ライセンス: Link先を確認
Sanyou Wu, Xingdong Feng, Fan Zhou(参考訳) 深層半教師付き学習は、ディープラーニングの急速な発展により、現実世界で広く実践されている。 近年,2つの入力セット間の不整合をペナルティ化するための平均教師などのアプローチに注目が集まっている。 これらの手法は肯定的な結果が得られるかもしれないが、データインスタンス間の関係情報を無視する。 そこで本研究では,異なる領域で距離メトリックを適応的に学習することを目的とした,Metric Learning by similarity Network (MLSN) という新しい手法を提案する。 分類ネットワークと共同でトレーニングすることで、類似性ネットワークはペア関係に関するより多くの情報を学び、最先端の手法よりも経験的なタスクにおいて優れた性能を発揮する。

Deep semi-supervised learning has been widely implemented in the real-world due to the rapid development of deep learning. Recently, attention has shifted to the approaches such as Mean-Teacher to penalize the inconsistency between two perturbed input sets. Although these methods may achieve positive results, they ignore the relationship information between data instances. To solve this problem, we propose a novel method named Metric Learning by Similarity Network (MLSN), which aims to learn a distance metric adaptively on different domains. By co-training with the classification network, similarity network can learn more information about pairwise relationships and performs better on some empirical tasks than state-of-art methods.
翻訳日:2022-12-08 13:08:24 公開日:2020-04-29
# 分数ノルムと準ノルムは次元の呪いを克服するのに役立たない

Fractional norms and quasinorms do not help to overcome the curse of dimensionality ( http://arxiv.org/abs/2004.14230v1 )

ライセンス: Link先を確認
Evgeny M. Mirkes, Jeza Allohibi, and Alexander N. Gorban(参考訳) 次元の呪いは機械学習の手法でよく知られ、広く議論されている問題を引き起こす。 マンハッタン距離と分数準ノルムlp(p が 1 未満の場合)の使用は分類問題における次元の呪いを克服するのに役立つという仮説がある。 本研究では,この仮説を体系的に検証する。 分数準ノルムはユークリッドノルム l2 よりも大きな相対的コントラストまたは変動係数を持つが、距離濃度は全てのテストされたノルムと準ノルムに対して定性的に同じ挙動を示し、それらの差は次元が無限大になるにつれて減衰する。 異なるノルムと準ノルムに基づいてkNNの分類品質を推定すると、より高い相対コントラストはより優れた分類器性能を意味しず、異なるノルム(準ノルム)によって異なるデータベースの最悪の性能が示された。 系統的な比較では、p=2, 1, 0.5のlpに基づくkNNの性能の違いは統計的に重要でない。

The curse of dimensionality causes the well-known and widely discussed problems for machine learning methods. There is a hypothesis that using of the Manhattan distance and even fractional quasinorms lp (for p less than 1) can help to overcome the curse of dimensionality in classification problems. In this study, we systematically test this hypothesis. We confirm that fractional quasinorms have a greater relative contrast or coefficient of variation than the Euclidean norm l2, but we also demonstrate that the distance concentration shows qualitatively the same behaviour for all tested norms and quasinorms and the difference between them decays as dimension tends to infinity. Estimation of classification quality for kNN based on different norms and quasinorms shows that a greater relative contrast does not mean better classifier performance and the worst performance for different databases was shown by different norms (quasinorms). A systematic comparison shows that the difference of the performance of kNN based on lp for p=2, 1, and 0.5 is statistically insignificant.
翻訳日:2022-12-08 13:08:05 公開日:2020-04-29
# 非線形多物理力学系に対する機械学習によるリダクションボンドグラフ

Reduced Bond Graph via machine learning for nonlinear multiphysics dynamic systems ( http://arxiv.org/abs/2004.13971v1 )

ライセンス: Link先を確認
Youssef Hammadi (MAT), David Ryckelynck (LMSP), Amin El-Bakkali(参考訳) ボンドグラフの低減を目的とした機械学習手法を提案する。 機械学習の出力は、単純な人工ニューラルネットワークに結合されたボンドグラフの縮小を含むハイブリッドモデリングである。 提案する結合は、機械学習における知識連続性を可能にする。 本稿では,線形校正手順によってニューラルネットワークを得る。 2つのトレーニングステップを含む手法を提案する。 まず、還元結合グラフに保持されている元の結合グラフの成分を選択する。 第二に、この手法は、縮小結合グラフを補完する人工ニューラルネットワークを構築する。 機械学習の出力はデータだけでなくハイブリッドモデルであるため、通常のバックプロパゲーション・スルー・タイムを使用してニューラルネットワークの重みを調整することは困難になる。 したがって、最初の試みでは、モデル還元アプローチに従えば、非常に単純なニューラルネットワークが提案される。 自動車キャビンの熱挙動のモデル化について考察する。 トレーニングステップで使用されるデータは、実験の設計を用いて微分代数方程式の解を用いて得られる。 単純な冷却シミュレーションはトレーニングステップで実行される。 我々は,WLTP車両のホモログ化手順の駆動サイクルをシミュレーションするために,縮小結合グラフを用いた場合,出力変数の精度を保ちながらシミュレーションスピードアップを示す。 元のボンドグラフの変数は、一次変数のセット、二次変数のセット、第三次変数のセットに分けられる。 還元結合グラフはすべての一次変数を含むが、第三次変数は含まない。 二次変数は、ニューラルネットワークを介して一次変数に結合される。 より複雑な人工ニューラルネットワークへのこの結合アプローチの拡張について論じる。

We propose a machine learning approach aiming at reducing Bond Graphs. The output of the machine learning is a hybrid modeling that contains a reduced Bond Graph coupled to a simple artificial neural network. The proposed coupling enables knowledge continuity in machine learning. In this paper, a neural network is obtained by a linear calibration procedure. We propose a method that contains two training steps. First, the method selects the components of the original Bond Graph that are kept in the Reduced Bond Graph. Secondly, the method builds an artificial neural network that supplements the reduced Bond Graph. Because the output of the machine learning is a hybrid model, not solely data, it becomes difficult to use a usual Backpropagation Through Time to calibrate the weights of the neural network. So, in a first attempt, a very simple neural network is proposed by following a model reduction approach. We consider the modeling of the automotive cabins thermal behavior. The data used for the training step are obtained via solutions of differential algebraic equations by using a design of experiment. Simple cooling simulations are run during the training step. We show a simulation speed-up when the reduced bond graph is used to simulate the driving cycle of the WLTP vehicles homologation procedure, while preserving accuracy on output variables. The variables of the original Bond Graph are split into a set of primary variables, a set of secondary variables and a set of tertiary variables. The reduced bond graph contains all the primary variables, but none of the tertiary variables. Secondary variables are coupled to primary ones via an artificial neural network. We discuss the extension of this coupling approach to more complex artificial neural networks.
翻訳日:2022-12-08 13:06:34 公開日:2020-04-29
# スパン表現のインスタンスベース学習:名前付きエンティティ認識によるケーススタディ

Instance-Based Learning of Span Representations: A Case Study through Named Entity Recognition ( http://arxiv.org/abs/2004.14514v1 )

ライセンス: Link先を確認
Hiroki Ouchi, Jun Suzuki, Sosuke Kobayashi, Sho Yokoi, Tatsuki Kuribayashi, Ryuto Konno, Kentaro Inui(参考訳) モデル予測の解釈可能な理性は、実際的な応用において重要な役割を果たす。 本研究では,構造予測のための解釈可能な推論プロセスを有するモデルを開発する。 具体的には,スパン間の類似性を学習するインスタンスベース学習手法を提案する。 推論時に、各スパンはトレーニングセットの類似スパンに基づいてクラスラベルが割り当てられ、各トレーニングインスタンスが予測にどの程度貢献するかを簡単に理解できます。 名前付きエンティティ認識の実証分析により,性能を犠牲にすることなく高い解釈性を持つモデルを構築することができることを示す。

Interpretable rationales for model predictions play a critical role in practical applications. In this study, we develop models possessing interpretable inference process for structured prediction. Specifically, we present a method of instance-based learning that learns similarities between spans. At inference time, each span is assigned a class label based on its similar spans in the training set, where it is easy to understand how much each training instance contributes to the predictions. Through empirical analysis on named entity recognition, we demonstrate that our method enables to build models that have high interpretability without sacrificing performance.
翻訳日:2022-12-08 13:00:16 公開日:2020-04-29
# 意味関係抽出のための単語連想モデルとしての意味空間の適合性の検討

Exploring the Suitability of Semantic Spaces as Word Association Models for the Extraction of Semantic Relationships ( http://arxiv.org/abs/2004.14265v1 )

ライセンス: Link先を確認
Epaminondas Kapetanios, Vijayan Sugumaran, and Anastassia Angelopoulou(参考訳) 近年の自然言語処理(nlp)の進歩と進歩を考えると,近年,意味関係の抽出が研究課題のトップに挙げられている。 この研究は、知的アプリケーションの主要な要素である知識グラフ(kg)とベース(kb)を構築することは、新しい知識を収穫し、古い知識を改訂する必要があるため、絶え間ない課題であるという事実に主に動機づけられている。 現在、テキストからの関係抽出へのアプローチは、外部の知識ソースに相談することなく、大規模なコーパスからの機械学習におけるある種の遠隔(弱)監視を実践するニューラルモデルによって支配されている。 本稿では,古典的意味空間とモデル,例えば単語の関連を抽出するために生成された単語埋め込みを,関係抽出アプローチと組み合わせて用いるという新しい概念の可能性を実験的に研究し,検討する。 目標は、これらの単語関連モデルを使用して、現在の関係抽出アプローチを強化することである。 これはこの種の最初の試みであり、この研究の結果は、これらの単語関連モデルがどの程度使われるか、そして抽出のために考慮すべき最も有望な関係性について、ある程度の光を当てるべきであると考えている。

Given the recent advances and progress in Natural Language Processing (NLP), extraction of semantic relationships has been at the top of the research agenda in the last few years. This work has been mainly motivated by the fact that building knowledge graphs (KG) and bases (KB), as a key ingredient of intelligent applications, is a never-ending challenge, since new knowledge needs to be harvested while old knowledge needs to be revised. Currently, approaches towards relation extraction from text are dominated by neural models practicing some sort of distant (weak) supervision in machine learning from large corpora, with or without consulting external knowledge sources. In this paper, we empirically study and explore the potential of a novel idea of using classical semantic spaces and models, e.g., Word Embedding, generated for extracting word association, in conjunction with relation extraction approaches. The goal is to use these word association models to reinforce current relation extraction approaches. We believe that this is a first attempt of this kind and the results of the study should shed some light on the extent to which these word association models can be used as well as the most promising types of relationships to be considered for extraction.
翻訳日:2022-12-08 12:59:47 公開日:2020-04-29
# タスク機能協調学習とパーソナライズされた属性予測への応用

Task-Feature Collaborative Learning with Application to Personalized Attribute Prediction ( http://arxiv.org/abs/2004.13930v1 )

ライセンス: Link先を確認
Zhiyong Yang, Qianqian Xu, Xiaochun Cao, Qingming Huang(参考訳) 不十分なトレーニングサンプルに対する効果的な学習パラダイムとして、マルチタスク学習(mtl)は、複数の関連するタスク間での知識共有を奨励し、全体的なパフォーマンスを向上させる。 mtlにおける大きな課題は、知識をネガティブトランスファーとして知られる、異質でハードなタスクと共有することがしばしばパフォーマンスを悪化させるという現象から生じている。 負の伝達に対するかなりの研究が行われてきたが、既存の手法のほとんどは、伝達関係をタスク相関としてモデル化するだけであり、特徴とタスク間の伝達は考慮されていない。 既存の方法とは異なり、当社の目標は機能やタスク間の負の転送を協調的に緩和することにあります。 そこで本研究では,TFCL(Task-Feature Collaborative Learning)と呼ばれるマルチタスク学習手法を提案する。 具体的には,まず,特徴と課題の協調的グループ化とグループ間知識共有の抑制のために,不均一なブロック対角構造正規化子を持つベースモデルを提案する。 次に,モデルに対する最適化手法を提案する。 広範な理論解析の結果,提案手法には次のような利点がある。 (a)グローバル収束特性を享受し、 (b)ブロック対角構造回復保証を提供する。 実際の拡張として,重なり合う機能と難易度を区別することで,基本モデルを拡張します。 さらに、ユーザ行動のきめ細かいモデリングによるパーソナライズされた属性予測問題に適用する。 最後に,シミュレーションデータセットと実世界のデータセットの両方における実験結果から,提案手法の有効性を実証する。

As an effective learning paradigm against insufficient training samples, Multi-Task Learning (MTL) encourages knowledge sharing across multiple related tasks so as to improve the overall performance. In MTL, a major challenge springs from the phenomenon that sharing the knowledge with dissimilar and hard tasks, known as negative transfer, often results in a worsened performance. Though a substantial amount of studies have been carried out against the negative transfer, most of the existing methods only model the transfer relationship as task correlations, with the transfer across features and tasks left unconsidered. Different from the existing methods, our goal is to alleviate negative transfer collaboratively across features and tasks. To this end, we propose a novel multi-task learning method called Task-Feature Collaborative Learning (TFCL). Specifically, we first propose a base model with a heterogeneous block-diagonal structure regularizer to leverage the collaborative grouping of features and tasks and suppressing inter-group knowledge sharing. We then propose an optimization method for the model. Extensive theoretical analysis shows that our proposed method has the following benefits: (a) it enjoys the global convergence property and (b) it provides a block-diagonal structure recovery guarantee. As a practical extension, we extend the base model by allowing overlapping features and differentiating the hard tasks. We further apply it to the personalized attribute prediction problem with fine-grained modeling of user behaviors. Finally, experimental results on both simulated dataset and real-world datasets demonstrate the effectiveness of our proposed method
翻訳日:2022-12-08 12:59:26 公開日:2020-04-29
# ds-facto:二重分離可能なファクタライゼーションマシン

DS-FACTO: Doubly Separable Factorization Machines ( http://arxiv.org/abs/2004.13940v1 )

ライセンス: Link先を確認
Parameswaran Raman, S.V.N. Vishwanathan(参考訳) 因子化マシン(FM)は、線形モデルにより表現力を加えるために、特徴間の高次相互作用を含む強力なモデルのクラスである。 それらは、クリック予測、ランキング、レコメンデーションシステムなど、いくつかの現実世界のタスクでうまく使われている。 ペアワイズ機能に低ランク表現を使用するにもかかわらず、大規模な実世界のデータセットにファクタライズマシンを使用することのメモリオーバーヘッドは禁忌である。 例えば、Criteo teraデータセットでは、控えめな128$のラテント表現と10^{9}$のフィーチャを仮定すると、モデルのメモリ要件は1$ TBである。 さらに、データ自体が2.1ドル TB である。 単一マシンで動作するfmの従来のアルゴリズムは、このスケールを処理できないため、クラスタをまたいで計算を並列化する分散アルゴリズムを使うことは避けられない。 本研究では,データと因子化マシンのパラメータを同時に分割するハイブリッド並列確率最適化アルゴリズムds-factoを提案する。 私たちのソリューションは完全に分散しており、パラメータサーバーの使用は不要です。 本稿では,ds-factoの収束挙動,予測力,拡張性を分析するための実験結果を示す。

Factorization Machines (FM) are powerful class of models that incorporate higher-order interaction among features to add more expressive power to linear models. They have been used successfully in several real-world tasks such as click-prediction, ranking and recommender systems. Despite using a low-rank representation for the pairwise features, the memory overheads of using factorization machines on large-scale real-world datasets can be prohibitively high. For instance on the criteo tera dataset, assuming a modest $128$ dimensional latent representation and $10^{9}$ features, the memory requirement for the model is in the order of $1$ TB. In addition, the data itself occupies $2.1$ TB. Traditional algorithms for FM which work on a single-machine are not equipped to handle this scale and therefore, using a distributed algorithm to parallelize the computation across a cluster is inevitable. In this work, we propose a hybrid-parallel stochastic optimization algorithm DS-FACTO, which partitions both the data as well as parameters of the factorization machine simultaneously. Our solution is fully de-centralized and does not require the use of any parameter servers. We present empirical results to analyze the convergence behavior, predictive power and scalability of DS-FACTO.
翻訳日:2022-12-08 12:59:07 公開日:2020-04-29
# 有向グラフ畳み込みネットワーク

Directed Graph Convolutional Network ( http://arxiv.org/abs/2004.13970v1 )

ライセンス: Link先を確認
Zekun Tong, Yuxuan Liang, Changsheng Sun, David S. Rosenblum and Andrew Lim(参考訳) グラフ畳み込みネットワーク(GCN)は,グラフ構造化データの処理性能に優れていたため,広く利用されている。 しかし、非指向グラフはアプリケーションの範囲を制限する。 本稿では、有向グラフの接続特性を保持するだけでなく、畳み込み演算の受容場を拡張できる一階および二階近接法を用いて、スペクトルベースのグラフ畳み込みを有向グラフに拡張する。 DGCNと呼ばれる新しいGCNモデルは、第1次と第2次の両方の近接情報を利用して、有向グラフ上の表現を学ぶように設計されている。 我々は、DGCNのみで動作するGCNがグラフからより有用な情報をエンコードし、他のモデルに一般化する際のより良いパフォーマンスを実現することができることを実証的に示す。 さらに、引用ネットワークと共同購入データセットに関する広範な実験により、最先端手法に対するモデルの優位性が示された。

Graph Convolutional Networks (GCNs) have been widely used due to their outstanding performance in processing graph-structured data. However, the undirected graphs limit their application scope. In this paper, we extend spectral-based graph convolution to directed graphs by using first- and second-order proximity, which can not only retain the connection properties of the directed graph, but also expand the receptive field of the convolution operation. A new GCN model, called DGCN, is then designed to learn representations on the directed graph, leveraging both the first- and second-order proximity information. We empirically show the fact that GCNs working only with DGCNs can encode more useful information from graph and help achieve better performance when generalized to other models. Moreover, extensive experiments on citation networks and co-purchase datasets demonstrate the superiority of our model against the state-of-the-art methods.
翻訳日:2022-12-08 12:58:27 公開日:2020-04-29
# 拡張Coopetitive Soft Gating Ensemble

Extended Coopetitive Soft Gating Ensemble ( http://arxiv.org/abs/2004.14026v1 )

ライセンス: Link先を確認
Stephan Deist, Jens Schreiber, Maarten Bieshaar and Bernhard Sick(参考訳) 本稿では,近年のcoopetitive soft gating ensemble (csge) と呼ばれるアンサンブル法の拡張と,その電力予測および自転車の運動プリミティブ予測への応用について述べる。 CSGEは風力予測の分野で成功しており、この領域で一般的なアルゴリズムよりも優れている。 CSGEの基本的な考え方は、異なる側面のトレーニング中に観察されたパフォーマンスに関するモデルを重み付けすることである。 この記事の中でオリジナルのcsgeにいくつかの拡張が提案されており、アンサンブルはより柔軟で強力である。 拡張CSGE(XCSGE)は、風力発電と太陽光発電の両方の発電を予測するために使用される。 さらに、XCSGEは、運転支援システムの文脈でサイクリストの運動状態を予測するために用いられる。 どちらのドメインも異なる要件を持ち、非自明な問題であり、新しいXCSGEの様々な側面を評価するために使用される。 この2つの問題は、データセットのサイズと特徴の数で根本的に異なる。 電力予測は、その特徴の変動を伴う天気予報に基づいている。 自転車の運動原始予測では、時間の遅れが予測の難しさに寄与する。 XCSGEは, 風力発電予測では最大11%, 太陽発電予測では30%の予測性能向上を達成した。 サイクリストの運動プリミティブの分類において、XCSGEは最大28%の改善を達成した。 評価には、他の最先端アンサンブル法との比較が含まれる。 我々は,Nemenyiポストホックテストを用いて,XCSGEの結果が有意に良好であることを示す。

This article is about an extension of a recent ensemble method called Coopetitive Soft Gating Ensemble (CSGE) and its application on power forecasting as well as motion primitive forecasting of cyclists. The CSGE has been used successfully in the field of wind power forecasting, outperforming common algorithms in this domain. The principal idea of the CSGE is to weight the models regarding their observed performance during training on different aspects. Several extensions are proposed to the original CSGE within this article, making the ensemble even more flexible and powerful. The extended CSGE (XCSGE as we term it), is used to predict the power generation on both wind- and solar farms. Moreover, the XCSGE is applied to forecast the movement state of cyclists in the context of driver assistance systems. Both domains have different requirements, are non-trivial problems, and are used to evaluate various facets of the novel XCSGE. The two problems differ fundamentally in the size of the data sets and the number of features. Power forecasting is based on weather forecasts that are subject to fluctuations in their features. In the movement primitive forecasting of cyclists, time delays contribute to the difficulty of the prediction. The XCSGE reaches an improvement of the prediction performance of up to 11% for wind power forecasting and 30% for solar power forecasting compared to the worst performing model. For the classification of movement primitives of cyclists, the XCSGE reaches an improvement of up to 28%. The evaluation includes a comparison with other state-of-the-art ensemble methods. We can verify that the XCSGE results are significantly better using the Nemenyi post-hoc test.
翻訳日:2022-12-08 12:58:13 公開日:2020-04-29
# 多視点データセットにおける高次複合効果同定のための一般化カーネルマシンアプローチ

A generalized kernel machine approach to identify higher-order composite effects in multi-view datasets ( http://arxiv.org/abs/2004.14031v1 )

ライセンス: Link先を確認
Md Ashad Alam, Chuan Qiu, Hui Shen, Yu-Ping Wang, and Hong-Wen Deng(参考訳) 近年では、マルチビューデータセット(例えば、マルチオミクスやイメージングスキャン)の包括的な研究が、バイオメディカル研究の焦点と前線となっている。 最新のバイオメディカル技術により、複雑な疾患の研究のためにマルチビューのバイオメディカルデータセットを収集することができる。 データのすべてのビューは、病気の補完的な情報を探索する傾向があるが、複雑な相互作用を伴うマルチビューデータ分析は、生物学的システムをより深く総合的に理解するには困難である。 本稿では,多視点バイオメディカルデータセットにおける高次複合効果を同定する,新しい一般化カーネルマシン手法を提案する。 この一般化半パラメトリック(混合効果線形モデル)アプローチは、異なるデータの観点からの特徴の限界および合同アダマール積を含む。 提案するカーネルマシンアプローチでは,マルチビューデータを予測変数として考慮し,複雑な特性のより詳細なモデリングを可能にする。 提案手法は,マルチビューデータセットが利用可能な疾患モデルの研究に適用できる。 我々は,画像スキャンデータセットと5つのomicsデータセットを含む青年期脳の発達と骨粗しょう症研究から,合成データセットと実際の多視点データセットの両方に本手法を適用した。 提案手法は, 高次合成効果を効果的に同定し, 対応する特徴(遺伝子, 興味領域, 化学分類学)が協調的に機能することが示唆された。 提案手法は既存手法よりも一般化可能であることを示す。

In recent years, a comprehensive study of multi-view datasets (e.g., multi-omics and imaging scans) has been a focus and forefront in biomedical research. State-of-the-art biomedical technologies are enabling us to collect multi-view biomedical datasets for the study of complex diseases. While all the views of data tend to explore complementary information of a disease, multi-view data analysis with complex interactions is challenging for a deeper and holistic understanding of biological systems. In this paper, we propose a novel generalized kernel machine approach to identify higher-order composite effects in multi-view biomedical datasets. This generalized semi-parametric (a mixed-effect linear model) approach includes the marginal and joint Hadamard product of features from different views of data. The proposed kernel machine approach considers multi-view data as predictor variables to allow more thorough and comprehensive modeling of a complex trait. The proposed method can be applied to the study of any disease model, where multi-view datasets are available. We applied our approach to both synthesized datasets and real multi-view datasets from adolescence brain development and osteoporosis study, including an imaging scan dataset and five omics datasets. Our experiments demonstrate that the proposed method can effectively identify higher-order composite effects and suggest that corresponding features (genes, region of interests, and chemical taxonomies) function in a concerted effort. We show that the proposed method is more generalizable than existing ones.
翻訳日:2022-12-08 12:57:47 公開日:2020-04-29
# 事前トレーニングは(ほとんど)必要なすべてである:commonsense推論へのアプリケーション

Pre-training Is (Almost) All You Need: An Application to Commonsense Reasoning ( http://arxiv.org/abs/2004.14074v1 )

ライセンス: Link先を確認
Alexandre Tamborrino, Nicola Pellicano, Baptiste Pannier, Pascal Voitot and Louise Naudin(参考訳) 事前学習されたトランスフォーマーモデルの微調整は、一般的なnlpタスクを解決する標準的なアプローチとなっている。 既存のアプローチのほとんどは、そのようなネットワーク上でランダムに初期化された分類器に依存している。 我々は、この微調整手順は、事前学習されたモデルが特定の分類器ラベルに先行していないため、副最適化であると主張する。 本稿では,事前学習中に調整されたマスク付き言語モデリングヘッドを活用し,汎用性評価タスクをフルテキスト形式にキャスティングする新しいスコアリング手法を提案する。 我々は、COPA、Swag、HellaSwag、CommonsenseQAデータセットを中心に、モデルが前提条件を満たす一連の仮説をランク付けしなければならないコモンセンス推論タスクについて検討する。 微調整なしでスコアリング手法を利用することで、教師付きアプローチに匹敵する強いベースライン(COPAにおけるテスト精度の80%など)を生成できる。 さらに,提案したスコアリング関数を直接微調整すると,提案手法はランダム再起動(例えば, COPAテスト精度の標準偏差率10$)よりもはるかに安定したトレーニングフェーズを提供し,等価性能に到達するためには標準分類器アプローチよりもアノテートデータを必要とすることを示す。

Fine-tuning of pre-trained transformer models has become the standard approach for solving common NLP tasks. Most of the existing approaches rely on a randomly initialized classifier on top of such networks. We argue that this fine-tuning procedure is sub-optimal as the pre-trained model has no prior on the specific classifier labels, while it might have already learned an intrinsic textual representation of the task. In this paper, we introduce a new scoring method that casts a plausibility ranking task in a full-text format and leverages the masked language modeling head tuned during the pre-training phase. We study commonsense reasoning tasks where the model must rank a set of hypotheses given a premise, focusing on the COPA, Swag, HellaSwag and CommonsenseQA datasets. By exploiting our scoring method without fine-tuning, we are able to produce strong baselines (e.g. 80% test accuracy on COPA) that are comparable to supervised approaches. Moreover, when fine-tuning directly on the proposed scoring function, we show that our method provides a much more stable training phase across random restarts (e.g $\times 10$ standard deviation reduction on COPA test accuracy) and requires less annotated data than the standard classifier approach to reach equivalent performances.
翻訳日:2022-12-08 12:51:21 公開日:2020-04-29
# ニューラル言語モデルでは構文形式主義が望ましいか?

Do Neural Language Models Show Preferences for Syntactic Formalisms? ( http://arxiv.org/abs/2004.14096v1 )

ライセンス: Link先を確認
Artur Kulmizev, Vinit Ravishankar, Mostafa Abdou, Joakim Nivre(参考訳) ディープニューラルネットワークモデルの解釈可能性に関する最近の研究は、自然言語構文の多くの性質が表現空間にエンコードされていると結論付けている。 しかし、そのような研究は単一の言語と単一の言語形式に焦点を合わせることで、限られた範囲に悩まされることが多い。 本研究では,言語モデルが捉えた構文構造のセマンランスが,表層シンタクティックあるいは深層構文解析のスタイルにどの程度依存しているか,また,パターンが異なる言語間で一貫性があるかを検討することを目的とする。 本研究では,有向依存木を抽出するプローブを,13言語で訓練されたBERTモデルとELMoモデルに適用し,共通依存(UD),深部構文関係の優先順位付け,表面-シンタクティックユニバーサル依存(SUD)という2つの異なる構文アノテーションスタイルを探索する。 どちらのモデルもSUDよりもUDの方が好まれており、言語や層によって興味深いバリエーションがあり、この選好の強さは木の形状の違いと相関していることがわかった。

Recent work on the interpretability of deep neural language models has concluded that many properties of natural language syntax are encoded in their representational spaces. However, such studies often suffer from limited scope by focusing on a single language and a single linguistic formalism. In this study, we aim to investigate the extent to which the semblance of syntactic structure captured by language models adheres to a surface-syntactic or deep syntactic style of analysis, and whether the patterns are consistent across different languages. We apply a probe for extracting directed dependency trees to BERT and ELMo models trained on 13 different languages, probing for two different syntactic annotation styles: Universal Dependencies (UD), prioritizing deep syntactic relations, and Surface-Syntactic Universal Dependencies (SUD), focusing on surface structure. We find that both models exhibit a preference for UD over SUD - with interesting variations across languages and layers - and that the strength of this preference is correlated with differences in tree shape.
翻訳日:2022-12-08 12:50:58 公開日:2020-04-29
# グラフ誘導表現学習によるテキスト構造知識の活用

Exploiting Structured Knowledge in Text via Graph-Guided Representation Learning ( http://arxiv.org/abs/2004.14224v1 )

ライセンス: Link先を確認
Tao Shen, Yi Mao, Pengcheng He, Guodong Long, Adam Trischler, Weizhu Chen(参考訳) 本研究では,構造化知識を用いた事前学習型言語モデルの構築を目的とする。 本稿では,知識グラフからの指導により,生テキスト上で学習する2つの自己教師付きタスクを提案する。 エンティティレベルのマスキング言語モデルに基づく最初のコントリビューションは、テキストの基礎となる関係知識を活用するエンティティマスキングスキームです。 これはlinked knowledge graphを使用して情報エンティティを選択し、その言及をマスキングすることで実現される。 さらに,マスクされたエンティティの注意をそらすために知識グラフを用い,マスクされた言語モデルと共同で最適化した新しい注意をそらしたランキング目標を提案する。 既存のパラダイムとは対照的に,本手法では事前学習時にのみ,知識グラフを暗黙的に使用し,生テキストから学習することで構造化知識を持つ言語モデルを注入する。 微調整と推論の間にエンティティリンクと統合を行う検索ベースの手法よりも効率的であり、連結グラフトリプルから直接学習する手法よりも効果的に一般化する。 実験の結果,提案モデルでは,質問応答や知識ベース補完タスクを含む5つのベンチマークデータセットの性能向上が示されている。

In this work, we aim at equipping pre-trained language models with structured knowledge. We present two self-supervised tasks learning over raw text with the guidance from knowledge graphs. Building upon entity-level masked language models, our first contribution is an entity masking scheme that exploits relational knowledge underlying the text. This is fulfilled by using a linked knowledge graph to select informative entities and then masking their mentions. In addition we use knowledge graphs to obtain distractors for the masked entities, and propose a novel distractor-suppressed ranking objective which is optimized jointly with masked language model. In contrast to existing paradigms, our approach uses knowledge graphs implicitly, only during pre-training, to inject language models with structured knowledge via learning from raw text. It is more efficient than retrieval-based methods that perform entity linking and integration during finetuning and inference, and generalizes more effectively than the methods that directly learn from concatenated graph triples. Experiments show that our proposed model achieves improved performance on five benchmark datasets, including question answering and knowledge base completion tasks.
翻訳日:2022-12-08 12:50:26 公開日:2020-04-29
# 階層的強化学習による自動疾患診断のためのタスク指向対話システム

Task-oriented Dialogue System for Automatic Disease Diagnosis via Hierarchical Reinforcement Learning ( http://arxiv.org/abs/2004.14254v1 )

ライセンス: Link先を確認
Kangenbei Liao, Qianlong Liu, Zhongyu Wei, Baolin Peng, Qin Chen, Weijian Sun, Xuanjing Huang(参考訳) 本稿では,タスク指向対話における強化学習(RL)手法を用いた自動疾患診断に焦点をあてる。 従来のRLタスクとは異なり、特に疾患の数が増えると、疾患診断のためのアクションスペース(つまり症状)は必然的に大きくなる。 しかしながら、この問題に対する既存のアプローチはフラットなRLポリシーを採用しており、通常は単純なタスクでうまく機能するが、病気の診断のような複雑なシナリオでは大きな課題がある。 そこで我々は,対話政策学習に2段階の階層的政策を統合することを提案する。 高レベルポリシーは、モデルを低レベルにトリガーするマスターと呼ばれるモデルから成り、低レベルポリシーはいくつかの症状チェッカーと疾患分類器から構成される。 自己構築型実世界データと合成データの両方における実験結果から, 既存のシステムと比較して, 診断精度の高い階層的フレームワークが得られた。 さらにデータセット(http://www.sds People.fudan.edu.cn/zywei/data/Fudan-Medical-Dialogue2.0)とコード(https://github.com/nnbay/MeicalChatbot-HRL)も現在利用可能である。

In this paper, we focus on automatic disease diagnosis with reinforcement learning (RL) methods in task-oriented dialogues setting. Different from conventional RL tasks, the action space for disease diagnosis (i.e., symptoms) is inevitably large, especially when the number of diseases increases. However, existing approaches to this problem employ a flat RL policy, which typically works well in simple tasks but has significant challenges in complex scenarios like disease diagnosis. Towards this end, we propose to integrate a hierarchical policy of two levels into the dialogue policy learning. The high level policy consists of a model named master that is responsible for triggering a model in low level, the low level policy consists of several symptom checkers and a disease classifier. Experimental results on both self-constructed real-world and synthetic datasets demonstrate that our hierarchical framework achieves higher accuracy in disease diagnosis compared with existing systems. Besides, the datasets (http://www.sdspeople.fudan.edu.cn/zywei/data/Fudan-Medical-Dialogue2.0) and codes (https://github.com/nnbay/MeicalChatbot-HRL) are all available now.
翻訳日:2022-12-08 12:41:31 公開日:2020-04-29
# チュニジアのアラブ人感情分析データセットTUNIZI

TUNIZI: a Tunisian Arabizi sentiment analysis Dataset ( http://arxiv.org/abs/2004.14303v1 )

ライセンス: Link先を確認
Chayma Fourati, Abir Messaoudi and Hatem Haddad(参考訳) ソーシャルメディアでは、アラビア語の人々は自身の方言で表現する傾向がある。 特にチュニジア人は「チュニジア・アラビジ」と呼ばれる非公式な方法を使っている。 分析研究は、顧客満足度の測定や販売・マーケティング戦略の確立など、計画・予測目的に活用することを目的としたオンライン意見の探索と認識を目指している。 しかし、ディープラーニングに基づく分析研究はデータ不足である。 一方、アフリカの言語や方言は低資源言語と見なされている。 例えば、私たちの知る限りでは、注釈付きチュニジア・アラビジデータセットは存在しない。 本稿では,社会ネットワークから収集した感情分析チュニジア・アラビジデータセットであるチュニジについて,分析研究のための事前処理を行い,チュニジア語話者が手動で注釈を付ける手法を提案する。

On social media, Arabic people tend to express themselves in their own local dialects. More particularly, Tunisians use the informal way called "Tunisian Arabizi". Analytical studies seek to explore and recognize online opinions aiming to exploit them for planning and prediction purposes such as measuring the customer satisfaction and establishing sales and marketing strategies. However, analytical studies based on Deep Learning are data hungry. On the other hand, African languages and dialects are considered low resource languages. For instance, to the best of our knowledge, no annotated Tunisian Arabizi dataset exists. In this paper, we introduce TUNIZI a sentiment analysis Tunisian Arabizi Dataset, collected from social networks, preprocessed for analytical studies and annotated manually by Tunisian native speakers.
翻訳日:2022-12-08 12:40:55 公開日:2020-04-29
# AxCell: 機械学習論文から結果の自動抽出

AxCell: Automatic Extraction of Results from Machine Learning Papers ( http://arxiv.org/abs/2004.14356v1 )

ライセンス: Link先を確認
Marcin Kardas, Piotr Czapla, Pontus Stenetorp, Sebastian Ruder, Sebastian Riedel, Ross Taylor, Robert Stojnic(参考訳) 近年の論文数の増加に伴い、機械学習の進歩の追跡はますます困難になっている。 本稿では,論文から結果を抽出する自動機械学習パイプラインaxcellを提案する。 axcellはテーブルセグメンテーションサブタスクを含むいくつかの新しいコンポーネントを使用して、抽出を支援する関連する構造知識を学ぶ。 既存の手法と比較すると,本手法は結果抽出のための技術の現状を大幅に改善する。 また、結果抽出のためのモデルをトレーニングするための構造化アノテートデータセットと、このタスクにおけるモデルのパフォーマンスを評価するデータセットもリリースしました。 最後に,本手法が実運用における半自動結果抽出に有効であることを示し,この課題を現実的に実現できることを示唆する。 コードはGitHubで入手できる。

Tracking progress in machine learning has become increasingly difficult with the recent explosion in the number of papers. In this paper, we present AxCell, an automatic machine learning pipeline for extracting results from papers. AxCell uses several novel components, including a table segmentation subtask, to learn relevant structural knowledge that aids extraction. When compared with existing methods, our approach significantly improves the state of the art for results extraction. We also release a structured, annotated dataset for training models for results extraction, and a dataset for evaluating the performance of models on this task. Lastly, we show the viability of our approach enables it to be used for semi-automated results extraction in production, suggesting our improvements make this task practically viable for the first time. Code is available on GitHub.
翻訳日:2022-12-08 12:40:42 公開日:2020-04-29
# 品質評価のためのラウンドトリップ翻訳の再検討

Revisiting Round-Trip Translation for Quality Estimation ( http://arxiv.org/abs/2004.13937v1 )

ライセンス: Link先を確認
Jihyung Moon, Hyunchang Cho, Eunjeong L. Park(参考訳) 品質評価(QE)は、人間の翻訳参照なしで翻訳の質を自動的に評価するタスクである。 入力文とラウンドトリップ翻訳(RTT)の間のBLEUの計算は、かつてQEの指標と考えられていたが、翻訳品質の予測には不十分であった。 近年,様々な事前学習型言語モデルが意味的に意味のある単語と文の埋め込みを提供することで,NLPタスクを突破した。 本稿では,RTTベースのQEにセマンティック埋め込みを適用する。 提案手法は,従来のWMT 2019品質評価基準よりも,人間の判断と高い相関性が得られる。 RTTを用いた場合、下位翻訳モデルは欠点となるが、意味レベルのメトリクスでは、RTTベースのQEは下位翻訳システムの選択に対して堅牢である。 さらに,提案手法はsmtとnmtの両方の前方変換システムにおいて一貫した性能を示し,特定のモデルにペナルティを課さないことを示唆する。

Quality estimation (QE) is the task of automatically evaluating the quality of translations without human-translated references. Calculating BLEU between the input sentence and round-trip translation (RTT) was once considered as a metric for QE, however, it was found to be a poor predictor of translation quality. Recently, various pre-trained language models have made breakthroughs in NLP tasks by providing semantically meaningful word and sentence embeddings. In this paper, we employ semantic embeddings to RTT-based QE. Our method achieves the highest correlations with human judgments, compared to previous WMT 2019 quality estimation metric task submissions. While backward translation models can be a drawback when using RTT, we observe that with semantic-level metrics, RTT-based QE is robust to the choice of the backward translation system. Additionally, the proposed method shows consistent performance for both SMT and NMT forward translation systems, implying the method does not penalize a certain type of model.
翻訳日:2022-12-08 12:39:36 公開日:2020-04-29
# マルチタスク回帰問題に対する創発的関係ネットワークとタスク埋め込み

Emerging Relation Network and Task Embedding for Multi-Task Regression Problems ( http://arxiv.org/abs/2004.14034v1 )

ライセンス: Link先を確認
Jens Schreiber, Bernhard Sick(参考訳) マルチタスク学習(mtl)は、コンピュータビジョンと自然言語処理の多くの応用において最先端の結果を提供する。 シングルタスク学習(stl)とは対照的に、mtlは(補助タスクとは対照的に)メインタスクの予測結果を改善する関連するタスク間の知識を活用することができる。 しかし、最近のmtlの進歩を考慮した回帰問題や時系列問題に対するmtlアーキテクチャの適用に関する比較研究は限られている。 興味深い非線形問題は、再生可能発電の期待発電予測である。 そこで本論文では,近年重要かつ重要なmtlアーキテクチャであるハードパラメータ共有,クロススティッチネットワーク,スライスネットワーク(sn)を比較した。 これらは、stl設定で同様の大きさの多層パーセプトロンモデルと比較される。 さらに、タスク埋め込みと呼ばれる多層パーセプトロン内の埋め込み層を通してタスク固有の情報をモデル化する、シンプルで効果的なアプローチを提供する。 さらに,スライトスネットワークの拡張と考えられる新興関係ネットワーク(ern)と呼ばれる新しいmtlアーキテクチャを導入する。 太陽エネルギーのデータセットでは、タスクの埋め込みは14.9%で最高の平均的改善を達成する。 太陽データセットにおけるernとsnの平均的な改善は14.7%と14.8%である。 風力発電のデータセットでは、ernのみが7.7%の大幅な改善を達成している。 その結果,タスクがゆるやかに関連し,予測問題がより非線形である場合,ernは有益であることが示唆された。 対照的に、タスクが強く相関している場合には、提案タスクの埋め込みが有利である。 さらに、タスク埋め込みは、他のmtlアーキテクチャと比較して計算労力を削減できる効果的なアプローチを提供する。

Multi-task learning (mtl) provides state-of-the-art results in many applications of computer vision and natural language processing. In contrast to single-task learning (stl), mtl allows for leveraging knowledge between related tasks improving prediction results on the main task (in contrast to an auxiliary task) or all tasks. However, there is a limited number of comparative studies on applying mtl architectures for regression and time series problems taking recent advances of mtl into account. An interesting, non-linear problem is the forecast of the expected power generation for renewable power plants. Therefore, this article provides a comparative study of the following recent and important mtl architectures: Hard parameter sharing, cross-stitch network, sluice network (sn). They are compared to a multi-layer perceptron model of similar size in an stl setting. Additionally, we provide a simple, yet effective approach to model task specific information through an embedding layer in an multi-layer perceptron, referred to as task embedding. Further, we introduce a new mtl architecture named emerging relation network (ern), which can be considered as an extension of the sluice network. For a solar power dataset, the task embedding achieves the best mean improvement with 14.9%. The mean improvement of the ern and the sn on the solar dataset is of similar magnitude with 14.7% and 14.8%. On a wind power dataset, only the ern achieves a significant improvement of up to 7.7%. Results suggest that the ern is beneficial when tasks are only loosely related and the prediction problem is more non-linear. Contrary, the proposed task embedding is advantageous when tasks are strongly correlated. Further, the task embedding provides an effective approach with reduced computational effort compared to other mtl architectures.
翻訳日:2022-12-08 10:17:28 公開日:2020-04-29
# 3次元空間関係に着目した目標駆動視覚ナビゲーションの改善

Improving Target-driven Visual Navigation with Attention on 3D Spatial Relationships ( http://arxiv.org/abs/2005.02153v1 )

ライセンス: Link先を確認
Yunlian Lv, Ning Xie, Yimin Shi, Zijiao Wang, and Heng Tao Shen(参考訳) 身体的人工知能(AI)タスクは、インターネットイメージに焦点を当てたタスクから、3D環境内で知覚し行動するエンボディエージェントを含むアクティブな設定へとシフトする。 本稿では,3次元屋内シーンにおける深部強化学習(DRL)を用いた目標駆動型視覚ナビゲーションについて検討する。ナビゲーションタスクは,エゴセントリックな視点からのみ可能な開始位置から,所定の目標地点に到達するための知的意思決定を行うエージェントを訓練することを目的としている。 しかし、現在ほとんどのナビゲーション手法は、データ効率、自動障害物回避、一般化などいくつかの困難な問題に直面している。 一般化問題は、エージェントが以前の経験から学んだナビゲーションスキルを、見えないターゲットやシーンに転送する能力を持たないことを意味する。 これらの課題に対処するため,従来のDRLフレームワークに3次元知識グラフ(KG)とターゲットスキル拡張(TSE)モジュールの2つの設計を組み込んだ。 一方,提案手法では,視覚特徴と3次元空間表現を組み合わせてナビゲーション方針を学習する。 一方、TSEモジュールはサブターゲットを生成するために使用され、エージェントは障害から学ぶことができる。 具体的には,最近普及したグラフ畳み込みネットワーク (gcn) を用いて3次元空間関係を符号化する。 現実世界の設定を考えると、オープンアクションも考慮し、従来のナビゲーション状況にアクション可能なターゲットを追加する。 DRLエージェントがそのタスクを本当に理解し、環境をナビゲートし、推論を実行できるかどうかをテストするために、これらのより困難な設定を適用する。 我々の実験はAI2-THORで行われ、SRとSPLの指標のベースラインよりも優れており、ターゲットとシーン間の一般化能力が改善されている。

Embodied artificial intelligence (AI) tasks shift from tasks focusing on internet images to active settings involving embodied agents that perceive and act within 3D environments. In this paper, we investigate the target-driven visual navigation using deep reinforcement learning (DRL) in 3D indoor scenes, whose navigation task aims to train an agent that can intelligently make a series of decisions to arrive at a pre-specified target location from any possible starting positions only based on egocentric views. However, most navigation methods currently struggle against several challenging problems, such as data efficiency, automatic obstacle avoidance, and generalization. Generalization problem means that agent does not have the ability to transfer navigation skills learned from previous experience to unseen targets and scenes. To address these issues, we incorporate two designs into classic DRL framework: attention on 3D knowledge graph (KG) and target skill extension (TSE) module. On the one hand, our proposed method combines visual features and 3D spatial representations to learn navigation policy. On the other hand, TSE module is used to generate sub-targets which allow agent to learn from failures. Specifically, our 3D spatial relationships are encoded through recently popular graph convolutional network (GCN). Considering the real world settings, our work also considers open action and adds actionable targets into conventional navigation situations. Those more difficult settings are applied to test whether DRL agent really understand its task, navigating environment, and can carry out reasoning. Our experiments, performed in the AI2-THOR, show that our model outperforms the baselines in both SR and SPL metrics, and improves generalization ability across targets and scenes.
翻訳日:2022-12-08 10:15:56 公開日:2020-04-29
# 架空の顔のステレオタイプフリー分類

Stereotype-Free Classification of Fictitious Faces ( http://arxiv.org/abs/2005.02157v1 )

ライセンス: Link先を確認
Mohammadhossein Toutiaee, Soheyla Amirian, John A. Miller, Sheng Li(参考訳) 平等な機会と公平さは、人工知能で注目を集めています。 ステレオタイプは別の差別の源であり、文献には未詳である。 gan製の顔は、人間の知覚によって分類された場合、そのような差別にさらされる。 統計的アプローチを用いることで、架空の顔分類タスクに対する人間の影響を排除することができる。 本稿では, ステレオタイプフリーなGAN合成非ラベル画像へのペナル化回帰による新しいアプローチを提案する。 提案手法は,実画像と対象画像の間の最小二乗関数のペナルティ化を最小化することにより,新たなデータ(劇的な出力画像)のラベル付けを支援する。

Equal Opportunity and Fairness are receiving increasing attention in artificial intelligence. Stereotyping is another source of discrimination, which yet has been unstudied in literature. GAN-made faces would be exposed to such discrimination, if they are classified by human perception. It is possible to eliminate the human impact on fictitious faces classification task by the use of statistical approaches. We present a novel approach through penalized regression to label stereotype-free GAN-generated synthetic unlabeled images. The proposed approach aids labeling new data (fictitious output images) by minimizing a penalized version of the least squares cost function between realistic pictures and target pictures.
翻訳日:2022-12-08 10:15:26 公開日:2020-04-29
# 高度局所探索に基づくアルゴリズム解析のための多層局所最適ネットワーク

Multi-layer local optima networks for the analysis of advanced local search-based algorithms ( http://arxiv.org/abs/2004.13936v1 )

ライセンス: Link先を確認
Marcella Scoczynski Ribeiro Martins, Mohamed El Yafrani, Myriam R. B. S. Delgado, and Ricardo Luders(参考訳) ローカルオプティマネットワーク(Local Optima Network、LON)は、特定の近傍演算子と局所探索アルゴリズムに基づいて、特定の組合せ最適化問題の適合状況を圧縮するグラフモデルである。 ランドスケープの特徴が検索アルゴリズムの有効性に与える影響を判断することは,その性能予測と設計プロセスの改善の両方に関係している。 本稿では,多層ロンの概念と,適合性ランドスケープ解析のためのメトリクス抽出を目的としたモデルの検討手法を提案する。 このようなモデルを構築し、メトリクスを抽出し分析することは、単一の近傍演算子ヒューリスティックの研究を複数の演算子を使用するより洗練されたものに拡張する方向への予備的なステップである。 そこで本研究では,ビットフリップとスワップ演算子を用いた組合せ問題の事例から得られた2層LONについて検討する。 まず、NKランドスケープモデルの例を列挙し、ヒルクライミングヒューリスティックを用いて対応するLONを構築する。 そして、LONメトリクスを用いて、両方の戦略を組み合わせるときの探索の効率を解析する。 実験は有望な結果を示し、可変近傍探索のような複数の演算子に基づくメタヒューリスティックスにおいて有用な情報を提供するための多層LONの能力を示す。

A Local Optima Network (LON) is a graph model that compresses the fitness landscape of a particular combinatorial optimization problem based on a specific neighborhood operator and a local search algorithm. Determining which and how landscape features affect the effectiveness of search algorithms is relevant for both predicting their performance and improving the design process. This paper proposes the concept of multi-layer LONs as well as a methodology to explore these models aiming at extracting metrics for fitness landscape analysis. Constructing such models, extracting and analyzing their metrics are the preliminary steps into the direction of extending the study on single neighborhood operator heuristics to more sophisticated ones that use multiple operators. Therefore, in the present paper we investigate a twolayer LON obtained from instances of a combinatorial problem using bitflip and swap operators. First, we enumerate instances of NK-landscape model and use the hill climbing heuristic to build the corresponding LONs. Then, using LON metrics, we analyze how efficiently the search might be when combining both strategies. The experiments show promising results and demonstrate the ability of multi-layer LONs to provide useful information that could be used for in metaheuristics based on multiple operators such as Variable Neighborhood Search.
翻訳日:2022-12-08 10:15:17 公開日:2020-04-29
# バーサタイルブラックボックス最適化

Versatile Black-Box Optimization ( http://arxiv.org/abs/2004.14014v1 )

ライセンス: Link先を確認
Jialin Liu, Antoine Moreau, Mike Preuss, Baptiste Roziere, Jeremy Rapin, Fabien Teytaud, Olivier Teytaud(参考訳) 問題記述子を用いた正しいアルゴリズムを自動的に選択することは、組合せ最適化の古典的な構成要素である。 また、進化的アルゴリズムを速く、堅牢で、万能にするための良いツールでもある。 本稿では,離散的,連続的,ノイズのない,逐次的,並列的なブラックボックス最適化に適したアルゴリズムであるShiwaを提案する。 提案アルゴリズムは,BBOBに匹敵するテストベッドであるYABBOBの競合と実験的に比較し,実世界のテストベッドで検証する。

Choosing automatically the right algorithm using problem descriptors is a classical component of combinatorial optimization. It is also a good tool for making evolutionary algorithms fast, robust and versatile. We present Shiwa, an algorithm good at both discrete and continuous, noisy and noise-free, sequential and parallel, black-box optimization. Our algorithm is experimentally compared to competitors on YABBOB, a BBOB comparable testbed, and on some variants of it, and then validated on several real world testbeds.
翻訳日:2022-12-08 10:14:56 公開日:2020-04-29
# トランスフォーマーを用いたマルチレゾリューション・マルチモーダル音声認識

Multiresolution and Multimodal Speech Recognition with Transformers ( http://arxiv.org/abs/2004.14840v1 )

ライセンス: Link先を確認
Georgios Paraskevopoulos, Srinivas Parthasarathy, Aparna Khare, and Shiva Sundaram(参考訳) 本稿ではトランスフォーマーアーキテクチャを用いた音声視覚自動音声認識(AV-ASR)システムを提案する。 我々は特に、視覚情報によって提供されるシーンコンテキストに注目して、ASRを接地する。 トランスのエンコーダ層における音声特徴の表現を抽出し,さらにクロスモーダルなマルチヘッド注意層を用いてビデオ特徴をヒューズする。 さらに,マルチタスク学習基準を多分解能ASRに組み込み,文字レベルとサブワードレベルの両方の書き起こしを生成するようにモデルを訓練する。 How2データセットによる実験結果から,単語誤り率(WER)は,単語予測モデルよりも最大18%向上し,収束率を約50%向上できることが示された。 さらに、視覚情報の導入により、オーディオのみのモデルよりも3.76%向上した。 私たちの結果は最先端のリスニング、出席、スペルベースのアーキテクチャに匹敵します。

This paper presents an audio visual automatic speech recognition (AV-ASR) system using a Transformer-based architecture. We particularly focus on the scene context provided by the visual information, to ground the ASR. We extract representations for audio features in the encoder layers of the transformer and fuse video features using an additional crossmodal multihead attention layer. Additionally, we incorporate a multitask training criterion for multiresolution ASR, where we train the model to generate both character and subword level transcriptions. Experimental results on the How2 dataset, indicate that multiresolution training can speed up convergence by around 50% and relatively improves word error rate (WER) performance by upto 18% over subword prediction models. Further, incorporating visual information improves performance with relative gains upto 3.76% over audio only models. Our results are comparable to state-of-the-art Listen, Attend and Spell-based architectures.
翻訳日:2022-12-08 10:14:46 公開日:2020-04-29
# 連続重み更新による平衡伝播

Equilibrium Propagation with Continual Weight Updates ( http://arxiv.org/abs/2005.04168v1 )

ライセンス: Link先を確認
Maxence Ernoult, Julie Grollier, Damien Querlioz, Yoshua Bengio, Benjamin Scellier(参考訳) Equilibrium Propagation (EP) は、時間によるバックプロパゲーション(BPTT)と密接に一致する勾配を計算することによって、機械学習と神経科学を橋渡しする学習アルゴリズムである。 入力$x$と関連するターゲット$y$が与えられたとき、EPは2つのフェーズで進行し、第1相のニューロンは第1相の定常状態に向かって自由に進化し、第2相の出力ニューロンは第2相の定常状態に達するまで$y$に誘導される。 しかし、EPの既存の実装では、学習規則は時間的に局所的ではなく、第2フェーズのダイナミクスが収束した後、重み更新が行われ、物理的に利用できない第1フェーズの情報が必要となる。 そこで本研究では,第2相を通してニューロンとシナプスのダイナミクスが同時に発生し,重みの更新が時間とともに局所的になる,連続平衡伝播(c-ep)というepモデルを提案する。 このような学習規則は空間と時間の両方で局所的に存在し、EPの極めてエネルギー効率の良いハードウェア実装の可能性を開く。 理論的には、学習速度が十分に小さい場合、第2相の各段階において、BPTT(Theorem 1)が与える損失の勾配に従ってニューロンとシナプスのダイナミクスが従うことを証明している。 我々は、MNIST上でC-EPでトレーニングを行い、C-EPを非対称接続で接続されたニューラルネットワークに一般化する。 実験を通して、ネットワーク更新がBPTTの勾配に従えばなるほど、トレーニングの面で最高の結果が得られることを示す。 これらの結果からEPは,後方伝播との親密な関係を維持しつつ,ハードウェアの制約に順応し,生物学に一歩近づいた。

Equilibrium Propagation (EP) is a learning algorithm that bridges Machine Learning and Neuroscience, by computing gradients closely matching those of Backpropagation Through Time (BPTT), but with a learning rule local in space. Given an input $x$ and associated target $y$, EP proceeds in two phases: in the first phase neurons evolve freely towards a first steady state; in the second phase output neurons are nudged towards $y$ until they reach a second steady state. However, in existing implementations of EP, the learning rule is not local in time: the weight update is performed after the dynamics of the second phase have converged and requires information of the first phase that is no longer available physically. In this work, we propose a version of EP named Continual Equilibrium Propagation (C-EP) where neuron and synapse dynamics occur simultaneously throughout the second phase, so that the weight update becomes local in time. Such a learning rule local both in space and time opens the possibility of an extremely energy efficient hardware implementation of EP. We prove theoretically that, provided the learning rates are sufficiently small, at each time step of the second phase the dynamics of neurons and synapses follow the gradients of the loss given by BPTT (Theorem 1). We demonstrate training with C-EP on MNIST and generalize C-EP to neural networks where neurons are connected by asymmetric connections. We show through experiments that the more the network updates follows the gradients of BPTT, the best it performs in terms of training. These results bring EP a step closer to biology by better complying with hardware constraints while maintaining its intimate link with backpropagation.
翻訳日:2022-12-08 10:09:03 公開日:2020-04-29
# 平衡伝播のための継続的軽量化と畳み込みアーキテクチャ

Continual Weight Updates and Convolutional Architectures for Equilibrium Propagation ( http://arxiv.org/abs/2005.04169v1 )

ライセンス: Link先を確認
Maxence Ernoult, Julie Grollier, Damien Querlioz, Yoshua Bengio, Benjamin Scellier(参考訳) Equilibrium Propagation (EP)は、ニューラルネットワークのトレーニングのためのバックプロパゲーション(BP)に対する生物学的にインスパイアされた代替アルゴリズムである。 これはホップフィールドネットワークのような定常状態に落ち着く静的入力xによって供給されるrnnに適用される。 EP は BP と似ており、トレーニングの第2段階では、エラー信号がネットワークの層内で後方に伝播するが、BP とは対照的に、EP の学習規則は空間的に局所的である。 しかし、epには2つの大きな制限がある。 一方、リアルタイム力学の定式化により、EPは長いシミュレーション時間を必要とするため、実用的タスクへの適用性が制限される。 一方,EPの生物学的妥当性は,第2相のダイナミクスが収束した後のシナプス更新を行い,物理的に利用できない第1相の情報を必要とするという,学習規則が局所的でないという事実によって制限される。 我々の研究は、これらの2つの問題に対処し、標準的な機械学習モデルからよりバイオリアリスティックなニューラルネットワークへのEPのスペクトルを広げることを目指している。 まず,方程式を単純化し,トレーニングを高速化し,epをcnnに拡張できるepの離散時間定式化を提案する。 我々のCNNモデルは、EPでMNISTで報告された最高のパフォーマンスを達成する。 同じ離散時間定式化を用いて連続平衡伝播(C-EP)を導入し,空間と時間における局所情報を用いたトレーニングの第2段階でネットワークの重みを継続的に調整する。 C-EPは, シナプス強度の緩やかな変化の限界においてBPTT(Theorem 1)と等価であることを示す。 mnist の定理 1 と c-ep のトレーニングを数値的に示し,ニューロン間の非対称な結合を持つニューラルネットワークのバイオリアリスティックな状況に一般化する。

Equilibrium Propagation (EP) is a biologically inspired alternative algorithm to backpropagation (BP) for training neural networks. It applies to RNNs fed by a static input x that settle to a steady state, such as Hopfield networks. EP is similar to BP in that in the second phase of training, an error signal propagates backwards in the layers of the network, but contrary to BP, the learning rule of EP is spatially local. Nonetheless, EP suffers from two major limitations. On the one hand, due to its formulation in terms of real-time dynamics, EP entails long simulation times, which limits its applicability to practical tasks. On the other hand, the biological plausibility of EP is limited by the fact that its learning rule is not local in time: the synapse update is performed after the dynamics of the second phase have converged and requires information of the first phase that is no longer available physically. Our work addresses these two issues and aims at widening the spectrum of EP from standard machine learning models to more bio-realistic neural networks. First, we propose a discrete-time formulation of EP which enables to simplify equations, speed up training and extend EP to CNNs. Our CNN model achieves the best performance ever reported on MNIST with EP. Using the same discrete-time formulation, we introduce Continual Equilibrium Propagation (C-EP): the weights of the network are adjusted continually in the second phase of training using local information in space and time. We show that in the limit of slow changes of synaptic strengths and small nudging, C-EP is equivalent to BPTT (Theorem 1). We numerically demonstrate Theorem 1 and C-EP training on MNIST and generalize it to the bio-realistic situation of a neural network with asymmetric connections between neurons.
翻訳日:2022-12-08 10:08:33 公開日:2020-04-29
# 自然分布シフトが質問応答モデルに及ぼす影響

The Effect of Natural Distribution Shift on Question Answering Models ( http://arxiv.org/abs/2004.14444v1 )

ライセンス: Link先を確認
John Miller, Karl Krauth, Benjamin Recht, Ludwig Schmidt(参考訳) 我々はSQuAD(Stanford Question Answering Dataset)のための4つの新しいテストセットを構築し、質問応答システムによる新しいデータへの一般化能力を評価する。 最初のテストセットはオリジナルのwikipediaドメインからで、既存のシステムが元のテストセットにオーバーフィットする程度を測定します。 数年にわたるテストセットの再使用にもかかわらず、適応的なオーバーフィットの証拠は見つからない。 残りの3つのテストセットは、New York Timesの記事、Redditの投稿、Amazonの製品レビューから構築され、自然分布シフトに対する堅牢性を測定する。 幅広いモデルにおいて,平均的な性能低下は3.8点,14.0点,17.4点であった。 対照的に、強い人間のベースラインは、元のドメイン上でSQuADモデルのパフォーマンスと一致し、新しいドメインがほとんど、あるいは全く低下しない。 その結果,本手法の驚くべきレジリエンスを確認し,自然分布シフトに頑健さを取り入れた評価指標への移行の必要性を強調した。

We build four new test sets for the Stanford Question Answering Dataset (SQuAD) and evaluate the ability of question-answering systems to generalize to new data. Our first test set is from the original Wikipedia domain and measures the extent to which existing systems overfit the original test set. Despite several years of heavy test set re-use, we find no evidence of adaptive overfitting. The remaining three test sets are constructed from New York Times articles, Reddit posts, and Amazon product reviews and measure robustness to natural distribution shifts. Across a broad range of models, we observe average performance drops of 3.8, 14.0, and 17.4 F1 points, respectively. In contrast, a strong human baseline matches or exceeds the performance of SQuAD models on the original domain and exhibits little to no drop in new domains. Taken together, our results confirm the surprising resilience of the holdout method and emphasize the need to move towards evaluation metrics that incorporate robustness to natural distribution shifts.
翻訳日:2022-12-08 10:06:18 公開日:2020-04-29