このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200123となっている論文です。

PDF登録状況(公開日: 20200123)

TitleAuthorsAbstract論文公表日・翻訳日
# 言語に依存しない感情分析

Language Independent Sentiment Analysis ( http://arxiv.org/abs/1912.11973v2 )

ライセンス: Link先を確認
Muhammad Haroon Shakeel, Turki Alghamidi, Safi Faizullah, Imdadullah Khan(参考訳) ソーシャルメディアプラットフォームとオンラインフォーラムは、急速に増大するテキストデータを生成する。 企業、政府機関、メディア組織は、このリッチテキストデータに対して感情分析を行う。 これらの分析結果は、マーケティング戦略の適応、プロダクトのカスタマイズ、セキュリティ、その他さまざまな意思決定に使用される。 感性分析は広く研究され、様々な手法が開発され、大きな成功を収めている。 しかし、これらの方法は特定の言語で書かれたテキストに適用できる。 これにより、限定的な人口統計と特定の地理的地域への適用が制限される。 本稿では,複数の言語からのテキストを含むデータに対する感情分析の一般的な手法を提案する。 これにより、すべてのアプリケーションが言語に依存しない、あるいは言語に依存しない方法で感情分析の結果を利用することができる。

Social media platforms and online forums generate rapid and increasing amount of textual data. Businesses, government agencies, and media organizations seek to perform sentiment analysis on this rich text data. The results of these analytics are used for adapting marketing strategies, customizing products, security and various other decision makings. Sentiment analysis has been extensively studied and various methods have been developed for it with great success. These methods, however apply to texts written in a specific language. This limits applicability to a limited demographic and a specific geographic region. In this paper we propose a general approach for sentiment analysis on data containing texts from multiple languages. This enables all the applications to utilize the results of sentiment analysis in a language oblivious or language-independent fashion.
翻訳日:2023-06-10 00:16:44 公開日:2020-01-23
# 可変フラストレーションを有するジョセフソン接合アレイにおけるXY相転移の探索

Probing XY phase transitions in a Josephson junction array with tunable frustration ( http://arxiv.org/abs/2001.07877v2 )

ライセンス: Link先を確認
R. Cosmic, K. Kawabata, Y. Ashida, H. Ikegami, S. Furukawa, P. Patil, J. M. Taylor, and Y. Nakamura(参考訳) Berezinskii、Kosterlitz、Thoulessのセミナル理論は、トポロジカル励起によって駆動される凝縮物質における相転移の新しいパラダイムを提示した。 これらの遷移は2次元のXYモデル(結合コンパス)の文脈で広く研究され、量子シミュレーションの文脈に関心を寄せている。 ここでは,回路量子電気力学アーキテクチャを用いて,その動的応答を通じてxyモデルの臨界挙動を研究する。 特に, スピン回転 [U$(1)$] と離散キラル (Z_2$) 対称性に付随する縮退が促進されるような, フラストレーションのないケースだけでなく, 完全にフラストレーションされたケースについても検討する。 フラストレーションのあるケースにおける遷移の性質は、直接の実験プローブが解明される一方で、理論的研究に挑戦している。 ここでは, 弱マイクロ波励起を用いてジョセフソン接合アレイを平衡近傍で探索し, 複素反射係数から得られる有効減衰の温度依存性を測定することにより, 非フラストレートおよびフルフラストレートxyモデルの遷移温度を同定する。 我々の調査手法は、主にu$(1)$部分の力学に敏感である。

The seminal theoretical works of Berezinskii, Kosterlitz, and Thouless presented a new paradigm for phase transitions in condensed matter that are driven by topological excitations. These transitions have been extensively studied in the context of two-dimensional XY models -- coupled compasses -- and have generated interest in the context of quantum simulation. Here, we use a circuit quantum-electrodynamics architecture to study the critical behavior of engineered XY models through their dynamical response. In particular, we examine not only the unfrustrated case but also the fully-frustrated case which leads to enhanced degeneracy associated with the spin rotational [U$(1)$] and discrete chiral ($Z_2$) symmetries. The nature of the transition in the frustrated case has posed a challenge for theoretical studies while direct experimental probes remain elusive. Here we identify the transition temperatures for both the unfrustrated and fully-frustrated XY models by probing a Josephson junction array close to equilibrium using weak microwave excitations and measuring the temperature dependence of the effective damping obtained from the complex reflection coefficient. We argue that our probing technique is primarily sensitive to the dynamics of the U$(1)$ part.
翻訳日:2023-06-06 07:15:58 公開日:2020-01-23
# 冷電場制御されたnh$_3$とrydberg he原子のビーム内衝突におけるrydberg状態分解共振エネルギー移動

Rydberg-State-Resolved Resonant Energy Transfer in Cold Electric-Field-Controlled Intrabeam Collisions of NH$_3$ with Rydberg He Atoms ( http://arxiv.org/abs/2001.08440v1 )

ライセンス: Link先を確認
K. Gawlas and S. D. Hogan(参考訳) 主量子数$n=38$の3重項rydberg状態におけるnh$_3$からhe原子への共鳴準位からのエネルギー移動は、遷移温度$\sim1$ kのビーム内衝突における15v/cm以下の電場を用いて制御されている。 he原子は、ビームの後続部のパルス放電において準安定な1s2s$^3$s$_1$レベルで合成された。 重いNH$_3$と軽い準安定水素の間の速度滑りは、質量中心衝突速度$\sim70$m/sで衝突実験を行うために利用された。 原子-分子衝突における共鳴エネルギー移動は、Rydberg-state-selective electric-field ionizationにより同定された。 実験データは衝突パートナー間の共鳴双極子-双極子相互作用の衝突パラメータ法に基づく理論的モデルと比較された。

The resonant transfer of energy from the inversion sublevels in NH$_3$ to He atoms in triplet Rydberg states with principal quantum number $n=38$ has been controlled using electric fields below 15 V/cm in intrabeam collisions at translational temperatures of $\sim1$ K. The experiments were performed in pulsed supersonic beams of NH$_3$ seeded in He at a ratio of 1:19. The He atoms were prepared in the metastable 1s2s $^3$S$_1$ level in a pulsed electric discharge in the trailing part of the beams. The velocity slip between the heavy NH$_3$ and the lighter metastable He was exploited to perform collision studies at center-of-mass collision speeds of $\sim70$ m/s. Resonant energy transfer in the atom-molecule collisions was identified by Rydberg-state-selective electric-field ionization. The experimental data have been compared to a theoretical model of the resonant dipole-dipole interactions between the collision partners based on the impact parameter method.
翻訳日:2023-06-06 05:10:28 公開日:2020-01-23
# pushshift telegramデータセット

The Pushshift Telegram Dataset ( http://arxiv.org/abs/2001.08438v1 )

ライセンス: Link先を確認
Jason Baumgartner, Savvas Zannettou, Megan Squire, Jeremy Blackburn(参考訳) メッセージングプラットフォーム、特にモバイルに焦点を当てたプラットフォームは、社会の中でますます普及している。 これらのモバイルメッセージングプラットフォームは、非常に大きなユーザー基盤を持ち、人々が連絡を取り合うための手段であるだけでなく、社会運動の組織化にもしばしば使われ、過激派やNe'er-do-wellが集まる場所でもある。 本稿では,モバイルメッセージングプラットフォームであるTelegramのデータセットについて述べる。 私たちのデータセットは、27.8kチャネルと2.2mのユニークユーザからの317mメッセージで構成されています。 我々の知る限りでは、我々のデータセットはその種類の最大かつ最も完全なものである。 生のデータに加えて、収集に使用するソースコードも提供し、研究者が独自のデータ収集インスタンスを実行できるようにしています。 pushshift telegramデータセットは、オンライン社会運動、抗議活動、政治的過激主義、偽情報の研究に関心のあるさまざまな分野の研究者に役立つと信じています。

Messaging platforms, especially those with a mobile focus, have become increasingly ubiquitous in society. These mobile messaging platforms can have deceivingly large user bases, and in addition to being a way for people to stay in touch, are often used to organize social movements, as well as a place for extremists and other ne'er-do-well to congregate. In this paper, we present a dataset from one such mobile messaging platform: Telegram. Our dataset is made up of over 27.8K channels and 317M messages from 2.2M unique users. To the best of our knowledge, our dataset comprises the largest and most complete of its kind. In addition to the raw data, we also provide the source code used to collect it, allowing researchers to run their own data collection instance. We believe the Pushshift Telegram dataset can help researchers from a variety of disciplines interested in studying online social movements, protests, political extremism, and disinformation.
翻訳日:2023-06-06 05:10:00 公開日:2020-01-23
# pushshift redditデータセット

The Pushshift Reddit Dataset ( http://arxiv.org/abs/2001.08435v1 )

ライセンス: Link先を確認
Jason Baumgartner, Savvas Zannettou, Brian Keegan, Megan Squire, Jeremy Blackburn(参考訳) ソーシャルメディアデータは科学的理解の進歩に不可欠である。 しかし、ユビキタスになったとはいえ、大規模なソーシャルメディアデータを集めるだけで、高度なエンジニアリングスキルセットと計算リソースが必要になる。 実際、分析が進む前に克服しなければならないデータ工学の問題によって研究が妨げられることが多い。 この結果、データセット自体が意味のある研究貢献であると認識されるようになった。 特にredditは、いわゆる「インターネットの最前線」であり、多くの科学研究の対象となっている。 RedditはFacebookやTwitterのようなソーシャルメディアプラットフォームに比べて比較的オープンだが、買収の技術的障壁は依然として残っている。 このように、redditの数百万のサブreddit、数億人のユーザ、数十億のコメントは同時に比較的アクセス可能であるが、体系的に収集し分析するのに時間がかかる。 本稿では,pushshift redditデータセットについて述べる。 pushshiftはソーシャルメディアのデータ収集、分析、アーカイブのプラットフォームで、2015年からredditのデータを収集し、研究者に公開している。 PushshiftのRedditデータセットはリアルタイムで更新され、Redditの開始時の履歴データが含まれている。 毎月のダンプに加えて、Pushshiftはデータセット全体の検索、集約、探索分析を行うための計算ツールを提供する。 Pushshift Redditデータセットは、ソーシャルメディア研究者がプロジェクトのデータ収集、クリーニング、ストレージフェーズに費やす時間を短縮することを可能にする。

Social media data has become crucial to the advancement of scientific understanding. However, even though it has become ubiquitous, just collecting large-scale social media data involves a high degree of engineering skill set and computational resources. In fact, research is often times gated by data engineering problems that must be overcome before analysis can proceed. This has resulted recognition of datasets as meaningful research contributions in and of themselves. Reddit, the so called "front page of the Internet," in particular has been the subject of numerous scientific studies. Although Reddit is relatively open to data acquisition compared to social media platforms like Facebook and Twitter, the technical barriers to acquisition still remain. Thus, Reddit's millions of subreddits, hundreds of millions of users, and hundreds of billions of comments are at the same time relatively accessible, but time consuming to collect and analyze systematically. In this paper, we present the Pushshift Reddit dataset. Pushshift is a social media data collection, analysis, and archiving platform that since 2015 has collected Reddit data and made it available to researchers. Pushshift's Reddit dataset is updated in real-time, and includes historical data back to Reddit's inception. In addition to monthly dumps, Pushshift provides computational tools to aid in searching, aggregating, and performing exploratory analysis on the entirety of the dataset. The Pushshift Reddit dataset makes it possible for social media researchers to reduce time spent in the data collection, cleaning, and storage phases of their projects.
翻訳日:2023-06-06 05:09:35 公開日:2020-01-23
# スクリーン付きクラッツァー・ヘルマンポテンシャルモデルの統計的解析と情報理論

Statistical Analysis and Information Theory of Screened Kratzer-Hellmann Potential Model ( http://arxiv.org/abs/2001.08429v1 )

ライセンス: Link先を確認
Gabriel T. Osobonye, Uduakobong S. Okorie, Precious O. Amadi, Akpan N. Ikot(参考訳) 本研究では,新たに提案したクラッツァー・ヘルマンポテンシャルモデルに対するラジアルシュロディンガー方程式をニキフォロフ-ウバロフ法を用いて検討した。 シュロディンガー方程式の近似境界状態解は、解析的および数値的に新しいポテンシャルモデルの正規化固有関数に加えて、グリーン=アルドリッヒ近似を用いて求めた。 これらの結果はクラッツァー・ヘルマンポテンシャルの回転-振動分配関数およびその他の熱力学的性質を評価するために用いられた。 得られた結果をグラフィカルに検討した。 また、正規化固有関数はシャノンエントロピーやフィッシャー情報を含むいくつかの情報理論の測度を、位置空間と運動量空間の両方で数値的に計算するために用いられる。 その結果,シャンノンエントロピーはbialynicki-birula と mycielski の不等式と一致し,fisher information は stam, crammer-rao の不等式と一致した。 以上の結果から,両固有状態のスクリーニングパラメータ全体で交互に分布の増大と減少が観察された。

In this research, the radial Schrodinger equation for a newly proposed screened Kratzer-Hellmann potential model was studied via the conventional Nikiforov-Uvarov method. The approximate bound state solution of the Schrodinger equation was obtained using the Greene-Aldrich approximation, in addition to the normalized eigenfunction for the new potential model both analytically and numerically. These results were employed to evaluate the rotational-vibrational partition function and other thermodynamic properties for the screened Kratzer-Hellmann potential. We have discussed the results obtained graphically. Also, the normalized eigenfunction has been used to calculate some information-theoretic measures including Shannon entropy and Fisher information for low lying states in both position and momentum spaces numerically. We observed that the Shannon entropy results agreed with the Bialynicki-Birula and Mycielski inequality, while the Fisher information results obtained agreed with the Stam, Crammer-Rao inequality. From our results, we observed alternating increasing and decreasing localization across the screening parameter in the both eigenstates.
翻訳日:2023-06-06 05:08:53 公開日:2020-01-23
# 正エネルギーをもつファジィ共形群 SU(2,2) の振動表現

Some oscillatory representations of fuzzy conformal group SU(2,2) with positive energy ( http://arxiv.org/abs/2001.08408v1 )

ライセンス: Link先を確認
Samuel Bezn\'ak, Peter Pre\v{s}najder(参考訳) 相対論的ファジィ空間は、ヒルベルト空間 $\mathcal{h}_f$ 上で作用するc/a作用素である純粋に構造的かつ抽象的な座標を持つ函数の非可換代数として構成する。 これらの振動子を用いて、そのような関数に作用する作用素によって共形代数 $su(2,2)$(物理可観測性を記述する作用素を含む)を表現し、補助ヒルベルト空間 $\mathcal{h}_a$ を再構成してこの作用を記述する。 そして、そのような空間の状態を分析し、それらをブースト不変であると証明する。 最終的には、$su(2,2)$ algebra の既約表現の 2 つのクラスを \textit{half-integer} dimension $d$ ([1]): (i)基本またはユニタリ非同値双対表現のc/a作用素の1組から構成された$su(2,2)$の二重トン表現としての古典的なファジィ質量のない場 (ii) 古典的なファジィ大体は、それぞれ代数の基本表現と双対表現であるc/a作用素の2つの集合からなる2つの二重子表現の直積である。

We construct the relativistic fuzzy space as a non-commutative algebra of functions with purely structural and abstract coordinates being the creaction and annihilation (C/A) operators acting on a Hilbert space $\mathcal{H}_F$. Using these oscillators, we represent the conformal algebra $su(2,2)$ (containing the operators describing physical observables, that generate boosts, rotations, spatial and conformal translations, and dilatation) by operators acting on such functions and reconstruct an auxiliary Hilbert space $\mathcal{H}_A$ to describe this action. We then analyze states on such space and prove them to be boost-invariant. Eventually, we construct two classes of irreducible representations of $su(2,2)$ algebra with \textit{half-integer} dimension $d$ ([1]): (i) the classical fuzzy massless fields as a doubleton representation of the $su(2,2)$ constructed from one set of C/A operators in fundamental or unitary inequivalent dual representation and (ii) classical fuzzy massive fields as a direct product of two doubleton representations constructed from two sets of C/A operators that are in the fundamental and dual representation of the algebra respectively.
翻訳日:2023-06-06 05:07:49 公開日:2020-01-23
# 最適な長さの量子削除誤り訂正符号である4量子ビット符号

A Four-Qubits Code that is a Quantum Deletion Error-Correcting Code with the Optimal Length ( http://arxiv.org/abs/2001.08405v1 )

ライセンス: Link先を確認
Manabu Hagiwara, Ayumu Nakayama(参考訳) 本稿では,量子削除誤り訂正符号の新しい例を示す。 このコードは1つの量子削除エラーを修正できますが、コードの長さは4です。 本稿では、符号化量子回路と復号量子回路の例を示す。 また、1つの削除誤り訂正符号の長さが4より大きいことも証明されている。 言い換えれば、私たちのコードはコードの長さに最適です。

This paper provides a new instance of quantum deletion error-correcting codes. This code can correct any single quantum deletion error, while our code is only of length 4. This paper also provides an example of an encoding quantum circuit and decoding quantum circuits. It is also proven that the length of any single deletion error-correcting codes is greater than or equal to 4. In other words, our code is optimal for the code length.
翻訳日:2023-06-06 05:07:26 公開日:2020-01-23
# 局所脱分極雑音による量子回路の古典シミュレーション

Classically Simulating Quantum Circuits with Local Depolarizing Noise ( http://arxiv.org/abs/2001.08373v1 )

ライセンス: Link先を確認
Yasuhiro Takahashi, Yuki Takeuchi, Seiichiro Tani(参考訳) 本研究では,量子回路の古典的シミュラビリティに対する雑音の影響を,計算可能(CT)状態と効率的な計算可能スパース(ECS)演算により検討する。 CT-ECS回路と呼ばれるそのような回路の例としては、IQP、クリフォードマジック、共役クリフォード回路がある。 これは、様々なCT-ECS回路が存在し、その出力確率分布は反集中であり、雑音のない環境では古典的にシミュレートできないことを意味する。 まず、計算終了時の各キュービットに対して、任意に小さい定速度の脱分極チャネルを適用したノイズモデルを考える。 このノイズモデルでは、ノイズレートの近似値が分かっていれば、アンチ集中出力確率分布を持つ任意のCT-ECS回路は古典的にシミュレート可能であることを示す。 このことは、小さなノイズの存在がCT-ECS回路の古典的シミュラビリティに大きく影響していることを示している。 そこで,各キュービット毎にノイズレートが変動するノイズモデルの拡張について検討し,従来のCT-ECS回路を非集中出力確率分布で古典的にシミュレートするための同様の条件を提案する。

We study the effect of noise on the classical simulatability of quantum circuits defined by computationally tractable (CT) states and efficiently computable sparse (ECS) operations. Examples of such circuits, which we call CT-ECS circuits, are IQP, Clifford Magic, and conjugated Clifford circuits. This means that there exist various CT-ECS circuits such that their output probability distributions are anti-concentrated and not classically simulatable in the noise-free setting (under plausible assumptions). First, we consider a noise model where a depolarizing channel with an arbitrarily small constant rate is applied to each qubit at the end of computation. We show that, under this noise model, if an approximate value of the noise rate is known, any CT-ECS circuit with an anti-concentrated output probability distribution is classically simulatable. This indicates that the presence of small noise drastically affects the classical simulatability of CT-ECS circuits. Then, we consider an extension of the noise model where the noise rate can vary with each qubit, and provide a similar sufficient condition for classically simulating CT-ECS circuits with anti-concentrated output probability distributions.
翻訳日:2023-06-06 05:07:21 公開日:2020-01-23
# ナノ粒子中のエルビウムイオンのパーセル励起放出の動的制御

Dynamic control of Purcell enhanced emission of erbium ions in nanoparticles ( http://arxiv.org/abs/2001.08532v1 )

ライセンス: Link先を確認
Bernardo Casabone, Chetan Deshmukh, Shuping Liu, Diana Serrano, Alban Ferrier, Thomas H\"ummer, Philippe Goldner, David Hunger, Hugues de Riedmatten(参考訳) 単一量子エミッタと光キャビティの相互作用は、量子ネットワークにとって必須の資源である効率的なスピン光子界面の実現を可能にする。 キャビティ内の量子エミッタの自発的放出速度の動的制御は量子技術において重要な意味を持つ。例えば、放出された光子波形を形作る、量子エンタングルメントを生成する、あるいは光子放出を防止しながら光遷移をコヒーレントに駆動するなどである。 ここでは、ナノ粒子にドープされたエルビウムイオンの小さなアンサンブルのパーセル増強放出の動的制御を実証する。 ドープナノ粒子を完全波長可変の高精細ファイバ系光マイクロキャビティに組み込むことにより,エルビウムイオンの自然寿命よりも2桁以上の時間スケールで,その長さをサブナノメータ精度で制御することにより,キャビティのオン・イン・イン・リゾナンスを調整できることを示した。 これにより、パーセルがイオンの放出を増加させ、放出された光子の波形を完全に制御できる。 この能力は、固体スピンと制御可能な波形を持つ単一通信光子との間の効率的なナノスケール量子界面の実現と、希土類イオン量子ビットと光学キャビティとの量子ゲートの実現の見通しを開く。

The interaction of single quantum emitters with an optical cavity enables the realization of efficient spin-photon interfaces, an essential resource for quantum networks. The dynamical control of the spontaneous emission rate of quantum emitters in cavities has important implications in quantum technologies, e.g. for shaping the emitted photons waveform, for generating quantum entanglement, or for driving coherently the optical transition while preventing photon emission. Here we demonstrate the dynamical control of the Purcell enhanced emission of a small ensemble of erbium ions doped into nanoparticles. By embedding the doped nanoparticles into a fully tunable high finesse fiber based optical microcavity, we show that we can tune the cavity on- and out of-resonance by controlling its length with sub-nanometer precision, on a time scale more than two orders of magnitude faster than the natural lifetime of the erbium ions. This allows us to shape in real time the Purcell enhanced emission of the ions and to achieve full control over the emitted photons' waveforms. This capability opens prospects for the realization of efficient nanoscale quantum interfaces between solid-state spins and single telecom photons with controllable waveform, and for the realization of quantum gates between rare-earth ion qubits coupled to an optical cavity.
翻訳日:2023-06-06 04:56:59 公開日:2020-01-23
# ウィキペディアの自然災害に関する不均一な報道:洪水の事例

Uneven Coverage of Natural Disasters in Wikipedia: the Case of Flood ( http://arxiv.org/abs/2001.08810v1 )

ライセンス: Link先を確認
Valerio Lorini, Javier Rando, Diego Saez-Trumper, Carlos Castillo(参考訳) 災害管理における非権威データの利用は、他の手段では利用できない可能性のあるタイムリーな情報にアクセスする機会と、複数のバイアス層に対処する課題をもたらす。 ウィキペディアは、共同制作された百科事典で、多くの自然災害や人為災害に関する詳細な情報を含んでいる。 本研究では,この百科事典の最も包括的な版であるウィキペディアの英語版に焦点を当てた。 wikipediaは、特に多くの死傷者を含む災害をよく報道する傾向がある。 しかし,富裕国におけるイベントを対象とし,貧しい国ではイベントを対象としない傾向が,災害関連情報の源泉としてwikipediaに浸透していることも示している。 大規模に注意深い自動コンテンツ分析を行うことで、ウィキペディアの洪水の報道が、金持ちで英語圏の国々、特に米国とカナダに浸透していることを示す。 また、低所得国や南アメリカの国々における洪水のカバレッジが、中所得国における洪水のカバレッジよりも著しく低い点についても留意する。 これらの結果は,Wikipediaや類似の協調メディアプラットフォームを,緊急事態の検知や災害対応のための貴重な情報収集のための情報ソースとして利用するシステムに影響を及ぼす。

The usage of non-authoritative data for disaster management presents the opportunity of accessing timely information that might not be available through other means, as well as the challenge of dealing with several layers of biases. Wikipedia, a collaboratively-produced encyclopedia, includes in-depth information about many natural and human-made disasters, and its editors are particularly good at adding information in real-time as a crisis unfolds. In this study, we focus on the English version of Wikipedia, that is by far the most comprehensive version of this encyclopedia. Wikipedia tends to have good coverage of disasters, particularly those having a large number of fatalities. However, we also show that a tendency to cover events in wealthy countries and not cover events in poorer ones permeates Wikipedia as a source for disaster-related information. By performing careful automatic content analysis at a large scale, we show how the coverage of floods in Wikipedia is skewed towards rich, English-speaking countries, in particular the US and Canada. We also note how coverage of floods in countries with the lowest income, as well as countries in South America, is substantially lower than the coverage of floods in middle-income countries. These results have implications for systems using Wikipedia or similar collaborative media platforms as an information source for detecting emergencies or for gathering valuable information for disaster response.
翻訳日:2023-06-06 04:49:27 公開日:2020-01-23
# 警察がツイートを監視: ログファイルによるソーシャルメディア監視ツールの監査

Whose Tweets are Surveilled for the Police: An Audit of Social-Media Monitoring Tool via Log Files ( http://arxiv.org/abs/2001.08777v1 )

ライセンス: Link先を確認
Glencora Borradaile, Brett Burkhardt, Alexandria LeClerc(参考訳) 法執行機関によるソーシャルメディア監視が一般的になっているが、そのソフトウェアパッケージが何を行うのかはほとんど知られていない。 公開記録要求により,我々はCorvallis (Oregon) Police DepartmentによるDigitalStakeoutというソーシャルメディア監視ソフトウェアの使用からログファイルを入手した。 これらのログファイルには、DigitalStakeoutによるプロプライエタリな検索の結果が含まれている。 本稿では、このデータに記録されたつぶやきに注目し、DigitalStakeoutにフラグ付けされているユーザの人種的および民族的アイデンティティ(手動コーディングによる)について考察する。 ツイートがDigitalStakeoutによってフラグ付けされているユーザーの人口統計と、地域のTwitterユーザーの人口統計の違いを観察するが、我々のサンプルサイズは小さすぎて、重要度を判断できない。 さらに、この地域のtwitterユーザーの人口統計は、この地域の住民の人口を反映しておらず、明らかに黒人とヒスパニック系の人口の比率が高いようである。 また,Corvallis Police DepartmentのDigitalStakeoutが設定したNarcoticsレポートに関するキーワードを再構築し,オレゴン州でのレクリエーションに有効な薬物であるマリファナに関するツイートやフラグツイートとは無関係なつぶやきをフラグとして表示する。 キーワードのほとんどすべては、麻薬とは無関係な共通の意味を持ち(例えば、\ broken, snow, hop, high)、そのようなキーワードベースの検索が法執行に必要となる可能性に疑問を呈する。

Social media monitoring by law enforcement is becoming commonplace, but little is known about what software packages for it do. Through public records requests, we obtained log files from the Corvallis (Oregon) Police Department's use of social media monitoring software called DigitalStakeout. These log files include the results of proprietary searches by DigitalStakeout that were running over a period of 13 months and include 7240 social media posts. In this paper, we focus on the Tweets logged in this data and consider the racial and ethnic identity (through manual coding) of the users that are therein flagged by DigitalStakeout. We observe differences in the demographics of the users whose Tweets are flagged by DigitalStakeout compared to the demographics of the Twitter users in the region, however, our sample size is too small to determine significance. Further, the demographics of the Twitter users in the region do not seem to reflect that of the residents of the region, with an apparent higher representation of Black and Hispanic people. We also reconstruct the keywords related to a Narcotics report set up by DigitalStakeout for the Corvallis Police Department and find that these keywords flag Tweets unrelated to narcotics or flag Tweets related to marijuana, a drug that is legal for recreational use in Oregon. Almost all of the keywords have a common meaning unrelated to narcotics (e.g.\ broken, snow, hop, high) that call into question the utility that such a keyword based search could have to law enforcement.
翻訳日:2023-06-06 04:49:03 公開日:2020-01-23
# 主化格子の部分格子の極値要素と近似主化

Extremal elements of a sublattice of the majorization lattice and approximate majorization ( http://arxiv.org/abs/2001.08766v1 )

ライセンス: Link先を確認
C\'esar Massri, Guido Bellomo, Federico Holik, Gustavo M. Bosyk(参考訳) 成分が非増加順にソートされた確率ベクトル $x$ が与えられたとき、閉じた球 ${\mathcal{B}}^p_\epsilon(x)$ と、中心への$\ell^p$-ノルム距離が半径 $\epsilon$ より小さい確率ベクトルによって形成される$p \geq 1$ を考える。 本稿では, 主化部分順序を用いてこれらの球の順序理論的特徴付けを行う。 文献で議論された$p=1$ の場合と異なり、一般に、極値確率ベクトルは 1<p<\infty$ を持つ閉球 ${\mathcal{b}}^p_\epsilon(x)$ に対して存在しない。 一方、${\mathcal{B}}^\infty_\epsilon(x)$ は偏化格子の完全部分格子であることを示す。 結果として、このボールは極端要素も持つ。 さらに,ボールの半径と中心の点で,これらの極端要素の明示的な特徴付けを行う。 これにより、近似的偏化の概念を導入し、$\ell^1$-normという用語で与えられる近似的偏化の以前の結果との関係を議論することができる。 最後に,この結果は,非一様性量子資源理論の枠組みにおける資源の近似変換問題に適用する。

Given a probability vector $x$ with its components sorted in non-increasing order, we consider the closed ball ${\mathcal{B}}^p_\epsilon(x)$ with $p \geq 1$ formed by the probability vectors whose $\ell^p$-norm distance to the center $x$ is less than or equal to a radius $\epsilon$. Here, we provide an order-theoretic characterization of these balls by using the majorization partial order. Unlike the case $p=1$ previously discussed in the literature, we find that the extremal probability vectors, in general, do not exist for the closed balls ${\mathcal{B}}^p_\epsilon(x)$ with $1<p<\infty$. On the other hand, we show that ${\mathcal{B}}^\infty_\epsilon(x)$ is a complete sublattice of the majorization lattice. As a consequence, this ball has also extremal elements. In addition, we give an explicit characterization of those extremal elements in terms of the radius and the center of the ball. This allows us to introduce some notions of approximate majorization and discuss its relation with previous results of approximate majorization given in terms of the $\ell^1$-norm. Finally, we apply our results to the problem of approximate conversion of resources within the framework of quantum resource theory of nonuniformity.
翻訳日:2023-06-06 04:48:34 公開日:2020-01-23
# 量子条件的相互情報とその仲間の低半連続性について

On lower semicontinuity of the quantum conditional mutual information and its corollaries ( http://arxiv.org/abs/2001.08691v1 )

ライセンス: Link先を確認
M.E. Shirokov(参考訳) 量子相互情報とその条件付きバージョンが局所チャネルでは増加しないことはよく知られている。 本稿では,最近確立された量子条件付き相互情報の半連続性が,合成系の全状態と(強収束を伴う)すべての局所チャネルの集合のデカルト積上の関数と見なされる局所チャネル下での量子(条件付き)相互情報の損失の低半連続性を意味することを示す。 この性質のいくつかの応用が考えられる。 量子的相互情報に対する新しい連続性条件と、二部および多部いずれの無限次元系におけるスクワッドエンタングルメントを得る。 特に、有限辺エントロピーを持つ可算非可逆分離可能な状態の多成分の絡み合いはゼロに等しいことが証明されている。 量子側情報および非量子側情報を用いた量子測定の情報ゲインの特殊連続性特性は、測定値と測定状態の摂動によってこれらの量の堅牢性(安定性)として扱うことができる。

It is well known that the quantum mutual information and its conditional version do not increase under local channels. I this paper we show that the recently established lower semicontinuity of the quantum conditional mutual information implies (in fact, is equivalent to) the lower semicontinuity of the loss of the quantum (conditional) mutual information under local channels considered as a function on the Cartesian product of the set of all states of a composite system and the sets of all local channels (equipped with the strong convergence). Some applications of this property are considered. New continuity conditions for the quantum mutual information and for the squashed entanglement in both bipartite and multipartite infinite-dimensional systems are obtained. It is proved, in particular, that the multipartite squashed entanglement of any countably-non-decomposable separable state with finite marginal entropies is equal to zero. Special continuity properties of the information gain of a quantum measurement with and without quantum side information are established that can be treated as robustness (stability) of these quantities w.r.t. perturbation of the measurement and the measured state.
翻訳日:2023-06-06 04:47:28 公開日:2020-01-23
# SU$(3)_1$正方形格子上のキラルスピン液体:シンメトリPEPSからの展望

SU$(3)_1$ Chiral Spin Liquid on the Square Lattice: a View from Symmetric PEPS ( http://arxiv.org/abs/1912.13393v2 )

ライセンス: Link先を確認
Ji-Yao Chen, Sylvain Capponi, Alexander Wietek, Matthieu Mambrini, Norbert Schuch, Didier Poilblanc(参考訳) 量子スピン液体は、プロジェクテッド・エンタングルド・ペア状態(PEPS)の枠組みの中で忠実に表現され、効率的に特徴付けられる。 広い精度の対角化と密度行列再正規化群計算によって導かれ、正方格子上のSU$(3)_1$キラルスピン液体に対して最適化された対称PEPSを構築する。 特性は無限長円筒上の絡み合いスペクトル(ES)によって明らかにされる。 すべての$\mathbb{Z}_3$セクターにおいて、線形分散モードのレベルカウントは SU$(3)_1$ Wess-Zumino-Witten 共形場理論の予測と完全に一致する。 ESの特殊特徴はバルク正準相関と一致していることが示され、ホログラフィックバルクエッジ対応の微細構造を示している。 位相 SU$(N)_k$ キラルPEPS の普遍性について論じる。

Quantum spin liquids can be faithfully represented and efficiently characterized within the framework of Projected Entangled Pair States (PEPS). Guided by extensive exact diagonalization and density matrix renormalization group calculations, we construct an optimized symmetric PEPS for a SU$(3)_1$ chiral spin liquid on the square lattice. Characteristic features are revealed by the entanglement spectrum (ES) on an infinitely long cylinder. In all three $\mathbb{Z}_3$ sectors, the level counting of the linear dispersing modes is in full agreement with SU$(3)_1$ Wess-Zumino-Witten conformal field theory prediction. Special features in the ES are shown to be in correspondence with bulk anyonic correlations, indicating a fine structure in the holographic bulk-edge correspondence. Possible universal properties of topological SU$(N)_k$ chiral PEPS are discussed.
翻訳日:2023-01-16 21:27:40 公開日:2020-01-23
# ディープラーニングに基づくビッグデータにおける情報隠蔽

Hiding Information in Big Data based on Deep Learning ( http://arxiv.org/abs/1912.13156v2 )

ライセンス: Link先を確認
Dingju Zhu(参考訳) ディープラーニングモデルに基づく情報隠蔽の現在のアプローチでは,元のデータをキャリアとして直接使用することはできない。 本研究では,ディープラーニングに基づくビッグデータにおける新たな情報隠蔽手法を提案する。 提案手法では,既存のデータをキャリアとして使用し,ディープラーニングモデルを用いてビッグデータ内の秘密メッセージを隠蔽し抽出する。 ビッグデータのデータ量は無制限であるため、ビッグデータに隠された秘密メッセージのデータ量も無制限である。 相手がキャリアから秘密のメッセージを抽出する前には、キャリアを見つける必要があるが、ビッグデータからキャリアを見つけることは、海から箱を見つけるのと同じだ。 深層学習モデルは、入力から出力までのプロセスが非常に複雑である深層ブラックボックスとしてよく知られており、情報隠蔽のための深層学習モデルは、相手が再構成するほぼ不可能である。 また,本手法はシークレットメッセージを安全に,便利に,迅速に,かつデータ量に制限なく隠蔽できることを示した。

The current approach of information hiding based on deep learning model can not directly use the original data as carriers, which means the approach can not make use of the existing data in big data to hiding information. We proposed a novel method of information hiding in big data based on deep learning. Our method uses the existing data in big data as carriers and uses deep learning models to hide and extract secret messages in big data. The data amount of big data is unlimited and thus the data amount of secret messages hided in big data can also be unlimited. Before opponents want to extract secret messages from carriers, they need to find the carriers, however finding out the carriers from big data is just like finding out a box from the sea. Deep learning models are well known as deep black boxes in which the process from the input to the output is very complex, and thus the deep learning model for information hiding is almost impossible for opponents to reconstruct. The results also show that our method can hide secret messages safely, conveniently, quickly and with no limitation on the data amount.
翻訳日:2023-01-16 21:26:41 公開日:2020-01-23
# HandAugment: 深度に基づく3Dハンドポース推定のための簡易データ拡張手法

HandAugment: A Simple Data Augmentation Method for Depth-Based 3D Hand Pose Estimation ( http://arxiv.org/abs/2001.00702v2 )

ライセンス: Link先を確認
Zhaohui Zhang and Shipeng Xie and Mingxiu Chen and Haichao Zhu(参考訳) 3次元深度画像からの手ポーズ推定は,コンピュータビジョンの分野で様々な手法を用いて広く研究されている。 しかし,画像ネットや効率的なデータ合成手法のような大規模なデータセットが不足しているため,この問題はまだ解決されていない。 本稿では,画像データを合成してニューラルネットワークの学習過程を増強する方法であるhandaugmentを提案する。 まず,2段階のニューラルネットワークの手法を提案する。 このスキームは、ニューラルネットワークをハンドリージョンに集中させ、パフォーマンスを向上させることができる。 第2に,画像空間に実画像と合成画像を組み合わせることで,簡便かつ効果的なデータ合成手法を提案する。 最後に,HANDS 2019における深度に基づく3次元手ポーズ推定の課題において,本手法が第一位となることを示す。

Hand pose estimation from 3D depth images, has been explored widely using various kinds of techniques in the field of computer vision. Though, deep learning based method improve the performance greatly recently, however, this problem still remains unsolved due to lack of large datasets, like ImageNet or effective data synthesis methods. In this paper, we propose HandAugment, a method to synthesize image data to augment the training process of the neural networks. Our method has two main parts: First, We propose a scheme of two-stage neural networks. This scheme can make the neural networks focus on the hand regions and thus to improve the performance. Second, we introduce a simple and effective method to synthesize data by combining real and synthetic image together in the image space. Finally, we show that our method achieves the first place in the task of depth-based 3D hand pose estimation in HANDS 2019 challenge.
翻訳日:2023-01-14 17:45:31 公開日:2020-01-23
# listwiseがユニークな評価を探求してランク付けを学習

Listwise Learning to Rank by Exploring Unique Ratings ( http://arxiv.org/abs/2001.01828v3 )

ライセンス: Link先を確認
Xiaofeng Zhu, Diego Klabjan(参考訳) 本稿では,既存モデルの欠点を緩和する新しいリストワイズ学習-ランクモデルを提案する。 既存のリストワイズ学習-ランクモデルは通常、3つの大きな制限を持つ古典的なプラケット・ルーシモデルに由来する。 1)複数の文書が問合せに関して同一のレーティングを有する状況において、その順列確率が関連性を見落としていること。 これは、文書を1つずつ選択するため、不正確な置換確率と非効率なトレーニングにつながる可能性がある。 2) 関連性の高い文書を好まない。 (3)異なるステップで文書をサンプリングすることは独立であるという緩やかな仮定がある。 最初の2つの制限を克服するために,一意な評価レベルに基づく候補集合から文書を選択する場合のランク付けを順にモデル化する。 トレーニングのステップの数は、ユニークな評価レベルの数によって決定される。 評価の高い文書に重み付けを割り当て、正規化ディスカウント累積ゲイン(ndcg)を最適化することにより、重み付け分類タスク全体の新しい損失関数と関連する4つのモデルを提案する。 最終的な限界を克服するために,適応されたVanilla Recurrent Neural Network(RNN)モデルと,選択した文書を事前ステップでプールすることで,予測スコアを改良する新しい効率的な方法を提案する。 RNNモデルによって選択されたすべての文書を符号化する。 一つのステップで、RNNの最終セルを複数回使用して、すべての文書を同じ評価でランク付けする。 我々は、ニューラルネットワーク、勾配ブースト付きニューラルネットワーク、勾配ブースト付き回帰木という3つの設定でモデルを実装した。 4つの公開データセットについて実験を行った。 実験は、このモデルが最先端の学習とランク付けのモデルを上回ることを実証する。

In this paper, we propose new listwise learning-to-rank models that mitigate the shortcomings of existing ones. Existing listwise learning-to-rank models are generally derived from the classical Plackett-Luce model, which has three major limitations. (1) Its permutation probabilities overlook ties, i.e., a situation when more than one document has the same rating with respect to a query. This can lead to imprecise permutation probabilities and inefficient training because of selecting documents one by one. (2) It does not favor documents having high relevance. (3) It has a loose assumption that sampling documents at different steps is independent. To overcome the first two limitations, we model ranking as selecting documents from a candidate set based on unique rating levels in decreasing order. The number of steps in training is determined by the number of unique rating levels. We propose a new loss function and associated four models for the entire sequence of weighted classification tasks by assigning high weights to the selected documents with high ratings for optimizing Normalized Discounted Cumulative Gain (NDCG). To overcome the final limitation, we further propose a novel and efficient way of refining prediction scores by combining an adapted Vanilla Recurrent Neural Network (RNN) model with pooling given selected documents at previous steps. We encode all of the documents already selected by an RNN model. In a single step, we rank all of the documents with the same ratings using the last cell of the RNN multiple times. We have implemented our models using three settings: neural networks, neural networks with gradient boosting, and regression trees with gradient boosting. We have conducted experiments on four public datasets. The experiments demonstrate that the models notably outperform state-of-the-art learning-to-rank models.
翻訳日:2023-01-13 20:25:31 公開日:2020-01-23
# 等方性反復量子化による埋め込み圧縮

Embedding Compression with Isotropic Iterative Quantization ( http://arxiv.org/abs/2001.05314v2 )

ライセンス: Link先を確認
Siyu Liao, Jie Chen, Yanzhi Wang, Qinru Qiu, Bo Yuan(参考訳) 単語の連続表現は、ディープラーニングベースのNLPモデルの標準コンポーネントである。 しかし、大きな語彙を表現するには大きなメモリを必要とするため、特にリソース制約のあるプラットフォームでは問題が発生する可能性がある。 そこで,本稿では,pmiベースモデルの所望の等方性に満足しつつ,画像検索によく確立された反復量子化手法を活用し,組込みベクトルをバイナリに圧縮する等方性反復量子化(iiq)手法を提案する。 事前訓練された埋め込みの実験(GloVeとHDC)は、30倍以上の圧縮比を示し、時には元の実数値埋め込みベクトルよりも性能も向上する。

Continuous representation of words is a standard component in deep learning-based NLP models. However, representing a large vocabulary requires significant memory, which can cause problems, particularly on resource-constrained platforms. Therefore, in this paper we propose an isotropic iterative quantization (IIQ) approach for compressing embedding vectors into binary ones, leveraging the iterative quantization technique well established for image retrieval, while satisfying the desired isotropic property of PMI based models. Experiments with pre-trained embeddings (i.e., GloVe and HDC) demonstrate a more than thirty-fold compression ratio with comparable and sometimes even improved performance over the original real-valued embedding vectors.
翻訳日:2023-01-12 09:27:07 公開日:2020-01-23
# グラフに基づく関係時系列からの個人レベルの因果モデルの推定

Inferring Individual Level Causal Models from Graph-based Relational Time Series ( http://arxiv.org/abs/2001.05993v3 )

ライセンス: Link先を確認
Ryan Rossi, Somdeb Sarkhel, Nesreen Ahmed(参考訳) 本研究では,グラフ上の各ノードに1つ以上の時系列が関連付けられているような関係時系列データに対する因果推論の問題を定式化する。 本稿では,ノードの局所因果効果を正確に推定するために,グラフトポロジーと時系列の両方を利用する因果推論モデルを提案する。 さらに、関係時系列因果推論モデルでは、局所ノード中心の時間依存とトポロジカル/構造依存を利用して、個々のノードに対する局所的影響を推定することができる。 グラフトポロジーを考慮しない単純な因果モデルが,提案する関係時系列因果推論モデルの特別な場合として回収されることを示す。 本研究では, 因果効果を推定するために, 推定結果が利用できる条件を説明し, 提案する推定値とデータとの整合性をテストするために, 仕様の durbin-wu-hausman テストがどのように用いられるかを述べる。 実験により,ウィキペディアから収集した大規模観測時系列データと既知地下構造を持つ合成データに対する因果推論モデルの有効性を実証した。

In this work, we formalize the problem of causal inference over graph-based relational time-series data where each node in the graph has one or more time-series associated to it. We propose causal inference models for this problem that leverage both the graph topology and time-series to accurately estimate local causal effects of nodes. Furthermore, the relational time-series causal inference models are able to estimate local effects for individual nodes by exploiting local node-centric temporal dependencies and topological/structural dependencies. We show that simpler causal models that do not consider the graph topology are recovered as special cases of the proposed relational time-series causal inference model. We describe the conditions under which the resulting estimate can be used to estimate a causal effect, and describe how the Durbin-Wu-Hausman test of specification can be used to test for the consistency of the proposed estimator from data. Empirically, we demonstrate the effectiveness of the causal inference models on both synthetic data with known ground-truth and a large-scale observational relational time-series data set collected from Wikipedia.
翻訳日:2023-01-10 23:53:04 公開日:2020-01-23
# dnnによるアクティブラーニング:自己シミュレーションデータセットに基づく流体力学の自動設計最適化

Active Learning over DNN: Automated Engineering Design Optimization for Fluid Dynamics Based on Self-Simulated Dataset ( http://arxiv.org/abs/2001.08075v2 )

ライセンス: Link先を確認
Yang Chen(参考訳) 流体力学性能の最適化は重要なエンジニアリング課題である。 伝統的に、専門家は経験的推定に基づいて形状を設計し、高価な実験を通じて検証する。 このコストのかかるプロセスは、時間と空間の両方において、限られた数の形状のみを探索し、準最適設計につながる可能性がある。 本研究では,様々な制約下での性能を予測し,学習した予測関数を最適化し,より優れた形状を求めるために,テスト可能なディープラーニングアーキテクチャを適用した。 最大の課題は、Deep Neural Network(DNN)の要求する膨大なデータポイントである。 この欠点を補うために、Frequentistのアクティブラーニングは、DNNが期待する出力空間の領域を探索するために使用される。 この操作は、8000から625まで要求されるデータサンプルの数を減らす。 最終段階であるユーザインタフェースにより、最小限の領域と粘度の入力でモデルを最適化できるようになった。 洪水充填は、最適形状が最小領域をバイパスしないように境界領域関数を定義するために用いられる。 SGLD(Stochastic Gradient Langevin Dynamics)は、必要な領域を回避しつつ、最終的な形状が最適化されることを確認するために用いられる。 共同で、非常に低いドラッグの形状は、人間のドメイン知識や少ない計算オーバーヘッドのない実用的なユーザインターフェースによって探求される。

Optimizing fluid-dynamic performance is an important engineering task. Traditionally, experts design shapes based on empirical estimations and verify them through expensive experiments. This costly process, both in terms of time and space, may only explore a limited number of shapes and lead to sub-optimal designs. In this research, a test-proven deep learning architecture is applied to predict the performance under various restrictions and search for better shapes by optimizing the learned prediction function. The major challenge is the vast amount of data points Deep Neural Network (DNN) demands, which is improvident to simulate. To remedy this drawback, a Frequentist active learning is used to explore regions of the output space that DNN predicts promising. This operation reduces the number of data samples demanded from ~8000 to 625. The final stage, a user interface, made the model capable of optimizing with given user input of minimum area and viscosity. Flood fill is used to define a boundary area function so that the optimal shape does not bypass the minimum area. Stochastic Gradient Langevin Dynamics (SGLD) is employed to make sure the ultimate shape is optimized while circumventing the required area. Jointly, shapes with extremely low drags are found explored by a practical user interface with no human domain knowledge and modest computation overhead.
翻訳日:2023-01-10 05:13:53 公開日:2020-01-23
# ImageBERT:大規模弱教師付き画像テキストデータを用いたクロスモーダル事前学習

ImageBERT: Cross-modal Pre-training with Large-scale Weak-supervised Image-Text Data ( http://arxiv.org/abs/2001.07966v2 )

ライセンス: Link先を確認
Di Qi, Lin Su, Jia Song, Edward Cui, Taroon Bharti, Arun Sacheti(参考訳) 本稿では,画像テキスト共同埋め込みのための視覚言語事前学習モデルであるImageBERTを提案する。 我々のモデルはTransformerベースのモデルであり、入力として異なるモダリティを取り、それらの関係をモデル化する。 このモデルは、マスク言語モデリング(mlm)、マスクオブジェクト分類(moc)、マスク領域特徴回帰(mrfr)、画像テキストマッチング(itm)の4つのタスクで事前トレーニングされている。 トレーニング前の品質をさらに向上するため,Web から大規模 weAk-supervised Image-Text (LAIT) データセットを収集した。 まず、このデータセットでモデルを事前学習し、次に概念的キャプションとsbuキャプションの2段階前トレーニングを行う。 実験により,多段階前トレーニング戦略が単段前トレーニングよりも優れていることが示された。 また、画像検索およびテキスト検索タスクにおける事前学習されたImageBERTモデルの評価を行い、MSCOCOとFlickr30kのデータセットで新しい最先端結果を得る。

In this paper, we introduce a new vision-language pre-trained model -- ImageBERT -- for image-text joint embedding. Our model is a Transformer-based model, which takes different modalities as input and models the relationship between them. The model is pre-trained on four tasks simultaneously: Masked Language Modeling (MLM), Masked Object Classification (MOC), Masked Region Feature Regression (MRFR), and Image Text Matching (ITM). To further enhance the pre-training quality, we have collected a Large-scale weAk-supervised Image-Text (LAIT) dataset from Web. We first pre-train the model on this dataset, then conduct a second stage pre-training on Conceptual Captions and SBU Captions. Our experiments show that multi-stage pre-training strategy outperforms single-stage pre-training. We also fine-tune and evaluate our pre-trained ImageBERT model on image retrieval and text retrieval tasks, and achieve new state-of-the-art results on both MSCOCO and Flickr30k datasets.
翻訳日:2023-01-07 18:39:25 公開日:2020-01-23
# ニューラルマシン翻訳のための多言語Denoisingプレトレーニング

Multilingual Denoising Pre-training for Neural Machine Translation ( http://arxiv.org/abs/2001.08210v2 )

ライセンス: Link先を確認
Yinhan Liu, Jiatao Gu, Naman Goyal, Xian Li, Sergey Edunov, Marjan Ghazvininejad, Mike Lewis, Luke Zettlemoyer(参考訳) 本稿では,多言語発声前学習が多言語機械翻訳(mt)タスクにおいて有意な性能向上をもたらすことを示す。 我々は,BART の目的を用いて,大規模単言語コーパスで事前学習したシーケンスからシーケンスまでの自動エンコーダ mBART を提案する。 mBARTは、複数の言語で全文を復号化することで、完全なシーケンス・ツー・シーケンスモデルを事前訓練する最初の方法の1つであり、以前のアプローチでは、エンコーダ、デコーダ、あるいはテキストの一部の再構築にのみ焦点をあてていた。 完全なモデルを事前トレーニングすることで、タスク固有の変更なしに、教師付き(文レベルと文書レベルの両方)と教師なし機械翻訳を直接調整できる。 我々は、mBARTの初期化を追加することで、低リソースMTで最大12のBLEUポイント、多くの文書レベルおよび教師なしモデルで最大5のBLEUポイントを含む、最高のリソース設定以外のすべてのパフォーマンス向上が得られることを示した。 また、バイテキストや事前学習コーパスにない言語ペアへの新しいタイプの転送を可能にし、どの要素が効果的な事前学習に最も寄与するかを広範囲に分析した。

This paper demonstrates that multilingual denoising pre-training produces significant performance gains across a wide variety of machine translation (MT) tasks. We present mBART -- a sequence-to-sequence denoising auto-encoder pre-trained on large-scale monolingual corpora in many languages using the BART objective. mBART is one of the first methods for pre-training a complete sequence-to-sequence model by denoising full texts in multiple languages, while previous approaches have focused only on the encoder, decoder, or reconstructing parts of the text. Pre-training a complete model allows it to be directly fine tuned for supervised (both sentence-level and document-level) and unsupervised machine translation, with no task-specific modifications. We demonstrate that adding mBART initialization produces performance gains in all but the highest-resource settings, including up to 12 BLEU points for low resource MT and over 5 BLEU points for many document-level and unsupervised models. We also show it also enables new types of transfer to language pairs with no bi-text or that were not in the pre-training corpus, and present extensive analysis of which factors contribute the most to effective pre-training.
翻訳日:2023-01-07 18:29:58 公開日:2020-01-23
# 無バイアス・プライバシ保護型フェデレーション学習のための階層的クロスバリデーション

Stratified cross-validation for unbiased and privacy-preserving federated learning ( http://arxiv.org/abs/2001.08090v2 )

ライセンス: Link先を確認
R. Bey, R. Goussault, M. Benchoufi, R. Porcher(参考訳) 電子記録の大規模コレクションは、より正確な予測モデルを開発する機会とプライバシに対する脅威の両方を構成する。 プライバシの露出を制限するために、フェデレーション・ラーニング(federated learning)のような新しいプライバシー向上技術が登場し、大規模なデータ分析を可能にしながら、重要な障害点を表すユニークなデータベースにおけるレコードの集中化を回避する。 プライバシー保護に関して有望だが、フェデレーション学習はいくつかのデータクリーニングアルゴリズムを使用することを防ぎ、新しいバイアスを引き起こす。 本研究は, 重複レコードの繰り返し問題に着目し, 適切に扱わない場合, モデルの性能を過度に最適化的に推定する。 本研究では,階層化手法を活用した検証手法であるstratified cross-validation(階層化クロスバリデーション)を紹介し,検討する。

Large-scale collections of electronic records constitute both an opportunity for the development of more accurate prediction models and a threat for privacy. To limit privacy exposure new privacy-enhancing techniques are emerging such as federated learning which enables large-scale data analysis while avoiding the centralization of records in a unique database that would represent a critical point of failure. Although promising regarding privacy protection, federated learning prevents using some data-cleaning algorithms thus inducing new biases. In this work we focus on the recurrent problem of duplicated records that, if not handled properly, may cause over-optimistic estimations of a model's performances. We introduce and discuss stratified cross-validation, a validation methodology that leverages stratification techniques to prevent data leakage in federated learning settings without relying on demanding deduplication algorithms.
翻訳日:2023-01-07 18:23:18 公開日:2020-01-23
# DeepEnroll:Deep Embedding と Entailment Prediction を用いた患者行動マッチング

DeepEnroll: Patient-Trial Matching with Deep Embedding and Entailment Prediction ( http://arxiv.org/abs/2001.08179v2 )

ライセンス: Link先を確認
Xingyao Zhang, Cao Xiao, Lucas M. Glass, Jimeng Sun(参考訳) 臨床試験は薬物開発に不可欠であるが、しばしば高価で不正確で不十分な患者の採用に苦しむ。 電子健康記録(EHR)に患者情報を格納し,電子健康記録(EC)に記録した患者情報を,ウェブ上で利用可能な文書に記載する。 縦型患者の表現の仕方は? ECから複雑な論理規則を抽出する方法 既存の作業の多くは手動のルールベースの抽出に依存しており、複雑な推論には時間がかかる。 これらの課題に対処するため,我々は,単語の入力基準(テキスト)と患者記録(タブラルデータ)を一致して一致した潜在空間にエンコードするクロスモーダル推論学習モデルであるDeepEnrollを提案した。 DeepEnrollは、トレーニング済みの双方向エンコーダ表現を変換器(BERT)モデルに適用し、臨床試験情報を文埋め込みにエンコードする。 階層的な埋め込みモデルを使って 患者の縦長eerを表します さらに、DeepEnrollは数値情報埋め込みとエンタテインメントモジュールによって拡張され、ECとEHRの両方の数値情報を推論する。 これらのエンコーダは、患者と臨床のマッチングスコアを最適化するために共同で訓練される。 実世界のデータセットを用いて,DeepEnrollを試行錯誤作業で評価した。 deepenrollは、平均f1で最高12.4%のベースラインを上回った。

Clinical trials are essential for drug development but often suffer from expensive, inaccurate and insufficient patient recruitment. The core problem of patient-trial matching is to find qualified patients for a trial, where patient information is stored in electronic health records (EHR) while trial eligibility criteria (EC) are described in text documents available on the web. How to represent longitudinal patient EHR? How to extract complex logical rules from EC? Most existing works rely on manual rule-based extraction, which is time consuming and inflexible for complex inference. To address these challenges, we proposed DeepEnroll, a cross-modal inference learning model to jointly encode enrollment criteria (text) and patients records (tabular data) into a shared latent space for matching inference. DeepEnroll applies a pre-trained Bidirectional Encoder Representations from Transformers(BERT) model to encode clinical trial information into sentence embedding. And uses a hierarchical embedding model to represent patient longitudinal EHR. In addition, DeepEnroll is augmented by a numerical information embedding and entailment module to reason over numerical information in both EC and EHR. These encoders are trained jointly to optimize patient-trial matching score. We evaluated DeepEnroll on the trial-patient matching task with demonstrated on real world datasets. DeepEnroll outperformed the best baseline by up to 12.4% in average F1.
翻訳日:2023-01-07 18:05:45 公開日:2020-01-23
# 強化学習のための顔フィードバック:TAMERフレームワークを用いた事例研究とオフライン分析

Facial Feedback for Reinforcement Learning: A Case Study and Offline Analysis Using the TAMER Framework ( http://arxiv.org/abs/2001.08703v1 )

ライセンス: Link先を確認
Guangliang Li, Hamdi Dibeklio\u{g}lu, Shimon Whiteson and Hayley Hung(参考訳) 対話型強化学習は、エージェントが人間のユーザによる評価フィードバックからタスクを解く方法を提供する。 以前の研究では、人間は訓練の早い段階では協調的なフィードバックを与えるが、その後はごくわずかであった。 本稿では,訓練者の表情を評価フィードバックとして解釈することで,エージェント学習の可能性を検討する。 そこで我々は,強化学習ベンチマーク問題-infinite marioにおいて,対話型強化学習手法であるtamerを実装し,591名を対象にしたtamerの大規模研究を行った。 設計したCNN-RNNモデルを用いて,顔表情とコンペティションをトレーナーに指示することで,表情を用いた肯定的,否定的なフィードバックを推定できることを示す。 また,シミュレーション実験の結果,表情に基づく予測フィードバックのみからの学習が可能であり,強い/効果的な予測モデルや回帰法を用いることで,エージェントの性能が著しく向上することが示された。 さらに,トレーニングインタフェースにおける双方向フィードバックと競合要素の重要性を実証する先行研究を支援した。

Interactive reinforcement learning provides a way for agents to learn to solve tasks from evaluative feedback provided by a human user. Previous research showed that humans give copious feedback early in training but very sparsely thereafter. In this article, we investigate the potential of agent learning from trainers' facial expressions via interpreting them as evaluative feedback. To do so, we implemented TAMER which is a popular interactive reinforcement learning method in a reinforcement-learning benchmark problem --- Infinite Mario, and conducted the first large-scale study of TAMER involving 561 participants. With designed CNN-RNN model, our analysis shows that telling trainers to use facial expressions and competition can improve the accuracies for estimating positive and negative feedback using facial expressions. In addition, our results with a simulation experiment show that learning solely from predicted feedback based on facial expressions is possible and using strong/effective prediction models or a regression method, facial responses would significantly improve the performance of agents. Furthermore, our experiment supports previous studies demonstrating the importance of bi-directional feedback and competitive elements in the training interface.
翻訳日:2023-01-07 13:32:22 公開日:2020-01-23
# 時間畳み込みネットワークを用いたリリーディング

Lipreading using Temporal Convolutional Networks ( http://arxiv.org/abs/2001.08702v1 )

ライセンス: Link先を確認
Brais Martinez, Pingchuan Ma, Stavros Petridis, Maja Pantic(参考訳) 最近、深層学習の進歩により、リップリーディングが多くの研究の注目を集めている。 現在最先端の単語認識モデルは、残差ネットワークと双方向Gated Recurrent Unit(BGRU)層から構成されている。 本稿では,本モデルの限界に対処し,その性能をさらに向上させる変更を提案する。 まず、BGRU層は一時畳み込みネットワーク(TCN)に置き換えられる。 第二に、トレーニング手順を大幅に単純化し、1つの段階でモデルをトレーニングできるようにします。 第3に、現在最先端の手法は、シーケンス長の変動によく適応しないモデルを生成することを示し、可変長拡張を提案してこの問題に対処する。 本稿では,英語における孤立語認識のための最大公用データセットと,マンダリン,LRW,LRW1000について述べる。 提案モデルでは,これらのデータセットでそれぞれ1.2%と3.2%の絶対的な改善が達成された。

Lip-reading has attracted a lot of research attention lately thanks to advances in deep learning. The current state-of-the-art model for recognition of isolated words in-the-wild consists of a residual network and Bidirectional Gated Recurrent Unit (BGRU) layers. In this work, we address the limitations of this model and we propose changes which further improve its performance. Firstly, the BGRU layers are replaced with Temporal Convolutional Networks (TCN). Secondly, we greatly simplify the training procedure, which allows us to train the model in one single stage. Thirdly, we show that the current state-of-the-art methodology produces models that do not generalize well to variations on the sequence length, and we addresses this issue by proposing a variable-length augmentation. We present results on the largest publicly-available datasets for isolated word recognition in English and Mandarin, LRW and LRW1000, respectively. Our proposed model results in an absolute improvement of 1.2% and 3.2%, respectively, in these datasets which is the new state-of-the-art performance.
翻訳日:2023-01-07 13:30:57 公開日:2020-01-23
# 複数のアクセスチャネル上でのコミュニケーション効率のよい連合学習

Communication Efficient Federated Learning over Multiple Access Channels ( http://arxiv.org/abs/2001.08737v1 )

ライセンス: Link先を確認
Wei-Ting Chang, Ravi Tandon(参考訳) 本研究では,分散ユーザがパラメータサーバ(PS)の助けを借りて機械学習モデルを共同で訓練することを目的とした,統合学習(FL)の問題について検討する。 FLの各イテレーションでは、ユーザーは局所勾配を計算し、その後PSにおけるその後の集約とモデル更新のために量子化勾配を伝送する。 FLの課題の1つは、FLの反復的な性質と大きなモデルサイズによる通信オーバーヘッドである。 FLにおける通信ボトルネックを軽減するための最近の方向の1つは、複数のアクセスチャネル(MAC)上で同時に通信できるようにすることである。 本稿では,MAC上でのFL学習の問題について考察する。 特に,各ユーザの勾配をまず量子化し,次いでMAC上に送信してPSで個別に復号化するMAC上のデジタル勾配送信方式の設計に着目する。 MAC上でデジタルFLスキームを設計する場合、異なるユーザに対して異なるリソース(レートや帯域幅など)を割り当てる新たな機会がある。 a)各ユーザの勾配に関する情報性,及び b) 基礎となるチャネル条件。 本稿では,MACの容量領域に基づいて量子化パラメータを最適化する確率勾配量子化手法を提案する。 このようなチャネル認識量子化は、特にユーザが異なるチャネル条件を経験する場合や、情報レベルが変化する勾配を持つ場合において、一様量子化よりも優れる。

In this work, we study the problem of federated learning (FL), where distributed users aim to jointly train a machine learning model with the help of a parameter server (PS). In each iteration of FL, users compute local gradients, followed by transmission of the quantized gradients for subsequent aggregation and model updates at PS. One of the challenges of FL is that of communication overhead due to FL's iterative nature and large model sizes. One recent direction to alleviate communication bottleneck in FL is to let users communicate simultaneously over a multiple access channel (MAC), possibly making better use of the communication resources. In this paper, we consider the problem of FL learning over a MAC. In particular, we focus on the design of digital gradient transmission schemes over a MAC, where gradients at each user are first quantized, and then transmitted over a MAC to be decoded individually at the PS. When designing digital FL schemes over MACs, there are new opportunities to assign different amount of resources (such as rate or bandwidth) to different users based on a) the informativeness of the gradients at each user, and b) the underlying channel conditions. We propose a stochastic gradient quantization scheme, where the quantization parameters are optimized based on the capacity region of the MAC. We show that such channel aware quantization for FL outperforms uniform quantization, particularly when users experience different channel conditions, and when have gradients with varying levels of informativeness.
翻訳日:2023-01-07 13:29:50 公開日:2020-01-23
# マルチモーダル歩行認識のための散乱特性

Scattering Features for Multimodal Gait Recognition ( http://arxiv.org/abs/2001.08830v1 )

ライセンス: Link先を確認
Sr{\dj}an Kiti\'c, Gilles Puy, Patrick P\'erez, Philippe Gilberton(参考訳) 歩行パターン(歩行パターン)に基づいて人物を識別する問題を考える。 この問題を解決する古典的なアプローチは、例えば、床に埋め込まれたビデオ記録や圧電センサに基づいている。 本研究では,マイクロホンとジオフォンセンサから得られた音響および振動の測定に頼っている。 この作品の貢献は2つある。 まず,歩行信号用に特別に調整された(訓練されていない)浅層散乱ネットワークに基づく特徴抽出法を提案する。 第2に,この2つのモダリティを融合することで,実際のオープンセットシナリオにおける識別性が向上することを示す。

We consider the problem of identifying people on the basis of their walk (gait) pattern. Classical approaches to tackle this problem are based on, e.g., video recordings or piezoelectric sensors embedded in the floor. In this work, we rely on acoustic and vibration measurements, obtained from a microphone and a geophone sensor, respectively. The contribution of this work is twofold. First, we propose a feature extraction method based on an (untrained) shallow scattering network, specially tailored for the gait signals. Second, we demonstrate that fusing the two modalities improves identification in the practically relevant open set scenario.
翻訳日:2023-01-07 13:29:27 公開日:2020-01-23
# 指標都市:ジオタグデータを用いた都市選好の個人モデル

Indexical Cities: Articulating Personal Models of Urban Preference with Geotagged Data ( http://arxiv.org/abs/2001.10615v1 )

ライセンス: Link先を確認
Diana Alvarez-Marin and Karla Saldana Ochoa(参考訳) 都市や近所を好きになる可能性を評価するには、どうすればいいのか? これまで都市品質の概念は、与えられたパラメータのグリッドの下で評価される世界的な都市ランキングや、利用可能な情報量によって制約される経験的・社会学的アプローチに関係してきた。 この研究は、最先端の機械学習技術と、様々な都市文化からの何千ものジオタグ付き衛星画像と視点画像を用いて、都市空間における個人の好みを特徴付け、特定のオブザーバーにとって未知の好適な場所のスペクトルを予測する。 多くの都市認識研究とは異なり、我々の意図は、都市品質の客観的な尺度を提供する手段ではなく、都市または都市指数の個人的見解を記述することである。

How to assess the potential of liking a city or a neighborhood before ever having been there. The concept of urban quality has until now pertained to global city ranking, where cities are evaluated under a grid of given parameters, or either to empirical and sociological approaches, often constrained by the amount of available information. Using state of the art machine learning techniques and thousands of geotagged satellite and perspective images from diverse urban cultures, this research characterizes personal preference in urban spaces and predicts a spectrum of unknown likeable places for a specific observer. Unlike most urban perception studies, our intention is not by any means to provide an objective measure of urban quality, but rather to portray personal views of the city or Cities of Indexes.
翻訳日:2023-01-07 13:24:09 公開日:2020-01-23
# 時間領域話者ビームによるターゲット音声抽出の話者識別の改善

Improving speaker discrimination of target speech extraction with time-domain SpeakerBeam ( http://arxiv.org/abs/2001.08378v1 )

ライセンス: Link先を確認
Marc Delcroix, Tsubasa Ochiai, Katerina Zmolikova, Keisuke Kinoshita, Naohiro Tawara, Tomohiro Nakatani, Shoko Araki(参考訳) ターゲット話者に関する手がかりが与えられた混合音声から1つの目標音源を抽出する目標音声抽出が注目されている。 我々は最近,ターゲット話者の適応発話を利用して,その話者の声の特徴を抽出し,その話者の音声抽出にニューラルネットワークを誘導する話者ビームを提案する。 SpeakerBeamは、発話間でターゲット話者の音声を追跡可能とし、有望な音声抽出性能を実現するため、音声分離の実用的な代替手段を提供する。 しかし、目的とする話者と干渉する話者との区別が難しいため、同世代の混合話者のような類似した声質を持つ話者では、しばしば失敗する。 本稿では,スピーカビームの話者識別能力を向上させるための戦略を検討する。 まず,音声分離のための最先端性能を実現する時間領域音声分離ネットワーク(tasnet)において,提案手法と類似した話者ビームの時間領域実装を提案する。 さらに,(1)マイクロホンアレー録音が可能な場合の話者識別における空間的特徴の利用について検討し,(2)話者識別損失を補助的に加え,識別音声特性の学習を支援する。 提案手法は, 音声抽出性能, 特に同世代混合音声における音声抽出性能, 目標音声抽出におけるtasnetよりも優れることを示す。

Target speech extraction, which extracts a single target source in a mixture given clues about the target speaker, has attracted increasing attention. We have recently proposed SpeakerBeam, which exploits an adaptation utterance of the target speaker to extract his/her voice characteristics that are then used to guide a neural network towards extracting speech of that speaker. SpeakerBeam presents a practical alternative to speech separation as it enables tracking speech of a target speaker across utterances, and achieves promising speech extraction performance. However, it sometimes fails when speakers have similar voice characteristics, such as in same-gender mixtures, because it is difficult to discriminate the target speaker from the interfering speakers. In this paper, we investigate strategies for improving the speaker discrimination capability of SpeakerBeam. First, we propose a time-domain implementation of SpeakerBeam similar to that proposed for a time-domain audio separation network (TasNet), which has achieved state-of-the-art performance for speech separation. Besides, we investigate (1) the use of spatial features to better discriminate speakers when microphone array recordings are available, (2) adding an auxiliary speaker identification loss for helping to learn more discriminative voice characteristics. We show experimentally that these strategies greatly improve speech extraction performance, especially for same-gender mixtures, and outperform TasNet in terms of target speech extraction.
翻訳日:2023-01-07 13:23:55 公開日:2020-01-23
# 深層学習による網膜低コスト光コヒーレンス断層像のセグメンテーション

Segmentation of Retinal Low-Cost Optical Coherence Tomography Images using Deep Learning ( http://arxiv.org/abs/2001.08480v1 )

ライセンス: Link先を確認
Timo Kepp, Helge Sudkamp, Claus von der Burchard, Hendrik Schenke, Peter Koch, Gereon H\"uttmann, Johann Roider, Mattias P. Heinrich, and Heinz Handels(参考訳) 加齢黄斑変性 (amd) の治療には, 光コヒーレンストモグラフィ (oct) を用いた連続点眼検査が必要である。 治療の必要性は、疾患特異的OCTベースのバイオマーカーの存在または変化によって決定される。 したがって,amd療法の成功には監視頻度が大きな影響を与えている。 しかし、現在の治療計画の監視頻度は患者に個別に適応せず、しばしば不十分である。 高い監視頻度は治療の成功にプラスの影響を与えるが、実際にはホームモニタリングソリューションでのみ達成できる。 ホームモニタリングOCTシステムの重要な要件の1つは、特定のOCTベースのバイオマーカーを用いて病理学的変化を自動的に検出し定量化するコンピュータ支援診断である。 本稿では,新しい自己検査用低コストフルフィールドCT(SELF-OCT)の網膜スキャンを,深層学習に基づくアプローチを用いて初めて分割する。 畳み込みニューラルネットワーク(CNN)を用いて全網膜と色素上皮剥離(PED)を分割する。 CNNベースのアプローチでは網膜を高精度に分割できるが、PEDのセグメンテーションは困難であることが示されている。 さらに、畳み込み復号化オートエンコーダ(CDAE)は、以前に網膜形状情報を学んだCNN予測を洗練させる。 OCT画像中のアーティファクトによるセグメンテーション誤差を補正できることが示されている。

The treatment of age-related macular degeneration (AMD) requires continuous eye exams using optical coherence tomography (OCT). The need for treatment is determined by the presence or change of disease-specific OCT-based biomarkers. Therefore, the monitoring frequency has a significant influence on the success of AMD therapy. However, the monitoring frequency of current treatment schemes is not individually adapted to the patient and therefore often insufficient. While a higher monitoring frequency would have a positive effect on the success of treatment, in practice it can only be achieved with a home monitoring solution. One of the key requirements of a home monitoring OCT system is a computer-aided diagnosis to automatically detect and quantify pathological changes using specific OCT-based biomarkers. In this paper, for the first time, retinal scans of a novel self-examination low-cost full-field OCT (SELF-OCT) are segmented using a deep learning-based approach. A convolutional neural network (CNN) is utilized to segment the total retina as well as pigment epithelial detachments (PED). It is shown that the CNN-based approach can segment the retina with high accuracy, whereas the segmentation of the PED proves to be challenging. In addition, a convolutional denoising autoencoder (CDAE) refines the CNN prediction, which has previously learned retinal shape information. It is shown that the CDAE refinement can correct segmentation errors caused by artifacts in the OCT image.
翻訳日:2023-01-07 13:23:32 公開日:2020-01-23
# MPR画像における冠動脈狭窄スコア分類のためのCNN-CASS

CNN-CASS: CNN for Classification of Coronary Artery Stenosis Score in MPR Images ( http://arxiv.org/abs/2001.08593v1 )

ライセンス: Link先を確認
Mariia Dobko, Bohdan Petryshak, Oles Dobosevych(参考訳) 冠動脈疾患の診断に要する患者待ち時間を短縮するために、冠動脈CTまたはMPR画像を用いて重症度を同定する自動手法を適用し、各症例の優先順位について医師に第2のオピニオンを与える。 以前の研究の主な欠点は、信頼性を保証できる大量のデータがないことである。 もう1つの制限は、中心線抽出のような手作業による前処理を必要とする手作りの機能の使用である。 我々は、ShuffleNet V2ネットワークアーキテクチャに基づいた異なる自動アプローチを適用し、提案したMPRイメージのデータセット上でテストすることによって、両方の制限を克服する。 また,708例と105例のMPR画像全体を用いて,中心線抽出工程を省略し,モデルの訓練と試験を行った。 このモデルは3つのクラスのうちの1つを予測する: 正常の'no stenosis'、検出された'non-significant' - 1-50%、検出された'significant' - 50%以上の狭窄。 ネットワークが選択した最も重要な特徴を視覚化することで,モデルの解釈可能性を示す。 狭窄スコア分類では, 従来の検査結果と比較して, 80%の精度で精度が向上した。 私たちのコードは公開されています。

To decrease patient waiting time for diagnosis of the Coronary Artery Disease, automatic methods are applied to identify its severity using Coronary Computed Tomography Angiography scans or extracted Multiplanar Reconstruction (MPR) images, giving doctors a second-opinion on the priority of each case. The main disadvantage of previous studies is the lack of large set of data that could guarantee their reliability. Another limitation is the usage of handcrafted features requiring manual preprocessing, such as centerline extraction. We overcome both limitations by applying a different automated approach based on ShuffleNet V2 network architecture and testing it on the proposed collected dataset of MPR images, which is bigger than any other used in this field before. We also omit centerline extraction step and train and test our model using whole curved MPR images of 708 and 105 patients, respectively. The model predicts one of three classes: 'no stenosis' for normal, 'non-significant' - 1-50% of stenosis detected, 'significant' - more than 50% of stenosis. We demonstrate model's interpretability through visualization of the most important features selected by the network. For stenosis score classification, the method shows improved performance comparing to previous works, achieving 80% accuracy on the patient level. Our code is publicly available.
翻訳日:2023-01-07 13:23:08 公開日:2020-01-23
# テンソルに基づく格付け--ハンティントン病の変形場解析のための新しいパッチベース格付け法

Tensor-Based Grading: A Novel Patch-Based Grading Approach for the Analysis of Deformation Fields in Huntington's Disease ( http://arxiv.org/abs/2001.08651v1 )

ライセンス: Link先を確認
Kilian Hett, Hans Johnson, Pierrick Coup\'e (LaBRI), Jane Paulsen, Jeffrey Long, Ipek Oguz(参考訳) 磁気共鳴イメージングの改良により、神経変性疾患による構造変化をより正確に検出する多くの技術が開発された。 その中でも,解剖学的変化の局所的パターンをモデル化するパッチベースのグレーディングフレームワークが提案されている。 このアプローチは計算コストの低さと競争性能のために魅力的である。 他の研究では、非常に解釈可能なアプローチであるテンソルに基づく形態計測を用いて脳構造の変形を分析することが提案されている。 本研究では,この2つの手法の利点を,パッチベースの格付けフレームワークを,log-euclideanメトリックを用いて局所的変形のパターンをモデル化可能な新しいテンソルベースの格付け手法に拡張することで組み合わせることを提案する。 本研究は,ハンティントン病前患者と健康管理者の分類について,被検者について検討した。 本実験は,既存のパッチベースグレーディング法と比較して,分類精度 (87.5 $\pm$0.5 vs. 81.3 $\pm$0.6) が著しく上昇し, ハンティントン病研究の指標である胎盤容積の相補性も良好であった。

The improvements in magnetic resonance imaging have led to the development of numerous techniques to better detect structural alterations caused by neurodegenerative diseases. Among these, the patch-based grading framework has been proposed to model local patterns of anatomical changes. This approach is attractive because of its low computational cost and its competitive performance. Other studies have proposed to analyze the deformations of brain structures using tensor-based morphometry, which is a highly interpretable approach. In this work, we propose to combine the advantages of these two approaches by extending the patch-based grading framework with a new tensor-based grading method that enables us to model patterns of local deformation using a log-Euclidean metric. We evaluate our new method in a study of the putamen for the classification of patients with pre-manifest Huntington's disease and healthy controls. Our experiments show a substantial increase in classification accuracy (87.5 $\pm$ 0.5 vs. 81.3 $\pm$ 0.6) compared to the existing patch-based grading methods, and a good complement to putamen volume, which is a primary imaging-based marker for the study of Huntington's disease.
翻訳日:2023-01-07 13:22:47 公開日:2020-01-23
# 実存規則言語のモデル理論的特徴付け

Model-theoretic Characterizations of Existential Rule Languages ( http://arxiv.org/abs/2001.08688v1 )

ライセンス: Link先を確認
Heng Zhang, Yan Zhang, Guifei Jiang(参考訳) 既存のルール、すなわちデータベースへの依存、知識表現と推論におけるDatalog+/-は、コンピュータ科学や人工知能で広く使われている重要な論理言語群である。 モデル理論におけるこれらの言語を深く理解するために, モデル理論を用いて, 組込み依存, タプル生成依存性 (TGD) , フロントガード付きTGD, 線形TGDなど, 多数の実存規則言語に対するモデル理論的特徴付けを確立する。 これらの特徴づけはすべて任意の構造を持ち、そのほとんどは有限構造のクラスにも作用する。 これらのキャラクタリゼーションの自然な応用として、上記の言語の可逆性に対する複雑性境界も特定される。

Existential rules, a.k.a. dependencies in databases, and Datalog+/- in knowledge representation and reasoning recently, are a family of important logical languages widely used in computer science and artificial intelligence. Towards a deep understanding of these languages in model theory, we establish model-theoretic characterizations for a number of existential rule languages such as (disjunctive) embedded dependencies, tuple-generating dependencies (TGDs), (frontier-)guarded TGDs and linear TGDs. All these characterizations hold for arbitrary structures, and most of them also work on the class of finite structures. As a natural application of these characterizations, complexity bounds for the rewritability of above languages are also identified.
翻訳日:2023-01-07 13:22:26 公開日:2020-01-23
# 行動に基づく学習者モデリングへの深層学習アプローチ

A Deep Learning Approach to Behavior-Based Learner Modeling ( http://arxiv.org/abs/2001.08328v1 )

ライセンス: Link先を確認
Yuwei Tu, Weiyu Chen, Christopher G. Brinton(参考訳) eラーニングの人気が高まり、予測分析やコンテンツレコメンデーションといった手法によるオンライン教育の改善が求められている。 本稿では,学習者の学習結果の予測,すなわちコース終了時の動作の予測について検討する。 そこで本研究では,学習者の進路の進行方法と学習内容の進行方法という2つの重要な要素を組み込んだ,パフォーマンス予測のための2つの分枝決定ネットワークを提案する。 学習中に学習者が行うすべてのアクションをログするクリックストリーム機能と、事前学習されたグローブワード埋め込みによって生成されたテキスト特徴を組み合わせる。 提案するネットワークの性能を評価するために,企業トレーニング用に設計された短いオンラインコースからデータを収集し,ニューラルネットワークと非ニューラルネットワークに基づくアルゴリズムの両方を評価した。 提案アルゴリズムは95.7%の精度と0.958のAUCスコアを達成し、他の全てのモデルより優れている。 また、行動特徴とテキスト特徴の組み合わせは、行動特徴よりも予測的であり、ニューラルネットワークモデルは、ユーザの行動とコース内容の結合関係を捉えるのに強力であることを示す。

The increasing popularity of e-learning has created demand for improving online education through techniques such as predictive analytics and content recommendations. In this paper, we study learner outcome predictions, i.e., predictions of how they will perform at the end of a course. We propose a novel Two Branch Decision Network for performance prediction that incorporates two important factors: how learners progress through the course and how the content progresses through the course. We combine clickstream features which log every action the learner takes while learning, and textual features which are generated through pre-trained GloVe word embeddings. To assess the performance of our proposed network, we collect data from a short online course designed for corporate training and evaluate both neural network and non-neural network based algorithms on it. Our proposed algorithm achieves 95.7% accuracy and 0.958 AUC score, which outperforms all other models. The results also indicate the combination of behavior features and text features are more predictive than behavior features only and neural network models are powerful in capturing the joint relationship between user behavior and course content.
翻訳日:2023-01-07 13:21:31 公開日:2020-01-23
# 変形を意識した画像翻訳による実験動物の姿勢推定

Deformation-aware Unpaired Image Translation for Pose Estimation on Laboratory Animals ( http://arxiv.org/abs/2001.08601v1 )

ライセンス: Link先を確認
Siyuan Li, Semih G\"unel, Mirela Ostrek, Pavan Ramdya, Pascal Fua, and Helge Rhodin(参考訳) 私たちのゴールは、手動の監督を使わずに、神経科学モデル生物のポーズを捉え、神経回路がどのように振舞うかを研究することです。 人間のポーズ推定は、数百万のフレームからなる実データやシミュレーションデータセットでトレーニングすることで、驚くべき精度を達成している。 しかし、多くのアプリケーションではシミュレーションモデルは非現実的であり、包括的なアノテーションを持つ実際のトレーニングデータセットは存在しない。 この問題を新しいsim2realドメイン転送方式で解決する。 私たちの重要な貢献は、画像翻訳フレームワークにおける外観、形、ポーズの明示的で独立したモデリングです。 我々のモデルは、利用可能なボディキーポイント位置をソースドメインから生成されたターゲット画像に転送することで、ターゲットドメイン上のポーズ推定器を訓練することができる。 我々は,本手法を既存のドメイン転送法と比較し,目標ドメインに手動のアノテーションを必要とせず,単純な動物キャラクタを用いたシミュレーション,あるいはモデルとしての単純な幾何学的形状を用いて,ショウジョウバエ(ハエ),カエノハダニ(虫),ダニオレリオ(ゼブラフィッシュ)のポーズ推定精度の向上を示した。 私たちの新しいデータセット、コード、トレーニングされたモデルは、将来の神経科学研究をサポートするために公開されます。

Our goal is to capture the pose of neuroscience model organisms, without using any manual supervision, to be able to study how neural circuits orchestrate behaviour. Human pose estimation attains remarkable accuracy when trained on real or simulated datasets consisting of millions of frames. However, for many applications simulated models are unrealistic and real training datasets with comprehensive annotations do not exist. We address this problem with a new sim2real domain transfer method. Our key contribution is the explicit and independent modeling of appearance, shape and poses in an unpaired image translation framework. Our model lets us train a pose estimator on the target domain by transferring readily available body keypoint locations from the source domain to generated target images. We compare our approach with existing domain transfer methods and demonstrate improved pose estimation accuracy on Drosophila melanogaster (fruit fly), Caenorhabditis elegans (worm) and Danio rerio (zebrafish), without requiring any manual annotation on the target domain and despite using simplistic off-the-shelf animal characters for simulation, or simple geometric shapes as models. Our new datasets, code, and trained models will be published to support future neuroscientific studies.
翻訳日:2023-01-07 13:15:28 公開日:2020-01-23
# 古文書のテキスト抽出と復元

Text Extraction and Restoration of Old Handwritten Documents ( http://arxiv.org/abs/2001.08742v1 )

ライセンス: Link先を確認
Mayank Wadhwani, Debapriya Kundu, Deepayan Chakraborty, Bhabatosh Chanda(参考訳) 画像復元は非常に重要なコンピュータビジョンタスクである。 本稿では,ニューラルネットワークを用いた古くなった手書き文書の復元手法について述べる。 また、26の遺産画像の小規模なデータセットも導入されている。 所望のネットワークをトレーニングする基底真理データは、数学的形態演算子を用いて色変換、ガウス混合モデルに基づくセグメント化と形状補正の実用的な組み合わせを半自動生成する。 最初のアプローチでは、文書画像からのテキスト抽出にディープニューラルネットワークが用いられ、後の背景復元はガウス混合モデルを用いて行われている。 しかし、ガウス混合モデリングではパラメータを手動で設定する必要があるため、背景再構成と前景抽出(原色でテキストを抽出することを含む)の両方が深層ニューラルネットワークを用いて行われる2つ目のアプローチを提案する。 実験により,小さなデータセットでトレーニングした場合でも,手書きの文書画像の精度が著しく低下することがわかった。 したがって,提案手法はデジタル遺産保存レポジトリに最適である。 なお、これらの手法は、印刷された劣化文書に対して容易に拡張できる。

Image restoration is very crucial computer vision task. This paper describes two novel methods for the restoration of old degraded handwritten documents using deep neural network. In addition to that, a small-scale dataset of 26 heritage letters images is introduced. The ground truth data to train the desired network is generated semi automatically involving a pragmatic combination of color transformation, Gaussian mixture model based segmentation and shape correction by using mathematical morphological operators. In the first approach, a deep neural network has been used for text extraction from the document image and later background reconstruction has been done using Gaussian mixture modeling. But Gaussian mixture modelling requires to set parameters manually, to alleviate this we propose a second approach where the background reconstruction and foreground extraction (which which includes extracting text with its original colour) both has been done using deep neural network. Experiments demonstrate that the proposed systems perform well on handwritten document images with severe degradations, even when trained with small dataset. Hence, the proposed methods are ideally suited for digital heritage preservation repositories. It is worth mentioning that, these methods can be extended easily for printed degraded documents.
翻訳日:2023-01-07 13:14:13 公開日:2020-01-23
# ランベック・ダンズ・ル・グラミエール・デ・グラミエール・デ・グラミエール・キャット・グレゴリウス・アブストライト

Traduction des Grammaires Cat\'egorielles de Lambek dans les Grammaires Cat\'egorielles Abstraites ( http://arxiv.org/abs/2002.00725v1 )

ライセンス: Link先を確認
Valentin D. Richard(参考訳) Lambek Grammars (LG) は、非可換な構成型に基づく自然言語の計算モデルである。 特に文法が(英語のような)主要な役割を果たす言語について広く研究されている。 このインターンシップレポートの目標は、すべてのランベク文法が、完全にではなく効率的に抽象カテゴリー文法(ACG)で表現できることを示すことである。 後者は($\lambda$-calculus を使って)高階シグネチャ準同型に基づく新しいモデリングであり、現在使われているモデルを統合することを目的としている。 主な考え方は、LGの型書き換えシステムを文脈自由文法(CFG)に変換し、導入規則と除去規則を消去し、カット規則が十分であるように十分な公理を生成することである。 この反復的アプローチは導出を保ち、任意のステップで可能な無限生成プロセスを止めることができる。 基礎となるアルゴリズムは完全には実装されなかったが、この証明は自然言語処理におけるACGの関連性を支持する別の議論を提供する。

Lambek Grammars (LG) are a computational modelling of natural language, based on non-commutative compositional types. It has been widely studied, especially for languages where the syntax plays a major role (like English). The goal of this internship report is to demonstrate that every Lambek Grammar can be, not entirely but efficiently, expressed in Abstract Categorial Grammars (ACG). The latter is a novel modelling based on higher-order signature homomorphisms (using $\lambda$-calculus), aiming at uniting the currently used models. The main idea is to transform the type rewriting system of LGs into that of Context-Free Grammars (CFG) by erasing introduction and elimination rules and generating enough axioms so that the cut rule suffices. This iterative approach preserves the derivations and enables us to stop the possible infinite generative process at any step. Although the underlying algorithm was not fully implemented, this proof provides another argument in favour of the relevance of ACGs in Natural Language Processing.
翻訳日:2023-01-07 13:13:29 公開日:2020-01-23
# インターネット検閲の言語的フィンガープリント--SinaWeiboを事例として

Linguistic Fingerprints of Internet Censorship: the Case of SinaWeibo ( http://arxiv.org/abs/2001.08845v1 )

ライセンス: Link先を確認
Kei Yin Ng, Anna Feldman, Jing Peng(参考訳) 本稿は,中国のマイクロブログプラットフォームであるSina Weiboから収集したブログの言語的構成要素が,ブログの検閲の可能性に与える影響について考察する。 我々の結果は、King et al. (2013) の Collective Action potential (CAP) 理論と一致し、ブログ投稿者が実生活で暴動や集会を起こす可能性について、それが検閲される重要な決定要因であると述べている。 この構成には決定的な尺度はないが、差別的特徴として認識される言語的特徴はCAP理論と一致している。 我々は、ブログ投稿が検閲されるかどうかを予測するために、専門家でない人間を著しく上回る分類器を構築する。 クラウドソーシングの結果は、検閲されたブログを、検閲されていないブログよりもリアルに行動を起こす可能性が高く、議論の的になっているが、一般的には、検閲されたブログを検閲すべきかどうかを決める上で、検閲の「心を読む」ということに関して、我々のモデルよりも良い推測をすることができないことを示唆している。 我々は検閲が言語的特徴によってのみ決定されると主張するわけではない。 検閲決定に寄与する要因は他にもたくさんある。 本論文の焦点は,ブログの言語形式である。 本研究は、ソーシャルメディア投稿の言語特性を利用して検閲されるかどうかを自動的に予測できることを示唆している。

This paper studies how the linguistic components of blogposts collected from Sina Weibo, a Chinese microblogging platform, might affect the blogposts' likelihood of being censored. Our results go along with King et al. (2013)'s Collective Action Potential (CAP) theory, which states that a blogpost's potential of causing riot or assembly in real life is the key determinant of it getting censored. Although there is not a definitive measure of this construct, the linguistic features that we identify as discriminatory go along with the CAP theory. We build a classifier that significantly outperforms non-expert humans in predicting whether a blogpost will be censored. The crowdsourcing results suggest that while humans tend to see censored blogposts as more controversial and more likely to trigger action in real life than the uncensored counterparts, they in general cannot make a better guess than our model when it comes to `reading the mind' of the censors in deciding whether a blogpost should be censored. We do not claim that censorship is only determined by the linguistic features. There are many other factors contributing to censorship decisions. The focus of the present paper is on the linguistic form of blogposts. Our work suggests that it is possible to use linguistic properties of social media posts to automatically predict if they are going to be censored.
翻訳日:2023-01-07 13:13:01 公開日:2020-01-23
# コンカレント・マルチエージェント・ネゴシエーション表現のための数値抽象説得論

Numerical Abstract Persuasion Argumentation for Expressing Concurrent Multi-Agent Negotiations ( http://arxiv.org/abs/2001.08335v1 )

ライセンス: Link先を確認
Ryuta Arisaka and Takayuki Ito(参考訳) 2つのエージェントe1とe2による交渉プロセスは、例えばe1とe3の間の別の交渉プロセスによってインターリーブすることができる。 インターリーブは、第1の交渉プロセスの開始時に想定されるリソース割当を変更することができる。 従来の議論に基づく交渉提案は主に二国間交渉に焦点を合わせてきたが、多国間交渉の並行性は乏しい。 このギャップを埋めるために,抽象説得論(動的関係を持つ抽象的議論形式論)を基礎として,新しい議論理論を提案する。 動的関係のメンバー間での数値情報とハンドシェイクの機構を組み込むことにより,拡張理論が希少資源に対する同時多エージェント交渉にうまく適合することを示す。

A negotiation process by 2 agents e1 and e2 can be interleaved by another negotiation process between, say, e1 and e3. The interleaving may alter the resource allocation assumed at the inception of the first negotiation process. Existing proposals for argumentation-based negotiations have focused primarily on two-agent bilateral negotiations, but scarcely on the concurrency of multi-agent negotiations. To fill the gap, we present a novel argumentation theory, basing its development on abstract persuasion argumentation (which is an abstract argumentation formalism with a dynamic relation). Incorporating into it numerical information and a mechanism of handshakes among members of the dynamic relation, we show that the extended theory adapts well to concurrent multi-agent negotiations over scarce resources.
翻訳日:2023-01-07 13:12:39 公開日:2020-01-23
# 人間-ロボットインタラクションのための社会的知的タスクと運動計画

Socially intelligent task and motion planning for human-robot interaction ( http://arxiv.org/abs/2001.08398v1 )

ライセンス: Link先を確認
Andrea Frank, Laurel Riek(参考訳) 社会的存在として、多くの人間の行動は、文化規範、社会的信号、個人の嗜好などを含む周囲の社会的状態である社会的文脈に述示される。 本稿では,人間社会環境(hses)において,適切な効果的な計画を生成するための社会的文脈を考慮したタスク・モーション計画手法を提案する。 提案手法の主な強みは、潜在的行動が客観的コストにどう影響するかを明示的にモデル化するだけでなく、その計画と行動の社会的文脈を変えることである。 我々は,我々のアルゴリズムの複雑さを抑えるための戦略を検討し,病院や工場のような複雑なHSEのモバイルプラットフォームにおいて,計画立案者が引き続き利用できるようにする。 プランナーはタスクの相対的な重要性と緊急性も考慮し、目的を達成するために社会的期待に違反することがいつ、そして適切でないかを判断する。 この社会的認識によって、ロボットは社会の基本的なルールを理解することができる。 私たちの知る限り、提案する作業は、hsesのための社会的にインテリジェントなロボットポリシーをサポートする、最初のタスクとモーション計画のアプローチです。 この進行中の作業を通じて、ロボットはhsesにおいて、社会的コンテキストを理解し、尊重し、活用することができる。

As social beings, much human behavior is predicated on social context - the ambient social state that includes cultural norms, social signals, individual preferences, etc. In this paper, we propose a socially-aware task and motion planning algorithm that considers social context to generate appropriate and effective plans in human social environments (HSEs). The key strength of our proposed approach is that it explicitly models how potential actions not only affect objective cost, but also transform the social context in which it plans and acts. We investigate strategies to limit the complexity of our algorithm, so that our planner will remain tractable for mobile platforms in complex HSEs like hospitals and factories. The planner will also consider the relative importance and urgency of its tasks, which it uses to determine when it is and is not appropriate to violate social expectations to achieve its objective. This social awareness will allow robots to understand a fundamental rule of society: just because something makes your job easier, does not make it the right thing to do! To our knowledge, the proposed work is the first task and motion planning approach that supports socially intelligent robot policy for HSEs. Through this ongoing work, robots will be able to understand, respect, and leverage social context accomplish tasks both acceptably and effectively in HSEs.
翻訳日:2023-01-07 13:12:26 公開日:2020-01-23
# 言語間知識グラフアライメントのためのコーディネート推論

Coordinated Reasoning for Cross-Lingual Knowledge Graph Alignment ( http://arxiv.org/abs/2001.08728v1 )

ライセンス: Link先を確認
Kun Xu, Linfeng Song, Yansong Feng, Yan Song, Dong Yu(参考訳) 既存のエンティティアライメント手法は、主に知識グラフのエンコーディングの仕方によって異なるが、典型的には、各ソースエンティティの局所的最適マッチングを独立に選択する同じデコード法を用いる。 この復号法は、"many-to-one"問題を引き起こすだけでなく、このタスクのコーディネートされた性質を無視し、すなわち各アライメント決定は他の決定と非常に相関する。 本稿では,2つの協調推論手法,すなわち Easy-to-Hard 復号法とジョイントエンティティアライメントアルゴリズムを提案する。 具体的には、Easy-to-Hard戦略はまず予測結果からモデル信頼アライメントを取得し、その後、残りのモデル信頼アライメントを解決するための追加の知識としてそれらを組み込む。 これを実現するために,我々は現在最先端のベースライン上に構築された拡張アライメントモデルを提案する。 さらに、多対一の問題に対処するため、一対一の制約をアライメント予測に自然に組み込むことができるように、共同でエンティティアライメントを予測することを提案する。 実験の結果,本モデルが最先端の性能を達成し,既存のベースラインを大幅に改善できることがわかった。

Existing entity alignment methods mainly vary on the choices of encoding the knowledge graph, but they typically use the same decoding method, which independently chooses the local optimal match for each source entity. This decoding method may not only cause the "many-to-one" problem but also neglect the coordinated nature of this task, that is, each alignment decision may highly correlate to the other decisions. In this paper, we introduce two coordinated reasoning methods, i.e., the Easy-to-Hard decoding strategy and joint entity alignment algorithm. Specifically, the Easy-to-Hard strategy first retrieves the model-confident alignments from the predicted results and then incorporates them as additional knowledge to resolve the remaining model-uncertain alignments. To achieve this, we further propose an enhanced alignment model that is built on the current state-of-the-art baseline. In addition, to address the many-to-one problem, we propose to jointly predict entity alignments so that the one-to-one constraint can be naturally incorporated into the alignment prediction. Experimental results show that our model achieves the state-of-the-art performance and our reasoning methods can also significantly improve existing baselines.
翻訳日:2023-01-07 13:06:24 公開日:2020-01-23
# スパイクニューラルネットワークの計算能力と複雑性について

On the computational power and complexity of Spiking Neural Networks ( http://arxiv.org/abs/2001.08439v1 )

ライセンス: Link先を確認
Johan Kwisthout, Nils Donselaar(参考訳) この10年で、SpiNNaker、TrueNorth、Loihiシステムといった人工スパイクニューラルネットワークに基づくニューロモルフィックアーキテクチャが台頭した。 これらのアーキテクチャにおける計算とメモリの大規模並列性と共同配置により、従来のフォン・ノイマンアーキテクチャに比べて桁違いのエネルギー利用が可能となる。 しかし、これまでは、より伝統的な計算アーキテクチャ(特にエネルギー使用量)との比較は、形式機械モデルとニューロモルフィック計算の計算複雑性理論の欠如によって妨げられている。 本稿では,そのような理論への第一歩を踏み出す。 本研究では, スパイクニューラルネットワークを機械モデルとして導入し, 親しみやすいチューリングマシンとは対照的に, 情報と操作を機械内に共同配置する。 我々は、標準問題を導入し、複雑性クラスの階層を定義し、最初の完全性結果を提供する。

The last decade has seen the rise of neuromorphic architectures based on artificial spiking neural networks, such as the SpiNNaker, TrueNorth, and Loihi systems. The massive parallelism and co-locating of computation and memory in these architectures potentially allows for an energy usage that is orders of magnitude lower compared to traditional Von Neumann architectures. However, to date a comparison with more traditional computational architectures (particularly with respect to energy usage) is hampered by the lack of a formal machine model and a computational complexity theory for neuromorphic computation. In this paper we take the first steps towards such a theory. We introduce spiking neural networks as a machine model where---in contrast to the familiar Turing machine---information and the manipulation thereof are co-located in the machine. We introduce canonical problems, define hierarchies of complexity classes and provide some first completeness results.
翻訳日:2023-01-07 13:05:51 公開日:2020-01-23
# 冬期道路整備に応用した新しいアークルーティングアルゴリズム

A New Arc-Routing Algorithm Applied to Winter Road Maintenance ( http://arxiv.org/abs/2001.10828v1 )

ライセンス: Link先を確認
Ji\v{r}\'i Fink, Martin Loebl, Petra Pelik\'anov\'a(参考訳) 本稿では,冬期道路整備のスケジューリング問題(道路整備の優先度や方法の相違など)から発生する実用上の制約を取り入れた,比較的一般的なアークルーティング問題の大規模事例について考察する。 本手法では,道路網を数千の道路と道路セグメントで数分で解くことが可能な,ビンパック型ヒューリスティックに基づく新しいアルゴリズムを提案する。 このような大規模インスタンスとアルゴリズムの結果を比較するのに最適な解を見つけることは不可能であるため,Integer Linear Programming と Lazy Constraints に基づく下界の計算手法も開発している。

This paper studies large scale instances of a fairly general arc-routing problem as well as incorporate practical constraints in particular coming from the scheduling problem of the winter road maintenance (e.g. different priorities for and methods of road maintenance). We develop a new algorithm based on a bin-packing heuristic which is well-scalable and able to solve road networks on thousands of crossroads and road segments in few minutes. Since it is impossible to find an optimal solution for such a large instances to compare it with a result of our algorithm, we also develop techniques to compute lower bounds which are based on Integer Linear Programming and Lazy Constraints.
翻訳日:2023-01-07 13:05:21 公開日:2020-01-23
# Co-Segmentation を用いたCTスキャンの弱い修正病変分割

Weakly-Supervised Lesion Segmentation on CT Scans using Co-Segmentation ( http://arxiv.org/abs/2001.08590v1 )

ライセンス: Link先を確認
Vatsal Agarwal, Youbao Tang, Jing Xiao, Ronald M. Summers(参考訳) CTスキャンにおける病変分割は病変・腫瘍の進展を正確に観察するための重要なステップである。 しかし、手作業のセグメンテーションは極めて時間がかかり、高価であり、専門的な知識を必要とするため、この作業は非常に難しい。 現在のプラクティスは、固形腫瘍(RECIST)の反応評価基準と呼ばれる不正確な代用に依存している。 これらのマーカーは病変領域の詳細情報を欠いているが、病院の画像アーカイブ・コミュニケーションシステム(PACS)でよく見られる。 したがって、これらのマーカーは2d病変のセグメンテーションの弱いスーパービジョンの強力な源となる可能性がある。 そこで本研究では,まず直腸計測値から最初の病変マスクを生成し,その後に共同セグメンテーションを用いて病変類似性を活用し,初期マスクを洗練する畳み込みニューラルネットワーク(cnn)を提案する。 本研究では,一対の画像からより識別的な特徴を学習する能力から,注目に基づくコセグメンテーションモデルを採用する。 NIH DeepLesionデータセットによる実験結果から,提案手法により病変のセグメンテーション性能が有意に向上し,Diceスコアは約4.0%(85.8%から89.8%)向上した。

Lesion segmentation on computed tomography (CT) scans is an important step for precisely monitoring changes in lesion/tumor growth. This task, however, is very challenging since manual segmentation is prohibitively time-consuming, expensive, and requires professional knowledge. Current practices rely on an imprecise substitute called response evaluation criteria in solid tumors (RECIST). Although these markers lack detailed information about the lesion regions, they are commonly found in hospitals' picture archiving and communication systems (PACS). Thus, these markers have the potential to serve as a powerful source of weak-supervision for 2D lesion segmentation. To approach this problem, this paper proposes a convolutional neural network (CNN) based weakly-supervised lesion segmentation method, which first generates the initial lesion masks from the RECIST measurements and then utilizes co-segmentation to leverage lesion similarities and refine the initial masks. In this work, an attention-based co-segmentation model is adopted due to its ability to learn more discriminative features from a pair of images. Experimental results on the NIH DeepLesion dataset demonstrate that the proposed co-segmentation approach significantly improves lesion segmentation performance, e.g the Dice score increases about 4.0% (from 85.8% to 89.8%).
翻訳日:2023-01-07 13:03:31 公開日:2020-01-23
# 深層学習技術を用いた脳腫瘍の分類 -異なる大きさのクロップ画像, アンクロップ画像, セグメンテーション画像の比較-

Brain Tumor Classification Using Deep Learning Technique -- A Comparison between Cropped, Uncropped, and Segmented Lesion Images with Different Sizes ( http://arxiv.org/abs/2001.08844v1 )

ライセンス: Link先を確認
Ali Mohammad Alqudah, Hiam Alquraan, Isam Abu Qasmieh, Amin Alqudah, Wafaa Al-Sharu(参考訳) ディープラーニングは、ここ数年で研究者の注目を集めてきた機械学習分野の最新かつ現在のトレンドである。 強力な機械学習ツールとして、深層学習は、特に医学分野において非常に高い精度と感度を必要とする様々な複雑な問題を解決するために、様々なアプリケーションで広く用いられた。 一般に、脳腫瘍は最も一般的で攻撃的な悪性腫瘍疾患の1つであり、高位で診断されると非常に短い寿命を期待される。 以上より,脳腫瘍のグレーディングは,効果的な治療計画を達成するために,腫瘍検出後の極めて重要なステップである。 本稿では,3064 T1重み付きコントラスト強調脳MR画像から脳腫瘍を3つのクラス(グリオーマ,髄膜腫,下垂体腫瘍)に分類(分類)するために,最も広く使用されているディープラーニングアーキテクチャの一つである畳み込みニューラルネットワーク(CNN)を用いた。 提案したCNN分類器は, 精度98.93%, 感受性98.18%, 未切除病変99%, 感度98.52%, セグメント画像97.62%, 感度97.40%の強力なツールである。

Deep Learning is the newest and the current trend of the machine learning field that paid a lot of the researchers' attention in the recent few years. As a proven powerful machine learning tool, deep learning was widely used in several applications for solving various complex problems that require extremely high accuracy and sensitivity, particularly in the medical field. In general, brain tumor is one of the most common and aggressive malignant tumor diseases which is leading to a very short expected life if it is diagnosed at higher grade. Based on that, brain tumor grading is a very critical step after detecting the tumor in order to achieve an effective treating plan. In this paper, we used Convolutional Neural Network (CNN) which is one of the most widely used deep learning architectures for classifying a dataset of 3064 T1 weighted contrast-enhanced brain MR images for grading (classifying) the brain tumors into three classes (Glioma, Meningioma, and Pituitary Tumor). The proposed CNN classifier is a powerful tool and its overall performance with accuracy of 98.93% and sensitivity of 98.18% for the cropped lesions, while the results for the uncropped lesions are 99% accuracy and 98.52% sensitivity and the results for segmented lesion images are 97.62% for accuracy and 97.40% sensitivity.
翻訳日:2023-01-07 12:55:27 公開日:2020-01-23
# 暗黙的バイアスの存在下でのランキングへの介入

Interventions for Ranking in the Presence of Implicit Bias ( http://arxiv.org/abs/2001.08767v1 )

ライセンス: Link先を確認
L. Elisa Celis and Anay Mehrotra and Nisheeth K. Vishnoi(参考訳) 暗黙の偏見とは、特定の社会集団(例えば、性別や人種によって定義される)のメンバーに対する特定の性質(またはその欠如)の無意識的な帰属である。 暗黙のバイアスの研究は、これらの無意識のステレオタイプが、仕事のスクリーニング、教育、警察など、様々な社会的文脈で有害な結果をもたらすことを示した。 最近 (Kleinberg and Raghavan, 2018) は、暗黙バイアスの数学的モデルを検討し、ルーニー規則の有効性を、部分集合選択問題のある場合における結果の有用性を改善するための制約として示した。 ここでは、順序集合を出力し、様々な社会的・計算的文脈において中心となるプリミティブである部分選択(ランキング)の一般化のための介入を設計する問題を考察する。 単純かつ解釈可能な制約の族を示し、研究されたモデルの一般化のために暗黙バイアスを最適に緩和できることを示す(Kleinberg and Raghavan, 2018)。 その後、単純でルーニー規則のようなアイテムの効用に関する自然な分布的仮定の下で、制約は暗黙のバイアスによって失われたほとんどすべてのユーティリティを驚くほど回復することができることを証明します。 最後に,IIT-JEE(2009)データセットとSemantic Scholar Research corpusから得られた実世界の分布に関する実証的な知見を用いて,理論結果を拡張した。

Implicit bias is the unconscious attribution of particular qualities (or lack thereof) to a member from a particular social group (e.g., defined by gender or race). Studies on implicit bias have shown that these unconscious stereotypes can have adverse outcomes in various social contexts, such as job screening, teaching, or policing. Recently, (Kleinberg and Raghavan, 2018) considered a mathematical model for implicit bias and showed the effectiveness of the Rooney Rule as a constraint to improve the utility of the outcome for certain cases of the subset selection problem. Here we study the problem of designing interventions for the generalization of subset selection -- ranking -- that requires to output an ordered set and is a central primitive in various social and computational contexts. We present a family of simple and interpretable constraints and show that they can optimally mitigate implicit bias for a generalization of the model studied in (Kleinberg and Raghavan, 2018). Subsequently, we prove that under natural distributional assumptions on the utilities of items, simple, Rooney Rule-like, constraints can also surprisingly recover almost all the utility lost due to implicit biases. Finally, we augment our theoretical results with empirical findings on real-world distributions from the IIT-JEE (2009) dataset and the Semantic Scholar Research corpus.
翻訳日:2023-01-07 12:55:05 公開日:2020-01-23
# 未知力学系の深層学習のための一般化剰余ネットワークについて

On generalized residue network for deep learning of unknown dynamical systems ( http://arxiv.org/abs/2002.02528v1 )

ライセンス: Link先を確認
Zhen Chen and Dongbin Xiu(参考訳) 本稿では,ディープニューラルネットワーク(dnn)を用いた未知力学系学習のための一般数値解法を提案する。 本手法は,残差ネットワーク(resnet)を有効なニューラルネットワーク構造として同定する最近の研究に基づいている。 本稿では、一般化されたResNetフレームワークを提案し、既存の粗いモデルや縮小順序モデルである観測データと他のモデルによる予測との相違として残余を広く定義する。 この場合、一般化されたresnetは既存のモデルに対するモデル修正となり、未解決のダイナミクスを回復する。 既存の粗いモデルが利用できない場合は,一般化されたresnetと連動して,粗いモデルを高速に作成するための数値戦略を提案する。 これらの粗いモデルは、同じデータセットを使用して構築されるため、追加のリソースは必要ない。 一般化されたResNetは、基礎となる未知の方程式を学習し、標準のResNet構造よりも高い精度で予測を生成することができる。 これは、カオスシステムの長期予測を含むいくつかの数値例を通じて実証される。

We present a general numerical approach for learning unknown dynamical systems using deep neural networks (DNNs). Our method is built upon recent studies that identified the residue network (ResNet) as an effective neural network structure. In this paper, we present a generalized ResNet framework and broadly define residue as the discrepancy between observation data and prediction made by another model, which can be an existing coarse model or reduced-order model. In this case, the generalized ResNet serves as a model correction to the existing model and recovers the unresolved dynamics. When an existing coarse model is not available, we present numerical strategies for fast creation of coarse models, to be used in conjunction with the generalized ResNet. These coarse models are constructed using the same data set and thus do not require additional resources. The generalized ResNet is capable of learning the underlying unknown equations and producing predictions with accuracy higher than the standard ResNet structure. This is demonstrated via several numerical examples, including long-term prediction of a chaotic system.
翻訳日:2023-01-07 12:54:40 公開日:2020-01-23
# 逆生成逆ネットワークによる普遍的データ異常検出

Universal Data Anomaly Detection via Inverse Generative Adversary Network ( http://arxiv.org/abs/2001.08809v1 )

ライセンス: Link先を確認
Kursat Rasim Mestav, Lang Tong(参考訳) データの異常検出の問題点を考察する。 異常のないデータをモデル化するヌル仮説の下では、測定は未知の分布といくつかの認証された歴史的サンプルから得られると仮定される。 合成代替仮説の下では、測定はヌル仮説の下での分布から離れた未知の分布正の距離から得られる。 異常データの配信にはトレーニングデータがない。 逆生成逆ネットワークに基づく半教師付き深層学習手法を提案する。

The problem of detecting data anomaly is considered. Under the null hypothesis that models anomaly-free data, measurements are assumed to be from an unknown distribution with some authenticated historical samples. Under the composite alternative hypothesis, measurements are from an unknown distribution positive distance away from the distribution under the null hypothesis. No training data are available for the distribution of anomaly data. A semi-supervised deep learning technique based on an inverse generative adversary network is proposed.
翻訳日:2023-01-07 12:46:27 公開日:2020-01-23
# Q-Learning Controller を用いたラインフォロワロボットの自律制御

Autonomous Control of a Line Follower Robot Using a Q-Learning Controller ( http://arxiv.org/abs/2001.08841v1 )

ライセンス: Link先を確認
Sepehr Saadatmand, Sima Azizi, Mohammadamir Kavousi, and Donald Wunsch(参考訳) 本稿では,MIMOシミュレーションによるSAベースQ学習法を提案し,ラインフォアロボットを制御した。 この種のロボットの従来のコントローラーは比例pコントローラである。 ロボットの未知の機械的特性と摩擦やすべり面などの不確実性を考えると,システムモデリングやコントローラ設計は極めて困難である。 本論文では,ロボットの数学的モデリングを行い,このモデルに基づいてシミュレータを設計する。 基礎的なQ学習法は純粋に搾取され,エプシロン・グリード法は探索に役立ち,非最適動作を探索することで,学習完了後の制御性能を損なう。 シミュレーションアニーリングに基づくQ学習法は,学習が増加すると探索率を低下させることで,この欠点に対処する。 提案した制御器の有効性を評価するためのシミュレーションと実験結果を提供する。

In this paper, a MIMO simulated annealing SA based Q learning method is proposed to control a line follower robot. The conventional controller for these types of robots is the proportional P controller. Considering the unknown mechanical characteristics of the robot and uncertainties such as friction and slippery surfaces, system modeling and controller designing can be extremely challenging. The mathematical modeling for the robot is presented in this paper, and a simulator is designed based on this model. The basic Q learning methods are based pure exploitation and the epsilon-greedy methods, which help exploration, can harm the controller performance after learning completion by exploring nonoptimal actions. The simulated annealing based Q learning method tackles this drawback by decreasing the exploration rate when the learning increases. The simulation and experimental results are provided to evaluate the effectiveness of the proposed controller.
翻訳日:2023-01-07 12:46:21 公開日:2020-01-23
# フルフィールドデジタルマンモグラフィーによる深層学習悪性度モデルの乳房トモ合成への応用

Adaptation of a deep learning malignancy model from full-field digital mammography to digital breast tomosynthesis ( http://arxiv.org/abs/2001.08381v1 )

ライセンス: Link先を確認
Sadanand Singh, Thomas Paul Matthews, Meet Shah, Brent Mombourquette, Trevor Tsue, Aaron Long, Ranya Almohsen, Stefano Pedemonte, and Jason Su(参考訳) マンモグラフィーによる検診は乳がん死亡率の低下に役立っているが、特異性の低下や不必要な検査や処置、感度の低下などによる潜在的な害と関係している。 乳房のデジタルトモシンセシス (DBT) は, 感度と特異性の両方を増大させることにより, 従来のマンモグラフィーの改善に寄与する。 しかし,従来の2次元フルフィールドデジタルマンモグラフィ(ffdm)や走査型フィルム画像を中心に,ディープラーニング(dl)モデルが開発されている。 注釈付きDBTデータセットが不足しているため、DBT上でモデルをスクラッチからトレーニングすることは困難である。 本研究では,FFDM画像に基づいて訓練されたモデルをDBT画像に一般化する手法を提案する。 特に、平均ヒストグラムマッチング(HM)とDL微細調整法を用いて、FFDMモデルをDBT画像の2次元最大強度投影(MIP)に一般化する。 提案手法では, FFDM領域とDBT領域の差をHMにより低減し, FFDM画像に基づいて訓練したベースモデルを微調整する。 特定された所見の周辺で抽出された画像パッチについて評価すると、ffdmでは$\sim 0.9$、mipでは$\sim 0.85$、mipイメージで直接テストすると$\sim 0.75$であるのに対し、受信者の動作特性曲線(roc auc)の下で同様の領域を達成することができる。

Mammography-based screening has helped reduce the breast cancer mortality rate, but has also been associated with potential harms due to low specificity, leading to unnecessary exams or procedures, and low sensitivity. Digital breast tomosynthesis (DBT) improves on conventional mammography by increasing both sensitivity and specificity and is becoming common in clinical settings. However, deep learning (DL) models have been developed mainly on conventional 2D full-field digital mammography (FFDM) or scanned film images. Due to a lack of large annotated DBT datasets, it is difficult to train a model on DBT from scratch. In this work, we present methods to generalize a model trained on FFDM images to DBT images. In particular, we use average histogram matching (HM) and DL fine-tuning methods to generalize a FFDM model to the 2D maximum intensity projection (MIP) of DBT images. In the proposed approach, the differences between the FFDM and DBT domains are reduced via HM and then the base model, which was trained on abundant FFDM images, is fine-tuned. When evaluating on image patches extracted around identified findings, we are able to achieve similar areas under the receiver operating characteristic curve (ROC AUC) of $\sim 0.9$ for FFDM and $\sim 0.85$ for MIP images, as compared to a ROC AUC of $\sim 0.75$ when tested directly on MIP images.
翻訳日:2023-01-07 12:46:07 公開日:2020-01-23
# 高感度乳癌検出装置

A Hypersensitive Breast Cancer Detector ( http://arxiv.org/abs/2001.08382v1 )

ライセンス: Link先を確認
Stefano Pedemonte, Brent Mombourquette, Alexis Goh, Trevor Tsue, Aaron Long, Sadanand Singh, Thomas Paul Matthews, Meet Shah, and Jason Su(参考訳) 乳がん検診による早期発見は生存率を20~35%向上させるが,乳がん検診を希望する女性の人口増加に対応する放射線科医は少ない。 商用コンピュータ支援検出ソフトウェア(CADe)は、何十年にもわたって放射線技師に利用されてきたが、検出スペクトルに対する感度の低いフルフィールドデジタルマンモグラフィー(FFDM)画像の解釈を改善することはできなかった。 本研究では,マンモグラフィー的に有意な所見のゆるやかな境界ボックスを持つ大規模なFFDM画像を利用して,極度に感度の高いディープラーニング検出器を訓練する。 砂時計アーキテクチャによる作業に基づいて,空間分解能の高いセグメンテーション的な画像を生成するモデルを訓練し,地中箱を中心とした2次元ガウスブロブの生成を目標とした。 画素単位の$L_2$ノルムを、高感度な非対称な偽陽性と偽陰性を実現するために設計された弱スーパービジョン損失に置き換えると同時に、不整合予測における耐性を許容することにより、ゆるい有界箱の雑音を和らげる。 得られたシステムは、画像ごとに4.8個の偽陽性マーカーしか持たない悪性所見の0.99の感度を達成する。 CADeシステムで利用される場合、このモデルは、無線技師がモデルが提案する場所のみに注意を集中させ、解釈プロセスの迅速化と、他の方法で見逃された可能性のある潜在的な発見に注意を向けることのできる、新しいワークフローを可能にする。 ほぼ完全な感度のため、2段階検出システムでは高性能な提案生成器としても使用できる。

Early detection of breast cancer through screening mammography yields a 20-35% increase in survival rate; however, there are not enough radiologists to serve the growing population of women seeking screening mammography. Although commercial computer aided detection (CADe) software has been available to radiologists for decades, it has failed to improve the interpretation of full-field digital mammography (FFDM) images due to its low sensitivity over the spectrum of findings. In this work, we leverage a large set of FFDM images with loose bounding boxes of mammographically significant findings to train a deep learning detector with extreme sensitivity. Building upon work from the Hourglass architecture, we train a model that produces segmentation-like images with high spatial resolution, with the aim of producing 2D Gaussian blobs centered on ground-truth boxes. We replace the pixel-wise $L_2$ norm with a weak-supervision loss designed to achieve high sensitivity, asymmetrically penalizing false positives and false negatives while softening the noise of the loose bounding boxes by permitting a tolerance in misaligned predictions. The resulting system achieves a sensitivity for malignant findings of 0.99 with only 4.8 false positive markers per image. When utilized in a CADe system, this model could enable a novel workflow where radiologists can focus their attention with trust on only the locations proposed by the model, expediting the interpretation process and bringing attention to potential findings that could otherwise have been missed. Due to its nearly perfect sensitivity, the proposed detector can also be used as a high-performance proposal generator in two-stage detection systems.
翻訳日:2023-01-07 12:45:37 公開日:2020-01-23
# FloatSD8重み表現を用いた低複雑さLSTMトレーニングと推論

Low-Complexity LSTM Training and Inference with FloatSD8 Weight Representation ( http://arxiv.org/abs/2001.08450v1 )

ライセンス: Link先を確認
Yu-Tung Liu, Tzi-Dar Chiueh(参考訳) FloatSD技術は、低複雑性畳み込みニューラルネットワーク(CNN)のトレーニングと推論において優れた性能を示すことが示されている。 本稿では,recurrent neural networks(rnns),特にlong short-term memory(lstm)にfloatsdを適用した。 重み表現のフロートに加えて,モデルトレーニングの勾配とアクティベーションを8ビットに定量化した。 さらに,蓄積の演算精度と重みのマスターコピーを32ビットから16ビットに短縮した。 提案手法は,モデル精度を保ちながら,複数のLSTMモデルをスクラッチからトレーニングできることを示した。 最後に,提案手法の実装上の利点を検証するため,LSTMニューロン回路を設計し,ダイス面積と消費電力を大幅に削減した。

The FloatSD technology has been shown to have excellent performance on low-complexity convolutional neural networks (CNNs) training and inference. In this paper, we applied FloatSD to recurrent neural networks (RNNs), specifically long short-term memory (LSTM). In addition to FloatSD weight representation, we quantized the gradients and activations in model training to 8 bits. Moreover, the arithmetic precision for accumulations and the master copy of weights were reduced from 32 bits to 16 bits. We demonstrated that the proposed training scheme can successfully train several LSTM models from scratch, while fully preserving model accuracy. Finally, to verify the proposed method's advantage in implementation, we designed an LSTM neuron circuit and showed that it achieved significantly reduced die area and power consumption.
翻訳日:2023-01-07 12:39:48 公開日:2020-01-23
# 情報ゲインのトレースを用いた自動クラスタリング解析に向けて:infoguide法

Towards Automatic Clustering Analysis using Traces of Information Gain: The InfoGuide Method ( http://arxiv.org/abs/2001.08677v1 )

ライセンス: Link先を確認
Paulo Rocha, Diego Pinheiro, Martin Cadeiras, Carmelo Bastos-Filho(参考訳) クラスタリング分析は、幅広いドメインにおいてユビキタスな情報検索ツールとなっているが、より自動化されたフレームワークはまだ不足している。 内部メトリクスはクラスタの検索に成功するための重要なプレーヤだが、実世界のデータセットの有効性は、主に非現実的な仮定に基づいて完全には理解されていない。 複雑なクラスタリング検索---{\it infoguide}-間における情報ゲインの「itトレース」のキャプチャは、クラスタリング検索を改善した自動クラスタリング解析を可能にすると仮定した。 我々は,Kolmogorov-Smirnov統計を用いて情報ゲインの痕跡を抽出し,得られたクラスタを,人工的に生成されたベンチマークや実世界のデータセットでよく使用される他の内部指標と比較することにより,情報ゲインの仮説を検証する。 この結果から,より自動的なクラスタリング解析が可能であり,非自明な統計特性を示す実世界のデータセットのクラスタ検索に適している可能性が示唆された。

Clustering analysis has become a ubiquitous information retrieval tool in a wide range of domains, but a more automatic framework is still lacking. Though internal metrics are the key players towards a successful retrieval of clusters, their effectiveness on real-world datasets remains not fully understood, mainly because of their unrealistic assumptions underlying datasets. We hypothesized that capturing {\it traces of information gain} between increasingly complex clustering retrievals---{\it InfoGuide}---enables an automatic clustering analysis with improved clustering retrievals. We validated the {\it InfoGuide} hypothesis by capturing the traces of information gain using the Kolmogorov-Smirnov statistic and comparing the clusters retrieved by {\it InfoGuide} against those retrieved by other commonly used internal metrics in artificially-generated, benchmarks, and real-world datasets. Our results suggested that {\it InfoGuide} can enable a more automatic clustering analysis and may be more suitable for retrieving clusters in real-world datasets displaying nontrivial statistical properties.
翻訳日:2023-01-07 12:39:18 公開日:2020-01-23
# 予測情報最大化:i-射影を用いた混合密度推定

Expected Information Maximization: Using the I-Projection for Mixture Density Estimation ( http://arxiv.org/abs/2001.08682v1 )

ライセンス: Link先を確認
Philipp Becker, Oleg Arenz, Gerhard Neumann(参考訳) 高度にマルチモーダルなデータのモデリングは、機械学習において難しい問題である。 ほとんどのアルゴリズムは、モデル分布へのデータ分布のM(oment)投影に対応する可能性の最大化に基づいている。 M射影はモデルに表現できない平均的なモードを強制する。 対照的に、I(情報)投影はデータのそのようなモードを無視し、モデルが表現できるモードに集中する。 このような振る舞いは、シングルモードを正しくモデル化することがすべてのモードをカバーするよりも重要である、高度にマルチモーダルなデータを扱う場合にも魅力的です。 この利点にもかかわらず、i-プロジェクションはデータに基づいて効率的に最適化できるアルゴリズムがないため、実際にはほとんど使われない。 本研究では,一般潜在変数モデルのサンプルのみに基づいてI-射影を計算し,ガウス混合モデルとガウス混合に焦点をあてる新しいアルゴリズムである期待情報最大化(EIM)を提案する。 提案手法では,I-射影目標に対して,各混合成分および係数に対して,元の目的を単一目的に分解し,効率的な最適化を実現する。 gansと同様に、このアプローチは判別器を用いるが、より安定な最適化手順を用いて、強い上界を用いている。 提案アルゴリズムは,近年のGANアプローチよりもI射影の計算に有効であることを示し,歩行者と交通予測の2つのデータセット上でのマルチモーダルな振る舞いをモデル化する手法の有効性を示す。

Modelling highly multi-modal data is a challenging problem in machine learning. Most algorithms are based on maximizing the likelihood, which corresponds to the M(oment)-projection of the data distribution to the model distribution. The M-projection forces the model to average over modes it cannot represent. In contrast, the I(information)-projection ignores such modes in the data and concentrates on the modes the model can represent. Such behavior is appealing whenever we deal with highly multi-modal data where modelling single modes correctly is more important than covering all the modes. Despite this advantage, the I-projection is rarely used in practice due to the lack of algorithms that can efficiently optimize it based on data. In this work, we present a new algorithm called Expected Information Maximization (EIM) for computing the I-projection solely based on samples for general latent variable models, where we focus on Gaussian mixtures models and Gaussian mixtures of experts. Our approach applies a variational upper bound to the I-projection objective which decomposes the original objective into single objectives for each mixture component as well as for the coefficients, allowing an efficient optimization. Similar to GANs, our approach employs discriminators but uses a more stable optimization procedure, using a tight upper bound. We show that our algorithm is much more effective in computing the I-projection than recent GAN approaches and we illustrate the effectiveness of our approach for modelling multi-modal behavior on two pedestrian and traffic prediction datasets.
翻訳日:2023-01-07 12:38:59 公開日:2020-01-23
# Chameleon: 高速なディープニューラルネットワークコンパイルのための適応コード最適化

Chameleon: Adaptive Code Optimization for Expedited Deep Neural Network Compilation ( http://arxiv.org/abs/2001.08743v1 )

ライセンス: Link先を確認
Byung Hoon Ahn, Prannoy Pilligundla, Amir Yazdanbakhsh, Hadi Esmaeilzadeh(参考訳) 短いコンパイル時間で高速な実行を実現することで、ニューラルネットワークのさらなる多様性とイノベーションが促進される。 しかしながら、現在のニューラルネットワークの実行パラダイムは、手動最適化ライブラリ、従来のコンパイルヒューリスティック、あるいはごく最近の遺伝的アルゴリズムやその他の確率的手法に依存している。 これらの手法は、コストのかかるハードウェア測定に悩まされ、時間がかかりすぎるだけでなく、最適ではない。 そこで我々は,探索の高速化と出力性能の向上という両面から,これまで見つからなかった設計空間に迅速に適応できるソリューションを考案した。 chameleonと呼ばれるこのソリューションは、収束に要するステップを少なくする強化学習を活用し、代表点に対するコストのかかるサンプル(実際のハードウェア測定)だけでなく、ドメイン知識にインスパイアされたロジックを使ってサンプル自体を改善する、適応的なサンプリングアルゴリズムを開発する。 実際のハードウェアでの実験では、ChameleonはAutoTVMよりも4.45倍の速度で最適化できる一方で、現代のディープネットワークの推論時間を5.6%改善している。

Achieving faster execution with shorter compilation time can foster further diversity and innovation in neural networks. However, the current paradigm of executing neural networks either relies on hand-optimized libraries, traditional compilation heuristics, or very recently genetic algorithms and other stochastic methods. These methods suffer from frequent costly hardware measurements rendering them not only too time consuming but also suboptimal. As such, we devise a solution that can learn to quickly adapt to a previously unseen design space for code optimization, both accelerating the search and improving the output performance. This solution dubbed Chameleon leverages reinforcement learning whose solution takes fewer steps to converge, and develops an adaptive sampling algorithm that not only focuses on the costly samples (real hardware measurements) on representative points but also uses a domain-knowledge inspired logic to improve the samples itself. Experimentation with real hardware shows that Chameleon provides 4.45x speed up in optimization time over AutoTVM, while also improving inference time of the modern deep networks by 5.6%.
翻訳日:2023-01-07 12:38:34 公開日:2020-01-23
# 機械読解における課題とモデルに関する研究

A Study of the Tasks and Models in Machine Reading Comprehension ( http://arxiv.org/abs/2001.08635v1 )

ライセンス: Link先を確認
Chao Wang(参考訳) MRC(Machine Reading Comprehension)における既存のタスクとモデルに関する調査について、このレポートは以下の通りである。 1) 代表的な単純推論及び複雑推論型MRCタスクのデータセット収集と性能評価 2) ニューラルネットワークに基づくmrcモデル開発のためのアーキテクチャ設計,注目機構,パフォーマンスブースティング手法 3) 最近提案されている,外部コーパスに含まれるテキスト型知識をmrcモデルのニューラルネットワークに組み込むトランスファー学習手法 4) MRCモデルのニューラルネットワークに外部知識ベースに含まれるグラフスタイルの知識を組み込むための知識ベース符号化手法を提案する。 また, 達成されたこと, まだ不十分なことなどから, 本報告では, 今後の研究の課題も提示する。

To provide a survey on the existing tasks and models in Machine Reading Comprehension (MRC), this report reviews: 1) the dataset collection and performance evaluation of some representative simple-reasoning and complex-reasoning MRC tasks; 2) the architecture designs, attention mechanisms, and performance-boosting approaches for developing neural-network-based MRC models; 3) some recently proposed transfer learning approaches to incorporating text-style knowledge contained in external corpora into the neural networks of MRC models; 4) some recently proposed knowledge base encoding approaches to incorporating graph-style knowledge contained in external knowledge bases into the neural networks of MRC models. Besides, according to what has been achieved and what are still deficient, this report also proposes some open problems for the future research.
翻訳日:2023-01-07 12:37:51 公開日:2020-01-23
# eventmapper:corroborativeおよびprobabilistic sourcesを用いた実世界の物理イベントの検出

EventMapper: Detecting Real-World Physical Events Using Corroborative and Probabilistic Sources ( http://arxiv.org/abs/2001.08700v1 )

ライセンス: Link先を確認
Abhijit Suprem and Calton Pu(参考訳) ソーシャルメディアのユビキタス性は、災害などの物理的なイベント検出のための豊富な情報源となり、危機管理リソース割り当ての潜在的なリソースとなる。 近年では, 地震やハリケーンなどの大イベントの事後検出など, ソーシャルメディアをふりかえりに活用する研究が盛んに行われている。 同様に、気候衛星のような伝統的な物理センサーを使用して地域イベント検出を行う長い歴史がある。 しかし、ソーシャルメディアと相関的な物理的センサーを組み合わせることで、リアルタイム、正確、そしてグローバルな物理的検出は未解明のままである。 本稿では,小規模なイベント(地すべり,洪水,山火事)のイベント認識をサポートするフレームワークであるEventMapperを提案する。 EventMapperは、物理センサや低レイテンシ、ソーシャルメディアストリームなどのノイズの多い確率的ソースなど、高レイテンシで高精度な相関ソースを統合して、リアルタイムでグローバルなイベント認識を提供する。 さらに、EventMapperは、機械学習モデルが高性能を維持するために継続的な微調整を必要とする、コンセプトドリフト現象に耐性がある。 確率的および相関的なソースの一般的な機能を活用することで、EventMapperは機械学習モデルの更新、メンテナンス、微調整を自動化する。 EventMapper上に構築された3つのアプリケーションについて説明する。

The ubiquity of social media makes it a rich source for physical event detection, such as disasters, and as a potential resource for crisis management resource allocation. There have been some recent works on leveraging social media sources for retrospective, after-the-fact event detection of large events such as earthquakes or hurricanes. Similarly, there is a long history of using traditional physical sensors such as climate satellites to perform regional event detection. However, combining social media with corroborative physical sensors for real-time, accurate, and global physical detection has remained unexplored. This paper presents EventMapper, a framework to support event recognition of small yet equally costly events (landslides, flooding, wildfires). EventMapper integrates high-latency, high-accuracy corroborative sources such as physical sensors with low-latency, noisy probabilistic sources such as social media streams to deliver real-time, global event recognition. Furthermore, EventMapper is resilient to the concept drift phenomenon, where machine learning models require continuous fine-tuning to maintain high performance. By exploiting the common features of probabilistic and corroborative sources, EventMapper automates machine learning model updates, maintenance, and fine-tuning. We describe three applications built on EventMapper for landslide, wildfire, and flooding detection.
翻訳日:2023-01-07 12:37:38 公開日:2020-01-23
# 私はあなたを感じる:ゲームにおける心の理論実験

I Feel I Feel You: A Theory of Mind Experiment in Games ( http://arxiv.org/abs/2001.08656v1 )

ライセンス: Link先を確認
David Melhart, Georgios N. Yannakakis, Antonios Liapis(参考訳) 本研究では,ゲームプレイングエージェントのプレイヤの感情論を考察し,エージェントの行動とプレイヤ自身のパフォーマンスと感情が,フラストレーションのある行動の認識をいかに形作るかを検討する。 我々は、人間とコンピュータの相互作用における感情経験として、フラストレーションの認識に焦点を当てる。 本稿では,この目的に合わせたテストベッドゲームを提案する。このゲームでは,プレイヤーが理論に基づくフラストレーションモデルを持つエージェントと競合する。 我々は,ゲームプレイデータ,エージェントのフラストレーションに対するプレイヤーの評価に関する注釈付き基礎的真実を収集し,顔認識を適用してプレイヤーの感情状態を推定する。 相関分析と予測機械学習モデルを用いて収集したデータを検証し、プレイヤーの観察可能な感情がエージェントの認識されたフラストレーションと高く相関していないことを確認する。 このことは,我々の心の理論がゲームプレイの文脈に基づく認知過程であることを示唆している。 我々の予測モデルは、ランキング支援ベクトルマシンを用いて、これらの結果を相関させ、プレイヤーの心の理論を適度に正確に予測する。

In this study into the player's emotional theory of mind of gameplaying agents, we investigate how an agent's behaviour and the player's own performance and emotions shape the recognition of a frustrated behaviour. We focus on the perception of frustration as it is a prevalent affective experience in human-computer interaction. We present a testbed game tailored towards this end, in which a player competes against an agent with a frustration model based on theory. We collect gameplay data, an annotated ground truth about the player's appraisal of the agent's frustration, and apply face recognition to estimate the player's emotional state. We examine the collected data through correlation analysis and predictive machine learning models, and find that the player's observable emotions are not correlated highly with the perceived frustration of the agent. This suggests that our subject's theory of mind is a cognitive process based on the gameplay context. Our predictive models---using ranking support vector machines---corroborate these results, yielding moderately accurate predictors of players' theory of mind.
翻訳日:2023-01-07 12:36:47 公開日:2020-01-23
# 機械学習に基づく共同創造設計フレームワーク

Machine learning based co-creative design framework ( http://arxiv.org/abs/2001.08791v1 )

ライセンス: Link先を確認
Brian Quanz, Wei Sun, Ajay Deshpande, Dhruv Shah, Jae-eun Park(参考訳) 本稿では,複数の機械学習技術を組み合わせて,効果的な創造的デザインを効率的に作成するためのフレキシブルで共創的なフレームワークを提案する。 本研究では, パーフュームボトル設計ケーススタディにおいて, 人体評価と定量および定性分析を含む可能性を示す。

We propose a flexible, co-creative framework bringing together multiple machine learning techniques to assist human users to efficiently produce effective creative designs. We demonstrate its potential with a perfume bottle design case study, including human evaluation and quantitative and qualitative analyses.
翻訳日:2023-01-07 12:36:27 公開日:2020-01-23
# 説明可能な機械学習制御 --ロバスト制御と安定性解析

Explainable Machine Learning Control -- robust control and stability analysis ( http://arxiv.org/abs/2001.10056v1 )

ライセンス: Link先を確認
Markus Quade and Thomas Isele and Markus Abel(参考訳) 近年、説明可能なAIという用語は、解釈を可能にする人工知能からモデルを作成するアプローチとして知られるようになった。 この貢献では、1つまたは複数の最適化基準またはコスト関数が与えられた力学系の最適制御を推論するためにシンボリック回帰法をどのように利用するかを示す。 前回の論文では、遺伝的プログラミングを用いた機械学習制御の自動化によってネットワーク制御が達成された。 本稿では,機械学習から得られた分析表現の分析に注目する。 特に,モデルとして機能する制御発振器システムの安定性特性をautoを用いて解析する。 その結果,低アクセス性ニューラルネットワークよりも説明可能なモデルの方が優れていることがわかった。

Recently, the term explainable AI became known as an approach to produce models from artificial intelligence which allow interpretation. Since a long time, there are models of symbolic regression in use that are perfectly explainable and mathematically tractable: in this contribution we demonstrate how to use symbolic regression methods to infer the optimal control of a dynamical system given one or several optimization criteria, or cost functions. In previous publications, network control was achieved by automatized machine learning control using genetic programming. Here, we focus on the subsequent analysis of the analytical expressions which result from the machine learning. In particular, we use AUTO to analyze the stability properties of the controlled oscillator system which served as our model. As a result, we show that there is a considerable advantage of explainable models over less accessible neural networks.
翻訳日:2023-01-07 12:36:22 公開日:2020-01-23
# 軽量ニューラルネットワークモデルを用いたレシピ理解タスクにおける行動認識と状態変化予測

Action Recognition and State Change Prediction in a Recipe Understanding Task Using a Lightweight Neural Network Model ( http://arxiv.org/abs/2001.08665v1 )

ライセンス: Link先を確認
Qing Wan, Yoonsuck Choe(参考訳) 食品レシピの特定のステップを記述する自然言語文を考えてみましょう。 このような指示では、アクション(プレス、ベークなど)の認識や、材料(成形品、カスタード、温度温度など)の状態の変化が困難な課題である。 この課題に対処するひとつの方法は、エンティティにアクションを適用して結果を予測するシミュレータモジュールを明示的にモデル化することだ(Bosselut et al. 2018)。 しかし、そのようなモデルは不必要に複雑である。 本稿では,動作認識と状態変化予測を分離した簡易ニューラルネットワークモデルを提案する。 これにより、学習は間接的に相互に影響を及ぼすことができる。 私たちのモデルはシンプルではあるが、より高い状態変化予測性能(私たちの平均精度の67%)と55%(bosselut et al. 2018)を実現し、トレーニングに必要なサンプルを少なくしています(10k ours vs. 65k+ by (bosselut et al. 2018)。

Consider a natural language sentence describing a specific step in a food recipe. In such instructions, recognizing actions (such as press, bake, etc.) and the resulting changes in the state of the ingredients (shape molded, custard cooked, temperature hot, etc.) is a challenging task. One way to cope with this challenge is to explicitly model a simulator module that applies actions to entities and predicts the resulting outcome (Bosselut et al. 2018). However, such a model can be unnecessarily complex. In this paper, we propose a simplified neural network model that separates action recognition and state change prediction, while coupling the two through a novel loss function. This allows learning to indirectly influence each other. Our model, although simpler, achieves higher state change prediction performance (67% average accuracy for ours vs. 55% in (Bosselut et al. 2018)) and takes fewer samples to train (10K ours vs. 65K+ by (Bosselut et al. 2018)).
翻訳日:2023-01-07 10:12:09 公開日:2020-01-23
# 時系列予測のための深部変圧器モデル:インフルエンザ流行事例

Deep Transformer Models for Time Series Forecasting: The Influenza Prevalence Case ( http://arxiv.org/abs/2001.08317v1 )

ライセンス: Link先を確認
Neo Wu, Bradley Green, Xue Ben, Shawn O'Banion(参考訳) 本稿では,時系列予測のための新しい手法を提案する。 時系列データは、多くの科学・工学分野で広く使われている。 時系列予測は時系列データのモデリングにおいて重要なタスクであり、機械学習の重要な領域である。 本研究では,Transformerを用いた機械学習モデルを用いた時系列データの予測手法を開発した。 このアプローチは、時系列データから複雑なパターンやダイナミクスを学ぶために自己注意メカニズムを活用することで機能する。 さらに、これは汎用的なフレームワークであり、単変量および多変量時系列データ、および時系列埋め込みに適用することができる。 本研究は,インフルエンザ様疾患(ILI)の予測を事例として,本手法による予測結果が最先端技術と好適に比較できることを示す。

In this paper, we present a new approach to time series forecasting. Time series data are prevalent in many scientific and engineering disciplines. Time series forecasting is a crucial task in modeling time series data, and is an important area of machine learning. In this work we developed a novel method that employs Transformer-based machine learning models to forecast time series data. This approach works by leveraging self-attention mechanisms to learn complex patterns and dynamics from time series data. Moreover, it is a generic framework and can be applied to univariate and multivariate time series data, as well as time series embeddings. Using influenza-like illness (ILI) forecasting as a case study, we show that the forecasting results produced by our approach are favorably comparable to the state-of-the-art.
翻訳日:2023-01-07 10:11:35 公開日:2020-01-23
# 教師付き表現学習のための目標埋め込みオートエンコーダ

Target-Embedding Autoencoders for Supervised Representation Learning ( http://arxiv.org/abs/2001.08345v1 )

ライセンス: Link先を確認
Daniel Jarrett, Mihaela van der Schaar(参考訳) オートエンコーダに基づく学習は、教師なしや半教師なしの設定で表現を解き放つための基礎として登場した。 本稿では,対象空間が高次元な純粋教師付き環境における一般化の枠組みを解析する。 We motivate and formalize the general framework of target-embedding autoencoders (TEA) for supervised prediction, learning intermediate latent representations jointly optimized to be both predictable from features as well as predictive of targets---encoding the prior that variations in targets are driven by a compact set of underlying factors. As our theoretical contribution, we provide a guarantee of generalization for linear TEAs by demonstrating uniform stability, interpreting the benefit of the auxiliary reconstruction task as a form of regularization. As our empirical contribution, we extend validation of this approach beyond existing static classification applications to multivariate sequence forecasting, verifying their advantage on both linear and nonlinear recurrent architectures---thereby underscoring the further generality of this framework beyond feedforward instantiations.

Autoencoder-based learning has emerged as a staple for disciplining representations in unsupervised and semi-supervised settings. This paper analyzes a framework for improving generalization in a purely supervised setting, where the target space is high-dimensional. We motivate and formalize the general framework of target-embedding autoencoders (TEA) for supervised prediction, learning intermediate latent representations jointly optimized to be both predictable from features as well as predictive of targets---encoding the prior that variations in targets are driven by a compact set of underlying factors. As our theoretical contribution, we provide a guarantee of generalization for linear TEAs by demonstrating uniform stability, interpreting the benefit of the auxiliary reconstruction task as a form of regularization. As our empirical contribution, we extend validation of this approach beyond existing static classification applications to multivariate sequence forecasting, verifying their advantage on both linear and nonlinear recurrent architectures---thereby underscoring the further generality of this framework beyond feedforward instantiations.
翻訳日:2023-01-07 10:11:05 公開日:2020-01-23
# ニューラルネットワークモデルのスケーリング法則

Scaling Laws for Neural Language Models ( http://arxiv.org/abs/2001.08361v1 )

ライセンス: Link先を確認
Jared Kaplan, Sam McCandlish, Tom Henighan, Tom B. Brown, Benjamin Chess, Rewon Child, Scott Gray, Alec Radford, Jeffrey Wu, Dario Amodei(参考訳) クロスエントロピー損失に対する言語モデル性能に関する経験的スケーリング法則について検討する。 損失は、モデルサイズ、データセットサイズ、トレーニングに使用される計算量など、パワールールとしてスケールし、いくつかの傾向は7桁を超える。 ネットワーク幅や深さといった他のアーキテクチャの詳細は、幅広い範囲で最小限の効果を持つ。 単純な方程式はモデル/データセットサイズへのオーバーフィッティングの依存とモデルサイズへのトレーニング速度の依存を支配している。 これらの関係により、固定計算予算の最適割り当てを決定することができる。 より大規模なモデルはよりサンプリング効率が良く、最適に計算効率のトレーニングでは、比較的控えめな量のデータで非常に大きなモデルを訓練し、収束前に著しく停止する。

We study empirical scaling laws for language model performance on the cross-entropy loss. The loss scales as a power-law with model size, dataset size, and the amount of compute used for training, with some trends spanning more than seven orders of magnitude. Other architectural details such as network width or depth have minimal effects within a wide range. Simple equations govern the dependence of overfitting on model/dataset size and the dependence of training speed on model size. These relationships allow us to determine the optimal allocation of a fixed compute budget. Larger models are significantly more sample-efficient, such that optimally compute-efficient training involves training very large models on a relatively modest amount of data and stopping significantly before convergence.
翻訳日:2023-01-07 10:10:52 公開日:2020-01-23
# リッチトランザクションデータを利用したグラフニューラルネットワークによる銀行顧客リンク

Linking Bank Clients using Graph Neural Networks Powered by Rich Transactional Data ( http://arxiv.org/abs/2001.08427v1 )

ライセンス: Link先を確認
Valentina Shumovskaia, Kirill Fedyanin, Ivan Sukharev, Dmitry Berestnev and Maxim Panov(参考訳) 金融機関は、ユーザー取引や送金に関する膨大なデータを取得し、時間とともに動的に変化する大きなグラフと見なすことができる。 本研究では,バンククライアントのネットワークにおける新たなインタラクションを予測し,リンク予測問題として扱うタスクに着目した。 本稿では,ネットワークのトポロジ構造だけでなく,グラフノードやエッジで利用可能な豊富な時系列データを利用する新しいグラフニューラルネットワークモデルを提案する。 欧州大銀行が提供するデータを用いて, 開発手法を数年間にわたって評価した。 提案モデルは他のニューラルネットワークモデルを含む既存のアプローチよりも優れており、リンク予測問題におけるroc aucスコアに大きな差があり、クレジットスコアの質も向上している。

Financial institutions obtain enormous amounts of data about user transactions and money transfers, which can be considered as a large graph dynamically changing in time. In this work, we focus on the task of predicting new interactions in the network of bank clients and treat it as a link prediction problem. We propose a new graph neural network model, which uses not only the topological structure of the network but rich time-series data available for the graph nodes and edges. We evaluate the developed method using the data provided by a large European bank for several years. The proposed model outperforms the existing approaches, including other neural network models, with a significant gap in ROC AUC score on link prediction problem and also allows to improve the quality of credit scoring.
翻訳日:2023-01-07 10:10:24 公開日:2020-01-23
# 不確実性に基づくクラスアクティベーションマップによる視覚的質問応答

Uncertainty based Class Activation Maps for Visual Question Answering ( http://arxiv.org/abs/2002.10309v1 )

ライセンス: Link先を確認
Badri N. Patro, Mayank Lunayach and Vinay P. Namboodiri(参考訳) ディープラーニングモデルの理解と説明は必須課題です。 そこで本研究では,視覚的注意マップを提供する勾配に基づく確実性推定手法を提案する。 特に視覚的質問応答タスクについては解決する。 現代の確率的深層学習手法を取り入れ、これらの推定に勾配を用いることによりさらに改善する。 これらは2つの利点があります。 a) 誤分類標本と相関する確実性の推定値を得るための改善 b)ヒトの注意領域との相関で最先端の結果を提供する注意マップの改善。 注意マップの改善は、視覚的質問応答の様々な方法に対して一貫した改善をもたらす。 したがって,提案手法は,改良された確実性推定と深層学習モデルの説明を得るためのレシピとみなすことができる。 すべての標準ベンチマークで視覚的質問応答タスクの詳細な経験的分析を行い,その手法との比較を行った。

Understanding and explaining deep learning models is an imperative task. Towards this, we propose a method that obtains gradient-based certainty estimates that also provide visual attention maps. Particularly, we solve for visual question answering task. We incorporate modern probabilistic deep learning methods that we further improve by using the gradients for these estimates. These have two-fold benefits: a) improvement in obtaining the certainty estimates that correlate better with misclassified samples and b) improved attention maps that provide state-of-the-art results in terms of correlation with human attention regions. The improved attention maps result in consistent improvement for various methods for visual question answering. Therefore, the proposed technique can be thought of as a recipe for obtaining improved certainty estimates and explanations for deep learning models. We provide detailed empirical analysis for the visual question answering task on all standard benchmarks and comparison with state of the art methods.
翻訳日:2023-01-07 10:03:55 公開日:2020-01-23
# ディープデコーダを用いたgan画像の事前表現誤差の低減

Reducing the Representation Error of GAN Image Priors Using the Deep Decoder ( http://arxiv.org/abs/2001.08747v1 )

ライセンス: Link先を確認
Max Daniels, Paul Hand, Reinhard Heckel(参考訳) GANのような生成モデルは、特定の種類の画像の明示的な低次元表現を学習するので、画像復元や圧縮センシングといった逆問題を解決するために、自然な画像先行として使用できる。 GANの先行研究はこれらのタスクにおいて顕著な性能を示してきたが、学習された近似画像分布とデータ生成分布とのミスマッチのため、分布内および分布外の両方に相当な表現誤差を示すことができる。 本稿では,GAN先行画像とDeep Decoderとの線形結合をモデル化することにより,GAN先行画像の表現誤差を低減する手法を示す。 ディープデコーダ(Deep Decoder)は、Deep Image Priorと同様のパラメータ化され、最も重要でない自然信号モデルである。 本手法の根底にあるGANの訓練には,特定の逆問題に関する知識は必要ない。 圧縮センシングと画像の超解像では,ganプリミティブとディープデコーダをそれぞれ分離して,分布内画像と分布外画像の両方において一貫して高いpsnrを示す。 このモデルは、逆問題における学習と未学習の画像回復の利点の両方を拡張的かつ安価に活用する方法を提供する。

Generative models, such as GANs, learn an explicit low-dimensional representation of a particular class of images, and so they may be used as natural image priors for solving inverse problems such as image restoration and compressive sensing. GAN priors have demonstrated impressive performance on these tasks, but they can exhibit substantial representation error for both in-distribution and out-of-distribution images, because of the mismatch between the learned, approximate image distribution and the data generating distribution. In this paper, we demonstrate a method for reducing the representation error of GAN priors by modeling images as the linear combination of a GAN prior with a Deep Decoder. The deep decoder is an underparameterized and most importantly unlearned natural signal model similar to the Deep Image Prior. No knowledge of the specific inverse problem is needed in the training of the GAN underlying our method. For compressive sensing and image superresolution, our hybrid model exhibits consistently higher PSNRs than both the GAN priors and Deep Decoder separately, both on in-distribution and out-of-distribution images. This model provides a method for extensibly and cheaply leveraging both the benefits of learned and unlearned image recovery priors in inverse problems.
翻訳日:2023-01-07 10:02:15 公開日:2020-01-23
# マルチインスタンス学習を用いた局所アノテーションのない胸部X線における臨界点の局所化

Localization of Critical Findings in Chest X-Ray without Local Annotations Using Multi-Instance Learning ( http://arxiv.org/abs/2001.08817v1 )

ライセンス: Link先を確認
Evan Schwab, Andr\'e Goo{\ss}en, Hrishikesh Deshpande, Axel Saalbach(参考訳) 気胸などの胸部x線(cxr)の臨界所見の自動検出は,放射線科医の治験支援に重要である。 深層学習(DL)モデルは、ほぼ人間に近い精度で予測技術として有望なものとなっているが、説明可能性の欠如に悩まされ、高度に規制された医療産業におけるDLモデルの臨床的展開にとって重要な側面である。 例えば、画像内の臨界値の局所化は、dl分類アルゴリズムの予測を説明するのに有用である。 コンピュータビジョンのための統合分類とローカライズ手法は数多く存在するが、最先端のdlモデルはピクセルレベルラベルやバウンディングボックス座標の形で局所的な注釈付きトレーニングデータを必要とする。 医療分野では、重要な発見ごとに医療専門家による大量の手作業による注釈が必要である。 この要件は、さまざまな発見に迅速にスケール可能なトレーニングモデルの大きな障壁になります。 本稿では,cxrにおける批判的知見を局所的アノテーションを必要とせずに分類,ローカライズするマルチインスタンス学習に基づく解釈可能なdlアルゴリズムを用いて,これらの欠点を解決する。 3種類のcxrデータセットから3つの異なる臨界所見(気胸,肺炎,肺浮腫)を比較検討した。

The automatic detection of critical findings in chest X-rays (CXR), such as pneumothorax, is important for assisting radiologists in their clinical workflow like triaging time-sensitive cases and screening for incidental findings. While deep learning (DL) models has become a promising predictive technology with near-human accuracy, they commonly suffer from a lack of explainability, which is an important aspect for clinical deployment of DL models in the highly regulated healthcare industry. For example, localizing critical findings in an image is useful for explaining the predictions of DL classification algorithms. While there have been a host of joint classification and localization methods for computer vision, the state-of-the-art DL models require locally annotated training data in the form of pixel level labels or bounding box coordinates. In the medical domain, this requires an expensive amount of manual annotation by medical experts for each critical finding. This requirement becomes a major barrier for training models that can rapidly scale to various findings. In this work, we address these shortcomings with an interpretable DL algorithm based on multi-instance learning that jointly classifies and localizes critical findings in CXR without the need for local annotations. We show competitive classification results on three different critical findings (pneumothorax, pneumonia, and pulmonary edema) from three different CXR datasets.
翻訳日:2023-01-07 10:01:55 公開日:2020-01-23
# ニューラルマシン翻訳支援言語とデータ選択を活用した事前学習

Pre-training via Leveraging Assisting Languages and Data Selection for Neural Machine Translation ( http://arxiv.org/abs/2001.08353v1 )

ライセンス: Link先を確認
Haiyue Song, Raj Dabre, Zhuoyuan Mao, Fei Cheng, Sadao Kurohashi, Eiichiro Sumita(参考訳) 大きな単言語データを用いたsequence-to-sequence (s2s)プリトレーニングは、低リソース設定で様々なs2s nlpタスクのパフォーマンスを向上させることが知られている。 しかし、大きな単言語コーパスは、常に関心のある言語(LOI)で利用できるとは限らない。 そこで本研究では,LOIのための単言語コーパスの不足を補うために,他言語の単言語コーパスを活用することを提案する。 低リソースの日英ニューラルマシン翻訳(NMT)のケーススタディでは、中国語とフランス語のモノリンガルコーパスを利用することで、S2S事前学習における日本語と英語のモノリンガルコーパスの不足を克服できることが示された。 さらに、2つの単言語コーパス間の類似性を高めるためにスクリプトマッピング(中国語と日本語)を利用する方法を示し、翻訳品質をさらに向上させる。 さらに,s2sプリトレーニングの質に大きな影響を与える事前トレーニング前の簡易データ選択手法を提案する。 提案手法を実証的に比較した結果,低リソースシナリオにおけるNMT事前学習において,言語単言語コーパス,データ選択,スクリプトマッピングの活用が極めて重要であることが明らかとなった。

Sequence-to-sequence (S2S) pre-training using large monolingual data is known to improve performance for various S2S NLP tasks in low-resource settings. However, large monolingual corpora might not always be available for the languages of interest (LOI). To this end, we propose to exploit monolingual corpora of other languages to complement the scarcity of monolingual corpora for the LOI. A case study of low-resource Japanese-English neural machine translation (NMT) reveals that leveraging large Chinese and French monolingual corpora can help overcome the shortage of Japanese and English monolingual corpora, respectively, for S2S pre-training. We further show how to utilize script mapping (Chinese to Japanese) to increase the similarity between the two monolingual corpora leading to further improvements in translation quality. Additionally, we propose simple data-selection techniques to be used prior to pre-training that significantly impact the quality of S2S pre-training. An empirical comparison of our proposed methods reveals that leveraging assisting language monolingual corpora, data selection and script mapping are extremely important for NMT pre-training in low-resource scenarios.
翻訳日:2023-01-07 10:01:00 公開日:2020-01-23
# 自然言語行動空間のためのグラフ制約強化学習

Graph Constrained Reinforcement Learning for Natural Language Action Spaces ( http://arxiv.org/abs/2001.08837v1 )

ライセンス: Link先を確認
Prithviraj Ammanabrolu, Matthew Hausknecht(参考訳) インタラクティブフィクションゲーム(interactive fiction games)は、エージェントが純粋に自然言語を通じて世界と対話するテキストベースのシミュレーションである。 これらは、自然言語理解、部分観測可能性、および複合的なテキストベースのアクション空間におけるアクション生成の課題を満たすために強化学習エージェントを拡張する方法を研究するための理想的な環境である。 KG-A2Cはテンプレートベースのアクション空間を用いて動的知識グラフを探索し生成するエージェントである。 我々は,ゲーム状態の推論と自然言語生成の制約に対する知識グラフの二重利用が,複合的な大規模自然言語行動のスケーラブルな探索の鍵であると主張する。 さまざまなIFゲームにおいて,KG-A2Cは動作空間の指数的な増加にもかかわらず,現在のIFエージェントよりも優れていた。

Interactive Fiction games are text-based simulations in which an agent interacts with the world purely through natural language. They are ideal environments for studying how to extend reinforcement learning agents to meet the challenges of natural language understanding, partial observability, and action generation in combinatorially-large text-based action spaces. We present KG-A2C, an agent that builds a dynamic knowledge graph while exploring and generates actions using a template-based action space. We contend that the dual uses of the knowledge graph to reason about game state and to constrain natural language generation are the keys to scalable exploration of combinatorially large natural language actions. Results across a wide variety of IF games show that KG-A2C outperforms current IF agents despite the exponential increase in action space size.
翻訳日:2023-01-07 09:54:27 公開日:2020-01-23
# 視覚的質問応答のためのロバストな説明

Robust Explanations for Visual Question Answering ( http://arxiv.org/abs/2001.08730v1 )

ライセンス: Link先を確認
Badri N. Patro, Shivansh Pate, and Vinay P. Namboodiri(参考訳) 本稿では,視覚的質問応答(VQA)の頑健な説明を得る手法を提案する。 本モデルは,視覚的およびテキスト的説明を提供することにより,VQAモデルを用いて得られた回答を説明する。 私たちが直面する主な課題は 一 現行の方法による答弁及び説明書の相関関係がよくないこと。 二 視覚的説明の現在の方法は、その答えを説明するための適切な場所に焦点を当てない。 ノイズベース攻撃のトレーニングを行わなくても,適切な説明と回答が生成されることを保証する,協調相関モジュールを使用することで,これら2つの課題に対処する。 さらに,生成した視覚説明やテキスト説明の改善にも寄与することを示す。 相関モジュールの使用は、答えと説明が一貫性があるかどうかを検証するためのロバストな方法と考えることができる。 VQA-Xデータセットを用いてこのモデルを評価する。 提案手法は,意思決定を支援する文章的,視覚的な正当性が向上する。 視覚的およびテキスト的説明を用いた雑音による摂動攻撃に対するモデルの有効性を示す。 詳細な実験分析が示されている。 ここでは、我々のモデルである \url{https://github.com/DelTA-Lab-IITK/CCM-WACV} のソースコードリンクを提供する。

In this paper, we propose a method to obtain robust explanations for visual question answering(VQA) that correlate well with the answers. Our model explains the answers obtained through a VQA model by providing visual and textual explanations. The main challenges that we address are i) Answers and textual explanations obtained by current methods are not well correlated and ii) Current methods for visual explanation do not focus on the right location for explaining the answer. We address both these challenges by using a collaborative correlated module which ensures that even if we do not train for noise based attacks, the enhanced correlation ensures that the right explanation and answer can be generated. We further show that this also aids in improving the generated visual and textual explanations. The use of the correlated module can be thought of as a robust method to verify if the answer and explanations are coherent. We evaluate this model using VQA-X dataset. We observe that the proposed method yields better textual and visual justification that supports the decision. We showcase the robustness of the model against a noise-based perturbation attack using corresponding visual and textual explanations. A detailed empirical analysis is shown. Here we provide source code link for our model \url{https://github.com/DelTA-Lab-IITK/CCM-WACV}.
翻訳日:2023-01-07 09:54:12 公開日:2020-01-23
# ビジュアル質問生成のためのディープベイズネットワーク

Deep Bayesian Network for Visual Question Generation ( http://arxiv.org/abs/2001.08779v1 )

ライセンス: Link先を確認
Badri N. Patro, Vinod K. Kurmi, Sandeep Kumar, and Vinay P. Namboodiri(参考訳) 画像から自然の質問を生成することは、マルチモーダル表現を学習するために視覚と言語モダリティを使用する必要のある意味的なタスクである。 画像は、場所、キャプション、タグなどの複数の視覚的および言語的手がかりを持つことができる。 本稿では,これらの手法を組み合わせて自然問題を生成する,原理的ベイズ学習フレームワークを提案する。 我々は,より多くの手がかりを追加し,その間における不確実性を最小限にすることで,ベイズネットワークがより自信を持つようになることを観察する。 本稿では,確率論的質問を生成するために,キューの専門家の混在する不確実性を最小限に抑える,キューの混在の最小化不確実性(MUMC)を提案する。 これはベイズ的枠組みであり、結果は人間の研究によって検証された自然問題と顕著な類似性を示している。 より多くの手がかりが加わり、キュー間の不確実性を最小化することにより、ベイズ的枠組みはより自信を増す。 本モデルにおけるアブレーション研究は,cuesのサブセットが本課題において劣っていることを示すため,cuesの原理的融合が好ましい。 さらに,提案手法は定量的指標(BLEU-n, METEOR, ROUGE, CIDEr)の最先端ベンチマークを大幅に改善する。 ここでは、Deep Bayesian VQG \url{https://delta-lab-iitk.github.io/BVQG/} のプロジェクトリンクを提供する。

Generating natural questions from an image is a semantic task that requires using vision and language modalities to learn multimodal representations. Images can have multiple visual and language cues such as places, captions, and tags. In this paper, we propose a principled deep Bayesian learning framework that combines these cues to produce natural questions. We observe that with the addition of more cues and by minimizing uncertainty in the among cues, the Bayesian network becomes more confident. We propose a Minimizing Uncertainty of Mixture of Cues (MUMC), that minimizes uncertainty present in a mixture of cues experts for generating probabilistic questions. This is a Bayesian framework and the results show a remarkable similarity to natural questions as validated by a human study. We observe that with the addition of more cues and by minimizing uncertainty among the cues, the Bayesian framework becomes more confident. Ablation studies of our model indicate that a subset of cues is inferior at this task and hence the principled fusion of cues is preferred. Further, we observe that the proposed approach substantially improves over state-of-the-art benchmarks on the quantitative metrics (BLEU-n, METEOR, ROUGE, and CIDEr). Here we provide project link for Deep Bayesian VQG \url{https://delta-lab-iitk.github.io/BVQG/}
翻訳日:2023-01-07 09:53:55 公開日:2020-01-23
# 動的フィットネス評価によるAutoMLシステムの一般化改善

Improving generalisation of AutoML systems with dynamic fitness evaluations ( http://arxiv.org/abs/2001.08842v1 )

ライセンス: Link先を確認
Benjamin Patrick Evans, Bing Xue, Mengjie Zhang(参考訳) マシンラーニング開発者が直面している一般的な問題は、パイプラインを、目に見えないデータに対してパフォーマンスが低下するトレーニングデータにあまりにも密接に適合させることだ。 自動機械学習は、パイプライン作成の負担から開発者を解放(あるいは少なくとも容易)することを目的としているが、この過度な問題は持続する可能性がある。 実際、これは、内部クロスバリデーション(多くの場合、 \textit{k}-fold)のパフォーマンスを反復的に最適化しようとすると、より問題になり得る。 この内部のクロスバリデーションは、この過度な適合を減らそうとしていますが、私たちは、使用する特定の折り畳みに過度に適合するリスクがあることを示します。 本研究では,1 個の \textit{k}-fold に対する余分なコストが少なく,通常の \textit{k}-fold よりもはるかに安価で,反復的 \textit{k}-fold のクロスバリデーションを近似する動的適合性評価を導入することで,この問題を解決しようとする。 その結果、時間と等しくなると、提案したフィットネス関数は、内部の単一 \textit{k}-フォルダを使用する最先端のベースライン法よりも大幅に改善されることがわかった。 さらに、提案した拡張は、既存の進化的計算法上に実装するのが非常に簡単であり、基本的には一般化/テスト性能の無料向上を提供することができる。

A common problem machine learning developers are faced with is overfitting, that is, fitting a pipeline too closely to the training data that the performance degrades for unseen data. Automated machine learning aims to free (or at least ease) the developer from the burden of pipeline creation, but this overfitting problem can persist. In fact, this can become more of a problem as we look to iteratively optimise the performance of an internal cross-validation (most often \textit{k}-fold). While this internal cross-validation hopes to reduce this overfitting, we show we can still risk overfitting to the particular folds used. In this work, we aim to remedy this problem by introducing dynamic fitness evaluations which approximate repeated \textit{k}-fold cross-validation, at little extra cost over single \textit{k}-fold, and far lower cost than typical repeated \textit{k}-fold. The results show that when time equated, the proposed fitness function results in significant improvement over the current state-of-the-art baseline method which uses an internal single \textit{k}-fold. Furthermore, the proposed extension is very simple to implement on top of existing evolutionary computation methods, and can provide essentially a free boost in generalisation/testing performance.
翻訳日:2023-01-07 09:53:31 公開日:2020-01-23
# 深層学習と代理支援遺伝的アルゴリズムを組み合わせた観測者変動を考慮した医用画像分割

Observer variation-aware medical image segmentation by combining deep learning and surrogate-assisted genetic algorithms ( http://arxiv.org/abs/2001.08552v1 )

ライセンス: Link先を確認
Arkadiy Dushatskiy, Adri\"enne M. Mendrik, Peter A. N. Bosman, Tanja Alderliesten(参考訳) 近年,深層学習アルゴリズムを用いた医用画像の自動セグメンテーションが大きな進歩を遂げている。 ほとんどの作業において、オブザーバ変動はトレーニングデータを不均一にするので問題視されているが、今のところこの変動を明示的に捉える試みは行われていない。 本稿では, セグメンテーションの異なるスタイルを模倣し, 自動セグメンテーション法の品質と臨床受容性を向上する手法を提案する。 本研究では、利用可能なすべてのデータに対して1つのニューラルネットワークをトレーニングする代わりに、異なるセグメンテーションに属するデータのサブグループで複数のニューラルネットワークを個別にトレーニングする。 データにどの形式のセグメンテーションが存在するのか、また、異なるスタイルが必ずしも1対1で異なるオブザーバにマップするとは限らないため、サブグループを自動的に決定する必要がある。 遺伝的アルゴリズムを用いて最適なデータ分割を探すことでこれを実現できる。 そのため、各ネットワークは、グループ化されたトレーニングデータから特定のセグメンテーションのスタイルを学ぶことができる。 実測値の変動を模擬したオープンソースの前立腺分割MRIデータに対する原理的結果の証明を行う。 提案手法は,全データでトレーニングした1つのネットワークと比較して,Diceおよび表面Dice係数の最大23%の改善を実現している。

There has recently been great progress in automatic segmentation of medical images with deep learning algorithms. In most works observer variation is acknowledged to be a problem as it makes training data heterogeneous but so far no attempts have been made to explicitly capture this variation. Here, we propose an approach capable of mimicking different styles of segmentation, which potentially can improve quality and clinical acceptance of automatic segmentation methods. In this work, instead of training one neural network on all available data, we train several neural networks on subgroups of data belonging to different segmentation variations separately. Because a priori it may be unclear what styles of segmentation exist in the data and because different styles do not necessarily map one-on-one to different observers, the subgroups should be automatically determined. We achieve this by searching for the best data partition with a genetic algorithm. Therefore, each network can learn a specific style of segmentation from grouped training data. We provide proof of principle results for open-sourced prostate segmentation MRI data with simulated observer variations. Our approach provides an improvement of up to 23% (depending on simulated variations) in terms of Dice and surface Dice coefficients compared to one network trained on all data.
翻訳日:2023-01-07 09:53:04 公開日:2020-01-23
# SS-Auto:超高効率DNNの単ショット自動構造化軽量打ち込みフレームワーク

SS-Auto: A Single-Shot, Automatic Structured Weight Pruning Framework of DNNs with Ultra-High Efficiency ( http://arxiv.org/abs/2001.08839v1 )

ライセンス: Link先を確認
Zhengang Li, Yifan Gong, Xiaolong Ma, Sijia Liu, Mengshu Sun, Zheng Zhan, Zhenglun Kong, Geng Yuan, Yanzhi Wang(参考訳) ハードウェア効率と推論高速化のためのDNNの代表的なモデル圧縮技術である。 異なる構造を有する刈り取り方式を組み合わせたスパース構造は, 完全かつ効率的には利用されないため, これまでの作業は改善の余地を残している。 この制限を緩和するために,一発で自動構造式プルーニングフレームワークであるSS-Autoを提案し,同時に行プルーニングと列プルーニングを実現する。 我々は,最先端admm法で使用されるl0ノルム制約の強い非凸性を軽減するために,ソフト制約に基づく定式化を採用する。 この問題を直接解く代わりに、全ての重みを等しくペナルティする落とし穴を避けるため、原始近位解が提案され、精度が向上する。 CIFAR-10とCIFAR-100データセットの大規模な実験により、提案フレームワークは精度を保ちながら超高プルーニング率を達成することができることを示した。 さらに,スマートフォン上での実際の計測により,提案手法から重要な推論速度が観測されている。

Structured weight pruning is a representative model compression technique of DNNs for hardware efficiency and inference accelerations. Previous works in this area leave great space for improvement since sparse structures with combinations of different structured pruning schemes are not exploited fully and efficiently. To mitigate the limitations, we propose SS-Auto, a single-shot, automatic structured pruning framework that can achieve row pruning and column pruning simultaneously. We adopt soft constraint-based formulation to alleviate the strong non-convexity of l0-norm constraints used in state-of-the-art ADMM-based methods for faster convergence and fewer hyperparameters. Instead of solving the problem directly, a Primal-Proximal solution is proposed to avoid the pitfall of penalizing all weights equally, thereby enhancing the accuracy. Extensive experiments on CIFAR-10 and CIFAR-100 datasets demonstrate that the proposed framework can achieve ultra-high pruning rates while maintaining accuracy. Furthermore, significant inference speedup has been observed from the proposed framework through actual measurements on the smartphone.
翻訳日:2023-01-07 09:52:23 公開日:2020-01-23
# セミリグレッシブトレーニングによるマスク予測復号の改善

Semi-Autoregressive Training Improves Mask-Predict Decoding ( http://arxiv.org/abs/2001.08785v1 )

ライセンス: Link先を確認
Marjan Ghazvininejad, Omer Levy, Luke Zettlemoyer(参考訳) 最近提案されたマスク予測復号アルゴリズムは、半自己回帰機械翻訳モデルと従来の左から右へのアプローチのパフォーマンスギャップを狭めている。 マスク予測の半自己回帰動作を模倣した条件付きマスキング言語モデルSMARTの新たなトレーニング手法を導入し,モデル予測を入力の一部として含むトレーニング例を作成する。 SMARTでトレーニングされたモデルは、マスク予測デコードを使用すると高品質な変換を生成し、完全な自己回帰モデルで残りの性能ギャップを効果的に閉じる。

The recently proposed mask-predict decoding algorithm has narrowed the performance gap between semi-autoregressive machine translation models and the traditional left-to-right approach. We introduce a new training method for conditional masked language models, SMART, which mimics the semi-autoregressive behavior of mask-predict, producing training examples that contain model predictions as part of their inputs. Models trained with SMART produce higher-quality translations when using mask-predict decoding, effectively closing the remaining performance gap with fully autoregressive models.
翻訳日:2023-01-07 09:52:03 公開日:2020-01-23
# 深層学習における創発言語の構成特性

Compositional properties of emergent languages in deep learning ( http://arxiv.org/abs/2001.08618v1 )

ライセンス: Link先を確認
Bence Keresztury and Elia Bruni(参考訳) 多エージェント深層学習システムにおける最近の発見は、合成言語の出現を示唆している。 これらの主張は、しばしば言語の正確な分析やテストなしになされる。 本研究では,2つの異なる協調型マルチエージェントゲームから生じる創発的言語を,より正確な構成性の尺度で解析する。 以上の結果から,深層学習モデルの解は,しばしば抽象レベルでの推論能力に欠けるため,学習知識をトレーニング分布の例に一般化できないことが示唆された。 構成能力のテスト戦略と人間レベルの概念の出現について述べる。

Recent findings in multi-agent deep learning systems point towards the emergence of compositional languages. These claims are often made without exact analysis or testing of the language. In this work, we analyze the emergent language resulting from two different cooperative multi-agent game with more exact measures for compositionality. Our findings suggest that solutions found by deep learning models are often lacking the ability to reason on an abstract level therefore failing to generalize the learned knowledge to out of the training distribution examples. Strategies for testing compositional capacities and emergence of human-level concepts are discussed.
翻訳日:2023-01-07 09:51:53 公開日:2020-01-23