このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200430となっている論文です。

PDF登録状況(公開日: 20200430)

TitleAuthorsAbstract論文公表日・翻訳日
# 統計力学におけるヘルマン・ファインマンの定理について

On the Hellmann-Feynman theorem in statistical mechanics ( http://arxiv.org/abs/2004.04018v3 )

ライセンス: Link先を確認
Paolo Amore, Francisco M. Fern\'andez(参考訳) 本稿では、統計力学におけるヘルマン・ファインマンの定理をハミルトニアン作用素の固有値や固有ベクトルに頼らずに展開する。 このアプローチでは、定理の量子力学的バージョンを$t=0$で必要とせず、縮退状態に関する議論をバイパスする。

In this paper we develop the Hellmann-Feynman theorem in statistical mechanics without resorting to the eigenvalues and eigenvectors of the Hamiltonian operator. Present approach does not require the quantum-mechanical version of the theorem at $T=0$ and bypasses any discussion about degenerate states.
翻訳日:2023-05-25 11:44:14 公開日:2020-04-30
# 普遍時間最適非可換幾何ゲートの実験的実現

Experimental Realization of Universal Time-optimal non-Abelian Geometric Gates ( http://arxiv.org/abs/2004.10364v2 )

ライセンス: Link先を確認
Zhikun Han, Yuqian Dong, Baojie Liu, Xiaopei Yang, Shuqing Song, Luqing Qiu, Danyu Li, Ji Chu, Wen Zheng, Jianwen Xu, Tianqi Huang, Zhimin Wang, Xiangmin Yu, Xinsheng Tan, Dong Lan, Man-Hong Yung, and Yang Yu(参考訳) 量子位相の幾何学的性質に基づき、非断熱ホロノミック量子制御(nhqc)は量子ゲート構築におけるロバスト性を強化する標準的な技術となっている。 しかし、NHQCの従来のアプローチは、固定パルス領域をカバーするために駆動パルスを必要とするため、不安定性を制御することに敏感である。 さらに、小角回転であっても、全ての操作は同じ時間内に完了する必要がある。 ここでは, ホロノミックゲートの動作時間を最適化できるNHQC(TOUNHQC)の時間最適かつ非従来的アプローチを実験的に実証する。 従来のアプローチと比較して、tounhqcはデコヒーレンスと制御エラーに対する堅牢性の層を提供する。 この実験は超伝導回路のスケーラブルなアーキテクチャを伴い、1つのキュービットゲートに対して99.51%の忠実性を達成した。 また,NHQCと比較してゲート誤差を最大18%低減できる2ビットホロノミック制御相ゲートが実装されている。

Based on the geometrical nature of quantum phases, non-adiabatic holonomic quantum control (NHQC) has become a standard technique for enhancing robustness in constructing quantum gates. However, the conventional approach of NHQC is sensitive to control instability, as it requires the driving pulses to cover a fixed pulse area. Furthermore, even for small-angle rotations, all operations need to be completed with the same duration of time. Here we experimentally demonstrate a time-optimal and unconventional approach of NHQC (called TOUNHQC), which can optimize the operation time of any holonomic gate. Compared with the conventional approach, TOUNHQC provides an extra layer of robustness to decoherence and control errors. The experiment involves a scalable architecture of superconducting circuit, where we achieved a fidelity of 99.51% for a single qubit gate using interleaved randomized benchmarking. Moreover, a two-qubit holonomic control-phase gate has been implemented where the gate error can be reduced by as much as 18% compared with NHQC.
翻訳日:2023-05-22 11:14:24 公開日:2020-04-30
# 光学系における分散・外部・固有散逸結合に対する線形解析的アプローチ

Linear analytical approach to dispersive, external and intrinsic dissipative couplings in optomechanical systems ( http://arxiv.org/abs/2004.10451v2 )

ライセンス: Link先を確認
Joris Baraillon, Boris Taurel, Pierre Labeye and Laurent Duraffourg(参考訳) 共振周波数(分散結合)と光共振器の減衰率(分散結合)の両方を機械共振器が変調する光機械系の理論的研究を行った。 汎用分散フレームワークをより一般的なケースに拡張し、散逸結合を外部と内在的な貢献の間で分割する。 本稿では,3つのカップリング機構に対する各光損失(内因性および外因性)の影響を完全に分析し,各外部減衰率レジームの興味を強調する。 3つのカップリングを実験的に同定する基本ツールとその光学応答に対する相対的影響を示す。 光ばね効果と光減衰の一般表現を実証する。 文献から得られたフォトニック結晶系の実験的測定値と理論様相の比較は良好である。

We present a theoretical study of optomechanical systems in which the mechanical resonator modulates both the resonant frequency (dispersive coupling) and the decay rates (dissipative coupling) of the optical cavity. We extend the generic dispersive framework to a more general case in which the dissipative coupling is split between its external and intrinsic contribution. We report a complete analysis of the influence of each kind of optical losses (intrinsic and external) on the three coupling mechanisms and highlight the interest of each external decay rate regime. The basic tools to experimentally identify the three couplings and their relative influence on the optical response are presented. We demonstrate the general expression of the optical spring effect and optomechanical damping. Comparison between experimental measurements in photonic crystal systems from the literature and our theoretical modal yields good agreement.
翻訳日:2023-05-22 11:08:05 公開日:2020-04-30
# 量子相転移近傍のボース系臨界ダイナミクス

Bose system critical dynamics near quantum phase transition ( http://arxiv.org/abs/2004.14086v2 )

ライセンス: Link先を確認
M. G. Vasin, V. M. Vinokur(参考訳) 量子臨界点(QCP)付近の変動スペクトルの変化は、QCPへのアプローチによる有効次元の増大による温度による臨界指数の連続的な変化をもたらす可能性があることを示す。 後者は、熱ゆらぎのホワイトノイズモードから量子ゆらぎ状態への交差を反映する。 ケルディッシュ・シュウィンガー法を用いてボース=アインシュタインに従属する典型システムの臨界ダイナミクスを調査し,臨界指数の温度依存性の解析式を得ることを可能にする再正規化群法を開発した。

We show that the change of the fluctuation spectrum near the quantum critical point (QCP) may result in the continuous change of critical exponents with temperature due to the increase in the effective dimensionality upon approach to QCP. The latter reflects the crossover from thermal fluctuations white noise mode to the quantum fluctuations regime. We investigate the critical dynamics of an exemplary system obeying the Bose-Einstein employing the Keldysh-Schwinger approach and develop the renormalization group technique that enables us to obtain analytical expressions for temperature dependencies of critical exponents.
翻訳日:2023-05-21 19:36:54 公開日:2020-04-30
# 純混合状態に符号化されたマスキング量子情報

Masking quantum information encoded in pure and mixed states ( http://arxiv.org/abs/2004.14572v1 )

ライセンス: Link先を確認
Huaixin Cao, Yuxing Du, Zhihua Guo, Kanyuan Han and Chuan Yang(参考訳) 量子情報のマスキングは、情報がサブシステムから隠蔽され、複合システム上に広がることを意味する。 Modi et al. は[Phys. Rev. 120, 230501 (2018)]で、これは非直交量子状態の制限された集合に当てはまり、任意の量子状態では不可能であることを示した。 本稿では,純状態と混合状態に符号化された量子情報をマスキングする問題について論じる。 一組の純状態が作用素によってマスキングされるための確立された必要十分条件に基づいて、マスキングできない4つの状態の集合が存在することを見出し、未知の純状態を隠すことは不可能であることを示す。 マスカ $s^\sharp$ を構築し、その極大マスカブル集合を得るため、上記の modi の論文で提案された予想に対する肯定的な答えを得る。 また、純粋状態の直交部分集合(線型独立部分集合)が等距離(逆射影)によって隠蔽されることも証明する。 純粋な状態の場合を一般化すると、混合状態の集合のマスク可能性を導入し、混合状態の通勤部分集合が、任意の作用素によって混合状態の全てをマスクすることは不可能であるが、等尺$S^{\diamond}$でマスクできることを証明する。 また、等長集合の混合状態の最大のマスク可能な集合は、それぞれ${S^{\sharp}}$と${S^{\diamond}}$である。

Masking of quantum information means that information is hidden from a subsystem and spread over a composite system. Modi et al. proved in [Phys. Rev. Lett. 120, 230501 (2018)] that this is true for some restricted sets of nonorthogonal quantum states and it is not possible for arbitrary quantum states. In this paper, we discuss the problem of masking quantum information encoded in pure and mixed states, respectively. Based on an established necessary and sufficient condition for a set of pure states to be masked by an operator, we find that there exists a set of four states that can not be masked, which implies that to mask unknown pure states is impossible. We construct a masker $S^\sharp$ and obtain its maximal maskable set, leading to an affirmative answer to a conjecture proposed in Modi's paper mentioned above. We also prove that an orthogonal (resp. linearly independent) subset of pure states can be masked by an isometry (resp. injection). Generalizing the case of pure states, we introduce the maskability of a set of mixed states and prove that a commuting subset of mixed states can be masked by an isometry $S^{\diamond}$ while it is impossible to mask all of mixed states by any operator. We also find the maximal maskable sets of mixed states of the isometries ${S^{\sharp}}$ and ${S^{\diamond}}$, respectively.
翻訳日:2023-05-21 17:30:46 公開日:2020-04-30
# d-majorization と thermo-majorization の2つの構成的証明

Two constructive proofs on d-majorization and thermo-majorization ( http://arxiv.org/abs/2004.14751v1 )

ライセンス: Link先を確認
Naoto Shiraishi(参考訳) d-大域化と熱大域化に関する2つの構成的証明を提供する。 第一部では、d-行列化と適切な確率行列の存在の間の同値性の図式的証明を示す。 グラフィカルな引数を用いて所望の確率行列を明示的に構築する。 第2部では,古典システムにおけるギブス保存写像と熱操作の等価性の構成的証明を示す。 任意のギブス保存マップを任意の精度でエミュレートする,所望の熱操作と熱浴を構築した。

Two constructive proofs on d-majorization and thermo-majorization are provided. In the first part, we present a diagrammatic proof of the equivalence between d-majorization and the existence of a proper stochastic matrix. We explicitly construct the desired stochastic matrix by using a graphical argument. In the second part, we present a constructive proof of the equivalence between the Gibbs-preserving map and thermal operation in classical systems. We construct the desired thermal operation and a heat bath which emulates any Gibbs-preserving map with an arbitrary accuracy.
翻訳日:2023-05-21 17:25:58 公開日:2020-04-30
# ソーシャル・ディスタンシング・慣性(social distancing inertia)の観察された移動行動データ

Observed mobility behavior data reveal social distancing inertia ( http://arxiv.org/abs/2004.14748v1 )

ライセンス: Link先を確認
Sepehr Ghader, Jun Zhao, Minha Lee, Weiyi Zhou, Guangchen Zhao, Lei Zhang(参考訳) 研究チームは、匿名の位置情報データ、新型コロナウイルスのケースデータ、国勢調査人口情報からなる統合データセットを使用して、COVID-19が人間の移動に与える影響を調査した。 調査の結果,ソーシャルディスタンシングに関連する統計,すなわちトリップ率,1人あたりマイル走行距離,在宅滞在率などはすべて予期せぬ傾向を示し,社会ディスタンシング慣性(social distancing inertia)と命名した。 この傾向は、新型コロナウイルスの感染者が観察されるとすぐに、政府の行動に関わらず、統計が改善し始めたことを示している。 これは、ソーシャルディスタンシングを自発的かつ自然に実践することのできる人口の一部が、新型コロナウイルス(covid-19)の流行に反応したことを示唆している。 しかし、新型コロナウイルスの感染拡大が続いているにもかかわらず、約2週間で統計は飽和し、改善は止まった。 この研究は、ソーシャルディスタンシングに対する自然な行動慣性が存在することを示唆し、ソーシャルディスタンシング関連統計の改善の程度を制限している。 全国データによると、慣性現象は普遍的であり、米国全州および調査された統計全てで起こっている。 米国は、新型コロナウイルス(covid-19)の感染拡大や政府の命令の時系列に関わらず、同期した傾向を示した。

The research team has utilized an integrated dataset, consisting of anonymized location data, COVID-19 case data, and census population information, to study the impact of COVID-19 on human mobility. The study revealed that statistics related to social distancing, namely trip rate, miles traveled per person, and percentage of population staying at home have all showed an unexpected trend, which we named social distancing inertia. The trends showed that as soon as COVID-19 cases were observed, the statistics started improving, regardless of government actions. This suggests that a portion of population who could and were willing to practice social distancing voluntarily and naturally reacted to the emergence of COVID-19 cases. However, after about two weeks, the statistics saturated and stopped improving, despite the continuous rise in COVID-19 cases. The study suggests that there is a natural behavior inertia toward social distancing, which puts a limit on the extent of improvement in the social-distancing-related statistics. The national data showed that the inertia phenomenon is universal, happening in all the U.S. states and for all the studied statistics. The U.S. states showed a synchronized trend, regardless of the timeline of their statewide COVID-19 case spreads or government orders.
翻訳日:2023-05-21 17:25:49 公開日:2020-04-30
# 古典シミュレーションフレームワークを用いた弱コヒーレントCV-QKDシステムのモデル化

Modelling Weak-Coherent CV-QKD Systems Using a Classical Simulation Framework ( http://arxiv.org/abs/2004.14703v1 )

ライセンス: Link先を確認
S\"oren Kreinberg, Igor Koltchanov, Piotr Novik, Saleem Alreesh, Fabian Laudenbach, Christoph Pacher, Hannes H\"ubel, and Andr\'e Richter(参考訳) 既存の通信技術との互換性のため、連続変数(CV)の弱いコヒーレントな状態プロトコルは量子鍵分布(QKD)技術の広範な展開の候補となる。 本稿では,従来の光学系をモデル化するためのシミュレーションフレームワークを,弱いコヒーレントCV-QKDリンクのシミュレーションに利用できることを示す。 コヒーレント信号の測定特性の量子不確かさはショットノイズによって電気領域でモデル化され、光領域におけるコヒーレント信号はその二次成分によって記述される。 減衰,レーザーリン,ラマンノイズ(同繊維の古典的チャネルからのノイズ),デバイス不完全性などの様々な劣化効果をシミュレーションし,結果と解析理論を比較した。 物理シミュレーション層を後処理層(調整とプライバシー増幅)で補完することにより、シミュレーションから安全な鍵レートを推定でき、実用的なcv-qkdスキームや実装の開発速度を大幅に向上させることができる。

Due to their compatibility to existing telecom technology, continuous variable (CV) weak coherent state protocols are promising candidates for a broad deployment of quantum key distribution (QKD) technology. We demonstrate how an existing simulation framework for modelling classical optical systems can be utilized for simulations of weak-coherent CV-QKD links. The quantum uncertainties for the measured characteristics of coherent signals are modelled in the electrical domain by shot noise, while a coherent signal in the optical domain is described by its quadrature components. We simulate various degradation effects such as attenuation, laser RIN, Raman noise (from classical channels in the same fibre), and device imperfections and compare the outcome with analytical theory. Having complemented the physical simulation layer by the post-processing layer (reconciliation and privacy amplification), we are able to estimate secure key rates from simulations, greatly boosting the development speed of practical CV-QKD schemes and implementations.
翻訳日:2023-05-21 17:25:26 公開日:2020-04-30
# 学習能力解析のためのair selection based augmented reality serious gameの設計と実装

Design and Implementation of Air Selection based Augmented Reality Serious Game for Learning Capability Analysis ( http://arxiv.org/abs/2004.14685v1 )

ライセンス: Link先を確認
Harini. M, Harini. T, Roxanna Samuel(参考訳) 高度化とICTは社会の生活様式を変え、すべての論理ゾーンが真の改善を得るためにイノベーションを活用している。 専門家は、本物のゲームを依存可能な精神分析装置として利用する利点を理解している。 したがって、この調査は、若者のDyspraxia問題に関する重要な問題に注目し、非自律的な滑走を活用して、ゲームを活用することにより、Dyspraxiaに苦しむ子どもたちが、イノベーションを通じてエンジンの適性やデフタネスを高めることを支援することを目的としたシリアスゲームである治療戦略に関する同様の報告書を提示する。 情報分析の結果,この2つの戦略には批判的な違いがあり,本格的ゲームに時間を費やす若者は運動のスケジュールがほとんどなく,さらに実行能力も向上した。

Rising advancements and ICT have changed the way of life of society, every single logical zone are exploiting innovation to get a genuine improvement. Specialists understand the advantages of utilizing genuine games as a dependable device in psychoanalyst. Hence, the exploration looks at important issues in regards to Dyspraxia issue in youngsters and presents a similar report in the treatments strategies by utilizing a non autonomous riddle and by utilizing the game, a Serious Game created in the intension of helping kids suffering from Dyspraxia to enhance their engine aptitudes and deftness through innovation. The investigation of information results indicated that exist a critical distinction among the two strategies, demonstrating that youngsters spending time with Serious Game got little schedule in the movement running and furthermore enhanced execution.
翻訳日:2023-05-21 17:25:11 公開日:2020-04-30
# 量子ネットワークシステムの動的モデリングにおけるアクセス可能な集合の生成

Generation of accessible sets in the dynamical modelling of quantum network systems ( http://arxiv.org/abs/2004.14663v1 )

ライセンス: Link先を確認
Qi Yu, Yuanlong Wang, Daoyi Dong, Ian R. Petersen, and Guo-Yong Xiang(参考訳) 本稿では,量子ビットからなる量子ネットワークシステムの動的モデリングについて検討する。 量子ネットワークシステムの選択されたノードの集合を測定するために量子ビットプローブが用いられる。 様々なアプリケーションにおいて、状態空間モデルはシステムのダイナミクスをモデル化する有用な方法である。 量子ネットワークシステムのための状態空間モデルを構築するために、主要なタスクは、測定演算子に結合されたすべての演算子を含むアクセス可能な集合を見つけることである。 本稿では,所定のシステムに対する適切なアクセス可能な集合の生成と測定手法について述べる。 時間非依存のハミルトニアンを持つシステムに対して、アクセス可能な集合を生成するプロセスを単純化する解析結果を提供する。 アクセス可能な集合内の要素の順序が状態空間行列の形式を決定するので、状態ベクトル内の要素の順序を効果的に配置するためのガイダンスを提供する。 アクセス可能なセットに従ってシステム状態を定義することで、システム構造から継承される特別なパターンを持つ状態空間モデルを開発することができる。 実演として,いくつかの共通の測定値を持つ典型的な1d鎖系を特に検討し,提案手法を用いて到達可能な集合を決定する。

In this paper, we consider the dynamical modeling of a class of quantum network systems consisting of qubits. Qubit probes are employed to measure a set of selected nodes of the quantum network systems. For a variety of applications, a state space model is a useful way to model the system dynamics. To construct a state space model for a quantum network system, the major task is to find an accessible set containing all of the operators coupled to the measurement operators. This paper focuses on the generation of a proper accessible set for a given system and measurement scheme. We provide analytic results on simplifying the process of generating accessible sets for systems with a time-independent Hamiltonian. Since the order of elements in the accessible set determines the form of state space matrices, guidance is provided to effectively arrange the ordering of elements in the state vector. Defining a system state according to the accessible set, one can develop a state space model with a special pattern inherited from the system structure. As a demonstration, we specifically consider a typical 1D-chain system with several common measurements, and employ the proposed method to determine its accessible set.
翻訳日:2023-05-21 17:23:51 公開日:2020-04-30
# 単一非線形発振器を用いた量子貯水池計算

Quantum reservoir computing with a single nonlinear oscillator ( http://arxiv.org/abs/2004.14965v1 )

ライセンス: Link先を確認
L. C. G. Govia, G. J. Ribeill, G. E. Rowlands, H. K. Krovi, and T. A. Ohki(参考訳) 量子情報処理の約束を実現することは、ノイズとエラーの万能さを考えると、依然として大変な作業である。 量子力学へのノイズ耐性の古典的計算モダリティの適応は、ノイズの強い中間スケール量子時代における短期的応用への道のりとなるかもしれない。 本稿では、単一非線形発振器における連続可変量子貯水池計算を提案する。 我々のモデルの数値シミュレーションを通じて、量子古典的性能の向上を示し、その可能性の源である量子測定の非線形性を特定する。 量子リザーバコンピューティング以外にも、この結果は量子機械学習における結果の解釈に影響を与える可能性がある。 量子貯水池の性能がヒルベルト空間次元にどのように依存するか, 入射雑音の影響について検討し, その実験的実装について簡単に述べる。 その結果,単一非線形発振器における量子リザーバコンピューティングは,短期ハードウェア上での量子コンピューティングにとって魅力的なモダリティであることがわかった。

Realizing the promise of quantum information processing remains a daunting task, given the omnipresence of noise and error. Adapting noise-resilient classical computing modalities to quantum mechanics may be a viable path towards near-term applications in the noisy intermediate-scale quantum era. Here, we propose continuous variable quantum reservoir computing in a single nonlinear oscillator. Through numerical simulation of our model we demonstrate quantum-classical performance improvement, and identify its likely source: the nonlinearity of quantum measurement. Beyond quantum reservoir computing, this result may impact the interpretation of results across quantum machine learning. We study how the performance of our quantum reservoir depends on Hilbert space dimension, how it is impacted by injected noise, and briefly comment on its experimental implementation. Our results show that quantum reservoir computing in a single nonlinear oscillator is an attractive modality for quantum computing on near-term hardware.
翻訳日:2023-05-21 17:17:44 公開日:2020-04-30
# 高次基数を用いた多光子・多次元ハイパーエンタングルメントと量子コンピューティング,QKD,量子テレポーテーションへの応用

Multi-Photon, Multi-Dimensional Hyper-Entanglement using Higher-Order Radix qudits with Applications to Quantum Computing, QKD and Quantum Teleportation ( http://arxiv.org/abs/2004.14956v1 )

ライセンス: Link先を確認
Solyman Ashrafi, Logan Campbell(参考訳) googleは先日、53量子ビット(base-2バイナリまたはradix-2)で253次元(約1016)の計算状態空間で量子超越を達成したと発表した。 googleは、従来のスーパーコンピュータで達成するのに1万年を要した量子プロセッサ上で200秒の計算を行うと主張した [1]。 しかし、53キュービットの重ね合わせと絡み合いを達成することは、キュービットを分解する環境ノイズを考えると簡単な作業ではない。 本稿では、フォトニクスシステム(つまり16量子ビットとラディックス-10)を用いて、各クディットが高基数(2より大きい)であるような、クディットの少ない類似の計算次元を達成できると主張している。 本稿は,業界とNxGen Partnersの共同開発であり,このようなアプローチを探求する。 適応光学を必要としないフリースペース光学(FSO)ファブリペロエタロン(Fabry-Perot Etalon)を用いるレイセオン技術がある[2, 3]。 NxGen技術は、量子コンピューティングの新たな自由度と多次元QKD[4-7]として、複数のOrbital Angular Momentum(OAM)モードを使用する。 また、ブロードバンド、セキュア通信、量子コンピューティング、量子テレポーテーションの両方の収束は、フォトニクス実現においてのみ可能であると主張する。 したがって、フォトニッククイディットを使用することで、中国のミシウス量子衛星(8)で達成されたことを超えて、量子テレポーテーションのセキュリティとキャパシティを拡張できる。 防衛産業と商用コンピューティング産業の両方がこのような量子コンピューティングシステムを必要としている。 新しい尺度は、計算状態空間次元、高忠実度演算、高接続性、大口径ゲートセット、回路書き換えツールチェーンを備える。 私たちが量子容量と呼ぶこの新しい尺度は、ユニバーサル量子コンピュータのシステム構造の改善に向けた進歩を計測し比較するための実用的な方法である。

Google recently announced that they had achieved quantum supremacy with 53 qubits (base-2 binaries or radix-2), corresponding to a computational state-space of dimension 253 (about 1016). Google claimed to perform computations that took 200 seconds on their quantum processor that would have taken 10,000 years to accomplish on a classical supercomputer [1]. However, achieving superposition and entanglement of 53 qubits is not an easy task given the environmental noise that decoheres the qubits. In this paper, we claim that one can potentially achieve a similar computational dimension with fewer qudits (not qubits) where each qudit is of a higher radix (greater than 2) using a photonics system (i.e. 16 qudits with radix-10). This paper is a collaborative development between industry and NxGen Partners to explore such an approach. There is a Raytheon technology that uses a Free-Space Optical (FSO) Fabry-Perot Etalon that eliminates the need for adaptive optics [2, 3]. The NxGen technology uses multiple Orbital Angular Momentum (OAM) modes as a new degree of freedom for quantum computing and a multi-dimensional QKD [4-7]. We also claim that the convergence of both broadband, secure communications, quantum computing and quantum teleportation is only possible in a photonics realization. Therefore, the use of photonic qudits allows the extension of security and capacity of the quantum teleportation beyond what was achieved by Chinese Micius quantum satellite [8]. Both the defense and commercial computing industries need such quantum computing systems. A new measure is introduced with computational state-space dimension, high-fidelity operations, high connectivity, large calibrated gate sets, and circuit rewriting toolchains. This new measure which we call quantum capacity is a practical way to measure and compare progress toward improved system structure of a universal quantum computer.
翻訳日:2023-05-21 17:17:29 公開日:2020-04-30
# QBismにおけるエージェントの拡張

Extending the Agent in QBism ( http://arxiv.org/abs/2004.14847v1 )

ライセンス: Link先を確認
Jacques Pienaar(参考訳) 量子力学の主観的ベイズ解釈 (qbism) によれば、量子系を測定するのに使われる機器は、それらを使用するエージェントの感覚の拡張と見なされ、量子状態は、これらの拡張された感覚を通じてエージェントが経験することに対するエージェントの期待を記述する。 QBismはどのようにしてその事実を説明できるのか 一 何でも「感覚」に使える前に、計器を校正しなければならない。 (二)他の楽器より正確であるもの 三)より精密な機器が新システムの発見につながるか。 さらに、より正確でない楽器を好んで使う場合、エージェントは「不整合」か? ここではこれらの質問に答える。

According to the subjective Bayesian interpretation of quantum mechanics (QBism), the instruments used to measure quantum systems are to be regarded as an extension of the senses of the agent who is using them, and quantum states describe the agent's expectations for what they will experience through these extended senses. How can QBism then account for the fact that (i) instruments must be calibrated before they can be used to `sense' anything; (ii) some instruments are more precise than others; (iii) more precise instruments can lead to discovery of new systems? Furthermore, is the agent `incoherent' if they prefer to use a less precise instrument? Here we provide answers to these questions.
翻訳日:2023-05-21 17:15:08 公開日:2020-04-30
# 外部磁場印加によるダイヤモンド中の窒素空孔中心の基底状態多様体間の遷移の制御

Control of all the transitions between ground state manifolds of nitrogen vacancy centers in diamonds by applying external magnetic driving fields ( http://arxiv.org/abs/2005.00040v1 )

ライセンス: Link先を確認
Tatsuma Yamaguchi, Yuichiro Matsuzaki, Soya Saijo, Hideyuki Watanabe, Norikazu Mizuochi, Junko Ishi-Hayase(参考訳) ダイヤモンド中の窒素空孔(NV)中心は量子情報処理と量子センシングにおいて有望なシステムであり、実用的な応用には量子状態の制御が不可欠である。 本研究では,nv中心の基底状態サブレベル間の3つの遷移を外部磁場を印加することで制御することを示す。 4つの軸の間の特定のNV軸の状態に対処するために、NV軸に直交する磁場を適用する。 マイクロ波パルスによる2つの遷移と、電波パルスによる残りの遷移を制御する。 特に,ラビ振動の周波数・強度依存性について検討した。 我々は,量子情報処理と量子センシングの実現に向けて,NV中心の新たな制御方法を提案する。

Nitrogen vacancy (NV) centers in diamonds is a promising system for quantum information processing and quantum sensing, and the control of the quantum state is essential for practical applications. In this study, we demonstrate a control of all the three transitions among the ground state sublevels of NV centers by applying external magnetic driving fields. To address the states of a specific NV axis among the four axes, we apply a magnetic field orthogonal to the NV axis. We control two transitions by microwave pulses and the remaining transition by radio frequency pulses. In particular, we investigate the dependence of Rabi oscillations on the frequency and intensity of the radio frequency pulses. Our results pave the way for a novel control of NV centers for the realization of quantum information processing and quantum sensing.
翻訳日:2023-05-21 17:06:30 公開日:2020-04-30
# 量子技術のためのハイブリッド超伝導・半導体システム

Hybrid superconductor-semiconductor systems for quantum technology ( http://arxiv.org/abs/2005.00030v1 )

ライセンス: Link先を確認
M\'onica Benito and Guido Burkard(参考訳) 超伝導量子デバイスは優れた接続性と制御性を提供し、半導体スピン量子ビットは長寿命の量子コヒーレンス、高速制御、小型化とスケーリングの可能性に際立つ。 ここ数年、超伝導回路と半導体デバイスを組み合わせたハイブリッド量子システムにおいて、両者の物理的性質の恩恵を受ける顕著な進歩がみられてきた。 超伝導キャビティは、半導体チップ上の個々の電子のスピンのような電子自由度の間の長距離における量子コヒーレント結合を媒介し、量子デバイスに不可欠な接続を提供する。 半導体量子ドット内の電子スピンは、非常に長いコヒーレンス時間に達し、フィダリティを増大させる高速量子ゲート演算を可能にする。 超伝導-半導体ハイブリッド量子系を記述する最近の進歩と理論モデルを要約し、これらのシステムの限界を説明し、将来の実験と理論が進む方向について説明する。

Superconducting quantum devices provide excellent connectivity and controllability while semiconductor spin qubits stand out with their long-lasting quantum coherence, fast control, and potential for miniaturization and scaling. In the last few years, remarkable progress has been made in combining superconducting circuits and semiconducting devices into hybrid quantum systems that benefit from the physical properties of both constituents. Superconducting cavities can mediate quantum-coherent coupling over long distances between electronic degrees of freedom such as the spin of individual electrons on a semiconductor chip and thus provide essential connectivity for a quantum device. Electron spins in semiconductor quantum dots have reached very long coherence times and allow for fast quantum gate operations with increasing fidelities. We summarize recent progress and theoretical models that describe superconducting-semiconducting hybrid quantum systems, explain the limitations of these systems, and describe different directions where future experiments and theory are headed.
翻訳日:2023-05-21 17:06:07 公開日:2020-04-30
# 真の量子ネットワーク:重ね合わせタスクとアドレッシング

Genuine quantum networks: superposed tasks and addressing ( http://arxiv.org/abs/2005.00020v1 )

ライセンス: Link先を確認
Jorge Miguel-Ramiro, Alexander Pirker and Wolfgang D\"ur(参考訳) 我々は、重ね合わせタスクと重ね合わせアドレスを扱う可能性を提供することにより、標準量子および絡み合いに基づく真の量子ネットワークを作る方法を示す。 この機能拡張は、ネットワークのタスクだけでなく、整合的に重み付けされた方法で対応する重みを指定する量子制御レジスタに依存している。 送信や計測のような古典的なタスクにコヒーレントな制御を加えることは、一般的に不可能であるが、特定の条件下でこの動作を模倣できるプロトコルを導入する。 私たちは常に古典的なタスクを所望の状態または適切に選択されたダミー状態で実行することでこれを達成します。 タスクの量子重ね合わせを外部から制御することで、通常考慮される単一機能よりも新しい可能性と利点が得られることを示す。 例えば、ネットワークの異なるノード間で共有される異なるターゲット状態構成の重ね合わせを作成したり、異なるパスの重ね合わせや異なる宛先への量子情報を送ることができる。

We show how to make quantum networks, both standard and entanglement-based, genuine quantum by providing them with the possibility of handling superposed tasks and superposed addressing. This extension of their functionality relies on a quantum control register, which specifies not only the task of the network, but also the corresponding weights in a coherently superposed fashion. Although adding coherent control to classical tasks, such as sending or measuring -or not doing so-, is in general impossible, we introduce protocols that are able to mimick this behavior under certain conditions. We achieve this by always performing the classical task, either on the desired state or a properly chosen dummy state. We provide several examples, and show that externally controlling quantum superposition of tasks offers new possibilities and advantages over usually considered single functionality. For instance, superpositions of different target state configurations shared among different nodes of the network can be prepared, or quantum information can be sent among a superposition of different paths or to different destinations.
翻訳日:2023-05-21 17:05:10 公開日:2020-04-30
# ギャップ付き局所ハミルトンの基底状態における通信複雑性から絡み合い拡散領域法へ

From communication complexity to an entanglement spread area law in the ground state of gapped local Hamiltonians ( http://arxiv.org/abs/2004.15009v1 )

ライセンス: Link先を確認
Anurag Anshu, Aram W. Harrow, Mehdi Soleimanifar(参考訳) この研究では、2つの異なるように見える問題を関連づける。 最初の問題は、量子多体物理学の中心的な話題であるガッピング局所ハミルトニアンの基底状態における絡み合いの性質を特徴づけることである。 第2の問題は、量子情報理論でよく知られた問題であるepr支援を用いて二成分状態をテストするための量子通信の複雑さである。 基礎状態をテスト(または測定)するための通信プロトコルを構築し、その通信複雑性を利用して基底状態の絡み合いに対する新しい構造的特性を明らかにする。 この性質は絡み合い拡散(英語版)と呼ばれ、大きめのシュミット係数と小きめのシュミット係数の比を基底状態のカットで測定する。 以上の結果から,ガッピンググラウンド状態は,任意のカットにまたがる限定的な絡み合いを有しており,「地域法」的な挙動を示すことが示された。 この結果は、格子の特別な場合に対する改良された境界を持つ任意の相互作用グラフに非常に一般的に適用される。 この絡み合い広がり領域法は、絡み合いエントロピーの一般化された領域法則に違反する [aharonov et al., focs'14] で構築された相互作用グラフを含む。 我々の構成はまた、格子ハミルトニアン [Li and Haldane, PRL'08] の絡み合いスペクトルに関する、Li と Haldane による物理学の予想の証拠を提供する。 技術的な面では、ハミルトニアンシミュレーションアルゴリズムの最近の進歩と量子位相推定を用いて、任意の相互作用グラフ上の近似基底空間プロジェクタ(AGSP)を新たに構築する。

In this work, we make a connection between two seemingly different problems. The first problem involves characterizing the properties of entanglement in the ground state of gapped local Hamiltonians, which is a central topic in quantum many-body physics. The second problem is on the quantum communication complexity of testing bipartite states with EPR assistance, a well-known question in quantum information theory. We construct a communication protocol for testing (or measuring) the ground state and use its communication complexity to reveal a new structural property for the ground state entanglement. This property, known as the entanglement spread, roughly measures the ratio between the largest and the smallest Schmidt coefficients across a cut in the ground state. Our main result shows that gapped ground states possess limited entanglement spread across any cut, exhibiting an "area law" behavior. Our result quite generally applies to any interaction graph with an improved bound for the special case of lattices. This entanglement spread area law includes interaction graphs constructed in [Aharonov et al., FOCS'14] that violate a generalized area law for the entanglement entropy. Our construction also provides evidence for a conjecture in physics by Li and Haldane on the entanglement spectrum of lattice Hamiltonians [Li and Haldane, PRL'08]. On the technical side, we use recent advances in Hamiltonian simulation algorithms along with quantum phase estimation to give a new construction for an approximate ground space projector (AGSP) over arbitrary interaction graphs.
翻訳日:2023-05-21 17:04:17 公開日:2020-04-30
# r\'{e}nyi-$\alpha$エントロピーを用いた一般化されたw$-クラス状態の単元関係と上限

Monogamy relations and upper bounds for the generalized $W$-class states using R\'{e}nyi-$\alpha$ entropy ( http://arxiv.org/abs/2010.16311v1 )

ライセンス: Link先を確認
Yanying Liang, Zhu-Jun Zheng, Chuan-Jie Zhu(参考訳) r\'{e}nyi-$\alpha$エントロピーに関連する一般化されたw$-クラス状態の単元関係と上限について検討する。 まずR\'{e}nyi-$\alpha$ entanglement (R$\alpha$E) と R\'{e}nyi-$\alpha$ entanglement of aid (REoA) について、一般化された$W$クラス状態に対する還元密度行列の解析式を示す。 解析式によると、R$\alpha$E および REoA の観点から一般化された$W$クラス状態に対する単ガミーと多ガミーの関係を示す。 すると、一般化された$w$-クラス状態の上限を r$\alpha$e の項で与える。 次に、一般化された$W$級状態に対するより厳密なモノガミー関係と、R$\alpha$Eとコンカレンスの間の解析式によるR$\alpha$Eのモノガミー関係を得る。 最後に、この結果を量子ゲームに適用し、一般化された$w$-クラス状態に限定された量子ゲームの非古典性の新しい境界を示す。

We investigate monogamy relations and upper bounds for generalized $W$-class states related to the R\'{e}nyi-$\alpha$ entropy. First, we present an analytical formula on R\'{e}nyi-$\alpha$ entanglement (R$\alpha$E) and R\'{e}nyi-$\alpha$ entanglement of assistance (REoA) of a reduced density matrix for a generalized $W$-class states. According to the analytical formula, we show monogamy and polygamy relations for generalized $W$-class states in terms of R$\alpha$E and REoA. Then we give the upper bounds for generalized $W$-class states in terms of R$\alpha$E. Next, we provide tighter monogamy relations for generalized $W$-class states in terms of concurrence and convex-roof extended negativity and obtain the monogamy relations for R$\alpha$E by the analytical expression between R$\alpha$E and concurrence. Finally, we apply our results into quantum games and present a new bound of the nonclassicality of quantum games restricting to generalized $W$-class states.
翻訳日:2023-05-21 16:57:56 公開日:2020-04-30
# 新たな時間的減衰モデルを用いた選挙予測--米国大統領選挙予測

Electoral Forecasting Using a Novel Temporal Attenuation Model: Predicting the US Presidential Elections ( http://arxiv.org/abs/2005.01799v1 )

ライセンス: Link先を確認
Alexandru Topirceanu(参考訳) 現在のデータ駆動型手法は、統計と経済指標と機械学習を効率的に組み合わせようとしている。 しかし,近年のネットワーク科学研究では,意見の拡散における時間的特徴の重要性が指摘されている。 そこで、我々は、マイクロスケールの意見力学と時間的流行の概念を組み合わせて、予備選別世論調査データを用いて予測精度を向上させる新しいマクロスケール時間減衰(TA)モデルを開発した。 我々の仮説は、世論調査を公表するタイミングが、特に選挙直前の世論の振動に重要な役割を果たすというものです。 そこで我々は、意見のモーメントを、有権者の多意見システムに意見が注入されたときに跳ね上がり、リラックス状態に減衰する時間関数として定義する。 1968年から2016年にかけてのアメリカ合衆国大統領選挙における調査データから、TAは統計学的手法を上回り、13回の大統領選挙のうち10回で最高の世論調査を行った。 我々は,48年間の平均予測誤差2.8-3.28点を蓄積するTAモデルの2つの異なる実装を提案する。 逆に、統計的手法は7.48ポイントの誤差を蓄積し、最良の投票者は3.64ポイントを蓄積する。 全体として、taは芸術の状況と比較して予測パフォーマンスが23-37%向上する。 世論調査が比較的少ない場合,TAの有効性は低下せず,また,予備選挙調査の増加に伴い,我々のTAモデルは,他の近代選挙予測手法とともに参照されるものと信じている。

Electoral forecasting is an ongoing scientific challenge with high social impact, as current data-driven methods try to efficiently combine statistics with economic indices and machine learning. However, recent studies in network science pinpoint towards the importance of temporal characteristics in the diffusion of opinion. As such, we combine concepts of micro-scale opinion dynamics and temporal epidemics, and develop a novel macro-scale temporal attenuation (TA) model, which uses pre-election poll data to improve forecasting accuracy. Our hypothesis is that the timing of publicizing opinion polls plays a significant role in how opinion oscillates, especially right before elections. Thus, we define the momentum of opinion as a temporal function which bounces up when opinion is injected in a multi-opinion system of voters, and dampens during states of relaxation. We validate TA on survey data from the US Presidential Elections between 1968-2016, and TA outperforms statistical methods, as well the best pollsters at their time, in 10 out of 13 presidential elections. We present two different implementations of the TA model, which accumulate an average forecasting error of 2.8-3.28 points over the 48-year period. Conversely, statistical methods accumulate 7.48 points error, and the best pollsters accumulate 3.64 points. Overall, TA offers increases of 23-37% in forecasting performance compared to the state of the art. We show that the effectiveness of TA does not drop when relatively few polls are available; moreover, with increasing availability of pre-election surveys, we believe that our TA model will become a reference alongside other modern election forecasting techniques.
翻訳日:2023-05-21 16:57:26 公開日:2020-04-30
# 中高生のためのaiへの道としてのデータサイエンス

Data Science as a Route to AI for Middle- and High-School Students ( http://arxiv.org/abs/2005.01794v1 )

ライセンス: Link先を確認
Shriram Krishnamurthi and Emmanuel Schanzer and Joe Gibbs Politz and Benjamin S. Lerner and Kathi Fisler and Sam Dooman(参考訳) Bootstrap Projectのデータサイエンスカリキュラムは、全国で使われている約100人の教師を訓練している。 広範囲の機関での採用を支援するように設計されている。 教育文学と他のコンピューティングアウトリーチプロジェクトとの事前経験の両方を描き出すことで、貴重なカリキュラム目標を強調している。 データ指向思考(promise, pitfalls, perils)の"3つのp"を取り入れている。 本稿では,カリキュラムの設計,内容,成果を簡潔に解説し,AIカリキュラムへの道程におけるその価値を説明する。

The Bootstrap Project's Data Science curriculum has trained about 100 teachers who are using it around the country. It is specifically designed to aid adoption at a wide range of institutions. It emphasizes valuable curricular goals by drawing on both the education literature and on prior experience with other computing outreach projects. It embraces "three P's" of data-oriented thinking: the promise, pitfalls, and perils. This paper briefly describes the curriculum's design, content, and outcomes, and explains its value on the road to AI curricula.
翻訳日:2023-05-21 16:56:58 公開日:2020-04-30
# 非マルコフ確率schr\"{o}dinger方程式に対するマルコフ埋め込み手順

Markovian Embedding Procedures for Non-Markovian Stochastic Schr\"{o}dinger Equations ( http://arxiv.org/abs/2005.00103v1 )

ライセンス: Link先を確認
Xiantao Li(参考訳) 非マルコフ確率的Schr\"{o}dinger方程式の埋め込み手順は、入浴環境と結合した量子系の研究から生じる。 補助波動関数を導入することにより、非マルコフ力学が拡張に埋め込まれることを示したが、マルコフ的確率的モデルである。 2つの埋め込み手順が提示される。 最初の方法は非線形確率方程式につながり、その実装は非マルコフ確率schr\"{o}dinger方程式よりもずっと効率的である。 2つ目の手続きから得られる確率シュレーディンガー方程式はより補助波動関数を含むが、方程式は線型であり、密度行列に対して対応する一般化量子マスター方程式を導出する。 組込みモデルの精度はパワースペクトルに適合させることで保証される。 確率力はornstein-uhlenbeck過程の線形重ね合わせを用いて表され、これは補助のschr\"{o}dinger方程式の乗法ノイズとして取り込まれている。 低周波状態におけるスペクトル密度の漸近挙動は相関確率過程を用いて保存する。 近似はスピンボーソン系をテスト例として用いることで検証される。

We present embedding procedures for the non-Markovian stochastic Schr\"{o}dinger equations, arising from studies of quantum systems coupled with bath environments. By introducing auxiliary wave functions, it is demonstrated that the non-Markovian dynamics can be embedded in extended, but Markovian, stochastic models. Two embedding procedures are presented. The first method leads to nonlinear stochastic equations, the implementation of which is much more efficient than the non-Markovian stochastic Schr\"{o}dinger equations. The stochastic Schr\"{o}dinger equations obtained from the second procedure involve more auxiliary wave functions, but the equations are linear, and we derive the corresponding generalized quantum master equation for the density-matrix. The accuracy of the embedded models is ensured by fitting to the power spectrum. The stochastic force is represented using a linear superposition of Ornstein-Uhlenbeck processes, which are incorporated as multiplicative noise in the auxiliary Schr\"{o}dinger equations. The asymptotic behavior of the spectral density in the low frequency regime is preserved by using correlated stochastic processes. The approximations are verified by using a spin-boson system as a test example.
翻訳日:2023-05-21 16:55:21 公開日:2020-04-30
# 心電図データにおける深層学習の可能性と課題:システムレビュー

Opportunities and Challenges of Deep Learning Methods for Electrocardiogram Data: A Systematic Review ( http://arxiv.org/abs/2001.01550v3 )

ライセンス: Link先を確認
Shenda Hong, Yuxi Zhou, Junyuan Shang, Cao Xiao, Jimeng Sun(参考訳) 背景:心電図(ECG)は医療や医療でよく用いられる診断ツールの1つである。 深層学習法は心電図信号を用いた予測医療タスクにおいて有望な結果を得た。 目的:本稿では,モデリングとアプリケーションの観点からecgデータの深層学習法を体系的に検討する。 方法:2010年1月1日から2020年2月29日までにGoogle Scholar、PubMed、DBLPから発行されたECGデータにディープラーニング(ディープニューラルネットワーク)モデルを適用した論文を抽出した。 次に,各論文をタスク,モデル,データという3つの要因で分析した。 最後に,オープン課題と未解決問題について議論する。 結果: 抽出された論文の総数は191。 2019年以降、108冊が刊行された。 さまざまなディープラーニングアーキテクチャが、病気の検出/分類、アノテーション/ローカライゼーション、睡眠ステージング、生体認証、認知など、さまざまなECG分析タスクで使用されている。 結論: 近年,ECGデータの深層学習に関する研究が爆発的に増えている。 このような作業は、従来の機能ベースのアプローチと同等の精度で達成され、複数のアプローチのアンサンブルにより、さらに優れた結果が得られる。 具体的には、畳み込みニューラルネットワークとエキスパート機能を用いた繰り返しニューラルネットワークアンサンブルのハイブリッドアーキテクチャが最良の結果をもたらすことを発見した。 しかし、解釈可能性、拡張性、効率性に関する新たな課題や課題があり、対処しなければならない。 さらに、データセットやメソッドの観点から、新しいアプリケーションを調べることにも価値がある。 意義:本稿は,複数の視点からECGデータを用いた既存のディープラーニング研究を要約し,今後の研究方向性を明らかにするための課題と課題を明らかにする。

Background:The electrocardiogram (ECG) is one of the most commonly used diagnostic tools in medicine and healthcare. Deep learning methods have achieved promising results on predictive healthcare tasks using ECG signals. Objective:This paper presents a systematic review of deep learning methods for ECG data from both modeling and application perspectives. Methods:We extracted papers that applied deep learning (deep neural network) models to ECG data that were published between Jan. 1st of 2010 and Feb. 29th of 2020 from Google Scholar, PubMed, and the DBLP. We then analyzed each article according to three factors: tasks, models, and data. Finally, we discuss open challenges and unsolved problems in this area. Results: The total number of papers extracted was 191. Among these papers, 108 were published after 2019. Different deep learning architectures have been used in various ECG analytics tasks, such as disease detection/classification, annotation/localization, sleep staging, biometric human identification, and denoising. Conclusion: The number of works on deep learning for ECG data has grown explosively in recent years. Such works have achieved accuracy comparable to that of traditional feature-based approaches and ensembles of multiple approaches can achieve even better results. Specifically, we found that a hybrid architecture of a convolutional neural network and recurrent neural network ensemble using expert features yields the best results. However, there are some new challenges and problems related to interpretability, scalability, and efficiency that must be addressed. Furthermore, it is also worth investigating new applications from the perspectives of datasets and methods. Significance: This paper summarizes existing deep learning research using ECG data from multiple perspectives and highlights existing challenges and problems to identify potential future research directions.
翻訳日:2023-01-17 12:55:15 公開日:2020-04-30
# 時間依存デチューンをもつ2つのrydberg原子の配列におけるlandau-zener遷移と断熱インパルス近似

Landau-Zener transitions and Adiabatic impulse approximation in an array of two Rydberg atoms with time-dependent detuning ( http://arxiv.org/abs/2001.02671v3 )

ライセンス: Link先を確認
Ankita Niranjan, Weibin Li and Rejish Nath(参考訳) 線形および周期的な時間依存デチューニングを持つ2つのRydberg原子のセットアップにおけるLandau-Zener(LZ)のダイナミクスを、正確な数値計算と断熱インパルス近似(AIA)の手法を用いて検討した。 Rydberg-Rydberg相互作用の強度を変化させることで、システムはボウタイや三角形のLZモデルなど、異なる3レベルLZモデルをエミュレートすることができる。 lzダイナミクスは初期状態、クエンチ速度、相互作用強度に対する非自明な依存を示す。 大きな相互作用強度では、力学はAIAによってよく捉えられる。 最後に、周期的に駆動されたケースを分析し、AIAはダイナミクスに関わる豊富な位相構造を明らかにする。 後者は量子状態準備、量子位相ゲート、原子干渉計に応用できる。

We study the Landau-Zener (LZ) dynamics in a setup of two Rydberg atoms with time-dependent detuning, both linear and periodic, using both the exact numerical calculations as well as the method of adiabatic impulse approximation (AIA). By varying the Rydberg-Rydberg interaction strengths, the system can emulate different three-level LZ models, for instance, bow-tie and triangular LZ models. The LZ dynamics exhibits non-trivial dependence on the initial state, the quench rate, and the interaction strengths. For large interaction strengths, the dynamics is well captured by AIA. In the end, we analyze the periodically driven case, and AIA reveals a rich phase structure involved in the dynamics. The latter may find applications in quantum state preparation, quantum phase gates, and atom interferometry.
翻訳日:2023-01-13 13:06:39 公開日:2020-04-30
# dnnにおけるロバストネストレーニングの可用性向上

Improving the affordability of robustness training for DNNs ( http://arxiv.org/abs/2002.04237v2 )

ライセンス: Link先を確認
Sidharth Gupta, Parijat Dube, Ashish Verma(参考訳) Projected Gradient Descent (PGD)ベースの対向訓練は、堅牢なディープニューラルネットワークモデルを構築するための最も顕著な方法の1つである。 しかし、このアプローチに関連する計算複雑性は、敵を見つける際の損失関数の最大化によって、長年の問題であり、より大きく複雑なモデルを使う場合、禁止される可能性がある。 本稿では, 対向訓練の初期フェーズが冗長であり, 計算効率を大幅に向上させる自然訓練に置き換えることができることを示す。 この効率向上は, 自然試料および逆試験試料の精度を損なうことなく達成可能であることを示す。 我々は,学習過程における敵の性質とその相対的強さに関する洞察をもって,議論を支援する。 提案手法は, 最大2.5倍のトレーニング時間を短縮でき, モデルテストの精度が向上し, 様々な攻撃の強みを一般化できることを示す。

Projected Gradient Descent (PGD) based adversarial training has become one of the most prominent methods for building robust deep neural network models. However, the computational complexity associated with this approach, due to the maximization of the loss function when finding adversaries, is a longstanding problem and may be prohibitive when using larger and more complex models. In this paper we show that the initial phase of adversarial training is redundant and can be replaced with natural training which significantly improves the computational efficiency. We demonstrate that this efficiency gain can be achieved without any loss in accuracy on natural and adversarial test samples. We support our argument with insights on the nature of the adversaries and their relative strength during the training process. We show that our proposed method can reduce the training time by a factor of up to 2.5 with comparable or better model test accuracy and generalization on various strengths of adversarial attacks.
翻訳日:2023-01-02 01:10:12 公開日:2020-04-30
# 散逸性シモデン:散逸と深層学習への制御によるハミルトン力学の符号化

Dissipative SymODEN: Encoding Hamiltonian Dynamics with Dissipation and Control into Deep Learning ( http://arxiv.org/abs/2002.08860v3 )

ライセンス: Link先を確認
Yaofeng Desmond Zhong, Biswadip Dey, Amit Chakraborty(参考訳) 本研究では,観測された状態軌跡から逸脱した物理システムのダイナミクスを推定する深層学習アーキテクチャであるdissipative symodenを提案する。 ネットワークサイズを小さくして予測精度を向上させるために、 Dissipative SymODENは、エネルギー散逸と外部入力を計算グラフの設計にエンコードし、構造化された方法でダイナミクスを学習する。 学習モデルは、慣性、散逸、ポテンシャルエネルギーといったシステムの重要な側面を明らかにすることで、エネルギーベースのコントローラの道を開く。

In this work, we introduce Dissipative SymODEN, a deep learning architecture which can infer the dynamics of a physical system with dissipation from observed state trajectories. To improve prediction accuracy while reducing network size, Dissipative SymODEN encodes the port-Hamiltonian dynamics with energy dissipation and external input into the design of its computation graph and learns the dynamics in a structured way. The learned model, by revealing key aspects of the system, such as the inertia, dissipation, and potential energy, paves the way for energy-based controllers.
翻訳日:2022-12-30 07:25:49 公開日:2020-04-30
# なぜマハラノビス距離は異常検出に有効なのか?

Why is the Mahalanobis Distance Effective for Anomaly Detection? ( http://arxiv.org/abs/2003.00402v2 )

ライセンス: Link先を確認
Ryo Kamoi, Kei Kobayashi(参考訳) 最近提案されたニューラル分類器の異常検出手法であるMahalanobis distance-based confidence scoreは、オフ・オブ・ディストリビューション(OoD)と逆例検出の両方で最先端の性能を達成する。 本研究は,本手法が実用的条件下での強力な性能を発揮する理由,すなわち事前学習された特徴のクラス条件分布が結合共分散を持つことを示す。 マハラノビス距離に基づく手法は分類予測の信頼性によって動機づけられているとされているが、その優れた性能は分類に役立たない情報に由来する。 これは、マハラノビスの信頼スコアがうまく機能する理由が誤りであり、予測信頼度に基づく別のOoD検出方法であるODINと異なる情報を利用することを示している。 この視点はこれらの2つの手法を組み合わせる動機となり、複合検出器は性能と堅牢性の向上を示す。 これらの知見は、異常入力に対する神経分類器の挙動に関する洞察を与える。

The Mahalanobis distance-based confidence score, a recently proposed anomaly detection method for pre-trained neural classifiers, achieves state-of-the-art performance on both out-of-distribution (OoD) and adversarial examples detection. This work analyzes why this method exhibits such strong performance in practical settings while imposing an implausible assumption; namely, that class conditional distributions of pre-trained features have tied covariance. Although the Mahalanobis distance-based method is claimed to be motivated by classification prediction confidence, we find that its superior performance stems from information not useful for classification. This suggests that the reason the Mahalanobis confidence score works so well is mistaken, and makes use of different information from ODIN, another popular OoD detection method based on prediction confidence. This perspective motivates us to combine these two methods, and the combined detector exhibits improved performance and robustness. These findings provide insight into the behavior of neural classifiers in response to anomalous inputs.
翻訳日:2022-12-27 12:37:37 公開日:2020-04-30
# 付加的不等式による近似集約クエリ

Approximate Aggregate Queries Under Additive Inequalities ( http://arxiv.org/abs/2003.10588v2 )

ライセンス: Link先を確認
Mahmoud Abo-Khamis and Sungjin Im and Benjamin Moseley and Kirk Pruhs and Alireza Samadian(参考訳) 付加的不等式を対象とする関係データに対するある種の機能集約クエリの評価の問題を考える。 このようなアグリゲーションクエリは、加法的不等式が小さいが、多くのアプリケーション、特に学習アプリケーションで自然に発生する。 このような問題の計算の複雑さを比較的完全に分類する。 まず、ある加法不等式の場合であっても、問題はNPハードであることを示す。 したがって、クエリを近似します。 我々の主な結果は、任意に小さな相対誤差と1つの加法不等式を持つ多数の自然集約クエリを近似する効率的なアルゴリズムである。 このアルゴリズムを用いて効率的に解ける自然クエリの例を示す。 対照的に、2つの加法不等式を持つ状況は、有界な相対誤差を持つ2つの加法不等式を持つ単純なアグリゲーションクエリを評価するのがnp困難であることを示すことにより、かなり異なる。

We consider the problem of evaluating certain types of functional aggregation queries on relational data subject to additive inequalities. Such aggregation queries, with a smallish number of additive inequalities, arise naturally/commonly in many applications, particularly in learning applications. We give a relatively complete categorization of the computational complexity of such problems. We first show that the problem is NP-hard, even in the case of one additive inequality. Thus we turn to approximating the query. Our main result is an efficient algorithm for approximating, with arbitrarily small relative error, many natural aggregation queries with one additive inequality. We give examples of natural queries that can be efficiently solved using this algorithm. In contrast, we show that the situation with two additive inequalities is quite different, by showing that it is NP-hard to evaluate simple aggregation queries, with two additive inequalities, with any bounded relative error.
翻訳日:2022-12-20 09:43:22 公開日:2020-04-30
# 非ラテン語スクリプトにおける文セグメンテーションにパンクトを用いる:クルド語(ソルニ語)テキストの実験

Using Punkt for Sentence Segmentation in non-Latin Scripts: Experiments on Kurdish (Sorani) Texts ( http://arxiv.org/abs/2004.14134v2 )

ライセンス: Link先を確認
Roshna Omer Abdulrahman, Hossein Hassani(参考訳) セグメンテーションは、ほとんどの自然言語処理タスクの基本的なステップである。 クルド語は、異なるスクリプトで書かれた多言語、アンダーリソース言語である。 様々なセグメンテッドコーパスの欠如は、クルド語処理における主要なボトルネックの1つである。 我々は、教師なしの機械学習手法であるpunktを用いて、ペルシア・アラビア文字で書かれたソラニ方言のクルド語コーパスを分割した。 文献によると、非ラテン語データにPunktを使用する研究は控えめである。 実験では、F1スコア91.10%、エラーレート16.32%を達成しました。 高いエラー率は主にクルド語における省略の状況と、一部は順序数によるものである。 データは https://github.com/KurdishBLARK/KTC-Segmented for non-mercial use under CC BY-NC-SA 4.0 ライセンスで公開されている。

Segmentation is a fundamental step for most Natural Language Processing tasks. The Kurdish language is a multi-dialect, under-resourced language which is written in different scripts. The lack of various segmented corpora is one of the major bottlenecks in Kurdish language processing. We used Punkt, an unsupervised machine learning method, to segment a Kurdish corpus of Sorani dialect, written in Persian-Arabic script. According to the literature, studies on using Punkt on non-Latin data are scanty. In our experiment, we achieved an F1 score of 91.10% and had an Error Rate of 16.32%. The high Error Rate is mainly due to the situation of abbreviations in Kurdish and partly because of ordinal numerals. The data is publicly available at https://github.com/KurdishBLARK/ KTC-Segmented for non-commercial use under the CC BY-NC-SA 4.0 licence.
翻訳日:2022-12-15 02:54:06 公開日:2020-04-30
# 群同変ニューラルネットワークの理論的側面

Theoretical Aspects of Group Equivariant Neural Networks ( http://arxiv.org/abs/2004.05154v2 )

ライセンス: Link先を確認
Carlos Esteves(参考訳) 群同変ニューラルネットワークはここ数年で研究され、理論的および実践的な観点から興味深い。 群表現論、非可換調和解析、微分幾何学の概念を応用し、機械学習にはあまり現れない。 実際には、サンプルやモデルの複雑さを減らすことが示されており、特に任意の回転のような入力変換が存在する困難なタスクでは顕著である。 この研究は、群表現論と群上の積分と畳み込みを定義し評価するために必要な機械の表現から始めます。 次に,最近のSpherical CNN,Clebsch-Gordan Networks,および3D Steerable CNNといったSO(3)およびSE(3)同変ネットワークへの応用を示す。 最近の2つの理論的結果について議論する。 第一に、Kondor and Trivedi (ICML'18) は、ニューラルネットワークが群同変であることと、畳み込み構造を持つことを示している。 第二に、Cohen et al. (NeurIPS'19) は、同次空間上の体として特徴写像を持つ、最初のものからより大きな種類のネットワークを一般化した。

Group equivariant neural networks have been explored in the past few years and are interesting from theoretical and practical standpoints. They leverage concepts from group representation theory, non-commutative harmonic analysis and differential geometry that do not often appear in machine learning. In practice, they have been shown to reduce sample and model complexity, notably in challenging tasks where input transformations such as arbitrary rotations are present. We begin this work with an exposition of group representation theory and the machinery necessary to define and evaluate integrals and convolutions on groups. Then, we show applications to recent SO(3) and SE(3) equivariant networks, namely the Spherical CNNs, Clebsch-Gordan Networks, and 3D Steerable CNNs. We proceed to discuss two recent theoretical results. The first, by Kondor and Trivedi (ICML'18), shows that a neural network is group equivariant if and only if it has a convolutional structure. The second, by Cohen et al. (NeurIPS'19), generalizes the first to a larger class of networks, with feature maps as fields on homogeneous spaces.
翻訳日:2022-12-14 20:17:19 公開日:2020-04-30
# 生成・削除・書き直し:対話生成のペルソナ一貫性を改善する3段階フレームワーク

Generate, Delete and Rewrite: A Three-Stage Framework for Improving Persona Consistency of Dialogue Generation ( http://arxiv.org/abs/2004.07672v4 )

ライセンス: Link先を確認
Haoyu Song, Yan Wang, Wei-Nan Zhang, Xiaojiang Liu, Ting Liu(参考訳) 会話における一貫した個性を維持することは人間にとって非常に自然なことですが、それでも機械にとって簡単な作業です。 そこで,対話生成モデルに明示的なペルソナテキストを組み込むことにより,人格不整合問題に対処するために,ペルソナに基づく対話生成タスクを導入する。 既存のペルソナモデルによる人間的な応答生成の成功にもかかわらず、そのワンステージデコードフレームワークは、一貫性のないペルソナ語の生成をほとんど回避できない。 本稿では,生成した応答プロトタイプから一貫性のない単語を削除し,さらにパーソナリティ一貫性のある単語に書き換える,生成-削除-書き直し機構を用いた3段階フレームワークを提案する。 我々は人的指標と自動指標の両方で評価を行う。 Persona-Chatデータセットの実験は、我々のアプローチが優れたパフォーマンスを達成することを示す。

Maintaining a consistent personality in conversations is quite natural for human beings, but is still a non-trivial task for machines. The persona-based dialogue generation task is thus introduced to tackle the personality-inconsistent problem by incorporating explicit persona text into dialogue generation models. Despite the success of existing persona-based models on generating human-like responses, their one-stage decoding framework can hardly avoid the generation of inconsistent persona words. In this work, we introduce a three-stage framework that employs a generate-delete-rewrite mechanism to delete inconsistent words from a generated response prototype and further rewrite it to a personality-consistent one. We carry out evaluations by both human and automatic metrics. Experiments on the Persona-Chat dataset show that our approach achieves good performance.
翻訳日:2022-12-12 21:38:56 公開日:2020-04-30
# 高密度物体検出のためのガウス写像の学習

Learning Gaussian Maps for Dense Object Detection ( http://arxiv.org/abs/2004.11855v2 )

ライセンス: Link先を確認
Sonaal Kant(参考訳) 物体検出はコンピュータビジョンにおける有名な研究分野であり、近年は最先端の物体検出アルゴリズムが数多く導入されている。 本稿では,多くの類似のオブジェクトが互いに近接して配置されるシーンにおいて,共通かつ高精度なオブジェクト検出手法を概説する。 また,ガウス写像のマルチタスク学習と分類と境界ボックス回帰によって,ベースラインよりも精度が著しく向上することを示した。 既存のRetinaNetネットワークにおいて,Gaussian LayerとGaussian Decoderを導入し,高密度シーンにおいて,RetinaNetと同じ計算コストで精度を向上する。 ベースライン・レティネットに関して、mapにおける6\%と5\%の利得を示す。 提案手法は,SKU110K \cite{sku110k} データセットの精度も向上する。

Object detection is a famous branch of research in computer vision, many state of the art object detection algorithms have been introduced in the recent past, but how good are those object detectors when it comes to dense object detection? In this paper we review common and highly accurate object detection methods on the scenes where numerous similar looking objects are placed in close proximity with each other. We also show that, multi-task learning of gaussian maps along with classification and bounding box regression gives us a significant boost in accuracy over the baseline. We introduce Gaussian Layer and Gaussian Decoder in the existing RetinaNet network for better accuracy in dense scenes, with the same computational cost as the RetinaNet. We show the gain of 6\% and 5\% in mAP with respect to baseline RetinaNet. Our method also achieves the state of the art accuracy on the SKU110K \cite{sku110k} dataset.
翻訳日:2022-12-10 04:10:13 公開日:2020-04-30
# 頑健なcovid-19肺炎胸部x線スクリーニングのための逐次学習戦略

A Cascaded Learning Strategy for Robust COVID-19 Pneumonia Chest X-Ray Screening ( http://arxiv.org/abs/2004.12786v2 )

ライセンス: Link先を確認
Chun-Fu Yeh, Hsien-Tzu Cheng, Andy Wei, Hsin-Ming Chen, Po-Chen Kuo, Keng-Chi Liu, Mong-Chi Ko, Ray-Jade Chen, Po-Chang Lee, Jen-Hsiang Chuang, Chi-Mai Chen, Yi-Chang Chen, Wen-Jeng Lee, Ning Chien, Jo-Yu Chen, Yu-Sen Huang, Yu-Chien Chang, Yu-Cheng Huang, Nai-Kuan Chou, Kuan-Hua Chao, Yi-Chin Tu, Yeun-Chung Chang, Tyng-Luh Liu(参考訳) 新型コロナウイルス(SARS-CoV-2)肺炎に対する包括的スクリーニングプラットフォームを導入する。 提案するAIベースのシステムは、胸部X線(CXR)画像を利用して、患者が新型コロナウイルス感染症に感染しているかどうかを予測する。 あらゆる種類のオープンデータを利用できるようにするための最近の国際共同作業にもかかわらず、CXRイメージの公開コレクションは、新型コロナウイルスの予測を実行するためにディープニューラルネットワーク(DNN)を確実にトレーニングするために、まだ比較的小さい。 このような非効率に対処するために,dnn分類モデルの感度と特異性を改善するために,逐次学習戦略を考案する。 本手法では,非covid-19肺炎の大規模なcxr画像データセットを活用して,カスケード学習による分類モデルを一般化する。 結果のスクリーニングシステムは、新たに追加されたCOVID-19 CXR画像を含む拡張データセットの分類性能が良好であることが示されている。

We introduce a comprehensive screening platform for the COVID-19 (a.k.a., SARS-CoV-2) pneumonia. The proposed AI-based system works on chest x-ray (CXR) images to predict whether a patient is infected with the COVID-19 disease. Although the recent international joint effort on making the availability of all sorts of open data, the public collection of CXR images is still relatively small for reliably training a deep neural network (DNN) to carry out COVID-19 prediction. To better address such inefficiency, we design a cascaded learning strategy to improve both the sensitivity and the specificity of the resulting DNN classification model. Our approach leverages a large CXR image dataset of non-COVID-19 pneumonia to generalize the original well-trained classification model via a cascaded learning scheme. The resulting screening system is shown to achieve good classification performance on the expanded dataset, including those newly added COVID-19 CXR images.
翻訳日:2022-12-10 03:26:18 公開日:2020-04-30
# 進化的確率的政策蒸留

Evolutionary Stochastic Policy Distillation ( http://arxiv.org/abs/2004.12909v2 )

ライセンス: Link先を確認
Hao Sun, Xinyu Pan, Bo Dai, Dahua Lin, Bolei Zhou(参考訳) ゴール・コンディションド・リワード・スパース(GCRS)課題の解決は報奨信号の広さによって困難となる強化学習問題である。 本研究では, 状態空間上のドリフトされたランダムウォークの観点から, 新たなgcrsタスクの定式化を提案し, 確率過程の最初のヒット時間を短縮する知見に基づいて, 進化的確率政策蒸留 (espd) と呼ばれる新しい手法を考案する。 自己同化的なアプローチとして、ESPDは、ポリシー蒸留(PD)技術を通じて、その確率的変種からターゲットポリシーを学ぶことができる。 ESPDの学習メカニズムは、アクション空間に直接ポリシーに摂動を適用する進化戦略(ES)と見なすことができ、SELECT関数は確率的変異の優越性をチェックし、PDを使用してポリシーを更新する。 MuJoCoロボット制御スイートに基づく実験により,提案手法の学習効率が向上した。

Solving the Goal-Conditioned Reward Sparse (GCRS) task is a challenging reinforcement learning problem due to the sparsity of reward signals. In this work, we propose a new formulation of GCRS tasks from the perspective of the drifted random walk on the state space, and design a novel method called Evolutionary Stochastic Policy Distillation (ESPD) to solve them based on the insight of reducing the First Hitting Time of the stochastic process. As a self-imitate approach, ESPD enables a target policy to learn from a series of its stochastic variants through the technique of policy distillation (PD). The learning mechanism of ESPD can be considered as an Evolution Strategy (ES) that applies perturbations upon policy directly on the action space, with a SELECT function to check the superiority of stochastic variants and then use PD to update the policy. The experiments based on the MuJoCo robotics control suite show the high learning efficiency of the proposed method.
翻訳日:2022-12-09 04:36:39 公開日:2020-04-30
# 不均一表現学習 : 概観

Heterogeneous Representation Learning: A Review ( http://arxiv.org/abs/2004.13303v2 )

ライセンス: Link先を確認
Joey Tianyi Zhou, Xi Peng and Yew-Soon Ong(参考訳) 実世界のデータは、通常、モダリティ、ビュー、リソースなどの異種特性を示しており、この論文で言及された異種表現学習(HRL)が鍵となるいくつかのユニークな課題をもたらす。 この簡単な調査では、いくつかの主要な学習設定と実世界のアプリケーションを中心に、HRLのトピックを取り上げている。 まず、数学的観点から、既存の学習環境のほとんどを不均一な入力でモデル化できる統一的な学習フレームワークを提案する。 その後、多視点学習、異種転帰学習、特権情報を用いた学習、異種多タスク学習などの数学的視点とともに、選択された学習問題をレビューし、HRLフレームワークに関する包括的な議論を行う。 各学習タスクについて,これらの学習問題の下での応用について検討し,数学的枠組みの用語をインスタンス化する。 最後に,HRLであまり触れられていない課題と今後の研究方向性について述べる。 私たちの知る限りでは、これらの異質な問題を統一するためのフレームワークはありません。

The real-world data usually exhibits heterogeneous properties such as modalities, views, or resources, which brings some unique challenges wherein the key is Heterogeneous Representation Learning (HRL) termed in this paper. This brief survey covers the topic of HRL, centered around several major learning settings and real-world applications. First of all, from the mathematical perspective, we present a unified learning framework which is able to model most existing learning settings with the heterogeneous inputs. After that, we conduct a comprehensive discussion on the HRL framework by reviewing some selected learning problems along with the mathematics perspectives, including multi-view learning, heterogeneous transfer learning, Learning using privileged information and heterogeneous multi-task learning. For each learning task, we also discuss some applications under these learning problems and instantiates the terms in the mathematical framework. Finally, we highlight the challenges that are less-touched in HRL and present future research directions. To the best of our knowledge, there is no such framework to unify these heterogeneous problems, and this survey would benefit the community.
翻訳日:2022-12-08 22:16:15 公開日:2020-04-30
# オープンドメインチャットボット構築の準備

Recipes for building an open-domain chatbot ( http://arxiv.org/abs/2004.13637v2 )

ライセンス: Link先を確認
Stephen Roller, Emily Dinan, Naman Goyal, Da Ju, Mary Williamson, Yinhan Liu, Jing Xu, Myle Ott, Kurt Shuster, Eric M. Smith, Y-Lan Boureau, and Jason Weston(参考訳) オープンドメインのチャットボットを構築することは、機械学習研究にとって難しい分野だ。 先行研究では、パラメータ数とトレーニングしたデータのサイズでニューラルネットワークモデルをスケーリングすることは、よりよい結果をもたらすことが示されているが、他の要素は、ハイパフォーマンスなチャットボットにとって重要であることを示している。 良い会話には、専門家の会話主義者がシームレスに組み合わさる多くのスキルが必要です。会話のポイントを熱心に提供し、パートナーに耳を傾け、一貫性のあるペルソナを維持しながら、知識、共感、性格を適切に表示することです。 適切なトレーニングデータと生成戦略の選択が与えられれば,大規模モデルがこれらのスキルを学習できることが分かる。 これらのレシピのバリエーションを90m、2.7b、9.4bのパラメータモデルで構築し、モデルとコードを公開しています。 人間の評価は, 従来のマルチターン対話よりも, エンゲージネスと人間性測定の点で優れていることを示す。 次に,モデルの障害事例を分析することで,この作業の限界について論じる。

Building open-domain chatbots is a challenging area for machine learning research. While prior work has shown that scaling neural models in the number of parameters and the size of the data they are trained on gives improved results, we show that other ingredients are important for a high-performing chatbot. Good conversation requires a number of skills that an expert conversationalist blends in a seamless way: providing engaging talking points and listening to their partners, and displaying knowledge, empathy and personality appropriately, while maintaining a consistent persona. We show that large scale models can learn these skills when given appropriate training data and choice of generation strategy. We build variants of these recipes with 90M, 2.7B and 9.4B parameter models, and make our models and code publicly available. Human evaluations show our best models are superior to existing approaches in multi-turn dialogue in terms of engagingness and humanness measurements. We then discuss the limitations of this work by analyzing failure cases of our models.
翻訳日:2022-12-08 22:08:04 公開日:2020-04-30
# グラフバンク間の組成構造の正規化

Normalizing Compositional Structures Across Graphbanks ( http://arxiv.org/abs/2004.14236v2 )

ライセンス: Link先を確認
Lucia Donatelli, Jonas Groschwitz, Alexander Koller, Matthias Lindemann, Pia Wei{\ss}enhorn(参考訳) 様々なグラフベースの意味表現(MR)の出現は、意味構造を適切に表現する方法に関する重要な議論を引き起こした。 これらのMRは、異なる理論的・設計的考察を反映した構造的差異を示し、一様言語解析とクロスフレーム意味解析への挑戦を示す。 本稿では,MRの設計の違いが意味的かつ意味論的に根付いているのか,表面的なのかを問う。 音声合成におけるMR間の相違点の正規化手法(Lindemann et al., 2019)を提案する。 本研究はmrs間の構成構造を著しく向上させ,低リソース環境におけるマルチタスク学習(mtl)を改善し,注意深いmr設計分析と比較の有用性を実証する。

The emergence of a variety of graph-based meaning representations (MRs) has sparked an important conversation about how to adequately represent semantic structure. These MRs exhibit structural differences that reflect different theoretical and design considerations, presenting challenges to uniform linguistic analysis and cross-framework semantic parsing. Here, we ask the question of which design differences between MRs are meaningful and semantically-rooted, and which are superficial. We present a methodology for normalizing discrepancies between MRs at the compositional level (Lindemann et al., 2019), finding that we can normalize the majority of divergent phenomena using linguistically-grounded rules. Our work significantly increases the match in compositional structure between MRs and improves multi-task learning (MTL) in a low-resource setting, demonstrating the usefulness of careful MR design analysis and comparison.
翻訳日:2022-12-08 13:42:03 公開日:2020-04-30
# トランスフォーマーに基づく多言語テキスト分類の評価

Evaluating Transformer-Based Multilingual Text Classification ( http://arxiv.org/abs/2004.13939v2 )

ライセンス: Link先を確認
Sophie Groenwold, Samhita Honnavalli, Lily Ou, Aesha Parekh, Sharon Levy, Diba Mirza, William Yang Wang(参考訳) NLPツールは今日の技術的景観においてユビキタス化するにつれて、様々な類型構造を持つ言語にも適用されつつある。 しかし、NLP研究は主に、最先端の言語モデルの解析における類型的差異に焦点を当てていない。 結果として、NLPツールは、異なる構文構造と形態構造を持つ言語間で不平等に機能する。 語順型、形態類型学、比較言語学の詳細な議論を通じて、どの変数が言語モデリングの有効性に最も影響するかを識別し、また、語順と形態的類似性指標を計算して経験的研究を支援する。 次に、この背景を利用して、8つの言語と8つのモデルの多クラステキスト分類を用いた実験を行う。

As NLP tools become ubiquitous in today's technological landscape, they are increasingly applied to languages with a variety of typological structures. However, NLP research does not focus primarily on typological differences in its analysis of state-of-the-art language models. As a result, NLP tools perform unequally across languages with different syntactic and morphological structures. Through a detailed discussion of word order typology, morphological typology, and comparative linguistics, we identify which variables most affect language modeling efficacy; in addition, we calculate word order and morphological similarity indices to aid our empirical study. We then use this background to support our analysis of an experiment we conduct using multi-class text classification on eight languages and eight models.
翻訳日:2022-12-08 13:35:26 公開日:2020-04-30
# 帯域統計マッチングを用いた音響シーン分類のための教師なし領域適応

Unsupervised Domain Adaptation for Acoustic Scene Classification Using Band-Wise Statistics Matching ( http://arxiv.org/abs/2005.00145v1 )

ライセンス: Link先を確認
Alessandro Ilic Mezza, Emanu\"el A. P. Habets, Meinard M\"uller and Augusto Sarti(参考訳) 機械学習アルゴリズムの性能は、トレーニング(ソース)とテスト(ターゲット)データ分布のミスマッチによって悪影響を受けることが知られている。 実際、与えられた装置で記録されたデータに基づいて訓練された音響シーン分類システムは、異なる音響条件下で取得されたサンプルや、不一致記録装置でキャプチャされたサンプルに適用される。 そこで本研究では,対象領域の音響シーンの周波数帯域毎に,第1および第2次サンプル統計値とソース領域のトレーニングデータセットとを整合させた教師なし領域適応手法を提案する。 このモデルに依存しないアプローチは、未確認デバイスからのオーディオサンプルを事前訓練された分類器に入力する前に適応させることにより、さらなる学習フェーズを回避する。 提案手法は,dcase 2018タスク1-b開発データセットを用いて,文献中の非教師なし手法よりも,ソース領域とターゲット領域の分類精度において優れていることを示す。

The performance of machine learning algorithms is known to be negatively affected by possible mismatches between training (source) and test (target) data distributions. In fact, this problem emerges whenever an acoustic scene classification system which has been trained on data recorded by a given device is applied to samples acquired under different acoustic conditions or captured by mismatched recording devices. To address this issue, we propose an unsupervised domain adaptation method that consists of aligning the first- and second-order sample statistics of each frequency band of target-domain acoustic scenes to the ones of the source-domain training dataset. This model-agnostic approach is devised to adapt audio samples from unseen devices before they are fed to a pre-trained classifier, thus avoiding any further learning phase. Using the DCASE 2018 Task 1-B development dataset, we show that the proposed method outperforms the state-of-the-art unsupervised methods found in the literature in terms of both source- and target-domain classification accuracy.
翻訳日:2022-12-08 05:50:08 公開日:2020-04-30
# iotネットワークにおけるコンテキストアウェア無線接続と処理ユニット最適化

Context-Aware Wireless Connectivity and Processing Unit Optimization for IoT Networks ( http://arxiv.org/abs/2005.00407v1 )

ライセンス: Link先を確認
Metin Ozturk, Attai Ibrahim Abubakar, Rao Naveed Bin Rais, Mona Jaber, Sajjad Hussain, Muhammad Ali Imran(参考訳) 本研究では,IoT(Internet of Things)ネットワークのコンテキスト対応接続性と処理最適化について,新しいアプローチを提案する。 最先端のアプローチとは異なり、提案手法は、エネルギー消費、応答時間、セキュリティ、および金銭コストを共同で最適化することにより、オフロードされるデータの割合とともに、最高の接続と処理ユニット(例えば、デバイス、霧、雲)を同時に選択する。 提案手法は強化学習アルゴリズムを採用し,決定論的解と比較して有意な成果を得る。 特に、応答時間とセキュリティの観点からIoTデバイスの要件は、デバイスの残りのバッテリレベルとともに入力として捉えられ、開発されたアルゴリズムは最適化されたポリシーを返す。 その結果,本手法は総合的多目的最適化基準を満たすことができるが,ベンチマーク手法は,他の目標に到達できないコストで,特定の指標でより良い結果を得ることができることがわかった。 したがって、提案手法は、金融やバッテリーの制約を考慮し、デバイス中心でコンテキスト対応のソリューションである。

A novel approach is presented in this work for context-aware connectivity and processing optimization of Internet of things (IoT) networks. Different from the state-of-the-art approaches, the proposed approach simultaneously selects the best connectivity and processing unit (e.g., device, fog, and cloud) along with the percentage of data to be offloaded by jointly optimizing energy consumption, response-time, security, and monetary cost. The proposed scheme employs a reinforcement learning algorithm, and manages to achieve significant gains compared to deterministic solutions. In particular, the requirements of IoT devices in terms of response-time and security are taken as inputs along with the remaining battery level of the devices, and the developed algorithm returns an optimized policy. The results obtained show that only our method is able to meet the holistic multi-objective optimisation criteria, albeit, the benchmark approaches may achieve better results on a particular metric at the cost of failing to reach the other targets. Thus, the proposed approach is a device-centric and context-aware solution that accounts for the monetary and battery constraints.
翻訳日:2022-12-08 05:49:48 公開日:2020-04-30
# 最小主義文法の強化学習

Reinforcement learning of minimalist grammars ( http://arxiv.org/abs/2005.00359v1 )

ライセンス: Link先を確認
Peter beim Graben, Ronald R\"omer, Werner Meyer, Markus Huber, Matthias Wolff(参考訳) 音声制御されたユーザインタフェースは、デバイスや家庭用機能の操作を容易にする。 最先端の言語技術は、関連するキーワードについて音響分析された音声信号をスキャンし、その後セマンティックスロットに挿入してユーザの意図を解釈する。 適切な認知情報やコミュニケーション技術を開発するためには, 音声, 音声, 意味的特徴を考慮に入れた, 意味的パーサーに基づく発話の意味伝達者(UMT)と, 心的辞書に置き換えるべきである。 この語彙は、ユーザとのインタラクション中に認知エージェントによって取得されなければならない。 生成言語学の最近の計算実装であるミニマリスト文法(MG)に基づく英語発話の構文と意味習得のための強化学習アルゴリズムの概要を述べる。 英語の宣言文は、述語論理の式として符号化された発話の意味対(UMP)の形で、教師によってエージェントに提示される。 MGは推論規則によって普遍的な言語能力の体系化を図り、自然言語知識を同時に獲得した語彙から切り離すため、我々のアプローチは生成文法と強化学習を統一し、現在進行中のチョムスキー・スキナー論争を解決する可能性がある。

Speech-controlled user interfaces facilitate the operation of devices and household functions to laymen. State-of-the-art language technology scans the acoustically analyzed speech signal for relevant keywords that are subsequently inserted into semantic slots to interpret the user's intent. In order to develop proper cognitive information and communication technologies, simple slot-filling should be replaced by utterance meaning transducers (UMT) that are based on semantic parsers and a mental lexicon, comprising syntactic, phonetic and semantic features of the language under consideration. This lexicon must be acquired by a cognitive agent during interaction with its users. We outline a reinforcement learning algorithm for the acquisition of syntax and semantics of English utterances, based on minimalist grammar (MG), a recent computational implementation of generative linguistics. English declarative sentences are presented to the agent by a teacher in form of utterance meaning pairs (UMP) where the meanings are encoded as formulas of predicate logic. Since MG codifies universal linguistic competence through inference rules, thereby separating innate linguistic knowledge from the contingently acquired lexicon, our approach unifies generative grammar and reinforcement learning, hence potentially resolving the still pending Chomsky-Skinner controversy.
翻訳日:2022-12-08 05:46:46 公開日:2020-04-30
# gcn-rl回路設計 : グラフニューラルネットワークと強化学習を用いた転写性トランジスタ

GCN-RL Circuit Designer: Transferable Transistor Sizing with Graph Neural Networks and Reinforcement Learning ( http://arxiv.org/abs/2005.00406v1 )

ライセンス: Link先を確認
Hanrui Wang and Kuan Wang and Jiacheng Yang and Linxiao Shen and Nan Sun and Hae-Seung Lee and Song Han(参考訳) トランジスタの自動サイズ化は、回路設計において大きな設計空間、複雑な性能トレードオフ、高速技術進歩のために難しい問題である。 ある回路をターゲットとするトランジスタサイズ化の研究は数多く行われているが、再設計のオーバーヘッドを軽減するため、知識をある回路から別の回路に転送する研究は限られている。 本稿では,異なる技術ノードとトポロジ間の知識伝達に強化学習(RL)を活用するGCN-RLサーキットデザイナを提案する。 さらに,回路がグラフであるという単純な事実に触発されて,グラフ畳み込みニューラルネットワーク(gcn)を用いた回路トポロジ表現を学ぶ。 GCN-RLは、頂点がトランジスタ、端がワイヤであるトポロジーグラフの特徴を抽出する。 我々の学習に基づく最適化は、従来のブラックボックス最適化法(ベイズ最適化、進化的アルゴリズム)、ランダム検索、人間エキスパート設計と比較して、4つの異なる回路上で最高評価値(fom)を一貫して達成している。 5つの技術ノードと2つの回路トポロジ間の転送学習実験により、転送学習を持つRLは、知識伝達のない手法よりもはるかに高いFoMを実現できることを示した。 トランスファーブル最適化によりトランジスタサイズと設計ポーティングの効率化が図れる。

Automatic transistor sizing is a challenging problem in circuit design due to the large design space, complex performance trade-offs, and fast technological advancements. Although there has been plenty of work on transistor sizing targeting on one circuit, limited research has been done on transferring the knowledge from one circuit to another to reduce the re-design overhead. In this paper, we present GCN-RL Circuit Designer, leveraging reinforcement learning (RL) to transfer the knowledge between different technology nodes and topologies. Moreover, inspired by the simple fact that circuit is a graph, we learn on the circuit topology representation with graph convolutional neural networks (GCN). The GCN-RL agent extracts features of the topology graph whose vertices are transistors, edges are wires. Our learning-based optimization consistently achieves the highest Figures of Merit (FoM) on four different circuits compared with conventional black-box optimization methods (Bayesian Optimization, Evolutionary Algorithms), random search, and human expert designs. Experiments on transfer learning between five technology nodes and two circuit topologies demonstrate that RL with transfer learning can achieve much higher FoMs than methods without knowledge transfer. Our transferable optimization method makes transistor sizing and design porting more effective and efficient.
翻訳日:2022-12-08 05:46:23 公開日:2020-04-30
# スケーラブルな近似モデルカウントのためのスパースハッシュ:理論と実践

Sparse Hashing for Scalable Approximate Model Counting: Theory and Practice ( http://arxiv.org/abs/2004.14692v1 )

ライセンス: Link先を確認
Kuldeep S. Meel and S. Akshay(参考訳) n 変数上の CNF 式 F が与えられたとき、モデルカウントや #SAT の問題は F の満足な割り当ての数を計算することである。 モデルカウント(英: Model counting)は、様々な応用を持つコンピュータ科学における基本的な問題である。 近年、従来の2ユニバーサルハッシュ法と過去10年間のsat解の著しい進歩を組み合わせた効率的なアルゴリズム手法の開発への取り組みが急増している。 これらの手法は、ランダムなXOR制約でCNF式Fを増大させ、結果のCNF-XOR式でNPオラクルを繰り返し呼び出す。 実際には、np oracleコールの呼び出しは、xor制約のサイズによってランタイムパフォーマンスが悪影響を受けるsatソルバに置き換えられる。 2ユニバーサルハッシュ関数の標準的な構成は、予想される大きさ n/2 の XOR 制約につながる確率 p = 1/2 のすべての変数を選択する。 したがって、より小さな確率で変数を選択でき、より小さなXOR制約を導出できるスパースハッシュ関数を設計することが課題である。 本稿では,この課題を理論的および実用的観点から解決する。 まず、集中ハッシュと呼ばれる普遍ハッシュの緩和を定式化し、これらのハッシュ関数の集中度とブール超キューブの等尺不等式の間の、新しくて美しい接続を確立する。 これにより分散と分散指数の(log m)密接な境界を得ることができ、p = o( log(m)/m ) が {0, 1}^n から {0, 1}^m へのスパースハッシュ関数の設計に十分であることを示せる。 次に、この集中ハッシュファミリーに属するスパースハッシュ関数を用いて、新しい近似カウントアルゴリズムを開発する。 1893年のベンチマークによるアルゴリズムの包括的実験的評価は、スパースハッシュ関数の使用が大幅な高速化につながることを証明している。

Given a CNF formula F on n variables, the problem of model counting or #SAT is to compute the number of satisfying assignments of F . Model counting is a fundamental but hard problem in computer science with varied applications. Recent years have witnessed a surge of effort towards developing efficient algorithmic techniques that combine the classical 2-universal hashing with the remarkable progress in SAT solving over the past decade. These techniques augment the CNF formula F with random XOR constraints and invoke an NP oracle repeatedly on the resultant CNF-XOR formulas. In practice, calls to the NP oracle calls are replaced a SAT solver whose runtime performance is adversely affected by size of XOR constraints. The standard construction of 2-universal hash functions chooses every variable with probability p = 1/2 leading to XOR constraints of size n/2 in expectation. Consequently, the challenge is to design sparse hash functions where variables can be chosen with smaller probability and lead to smaller sized XOR constraints. In this paper, we address this challenge from theoretical and practical perspectives. First, we formalize a relaxation of universal hashing, called concentrated hashing and establish a novel and beautiful connection between concentration measures of these hash functions and isoperimetric inequalities on boolean hypercubes. This allows us to obtain (log m) tight bounds on variance and dispersion index and show that p = O( log(m)/m ) suffices for design of sparse hash functions from {0, 1}^n to {0, 1}^m. We then use sparse hash functions belonging to this concentrated hash family to develop new approximate counting algorithms. A comprehensive experimental evaluation of our algorithm on 1893 benchmarks demonstrates that usage of sparse hash functions can lead to significant speedups.
翻訳日:2022-12-08 05:45:11 公開日:2020-04-30
# PeerNomination: ピア選択における精度向上のための厳密性を緩和する

PeerNomination: Relaxing Exactness for Increased Accuracy in Peer Selection ( http://arxiv.org/abs/2004.14939v1 )

ライセンス: Link先を確認
Nicholas Mattei, Paolo Turrini, Stanislav Zhydkov(参考訳) ピア選択エージェントは、賞または賞のサブセットを選択する必要がある。 エージェントが利害関係にあるため、個々のエージェントが選択される確率に影響を及ぼさないように、偏りのないアルゴリズムを設計したいのです。 この問題は資源配分と機構設計に広く応用されており、人工知能の文献でかなりの注目を集めている。 本稿では,不特定ピア選択のための新しいアルゴリズムPeerNominationを提案し,その精度に関する理論的解析を行う。 我々のアルゴリズムには様々な望ましい特徴がある。 特に、文献の以前のアルゴリズムのように、エージェントの明示的な分割を必要としない。 我々は,複数の指標を用いた出口アルゴリズムよりも精度が高いことを示す。

In peer selection agents must choose a subset of themselves for an award or a prize. As agents are self-interested, we want to design algorithms that are impartial, so that an individual agent cannot affect their own chance of being selected. This problem has broad application in resource allocation and mechanism design and has received substantial attention in the artificial intelligence literature. Here, we present a novel algorithm for impartial peer selection, PeerNomination, and provide a theoretical analysis of its accuracy. Our algorithm possesses various desirable features. In particular, it does not require an explicit partitioning of the agents, as previous algorithms in the literature. We show empirically that it achieves higher accuracy than the exiting algorithms over several metrics.
翻訳日:2022-12-08 05:37:13 公開日:2020-04-30
# 付加学習からランクへのアンサンブルのためのクエリレベル早期出口

Query-level Early Exit for Additive Learning-to-Rank Ensembles ( http://arxiv.org/abs/2004.14641v1 )

ライセンス: Link先を確認
Claudio Lucchese, Franco Maria Nardini, Salvatore Orlando, Raffaele Perego, Salvatore Trani(参考訳) 検索エンジンランキングパイプラインは通常、マシン学習決定ツリーの大規模なアンサンブルに基づいている。 クエリ応答時間の厳密な制約により、研究者は、加算アンサンブルのトラバースを早めるアルゴリズムや、トップkにランク付けできない文書の評価を早期に終了するアルゴリズムを調査する動機となった。 本稿では,検索対象とするすべての候補文書のランキングアンサンブルのトラバースを早期に停止する可能性を決定することを目的とした,‘textit{query-level early exiting} の新たな問題点を,アンサンブルの限られた部分で計算された加算スコアに基づいてランキングを返却することによる検討を行う。 クエリ待ち時間とスループットに対する明らかなアドバンテージに加えて、クエリレベルの早期終了がランキングの有効性に与える影響にも対処する。 そこで本研究では,木アンサンブルの漸進的な部分の実際の寄与を,与えられたクエリの上位k文書のランク付けに当てる。 我々の主な発見は、アンサンブルの進行中にスコアが蓄積されるにつれてクエリが異なる振る舞いを示し、クエリレベルの早期停止がランキング品質を著しく向上させることができることである。 2つの公開データセットで実施した再現可能かつ総合的な実験評価の結果,NDCG@10ではクエリレベルの早期退避が最大7.5%向上し,スコアリングプロセスが最大2.2倍に高速化された。

Search engine ranking pipelines are commonly based on large ensembles of machine-learned decision trees. The tight constraints on query response time recently motivated researchers to investigate algorithms to make faster the traversal of the additive ensemble or to early terminate the evaluation of documents that are unlikely to be ranked among the top-k. In this paper, we investigate the novel problem of \textit{query-level early exiting}, aimed at deciding the profitability of early stopping the traversal of the ranking ensemble for all the candidate documents to be scored for a query, by simply returning a ranking based on the additive scores computed by a limited portion of the ensemble. Besides the obvious advantage on query latency and throughput, we address the possible positive impact of query-level early exiting on ranking effectiveness. To this end, we study the actual contribution of incremental portions of the tree ensemble to the ranking of the top-k documents scored for a given query. Our main finding is that queries exhibit different behaviors as scores are accumulated during the traversal of the ensemble and that query-level early stopping can remarkably improve ranking quality. We present a reproducible and comprehensive experimental evaluation, conducted on two public datasets, showing that query-level early exiting achieves an overall gain of up to 7.5% in terms of NDCG@10 with a speedup of the scoring process of up to 2.2x.
翻訳日:2022-12-08 05:36:33 公開日:2020-04-30
# 協調フィルタリングのためのロバスト階層グラフ畳み込みネットワークモデル

A Robust Hierarchical Graph Convolutional Network Model for Collaborative Filtering ( http://arxiv.org/abs/2004.14734v1 )

ライセンス: Link先を確認
Shaowen Peng, Tsunenori Mine(参考訳) Graph Convolutional Network (GCN)は大きな成功を収め、レコメンダシステムを含む様々な分野に適用されている。 しかしながら、GCNは、トレーニングの困難、過剰なスムーシング、敵の攻撃に対する脆弱性など、多くの問題に悩まされている。 本稿では,従来のgcnベースの手法と異なり,協調フィルタリングのためのロバストなgcnモデルの構築にコミットする。 まず、異なる順序近傍からのメッセージを再帰的に組み込むことは、異なるノードメッセージを区別不能に混合し、トレーニングの難しさを増大させる。代わりに、異なる順序隣のメッセージを、効果的に示される単純なGCNモデルで個別に集約することを選び、次に、追加のモデルパラメータを導入することなく階層的にそれらをまとめる。 第2に,各レイヤに隣接メッセージをランダムに削除することで,オーバースムーシングを緩和するソリューションを提案し,オーバーフィッティングを防止し,堅牢性を高める。 3つの実世界のデータセットに対する大規模な実験は、我々のモデルの有効性と堅牢性を示している。

Graph Convolutional Network (GCN) has achieved great success and has been applied in various fields including recommender systems. However, GCN still suffers from many issues such as training difficulties, over-smoothing, vulnerable to adversarial attacks, etc. Distinct from current GCN-based methods which simply employ GCN for recommendation, in this paper we are committed to build a robust GCN model for collaborative filtering. Firstly, we argue that recursively incorporating messages from different order neighborhood mixes distinct node messages indistinguishably, which increases the training difficulty; instead we choose to separately aggregate different order neighbor messages with a simple GCN model which has been shown effective; then we accumulate them together in a hierarchical way without introducing additional model parameters. Secondly, we propose a solution to alleviate over-smoothing by randomly dropping out neighbor messages at each layer, which also well prevents over-fitting and enhances the robustness. Extensive experiments on three real-world datasets demonstrate the effectiveness and robustness of our model.
翻訳日:2022-12-08 05:35:12 公開日:2020-04-30
# 小さな量子コンピュータ上のコアセットクラスタリング

Coreset Clustering on Small Quantum Computers ( http://arxiv.org/abs/2004.14970v1 )

ライセンス: Link先を確認
Teague Tomesh, Pranav Gokhale, Eric R. Anschuetz, Frederic T. Chong(参考訳) 機械学習のための多くの量子アルゴリズムは、重ね合わせで古典データにアクセスする必要がある。 しかし、多くの自然データセットやアルゴリズムでは、重ね合わせでデータセットをロードするために必要なオーバーヘッドは、古典的なアルゴリズムに対する潜在的な量子スピードアップを消去することができる。 harrowの最近の研究は、量子アルゴリズムのデータ読み込みオーバーヘッドを最小化するコアセットに依存することで、この問題に対処するために、ハイブリッド量子古典コンピューティングの新しいパラダイムを導入している。 我々は、このパラダイムを用いて、短期量子コンピュータ上で$k$-meansクラスタリングを行い、小さなコアセット上でQAOA最適化インスタンスとしてキャストする。 このアプローチの性能をIBM Qハードウェア上で数値的および実験的にクラスタリングする古典的な$k$-meansと比較する。 ランダムサンプリングに比較してcoresetがうまく動作し、qaoaがcoresetの標準の$k$-meansを上回る可能性のあるデータセットを見つけることができます。 しかし、coresetsとqaoaの両方がうまく機能するデータセットを見つけることは、データセット全体の$k$-meansよりも量子的に有利に働く必要がある。

Many quantum algorithms for machine learning require access to classical data in superposition. However, for many natural data sets and algorithms, the overhead required to load the data set in superposition can erase any potential quantum speedup over classical algorithms. Recent work by Harrow introduces a new paradigm in hybrid quantum-classical computing to address this issue, relying on coresets to minimize the data loading overhead of quantum algorithms. We investigate using this paradigm to perform $k$-means clustering on near-term quantum computers, by casting it as a QAOA optimization instance over a small coreset. We compare the performance of this approach to classical $k$-means clustering both numerically and experimentally on IBM Q hardware. We are able to find data sets where coresets work well relative to random sampling and where QAOA could potentially outperform standard $k$-means on a coreset. However, finding data sets where both coresets and QAOA work well--which is necessary for a quantum advantage over $k$-means on the entire data set--appears to be challenging.
翻訳日:2022-12-08 05:34:26 公開日:2020-04-30
# 正規化定数の効率的な計算によるフィッシャー・ビンガム分布の最大推定

Maximum likelihood estimation of the Fisher-Bingham distribution via efficient calculation of its normalizing constant ( http://arxiv.org/abs/2004.14660v1 )

ライセンス: Link先を確認
Yici Chen, Kenichiro Tanaka(参考訳) 本稿では,フィッシャー-ビンガム分布の正規化定数を計算するための効率的な数値積分式を提案する。 この公式は、連続オイラー変換を伴う数値積分式を正規化定数のフーリエ型積分表現に用いている。 この手法は高速で正確であるため、高次元フィッシャー・ビンガム分布の正規化定数の計算に応用することができる。 より正確には、誤差は積分点の増加とともに指数関数的に減少し、計算コストは次元とともに線形に増加する。 さらに、この式は正規化定数の勾配とヘッセン行列を計算するのに有用である。 そこで,本式を用いて高次元データの最大推定値(MLE)を効率的に計算する。 最後に、mleを超球面変分オートエンコーダ(s-vae)に適用する。これはディープラーニングに基づく生成モデルで、潜在空間を単位超球面に制限する。 我々は手書き数字の画像で訓練されたS-VAEを用いて各ラベルの分布を推定する。 このアプリケーションはモデルに新しいラベルを追加するのに役立つ。

This paper proposes an efficient numerical integration formula to compute the normalizing constant of Fisher--Bingham distributions. This formula uses a numerical integration formula with the continuous Euler transform to a Fourier-type integral representation of the normalizing constant. As this method is fast and accurate, it can be applied to the calculation of the normalizing constant of high-dimensional Fisher--Bingham distributions. More precisely, the error decays exponentially with an increase in the integration points, and the computation cost increases linearly with the dimensions. In addition, this formula is useful for calculating the gradient and Hessian matrix of the normalizing constant. Therefore, we apply this formula to efficiently calculate the maximum likelihood estimation (MLE) of high-dimensional data. Finally, we apply the MLE to the hyperspherical variational auto-encoder (S-VAE), a deep-learning-based generative model that restricts the latent space to a unit hypersphere. We use the S-VAE trained with images of handwritten numbers to estimate the distributions of each label. This application is useful for adding new labels to the models.
翻訳日:2022-12-08 05:28:22 公開日:2020-04-30
# 連鎖ランダム林を用いた多重インプテーション--バッグ外予測誤差の実証的分布に基づく予備的検討

Multiple imputation using chained random forests: a preliminary study based on the empirical distribution of out-of-bag prediction errors ( http://arxiv.org/abs/2004.14823v1 )

ライセンス: Link先を確認
Shangzhi Hong, Yuqi Sun, Hanying Li, Henry S. Lynn(参考訳) バイオメディカル分野のデータ解析において欠落データは一般的であり、RFアルゴリズムはデータ分布や関係の特定を必要とせずに高い精度を達成できるため、ランダムフォレスト(RF)に基づく計算法が広く受け入れられている。 しかし、RFからの予測には予測の不確実性に関する情報は含まれていない。 RFを用いた多重計算法では,予測誤差を考慮せずに予測ノード下での観測を直接サンプリングしたり,予測誤差分布について正規性仮定を行ったりすることで,適切な多重計算を試みた。 本研究では,バッグ外予測誤差の実験的分布を条件分布として,rfベース多重インプテーション法を提案する。 提案手法は、RFの予測誤差に関するパラメトリック仮定と、相互作用項が存在するデータに関するシミュレーション研究に基づく予測平均マッチングを用いて、従来の手法と比較した。 提案する非パラメトリック法は有効な複数のインプテーション結果を提供することができる。 この研究に付随するRパッケージが公開されている。

Missing data are common in data analyses in biomedical fields, and imputation methods based on random forests (RF) have become widely accepted, as the RF algorithm can achieve high accuracy without the need for specification of data distributions or relationships. However, the predictions from RF do not contain information about prediction uncertainty, which was unacceptable for multiple imputation. Available RF-based multiple imputation methods tried to do proper multiple imputation either by sampling directly from observations under predicting nodes without accounting for the prediction error or by making normality assumption about the prediction error distribution. In this study, a novel RF-based multiple imputation method was proposed by constructing conditional distributions the empirical distribution of out-of-bag prediction errors. The proposed method was compared with previous method with parametric assumptions about RF's prediction errors and predictive mean matching based on simulation studies on data with presence of interaction term. The proposed non-parametric method can deliver valid multiple imputation results. The accompanying R package for this study is publicly available.
翻訳日:2022-12-08 05:28:05 公開日:2020-04-30
# ノルマティブプリミティブを用いた画像復元による教師なし病変検出

Unsupervised Lesion Detection via Image Restoration with a Normative Prior ( http://arxiv.org/abs/2005.00031v1 )

ライセンス: Link先を確認
Xiaoran Chen, Suhang You, Kerem Can Tezcan, Ender Konukoglu(参考訳) 非教師なし病変検出は、正常な解剖学の規範的分布を正確に推定し、訓練例を使わずにアウトリーチとして病変を検出するという難しい問題である。 近年,ディープラーニングによる教師なし学習の進展に伴い,研究コミュニティから注目が集まっている。 Such advances allow the estimation of high-dimensional distributions, such as normative distributions, with higher accuracy than previous methods.The main approach of the recently proposed methods is to learn a latent-variable model parameterized with networks to approximate the normative distribution using example images showing healthy anatomy, perform prior-projection, i.e. reconstruct the image with lesions using the latent-variable model, and determine lesions based on the differences between the reconstructed and original images. 有望である一方で、事前のプロジェクションステップは、しばしば多くの偽陽性につながる。 本研究では, 画像復元問題として教師なし病変検出にアプローチし, ネットワークを基準分布とする確率モデルを提案し, MAP推定を用いて病変検出を行う。 確率モデルは復元された画像とオリジナル画像の間の大きな偏差を罰し、画素単位での誤検出を減少させる。 脳MRIにおけるグリオーマと脳卒中病変を用いた実験では、提案手法は、グリオーマと脳卒中検出の両方において、最先端の教師なし手法よりかなり優れていることが示されている。 集中モデル解析はMAP画像復元の有効性を確認する。

Unsupervised lesion detection is a challenging problem that requires accurately estimating normative distributions of healthy anatomy and detecting lesions as outliers without training examples. Recently, this problem has received increased attention from the research community following the advances in unsupervised learning with deep learning. Such advances allow the estimation of high-dimensional distributions, such as normative distributions, with higher accuracy than previous methods.The main approach of the recently proposed methods is to learn a latent-variable model parameterized with networks to approximate the normative distribution using example images showing healthy anatomy, perform prior-projection, i.e. reconstruct the image with lesions using the latent-variable model, and determine lesions based on the differences between the reconstructed and original images. While being promising, the prior-projection step often leads to a large number of false positives. In this work, we approach unsupervised lesion detection as an image restoration problem and propose a probabilistic model that uses a network-based prior as the normative distribution and detect lesions pixel-wise using MAP estimation. The probabilistic model punishes large deviations between restored and original images, reducing false positives in pixel-wise detections. Experiments with gliomas and stroke lesions in brain MRI using publicly available datasets show that the proposed approach outperforms the state-of-the-art unsupervised methods by a substantial margin, +0.13 (AUC), for both glioma and stroke detection. Extensive model analysis confirms the effectiveness of MAP-based image restoration.
翻訳日:2022-12-08 05:26:34 公開日:2020-04-30
# 協調環境におけるヒューマン・ドーンコミュニケーションの概念設計

Conceptual Design of Human-Drone Communication in Collaborative Environments ( http://arxiv.org/abs/2005.00127v1 )

ライセンス: Link先を確認
Hans Dermot Doran, Monika Reif, Marco Oehler, Curdin Stoehr, Pierluigi Capone(参考訳) 自律型ロボットとドローンは、明日の産業と農業で協力的に働く。 これが現実になる前には、人間と機械の間のある種の標準化されたコミュニケーションが確立され、特に労働環境における自律的な機械と訓練を受けていない人間とのコミュニケーションを促進する必要がある。 本研究では、農業産業における人力とドローンによる人間の言語について、訓練を受けていない労働者やビジターとの対話が期待できる予備的な結果を示す。 そこで本研究では,航空機のマーシャリングによる人間とドローンのインタラクションの飛行パターンと,人-ドローンのインタラクションの人間信号処理を併用した基本的な視覚指標を提案する。 画像認識の予備結果と今後の課題について考察する。

Autonomous robots and drones will work collaboratively and cooperatively in tomorrow's industry and agriculture. Before this becomes a reality, some form of standardised communication between man and machine must be established that specifically facilitates communication between autonomous machines and both trained and untrained human actors in the working environment. We present preliminary results on a human-drone and a drone-human language situated in the agricultural industry where interactions with trained and untrained workers and visitors can be expected. We present basic visual indicators enhanced with flight patterns for drone-human interaction and human signaling based on aircraft marshaling for humane-drone interaction. We discuss preliminary results on image recognition and future work.
翻訳日:2022-12-08 05:26:11 公開日:2020-04-30
# 視力に基づく歩行認識技術

Vision-based techniques for gait recognition ( http://arxiv.org/abs/2005.02148v1 )

ライセンス: Link先を確認
Tracey K. M. Lee, Mohammed Belkhatir, Saeid Sanei(参考訳) グローバルなセキュリティ問題により、ビデオ監視デバイスが急増している。 インテリジェントな監視システムは、潜在的な脅威を自動的に発見し、アラートを発生させようとする。 調査対象を特定できることは、その脅威レベルを決定するのに役立つ。 現在の世代のデバイスは、識別プロセスを支援するために、時間的に異なる特徴のために分析されるデジタルビデオデータを提供する。 一般的に、人々は施設にアクセスするために待機し、フルフロントでビデオカメラに近づきます。 この環境では、例えば歩数のような時間的特徴を含む歩数など、様々なバイオメトリックスが利用可能である。 歩容は遠方でも不明瞭に測定できる。 ビデオデータには、短距離バイオメトリックスである顔機能も含まれている。 このようにして、バイオメトリックスを1組のデータを使って自然に組み合わせることができる。 本稿では,この研究が実施されている環境に合わせた歩行認識とモデリングの現在の技術について調査する。 また、視点や咬合効果などの歩行データから生じる問題点と、人間の運動の信頼できる追跡に関するコンピュータビジョンの課題について詳細に論じる。 次に,これらの課題と歩容処理に関する課題を浮き彫りにして,歩容と他のバイオメトリックスを組み合わせたフレームワークについて論じる。 そこで我々は,バイオメトリックスに基づく人間の認識における新しいパラダイム,すなわち遠距離バイオメトリックスと近距離で動作するバイオメトリックスの組み合わせとして,歩行のフォロノーマルな視点を用いたモチベーションを提案する。

Global security concerns have raised a proliferation of video surveillance devices. Intelligent surveillance systems seek to discover possible threats automatically and raise alerts. Being able to identify the surveyed object can help determine its threat level. The current generation of devices provide digital video data to be analysed for time varying features to assist in the identification process. Commonly, people queue up to access a facility and approach a video camera in full frontal view. In this environment, a variety of biometrics are available - for example, gait which includes temporal features like stride period. Gait can be measured unobtrusively at a distance. The video data will also include face features, which are short-range biometrics. In this way, one can combine biometrics naturally using one set of data. In this paper we survey current techniques of gait recognition and modelling with the environment in which the research was conducted. We also discuss in detail the issues arising from deriving gait data, such as perspective and occlusion effects, together with the associated computer vision challenges of reliable tracking of human movement. Then, after highlighting these issues and challenges related to gait processing, we proceed to discuss the frameworks combining gait with other biometrics. We then provide motivations for a novel paradigm in biometrics-based human recognition, i.e. the use of the fronto-normal view of gait as a far-range biometrics combined with biometrics operating at a near distance.
翻訳日:2022-12-08 05:25:58 公開日:2020-04-30
# エッジインテリジェンスに関する6gホワイトペーパー

6G White Paper on Edge Intelligence ( http://arxiv.org/abs/2004.14850v1 )

ライセンス: Link先を確認
Ella Peltonen, Mehdi Bennis, Michele Capobianco, Merouane Debbah, Aaron Ding, Felipe Gil-Casti\~neira, Marko Jurmu, Teemu Karvonen, Markus Kelanti, Adrian Kliks, Teemu Lepp\"anen, Lauri Lov\'en, Tommi Mikkonen, Ashwin Rao, Sumudu Samarakoon, Kari Sepp\"anen, Pawe{\l} Sroka, Sasu Tarkoma, Tingting Yang(参考訳) このホワイトペーパーでは、6G Edge Intelligenceのビジョンを提供します。 5gと将来の6gネットワークを超えて、データ駆動機械学習と人工知能を利用するインテリジェントなソリューションは、より効率的な製造、新しいパーソナルスマートデバイス環境と経験、都市コンピューティング、自律的な交通設定など、いくつかの現実のアプリケーションで重要になっている。 このシリーズの6G白書に示すように、エッジコンピューティングを他の6Gイネーブラーとともに、将来の2030のインテリジェントインターネット技術を確立する重要な要素として提示する。 本稿では,エッジコンピューティング基盤とプラットフォーム,データとエッジネットワーク管理,エッジのためのソフトウェア開発,ml/aiアルゴリズムのリアルタイムおよび分散トレーニング,セキュリティ,プライバシ,価格,エンドユーザの側面といった領域に注目した。 我々は、主要なイネーブラと課題を議論し、インテリジェントエッジサービス開発における重要な研究課題を特定する。 このホワイトペーパーの主な成果として、モノのインターネットからインテリジェントなモノのインターネットへの移行を想定し、6gインテリジェントエッジの開発ロードマップを提供する。

In this white paper we provide a vision for 6G Edge Intelligence. Moving towards 5G and beyond the future 6G networks, intelligent solutions utilizing data-driven machine learning and artificial intelligence become crucial for several real-world applications including but not limited to, more efficient manufacturing, novel personal smart device environments and experiences, urban computing and autonomous traffic settings. We present edge computing along with other 6G enablers as a key component to establish the future 2030 intelligent Internet technologies as shown in this series of 6G White Papers. In this white paper, we focus in the domains of edge computing infrastructure and platforms, data and edge network management, software development for edge, and real-time and distributed training of ML/AI algorithms, along with security, privacy, pricing, and end-user aspects. We discuss the key enablers and challenges and identify the key research questions for the development of the Intelligent Edge services. As a main outcome of this white paper, we envision a transition from Internet of Things to Intelligent Internet of Intelligent Things and provide a roadmap for development of 6G Intelligent Edge.
翻訳日:2022-12-08 05:25:36 公開日:2020-04-30
# 信頼できるディープラーニングに基づく人物再同定モデルに関する調査:まだあるか?

Survey on Reliable Deep Learning-Based Person Re-Identification Models: Are We There Yet? ( http://arxiv.org/abs/2005.00355v1 )

ライセンス: Link先を確認
Bahram Lavi, Ihsan Ullah, Mehdi Fatan, and Anderson Rocha(参考訳) intelligent video-surveillance(ivs)は現在、コンピュータビジョンと機械学習の活発な研究分野であり、監視オペレーターや鑑識ビデオ研究者に有用なツールを提供している。 個人再識別(PReID)は、ISVにおいて最も重大な問題の一つであり、ネットワーク内のカメラ上で既に個人が観察されているかどうかを認識する。 PReIDのソリューションには、興味のある個人を示すビデオシーケンスの検索や、複数のカメラビューに対する歩行者追跡など、無数の応用がある。 文献におけるpreidの性能を高めるために異なる手法が提案されており、より最近の研究者は、類似した視覚問題とテスト時の高速実行に対する説得力のある性能から、ディープニューラルネットワーク(dnn)を利用した。 再特定ソリューションの重要性と幅広い応用を考えると,本研究の目的は,この領域で実施されている課題を議論し,この課題に使用される最先端のdnnモデルについて調査することである。 ベンチマークデータセットのセット上で,各モデルの記述と評価について述べる。 最後に,これらのモデルとの詳細な比較を行い,今後の研究のガイドラインとして機能する限界について考察する。

Intelligent video-surveillance (IVS) is currently an active research field in computer vision and machine learning and provides useful tools for surveillance operators and forensic video investigators. Person re-identification (PReID) is one of the most critical problems in IVS, and it consists of recognizing whether or not an individual has already been observed over a camera in a network. Solutions to PReID have myriad applications including retrieval of video-sequences showing an individual of interest or even pedestrian tracking over multiple camera views. Different techniques have been proposed to increase the performance of PReID in the literature, and more recently researchers utilized deep neural networks (DNNs) given their compelling performance on similar vision problems and fast execution at test time. Given the importance and wide range of applications of re-identification solutions, our objective herein is to discuss the work carried out in the area and come up with a survey of state-of-the-art DNN models being used for this task. We present descriptions of each model along with their evaluation on a set of benchmark datasets. Finally, we show a detailed comparison among these models, which are followed by some discussions on their limitations that can work as guidelines for future research.
翻訳日:2022-12-08 05:19:18 公開日:2020-04-30
# 生成的逆データプログラミング

Generative Adversarial Data Programming ( http://arxiv.org/abs/2005.00364v1 )

ライセンス: Link先を確認
Arghya Pal, Vineeth N Balasubramanian(参考訳) コンピュータビジョンやその他の分野における機械学習モデルの展開において、手作業による大規模なトレーニングデータのあいまいさが大きなボトルネックとなっている。 最近の研究(データプログラミング)では、ラベル付け関数の形での遠隔監視信号を使用して、与えられたデータに対するラベルをほぼ定常時間で取得できることが示されている。 本稿では,弱いラベル付け関数のセットが与えられた場合の,データ生成の逆手法と,ラベル付けされたラベル付けを併用したデータ生成手法を提案する。 さらに興味深いことに、このようなラベリング関数は簡単に一般化できるため、自己教師付きラベル付き画像生成、ゼロショットテキストからラベル付き画像生成、転送学習、マルチタスク学習など、フレームワークをさまざまな設定に拡張することができる。

The paucity of large curated hand-labeled training data forms a major bottleneck in the deployment of machine learning models in computer vision and other fields. Recent work (Data Programming) has shown how distant supervision signals in the form of labeling functions can be used to obtain labels for given data in near-constant time. In this work, we present Adversarial Data Programming (ADP), which presents an adversarial methodology to generate data as well as a curated aggregated label, given a set of weak labeling functions. More interestingly, such labeling functions are often easily generalizable, thus allowing our framework to be extended to different setups, including self-supervised labeled image generation, zero-shot text to labeled image generation, transfer learning, and multi-task learning.
翻訳日:2022-12-08 05:18:38 公開日:2020-04-30
# 自然言語による心理的リスクの間接的同定

Indirect Identification of Psychosocial Risks from Natural Language ( http://arxiv.org/abs/2004.14554v1 )

ライセンス: Link先を確認
Kristen C. Allen, Alex Davis, and Tamar Krishnamurti(参考訳) 周産期には、うつ病や親密なパートナーの暴力を含む精神社会的健康リスクは、両親や子供の深刻な有害な健康結果と関係している。 適切な介入のために、医療専門家はまずリスクのある人を特定する必要があるが、stigmaはしばしば、評価を促すのに必要な情報を直接開示することを妨げている。 精神社会的リスクを示す情報を間接的に抽出・分析する方法を検討する。 近日女性による短い日記エントリは、トピックモデリングによって抽出されたテーマパターンと、辞書に入力された感情特徴から引き出された感情的な視点を示す。 これらの特徴を用いて、親密なパートナーによる抑うつと心理的攻撃のスクリーニングを正規化回帰を用いて予測する。 トピックモデルと感情特徴によって定量化されたジャーナルのテキストエントリは、うつ病予測の可能性を示しており、クローズドフォームな質問と同じくらいパフォーマンスが良い。 テキストベースの特徴は、親密なパートナー暴力の予測には役立ちませんでしたが、適度に間接的な複数選択の質問は、明示的な開示なしに検出できます。 どちらの方法も、スティグマタイズドリスクを検出するための初期的または補完的なスクリーニングアプローチとして機能する。

During the perinatal period, psychosocial health risks, including depression and intimate partner violence, are associated with serious adverse health outcomes for parents and children. To appropriately intervene, healthcare professionals must first identify those at risk, yet stigma often prevents people from directly disclosing the information needed to prompt an assessment. We examine indirect methods of eliciting and analyzing information that could indicate psychosocial risks. Short diary entries by peripartum women exhibit thematic patterns, extracted by topic modeling, and emotional perspective, drawn from dictionary-informed sentiment features. Using these features, we use regularized regression to predict screening measures of depression and psychological aggression by an intimate partner. Journal text entries quantified through topic models and sentiment features show promise for depression prediction, with performance almost as good as closed-form questions. Text-based features were less useful for prediction of intimate partner violence, but moderately indirect multiple-choice questioning allowed for detection without explicit disclosure. Both methods may serve as an initial or complementary screening approach to detecting stigmatized risks.
翻訳日:2022-12-08 05:18:24 公開日:2020-04-30
# EnsembleGAN:短文会話における検索生成エンサンブルモデルの逆学習

EnsembleGAN: Adversarial Learning for Retrieval-Generation Ensemble Model on Short-Text Conversation ( http://arxiv.org/abs/2004.14592v1 )

ライセンス: Link先を確認
Jiayi Zhang, Chongyang Tao, Zhenjing Xu, Qiaojing Xie, Wei Chen, Rui Yan(参考訳) 定性的な応答を生成することは、人間とコンピュータの対話システムにとって常に課題である。 既存の対話システムは通常、検索ベースまたは生成ベースアプローチのいずれかに由来する。 2つのアンサンブルモデルが自然に考えられたにもかかわらず、既存のアンサンブル法は1つのアプローチを利用してもう1つの方法を強化することにのみ焦点を絞っていた。 本稿では,オープンドメイン会話シナリオにおける検索生成アンサンブルモデルを強化するための逆学習フレームワークであるアンサンブルGANを提案する。 言語モデルのようなジェネレータ、ランカジェネレータ、ランカディミネーターで構成されている。 2つの生成器は、接地を近似し、判別器から高いランクのスコアを受ける応答を生成することを目指して、それぞれ、高度に関連性の高い応答と、競合しない候補者をそれぞれ生成することを学習し、差別的ランク付け器は、敵の反応から真の応答を識別するように訓練し、両生成器のメリットを特徴付ける。 大規模短文会話データを用いた実験結果から,人間および自動評価指標に対する改善によるアンサンブルガンの有効性が示された。

Generating qualitative responses has always been a challenge for human-computer dialogue systems. Existing dialogue systems generally derive from either retrieval-based or generative-based approaches, both of which have their own pros and cons. Despite the natural idea of an ensemble model of the two, existing ensemble methods only focused on leveraging one approach to enhance another, we argue however that they can be further mutually enhanced with a proper training strategy. In this paper, we propose ensembleGAN, an adversarial learning framework for enhancing a retrieval-generation ensemble model in open-domain conversation scenario. It consists of a language-model-like generator, a ranker generator, and one ranker discriminator. Aiming at generating responses that approximate the ground-truth and receive high ranking scores from the discriminator, the two generators learn to generate improved highly relevant responses and competitive unobserved candidates respectively, while the discriminative ranker is trained to identify true responses from adversarial ones, thus featuring the merits of both generator counterparts. The experimental results on a large short-text conversation data demonstrate the effectiveness of the ensembleGAN by the amelioration on both human and automatic evaluation metrics.
翻訳日:2022-12-08 05:18:04 公開日:2020-04-30
# カスタマイズ可能な自動タグ作成方法:オーバータグおよびアンダータグ文書の問題に対処する

Method for Customizable Automated Tagging: Addressing the Problem of Over-tagging and Under-tagging Text Documents ( http://arxiv.org/abs/2005.00042v1 )

ライセンス: Link先を確認
Maharshi R. Pandya, Jessica Reyes, Bob Vanderheyden(参考訳) authorが提供するタグを使って新しいドキュメントのタグを予測すると、しばしばタグが過剰に生成されます。 著者がタグを提供していない場合、私たちのドキュメントは深刻なアンダータグ問題に直面します。 本稿では,大規模文書コーパスに広く適用可能なタグの普遍的な集合を生成する手法を提案する。 まず、IBM WatsonのNLUサービスを使って、コーパスで人気のある8,854のレポートから"複合ドキュメントタグ"と呼ぶキーワード/フレーズを収集します。 複雑な文書タグにLDAモデルを適用し、765個のユニークな「単純なタグ」を生成する。 文書のコーパスにタグを適用する際、各文書をIBM Watson NLUを通して実行し、適切な単純なタグを適用する。 765の単純なタグだけで、コーパス内の88,583のドキュメントのうち87,397のタグを、少なくとも1つのタグでタグ付けできます。 87,397の文書のうち92.1%が十分にタグ付けされていると判断されている。 最後に,本手法の性能とその限界について考察する。

Using author provided tags to predict tags for a new document often results in the overgeneration of tags. In the case where the author doesn't provide any tags, our documents face the severe under-tagging issue. In this paper, we present a method to generate a universal set of tags that can be applied widely to a large document corpus. Using IBM Watson's NLU service, first, we collect keywords/phrases that we call "complex document tags" from 8,854 popular reports in the corpus. We apply LDA model over these complex document tags to generate a set of 765 unique "simple tags". In applying the tags to a corpus of documents, we run each document through the IBM Watson NLU and apply appropriate simple tags. Using only 765 simple tags, our method allows us to tag 87,397 out of 88,583 total documents in the corpus with at least one tag. About 92.1% of the total 87,397 documents are also determined to be sufficiently-tagged. In the end, we discuss the performance of our method and its limitations.
翻訳日:2022-12-08 05:17:23 公開日:2020-04-30
# 深部PICO抽出のパワーを解き放つ:段階的医学的NER同定

Unlocking the Power of Deep PICO Extraction: Step-wise Medical NER Identification ( http://arxiv.org/abs/2005.06601v1 )

ライセンス: Link先を確認
Tengteng Zhang, Yiqin Yu, Jing Mei, Zefang Tang, Xiang Zhang, Shaochun Li(参考訳) PICOフレームワーク(Population, Intervention, Comparison, Outcome)は通常、医療領域における証拠の定式化に使用される。 PICO抽出の主な課題は、医学文献から文章を抽出し、各クラスに分類することである。 しかし、ほとんどの状況において、抽出された文には特定のクラスに分類されても複数の証拠が存在する。 この問題に対処するため,我々はdner(entity recognition)抽出法とpico同定法というステップワイズ疾患を提案する。 論文のタイトルと要約文はまずPICOの異なるクラスに分類され、医療機関はPとOに分類され、異なる種類のディープラーニングフレームワークが使用され、実験結果から従来のPICO抽出方法と比較して高い性能ときめ細かい抽出結果が得られることが示された。

The PICO framework (Population, Intervention, Comparison, and Outcome) is usually used to formulate evidence in the medical domain. The major task of PICO extraction is to extract sentences from medical literature and classify them into each class. However, in most circumstances, there will be more than one evidences in an extracted sentence even it has been categorized to a certain class. In order to address this problem, we propose a step-wise disease Named Entity Recognition (DNER) extraction and PICO identification method. With our method, sentences in paper title and abstract are first classified into different classes of PICO, and medical entities are then identified and classified into P and O. Different kinds of deep learning frameworks are used and experimental results show that our method will achieve high performance and fine-grained extraction results comparing with conventional PICO extraction works.
翻訳日:2022-12-08 05:17:04 公開日:2020-04-30
# 深度に基づくロボットナビゲーションの強化学習のためのインクリメンタル環境複雑度を用いたシミュレータ間移動

Sim-to-Real Transfer with Incremental Environment Complexity for Reinforcement Learning of Depth-Based Robot Navigation ( http://arxiv.org/abs/2004.14684v1 )

ライセンス: Link先を確認
Thomas Chaffre, Julien Moras, Adrien Chan-Hon-Tong, Julien Marzat(参考訳) 学習に基づくモデルを現実世界に移すことは、モデルフリー制御理論における最も難しい問題の1つである。 実際のロボットのデータ収集コストや、深層強化学習アルゴリズムのサンプル効率が限られているため、モデルは通常、理論上無限の量のデータを提供するシミュレータで訓練される。 非有界な試行とエラーの実行を提供するが、シミュレーションと物理世界の間の現実的なギャップは、実際の運用におけるポリシーの振る舞いをほとんど保証しない。 問題によっては、高価な真の微調整および/または複雑な領域ランダム化戦略が関連するポリシーを作成するために必要となる。 本稿では,段階的環境複雑性を用いたソフトアクター・クリティカル(SAC)トレーニング戦略を提案し,実世界における追加トレーニングの必要性を大幅に低減する。 アプリケーションは深度に基づくマップレスナビゲーションで、移動ロボットは、事前のマッピング情報なしで、散らかった環境で所定の経路点に到達すべきである。 シミュレーションおよび実環境における実験結果から,提案手法の効率を定量的に評価し,本手法よりも2倍の成功率を示した。

Transferring learning-based models to the real world remains one of the hardest problems in model-free control theory. Due to the cost of data collection on a real robot and the limited sample efficiency of Deep Reinforcement Learning algorithms, models are usually trained in a simulator which theoretically provides an infinite amount of data. Despite offering unbounded trial and error runs, the reality gap between simulation and the physical world brings little guarantee about the policy behavior in real operation. Depending on the problem, expensive real fine-tuning and/or a complex domain randomization strategy may be required to produce a relevant policy. In this paper, a Soft-Actor Critic (SAC) training strategy using incremental environment complexity is proposed to drastically reduce the need for additional training in the real world. The application addressed is depth-based mapless navigation, where a mobile robot should reach a given waypoint in a cluttered environment with no prior mapping information. Experimental results in simulated and real environments are presented to assess quantitatively the efficiency of the proposed approach, which demonstrated a success rate twice higher than a naive strategy.
翻訳日:2022-12-08 05:16:49 公開日:2020-04-30
# 空間解釈を用いた衛星画像時系列データに対する注意弱教師付き土地被覆マッピング

Attentive Weakly Supervised land cover mapping for object-based satellite image time series data with spatial interpretation ( http://arxiv.org/abs/2004.14672v1 )

ライセンス: Link先を確認
Dino Ienco, Yawogan Jean Eudes Gbodjo, Roberto Interdonato, and Raffaele Gaetano(参考訳) 現在、現代の地球観測システムは大量の衛星情報を継続的に収集している。 高解像度衛星画像時系列(SITS)データを取得するという前例のない可能性(同じ地理的領域における高解像度の高解像度画像シリーズ)は、地球表面の異なる側面をモニタリングする新たな機会を開く一方で、そのような膨大なリッチで複雑な画像データを分析・活用するための適切な方法として、新たな課題を提起している。 SITSデータ解析に関連する主な課題の1つは、衛星データを学習方法で利用し、対応する土地被覆クラスである地球表面状態を回復する土地被覆マッピングに関するものである。 運用上の制約のため、収集されたラベル情報は、機械学習戦略を訓練するものであり、しばしばボリュームが制限され、プロセス全体に影響を与える不正確で弱い知識を実行する粗い粒度で得られる。 このような問題に対処するために,オブジェクトベースの土地被覆マッピングの文脈において,粗粒度ラベルによる弱い監視をインテリジェントに活用可能なtassel(attentive weak-supervised satellite image time series classificationifier)という新しいディープラーニングフレームワークを提案する。 さらに、我々のフレームワークはブラックボックスをグレーにする目的で、モデル解釈可能性をサポートする追加のサイド情報も生成します。 このような側面情報により、視覚検査によって空間的解釈とモデル決定を関連付けることができる。

Nowadays, modern Earth Observation systems continuously collect massive amounts of satellite information. The unprecedented possibility to acquire high resolution Satellite Image Time Series (SITS) data (series of images with high revisit time period on the same geographical area) is opening new opportunities to monitor the different aspects of the Earth Surface but, at the same time, it is raising up new challenges in term of suitable methods to analyze and exploit such huge amount of rich and complex image data. One of the main task associated to SITS data analysis is related to land cover mapping where satellite data are exploited via learning methods to recover the Earth Surface status aka the corresponding land cover classes. Due to operational constraints, the collected label information, on which machine learning strategies are trained, is often limited in volume and obtained at coarse granularity carrying out inexact and weak knowledge that can affect the whole process. To cope with such issues, in the context of object-based SITS land cover mapping, we propose a new deep learning framework, named TASSEL (aTtentive weAkly Supervised Satellite image time sEries cLassifier), that is able to intelligently exploit the weak supervision provided by the coarse granularity labels. Furthermore, our framework also produces an additional side-information that supports the model interpretability with the aim to make the black box gray. Such side-information allows to associate spatial interpretation to the model decision via visual inspection.
翻訳日:2022-12-08 05:10:56 公開日:2020-04-30
# 不変認識を支援するCNN特徴写像の空間変換の不能性

Inability of spatial transformations of CNN feature maps to support invariant recognition ( http://arxiv.org/abs/2004.14716v1 )

ライセンス: Link先を確認
Ylva Jansson, Maksim Maydanskiy, Lukas Finnveden and Tony Lindeberg(参考訳) 多くのディープラーニングアーキテクチャでは、CNNの特徴マップやフィルタの空間変換を使用して、自然な画像変換によるオブジェクトの外観の変化をよりよく扱う。 本稿では,CNN特徴写像の空間変換が,抽出した特徴が不変でない限り,元のアフィン変換と一致するように変換された画像の特徴写像を整列できないことを証明する。 この証明は、単層および多層ネットワークケースの基本的な解析に基づいている。 その結果、cnn特徴写像やフィルタの空間変換に基づく手法は入力の画像アライメントを置き換えることができず、一般的なアフィン変換、特にスケーリング変換やせん断変換に対しては不変認識ができないことが示された。 回転や反射の場合、空間変換された特徴写像やフィルタは不変であるが、学習またはハードコードされた回転または反射不変の特徴を持つネットワークに限られる。

A large number of deep learning architectures use spatial transformations of CNN feature maps or filters to better deal with variability in object appearance caused by natural image transformations. In this paper, we prove that spatial transformations of CNN feature maps cannot align the feature maps of a transformed image to match those of its original, for general affine transformations, unless the extracted features are themselves invariant. Our proof is based on elementary analysis for both the single- and multi-layer network case. The results imply that methods based on spatial transformations of CNN feature maps or filters cannot replace image alignment of the input and cannot enable invariant recognition for general affine transformations, specifically not for scaling transformations or shear transformations. For rotations and reflections, spatially transforming feature maps or filters can enable invariance but only for networks with learnt or hardcoded rotation- or reflection-invariant features
翻訳日:2022-12-08 05:10:28 公開日:2020-04-30
# ガウス過程の動的モデルと歩行者活動認識による歩行者経路・姿勢・意図予測

Pedestrian Path, Pose and Intention Prediction through Gaussian Process Dynamical Models and Pedestrian Activity Recognition ( http://arxiv.org/abs/2004.14747v1 )

ライセンス: Link先を確認
Raul Quintero, Ignacio Parra, David Fernandez Llorca, Miguel Angel Sotelo(参考訳) 世界中の組織が公表したいくつかの報告によると、毎年何千人もの歩行者が道路事故で死亡している。 この事実により、車両技術はこれらの死者を減らす目的で進化してきた。 この進化はまだ完了していないが、例えば歩行者経路の予測は現在の自動緊急ブレーキシステム(AEBS)を改善する可能性がある。 そこで本研究では,歩行者の歩行経路,ポーズ,意図を事前に1秒まで予測する手法を提案する。 この手法は平衡ガウス過程力学モデル(B-GPDM)に基づいており、歩行者体に沿って配置されたキーポイントや関節から抽出された3次元時間関連情報を低次元空間に還元する。 B-GPDMはまた、将来の潜伏位置を推測し、関連する観測を再構築することができる。 しかしながら、あらゆる歩行者活動の一般的なモデルを学ぶことは、通常、正確な予測を少なくする。 そこで,提案手法は歩行,立ち止まり,立ち上がり,立ち上がりの4種類の活動の複数のモデルを求め,その最も類似したモデルを選択し,将来の歩行者状態を推定する。 歩行開始後125msの開始動作を80%の精度で検出し、イベント前の停止意図58.33msを70%の精度で認識する。 経路予測については、1sのTime-To-Event(TTE)での活動を停止する平均誤差は238.01mmであり、開始動作では0sのTTEでの平均誤差は331.93mmである。

According to several reports published by worldwide organisations, thousands of pedestrians die in road accidents every year. Due to this fact, vehicular technologies have been evolving with the intent of reducing these fatalities. This evolution has not finished yet since, for instance, the predictions of pedestrian paths could improve the current Automatic Emergency Braking Systems (AEBS). For this reason, this paper proposes a method to predict future pedestrian paths, poses and intentions up to 1s in advance. This method is based on Balanced Gaussian Process Dynamical Models (B-GPDMs), which reduce the 3D time-related information extracted from keypoints or joints placed along pedestrian bodies into low-dimensional spaces. The B-GPDM is also capable of inferring future latent positions and reconstruct their associated observations. However, learning a generic model for all kind of pedestrian activities normally provides less ccurate predictions. For this reason, the proposed method obtains multiple models of four types of activity, i.e. walking, stopping, starting and standing, and selects the most similar model to estimate future pedestrian states. This method detects starting activities 125ms after the gait initiation with an accuracy of 80% and recognises stopping intentions 58.33ms before the event with an accuracy of 70%. Concerning the path prediction, the mean error for stopping activities at a Time-To-Event (TTE) of 1s is 238.01mm and, for starting actions, the mean error at a TTE of 0s is 331.93mm.
翻訳日:2022-12-08 05:10:12 公開日:2020-04-30
# ドメイン間のセグメンテーションのための重要度駆動型連続学習

Importance Driven Continual Learning for Segmentation Across Domains ( http://arxiv.org/abs/2005.00079v1 )

ライセンス: Link先を確認
Sinan \"Ozg\"ur \"Ozg\"un, Anne-Marie Rickmann, Abhijit Guha Roy, Christian Wachinger(参考訳) ニューラルネットワークが新しいタスクを継続的に学習し、適応する能力は、多くのアプリケーションにとって非常に重要です。 しかし、現在のニューラルネットワークは、新しいもの、すなわち破滅的な忘れ(cf)に苦しむ場合、以前の学習したタスクを忘れがちである。 継続学習(continual learning, cl)の目的は、この問題を緩和することであり、特に医学的応用に関係しており、これまで使用されていたセンシティブな患者データを保存してアクセスすることは不可能である。 そこで本研究では,脳のセグメンテーションを連続的に学習し,異なる領域のサンプルに対して単一のネットワークを連続的に学習する手法を提案する。 重要度に基づくアプローチを構築し、医療用画像のセグメンテーションに適用します。 特に,ネットワークの知識の喪失を防止するために,学習率の正規化を導入する。 その結果,重要なネットワークパラメータの適応を直接制限することは,ドメイン間のセグメンテーションに対するカタストロフィック・フォッティングを著しく減少させることがわかった。

The ability of neural networks to continuously learn and adapt to new tasks while retaining prior knowledge is crucial for many applications. However, current neural networks tend to forget previously learned tasks when trained on new ones, i.e., they suffer from Catastrophic Forgetting (CF). The objective of Continual Learning (CL) is to alleviate this problem, which is particularly relevant for medical applications, where it may not be feasible to store and access previously used sensitive patient data. In this work, we propose a Continual Learning approach for brain segmentation, where a single network is consecutively trained on samples from different domains. We build upon an importance driven approach and adapt it for medical image segmentation. Particularly, we introduce learning rate regularization to prevent the loss of the network's knowledge. Our results demonstrate that directly restricting the adaptation of important network parameters clearly reduces Catastrophic Forgetting for segmentation across domains.
翻訳日:2022-12-08 05:07:56 公開日:2020-04-30
# スパースマルチスペクトル差推定のためのドメインシームCNN

Domain Siamese CNNs for Sparse Multispectral Disparity Estimation ( http://arxiv.org/abs/2005.00088v1 )

ライセンス: Link先を確認
David-Alexandre Beaupre and Guillaume-Alexandre Bilodeau(参考訳) 画像間の共通視覚情報(例えば色情報と熱情報)が極めて少ないことに加えて、従来の可視視視差推定(閉塞、反復パターン、テクスチャレス表面)と同じ課題がある。 本稿では,熱・可視領域の異なるスペクトル画像間の不均一性を推定できる新しいCNNアーキテクチャを提案する。 提案モデルでは,2つのパッチを入力として,それぞれにドメインの特徴抽出を行う。 両ドメインの特徴は、相関と結合という2つの融合操作にマージされる。 これらの合併ベクトルはそれぞれの分類ヘッドに転送され、入力を同一かどうかの分類に責任を負う。 2つのマージ操作を使用することで,特徴抽出プロセスの堅牢性が向上する。 LITIV 2014 と LITIV 2018 のデータセットを用いて本手法を検証し,他の手法と比較した結果が得られた。

Multispectral disparity estimation is a difficult task for many reasons: it has all the same challenges as traditional visible-visible disparity estimation (occlusions, repetitive patterns, textureless surfaces), in addition of having very few common visual information between images (e.g. color information vs. thermal information). In this paper, we propose a new CNN architecture able to do disparity estimation between images from different spectrum, namely thermal and visible in our case. Our proposed model takes two patches as input and proceeds to do domain feature extraction for each of them. Features from both domains are then merged with two fusion operations, namely correlation and concatenation. These merged vectors are then forwarded to their respective classification heads, which are responsible for classifying the inputs as being same or not. Using two merging operations gives more robustness to our feature extraction process, which leads to more precise disparity estimation. Our method was tested using the publicly available LITIV 2014 and LITIV 2018 datasets, and showed best results when compared to other state of the art methods.
翻訳日:2022-12-08 05:07:38 公開日:2020-04-30
# Memristors -- インメモリコンピューティング、ディープラーニング加速、スパイクニューラルネットワークから、ニューロモルフィックとバイオインスパイアされたコンピューティングの未来まで

Memristors -- from In-memory computing, Deep Learning Acceleration, Spiking Neural Networks, to the Future of Neuromorphic and Bio-inspired Computing ( http://arxiv.org/abs/2004.14942v1 )

ライセンス: Link先を確認
Adnan Mehonic, Abu Sebastian, Bipin Rajendran, Osvaldo Simeone, Eleni Vasilaki, Anthony J. Kenyon(参考訳) 機械学習は、特にディープラーニングの形で、人工知能の最近の基本的な発展の多くを駆動している。 ディープラーニングは、ある種のバイオインスパイアされた計算モデルに基づいており、それらは並列に動作する接続された単純な計算ユニットのネットワークに依存している。 ディープラーニングは、オブジェクト/パターン認識、音声と自然言語処理、自動運転車、インテリジェントな自己診断ツール、自律ロボット、知識に富んだパーソナルアシスタント、監視といった分野に成功している。 これらの成功は、大量のデータの提供、コンピュータパワーの継続的な成長、アルゴリズムの革新の3つの要因によって支えられている。 ムーアの法則の終焉と、スケールによって達成できる計算能力の質素な改善が近づき、ハードウェアの制限により、記述された進歩が遅くなるか、または停止されるかという疑問が提起される。 本稿では、cmosハードウェア技術を超えたmemristorsの事例を、電力効率の高いインメモリコンピューティング、ディープラーニングアクセラレータ、スパイクニューラルネットワークの実装のための潜在的なソリューションとして検討する。 中心となるテーマは、非von-neumannコンピューティングアーキテクチャへの依存と、学習と推論アルゴリズムの開発の必要性である。 生物学の授業は、人工知能のさらなる進歩の道筋を提供するのに役立つと論じるために、簡単な例に基づく貯水池計算について論じる。 我々は、未来のニューロモルフィックおよび脳に触発されたコンピューティングシステムの全体像を考察して、レビューを締めくくる。

Machine learning, particularly in the form of deep learning, has driven most of the recent fundamental developments in artificial intelligence. Deep learning is based on computational models that are, to a certain extent, bio-inspired, as they rely on networks of connected simple computing units operating in parallel. Deep learning has been successfully applied in areas such as object/pattern recognition, speech and natural language processing, self-driving vehicles, intelligent self-diagnostics tools, autonomous robots, knowledgeable personal assistants, and monitoring. These successes have been mostly supported by three factors: availability of vast amounts of data, continuous growth in computing power, and algorithmic innovations. The approaching demise of Moore's law, and the consequent expected modest improvements in computing power that can be achieved by scaling, raise the question of whether the described progress will be slowed or halted due to hardware limitations. This paper reviews the case for a novel beyond CMOS hardware technology, memristors, as a potential solution for the implementation of power-efficient in-memory computing, deep learning accelerators, and spiking neural networks. Central themes are the reliance on non-von-Neumann computing architectures and the need for developing tailored learning and inference algorithms. To argue that lessons from biology can be useful in providing directions for further progress in artificial intelligence, we briefly discuss an example based reservoir computing. We conclude the review by speculating on the big picture view of future neuromorphic and brain-inspired computing systems.
翻訳日:2022-12-08 05:02:28 公開日:2020-04-30
# 多人数・単人数システムに対する単語アプローチによる計算の実証的研究

An empirical study of computing with words approaches for multi-person and single-person systems ( http://arxiv.org/abs/2004.14892v1 )

ライセンス: Link先を確認
Prashant K Gupta and Pranab K. Muhuri(参考訳) cww(compute with words)は、言語情報、特に人間が生成する情報を処理する強力なツールとして登場した。 知覚コンピューティング、拡張原理に基づくCWWアプローチ、シンボリックメソッドに基づくCWWアプローチ、2タプルベースのCWWアプローチなど、CWWの登場以来、様々なCWWアプローチが出現している。 さらに、知覚コンピューティングは、データ処理にインターバルアプローチ(IA)、拡張インターバルアプローチ(EIA)、Hao-Mendelアプローチ(HMA)を使用することができる。 HMA は EIA よりも単語モデリングに優れており,IA よりは EIA の方が優れていた。 しかし、より深く研究した結果、HMAはIAやIAよりもファジィネスが低いことが判明した。 したがって,マルチパーソンシステムでは単語モデリングに,シングルパーソンシステムではHMAの方が適している(IAはIAよりも改善されている)。 さらに、他の一連の研究は、上記のCWWアプローチとパーセプチュアルコンピューティングのパフォーマンスを比較した。 これらすべての研究において、知覚コンピューティングは他のCWWアプローチよりも優れていることが示されている。 しかし、これらの研究は、知覚コンピューティングの優れた性能を観察する理由を探そうとはしなかった。 また、入力が差分重み付けされたシナリオでは比較は行われていない。 そこで本研究の目的は,EIAがマルチパーソンシステム,HMAがシングルパーソンシステムに適していることを実証的に確かめることである。 この研究のもう1つの次元は、知覚コンピューティングが拡張原理、シンボリックメソッド、および2-タプルに基づく他のcwwアプローチよりも優れたパフォーマンスをもたらすことを実証的に証明することである。

Computing with words (CWW) has emerged as a powerful tool for processing the linguistic information, especially the one generated by human beings. Various CWW approaches have emerged since the inception of CWW, such as perceptual computing, extension principle based CWW approach, symbolic method based CWW approach, and 2-tuple based CWW approach. Furthermore, perceptual computing can use interval approach (IA), enhanced interval approach (EIA), or Hao-Mendel approach (HMA), for data processing. There have been numerous works in which HMA was shown to be better at word modelling than EIA, and EIA better than IA. But, a deeper study of these works reveals that HMA captures lesser fuzziness than the EIA or IA. Thus, we feel that EIA is more suited for word modelling in multi-person systems and HMA for single-person systems (as EIA is an improvement over IA). Furthermore, another set of works, compared the performances perceptual computing to the other above said CWW approaches. In all these works, perceptual computing was shown to be better than other CWW approaches. However, none of the works tried to investigate the reason behind this observed better performance of perceptual computing. Also, no comparison has been performed for scenarios where the inputs are differentially weighted. Thus, the aim of this work is to empirically establish that EIA is suitable for multi-person systems and HMA for single-person systems. Another dimension of this work is also to empirically prove that perceptual computing gives better performance than other CWW approaches based on extension principle, symbolic method and 2-tuple especially in scenarios where inputs are differentially weighted.
翻訳日:2022-12-08 05:01:58 公開日:2020-04-30
# 言語最適化問題に対する知覚推論に基づく解法

Perceptual reasoning based solution methodology for linguistic optimization problems ( http://arxiv.org/abs/2004.14933v1 )

ライセンス: Link先を確認
Prashant K Gupta and Pranab K. Muhuri(参考訳) 実生活シナリオにおける決定は、しばしば最適化問題としてモデル化される。 問題対象の最適値の達成を制約する人間の嗜好や思考など,さまざまな属性を考慮する必要がある。 目的の値は状況に応じて最大化または最小化することができる。 人間は自然に言葉を使って自分自身を理解し、表現するので、これらの問題パラメータの値は言語形式である。 これらの問題は言語最適化問題(LOP)と呼ばれ、単一目的言語最適化問題(SOLOP)と多目的言語最適化問題(MOLOP)の2種類からなる。 これらのlopsでは、目的関数(s)の値は決定空間のすべての点では知られておらず、したがって目的関数(s)と問題制約はif-then規則によって関連付けられる。 塚本推論法はこれらのLOPの解法として用いられてきたが、欠点に悩まされている。 そこで,言語情報の利用は必然的に単語による計算(cww)の活用を要求され,lopsでは2対の言語モデルに基づく解法が提案されている。 しかし, 2-tuple言語モデルに基づく解法は,type-1ファジィ集合と順序項集合の組み合わせを用いて,言語情報のセマンティクスを表現する。 このように、言語情報のセマンティクスはインターバルタイプ2ファジィ集合を用いて最もよくモデル化されているため、知覚コンピューティングのCWWアプローチに基づくLOPの解法を提案する。 知覚計算に基づく解法は、知覚推論 (perceptual reasoning, PR) と呼ばれるCWWエンジンの斬新な設計を用いる。 現在の形式のPRはSOLOPを解くのに適しており、MOLOPにも拡張しています。

Decision making in real-life scenarios may often be modeled as an optimization problem. It requires the consideration of various attributes like human preferences and thinking, which constrain achieving the optimal value of the problem objectives. The value of the objectives may be maximized or minimized, depending on the situation. Numerous times, the values of these problem parameters are in linguistic form, as human beings naturally understand and express themselves using words. These problems are therefore termed as linguistic optimization problems (LOPs), and are of two types, namely single objective linguistic optimization problems (SOLOPs) and multi-objective linguistic optimization problems (MOLOPs). In these LOPs, the value of the objective function(s) may not be known at all points of the decision space, and therefore, the objective function(s) as well as problem constraints are linked by the if-then rules. Tsukamoto inference method has been used to solve these LOPs; however, it suffers from drawbacks. As, the use of linguistic information inevitably calls for the utilization of computing with words (CWW), and therefore, 2-tuple linguistic model based solution methodologies were proposed for LOPs. However, we found that 2-tuple linguistic model based solution methodologies represent the semantics of the linguistic information using a combination of type-1 fuzzy sets and ordinal term sets. As, the semantics of linguistic information are best modeled using the interval type-2 fuzzy sets, hence we propose solution methodologies for LOPs based on CWW approach of perceptual computing, in this paper. The perceptual computing based solution methodologies use a novel design of CWW engine, called the perceptual reasoning (PR). PR in the current form is suitable for solving SOLOPs and, hence, we have also extended it to the MOLOPs.
翻訳日:2022-12-08 05:01:30 公開日:2020-04-30
# 並列プロセッサスケジューリング:多目的言語最適化のための定式化と知覚推論に基づく解法

Parallel processor scheduling: formulation as multi-objective linguistic optimization and solution using Perceptual Reasoning based methodology ( http://arxiv.org/abs/2004.14955v1 )

ライセンス: Link先を確認
Prashant K Gupta and Pranab K. Muhuri(参考訳) 産業4.0の時代には、人間の要素の最小化と、ほぼすべての工業および製造施設における自動化の最大化に重点が置かれている。 これらの施設には多数の処理システムが含まれており、人間の最小数と並行して多数のタスクを実行できる。 このタスクの並列実行は、スケジューリングポリシーに従って行われる。 しかし、ある点を超えた人間の要素の最小化は困難である。 実際、専門家と呼ばれる人間グループの専門知識と経験は、実りあるスケジューリングポリシーを設計するために差し迫っている。 スケジューリングポリシーの目的は、生産時間やコストなど、目標の最適な価値を達成することである。 現実の状況では、並列処理のシナリオには複数の目的があることが多い。 さらに、専門家は、言語用語や言葉の様々なスケジューリング基準(スケジューリングポリシーを含む)について、一般的に意見を提供する。 単語の意味論はファジィ集合(FS)を用いてモデル化される。 したがって、これらすべての要因は並列処理シナリオを多目的言語最適化問題(MOLOP)としてモデル化し、新しいパーセプチュアル推論(PR)に基づく手法を用いて解決する動機となっている。 また,PR法と2-tuple法との比較を行った。 PRベースのソリューション手法は3つの大きな利点をもたらし、独特なレコメンデーションを生成する。ここでは、言語的レコメンデーションがコードブック語と一致し、また単語モデルが単語の前に来る。 2-tupleベースのソリューション方法論は、これらの利点を全て与えない。 ですから,私たちの研究は新鮮であり,今後の研究の方向性を提供すると思います。

In the era of Industry 4.0, the focus is on the minimization of human element and maximizing the automation in almost all the industrial and manufacturing establishments. These establishments contain numerous processing systems, which can execute a number of tasks, in parallel with minimum number of human beings. This parallel execution of tasks is done in accordance to a scheduling policy. However, the minimization of human element beyond a certain point is difficult. In fact, the expertise and experience of a group of humans, called the experts, becomes imminent to design a fruitful scheduling policy. The aim of the scheduling policy is to achieve the optimal value of an objective, like production time, cost, etc. In real-life situations, there are more often than not, multiple objectives in any parallel processing scenario. Furthermore, the experts generally provide their opinions, about various scheduling criteria (pertaining to the scheduling policies) in linguistic terms or words. Word semantics are best modeled using fuzzy sets (FSs). Thus, all these factors have motivated us to model the parallel processing scenario as a multi-objective linguistic optimization problem (MOLOP) and use the novel perceptual reasoning (PR) based methodology for solving it. We have also compared the results of the PR based solution methodology with those obtained from the 2-tuple based solution methodology. PR based solution methodology offers three main advantages viz., it generates unique recommendations, here the linguistic recommendations match a codebook word, and also the word model comes before the word. 2-tuple based solution methodology fails to give all these advantages. Thus, we feel that our work is novel and will provide directions for the future research.
翻訳日:2022-12-08 05:01:01 公開日:2020-04-30
# 自己注意モジュールと特徴ピラミッドネットワークを組み合わせた高次物体検出

Salient Object Detection Combining a Self-attention Module and a Feature Pyramid Network ( http://arxiv.org/abs/2004.14552v1 )

ライセンス: Link先を確認
Guangyu Ren, Tianhong Dai, Panagiotis Barmpoutis, Tania Stathaki(参考訳) 完全畳み込みネットワーク (FCN) を用いることで、有能な物体検出が大幅に向上した。 しかし、FCNベースのU字型アーキテクチャは、トップダウン経路のアップサンプル操作中に高レベルの意味情報の希釈問題を生じさせる可能性がある。 これにより、突出した物体の局在性を弱め、劣化した境界を作り出すことができる。 そこで本研究では,この制約を克服するために,新しいピラミッド自己着脱モジュール(psam)と,独立した機能補足戦略を採用することを提案する。 PSAMでは、よりリッチな高レベル特徴をキャプチャし、より大きな受容場をモデルにもたらすために、多スケールピラミッド機能の後、自己注意層が装備される。 さらに、FPNの冗長な特徴を低減し、洗練された結果を提供するために、チャネルワイドアテンションモジュールも使用される。 実験分析により,提案したPSAMがモデル全体に効果的に寄与し,5つの挑戦的データセットに対して最先端の結果を上回っていることが示された。 最後に、定量的な結果から、psamは、オブジェクト検出やセマンティクスセグメンテーションといった他のコンピュータビジョンタスクにさらに役立つ、明瞭で積分的なサルエントマップを生成することが示される。

Salient object detection has achieved great improvement by using the Fully Convolution Network (FCN). However, the FCN-based U-shape architecture may cause the dilution problem in the high-level semantic information during the up-sample operations in the top-down pathway. Thus, it can weaken the ability of salient object localization and produce degraded boundaries. To this end, in order to overcome this limitation, we propose a novel pyramid self-attention module (PSAM) and the adoption of an independent feature-complementing strategy. In PSAM, self-attention layers are equipped after multi-scale pyramid features to capture richer high-level features and bring larger receptive fields to the model. In addition, a channel-wise attention module is also employed to reduce the redundant features of the FPN and provide refined results. Experimental analysis shows that the proposed PSAM effectively contributes to the whole model so that it outperforms state-of-the-art results over five challenging datasets. Finally, quantitative results show that PSAM generates clear and integral salient maps which can provide further help to other computer vision tasks, such as object detection and semantic segmentation.
翻訳日:2022-12-08 05:00:09 公開日:2020-04-30
# セル画像分割のためのフィードバックU-net

Feedback U-net for Cell Image Segmentation ( http://arxiv.org/abs/2004.14581v1 )

ライセンス: Link先を確認
Eisuke Shibuya, Kazuhiro Hotta(参考訳) 人間の脳は層状構造であり、下層から上層へのフィードフォワードプロセスだけでなく、上層から下層へのフィードバックプロセスも行う。 この層は神経細胞の集まりであり、ニューラルネットワークはニューロンの機能の数学的モデルである。 ニューラルネットワークは人間の脳を模倣するが、誰もが下層から上層へのフィードフォワードプロセスのみを使用し、上層から下層へのフィードバックプロセスは使用されない。 そこで本稿では,畳み込みLSTMとフィードバックプロセスを用いたセグメンテーション手法である畳み込みLSTMを用いたフィードバックU-Netを提案する。 U-netの出力が入力にフィードバックを与え、第2ラウンドが実行される。 畳み込みLSTMを用いて、第1ラウンドで得られた特徴に基づいて第2ラウンドの特徴を抽出する。 本手法はショウジョウバエの細胞画像とマウスの細胞画像データセットの両方において,フィードフォワードプロセスのみを用いた従来のU-Netよりも優れていた。

Human brain is a layered structure, and performs not only a feedforward process from a lower layer to an upper layer but also a feedback process from an upper layer to a lower layer. The layer is a collection of neurons, and neural network is a mathematical model of the function of neurons. Although neural network imitates the human brain, everyone uses only feedforward process from the lower layer to the upper layer, and feedback process from the upper layer to the lower layer is not used. Therefore, in this paper, we propose Feedback U-Net using Convolutional LSTM which is the segmentation method using Convolutional LSTM and feedback process. The output of U-net gave feedback to the input, and the second round is performed. By using Convolutional LSTM, the features in the second round are extracted based on the features acquired in the first round. On both of the Drosophila cell image and Mouse cell image datasets, our method outperformed conventional U-Net which uses only feedforward process.
翻訳日:2022-12-08 04:59:24 公開日:2020-04-30
# RGB-D Salient Object Detectionのためのバイラテラルアテンションネットワーク

Bilateral Attention Network for RGB-D Salient Object Detection ( http://arxiv.org/abs/2004.14582v1 )

ライセンス: Link先を確認
Zhao Zhang, Zheng Lin, Jun Xu, Wenda Jin, Shao-Ping Lu, Deng-Ping Fan(参考訳) 既存のrgb-d salient object detection (sod) 法のほとんどは、深度画像を利用する際に前景領域に焦点を当てている。 しかし、バックグラウンドはまた、パフォーマンスを約束する伝統的なsodメソッドの重要な情報を提供する。 本稿では,前景と背景領域の両方において有意な情報をよりよく探索するために,rgb-d sodタスクのためのバイラテラル・アテンション・ネットワーク(bianet)を提案する。 具体的には,前景第一注意(FF)と背景第一注意(BF)の相補的な注意機構を備えたバイラテラル注意モジュール(BAM)を導入する。 FF注意は、段階的な改善スタイルで前景領域に焦点を当て、BFは背景領域で潜在的に有用な唾液情報を復元する。 提案されたBAMモジュールに特化して、私たちのBiANetは、より意味のあるフォアグラウンドとバックグラウンドのキューをキャプチャし、フォアグラウンドとバックグラウンドの領域間の不確実な詳細の修正にもっと注意を向けることができます。 さらに,SODの性能向上のために,マルチスケール技術を活用してBAMを拡張した。 6つのベンチマークデータセットに対する大規模な実験により、我々のBiANetは他の最先端のRGB-D SODメソッドよりも客観的なメトリクスと主観的な視覚的比較の点で優れています。 当社のBiANetは、NVIDIA GeForce RTX 2080Ti GPUを搭載した、224\times224$ RGB-Dイメージで80fpsまで実行可能です。 包括的アブレーション研究も我々の貢献を検証する。

Most existing RGB-D salient object detection (SOD) methods focus on the foreground region when utilizing the depth images. However, the background also provides important information in traditional SOD methods for promising performance. To better explore salient information in both foreground and background regions, this paper proposes a Bilateral Attention Network (BiANet) for the RGB-D SOD task. Specifically, we introduce a Bilateral Attention Module (BAM) with a complementary attention mechanism: foreground-first (FF) attention and background-first (BF) attention. The FF attention focuses on the foreground region with a gradual refinement style, while the BF one recovers potentially useful salient information in the background region. Benefitted from the proposed BAM module, our BiANet can capture more meaningful foreground and background cues, and shift more attention to refining the uncertain details between foreground and background regions. Additionally, we extend our BAM by leveraging the multi-scale techniques for better SOD performance. Extensive experiments on six benchmark datasets demonstrate that our BiANet outperforms other state-of-the-art RGB-D SOD methods in terms of objective metrics and subjective visual comparison. Our BiANet can run up to 80fps on $224\times224$ RGB-D images, with an NVIDIA GeForce RTX 2080Ti GPU. Comprehensive ablation studies also validate our contributions.
翻訳日:2022-12-08 04:59:07 公開日:2020-04-30
# DIABLO:Deep Metric Learningのための辞書ベースの注意ブロック

DIABLO: Dictionary-based Attention Block for Deep Metric Learning ( http://arxiv.org/abs/2004.14644v1 )

ライセンス: Link先を確認
Pierre Jacob, David Picard, Aymeric Histace, Edouard Klein(参考訳) 画像表現とそれに対応するメトリクスとをディープネットワークで同時にトレーニングすることで、未知のクラスや例の表現学習における最近のブレークスルーが深層メトリック学習で実現されている。 最近のコントリビューションは、主にトレーニング部分(ロス関数、サンプリング戦略など)に対処する一方で、画像表現の識別力の向上に重点を置いている研究もいくつかある。 本稿では,画像埋め込みのための辞書型注意手法diabloを提案する。 DIABLOは、深いメトリクス学習において、他の注意に基づく方法よりも訓練が容易でありながら、視覚的な機能のみを集約することで、よりリッチな表現を生成する。 これは、DIABLOが最先端のパフォーマンスを示す4つのディープラーニングデータセット(Cub-200-2011、Cars-196、Stanford Online Products、In-Shop Clothes Retrieval)で実験的に確認されている。

Recent breakthroughs in representation learning of unseen classes and examples have been made in deep metric learning by training at the same time the image representations and a corresponding metric with deep networks. Recent contributions mostly address the training part (loss functions, sampling strategies, etc.), while a few works focus on improving the discriminative power of the image representation. In this paper, we propose DIABLO, a dictionary-based attention method for image embedding. DIABLO produces richer representations by aggregating only visually-related features together while being easier to train than other attention-based methods in deep metric learning. This is experimentally confirmed on four deep metric learning datasets (Cub-200-2011, Cars-196, Stanford Online Products, and In-Shop Clothes Retrieval) for which DIABLO shows state-of-the-art performances.
翻訳日:2022-12-08 04:58:41 公開日:2020-04-30
# 構文 [MASK] の表現が有用である:再帰的LSTMにおける構成と依存構造の影響

Representations of Syntax [MASK] Useful: Effects of Constituency and Dependency Structure in Recursive LSTMs ( http://arxiv.org/abs/2005.00019v1 )

ライセンス: Link先を確認
Michael A. Lepori, Tal Linzen, and R. Thomas McCoy(参考訳) シーケンスベースのニューラルネットワークは構文構造に対して有意な感度を示すが、ツリーベースのネットワークよりも構文タスクではうまく機能しない。 このようなツリーベースのネットワークは、構成構文解析、依存構文解析、あるいはその両方を提供することができる。 これら2つの表現スキームのどちらがより効果的に構文構造のバイアスを導入し、主観的合意予測タスクの性能を高めるかを評価する。 選挙区ベースネットワークは依存性ベースネットワークよりも強固に一般化し,これら2種類の構造を組み合わせることで更なる改善が得られない。 最後に, 逐次モデルの構文的ロバスト性は, 少量の構築データを微調整することによって著しく向上できることを示し, 逐次モデルに欠落する構文的バイアスを与えるための明示的選挙区構造に代わるデータ拡張が可能であることを示唆する。

Sequence-based neural networks show significant sensitivity to syntactic structure, but they still perform less well on syntactic tasks than tree-based networks. Such tree-based networks can be provided with a constituency parse, a dependency parse, or both. We evaluate which of these two representational schemes more effectively introduces biases for syntactic structure that increase performance on the subject-verb agreement prediction task. We find that a constituency-based network generalizes more robustly than a dependency-based one, and that combining the two types of structure does not yield further improvement. Finally, we show that the syntactic robustness of sequential models can be substantially improved by fine-tuning on a small amount of constructed data, suggesting that data augmentation is a viable alternative to explicit constituency structure for imparting the syntactic biases that sequential models are lacking.
翻訳日:2022-12-08 04:51:57 公開日:2020-04-30
# アスペクト制御ニューラル引数生成

Aspect-Controlled Neural Argument Generation ( http://arxiv.org/abs/2005.00084v1 )

ライセンス: Link先を確認
Benjamin Schiller and Johannes Daxenberger and Iryna Gurevych(参考訳) 私たちは日々の生活の中で議論を頼りにしており、私たちの意見を伝え、証拠に基づいています。 しかし、議論の発見と定式化は困難である。 本研究では,特定の話題や態度,アスペクトに対して文レベルの引数を生成するために,きめ細かなレベルで制御可能な引数生成のための言語モデルを訓練する。 この粒度制御と5,032個のアスペクトをアノテートしたデータセットをクラウドソースするために必要な手法として引数アスペクト検出を定義する。 評価の結果,高品質なアスペクト特有な議論を生成できることがわかった。 さらに、これらの議論は、データ拡張によるスタンス検出モデルの性能向上と、カウンターアグメンテーションの生成に利用できる。 すべてのデータセットとコードを公開して、言語モデルを微調整します。

We rely on arguments in our daily lives to deliver our opinions and base them on evidence, making them more convincing in turn. However, finding and formulating arguments can be challenging. In this work, we train a language model for argument generation that can be controlled on a fine-grained level to generate sentence-level arguments for a given topic, stance, and aspect. We define argument aspect detection as a necessary method to allow this fine-granular control and crowdsource a dataset with 5,032 arguments annotated with aspects. Our evaluation shows that our generation model is able to generate high-quality, aspect-specific arguments. Moreover, these arguments can be used to improve the performance of stance detection models via data augmentation and to generate counter-arguments. We publish all datasets and code to fine-tune the language model.
翻訳日:2022-12-08 04:50:31 公開日:2020-04-30
# AI4Bharat-IndicNLP Corpus: 単言語コーパスと単語埋め込み

AI4Bharat-IndicNLP Corpus: Monolingual Corpora and Word Embeddings for Indic Languages ( http://arxiv.org/abs/2005.00085v1 )

ライセンス: Link先を確認
Anoop Kunchukuttan, Divyanshu Kakwani, Satish Golla, Gokul N.C., Avik Bhattacharyya, Mitesh M. Khapra, Pratyush Kumar(参考訳) 2つの言語族から10のインディアン言語に対して270億の単語を含む大規模一般ドメインコーパスであるindicnlpコーパスを提案する。 これらのコーパスでトレーニングされた単語埋め込みを共有します。 埋め込みを評価するため,9言語を対象としたニュース記事分類データセットを作成する。 IndicNLPの埋め込みは、複数の評価タスクで利用可能な事前学習型埋め込みよりも大幅に優れていた。 コーパスが利用可能になることで、Indic NLP研究が加速することを期待します。 リソースはhttps://github.com/ai4bharat-indicnlp/indicnlp_corpusで入手できる。

We present the IndicNLP corpus, a large-scale, general-domain corpus containing 2.7 billion words for 10 Indian languages from two language families. We share pre-trained word embeddings trained on these corpora. We create news article category classification datasets for 9 languages to evaluate the embeddings. We show that the IndicNLP embeddings significantly outperform publicly available pre-trained embedding on multiple evaluation tasks. We hope that the availability of the corpus will accelerate Indic NLP research. The resources are available at https://github.com/ai4bharat-indicnlp/indicnlp_corpus.
翻訳日:2022-12-08 04:50:18 公開日:2020-04-30
# 教師なし関係抽出の再検討

Revisiting Unsupervised Relation Extraction ( http://arxiv.org/abs/2005.00087v1 )

ライセンス: Link先を確認
Thy Thy Tran, Phong Le, Sophia Ananiadou(参考訳) 教師なし関係抽出(URE)は、手動でラベル付けされたデータと既存の知識ベース(KB)なしで、名前付きエンティティ間の関係を抽出する。 ure法は、手作りの特徴または表面形態に依存する生成的および識別的アプローチに分類することができる。 しかし、名前付きエンティティのみを使用してリレーションタイプを誘導することで、2つの人気のあるデータセット上の既存のメソッドを上回ることができることを実証する。 以上の結果と他のURE技術との比較と評価を行い,UREの重要な特徴を確認した。 我々は、エンティティタイプがUREに強い帰納バイアスをもたらすと結論付けている。

Unsupervised relation extraction (URE) extracts relations between named entities from raw text without manually-labelled data and existing knowledge bases (KBs). URE methods can be categorised into generative and discriminative approaches, which rely either on hand-crafted features or surface form. However, we demonstrate that by using only named entities to induce relation types, we can outperform existing methods on two popular datasets. We conduct a comparison and evaluation of our findings with other URE techniques, to ascertain the important features in URE. We conclude that entity types provide a strong inductive bias for URE.
翻訳日:2022-12-08 04:50:09 公開日:2020-04-30
# フレーミングの問題:言語形式主義が調査結果に及ぼす影響

A Matter of Framing: The Impact of Linguistic Formalism on Probing Results ( http://arxiv.org/abs/2004.14999v1 )

ライセンス: Link先を確認
Ilia Kuznetsov, Iryna Gurevych(参考訳) BERT(Delvin et al., 2019)のような、事前訓練されたコンテキスト化されたエンコーダは、下流のタスクで顕著なパフォーマンスを示している。 最近の研究は、事前学習中にこれらのモデルによって暗黙的に学習された言語知識を調査している。 探索の作業の多くはタスクレベルで行われるが、言語的タスクはまれに均一であり、様々な形式主義で表される。 言語学に基づく調査研究は、必然的に基礎となるデータを注釈する形式主義にコミットする。 形式主義の選択は調査結果に影響を与えるか? 本研究は,ロールセマンティクスにおける詳細なクロスフォルマリズム層調査を行う。 我々は、bertによる意味的役割とプロト・ロール情報のエンコーディングにおける言語学的に有意義な違いを見いだし、同じ言語的形式化の実装間の微妙な違いを層探索によって検出できることを実証する。 以上より,言語形式論は,一般的に用いられるクロスタスクとクロスリンガルの実験的設定とともに,調査研究において重要な要素であることが示唆された。

Deep pre-trained contextualized encoders like BERT (Delvin et al., 2019) demonstrate remarkable performance on a range of downstream tasks. A recent line of research in probing investigates the linguistic knowledge implicitly learned by these models during pre-training. While most work in probing operates on the task level, linguistic tasks are rarely uniform and can be represented in a variety of formalisms. Any linguistics-based probing study thereby inevitably commits to the formalism used to annotate the underlying data. Can the choice of formalism affect probing results? To investigate, we conduct an in-depth cross-formalism layer probing study in role semantics. We find linguistically meaningful differences in the encoding of semantic role- and proto-role information by BERT depending on the formalism and demonstrate that layer probing can detect subtle differences between the implementations of the same linguistic formalism. Our results suggest that linguistic formalism is an important dimension in probing studies, along with the commonly used cross-task and cross-lingual experimental settings.
翻訳日:2022-12-08 04:42:22 公開日:2020-04-30
# 自然言語の前提選択:数学的テキストに対する支持文の探索

Natural Language Premise Selection: Finding Supporting Statements for Mathematical Text ( http://arxiv.org/abs/2004.14959v1 )

ライセンス: Link先を確認
Deborah Ferreira and Andre Freitas(参考訳) 数学的テキストは、単語と数式の組み合わせを使って書かれる。 この組み合わせは、特定の文の構造化方法とともに、最先端のnlpツールが数学的談話の理解と推論を困難にしている。 本研究では,特定の文に対する非公式な数学的証明を生成するのに有用な,サポート定義とサポート命題の検索に使用される,新たなNLPタスクである自然前提選択を提案する。 また、自然の前提選択タスクに対して異なるアプローチを評価するために使用できるデータセットであるnl-psも提供します。 異なるベースラインを用いて、タスクに関連する基本的な解釈課題を示す。

Mathematical text is written using a combination of words and mathematical expressions. This combination, along with a specific way of structuring sentences makes it challenging for state-of-art NLP tools to understand and reason on top of mathematical discourse. In this work, we propose a new NLP task, the natural premise selection, which is used to retrieve supporting definitions and supporting propositions that are useful for generating an informal mathematical proof for a particular statement. We also make available a dataset, NL-PS, which can be used to evaluate different approaches for the natural premise selection task. Using different baselines, we demonstrate the underlying interpretation challenges associated with the task.
翻訳日:2022-12-08 04:33:10 公開日:2020-04-30
# 意味的係り受けの言語間伝達のためのメタリタスク学習

Mutlitask Learning for Cross-Lingual Transfer of Semantic Dependencies ( http://arxiv.org/abs/2004.14961v1 )

ライセンス: Link先を確認
Maryam Aminian, Mohammad Sadegh Rasooli, Mona Diab(参考訳) 本稿では,意味論的にアノテートされたリソースが存在しない言語用意味依存構文解析器の開発手法について述べる。 我々はアノテーション投影法と組み合わせたマルチタスク学習フレームワークを利用する。 我々は,教師付きセマンティクス依存構文解析アノテーションを,リッチリソース言語から並列データを介して低リソース言語に転送し,投影データ上でセマンティクスパーサを訓練する。 マルチタスク学習フレームワークでは,教師付き構文解析を補助タスクとして活用し,異なるマルチタスク学習設定により,シングルタスクベースラインを一貫して改善することを示す。 英語がソースであり、チェコ語がターゲット言語である設定において、我々の最高のマルチタスクモデルは、ドメイン内セムバルデータ(oepen et al., 2015)とドメイン外テストセットの2.5において、シングルタスクベースラインよりもラベル付きf1スコアを1.8改善します。 さらに,構文と意味依存の方向が一致することが,結果を改善する上で重要な要因であると考えられる。

We describe a method for developing broad-coverage semantic dependency parsers for languages for which no semantically annotated resource is available. We leverage a multitask learning framework coupled with an annotation projection method. We transfer supervised semantic dependency parse annotations from a rich-resource language to a low-resource language through parallel data, and train a semantic parser on projected data. We make use of supervised syntactic parsing as an auxiliary task in a multitask learning framework, and show that with different multitask learning settings, we consistently improve over the single-task baseline. In the setting in which English is the source, and Czech is the target language, our best multitask model improves the labeled F1 score over the single-task baseline by 1.8 in the in-domain SemEval data (Oepen et al., 2015), as well as 2.5 in the out-of-domain test set. Moreover, we observe that syntactic and semantic dependency direction match is an important factor in improving the results.
翻訳日:2022-12-08 04:32:59 公開日:2020-04-30
# 自己注意による文字レベル翻訳

Character-Level Translation with Self-attention ( http://arxiv.org/abs/2004.14788v1 )

ライセンス: Link先を確認
Yingqiang Gao, Nikola I. Nikolov, Yuhuang Hu, Richard H.R. Hahnloser(参考訳) 文字レベルのニューラルマシン翻訳における自己照準モデルの適合性について検討する。 我々は、標準的なトランスモデルと、エンコーダブロックがコンボリューションを用いて近隣文字からの情報を結合する新しい変種を試験する。 我々はWMTとUNデータセットに関する広範な実験を行い、最大3つの入力言語(フランス語、スペイン語、中国語)を用いてバイリンガルと多言語の両方を英語に翻訳した。 我々の変圧器変圧器はキャラクタレベルで標準変圧器より一貫して優れ、より堅牢なキャラクタレベルのアライメントを学習しながらより高速に収束する。

We explore the suitability of self-attention models for character-level neural machine translation. We test the standard transformer model, as well as a novel variant in which the encoder block combines information from nearby characters using convolutions. We perform extensive experiments on WMT and UN datasets, testing both bilingual and multilingual translation to English using up to three input languages (French, Spanish, and Chinese). Our transformer variant consistently outperforms the standard transformer at the character-level and converges faster while learning more robust character-level alignments.
翻訳日:2022-12-08 04:25:07 公開日:2020-04-30
# STARC: 可読性のための構造化アノテーション

STARC: Structured Annotations for Reading Comprehension ( http://arxiv.org/abs/2004.14797v1 )

ライセンス: Link先を確認
Yevgeni Berzak, Jonathan Malmaud, Roger Levy(参考訳) 我々は,複数質問による読解を評価するための新しいアノテーションフレームワーク starc (structured annotations for reading comprehension) を提案する。 我々のフレームワークは、回答の選択のための原則構造を導入し、それらをテキストスパンアノテーションに結びつける。 このフレームワークはOneStopQAで実装されており、英語の読み理解の評価と分析のための新しい高品質データセットである。 このデータセットを用いて,satライクな読解教材の開発において,starcが重要な新しいアプリケーションとして活用できることを実証する。 さらに,誤り分布や推測能力など,機械と人間の読み理解行動の詳細な解析と比較が可能であることを示す。 また,NLPにおける標準多重選択データセットである RACE は,読解理解能力に制限があることを明らかにした。 質問の47%は、通路にアクセスすることなく機械によって推測され、18%は人間によって独特な正しい答えがないと全会一致で判断される。 OneStopQAは、これらの欠点を緩和し、人間の天井性能を大幅に向上させる読解のための代替テストセットを提供する。

We present STARC (Structured Annotations for Reading Comprehension), a new annotation framework for assessing reading comprehension with multiple choice questions. Our framework introduces a principled structure for the answer choices and ties them to textual span annotations. The framework is implemented in OneStopQA, a new high-quality dataset for evaluation and analysis of reading comprehension in English. We use this dataset to demonstrate that STARC can be leveraged for a key new application for the development of SAT-like reading comprehension materials: automatic annotation quality probing via span ablation experiments. We further show that it enables in-depth analyses and comparisons between machine and human reading comprehension behavior, including error distributions and guessing ability. Our experiments also reveal that the standard multiple choice dataset in NLP, RACE, is limited in its ability to measure reading comprehension. 47% of its questions can be guessed by machines without accessing the passage, and 18% are unanimously judged by humans as not having a unique correct answer. OneStopQA provides an alternative test set for reading comprehension which alleviates these shortcomings and has a substantially higher human ceiling performance.
翻訳日:2022-12-08 04:24:57 公開日:2020-04-30
# TACRED再考:TACRED関係抽出タスクの詳細な評価

TACRED Revisited: A Thorough Evaluation of the TACRED Relation Extraction Task ( http://arxiv.org/abs/2004.14855v1 )

ライセンス: Link先を確認
Christoph Alt, Aleksandra Gabryszak, Leonhard Hennig(参考訳) TACRED(Zhang et al., 2017)は、関係抽出(RE)において最も大きく、最も広く使われているクラウドソースデータセットの1つである。 しかし、教師なし事前トレーニングや知識強化ニューラルREの最近の進歩にもかかわらず、モデルは高いエラー率を示している。 本稿では、パフォーマンスの天井に到達したか、改善の余地があるのか、という質問について検討する。 クラウドアノテーションやデータセット,モデルは,このエラー率にどのように寄与するのでしょう? これらの質問に答えるために、私たちはまず、トレーニングされたアノテーションを使って開発とテストセットにおける最も難しい5K例を検証する。 ラベルエラーが絶対的なf1テストエラーの8%を占めており、サンプルの50%以上がrelabeledが必要であることが分かりました。 relabeledテストセットでは、大きなベースラインモデルセットの平均f1スコアが62.1から70.1に改善される。 検証後,課題インスタンスの誤分類を分析し,言語に動機づけられた誤りグループに分類し,結果の誤り仮説を3つの最先端reモデルで検証する。 2つのあいまいな関係が残りのエラーの大部分の原因であり、エンティティがマスクされていない場合、モデルがデータセットに浅いヒューリスティックを適用可能であることを示す。

TACRED (Zhang et al., 2017) is one of the largest, most widely used crowdsourced datasets in Relation Extraction (RE). But, even with recent advances in unsupervised pre-training and knowledge enhanced neural RE, models still show a high error rate. In this paper, we investigate the questions: Have we reached a performance ceiling or is there still room for improvement? And how do crowd annotations, dataset, and models contribute to this error rate? To answer these questions, we first validate the most challenging 5K examples in the development and test sets using trained annotators. We find that label errors account for 8% absolute F1 test error, and that more than 50% of the examples need to be relabeled. On the relabeled test set the average F1 score of a large baseline model set improves from 62.1 to 70.1. After validation, we analyze misclassifications on the challenging instances, categorize them into linguistically motivated error groups, and verify the resulting error hypotheses on three state-of-the-art RE models. We show that two groups of ambiguous relations are responsible for most of the remaining errors and that models may adopt shallow heuristics on the dataset when entities are not masked.
翻訳日:2022-12-08 04:23:47 公開日:2020-04-30
# MLSUM:多言語要約コーパス

MLSUM: The Multilingual Summarization Corpus ( http://arxiv.org/abs/2004.14900v1 )

ライセンス: Link先を確認
Thomas Scialom, Paul-Alexis Dray, Sylvain Lamprier, Benjamin Piwowarski, Jacopo Staiano(参考訳) MLSUMはMultiLingual SUMmarizationの最初の大規模データセットである。 オンライン新聞から入手したもので、フランス語、ドイツ語、スペイン語、ロシア語、トルコ語という5つの言語で1.5M以上の記事/サマリーペアを含んでいる。 人気の高いCNN/デイリーメールデータセットの英語新聞とともに、収集されたデータは大規模な多言語データセットを形成し、テキスト要約コミュニティの新しい研究方向を可能にする。 最先端システムに基づく言語間比較分析について報告する。 これらは、多言語データセットの使用を動機付ける既存のバイアスを強調する。

We present MLSUM, the first large-scale MultiLingual SUMmarization dataset. Obtained from online newspapers, it contains 1.5M+ article/summary pairs in five different languages -- namely, French, German, Spanish, Russian, Turkish. Together with English newspapers from the popular CNN/Daily mail dataset, the collected data form a large scale multilingual dataset which can enable new research directions for the text summarization community. We report cross-lingual comparative analyses based on state-of-the-art systems. These highlight existing biases which motivate the use of a multi-lingual dataset.
翻訳日:2022-12-08 04:23:03 公開日:2020-04-30
# 君の言うとおりだ。 私はアルアームドです。しかし気候変動対策運動によって

You are right. I am ALARMED -- But by Climate Change Counter Movement ( http://arxiv.org/abs/2004.14907v1 )

ライセンス: Link先を確認
Shraey Bhatia, Jey Han Lau, Timothy Baldwin(参考訳) 世界は気候変動の危機に直面している。 地球温暖化に関する科学コミュニティのコンセンサスにもかかわらず、ウェブは気候の誤った情報を広める記事で溢れている。 これらの記事は気候変動対策運動(cccm)組織によって慎重に構築され、気候変動に関する物語に影響を与える。 我々は、社会科学における気候誤報に関する文献を再考し、NLPのコミュニティに導入するために再パッケージする。 フェイクニュースの検出にはかなりの努力があったが、気候変動の領域に固有の誤報データセットは存在しない。 我々は、このギャップを、既知の気候変動の誤報のある記事を取り除き、リリースすることで埋めようとしている。

The world is facing the challenge of climate crisis. Despite the consensus in scientific community about anthropogenic global warming, the web is flooded with articles spreading climate misinformation. These articles are carefully constructed by climate change counter movement (cccm) organizations to influence the narrative around climate change. We revisit the literature on climate misinformation in social sciences and repackage it to introduce in the community of NLP. Despite considerable work in detection of fake news, there is no misinformation dataset available that is specific to the domain.of climate change. We try to bridge this gap by scraping and releasing articles with known climate change misinformation.
翻訳日:2022-12-08 04:22:55 公開日:2020-04-30
# ニューラルマシン翻訳用カプセルトランス

Capsule-Transformer for Neural Machine Translation ( http://arxiv.org/abs/2004.14649v1 )

ライセンス: Link先を確認
Sufeng Duan, Juncheng Cao, Hai Zhao(参考訳) トランスフォーマは、入力を異なる部分空間に変換することで、様々な視点から情報を抽出するマルチヘッドセルフアテンションネットワーク(san)の重要な設計から大きな恩恵を受けている。 しかし、その単純な線形変換集約戦略は、深い文脈情報を完全に捉えることができない可能性がある。 そこで本稿では,SANをカプセルネットワークの特殊なケースとして用いて,より一般的なカプセルルーティングアルゴリズムに線形変換を拡張したカプセル変換器を提案する。 結果のカプセルトランスフォーマーは、異なる頭と語間の情報集約により、入力シーケンスのより優れた注意分布表現を得ることができる。 具体的には、SANの注目重量の群を低層カプセルとみなす。 反復カプセルルーティングアルゴリズムを適用することで、より深い文脈情報を含む高層カプセルにさらに集約することができる。 広く使われている機械翻訳データセットの実験結果から,提案したカプセルトランスフォーマーは強力なトランスフォーマーベースラインを著しく上回ることがわかった。

Transformer hugely benefits from its key design of the multi-head self-attention network (SAN), which extracts information from various perspectives through transforming the given input into different subspaces. However, its simple linear transformation aggregation strategy may still potentially fail to fully capture deeper contextualized information. In this paper, we thus propose the capsule-Transformer, which extends the linear transformation into a more general capsule routing algorithm by taking SAN as a special case of capsule network. So that the resulted capsule-Transformer is capable of obtaining a better attention distribution representation of the input sequence via information aggregation among different heads and words. Specifically, we see groups of attention weights in SAN as low layer capsules. By applying the iterative capsule routing algorithm they can be further aggregated into high layer capsules which contain deeper contextualized information. Experimental results on the widely-used machine translation datasets show our proposed capsule-Transformer outperforms strong Transformer baseline significantly.
翻訳日:2022-12-08 04:16:04 公開日:2020-04-30
# 終端から終端までのニューラルワードアライメントがGIZA++より優れている

End-to-End Neural Word Alignment Outperforms GIZA++ ( http://arxiv.org/abs/2004.14675v1 )

ライセンス: Link先を確認
Thomas Zenkel, Joern Wuebker and John DeNero(参考訳) 単語アライメントは、統計機械翻訳(MT)モデルの訓練において重要な役割を担っているため、自然言語処理における中核的な教師なし学習課題であった。 ニューラルMTモデルのトレーニングには必要ないが、アノテーション転送やレキシコン注入といったニューラルマシン翻訳のインタラクティブな応用において、ワードアライメントは依然として重要な役割を担っている。 統計的mtメソッドは優れたパフォーマンスを持つニューラルネットワークに置き換えられているが、giza++ツールキットは最先端の単語アライメントシステムの主要なコンポーネントであり続けている。 ニューラルワードアライメントに関する以前の研究は、トレーニング中にその出力を使用することで、GIZA++よりも優れていた。 3つのデータセットでgiza++を一貫して上回る,最初のエンドツーエンドのニューラルワードアライメント手法を提案する。 本手法は,教師付き翻訳用に訓練されたトランスフォーマーモデルを用いて,教師なし単語アライメントモデルとして,密に統合され,翻訳品質に影響を与えない手法である。

Word alignment was once a core unsupervised learning task in natural language processing because of its essential role in training statistical machine translation (MT) models. Although unnecessary for training neural MT models, word alignment still plays an important role in interactive applications of neural machine translation, such as annotation transfer and lexicon injection. While statistical MT methods have been replaced by neural approaches with superior performance, the twenty-year-old GIZA++ toolkit remains a key component of state-of-the-art word alignment systems. Prior work on neural word alignment has only been able to outperform GIZA++ by using its output during training. We present the first end-to-end neural word alignment method that consistently outperforms GIZA++ on three data sets. Our approach repurposes a Transformer model trained for supervised translation to also serve as an unsupervised word alignment model in a manner that is tightly integrated and does not affect translation quality.
翻訳日:2022-12-08 04:15:51 公開日:2020-04-30
# バックトランスレーションと非対称Denoising Autoencodersを用いた半教師付きテキスト単純化

Semi-Supervised Text Simplification with Back-Translation and Asymmetric Denoising Autoencoders ( http://arxiv.org/abs/2004.14693v1 )

ライセンス: Link先を確認
Yanbin Zhao, Lu Chen, Zhi Chen, Kai Yu(参考訳) text simplification (ts) は、本質的な意味を保ちながら、長い文を単純化した変形に再現する。 従来のシーケンシャル・ツー・シーケンスモデルは、異なる言語やドメインに適用性を制限する並列文の量と品質に大きく依存している。 本研究では,TSタスクにおける大量の未ペアコーパスの活用方法について検討する。 我々は,非教師なし機械翻訳(nmt)におけるバックトランスレーションアーキテクチャを採用し,言語モデリングのための自動符号化や反復バックトランスレーションによる並列データの自動生成を行う。 しかし,2種類の文が非常に類似しており,その特徴を異なるタイプの文で捉えることは困難であるため,単純で複雑なコーパスを2つの異なる言語として直接扱う場合,適切な複素対を生成することは容易ではない。 この問題に対処するために,異なる複雑さを持つ文に対する非対称な記述法を提案する。 単純で複雑な文をオートエンコーダでモデル化する場合、トレーニングプロセスに異なる種類のノイズを導入する。 このような方法は単純化性能を大幅に向上させることができる。 我々のモデルは教師なしとセミ教師なしの両方で訓練することができる。 自動評価と人間評価は, 教師なしモデルが先行システムよりも優れており, 限定的な監督により, 複数の最先端の単純化システムと競合して実行可能であることを示す。

Text simplification (TS) rephrases long sentences into simplified variants while preserving inherent semantics. Traditional sequence-to-sequence models heavily rely on the quantity and quality of parallel sentences, which limits their applicability in different languages and domains. This work investigates how to leverage large amounts of unpaired corpora in TS task. We adopt the back-translation architecture in unsupervised machine translation (NMT), including denoising autoencoders for language modeling and automatic generation of parallel data by iterative back-translation. However, it is non-trivial to generate appropriate complex-simple pair if we directly treat the set of simple and complex corpora as two different languages, since the two types of sentences are quite similar and it is hard for the model to capture the characteristics in different types of sentences. To tackle this problem, we propose asymmetric denoising methods for sentences with separate complexity. When modeling simple and complex sentences with autoencoders, we introduce different types of noise into the training process. Such a method can significantly improve the simplification performance. Our model can be trained in both unsupervised and semi-supervised manner. Automatic and human evaluations show that our unsupervised model outperforms the previous systems, and with limited supervision, our model can perform competitively with multiple state-of-the-art simplification systems.
翻訳日:2022-12-08 04:15:33 公開日:2020-04-30
# 共同学習による教師なし言語理解・生成に向けて

Towards Unsupervised Language Understanding and Generation by Joint Dual Learning ( http://arxiv.org/abs/2004.14710v1 )

ライセンス: Link先を確認
Shang-Yu Su, Chao-Wei Huang, Yun-Nung Chen(参考訳) モジュール型対話システムでは、自然言語理解(NLU)と自然言語生成(NLG)が2つの重要な要素であり、NLUは与えられたテキストから意味を抽出し、NLGは入力された意味表現に基づいて対応する自然言語文を構築する。 しかし、理解と生成の二重性はほとんど研究されていない。 先行研究は、NLUとNLGの双対性を利用して、二重教師付き学習フレームワークによる性能向上を図った最初の試みである。 しかし,本稿では,教師付き学習アルゴリズムと教師なし学習アルゴリズムを併用して,言語理解と生成モデルを協調的に学習する,汎用的な学習フレームワークを提案する。 ベンチマーク実験により,提案手法はNLUとNLGの両方の性能を向上させることができることが示された。

In modular dialogue systems, natural language understanding (NLU) and natural language generation (NLG) are two critical components, where NLU extracts the semantics from the given texts and NLG is to construct corresponding natural language sentences based on the input semantic representations. However, the dual property between understanding and generation has been rarely explored. The prior work is the first attempt that utilized the duality between NLU and NLG to improve the performance via a dual supervised learning framework. However, the prior work still learned both components in a supervised manner, instead, this paper introduces a general learning framework to effectively exploit such duality, providing flexibility of incorporating both supervised and unsupervised learning algorithms to train language understanding and generation models in a joint fashion. The benchmark experiments demonstrate that the proposed approach is capable of boosting the performance of both NLU and NLG.
翻訳日:2022-12-08 04:15:11 公開日:2020-04-30
# RikiNet:ウィキペディアのページを読んで質問に答える

RikiNet: Reading Wikipedia Pages for Natural Question Answering ( http://arxiv.org/abs/2004.14560v1 )

ライセンス: Link先を確認
Dayiheng Liu, Yeyun Gong, Jie Fu, Yu Yan, Jiusheng Chen, Daxin Jiang, Jiancheng Lv and Nan Duan(参考訳) オープンドメインの質問に答えるために長いドキュメントを読むことは、自然言語の理解において依然として難しい。 本稿では,自然質問の回答のためにwikipediaのページを読み取るrikinetという新しいモデルを紹介する。 RikiNetには、動的段落のデュアルアテンションリーダーと、多段階の応答予測器が含まれている。 読者は、相補的な注意機構のセットを利用して文書と質問を動的に表現する。 次に、表現を予測器に送って、短い回答のスパン、長い回答の段落、回答のタイプを逐次的に取得する。 Natural Questions (NQ)データセットでは、1つのRikiNetが74.3 F1と57.9 F1を達成した。 私たちの知る限りでは、これは人間の単一パフォーマンスを上回る最初の単一モデルです。 さらに、アンサンブルのRikiNetは、ロングアンサーおよびショートアンサータスクにおいて76.1 F1と61.3 F1を取得し、公式NQリーダーボード上で最高のパフォーマンスを達成する。

Reading long documents to answer open-domain questions remains challenging in natural language understanding. In this paper, we introduce a new model, called RikiNet, which reads Wikipedia pages for natural question answering. RikiNet contains a dynamic paragraph dual-attention reader and a multi-level cascaded answer predictor. The reader dynamically represents the document and question by utilizing a set of complementary attention mechanisms. The representations are then fed into the predictor to obtain the span of the short answer, the paragraph of the long answer, and the answer type in a cascaded manner. On the Natural Questions (NQ) dataset, a single RikiNet achieves 74.3 F1 and 57.9 F1 on long-answer and short-answer tasks. To our best knowledge, it is the first single model that outperforms the single human performance. Furthermore, an ensemble RikiNet obtains 76.1 F1 and 61.3 F1 on long-answer and short-answer tasks, achieving the best performance on the official NQ leaderboard
翻訳日:2022-12-08 04:07:55 公開日:2020-04-30
# memebot: 画像自動ミーム生成に向けて

memeBot: Towards Automatic Image Meme Generation ( http://arxiv.org/abs/2004.14571v1 )

ライセンス: Link先を確認
Aadhavan Sadasivam, Kausic Gunasekar, Hasan Davulcu, Yezhou Yang(参考訳) 画像ミームは、ソーシャルメディア、ブログ、オープンメッセンジャー上でのアイデアのやりとりや交換に広く使われているツールとなっている。 本研究は,自動画像ミーム生成を翻訳処理として扱うこと,さらにエンコーダ・デコーダアーキテクチャを用いて任意の文に対する画像ベースミームを生成するために,エンドツーエンドのニューラルおよび確率的アプローチを提案する。 所定の入力文に対して、選択モジュールを用いて人気候補の集合からミームテンプレート画像とミームテンプレート画像が選択されたテキストキャプションとを組み合わせて画像ミームを生成し、エンコーダ・デコーダモデルによりミームキャプションを生成する。 選択されたミームテンプレートと入力文をミーム埋め込みにマッピングするためにエンコーダを使用し、ミーム埋め込みからミームキャプションをデコードするためにデコーダを使用する。 生成された自然言語ミームキャプションは、入力文及び選択されたミームテンプレートに条件付けされる。 モデルはミームキャプションとミームテンプレートイメージの依存関係を学習し、学習した依存関係を使って新しいミームを生成する。 自動評価と人的評価の両方により、生成されたキャプションと生成されたミームの品質を評価する。 実験は、生成したミームがtwitterの会話のツイートをいかにうまく表現できるかを評価するために行われる。 Twitterデータを用いた実験では、オンラインソーシャルインタラクションにおける文のミーム生成におけるモデルの有効性が示されている。

Image memes have become a widespread tool used by people for interacting and exchanging ideas over social media, blogs, and open messengers. This work proposes to treat automatic image meme generation as a translation process, and further present an end to end neural and probabilistic approach to generate an image-based meme for any given sentence using an encoder-decoder architecture. For a given input sentence, an image meme is generated by combining a meme template image and a text caption where the meme template image is selected from a set of popular candidates using a selection module, and the meme caption is generated by an encoder-decoder model. An encoder is used to map the selected meme template and the input sentence into a meme embedding and a decoder is used to decode the meme caption from the meme embedding. The generated natural language meme caption is conditioned on the input sentence and the selected meme template. The model learns the dependencies between the meme captions and the meme template images and generates new memes using the learned dependencies. The quality of the generated captions and the generated memes is evaluated through both automated and human evaluation. An experiment is designed to score how well the generated memes can represent the tweets from Twitter conversations. Experiments on Twitter data show the efficacy of the model in generating memes for sentences in online social interaction.
翻訳日:2022-12-08 04:07:11 公開日:2020-04-30
# コンテキスト認識型MTシステムはDiPベンチマークテストに合格できるか? 機械翻訳における談話現象の評価ベンチマーク

Can Your Context-Aware MT System Pass the DiP Benchmark Tests? : Evaluation Benchmarks for Discourse Phenomena in Machine Translation ( http://arxiv.org/abs/2004.14607v1 )

ライセンス: Link先を確認
Prathyusha Jwalapuram, Barbara Rychalska, Shafiq Joty and Dominika Basaj(参考訳) 文脈情報を含む機械翻訳(MT)システムの事例が増えているにもかかわらず、翻訳品質改善の証拠は、特に談話現象に対して少ない。 bleuのような人気のあるメトリクスは、サイズが小さいが知覚が重要な品質改善や低下を捉えるのに十分な表現力や感度がない。 我々は,4つの主要な談話現象(アナフォラ,語彙整合性,コヒーレンスと可読性,談話接続翻訳)にまたがる改善を追跡することを目的としたMTベンチマークデータセットの最初のものを紹介する。 また,これらのタスクに対する評価手法を導入し,複数のmtシステムの評価を行った。 驚くべきことに、既存の文脈認識モデルでは言語や現象間の会話関連翻訳が一貫して改善されない。

Despite increasing instances of machine translation (MT) systems including contextual information, the evidence for translation quality improvement is sparse, especially for discourse phenomena. Popular metrics like BLEU are not expressive or sensitive enough to capture quality improvements or drops that are minor in size but significant in perception. We introduce the first of their kind MT benchmark datasets that aim to track and hail improvements across four main discourse phenomena: anaphora, lexical consistency, coherence and readability, and discourse connective translation. We also introduce evaluation methods for these tasks, and evaluate several baseline MT systems on the curated datasets. Surprisingly, we find that existing context-aware models do not improve discourse-related translations consistently across languages and phenomena.
翻訳日:2022-12-08 04:05:26 公開日:2020-04-30
# 個人統計学におけるプライマー

A Primer on Private Statistics ( http://arxiv.org/abs/2005.00010v1 )

ライセンス: Link先を確認
Gautam Kamath, Jonathan Ullman(参考訳) 差動的にプライベートな統計的な推定は、ここ数年で多くの発展が見られた。 研究は2つの学派に分けられ、経験統計と人口統計に焦点が当てられている。 これらの2つの研究の行は、当初経験的統計学の枠組みを定めていたが、人口統計学にも適用できる手法の例を挙げることで、両者の類似性が示唆された。 この領域での最近の作業についても、詳しく説明しています。

Differentially private statistical estimation has seen a flurry of developments over the last several years. Study has been divided into two schools of thought, focusing on empirical statistics versus population statistics. We suggest that these two lines of work are more similar than different by giving examples of methods that were initially framed for empirical statistics, but can be applied just as well to population statistics. We also provide a thorough coverage of recent work in this area.
翻訳日:2022-12-08 03:59:03 公開日:2020-04-30
# 画面のモデリングと解釈のための階層エンコーダ

Hierarchical Encoders for Modeling and Interpreting Screenplays ( http://arxiv.org/abs/2004.14532v1 )

ライセンス: Link先を確認
Gayatri Bhat, Avneesh Saluja, Melody Dye, and Jan Florjanczyk(参考訳) 長文文書の自然言語理解は依然としてオープンな課題であるが、そのような文書には符号化のためのモデルの設計を知らせる構造情報が含まれることが多い。 映画スクリプトは、リッチな構造化されたテキストの例であり、スクリプトはシーンに分割され、さらに対話や記述的なコンポーネントに分解される。 本研究では,手作りの特徴を必要とせず,複数ラベルのタグ分類データセット上でロバストに動作させる,この構造を符号化するニューラルアーキテクチャを提案する。 我々は,教師なしの「解釈可能性」モジュールをエンコーダに追加することにより,物語の軌跡の抽出と可視化を可能にし,洞察層を追加する。 この研究は特にスクリーンプレイに取り組むが、基礎となるアプローチを様々な構造化ドキュメントに一般化する方法について議論する。

While natural language understanding of long-form documents is still an open challenge, such documents often contain structural information that can inform the design of models for encoding them. Movie scripts are an example of such richly structured text - scripts are segmented into scenes, which are further decomposed into dialogue and descriptive components. In this work, we propose a neural architecture for encoding this structure, which performs robustly on a pair of multi-label tag classification datasets, without the need for handcrafted features. We add a layer of insight by augmenting an unsupervised "interpretability" module to the encoder, allowing for the extraction and visualization of narrative trajectories. Though this work specifically tackles screenplays, we discuss how the underlying approach can be generalized to a range of structured documents.
翻訳日:2022-12-08 03:57:39 公開日:2020-04-30
# ドメイン特化テキストのユーザガイドアスペクト分類

User-Guided Aspect Classification for Domain-Specific Texts ( http://arxiv.org/abs/2004.14555v1 )

ライセンス: Link先を確認
Peiran Li, Fang Guo, Jingbo Shang(参考訳) テキストセグメントの側面を識別するアスペクト分類は、感情分析やレビュー要約などの多くのアプリケーションを促進する。 本稿では,大量のテキストに注釈を付けることの人的労力を軽減するために,事前定義されたアスペクトに対して,少数のユーザが提供するシードワードのみに基づいてアスペクトを分類する問題について検討する。 主な課題は、事前に定義された側面を持たないテキスト用に設計された、騒がしいmiscの側面をどう扱うかにある。 ドメインの専門家でさえ、miscの側面でシードワードを指名することは困難であり、既存のシード駆動のテキスト分類手法は適用できない。 本稿では,事前定義された側面とミシな側面の相互強化を反復的分類器学習とシード更新を通じて実現する新しいフレームワークARYAを提案する。 具体的には、事前定義されたアスペクトの分類器をトレーニングし、それを利用してmiscアスペクトの監督を誘導する。 このmiscアスペクトの予測結果は、後に事前定義された側面に対してノイズの多いシードワードをフィルタリングするために使用される。 2つの領域における実験は、提案フレームワークの優れた性能を示し、また、miscアスペクトを適切にモデル化する必要性と重要性を示す。

Aspect classification, identifying aspects of text segments, facilitates numerous applications, such as sentiment analysis and review summarization. To alleviate the human effort on annotating massive texts, in this paper, we study the problem of classifying aspects based on only a few user-provided seed words for pre-defined aspects. The major challenge lies in how to handle the noisy misc aspect, which is designed for texts without any pre-defined aspects. Even domain experts have difficulties to nominate seed words for the misc aspect, making existing seed-driven text classification methods not applicable. We propose a novel framework, ARYA, which enables mutual enhancements between pre-defined aspects and the misc aspect via iterative classifier training and seed updating. Specifically, it trains a classifier for pre-defined aspects and then leverages it to induce the supervision for the misc aspect. The prediction results of the misc aspect are later utilized to filter out noisy seed words for pre-defined aspects. Experiments in two domains demonstrate the superior performance of our proposed framework, as well as the necessity and importance of properly modeling the misc aspect.
翻訳日:2022-12-08 03:56:26 公開日:2020-04-30
# APB2Face:補助ポーズと点滅信号によるオーディオ誘導顔再現

APB2Face: Audio-guided face reenactment with auxiliary pose and blink signals ( http://arxiv.org/abs/2004.14569v1 )

ライセンス: Link先を確認
Jiangning Zhang, Liang Liu, Zhucun Xue, Yong Liu(参考訳) 音声誘導型顔再現は、実際の人物に話しかける時と同じ顔の動きを維持しながら、音声情報を用いて写実的な顔を生成することを目的としている。 しかし、既存の手法では鮮明な顔画像を生成したり、低解像度な顔だけを再現することはできず、アプリケーション価値が制限される。 これらの問題を解決するために,GeometryPredictorとFaceReenactorモジュールからなる新しいディープニューラルネットワークAPB2Faceを提案する。 geometrypredictorは追加のヘッドポーズと点滅状態の信号とオーディオを使用して潜在ランドマークの幾何情報を予測し、facereenactorは顔ランドマークの画像を入力してフォトリアリスティックな顔を再再現する。 youtube から収集した新たなデータセット annvi が提案され,本手法の信頼性や制御性において,最先端技術よりも優れていることを示す実験結果が得られた。

Audio-guided face reenactment aims at generating photorealistic faces using audio information while maintaining the same facial movement as when speaking to a real person. However, existing methods can not generate vivid face images or only reenact low-resolution faces, which limits the application value. To solve those problems, we propose a novel deep neural network named APB2Face, which consists of GeometryPredictor and FaceReenactor modules. GeometryPredictor uses extra head pose and blink state signals as well as audio to predict the latent landmark geometry information, while FaceReenactor inputs the face landmark image to reenact the photorealistic face. A new dataset AnnVI collected from YouTube is presented to support the approach, and experimental results indicate the superiority of our method than state-of-the-arts, whether in authenticity or controllability.
翻訳日:2022-12-08 03:50:40 公開日:2020-04-30
# 第4回AI都市チャレンジ

The 4th AI City Challenge ( http://arxiv.org/abs/2004.14619v1 )

ライセンス: Link先を確認
Milind Naphade, Shuo Wang, David Anastasiu, Zheng Tang, Ming-Ching Chang, Xiaodong Yang, Liang Zheng, Anuj Sharma, Rama Chellappa, Pranamesh Chakraborty(参考訳) ai city challengeは、インテリジェントなビデオ分析を加速し、都市をより賢く安全にする。 トランスポーテーションは、センサーが捉えたデータから得られる実用的な洞察の恩恵を受けることができる、最も大きなセグメントの1つである。 AI City Challengeの第4回年次エディションでは、37カ国315チームが参加し、都市規模の実交通データと高品質の合成データを活用して、4つの挑戦トラックで競う。 トラック1はビデオに基づく自動車両計数に対処し、アルゴリズムの有効性と計算効率の両方で評価を行う。 トラック2は、拡張合成データを用いて都市規模の車両の再識別に対処し、タスクのトレーニングセットを大幅に増加させる。 トラック3は、都市規模のマルチターゲットマルチカメラ車両追跡に対応している。 トラック4は交通異常検知に対処した。 評価システムは2つのリーダーボードを示し、総リーダーボードは全ての提案された結果を示し、公開リーダーボードは我々のコンテスト参加ルールに制限された結果を示し、チームは自分たちの作業で外部データを使用することができない。 公開リーダーボードは、注釈付きデータが制限された現実世界の状況に近い結果を表示する。 我々の結果は、AI技術がよりスマートで安全な交通システムを実現することを約束している。

The AI City Challenge was created to accelerate intelligent video analysis that helps make cities smarter and safer. Transportation is one of the largest segments that can benefit from actionable insights derived from data captured by sensors, where computer vision and deep learning have shown promise in achieving large-scale practical deployment. The 4th annual edition of the AI City Challenge has attracted 315 participating teams across 37 countries, who leveraged city-scale real traffic data and high-quality synthetic data to compete in four challenge tracks. Track 1 addressed video-based automatic vehicle counting, where the evaluation is conducted on both algorithmic effectiveness and computational efficiency. Track 2 addressed city-scale vehicle re-identification with augmented synthetic data to substantially increase the training set for the task. Track 3 addressed city-scale multi-target multi-camera vehicle tracking. Track 4 addressed traffic anomaly detection. The evaluation system shows two leader boards, in which a general leader board shows all submitted results, and a public leader board shows results limited to our contest participation rules, that teams are not allowed to use external data in their work. The public leader board shows results more close to real-world situations where annotated data are limited. Our results show promise that AI technology can enable smarter and safer transportation systems.
翻訳日:2022-12-08 03:50:23 公開日:2020-04-30
# ビデオからの直感的物理の咬合抵抗学習

Occlusion resistant learning of intuitive physics from videos ( http://arxiv.org/abs/2005.00069v1 )

ライセンス: Link先を確認
Ronan Riochet, Josef Sivic, Ivan Laptev and Emmanuel Dupoux(参考訳) 複雑なタスクでのヒューマンパフォーマンスを達成するために、人工知能の重要な能力は、オブジェクト間の物理的相互作用を理解し、状況の将来の結果を予測することである。 この能力は直感物理学と呼ばれ、近年注目され、ビデオシーケンスからこれらの物理規則を学ぶためのいくつかの方法が提案されている。 しかし、これらの手法のほとんどは、排他的または限定的な排他的でない場合に限られる。 本研究では,物体間オクルージョンを有する3次元シーンにおける直観的物理学習の確率論的定式化を提案する。 提案手法では,オブジェクトの位置を潜在変数としてモデル化し,シーンの再構成を可能にする。 次に、この問題を抽出可能な一連の近似を提案する。 オブジェクトの提案は、リカレントなインタラクションネットワーク、オブジェクト空間における物理のモデリング、および、オブジェクトがピクセル空間に投影される方法をモデル化する合成レンダラーの組み合わせを使って、フレーム間でリンクされる。 IntPhysの直感的物理ベンチマークにおいて,最先端技術に対する大幅な改善を示す。 本手法は咬合レベルが増加する第2データセットに適用し,今後最大30フレームまでのセグメンテーションマスクを現実的に予測する。 最後に,実際の映像における物体の動きの予測結果を示す。

To reach human performance on complex tasks, a key ability for artificial systems is to understand physical interactions between objects, and predict future outcomes of a situation. This ability, often referred to as intuitive physics, has recently received attention and several methods were proposed to learn these physical rules from video sequences. Yet, most of these methods are restricted to the case where no, or only limited, occlusions occur. In this work we propose a probabilistic formulation of learning intuitive physics in 3D scenes with significant inter-object occlusions. In our formulation, object positions are modeled as latent variables enabling the reconstruction of the scene. We then propose a series of approximations that make this problem tractable. Object proposals are linked across frames using a combination of a recurrent interaction network, modeling the physics in object space, and a compositional renderer, modeling the way in which objects project onto pixel space. We demonstrate significant improvements over state-of-the-art in the intuitive physics benchmark of IntPhys. We apply our method to a second dataset with increasing levels of occlusions, showing it realistically predicts segmentation masks up to 30 frames in the future. Finally, we also show results on predicting motion of objects in real videos.
翻訳日:2022-12-08 03:49:03 公開日:2020-04-30
# COVID-DA:典型的な肺炎からCOVID-19への深いドメイン適応

COVID-DA: Deep Domain Adaptation from Typical Pneumonia to COVID-19 ( http://arxiv.org/abs/2005.01577v1 )

ライセンス: Link先を確認
Yifan Zhang, Shuaicheng Niu, Zhen Qiu, Ying Wei, Peilin Zhao, Jianhua Yao, Junzhou Huang, Qingyao Wu, and Mingkui Tan(参考訳) 2019年の新型コロナウイルス(covid-19)の流行は、すでに数百万人を感染させており、世界中で急速に拡大している。 ほとんどのCOVID-19患者は肺感染症を患っており、X線やCTなどの胸部X線画像のスクリーニングが重要な診断方法である。 しかし、このような検査は時間と労力がかかり、診断効率が制限される。 この問題を解決するために、ディープラーニングのようなAIベースの技術は、診断効率を改善する効果的なコンピュータ支援手段として最近使用されている。 しかし、1つの実用的で重要な難しさは、新型コロナウイルス(COVID-19)の注釈付きデータの利用が制限されていることだ。 これにより、深い診断モデルの学習は非常に困難になる。 これを解決するために, 典型的な肺炎はCOVID-19と類似した特徴を有し, 多くの肺炎データセットが公開されており, 典型的な肺炎からCOVID-19へのドメイン知識適応を行うことを提案する。 主な課題は2つあります 1) ドメイン間のデータの分散の相違 2)典型的な肺炎の診断とCOVID-19との課題の違い。 そこで本研究では,新たな深部ドメイン適応手法であるCOVID-DAを提案する。 具体的には,新しい分類器分離スキームを用いて,特徴の逆適応によるドメインの不一致を緩和し,タスクの差分問題に対処する。 このようにして、COVID-DAは、少数のCOVID-19アノテーションで、効果的に新型コロナウイルスを診断することができる。 大規模な実験は、COVID-DAの有効性と現実世界の応用に大きな可能性を検証している。

The outbreak of novel coronavirus disease 2019 (COVID-19) has already infected millions of people and is still rapidly spreading all over the globe. Most COVID-19 patients suffer from lung infection, so one important diagnostic method is to screen chest radiography images, e.g., X-Ray or CT images. However, such examinations are time-consuming and labor-intensive, leading to limited diagnostic efficiency. To solve this issue, AI-based technologies, such as deep learning, have been used recently as effective computer-aided means to improve diagnostic efficiency. However, one practical and critical difficulty is the limited availability of annotated COVID-19 data, due to the prohibitive annotation costs and urgent work of doctors to fight against the pandemic. This makes the learning of deep diagnosis models very challenging. To address this, motivated by that typical pneumonia has similar characteristics with COVID-19 and many pneumonia datasets are publicly available, we propose to conduct domain knowledge adaptation from typical pneumonia to COVID-19. There are two main challenges: 1) the discrepancy of data distributions between domains; 2) the task difference between the diagnosis of typical pneumonia and COVID-19. To address them, we propose a new deep domain adaptation method for COVID-19 diagnosis, namely COVID-DA. Specifically, we alleviate the domain discrepancy via feature adversarial adaptation and handle the task difference issue via a novel classifier separation scheme. In this way, COVID-DA is able to diagnose COVID-19 effectively with only a small number of COVID-19 annotations. Extensive experiments verify the effectiveness of COVID-DA and its great potential for real-world applications.
翻訳日:2022-12-08 03:48:45 公開日:2020-04-30
# 胸部X線画像を用いたCOVID-19分類におけるモデル内変異

Intra-model Variability in COVID-19 Classification Using Chest X-ray Images ( http://arxiv.org/abs/2005.02167v1 )

ライセンス: Link先を確認
Brian D Goodwin, Corey Jaskolski, Can Zhong, Herick Asmani(参考訳) 新型コロナウイルススクリーニングのためのX線およびCTスキャン技術は、新型コロナウイルスのパンデミックの開始以来、AI研究で大きな注目を集めている。 こうした新型コロナウイルススクリーニングの継続的な進歩にもかかわらず、多くの懸念は臨床で使用されるモデルの信頼性に関するものである。 多くは公開されたが、期待されるモデルパフォーマンスの透明性は限られている。 12の一般的なディープラーニングアーキテクチャを対象とした、胸部x線におけるcovid-19検出の基礎的パフォーマンス指標と変動性を定量化するための一連の実験を通じて、この制限に対処することに着手しました。 具体的には, モデル重み初期化, ランダムデータ拡張変換, バッチシャッフルから予測可能性の源流となる, 列車-バリデーション-テスト分割とモデルアーキテクチャのための実験パラダイムを採用した。 それぞれのモデルアーキテクチャは、Cohen et al. (2020) が提供する公開X線画像データセットの同一の列車価試験分割に基づいて5回訓練された。 その結果、モデルアーキテクチャ内でも、モデルの振る舞いはトレーニングされたモデル間で意味のある方法で変化する。 ベストパフォーマンスモデルは、保留セットでcovid-19を検出するために20分の3の偽陰性率を達成している。 これらの結果は、新型コロナウイルススクリーニングにAIを使用することの約束を示しているが、一貫性のある予測結果をもたらす方法で、モデルトレーニングのための多様な医療画像データセットに対する緊急の必要性をさらに支援している。 これらのモデリング結果が、より堅牢なデータセットとcovid-19の有効なスクリーニングツールの構築作業を促進することを願っています。

X-ray and computed tomography (CT) scanning technologies for COVID-19 screening have gained significant traction in AI research since the start of the coronavirus pandemic. Despite these continuous advancements for COVID-19 screening, many concerns remain about model reliability when used in a clinical setting. Much has been published, but with limited transparency in expected model performance. We set out to address this limitation through a set of experiments to quantify baseline performance metrics and variability for COVID-19 detection in chest x-ray for 12 common deep learning architectures. Specifically, we adopted an experimental paradigm controlling for train-validation-test split and model architecture where the source of prediction variability originates from model weight initialization, random data augmentation transformations, and batch shuffling. Each model architecture was trained 5 separate times on identical train-validation-test splits of a publicly available x-ray image dataset provided by Cohen et al. (2020). Results indicate that even within model architectures, model behavior varies in a meaningful way between trained models. Best performing models achieve a false negative rate of 3 out of 20 for detecting COVID-19 in a hold-out set. While these results show promise in using AI for COVID-19 screening, they further support the urgent need for diverse medical imaging datasets for model training in a way that yields consistent prediction outcomes. It is our hope that these modeling results accelerate work in building a more robust dataset and a viable screening tool for COVID-19.
翻訳日:2022-12-08 03:47:53 公開日:2020-04-30
# 単一軌道から非線形力学系の学習

Learning nonlinear dynamical systems from a single trajectory ( http://arxiv.org/abs/2004.14681v1 )

ライセンス: Link先を確認
Dylan J. Foster, Alexander Rakhlin, Tuhin Sarkar(参考訳) x_{t+1}=\sigma(\theta^{\star}x_t)+\varepsilon_t$, ここで$\theta^{\star}$は重み行列、$\sigma$は非線形リンク関数、$\varepsilon_t$は平均ゼロノイズ処理である。 最適なサンプル複雑性と線形実行時間を持つ単一軌道から重み行列$\Theta^{\star}$を復元するアルゴリズムを提案する。 このアルゴリズムは、以前の研究、特に、より弱い統計的仮定の下で成功する i) 重み行列 $\Theta^{\star}$(あるいはスペクトル半径の一般化に依存する)のスペクトルノルムの束縛を必要とせず、 二 ReLU のような非制限増加リンク関数の保証を楽しむこと。 分析には2つの重要な要素があります 一 非線形力学系に対する大域的安定性を利用して、状態ベクトル共分散が十分に条件づけられていることを証明し、また、 二 このツールを用いて、一般化線形モデルを依存した設定に効率的に学習するためのよく知られたアルゴリズムを拡張する。

We introduce algorithms for learning nonlinear dynamical systems of the form $x_{t+1}=\sigma(\Theta^{\star}x_t)+\varepsilon_t$, where $\Theta^{\star}$ is a weight matrix, $\sigma$ is a nonlinear link function, and $\varepsilon_t$ is a mean-zero noise process. We give an algorithm that recovers the weight matrix $\Theta^{\star}$ from a single trajectory with optimal sample complexity and linear running time. The algorithm succeeds under weaker statistical assumptions than in previous work, and in particular i) does not require a bound on the spectral norm of the weight matrix $\Theta^{\star}$ (rather, it depends on a generalization of the spectral radius) and ii) enjoys guarantees for non-strictly-increasing link functions such as the ReLU. Our analysis has two key components: i) we give a general recipe whereby global stability for nonlinear dynamical systems can be used to certify that the state-vector covariance is well-conditioned, and ii) using these tools, we extend well-known algorithms for efficiently learning generalized linear models to the dependent setting.
翻訳日:2022-12-08 03:47:31 公開日:2020-04-30
# 強化学習改善のための計画空間状態埋め込み

Plan-Space State Embeddings for Improved Reinforcement Learning ( http://arxiv.org/abs/2004.14567v1 )

ライセンス: Link先を確認
Max Pflueger and Gaurav S. Sukhatme(参考訳) ロボット制御問題はしばしば、状態値を制御値にマッピングするポリシー関数で構成されるが、多くの動的問題において、観測された状態は有用なポリシーアクションとの関係を特徴づけるのが困難である。 本稿では, 実験計画等から状態埋め込みを学習するための新しい手法を提案し, 実験結果と埋め込み空間が特定の幾何学的関係を持つことを示す。 本稿では,学習埋め込み空間における軌道線形性を最適化しようとする,これらの埋め込みを学習するための新しい変分フレームワークを提案する。 次に,これらの埋め込み空間を,強化学習問題におけるロボット状態の補足として利用できることを示す。 私たちはkinodynamic planningを使って、例えば環境のトレーニングトラジェクタを生成し、それらの環境の埋め込みスペースをトレーニングします。 学習した埋め込み空間におけるシステム観察は、特にトレーニング実行間のばらつきを減らすことで、ポリシー勾配強化学習アルゴリズムの性能を向上させることを実証的に示す。 私たちの技術は、デモデータが利用可能な環境に限られていますが、そのデータの収集方法に制限はありません。 我々の埋め込み技術は、計画や制御アルゴリズムといった既存の技術からより柔軟なポリシー学習アルゴリズムにドメイン知識を移す方法を提供し、意味のある幾何学を持つロボット状態の抽象表現を作成する。

Robot control problems are often structured with a policy function that maps state values into control values, but in many dynamic problems the observed state can have a difficult to characterize relationship with useful policy actions. In this paper we present a new method for learning state embeddings from plans or other forms of demonstrations such that the embedding space has a specified geometric relationship with the demonstrations. We present a novel variational framework for learning these embeddings that attempts to optimize trajectory linearity in the learned embedding space. We show how these embedding spaces can then be used as an augmentation to the robot state in reinforcement learning problems. We use kinodynamic planning to generate training trajectories for some example environments, and then train embedding spaces for these environments. We show empirically that observing a system in the learned embedding space improves the performance of policy gradient reinforcement learning algorithms, particularly by reducing the variance between training runs. Our technique is limited to environments where demonstration data is available, but places no limits on how that data is collected. Our embedding technique provides a way to transfer domain knowledge from existing technologies such as planning and control algorithms, into more flexible policy learning algorithms, by creating an abstract representation of the robot state with meaningful geometry.
翻訳日:2022-12-08 03:40:16 公開日:2020-04-30
# 生成モデルのロバスト性証明

Robustness Certification of Generative Models ( http://arxiv.org/abs/2004.14756v1 )

ライセンス: Link先を確認
Matthew Mirman, Timon Gehr, Martin Vechev(参考訳) 生成ニューラルネットワークは、潜在空間補間による画像間の連続変換を指定できる。 しかし、画像多様体の経路によって得られた全ての画像が与えられた性質を満たすことを証明することは、非常に困難である。 これは、この集合が非常に非凸であり、しばしば凸緩和に基づく既存のスケーラブルなロバストネス解析手法を妨げているためである。 本稿では,生成モデルと分類器を含む非自明な仕様を検証するスケーラブルな認証手法であるapproxlineを提案する。 ApproxLineは、ニューラルネットワークアクティベーションベクトルの無限個の非凸集合またはそのような集合上の分布をキャプチャすることで、音響決定性と確率保証の両方を提供することができる。 ApproxLineは実用的に有用であり,ネットワーク潜在空間における興味深い補間を検証できることを示す。

Generative neural networks can be used to specify continuous transformations between images via latent-space interpolation. However, certifying that all images captured by the resulting path in the image manifold satisfy a given property can be very challenging. This is because this set is highly non-convex, thwarting existing scalable robustness analysis methods, which are often based on convex relaxations. We present ApproxLine, a scalable certification method that successfully verifies non-trivial specifications involving generative models and classifiers. ApproxLine can provide both sound deterministic and probabilistic guarantees, by capturing either infinite non-convex sets of neural network activation vectors or distributions over such sets. We show that ApproxLine is practically useful and can verify interesting interpolations in the networks latent space.
翻訳日:2022-12-08 03:39:46 公開日:2020-04-30
# 深部インストゥルメンタル変数推定について

On Deep Instrumental Variables Estimate ( http://arxiv.org/abs/2004.14954v1 )

ライセンス: Link先を確認
Ruiqi Liu, Zuofeng Shang, Guang Cheng(参考訳) 内在性問題は、多くの経験的応用が説明変数の欠落、測定誤差、あるいは同時因果性に悩まされるため、基本的に重要である。 近年, \cite{hllt17} は深層ニューラルネットワークに基づく「深層インストゥルメンタル変数(iv)」フレームワークを提案する。 本研究の目的は,Deep IVの実証的な成功を理論的に理解することである。 具体的には,線形インストゥルメンタル変数モデルにおけるディープニューラルネットワークを用いた2段階推定について検討する。 内在変数とインストゥルメンタル変数の間の縮小形式方程式に対する潜在構造仮定を付与することにより、第一段階推定器は、この潜在構造を自動的に捕捉し、インストゥルメンタル変数の次元を含まない最小値の最適速度で最適楽器に収束し、従って寸法の呪いを緩和する。 さらに、古典的手法と比較すると、第1段階推定器の収束速度が速いため、第2段階推定器は {a small (second order) estimation error} を持ち、最適な機器の滑らかさについてより弱い条件を必要とする。 深層ニューラルネットワークの深さと幅が適切に選択されていることを考慮し、さらに第2段階推定器が半パラメトリック効率バウンドを達成することを示す。 合成データに関するシミュレーション研究と自動車市場データへの応用は理論を裏付けるものである。

The endogeneity issue is fundamentally important as many empirical applications may suffer from the omission of explanatory variables, measurement error, or simultaneous causality. Recently, \cite{hllt17} propose a "Deep Instrumental Variable (IV)" framework based on deep neural networks to address endogeneity, demonstrating superior performances than existing approaches. The aim of this paper is to theoretically understand the empirical success of the Deep IV. Specifically, we consider a two-stage estimator using deep neural networks in the linear instrumental variables model. By imposing a latent structural assumption on the reduced form equation between endogenous variables and instrumental variables, the first-stage estimator can automatically capture this latent structure and converge to the optimal instruments at the minimax optimal rate, which is free of the dimension of instrumental variables and thus mitigates the curse of dimensionality. Additionally, in comparison with classical methods, due to the faster convergence rate of the first-stage estimator, the second-stage estimator has {a smaller (second order) estimation error} and requires a weaker condition on the smoothness of the optimal instruments. Given that the depth and width of the employed deep neural network are well chosen, we further show that the second-stage estimator achieves the semiparametric efficiency bound. Simulation studies on synthetic data and application to automobile market data confirm our theory.
翻訳日:2022-12-08 03:39:16 公開日:2020-04-30
# Jukebox: 音楽のジェネレーティブモデル

Jukebox: A Generative Model for Music ( http://arxiv.org/abs/2005.00341v1 )

ライセンス: Link先を確認
Prafulla Dhariwal, Heewoo Jun, Christine Payne, Jong Wook Kim, Alec Radford, Ilya Sutskever(参考訳) 生のオーディオ領域で歌いながら音楽を生成するモデルであるJukeboxを紹介する。 我々は,マルチスケールvq-vaeを用いた生オーディオの長大な文脈に取り組み,それらを離散符号に圧縮し,自己回帰トランスフォーマを用いてモデル化する。 大規模に組み合わせたモデルでは、コヒーレンスが最大で数分間で高い忠実度と多様な曲を生成できることが示される。 アーティストやジャンルを条件として、音楽やボーカルのスタイルを操り、アンアライメントの歌詞で歌をコントロール可能にします。 私たちは、https://jukebox.openai.comで何千もの非桜のサンプルと、https://github.com/openai/jukeboxでモデルウェイトとコードをリリースしています。

We introduce Jukebox, a model that generates music with singing in the raw audio domain. We tackle the long context of raw audio using a multi-scale VQ-VAE to compress it to discrete codes, and modeling those using autoregressive Transformers. We show that the combined model at scale can generate high-fidelity and diverse songs with coherence up to multiple minutes. We can condition on artist and genre to steer the musical and vocal style, and on unaligned lyrics to make the singing more controllable. We are releasing thousands of non cherry-picked samples at https://jukebox.openai.com, along with model weights and code at https://github.com/openai/jukebox
翻訳日:2022-12-08 03:38:33 公開日:2020-04-30
# TRP:効率的なディープニューラルネットワークのためのトレーニングされたランクプルーニング

TRP: Trained Rank Pruning for Efficient Deep Neural Networks ( http://arxiv.org/abs/2004.14566v1 )

ライセンス: Link先を確認
Yuhui Xu, Yuxi Li, Shuai Zhang, Wei Wen, Botao Wang, Yingyong Qi, Yiran Chen, Weiyao Lin, Hongkai Xiong(参考訳) 携帯電話などのエッジデバイス上でDNNを有効にするために、その理論的根拠と効率的な実装のために、低ランク近似が広く採用されている。 以前のいくつかの研究は、低ランク分解による事前学習されたモデルを直接近似しようとしたが、パラメータの小さな近似誤差は大きな予測損失を乗り越える可能性がある。 その結果、通常性能は著しく低下し、精度の回復には微調整の高度な努力が必要である。 どうやら、低ランク近似をトレーニングから分離するのは最適ではないようだ。 先行研究とは異なり,本論文は低位近似と正規化を訓練プロセスに統合する。 低位近似と訓練の交互に訓練されたランクプルーニング(trp)を提案する。 TRPはトレーニング中に低ランクの制約を課しながら、元のネットワークの容量を維持する。 確率的サブ段階降下により最適化された核正則化を利用して、TRPの低位化をさらに促進する。 TRPトレーニングネットワークは本質的に低ランク構造を持ち、無視可能な性能損失と近似され、低ランク分解後の微調整プロセスが不要になる。 提案手法はCIFAR-10とImageNetで総合的に評価され,低階近似を用いた従来の圧縮手法よりも優れていた。

To enable DNNs on edge devices like mobile phones, low-rank approximation has been widely adopted because of its solid theoretical rationale and efficient implementations. Several previous works attempted to directly approximate a pretrained model by low-rank decomposition; however, small approximation errors in parameters can ripple over a large prediction loss. As a result, performance usually drops significantly and a sophisticated effort on fine-tuning is required to recover accuracy. Apparently, it is not optimal to separate low-rank approximation from training. Unlike previous works, this paper integrates low rank approximation and regularization into the training process. We propose Trained Rank Pruning (TRP), which alternates between low rank approximation and training. TRP maintains the capacity of the original network while imposing low-rank constraints during training. A nuclear regularization optimized by stochastic sub-gradient descent is utilized to further promote low rank in TRP. The TRP trained network inherently has a low-rank structure, and is approximated with negligible performance loss, thus eliminating the fine-tuning process after low rank decomposition. The proposed method is comprehensively evaluated on CIFAR-10 and ImageNet, outperforming previous compression methods using low rank approximation.
翻訳日:2022-12-08 03:30:46 公開日:2020-04-30
# ゼロショット学習への新しい展望:意味的特徴展開による多様体構造のアライメントに向けて

A Novel Perspective to Zero-shot Learning: Towards an Alignment of Manifold Structures via Semantic Feature Expansion ( http://arxiv.org/abs/2004.14795v1 )

ライセンス: Link先を確認
Jingcai Guo, Song Guo(参考訳) ゼロショット学習は、見知らぬクラス(トレーニングサンプルなし)を、見知らぬクラスから伝達された知識で認識することを目的としている。 これは典型的には、目に見えるクラスと見えないクラス、すなわち属性またはワードベクターの両方が共有するセマンティックな機能空間をブリッジとして利用することによって実現される。 ゼロショット学習の一般的な実践は、視覚的特徴空間と意味的特徴空間の間の投影をラベル付きクラス例で訓練することである。 推測すると、この学習された射影は未発見のクラスに適用され、いくつかのメトリクスによってクラスラベルを認識する。 しかし、視覚的特徴空間と意味的特徴空間は互いに独立であり、全く異なる多様体構造を持つ。 このようなパラダイムの下で、既存のほとんどの手法はドメインシフト問題に苦しめやすく、ゼロショット認識の性能を弱めている。 そこで本研究では,AMS-SFEと呼ばれる新しいモデルを提案する。 意味的特徴展開による多様体構造のアライメントを考える。 具体的には、視覚入力からセマンティック機能を拡張するためのオートエンコーダベースのモデルを構築します。 さらに、拡張はデータの視覚的特徴空間から抽出された埋め込み多様体によって共同で導かれる。 まず、意味的特徴空間を拡張する補助的な特徴を拡張し、第二に、視覚的特徴空間と意味的特徴空間の間の多様体構造を暗黙的に整列させることにより、プロジェクションをよりよく訓練し、ドメインシフト問題を緩和する。 広範な実験により,性能が大幅に向上し,モデルの有効性が検証された。

Zero-shot learning aims at recognizing unseen classes (no training example) with knowledge transferred from seen classes. This is typically achieved by exploiting a semantic feature space shared by both seen and unseen classes, i.e., attribute or word vector, as the bridge. One common practice in zero-shot learning is to train a projection between the visual and semantic feature spaces with labeled seen classes examples. When inferring, this learned projection is applied to unseen classes and recognizes the class labels by some metrics. However, the visual and semantic feature spaces are mutually independent and have quite different manifold structures. Under such a paradigm, most existing methods easily suffer from the domain shift problem and weaken the performance of zero-shot recognition. To address this issue, we propose a novel model called AMS-SFE. It considers the alignment of manifold structures by semantic feature expansion. Specifically, we build upon an autoencoder-based model to expand the semantic features from the visual inputs. Additionally, the expansion is jointly guided by an embedded manifold extracted from the visual feature space of the data. Our model is the first attempt to align both feature spaces by expanding semantic features and derives two benefits: first, we expand some auxiliary features that enhance the semantic feature space; second and more importantly, we implicitly align the manifold structures between the visual and semantic feature spaces; thus, the projection can be better trained and mitigate the domain shift problem. Extensive experiments show significant performance improvement, which verifies the effectiveness of our model.
翻訳日:2022-12-08 03:30:13 公開日:2020-04-30
# 3次元畳み込みニューラルネットワークによる犯罪防止のための万引き事例の突発的行動検出

Suspicious Behavior Detection on Shoplifting Cases for Crime Prevention by Using 3D Convolutional Neural Networks ( http://arxiv.org/abs/2005.02142v1 )

ライセンス: Link先を確認
Guillermo A. Mart\'inez-Mascorro, Jos\'e R. Abreu-Pederzini, Jos\'e C. Ortiz-Bayliss, Hugo Terashima-Mar\'in(参考訳) 犯罪は人的・経済的に大きな損失をもたらす。 毎年、攻撃、犯罪、詐欺によって数十億ドルが失われている。 監視カメラネットワークは膨大なデータを生成しており、監視スタッフはすべての情報をリアルタイムで処理することはできない。 人間の視覚には制限があり、視覚の焦点は監視を扱う上で最も重要なものの一つだ。 犯罪は異なる画面セグメントや別のモニターで起こり、スタッフはそれに気づかないかもしれない。 本提案は,一般人が典型的な状況と考えるが犯罪につながるような特別な状況を分析することで,犯罪を万引きすることに焦点を当てている。 他のアプローチでは、犯罪自体を特定するが、その代わりに不審な行動(犯罪が起きる前に起こる可能性のある行動)をモデル化し、ビデオの正確なセグメントを高い確率で検出し、万引き犯罪を封じ込めます。 そうすることで、私たちはスタッフに、犯罪を防止し、行動する機会を与えます。 ビデオ特徴抽出器として3DCNNモデルを実装し,日常行動と万引きのサンプルからなるデータセット上でその性能を検証した。 犯罪が起ころうとしているケースの75%を正しく特定するため、結果は奨励されている。

Crime generates significant losses, both human and economic. Every year, billions of dollars are lost due to attacks, crimes, and scams. Surveillance video camera networks are generating vast amounts of data, and the surveillance staff can not process all the information in real-time. The human sight has its limitations, where the visual focus is among the most critical ones when dealing with surveillance. A crime can occur in a different screen segment or on a distinct monitor, and the staff may not notice it. Our proposal focuses on shoplifting crimes by analyzing special situations that an average person will consider as typical conditions, but may lead to a crime. While other approaches identify the crime itself, we instead model suspicious behavior -- the one that may occur before a person commits a crime -- by detecting precise segments of a video with a high probability to contain a shoplifting crime. By doing so, we provide the staff with more opportunities to act and prevent crime. We implemented a 3DCNN model as a video feature extractor and tested its performance on a dataset composed of daily-action and shoplifting samples. The results are encouraging since it correctly identifies 75% of the cases where a crime is about to happen.
翻訳日:2022-12-08 03:29:25 公開日:2020-04-30
# 求人情報に対する質問に対する質問

Learning to Ask Screening Questions for Job Postings ( http://arxiv.org/abs/2004.14969v1 )

ライセンス: Link先を確認
Baoxu Shi, Shan Li, Jaewon Yang, Mustafa Emre Kazdagli, Qi He(参考訳) LinkedInでは、グローバルな労働者全員に経済的機会を作りたいと思っています。 この目標の重要な側面は、適格な応募者との仕事のマッチングである。 採用効率を向上し、手作業で各応募者をスクリーニングする必要性を減らすために、採用担当者がオンラインで質問をすることができる新製品を開発し、適格候補者のフィルタリングを容易に行えるようにした。 linkedinで20万ドルのアクティブなジョブすべてにスクリーニング質問を追加するために、あるジョブ投稿のスクリーニング質問を自動的に生成する新しいタスクを提案します。 そこで,テキスト記述から意図を検出するために深層学習モデルを適用し,その重要度に基づいて検出された意図をランク付けする。 歴史的データを持たない新しい製品であるため、我々は深層移動学習を用いて、限られたトレーニングデータで複雑なモデルを訓練する。 私たちはスクリーニング質問製品とAIモデルをLinkedInユーザーに提供し、求人市場における大きな影響を観察しました。 オンラインA/Bテストでは、+53.10\%$スクリーニング質問の受入率、$+22.17\%$ジョブカバレッジ、$+190\%$リクサアプリケーションインタラクション、$+11$ネットプロモータースコアを観察しました。 まとめると、配置されたjob2questionsモデルは、採用者が資格のある応募者や求職者を見つけ、資格のある職を見つけるのに役立つ。

At LinkedIn, we want to create economic opportunity for everyone in the global workforce. A critical aspect of this goal is matching jobs with qualified applicants. To improve hiring efficiency and reduce the need to manually screening each applicant, we develop a new product where recruiters can ask screening questions online so that they can filter qualified candidates easily. To add screening questions to all $20$M active jobs at LinkedIn, we propose a new task that aims to automatically generate screening questions for a given job posting. To solve the task of generating screening questions, we develop a two-stage deep learning model called Job2Questions, where we apply a deep learning model to detect intent from the text description, and then rank the detected intents by their importance based on other contextual features. Since this is a new product with no historical data, we employ deep transfer learning to train complex models with limited training data. We launched the screening question product and our AI models to LinkedIn users and observed significant impact in the job marketplace. During our online A/B test, we observed $+53.10\%$ screening question suggestion acceptance rate, $+22.17\%$ job coverage, $+190\%$ recruiter-applicant interaction, and $+11$ Net Promoter Score. In sum, the deployed Job2Questions model helps recruiters to find qualified applicants and job seekers to find jobs they are qualified for.
翻訳日:2022-12-08 03:23:18 公開日:2020-04-30
# 離散信号と合成信号の自然発生について

On the Spontaneous Emergence of Discrete and Compositional Signals ( http://arxiv.org/abs/2005.00110v1 )

ライセンス: Link先を確認
Nur Geffen Lan, Emmanuel Chemla, Shane Steinert-Threlkeld(参考訳) 本稿では,ニューラルエージェントを用いたシグナリングゲームによる言語出現の研究フレームワークを提案する。 連続的な潜在空間を使って、私たちは (i)バックプロパゲーションを用いた列車 (ii) 離散メッセージが自然に現れることを示す。 分類的知覚効果が従うかどうかを考察し, メッセージが構成的でないことを示す。

We propose a general framework to study language emergence through signaling games with neural agents. Using a continuous latent space, we are able to (i) train using backpropagation, (ii) show that discrete messages nonetheless naturally emerge. We explore whether categorical perception effects follow and show that the messages are not compositional.
翻訳日:2022-12-08 03:22:53 公開日:2020-04-30
# Wordnet と Web パターンベースのクエリを用いたドメイン固有な異種オントロジーの融合について

On the Merging of Domain-Specific Heterogeneous Ontologies using Wordnet and Web Pattern-based Queries ( http://arxiv.org/abs/2005.00158v1 )

ライセンス: Link先を確認
M. Maree, M. Belkhatir(参考訳) ontologiesは、セマンティックウェブ、情報検索、データベース設計など、様々なコンピュータサイエンス分野における基本的な関心を形成する。 彼らは、異なるコミュニティ間で共通のドメインの形式的で明示的で共有された概念化と理解を提供することを目指している。 さらに、特定の領域の概念とその制約を明示的に定義することができる。 しかし、オントロジー開発における分散的な性質とオントロジー技術者の視点の違いは、オントロジー間のいわゆる「概念的不均一性」を生み出した。 意味的異質性は、オントロジー間の相互運用性を達成するための大きな障害となる。 この障害を克服するために,WordNetの汎用知識ベースを利用した多目的フレームワークを提案する。 一 特定の領域におけるオントロジーの概念間の不正確な意味関係を発見し、訂正すること。 このステップはオントロジーのマージの第一ステップです。 二 概念間の意味関係を計算してドメイン固有のオントロジーを融合すること。 三 ウェブ上の統計情報の取得により、WordNetにおける欠落概念の問題に対処すること。 そして iv) 欠落した概念でwordnetを豊かにすること。 フレームワークの実験的インスタンス化と最先端構文とセマンティックベースシステムとの比較により,提案の有効性が検証された。

Ontologies form the basic interest in various computer science disciplines such as semantic web, information retrieval, database design, etc. They aim at providing a formal, explicit and shared conceptualization and understanding of common domains between different communities. In addition, they allow for concepts and their constraints of a specific domain to be explicitly defined. However, the distributed nature of ontology development and the differences in viewpoints of the ontology engineers have resulted in the so called "semantic heterogeneity" between ontologies. Semantic heterogeneity constitutes the major obstacle against achieving interoperability between ontologies. To overcome this obstacle, we present a multi-purpose framework which exploits the WordNet generic knowledge base for: i) Discovering and correcting the incorrect semantic relations between the concepts of the ontology in a specific domain. This step is a primary step of ontology merging. ii) Merging domain-specific ontologies through computing semantic relations between their concepts. iii) Handling the issue of missing concepts in WordNet through the acquisition of statistical information on the Web. And iv) Enriching WordNet with these missing concepts. An experimental instantiation of the framework and comparisons with state-of-the-art syntactic and semantic-based systems validate our proposal.
翻訳日:2022-12-08 03:22:48 公開日:2020-04-30
# マルチタスク強化学習のためのブートストラップ潜在予測表現

Bootstrap Latent-Predictive Representations for Multitask Reinforcement Learning ( http://arxiv.org/abs/2004.14646v1 )

ライセンス: Link先を確認
Daniel Guo, Bernardo Avila Pires, Bilal Piot, Jean-bastien Grill, Florent Altch\'e, R\'emi Munos, Mohammad Gheshlaghi Azar(参考訳) 優れた表現を学ぶことは、深層強化学習(RL)に不可欠な要素である。 表現学習は、未知の環境の表現を構築することがタスクの解決に不可欠であるマルチタスクおよび部分的に観察可能な設定において特に重要である。 本稿では,マルチタスク深部RLのための単純で柔軟な自己教師型表現学習アルゴリズムであるBootstrap Latents (PBL)について紹介する。 PBLは将来の観測の多段階予測表現に基づいて構築され、環境力学に関する構造化情報を取得することに焦点を当てている。 具体的には、pblは将来の観測の潜在埋め込みを予測することによってその表現を訓練する。 これらの潜伏埋め込みは、前述の表現を予測できるように訓練されている。 これらの予測はブートストラップ効果を形成し、エージェントが環境ダイナミクスの重要な側面についてもっと学ぶことができる。 さらに、潜在空間における予測タスクを完全に定義することにより、PBLは画素画像、言語命令、報酬などを含むマルチモーダル観測を使用する柔軟性を提供する。 DMLab-30およびAtari-57マルチタスク設定において,PBLは深部RLエージェントの状態よりも性能が向上することを示す。

Learning a good representation is an essential component for deep reinforcement learning (RL). Representation learning is especially important in multitask and partially observable settings where building a representation of the unknown environment is crucial to solve the tasks. Here we introduce Prediction of Bootstrap Latents (PBL), a simple and flexible self-supervised representation learning algorithm for multitask deep RL. PBL builds on multistep predictive representations of future observations, and focuses on capturing structured information about environment dynamics. Specifically, PBL trains its representation by predicting latent embeddings of future observations. These latent embeddings are themselves trained to be predictive of the aforementioned representations. These predictions form a bootstrapping effect, allowing the agent to learn more about the key aspects of the environment dynamics. In addition, by defining prediction tasks completely in latent space, PBL provides the flexibility of using multimodal observations involving pixel images, language instructions, rewards and more. We show in our experiments that PBL delivers across-the-board improved performance over state of the art deep RL agents in the DMLab-30 and Atari-57 multitask setting.
翻訳日:2022-12-08 03:22:14 公開日:2020-04-30
# ランダムバイナリ重み付きバイナリオートエンコーダ

Binary autoencoder with random binary weights ( http://arxiv.org/abs/2004.14717v1 )

ライセンス: Link先を確認
Viacheslav Osaulenko(参考訳) ここでは、バイナリアクティベーション$\{0, 1\}$とバイナリ$\{0, 1\}$ランダムウェイトを持つオートエンコーダの分析を行う。 このような設定により、このモデルは神経科学、情報理論、スパースコーディング、機械学習といった異なる分野の交点となる。 層間情報を保存するために,隠蔽層の疎活性化が自然に起こることが示されている。 さらに、十分に大きな隠蔽層があれば、ニューロンのしきい値を変えるだけで任意の入力に対する再構成誤差をゼロにすることができる。 このモデルは、密閉層活性化の最大となる隠れ層における入力の類似性を保持する。 層間の相互情報を解析することにより、スパース表現と密度表現の差がメモリ計算トレードオフと関連していることを示す。 このモデルはフルーツフライの嗅覚システムに似ており、提示された理論的結果はより複雑なニューラルネットワークを理解する上で有用な洞察を与える。

Here is presented an analysis of an autoencoder with binary activations $\{0, 1\}$ and binary $\{0, 1\}$ random weights. Such set up puts this model at the intersection of different fields: neuroscience, information theory, sparse coding, and machine learning. It is shown that the sparse activation of the hidden layer arises naturally in order to preserve information between layers. Furthermore, with a large enough hidden layer, it is possible to get zero reconstruction error for any input just by varying the thresholds of neurons. The model preserves the similarity of inputs at the hidden layer that is maximal for the dense hidden layer activation. By analyzing the mutual information between layers it is shown that the difference between sparse and dense representations is related to a memory-computation trade-off. The model is similar to an olfactory perception system of a fruit fly, and the presented theoretical results give useful insights toward understanding more complex neural networks.
翻訳日:2022-12-08 03:21:28 公開日:2020-04-30
# 短い物語におけるサスペンスのモデル化 : 神経表現に対する不確実性低減

Modelling Suspense in Short Stories as Uncertainty Reduction over Neural Representation ( http://arxiv.org/abs/2004.14905v1 )

ライセンス: Link先を確認
David Wilmot and Frank Keller(参考訳) サスペンスは物語小説の重要な要素であり、読者を惹きつけ、物語を魅力的にする。 サスペンスに関する膨大な理論文献があるが、計算学的にはよく分かっていない。 サスペンスをモデル化する2つの方法を比較する。サプライズ、現在の状況がどれだけ予期せぬものであるかの逆向きの尺度、不確実性低減、ストーリーの継続がどれだけ予期せぬかの前方方向の尺度である。 どちらもストーリー表現で直接計算するか、確率分布で計算することができる。 我々は,ストーリーをエンコードし,驚きと不確実性を低減する階層型言語モデルを提案する。 ヒトのサスペンス判断に注釈が付された短いストーリーに対して評価すると、表現に対する不確かさの低減が最良の予測要因であり、人間に近い精度をもたらすことが分かる。 また,映画合成におけるサスペンスイベントの予測には不確実性低減が有効であることを示す。

Suspense is a crucial ingredient of narrative fiction, engaging readers and making stories compelling. While there is a vast theoretical literature on suspense, it is computationally not well understood. We compare two ways for modelling suspense: surprise, a backward-looking measure of how unexpected the current state is given the story so far; and uncertainty reduction, a forward-looking measure of how unexpected the continuation of the story is. Both can be computed either directly over story representations or over their probability distributions. We propose a hierarchical language model that encodes stories and computes surprise and uncertainty reduction. Evaluating against short stories annotated with human suspense judgements, we find that uncertainty reduction over representations is the best predictor, resulting in near-human accuracy. We also show that uncertainty reduction can be used to predict suspenseful events in movie synopses.
翻訳日:2022-12-08 03:14:01 公開日:2020-04-30
# LSTMネットワークを用いた文脈ベーステキスト生成

Context based Text-generation using LSTM networks ( http://arxiv.org/abs/2005.00048v1 )

ライセンス: Link先を確認
Sivasurya Santhanam(参考訳) シーケンスベースモデル上の長期記憶(LSTM)ユニットは、翻訳、質問応答システム、長期依存の学習能力による分類タスクに使用されている。 自然言語生成において、LSTMネットワークは文法的に安定な構文を持つ言語モデルを学習することで、テキスト生成モデルに対して印象的な結果を提供している。 しかし、欠点は、ネットワークがコンテキストについて学ばないことだ。 ネットワークは入力出力関数を学習し、実用性に関係なく入力単語のセットを与えられたテキストを生成する。 モデルはそのような文脈なしで訓練されるので、生成された文間に意味的な一貫性はない。 提案モデルでは,与えられた入力語群に対するテキストとコンテキストベクトルを生成するように訓練されている。 文脈ベクトルは、文の意味的意味(文脈)をつかむ段落ベクトルに似ている。 本研究では, 文脈ベクトルの抽出法をいくつか提案する。 言語モデルをトレーニングしている間、入力出力シーケンスに加えて、コンテキストベクトルも入力と共にトレーニングされる。 この構造のため、モデルは入力語、文脈ベクトルおよび対象語の関係を学習する。 一連のコンテキスト条件が与えられた場合、十分に訓練されたモデルが提供されたコンテキストに関するテキストを生成する。 文脈ベクトルの計算の性質に基づいて、このモデルは2つのバリエーション(単語の重要性と単語クラスタリング)で試されてきた。 単語クラスタリングでは,各ドメイン間の適切な埋め込みについても検討する。 得られたコンテキストに対する生成したテキストの意味的近接度に基づいて評価する。

Long short-term memory(LSTM) units on sequence-based models are being used in translation, question-answering systems, classification tasks due to their capability of learning long-term dependencies. In Natural language generation, LSTM networks are providing impressive results on text generation models by learning language models with grammatically stable syntaxes. But the downside is that the network does not learn about the context. The network only learns the input-output function and generates text given a set of input words irrespective of pragmatics. As the model is trained without any such context, there is no semantic consistency among the generated sentences. The proposed model is trained to generate text for a given set of input words along with a context vector. A context vector is similar to a paragraph vector that grasps the semantic meaning(context) of the sentence. Several methods of extracting the context vectors are proposed in this work. While training a language model, in addition to the input-output sequences, context vectors are also trained along with the inputs. Due to this structure, the model learns the relation among the input words, context vector and the target word. Given a set of context terms, a well trained model will generate text around the provided context. Based on the nature of computing context vectors, the model has been tried out with two variations (word importance and word clustering). In the word clustering method, the suitable embeddings among various domains are also explored. The results are evaluated based on the semantic closeness of the generated text to the given context.
翻訳日:2022-12-08 03:13:00 公開日:2020-04-30
# 文脈的テキストスタイル転送

Contextual Text Style Transfer ( http://arxiv.org/abs/2005.00136v1 )

ライセンス: Link先を確認
Yu Cheng, Zhe Gan, Yizhe Zhang, Oussama Elachqar, Dianqi Li, Jingjing Liu(参考訳) 文脈的テキストスタイル変換という新しいタスクを導入し,文脈的文脈を考慮した文の所望のスタイルへの変換を行う。 これは、既存のスタイル転送アプローチに2つの重要な課題をもたらす: (i$) ターゲット文の意味と、転送中の周囲のコンテキストとの整合性を維持する方法; (ii$) コンテキストを伴うラベル付きデータに制限された堅牢なモデルをトレーニングする方法。 自然文脈保存を伴う高品質なスタイル転送を実現するために,各入力文とその周辺文脈に対して2つの異なるエンコーダを用いたコンテキストアウェアスタイル転送(cast)モデルを提案する。 分類器は、生成された文の文脈整合性を保証するためにさらに訓練される。 並列データ不足を補うために、半教師付き方式で非並列データを活用するために、追加の自己再構成と後方翻訳損失を導入する。 Enron-ContextとReddit-Contextという2つの新しいベンチマークが、フォーマル性と攻撃性スタイルの転送のために導入された。 これらのデータセットにおける実験結果は,スタイル精度,コンテンツ保存性,コンテクスト一貫性指標にまたがる最先端手法に対するキャストモデルの有効性を示す。

We introduce a new task, Contextual Text Style Transfer - translating a sentence into a desired style with its surrounding context taken into account. This brings two key challenges to existing style transfer approaches: ($i$) how to preserve the semantic meaning of target sentence and its consistency with surrounding context during transfer; ($ii$) how to train a robust model with limited labeled data accompanied with context. To realize high-quality style transfer with natural context preservation, we propose a Context-Aware Style Transfer (CAST) model, which uses two separate encoders for each input sentence and its surrounding context. A classifier is further trained to ensure contextual consistency of the generated sentence. To compensate for the lack of parallel data, additional self-reconstruction and back-translation losses are introduced to leverage non-parallel data in a semi-supervised fashion. Two new benchmarks, Enron-Context and Reddit-Context, are introduced for formality and offensiveness style transfer. Experimental results on these datasets demonstrate the effectiveness of the proposed CAST model over state-of-the-art methods across style accuracy, content preservation and contextual consistency metrics.
翻訳日:2022-12-08 03:12:01 公開日:2020-04-30
# AMPERSAND: PERSuassive oNline ディスカッションのための引数マイニング

AMPERSAND: Argument Mining for PERSuAsive oNline Discussions ( http://arxiv.org/abs/2004.14677v1 )

ライセンス: Link先を確認
Tuhin Chakrabarty, Christopher Hidey, Smaranda Muresan, Kathy Mckeown, Alyssa Hwang(参考訳) 議論は、話者が支持的な議論をすることで、主張の合理性について聴衆に納得させようとする談話の一種である。 議論マイニングにおけるほとんどの仕事は、モノローグにおける議論のモデル化に焦点を当てている。 本稿では,議論のマイクロレベル(製品としての表現)とマクロレベル(プロセスとしての表現)を組み合わせるオンライン説得的議論フォーラムにおいて,議論マイニングのための計算モデルを提案する。 基本的に、このアプローチは議論スレッド内の引数のコンポーネント間の関係を識別することに依存する。 本手法では,事前学習した言語モデルの微調整と,修辞構造理論に基づく談話関係の活用の観点から文脈情報を用いた関係予測を行う。 さらに,議論の参加者が相手の議論のどの部分を対象とするかを自動的に予測する候補選択手法を提案する。 我々のモデルは,ポインタネットワークと事前学習言語モデルを用いた最近の最先端アプローチと比較して,大幅な改善が得られた。

Argumentation is a type of discourse where speakers try to persuade their audience about the reasonableness of a claim by presenting supportive arguments. Most work in argument mining has focused on modeling arguments in monologues. We propose a computational model for argument mining in online persuasive discussion forums that brings together the micro-level (argument as product) and macro-level (argument as process) models of argumentation. Fundamentally, this approach relies on identifying relations between components of arguments in a discussion thread. Our approach for relation prediction uses contextual information in terms of fine-tuning a pre-trained language model and leveraging discourse relations based on Rhetorical Structure Theory. We additionally propose a candidate selection method to automatically predict what parts of one's argument will be targeted by other participants in the discussion. Our models obtain significant improvements compared to recent state-of-the-art approaches using pointer networks and a pre-trained language model.
翻訳日:2022-12-08 03:04:36 公開日:2020-04-30
# 知識グラフの埋め込みと説明可能なAI

Knowledge Graph Embeddings and Explainable AI ( http://arxiv.org/abs/2004.14843v1 )

ライセンス: Link先を確認
Federico Bianchi and Gaetano Rossiello and Luca Costabello and Matteo Palmonari and Pasquale Minervini(参考訳) 現在、知識グラフの埋め込みは、実体と関係がベクトル空間に埋め込まれる知識表現への広く採用されているアプローチである。 本章では,知識グラフ埋め込みの概念を読者に紹介し,それが何であるか,どのように生成できるか,どのように評価できるかを説明する。 我々は、ベクトル空間における知識を表現するために導入されたアプローチを説明することにより、この分野の最先端を要約する。 ナレッジ表現に関して,説明可能性の問題を検討し,ナレッジグラフ埋め込みによって得られた予測を説明するモデルと手法について考察する。

Knowledge graph embeddings are now a widely adopted approach to knowledge representation in which entities and relationships are embedded in vector spaces. In this chapter, we introduce the reader to the concept of knowledge graph embeddings by explaining what they are, how they can be generated and how they can be evaluated. We summarize the state-of-the-art in this field by describing the approaches that have been introduced to represent knowledge in the vector space. In relation to knowledge representation, we consider the problem of explainability, and discuss models and methods for explaining predictions obtained via knowledge graph embeddings.
翻訳日:2022-12-08 03:04:19 公開日:2020-04-30
# pruning artificial neural networks: 一般化された高エントロピーのシャープなミニマを見つける方法

Pruning artificial neural networks: a way to find well-generalizing, high-entropy sharp minima ( http://arxiv.org/abs/2004.14765v1 )

ライセンス: Link先を確認
Enzo Tartaglione, Andrea Bragagnolo and Marco Grangetto(参考訳) 近年、ディープ・ネットワークの単純化に向けた競争が始まっており、これらのモデルのサイズを最小あるいは無性能で効果的に削減できることが示されている。 しかし、これらの刈り取り戦略がなぜ効果的かは一般に理解されていない。 本研究では,2つの異なるプルーニング手法,ワンショット法と漸進法との比較と解析を行い,後者の有効性を示す。 特に、段階的なプルーニングにより、狭く一般化されたミニマへのアクセスが可能であり、通常はワンショットアプローチでは無視される。 本研究では、与えられたニューロンが特定の学習クラスとどのように相関するかを理解するための指標であるpspエントロピーを提案する。 興味深いことに、反復処理されたモデルによって抽出された特徴が特定のクラスとの相関が低く、それらのモデルが転写学習アプローチに適合する可能性がある。

Recently, a race towards the simplification of deep networks has begun, showing that it is effectively possible to reduce the size of these models with minimal or no performance loss. However, there is a general lack in understanding why these pruning strategies are effective. In this work, we are going to compare and analyze pruned solutions with two different pruning approaches, one-shot and gradual, showing the higher effectiveness of the latter. In particular, we find that gradual pruning allows access to narrow, well-generalizing minima, which are typically ignored when using one-shot approaches. In this work we also propose PSP-entropy, a measure to understand how a given neuron correlates to some specific learned classes. Interestingly, we observe that the features extracted by iteratively-pruned models are less correlated to specific classes, potentially making these models a better fit in transfer learning approaches.
翻訳日:2022-12-08 03:03:55 公開日:2020-04-30
# WT5! 予測記述のためのテキスト・テキストモデルの訓練

WT5?! Training Text-to-Text Models to Explain their Predictions ( http://arxiv.org/abs/2004.14546v1 )

ライセンス: Link先を確認
Sharan Narang, Colin Raffel, Katherine Lee, Adam Roberts, Noah Fiedel, Karishma Malkan(参考訳) ニューラルネットワークは最近、さまざまな難易度の高い自然言語処理(nlp)タスクで人間レベルのパフォーマンスを達成したが、なぜニューラルネットワークが特定の予測を生んだのかを理解することは難しい。 本稿では,Raffelらが開発したテキスト・テキスト・フレームワークを活用する。 (2019) 言語モデルを訓練し, 予測とともに自然なテキスト説明を出力する。 重要なのは、これは損失関数やトレーニングやデコード手順の変更を必要とせず、モデルに(自然テキスト)予測を生成する後に説明を出力するようにトレーニングするだけです。 このアプローチは,説明可能性ベンチマークで最先端の結果を得るだけでなく,ラベル付き説明の限られたセットから学習し,データセット間の合理化能力の伝達を可能にする。 再現性と今後の作業を容易にするため、モデルをトレーニングするためのコード利用をリリースします。

Neural networks have recently achieved human-level performance on various challenging natural language processing (NLP) tasks, but it is notoriously difficult to understand why a neural network produced a particular prediction. In this paper, we leverage the text-to-text framework proposed by Raffel et al.(2019) to train language models to output a natural text explanation alongside their prediction. Crucially, this requires no modifications to the loss function or training and decoding procedures -- we simply train the model to output the explanation after generating the (natural text) prediction. We show that this approach not only obtains state-of-the-art results on explainability benchmarks, but also permits learning from a limited set of labeled explanations and transferring rationalization abilities across datasets. To facilitate reproducibility and future work, we release our code use to train the models.
翻訳日:2022-12-08 03:03:40 公開日:2020-04-30
# Hide-and-Seek: 説明可能なAIのテンプレート

Hide-and-Seek: A Template for Explainable AI ( http://arxiv.org/abs/2005.00130v1 )

ライセンス: Link先を確認
Thanos Tagaris, Andreas Stafylopatis(参考訳) 透明性の欠如は、ニューラルネットワークとその業界での広範な採用に対するアキレスの癒しである。 かなりの関心にもかかわらず、この欠点は十分に解決されていない。 本研究では,解釈可能なニューラルネットワークを学習するためのHyden-and-Seek(HnS)という新しいフレームワークを提案し,類似したアイデアを探索・比較するための理論的基盤を確立する。 大規模な実験は、予測力を犠牲にすることなく、高い解釈可能性をニューラルネットワークに含めることができることを示している。

Lack of transparency has been the Achilles heal of Neural Networks and their wider adoption in industry. Despite significant interest this shortcoming has not been adequately addressed. This study proposes a novel framework called Hide-and-Seek (HnS) for training Interpretable Neural Networks and establishes a theoretical foundation for exploring and comparing similar ideas. Extensive experimentation indicates that a high degree of interpretability can be imputed into Neural Networks, without sacrificing their predictive power.
翻訳日:2022-12-08 02:55:59 公開日:2020-04-30
# アウト・オブ・ボックス・チャンネル・プルーニング・ネットワーク

Out-of-the-box channel pruned networks ( http://arxiv.org/abs/2004.14584v1 )

ライセンス: Link先を確認
Ragav Venkatesan, Gurumurthy Swaminathan, Xiong Zhou, Anna Luo(参考訳) 過去10年間で、畳み込みニューラルネットワークはガーガントゥアンとなった。 イニシャライザとして使用される事前トレーニングされたモデルは、小さなデータセット上で、より大きなネットワークを微調整することができる。 したがって、これらの微調整されたモデルが検出するすべての畳み込み特徴は、エンドタスクに必要なものではない。 既に訓練済みのモデルから計算とメモリを抽出するために、いくつかのチャネルプルーニングが提案されている。 通常、これらには各レイヤから削除すべきチャンネル数を決定するポリシーが含まれており、それぞれがチャンネルワイドおよび/または層ワイドプルーニングプロファイルに導かれる。 本稿では,いくつかのベースライン実験を行い,無作為なチャネルワイドプルーニングポリシのプロファイルがメートル法と同等であることを示す。 また,一般的なベースラインよりも測定可能な層毎のプルーニングポリシのプロファイルが存在することも確認した。 次に、あるデータセットから排他的ランダム検索を用いて発見されたトップ層ワイドプルーニングプロファイルが、他のデータセットの上位プロファイルであることを示す。 これは、ベンチマークデータセットを使用して、アウト・オブ・ザ・ボックスのレイヤワイズプロファイルを特定し、これらを新しいデータセットに直接使用することができることを意味します。 さらに,同アーキテクチャの多くのモデルを用いて,転送可能なレイヤワイドプルーニングプロファイルを求めることを目的として,RL(Reinforcement Learning)ポリシーに基づく探索アルゴリズムを開発した。 我々は、このRL探索を予測圧縮に向けて駆動し、精度を最大化する新しい報酬定式化を用いる。 以上の結果から, 転送されたRLベースのプロファイルは, 排他的検索により, 元のデータセットで見つかった最も良いプロファイルと同等かそれ以上であることがわかった。 そして、cifar10/100のような中規模のデータセットを使ってプロファイルを見つけたら、imagenetのような大きなデータセットにもそれを転送できることを実証します。

In the last decade convolutional neural networks have become gargantuan. Pre-trained models, when used as initializers are able to fine-tune ever larger networks on small datasets. Consequently, not all the convolutional features that these fine-tuned models detect are requisite for the end-task. Several works of channel pruning have been proposed to prune away compute and memory from models that were trained already. Typically, these involve policies that decide which and how many channels to remove from each layer leading to channel-wise and/or layer-wise pruning profiles, respectively. In this paper, we conduct several baseline experiments and establish that profiles from random channel-wise pruning policies are as good as metric-based ones. We also establish that there may exist profiles from some layer-wise pruning policies that are measurably better than common baselines. We then demonstrate that the top layer-wise pruning profiles found using an exhaustive random search from one datatset are also among the top profiles for other datasets. This implies that we could identify out-of-the-box layer-wise pruning profiles using benchmark datasets and use these directly for new datasets. Furthermore, we develop a Reinforcement Learning (RL) policy-based search algorithm with a direct objective of finding transferable layer-wise pruning profiles using many models for the same architecture. We use a novel reward formulation that drives this RL search towards an expected compression while maximizing accuracy. Our results show that our transferred RL-based profiles are as good or better than best profiles found on the original dataset via exhaustive search. We then demonstrate that if we found the profiles using a mid-sized dataset such as Cifar10/100, we are able to transfer them to even a large dataset such as Imagenet.
翻訳日:2022-12-08 02:54:43 公開日:2020-04-30
# LSTMにおける文法依存の属性解析

Attribution Analysis of Grammatical Dependencies in LSTMs ( http://arxiv.org/abs/2005.00062v1 )

ライセンス: Link先を確認
Yiding Hao(参考訳) LSTM言語モデルは、高い精度(Linzen et al., 2016 inter alia)で主語と動詞の一致のような構文に敏感な文法的依存関係を捉えることが示されている。 しかし、それがスプリアス相関を使っているのか、それとも本当に動詞と被験者をマッチングできるのかについては疑問が残る。 本稿では後者の仮説を論じる。 モデル行動に対する入力特徴の寄与を定量化する手法であるレイヤワイド関連伝播法(Bach et al., 2015)を用いて, 数値アグリーメントにおけるLSTM性能は, 対象を他の名詞と区別するモデルの能力と直接相関していることを示す。 この結果から,LSTM言語モデルが構文依存の頑健な表現を推論できることが示唆された。

LSTM language models have been shown to capture syntax-sensitive grammatical dependencies such as subject-verb agreement with a high degree of accuracy (Linzen et al., 2016, inter alia). However, questions remain regarding whether they do so using spurious correlations, or whether they are truly able to match verbs with their subjects. This paper argues for the latter hypothesis. Using layer-wise relevance propagation (Bach et al., 2015), a technique that quantifies the contributions of input features to model behavior, we show that LSTM performance on number agreement is directly correlated with the model's ability to distinguish subjects from other nouns. Our results suggest that LSTM language models are able to infer robust representations of syntactic dependencies.
翻訳日:2022-12-08 02:53:34 公開日:2020-04-30
# 内在次元と微分エントロピーのバイアス補正推定--視覚的多元的アプローチ

Bias-corrected estimator for intrinsic dimension and differential entropy--a visual multiscale approach ( http://arxiv.org/abs/2004.14528v1 )

ライセンス: Link先を確認
Jugurta Montalv\~ao, J\^anio Canuto, Luiz Miranda(参考訳) 本論文では,内在次元と微分エントロピー推定器について,その系統的バイアスを含めて検討する。 これら2つの基本尺度の結合推定とバイアス補正のための実用的手法を提案する。 両方の推定子の共有ステップは、データ分析に有用な結果とともに強調される。 両推定子は一つのアプローチの相補的な部分であり、微分エントロピーと内在次元の同時推定は互いに意味を持ち、異なる観測スケールでの推定は基礎多様体の異なる視点を伝達する。 視覚検査から意味を抽出する方法やバイアスを補償する方法を説明するために,合成データと実データを用いた実験を行った。

Intrinsic dimension and differential entropy estimators are studied in this paper, including their systematic bias. A pragmatic approach for joint estimation and bias correction of these two fundamental measures is proposed. Shared steps on both estimators are highlighted, along with their useful consequences to data analysis. It is shown that both estimators can be complementary parts of a single approach, and that the simultaneous estimation of differential entropy and intrinsic dimension give meaning to each other, where estimates at different observation scales convey different perspectives of underlying manifolds. Experiments with synthetic and real datasets are presented to illustrate how to extract meaning from visual inspections, and how to compensate for biases.
翻訳日:2022-12-08 02:53:18 公開日:2020-04-30
# 建設による合理的な合理化の学習

Learning to Faithfully Rationalize by Construction ( http://arxiv.org/abs/2005.00115v1 )

ライセンス: Link先を確認
Sarthak Jain, Sarah Wiegreffe, Yuval Pinter, Byron C. Wallace(参考訳) 多くの設定において、モデルが特別な予測をした理由を理解することが重要である。 NLPでは、しばしば入力テキストのスニペットが対応するモデル出力に応答する;そのようなスニペットが実際にモデルの予測を知らせるトークンを含む場合、それは忠実な説明である。 ある設定では、透明性を確保するために忠実性が重要になるかもしれません。 Lei et al. (2016) は、独立したスニペット抽出と予測モジュールを定義することによって、ニューラルネットワーク分類のための忠実な論理式を生成するモデルを提案した。 しかし、この方法で実行される入力トークンの離散的な選択はトレーニングを複雑にし、高い分散と注意深いハイパーパラメータチューニングを必要とする。 構築による忠実な説明を提供するこのアプローチのより単純な変種を提案する。 提案手法では,任意の特徴重要度スコア(例えば,訓練されたモデルからの勾配)を用いてトークン入力に対してバイナリラベルを誘導し,抽出器が予測できるように訓練する。 独立した分類器モジュールは、たとえ分類器が任意に複雑であっても、抽出器によって提供されるスニペットのみに基づいて訓練される。 自動評価と手動評価の両方において、この単純なフレームワークの変種は、より一般的で訓練が容易で、'エンドツーエンド'アプローチよりも優れた予測性能をもたらす。 コードはhttps://github.com/successar/FRESHで入手できる。

In many settings it is important for one to be able to understand why a model made a particular prediction. In NLP this often entails extracting snippets of an input text `responsible for' corresponding model output; when such a snippet comprises tokens that indeed informed the model's prediction, it is a faithful explanation. In some settings, faithfulness may be critical to ensure transparency. Lei et al. (2016) proposed a model to produce faithful rationales for neural text classification by defining independent snippet extraction and prediction modules. However, the discrete selection over input tokens performed by this method complicates training, leading to high variance and requiring careful hyperparameter tuning. We propose a simpler variant of this approach that provides faithful explanations by construction. In our scheme, named FRESH, arbitrary feature importance scores (e.g., gradients from a trained model) are used to induce binary labels over token inputs, which an extractor can be trained to predict. An independent classifier module is then trained exclusively on snippets provided by the extractor; these snippets thus constitute faithful explanations, even if the classifier is arbitrarily complex. In both automatic and manual evaluations we find that variants of this simple framework yield predictive performance superior to `end-to-end' approaches, while being more general and easier to train. Code is available at https://github.com/successar/FRESH
翻訳日:2022-12-08 02:46:02 公開日:2020-04-30
# Levenshtein変分オートエンコーダによる後部崩壊の予防

Preventing Posterior Collapse with Levenshtein Variational Autoencoder ( http://arxiv.org/abs/2004.14758v1 )

ライセンス: Link先を確認
Serhii Havrylov, Ivan Titov(参考訳) 変分オートエンコーダ(VAE)は、テキスト表現の学習やテキスト生成に有効な潜在変数モデルを誘導するための標準フレームワークである。 学習は、ジェネレータが潜在変数を無視する自明な解に収束する傾向がある。 我々のレーヴェンシュタインVAEにおいて、我々はエビデンスローバウンド(ELBO)を最適化し、後部崩壊を防止できる新しい目的に置き換えることを提案する。 直感的には、オートエンコーダからシーケンスを生成し、生成されたシーケンスの各時点における参照文で、レヴェンシュテイン距離(LD)に応じて最適な継続を予測するようモデルに促す。 モデル分布からld系カーネル密度推定器の難解なkullback-leibler境界の最適化に密接な関係があることを示し,確率論的観点からこの手法を動機付ける。 この目的により、潜在変数を無視したジェネレータは大きなペナルティを発生させるため、後方崩壊は起こらない。 当社のアプローチは,政策蒸留法である \cite{rossgb11} と dynamic oracles \cite{goldbergn12} に関連付けられている。 Yelp と SNLI のベンチマークから,Levenstein VAE が後方崩壊防止のための代替手法よりも有意義な潜伏表現を生成することを示す。

Variational autoencoders (VAEs) are a standard framework for inducing latent variable models that have been shown effective in learning text representations as well as in text generation. The key challenge with using VAEs is the {\it posterior collapse} problem: learning tends to converge to trivial solutions where the generators ignore latent variables. In our Levenstein VAE, we propose to replace the evidence lower bound (ELBO) with a new objective which is simple to optimize and prevents posterior collapse. Intuitively, it corresponds to generating a sequence from the autoencoder and encouraging the model to predict an optimal continuation according to the Levenshtein distance (LD) with the reference sentence at each time step in the generated sequence. We motivate the method from the probabilistic perspective by showing that it is closely related to optimizing a bound on the intractable Kullback-Leibler divergence of an LD-based kernel density estimator from the model distribution. With this objective, any generator disregarding latent variables will incur large penalties and hence posterior collapse does not happen. We relate our approach to policy distillation \cite{RossGB11} and dynamic oracles \cite{GoldbergN12}. By considering Yelp and SNLI benchmarks, we show that Levenstein VAE produces more informative latent representations than alternative approaches to preventing posterior collapse.
翻訳日:2022-12-08 02:45:36 公開日:2020-04-30
# 教師なし言語学習におけるさらなるリゴリティーの呼びかけ

A Call for More Rigor in Unsupervised Cross-lingual Learning ( http://arxiv.org/abs/2004.14958v1 )

ライセンス: Link先を確認
Mikel Artetxe, Sebastian Ruder, Dani Yogatama, Gorka Labaka, Eneko Agirre(参考訳) 我々は,教師なし言語学習のためのモチベーション,定義,アプローチ,方法論をレビューし,それぞれにより厳格な立場を求める。 このような研究の理論的根拠は、世界の多くの言語における並列データ不足に基づいている。 しかし、並列データや豊富な単言語データを持たないシナリオは現実的ではないと論じている。 また、教師なしの純粋な設定から外れた、以前の作業で使用された異なるトレーニング信号についても論じる。 次に、教師なし言語間モデルのチューニングと評価における一般的な方法論的問題について述べる。 最後に、この分野における様々な種類の研究(言語間埋め込み、ディープ・マルチリンガル・プリトレーニング、教師なし機械翻訳など)の統一的な展望を提供し、これらのモデルの比較評価について論じる。

We review motivations, definition, approaches, and methodology for unsupervised cross-lingual learning and call for a more rigorous position in each of them. An existing rationale for such research is based on the lack of parallel data for many of the world's languages. However, we argue that a scenario without any parallel data and abundant monolingual data is unrealistic in practice. We also discuss different training signals that have been used in previous work, which depart from the pure unsupervised setting. We then describe common methodological issues in tuning and evaluation of unsupervised cross-lingual models and present best practices. Finally, we provide a unified outlook for different types of research in this area (i.e., cross-lingual word embeddings, deep multilingual pretraining, and unsupervised machine translation) and argue for comparable evaluation of these models.
翻訳日:2022-12-08 02:45:14 公開日:2020-04-30
# ラベル付きデータのない名前付きエンティティ認識:弱い監督アプローチ

Named Entity Recognition without Labelled Data: A Weak Supervision Approach ( http://arxiv.org/abs/2004.14723v1 )

ライセンス: Link先を確認
Pierre Lison, Aliaksandr Hubin, Jeremy Barnes, and Samia Touileb(参考訳) 名前付きエンティティ認識(ner)のパフォーマンスは、トレーニング中に観察されたテキストとは異なるターゲットドメインに適用されると急速に低下する。 ドメイン内のラベル付きデータがある場合、既存のnerモデルをターゲットドメインに適応させるために、転送学習技術が使用できる。 しかし、ターゲットドメインのハンドラベルデータがない場合、何をするべきか? 本稿では,弱い監督によってラベル付きデータがない場合,nerモデルを学ぶための単純かつ強力な手法を提案する。 このアプローチは、ターゲットドメインからテキストを自動的にアノテートするために、幅広いラベリング関数に依存する。 これらのアノテーションは、ラベル付け関数の様々な精度と混乱をキャプチャする隠れマルコフモデルを使って統合される。 シーケンスラベリングモデルは最終的にこの統一アノテーションに基づいてトレーニングすることができる。 我々は,2つの英語データセット(CoNLL 2003とReutersとBloombergのニュース記事)に対するアプローチを評価し,ドメイン外ニューラルネットワークNERモデルと比較して,エンティティレベル$F_1$スコアの約7ポイントの改善を実証した。

Named Entity Recognition (NER) performance often degrades rapidly when applied to target domains that differ from the texts observed during training. When in-domain labelled data is available, transfer learning techniques can be used to adapt existing NER models to the target domain. But what should one do when there is no hand-labelled data for the target domain? This paper presents a simple but powerful approach to learn NER models in the absence of labelled data through weak supervision. The approach relies on a broad spectrum of labelling functions to automatically annotate texts from the target domain. These annotations are then merged together using a hidden Markov model which captures the varying accuracies and confusions of the labelling functions. A sequence labelling model can finally be trained on the basis of this unified annotation. We evaluate the approach on two English datasets (CoNLL 2003 and news articles from Reuters and Bloomberg) and demonstrate an improvement of about 7 percentage points in entity-level $F_1$ scores compared to an out-of-domain neural NER model.
翻訳日:2022-12-08 02:44:35 公開日:2020-04-30