このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200503となっている論文です。

PDF登録状況(公開日: 20200503)

TitleAuthorsAbstract論文公表日・翻訳日
# ラマン量子ビットに対する高忠実複合量子ゲート

High-fidelity composite quantum gates for Raman qubits ( http://arxiv.org/abs/2004.12810v2 )

ライセンス: Link先を確認
Boyan T. Torosov and Nikolay V. Vitanov(参考訳) 本稿では, 複合パルスを用いたラマン量子ビットを用いたロバストかつ高忠実な量子論理ゲートの設計手法を提案する。 モリス=ショアとマヨラナ分解という2つの数学的ツールを用いて、3状態ラマン系を等価な2状態系に還元する。 これにより、2状態系用に設計された多数の複合パルスをラマン量子ビットに拡張することができる。 我々は、同じ一様アプローチでモリス・ショア変換を用いてNOT、アダマール、回転ゲートを構築し、各ゲートに対して同じ位相を持つパルス列をラマン結合の異なる比で構成する。 位相ゲートはマヨラナ分解を用いて構築される。 すべての複合ラマンゲートは、量子計算ベンチマーク値を超える非常に高い忠実さと、実験誤差に対する顕著な堅牢性を備えている。 すべての複合相とパルス領域は解析式によって与えられるため、この手法は任意の精度とエラーに対する堅牢性にスケーラブルである。

We present a general systematic approach to design robust and high-fidelity quantum logic gates with Raman qubits using the technique of composite pulses. We use two mathematical tools -- the Morris-Shore and Majorana decompositions -- to reduce the three-state Raman system to an equivalent two-state system. They allow us to exploit the numerous composite pulses designed for two-state systems by extending them to Raman qubits. We construct the NOT, Hadamard, and rotation gates by means of the Morris-Shore transformation with the same uniform approach: sequences of pulses with the same phases for each gate but different ratios of Raman couplings. The phase gate is constructed by using the Majorana decomposition. All composite Raman gates feature very high fidelity, beyond the quantum computation benchmark values, and significant robustness to experimental errors. All composite phases and pulse areas are given by analytical formulas, which makes the method scalable to any desired accuracy and robustness to errors.
翻訳日:2023-05-22 00:10:27 公開日:2020-05-03
# 立方体系における非一貫性クラウス演算数の削減

The reduction of the number of incoherent Kraus operations for qutrit systems ( http://arxiv.org/abs/2005.01083v1 )

ライセンス: Link先を確認
Jiahuan Qiao, Lingyun Sun, Jing Wang, Ming Li, Shuqian Shen, Lei Li and Shaoming Fei(参考訳) 量子コヒーレンス(quantum coherence)は、任意の量子系内で生じる基本的な性質である。 クラウス分解の観点で定義される非コヒーレント演算は状態変換において重要な役割を果たす。 非コヒーレントなクラウス作用素の最大数は [A. Streltsov, S. Rana, P. Boes, J. Eisert, Phys. Rev. Lett. 119. 140402 (2017)] で示されている。 本研究では, 1 つの量子ビットに対する非コヒーレントなクラウス作用素の数が, 固有ユニタリ行列を構成することにより 5 から 4 に減少できることを示す。 クルト系ではさらに32個の無干渉クラウス作用素を得るが、ステルトソフの研究の上限は39個のクラウス作用素を与える。 さらに、厳密な非コヒーレントなクラウス作用素の数が 15 以上から 13 まで減少する。 そして,この2種類の演算系における状態変換問題について考察する。

Quantum coherence is a fundamental property that can emerge within any quantum system. Incoherent operations, defined in terms of the Kraus decomposition, take an important role in state transformation. The maximum number of incoherent Kraus operators has been presented in [A. Streltsov, S. Rana, P. Boes, J. Eisert, Phys. Rev. Lett. 119. 140402 (2017)]. In this work, we show that the number of incoherent Kraus operators for a single qubit can be reduced from 5 to 4 by constructing a proper unitary matrix. For qutrit systems we further obtain 32 incoherent Kraus operators, while the upper bound in the research of Sterltsov gives 39 Kraus operators. Besides, we reduce the number of strictly incoherent Kraus operators from more than 15 to 13. And we consider the state transformation problem for these two types of operations in single qutrit systems.
翻訳日:2023-05-21 07:26:06 公開日:2020-05-03
# チャネル行列に基づく任意の2量子ビット状態情報の量子テレポーテーションの基準

The Criteria for Quantum Teleportation of an Arbitrary Two-Qubit State Information Based on The Channel Matrices ( http://arxiv.org/abs/2005.01072v1 )

ライセンス: Link先を確認
Bayu D. Hatmoko, Agus Purwanto, Bintoro Subagyo and Rafika Rahmawati(参考訳) 密度分布の縮小行列から展開行列を用いてチャネル行列を提案する。 これらのチャネル行列は、チャネルがキュービット状態のいずれかをテレポートできるかどうかに関わらず、チャネルの基準となる。 4量子ビットチャネルを用いて任意の2量子ビット状態のテレポーテーションを特別に検討する。 4量子チャネルは、関連するチャネル行列のランクが4である場合にのみテレポートできる。

We propose channel matrices by using unfolding matrices from their reduced density matrices. These channel matrices can be a criterion for a channel whether the channel can teleport or not any qubit state. We consider a special case, teleportation of the arbitrary two-qubit state by using the four-qubit channel. The four-qubit channel can only teleport if the rank of the related channel matrix is four.
翻訳日:2023-05-21 07:25:45 公開日:2020-05-03
# 二部グラフによる量子回路の分散のための動的プログラミング手法

A dynamic programming approach for distributing quantum circuits by bipartite graphs ( http://arxiv.org/abs/2005.01052v1 )

ライセンス: Link先を確認
Zohreh Davarzani, Mariam Zomorodi-Moghadam, Mahboobeh Houshmand, Mostafa Nouri-baygi(参考訳) 近い将来、大きな量子コンピュータは単一の処理ユニットとして動作できない。 そのため、量子回路を小さな部品に分割する必要があり、各部品は小さなユニットで実行される。 このアプローチは分散量子計算として知られている。 本研究では,分散量子回路(DQC)における通信数を最小化する動的プログラミングアルゴリズムを提案する。 このアルゴリズムは2つのステップから成り、まず量子回路を2部グラフモデルに変換し、次に動的プログラミングアプローチ(dp)によってモデルを低容量の量子回路に分割する。 提案手法は、要求されるテレポーテーション数を著しく削減したベンチマーク量子回路上で評価される。

Near-term large quantum computers are not able to operate as a single processing unit. It is therefore required to partition a quantum circuit into smaller parts, and then each part is executed on a small unit. This approach is known as distributed quantum computation. In this study, a dynamic programming algorithm is proposed to minimize the number of communications in a distributed quantum circuit (DQC). This algorithm consists of two steps: first, the quantum circuit is converted into a bipartite graph model, and then a dynamic programming approach (DP) is proposed to partition the model into low-capacity quantum circuits. The proposed approach is evaluated on some benchmark quantum circuits with remarkable reduction in the number of required teleportations.
翻訳日:2023-05-21 07:25:32 公開日:2020-05-03
# 非エルミート的アハロノフ・ボームケージ

Non-Hermitian Aharonov-Bohm Cage ( http://arxiv.org/abs/2005.01044v1 )

ライセンス: Link先を確認
S. M. Zhang and L. Jin(参考訳) Aharonov-Bohm (AB)ケージは平面バンドで完全に構成されたスペクトルを持ち、任意の励起を閉じ込める能力を持つ。 結合導波路における閉じ込め励起は回折なしで伝播する。 例外点(ep)の一方向性を利用して,まず,逆対称性や複合反転対称性を持つフォトニック結晶の非エルミットabケージを提案する。 また、epにおける利得と損失と組み合わされた合成磁束の破壊的干渉は、非エルミートabケージを誘導できることが示される。 非エルミートabケージのスペクトルは、合体したフラットバンドによって完全に構成される。 光励起は、非ハーミティー性によって引き起こされる非単位ダイナミクスによらず、依然として制限されているが、局在領域は変化するかもしれない。 非エルミートabカウジングは結合導波路を含む受動フォトニック結晶でも観察できる。 これらの発見は、非エルミート集積光学における光制御と操作の道を開くものである。

Aharonov-Bohm (AB) cage has a spectrum fully constituted by the flat bands and has the capacity to confine arbitrary excitation. The confined excitation in coupled waveguides propagates without diffraction. Exploited the unidirectionality of the exceptional point (EP), we first propose the non-Hermitian AB cage in the photonic crystal with inversion symmetry or combined-inversion symmetry. Alternatively, the destructive interference of the synthetic magnetic flux incorporated with gain and loss at the EP is then shown to be able to induce the non-Hermitian AB cage. The spectrum of the non-Hermitian AB cage is entirely constituted by the coalesced flat bands. The light excitation is still confined regardless of the nonunitary dynamics caused by the non-Hermiticity, but the localization area may alter. The non-Hermitian AB caging can also be observed in the passive photonic crystals including coupled waveguides. These findings pave the way of light control and manipulation in the non-Hermitian integrated photonics.
翻訳日:2023-05-21 07:25:06 公開日:2020-05-03
# 1ケルビン以下の単異方性$^{167}$Er:$^7$LiYF$_4$結晶における電磁誘導透明性

Electromagnetically Induced Transparency in a mono-isotopic $^{167}$Er:$^7$LiYF$_4$ crystal below 1 Kelvin ( http://arxiv.org/abs/2005.01024v1 )

ライセンス: Link先を確認
Nadezhda Kukharchyk, Dmitriy Sholokhov, Oleg Morozov, Stella L. Korableva, Alexey A. Kalachev, and Pavel A. Bushev(参考訳) 電磁誘導透過により、光学量子メモリを含む多くのアプリケーションで利用可能な吸収特性の制御可能な変更が可能となる。 本稿では, 低磁場および極低温における$^{167}$er:$^6$liyf$_4$結晶の電磁誘起透過性について検討する。 実験手法では, 振幅, 位相, パルス遅延の高精度測定を行う光学ベクトルネットワーク解析を用いる。 この結晶の低磁場下での電磁誘導透過性の研究にはケルビン以下の温度が必須であることがわかった。 フォノンボトルネック効果を考慮した理論と実験の良好な一致が達成される。

Electromagnetically induced transparency allows for controllable change of absorption properties which can be exploited in a number of applications including optical quantum memory. In this paper, we present a study of the electromagnetically induced transparency in $^{167}$Er:$^6$LiYF$_4$ crystal at low magnetic fields and ultra-low temperatures. Experimental measurement scheme employs optical vector network analysis which provides high precision measurement of amplitude, phase and pulse delay. We found that sub-Kelvin temperatures are the necessary requirement for studying electromagnetically induced transparency in this crystal at low fields. A good agreement between theory and experiment is achieved taking into account the phonon bottleneck effect.
翻訳日:2023-05-21 07:24:19 公開日:2020-05-03
# 一般二次教育の教育過程におけるコンピュータモデリングシステムとその利用の特徴

System of Computer Modeling and Features of their use in the Educational Process of General Secondary Eeducation ( http://arxiv.org/abs/2005.07552v1 )

ライセンス: Link先を確認
Svitlana H. Lytvynova(参考訳) 本稿は,教育プロセス開発における視点の1つとして,コンピュータモデリングの形成の歴史的側面を分析した。 コンピュータモデリングシステム」の概念、コンピュータモデリングシステムの概念モデル(SCMod)、その構成要素(数学、アニメーション、グラフィック、戦略)、機能、原則、使用目的が根拠となっている。 学生の学習意欲の側面を考慮し,scmod,個人およびグループワークを用いた学生の作業組織の特徴,課題のコンピテンシー形成について述べる。 教育機関がscmodをトレーニングの異なるレベルと段階、および関連する物理的、社会的、文化的、技術的側面からなる異なる文脈で使用できることが確立されている。 一般中等教育におけるSCModの使用は,各学生のペース,教育的関心,能力を満たすために,自然・数学的な科目における学生の訓練を改善する教師の能力を高め,学習過程の個別化に寄与することが決定された。 自然数学科の研究におけるscmodの使用は、対象能力の形成に寄与し、分析と意思決定のスキルを発達させ、デジタルコミュニケーションのレベルを高め、警戒力を高め、知識のレベルを高め、学生の注意の期間を増加させる。 さらなる研究は、自然数学科目における学生の能力形成プロセスの正当化とSCModを用いた認知タスクの設計を必要とする。

The article analyzes the historical aspect of the formation of computer modeling as one of the perspective directions of educational process development. The notion of "system of computer modeling", conceptual model of system of computer modeling (SCMod), its components (mathematical, animation, graphic, strategic), functions, principles and purposes of use are grounded. The features of the organization of students work using SCMod, individual and group work, the formation of subject competencies are described; the aspect of students' motivation to learning is considered. It is established that educational institutions can use SCMod at different levels and stages of training and in different contexts, which consist of interrelated physical, social, cultural and technological aspects. It is determined that the use of SCMod in general secondary school would increase the capacity of teachers to improve the training of students in natural and mathematical subjects and contribute to the individualization of the learning process, in order to meet the pace, educational interests and capabilities of each particular student. It is substantiated that the use of SCMod in the study of natural-mathematical subjects contributes to the formation of subject competencies, develops the skills of analysis and decision-making, increases the level of digital communication, develops vigilance, raises the level of knowledge, increases the duration of attention of students. Further research requires the justification of the process of forming students' competencies in natural-mathematical subjects and designing cognitive tasks using SCMod.
翻訳日:2023-05-21 07:18:13 公開日:2020-05-03
# 小学生の教育におけるスマートキッズ技術の構成要素としての電子教科書

Electronic Textbook as a Component of Smart Kids Technology of Education of Elementary School Pupils ( http://arxiv.org/abs/2005.07488v1 )

ライセンス: Link先を確認
Svitlana H. Lytvynova(参考訳) 本論文は、教育システムにおける電子教科書の使用に関する国内外の経験を分析し、スマートキッズ技術を用いた方法、形態、電子ゲームリソースのシステム、小学校システムにおける教育プロセスのための電子教科書を正当化することを目的とする。 スマート・キッズ・テクノロジー(スマート・ケース、スマート・先生、スマート・クラス、スマート・キッズ)の4つの実施形態について、各校の施設や小学生の情報・コミュニケーション・テクノロジーの資格について記述した。 小学校環境における各教育形態の教育技術導入の目的,必要な設備,実施手段について検討した。 小学校教師の作業の手続き的アプローチに基づき、技術導入の6つの段階が正当化された。 スマートキッズ技術の原則を取り入れたブレンド教育の実践的側面を定義した。 ウクライナの小学校教育システムへの電子教科書導入の経験を述べ,小学校教員による電子教科書の選択を正当化し,電子教科書における電子コンテンツの配置に関する教師のコメントと提案を要約し,教員の電子教科書選択へのアプローチと情報とコミュニケーション能力の発達を明らかにした。 小学校の生徒に電子教科書の使用形態, 方法, 技術は, さらなる正当化が必要であることが確認された。

The article sets out to analyze national and foreign experience of use of electronic textbooks in the system of education; to justify the use of Smart Kids technology as a system of methods, forms, and electronic educational game resources, electronic textbooks for educational process in the system of elementary school. Four forms of implementation of Smart Kids technology (Smart Case, Smart Teacher, Smart Class, and Smart Kids) were described con-sidering the facilities of every school as well as the level of information and communication technology qualification of the elementary school teacher. The aim of introduction of the technology for each form of teaching, the necessary equipment, and means for its implementation in elementary school environment were determined. Based on the procedural approach to work of an elementary school teacher, six stages of introduction of the technology were justified. Spe-cific aspects of introduction of blended teaching using the principles of Smart Kids technology were defined. The experience of introduction of electronic textbooks to the system of elementary education of Ukraine was described, the choice of electronic textbooks by elementary school teachers was justified, the comments and suggestions of teachers regarding the arrangement of electronic content in E-textbooks were summarized, the main approaches of teachers to the choice of an electronic textbook and development of their information and communication competence were specified. It was identified that the forms, methods, and techniques of use of electronic textbooks in teaching elementary school pupils require further justification.
翻訳日:2023-05-21 07:17:48 公開日:2020-05-03
# 制御曲率によるメソスコピックリングの電子的性質、磁化および持続電流の研究

Study of electronic properties, Magnetization and persistent currents in a mesoscopic ring by controlled curvature ( http://arxiv.org/abs/2005.02170v1 )

ライセンス: Link先を確認
Lu\'is Fernando C. Pereira, Fabiano M. Andrade, Cleverson Filgueiras, Edilberto O. Silva(参考訳) 外部磁場の存在下で円錐の二次元局在面に閉じ込められた非相互作用スピンレス電子ガスのモデルについて検討した。 局在領域は環状放射電位によって特徴づけられる。 我々はSchr\"{o}dinger方程式を記述し、薄層量子化法を用いて波動関数とエネルギースペクトルを計算する。 そのような手順では、平均曲率とガウス曲率の両方に依存する幾何学的誘導ポテンシャルが生じる。 それでも、メソスコピックな大きさの環を考えると、エネルギースペクトルに対するガウス曲率の影響は無視できない。 磁化と持続電流を解析する。 前者ではAharonov-Bohm(AB)とDe Haas-van Alphen(dHvA)の振動が観察された。 後者では、AB型振動のみが観察される。 どちらの場合も、曲率は振動の振幅を増加させる。

We study the model of a noninteracting spinless electron gas confined to the two-dimensional localized surface of a cone in the presence of external magnetic fields. The localized region is characterized by an annular radial potential. We write the Schr\"{o}dinger equation and use the thin-layer quantization procedure to calculate the wavefunctions and the energy spectrum. In such a procedure, it arises a geometry induced potential, which depends on both the mean and the Gaussian curvatures. Nevertheless, since we consider a ring with a mesoscopic size, the effects of the Gaussian curvature on the energy spectrum are negligible. The magnetization and the persistent current are analyzed. In the former, we observed the Aharonov-Bohm (AB) and de Haas-van Alphen (dHvA) types oscillations. In the latter, it is observed only the AB type oscillations. In both cases, the curvature increases the amplitude of the oscillations.
翻訳日:2023-05-21 07:17:22 公開日:2020-05-03
# 調和振動子の存在下でのヘリコイド表面上の量子粒子運動

Quantum particle motion on the surface of a helicoid in the presence of harmonic oscillator ( http://arxiv.org/abs/2005.01210v1 )

ライセンス: Link先を確認
Marcos C. R. Ribeiro Jr., M\'arcio M. Cunha, Cleverson Filgueiras, Edilberto O. Silva(参考訳) 量子力学における幾何学的ポテンシャルは近年注目を集めており、低次元系の文脈における曲率の影響を調べるための形式論を提供している。 本稿では,異方性質量テンソルを扱うschr\"{o}dinger方程式におけるヘリコイド幾何学の結果について考察する。 特に,このシナリオで高調波発振器の問題を解く。 合流ヒューン関数の観点で固有関数を決定し、それぞれのエネルギー準位を計算する。 このシステムは、質量成分の調整に依存するいくつかの異なる挙動を示す。

The geometric potential in quantum mechanics has been attracted attention recently, providing a formalism to investigate the influence of curvature in the context of low-dimensional systems. In this paper, we study the consequences of a helicoidal geometry in the Schr\"{o}dinger equation dealing with an anisotropic mass tensor. In particular, we solve the problem of an harmonic oscillator in this scenario. We determine the eigenfunctions in terms of Confluent Heun Functions and compute the respective energy levels. The system exhibit several different behaviors, depending on the adjustment on the mass components.
翻訳日:2023-05-21 07:17:06 公開日:2020-05-03
# デジタルサンド:デジタル表現の未来

Digital Sand: The Becoming of Digital Representations ( http://arxiv.org/abs/2005.01121v1 )

ライセンス: Link先を確認
Thomas {\O}sterlie and Eric Monteiro(参考訳) デジタル技術の汎用性は、アルゴリズムによって選択された物理プロセス、オブジェクト、ドメインの品質を表現する能力に依存している。 組織的に実際のデジタル表現は、単に能力を超えて、日常的な作業プラクティスに織り込まれるものです。 石油・ガス生産の4年間のケーススタディを実証的に描いている。 本事例は,産業プロセスや製造業のデジタル化に特有な,IoT(Internet of Things)に基づく可視化とデータ駆動予測の鮮明な図示を提供する。 私たちは、デジタル表現が組織的に現実になる3つのメカニズムを特定し、議論することで貢献します。 (i)ノイズ低減(ノイズからの信号をフィルタする戦略とヒューリスティックス) 二 材料テザリング(デジタル表現を対応する物理的測定に接地すること) (iii)三角測量(直接対応がない場合、他の表現に対するデジタル表現の相関)

The versatility of digital technologies relies on a capacity to represent and subsequently manipulate algorithmically selected physical processes, objects or qualities in a domain. Organizationally real digital representations are those that, beyond the mere capacity to, actually get woven into everyday work practices. Empirically, we draw on a four-year case study of offshore oil and gas production. Our case provides a vivid illustration of Internet of Things (IoT) based visualizations and data driven predictions characteristic for efforts of digitally transforming industrial process and manufacturing enterprises. We contribute by identifying and discussing three mechanisms through which digital representations become organizationally real: (i) noise reduction (the strategies and heuristics to filter out signal from noise), (ii) material tethering (grounding the digital representations to a corresponding physical measurement) and (iii) triangulating (in the absence of a direct correspondence, corroborating digital representations relative to other representations).
翻訳日:2023-05-21 07:16:03 公開日:2020-05-03
# 超微細量子ビットにおける漏洩エラーの除去

Eliminating Leakage Errors in Hyperfine Qubits ( http://arxiv.org/abs/1912.13131v2 )

ライセンス: Link先を確認
D. Hayes, D. Stack, B. Bjork, A. C. Potter, C. H. Baldwin and R. P. Stutz(参考訳) キュービット部分空間外の集団リークは、標準の誤り訂正法では処理できない特に有害なエラー源を示している。 トラップされた$^{171}$Yb$+$イオンを用いて、原子超微細量子ビットの漏れ誤差を抑制するための光ポンピング方式を実証する。 四極子遷移の選択規則と狭い線幅は、リーク状態から人口を選択的に押し出し、キュービット部分空間に戻すために用いられる。 各ポンプサイクルはリーク集団を$\sim3$の係数で減少させ、サイクル数の指数的な抑制を可能にする。 我々は、キュービット部分空間上のインターリーブ付きランダム化ベンチマークを用いて、このポンプ処理が未開のキュービットに対して無視できる副作用を持つことを示し、誘導されたキュービットメモリ誤差をサイクル当たり$\leq2.0(8)\times10^{-5}$、キュービット人口はサイクル当たり$\leq1.4(3)\times10^{-7}$と制限している。 これらの結果は、量子誤差補正とエラー緩和プロトコルの実装において大きな障害となる。

Population leakage outside the qubit subspace presents a particularly harmful source of error that cannot be handled by standard error correction methods. Using a trapped $^{171}$Yb$+$ ion, we demonstrate an optical pumping scheme to suppress leakage errors in atomic hyperfine qubits. The selection rules and narrow linewidth of a quadrupole transition are used to selectively pump population out of leakage states and back into the qubit subspace. Each pumping cycle reduces the leakage population by a factor of $\sim3$, allowing for an exponential suppression in the number of cycles. We use interleaved randomized benchmarking on the qubit subspace to show that this pumping procedure has negligible side-effects on un-leaked qubits, bounding the induced qubit memory error by $\leq2.0(8)\times10^{-5}$ per cycle, and qubit population decay to $\leq1.4(3)\times10^{-7}$ per cycle. These results clear a major obstacle for implementations of quantum error correction and error mitigation protocols.
翻訳日:2023-01-16 21:00:43 公開日:2020-05-03
# LRF-Net:3次元局所形状記述とマッチングのための局所参照フレーム学習

LRF-Net: Learning Local Reference Frames for 3D Local Shape Description and Matching ( http://arxiv.org/abs/2001.07832v2 )

ライセンス: Link先を確認
Angfan Zhu, Jiaqi Yang, Weiyue Zhao, Zhiguo Cao(参考訳) 局所参照フレーム(LRF)は3次元局所形状記述およびマッチングにおいて重要な役割を果たす。 しかし、既存のLRFのほとんどは手作りであり、再現性と堅牢性に限界がある。 本稿では,弱監視のみを必要とするシャムネットワークを介してlrfを学習する最初の試みを提案する。 特に、局所曲面の各近傍点は、LRFの構成に一意的な寄与を与え、学習重みを通してそのような寄与を測定する。 さまざまなアプリケーションシナリオに対処する3つの公開データセットに関する大規模な分析と比較実験により、LRF-Netは、いくつかの最先端のLRFメソッドよりも再現性が高く、堅牢であることが示された(LRF-Netは、1つのデータセットでのみトレーニングされている)。 さらに、LRF-Netは3次元点雲のマッチング時に局所形状記述と6-DoFポーズ推定性能を大幅に向上させることができる。

The local reference frame (LRF) acts as a critical role in 3D local shape description and matching. However, most of existing LRFs are hand-crafted and suffer from limited repeatability and robustness. This paper presents the first attempt to learn an LRF via a Siamese network that needs weak supervision only. In particular, we argue that each neighboring point in the local surface gives a unique contribution to LRF construction and measure such contributions via learned weights. Extensive analysis and comparative experiments on three public datasets addressing different application scenarios have demonstrated that LRF-Net is more repeatable and robust than several state-of-the-art LRF methods (LRF-Net is only trained on one dataset). In addition, LRF-Net can significantly boost the local shape description and 6-DoF pose estimation performance when matching 3D point clouds.
翻訳日:2023-01-07 18:03:11 公開日:2020-05-03
# 脳波を用いた音声合成

Speech Synthesis using EEG ( http://arxiv.org/abs/2002.12756v2 )

ライセンス: Link先を確認
Gautam Krishna, Co Tran, Yan Han, Mason Carnahan(参考訳) 本稿では,最近 [1] で導入された異なる脳波特徴集合を用いた音声合成について述べる。 我々は、脳波特徴から直接音響的特徴を予測するために、リカレントニューラルネットワーク(RNN)回帰モデルを利用する。 本研究では,音声に並行して記録された脳波特徴と,聞き取り発話に並行して記録された脳波を用いて結果を示す。 本稿では,4名の被験者に対して脳波に基づく音声合成結果を示し,脳波の特徴から直接音声を合成する可能性を示す。

In this paper we demonstrate speech synthesis using different electroencephalography (EEG) feature sets recently introduced in [1]. We make use of a recurrent neural network (RNN) regression model to predict acoustic features directly from EEG features. We demonstrate our results using EEG features recorded in parallel with spoken speech as well as using EEG recorded in parallel with listening utterances. We provide EEG based speech synthesis results for four subjects in this paper and our results demonstrate the feasibility of synthesizing speech directly from EEG features.
翻訳日:2022-12-29 19:18:52 公開日:2020-05-03
# 脳波を用いた音声合成の進歩

Advancing Speech Synthesis using EEG ( http://arxiv.org/abs/2004.04731v2 )

ライセンス: Link先を確認
Gautam Krishna, Co Tran, Mason Carnahan, Ahmed Tewfik(参考訳) 本稿では,音声文と平行に記録された脳波特徴から音響的特徴を予測するための注意回帰モデルを提案する。 まず、注意モデルを用いて脳波特徴から直接音響特徴を予測し、次に2段階のアプローチを用いて脳波特徴から音響特徴を予測し、第1段階では、脳波特徴から音声特徴を予測し、第2段階では、予測された聴覚特徴から音響特徴へ変換する別の注意回帰モデルを訓練する。 提案する注意回帰モデルは,被験者の大半を対象にデータセットを用いてテストを行った場合,著者が[1]で導入した回帰モデルと比較して優れた性能を示す。 本論文で提示された結果は, [1] の著者によって記述された研究をさらに進展させる。

In this paper we introduce attention-regression model to demonstrate predicting acoustic features from electroencephalography (EEG) features recorded in parallel with spoken sentences. First we demonstrate predicting acoustic features directly from EEG features using our attention model and then we demonstrate predicting acoustic features from EEG features using a two-step approach where in the first step we use our attention model to predict articulatory features from EEG features and then in second step another attention-regression model is trained to transform the predicted articulatory features to acoustic features. Our proposed attention-regression model demonstrates superior performance compared to the regression model introduced by authors in [1] when tested using their data set for majority of the subjects during test time. The results presented in this paper further advances the work described by authors in [1].
翻訳日:2022-12-15 03:35:48 公開日:2020-05-03
# PoKi:子どもの歌の大規模なデータセット

PoKi: A Large Dataset of Poems by Children ( http://arxiv.org/abs/2004.06188v4 )

ライセンス: Link先を確認
Will E. Hipson and Saif M. Mohammad(参考訳) 児童言語研究は、幸福に影響を及ぼす要因、不安の原因、感情調節の技法、ストレスに対処するメカニズムの決定において、子どもの幸福に対する理解を改善するために不可欠である。 しかし、この研究の多くは、大文字の児童書が入手できないことによるものである。 我々は,1年生から12年生までの児童が書いた約62万の詩を含む,子書きテキストPoKiの新たなコーパスを提示する。 PoKiは、児童作家の年齢(等級)に関する情報を伴って児童言語を研究するのに特に有用である。 我々はpokiの単語をいくつかの感情次元(価値、覚醒、支配)と離散的な感情(不安、恐怖、悲しみ、喜び)に沿って分析する。 幼児期から青年期までの発達的差異をモデル化するために非パラメトリック回帰を用いた。 その結果, 思春期中期に顕著な有病率は低下し, 青年期には覚醒と支配がピークに達した。 感情の発達過程における性差も観察される。 我々は,感情発達研究の現況を支援し,拡張する。

Child language studies are crucial in improving our understanding of child well-being; especially in determining the factors that impact happiness, the sources of anxiety, techniques of emotion regulation, and the mechanisms to cope with stress. However, much of this research is stymied by the lack of availability of large child-written texts. We present a new corpus of child-written text, PoKi, which includes about 62 thousand poems written by children from grades 1 to 12. PoKi is especially useful in studying child language because it comes with information about the age of the child authors (their grade). We analyze the words in PoKi along several emotion dimensions (valence, arousal, dominance) and discrete emotions (anger, fear, sadness, joy). We use non-parametric regressions to model developmental differences from early childhood to late-adolescence. Results show decreases in valence that are especially pronounced during mid-adolescence, while arousal and dominance peaked during adolescence. Gender differences in the developmental trajectory of emotions are also observed. Our results support and extend the current state of emotion development research.
翻訳日:2022-12-14 00:03:18 公開日:2020-05-03
# 合成前処理を用いた単眼3次元物体再構成

Few-Shot Single-View 3-D Object Reconstruction with Compositional Priors ( http://arxiv.org/abs/2004.06302v2 )

ライセンス: Link先を確認
Mateusz Michalkiewicz, Sarah Parisot, Stavros Tsogkas, Mahsa Baktashmotlagh, Anders Eriksson, Eugene Belilovsky(参考訳) シングルビュー3次元再構成における深部畳み込みニューラルネットワークの性能は、これらのモデルが出力空間の3次元構造に関する非自明な推論を行うことを示している。 しかし、近年の研究では、複雑なエンコーダ-デコーダアーキテクチャが、標準ベンチマークでカテゴリ毎の大量のデータを利用する、最寄りのベースラインや単純な線形デコーダモデルと同様に機能することを示し、この信念に異議を唱えている。 一方、新しいカテゴリでは3次元形状を推論しなければならないが、いくつかの例はより自然であり、形状を一般化するモデルを必要とする。 本研究は,ごく少数の例を用いて新規オブジェクトの再構築を目標とする場合に,本研究では本手法が適用されないことを示すとともに,新たなカテゴリに適用可能な概念をネットワークで学習する必要があることを実証した。 そこで本研究では,3次元再構成モデルに先行するクラスを効率的に統合し,クラス内変動を考慮し,モデルが学習すべき暗黙的な構成構造を付与する3つのアプローチを提案する。 人気のShapeNetデータベースの実験では、この手法は、このタスクの既存のベースラインを数ショット設定で大幅に上回っている。

The impressive performance of deep convolutional neural networks in single-view 3D reconstruction suggests that these models perform non-trivial reasoning about the 3D structure of the output space. However, recent work has challenged this belief, showing that complex encoder-decoder architectures perform similarly to nearest-neighbor baselines or simple linear decoder models that exploit large amounts of per category data in standard benchmarks. On the other hand settings where 3D shape must be inferred for new categories with few examples are more natural and require models that generalize about shapes. In this work we demonstrate experimentally that naive baselines do not apply when the goal is to learn to reconstruct novel objects using very few examples, and that in a \emph{few-shot} learning setting, the network must learn concepts that can be applied to new categories, avoiding rote memorization. To address deficiencies in existing approaches to this problem, we propose three approaches that efficiently integrate a class prior into a 3D reconstruction model, allowing to account for intra-class variability and imposing an implicit compositional structure that the model should learn. Experiments on the popular ShapeNet database demonstrate that our method significantly outperform existing baselines on this task in the few-shot setting.
翻訳日:2022-12-13 09:05:46 公開日:2020-05-03
# イベントレポートのための写真ベースのモバイルクラウドソーシングフレームワーク

A Photo-Based Mobile Crowdsourcing Framework for Event Reporting ( http://arxiv.org/abs/2004.13251v2 )

ライセンス: Link先を確認
Aymen Hamrouni, Hakim Ghazzai, Mounir Frikha, and Yehia Massoud(参考訳) モバイルクラウドソーシング(MCS)写真ベースは、ユビキタスコンピューティングの領域における関心の高まりとトレンドのトピックである。 最近、スマートシティや都市コンピューティングのコミュニティに大きな注目を集めている。 実際、モバイルデバイスの内蔵カメラは、私たちの日常生活における視覚的ロギング技術の最も一般的な方法になりつつある。 mcs写真ベースのフレームワークは、写真を分散して収集し、多数の寄稿者が適した場所で写真をアップロードする。 これは必然的に、タスク結果に影響を与える誤った情報や冗長な情報を含む、進化する画像ストリームにつながる。 本稿では,これらの課題を克服するために,進化する画像ストリームから高度に関連性の高いデータを選択し,正しい提出を保証するソリューションを開発する。 イベントレポーティングのためのフォトベースMCSフレームワークの提案 一 虚偽の提出を排除し、写真信頼性を確保するための深層学習モデル (ii)ストリーミング画像をクラスタリングし、情報の冗長性を低減し、最大イベントカバレッジを提供するa木形状データ構造モデル。 シミュレーションの結果、実装されたフレームワークは、偽の提出を効果的に削減し、ストリーミングデータから冗長率の低い高ユーティリティカバレッジのサブセットを選択できることが示されている。

Mobile Crowdsourcing (MCS) photo-based is an arising field of interest and a trending topic in the domain of ubiquitous computing. It has recently drawn substantial attention of the smart cities and urban computing communities. In fact, the built-in cameras of mobile devices are becoming the most common way for visual logging techniques in our daily lives. MCS photo-based frameworks collect photos in a distributed way in which a large number of contributors upload photos whenever and wherever it is suitable. This inevitably leads to evolving picture streams which possibly contain misleading and redundant information that affects the task result. In order to overcome these issues, we develop, in this paper, a solution for selecting highly relevant data from an evolving picture stream and ensuring correct submission. The proposed photo-based MCS framework for event reporting incorporates (i) a deep learning model to eliminate false submissions and ensure photos credibility and (ii) an A-Tree shape data structure model for clustering streaming pictures to reduce information redundancy and provide maximum event coverage. Simulation results indicate that the implemented framework can effectively reduce false submissions and select a subset with high utility coverage with low redundancy ratio from the streaming data.
翻訳日:2022-12-08 23:53:36 公開日:2020-05-03
# Lupulus: ニューラルネットワークのための柔軟なハードウェアアクセラレータ

Lupulus: A Flexible Hardware Accelerator for Neural Networks ( http://arxiv.org/abs/2005.01016v1 )

ライセンス: Link先を確認
Andreas Toftegaard Kristensen, Robert Giterman, Alexios Balatsoukas-Stimming, and Andreas Burg(参考訳) ニューラルネットワークは広範囲のアプリケーションには不可欠だが、高い計算量とメモリ要求に悩まされており、ネットワークのアルゴリズム記述からハードウェア実装まで最適化が必要である。 さらに、機械学習の革新率が高いため、ハードウェアの実装は、ニューラルネットワークの現在および将来の要件をサポートするための高いレベルのプログラム性を提供することが重要である。 本研究では,Lupulusと呼ばれる,ニューラルネットワークのための柔軟なハードウェアアクセラレータを提案する。 Lupulus は 28nm FD-SOI で実装され、21.4ms と 183.6ms のレイテンシを持つ 380 GOPS/GHz のピーク性能をAlexNet と VGG-16 の畳み込み層に対して示す。

Neural networks have become indispensable for a wide range of applications, but they suffer from high computational- and memory-requirements, requiring optimizations from the algorithmic description of the network to the hardware implementation. Moreover, the high rate of innovation in machine learning makes it important that hardware implementations provide a high level of programmability to support current and future requirements of neural networks. In this work, we present a flexible hardware accelerator for neural networks, called Lupulus, supporting various methods for scheduling and mapping of operations onto the accelerator. Lupulus was implemented in a 28nm FD-SOI technology and demonstrates a peak performance of 380 GOPS/GHz with latencies of 21.4ms and 183.6ms for the convolutional layers of AlexNet and VGG-16, respectively.
翻訳日:2022-12-07 07:05:21 公開日:2020-05-03
# 物理貯水池コンピューティング-序論

Physical reservoir computing -- An introductory perspective ( http://arxiv.org/abs/2005.00992v1 )

ライセンス: Link先を確認
Kohei Nakajima(参考訳) 物理学と情報処理能力の基本的な関係を理解することは長年にわたって活発に研究されてきた。 最近導入された物理貯水池コンピューティングは、物理システムの複雑な力学を情報処理デバイスとして利用するためのフレームワークである。 このフレームワークはエッジコンピューティングデバイスに特に適しており、データ送信のオーバーヘッドによる適応遅延を低減するために、エッジ(例えばセンサー)に情報処理を分散的に組み込む。 本稿では,ソフトロボティクスの例を用いてフレームワークの可能性を説明するとともに,機械学習,非線形力学系,生物科学,材料科学,物理など,さまざまな分野から生まれた,それを導入する基本的なモチベーションに焦点をあてた簡潔な概要を提供する。

Understanding the fundamental relationships between physics and its information-processing capability has been an active research topic for many years. Physical reservoir computing is a recently introduced framework that allows one to exploit the complex dynamics of physical systems as information-processing devices. This framework is particularly suited for edge computing devices, in which information processing is incorporated at the edge (e.g., into sensors) in a decentralized manner to reduce the adaptation delay caused by data transmission overhead. This paper aims to illustrate the potentials of the framework using examples from soft robotics and to provide a concise overview focusing on the basic motivations for introducing it, which stem from a number of fields, including machine learning, nonlinear dynamical systems, biological science, materials science, and physics.
翻訳日:2022-12-07 07:05:04 公開日:2020-05-03
# 畳み込みニューラルネットワークを用いた広帯域高度計データからの内部潮流のフィルタリング

Filtering Internal Tides From Wide-Swath Altimeter Data Using Convolutional Neural Networks ( http://arxiv.org/abs/2005.01090v1 )

ライセンス: Link先を確認
Redouane Lguensat, Ronan Fablet, Julien Le Sommer, Sammy Metref, Emmanuel Cosme, Kaouther Ouenniche, Lucas Drumetz, Jonathan Gula(参考訳) 近日予定の表層海面地形(SWOT)衛星高度測定ミッションでは、海面高度(SSH)の2次元高分解能測定が期待され、メソスケールとサブメソスケールの渦田のより優れた評価が可能となる。 しかし、このミッションの約束を果たすためには、SSH測定の潮位成分をフィルタリングする必要がある。 SWOTデータを用いた物理海洋学者による後方調査は、選択されたフィルタリング方式に大きく依存するため、この課題は極めて重要である。 本稿では,この問題を教師あり学習フレームワークにキャストし,畳み込みニューラルネットワーク(convnets)を用いて内部潮流信号のない場を推定する手法を提案する。 海洋循環の先進的な北大西洋シミュレーション(eNATL60)に基づく数値実験により、我々のConvNetは、ニューラルネットワークで見えない領域においても、SSHデータの内部波のインプリントを著しく減少させることが示された。 また,海面温度 (SST) などの他の海面変数からの追加データについても検討した。

The upcoming Surface Water Ocean Topography (SWOT) satellite altimetry mission is expected to yield two-dimensional high-resolution measurements of Sea Surface Height (SSH), thus allowing for a better characterization of the mesoscale and submesoscale eddy field. However, to fulfill the promises of this mission, filtering the tidal component of the SSH measurements is necessary. This challenging problem is crucial since the posterior studies done by physical oceanographers using SWOT data will depend heavily on the selected filtering schemes. In this paper, we cast this problem into a supervised learning framework and propose the use of convolutional neural networks (ConvNets) to estimate fields free of internal tide signals. Numerical experiments based on an advanced North Atlantic simulation of the ocean circulation (eNATL60) show that our ConvNet considerably reduces the imprint of the internal waves in SSH data even in regions unseen by the neural network. We also investigate the relevance of considering additional data from other sea surface variables such as sea surface temperature (SST).
翻訳日:2022-12-07 07:04:50 公開日:2020-05-03
# TIMELY:PIM加速器のローカル・インタイム領域へのデータ移動とインタフェースの推進

TIMELY: Pushing Data Movements and Interfaces in PIM Accelerators Towards Local and in Time Domain ( http://arxiv.org/abs/2005.01206v1 )

ライセンス: Link先を確認
Weitao Li, Pengfei Xu, Yang Zhao, Haitong Li, Yuan Xie, Yingyan Lin(参考訳) 抵抗ランダムアクセスメモリ(ReRAM)ベースの処理インメモリ(R$^2$PIM)アクセラレータは、Thingデバイスの制約されたリソースとConvolutional/Deep Neural Networks(CNNs/DNNs)の禁制エネルギーコストのギャップを埋めることの約束を示す。 具体的には、R$^2$PIM加速器は重量運動のコストを削減し、ReRAMの高密度による計算密度を向上させることでエネルギー効率を向上させる。 しかし、エネルギー効率は入力と部分和(Psum)運動の圧倒的なエネルギーコストとデジタル・アナログ(D/A)インタフェースとアナログ・デジタル・デジタル(A/D)インターフェースのコストによって制限されている。 In this work, we identify three energy-saving opportunities in R$^2$PIM accelerators: analog data locality, time-domain interfacing, and input access reduction, and propose an innovative R$^2$PIM accelerator called TIMELY, with three key contributions: (1) TIMELY adopts analog local buffers (ALBs) within ReRAM crossbars to greatly enhance the data locality, minimizing the energy overheads of both input and Psum movements; (2) TIMELY largely reduces the energy of each single D/A (and A/D) conversion and the total number of conversions by using time-domain interfaces (TDIs) and the employed ALBs, respectively; (3) we develop an only-once input read (O$^2$IR) mapping method to further decrease the energy of input accesses and the number of D/A conversions. 10以上のCNN/DNNモデルと様々なチップ構成による評価は、TIMELYがベースラインのR$^2$PIMアクセラレータであるPRIMEを1桁のエネルギー効率で上回り、計算密度(最大31.2$\times$)とスループット(最大736.6$\times$)を維持していることを示している。 さらに, 提案するALB, TDI, O$^2$IR技術の有効性を省エネルギーと面積削減の観点から評価するために, 総合的研究を行った。

Resistive-random-access-memory (ReRAM) based processing-in-memory (R$^2$PIM) accelerators show promise in bridging the gap between Internet of Thing devices' constrained resources and Convolutional/Deep Neural Networks' (CNNs/DNNs') prohibitive energy cost. Specifically, R$^2$PIM accelerators enhance energy efficiency by eliminating the cost of weight movements and improving the computational density through ReRAM's high density. However, the energy efficiency is still limited by the dominant energy cost of input and partial sum (Psum) movements and the cost of digital-to-analog (D/A) and analog-to-digital (A/D) interfaces. In this work, we identify three energy-saving opportunities in R$^2$PIM accelerators: analog data locality, time-domain interfacing, and input access reduction, and propose an innovative R$^2$PIM accelerator called TIMELY, with three key contributions: (1) TIMELY adopts analog local buffers (ALBs) within ReRAM crossbars to greatly enhance the data locality, minimizing the energy overheads of both input and Psum movements; (2) TIMELY largely reduces the energy of each single D/A (and A/D) conversion and the total number of conversions by using time-domain interfaces (TDIs) and the employed ALBs, respectively; (3) we develop an only-once input read (O$^2$IR) mapping method to further decrease the energy of input accesses and the number of D/A conversions. The evaluation with more than 10 CNN/DNN models and various chip configurations shows that, TIMELY outperforms the baseline R$^2$PIM accelerator, PRIME, by one order of magnitude in energy efficiency while maintaining better computational density (up to 31.2$\times$) and throughput (up to 736.6$\times$). Furthermore, comprehensive studies are performed to evaluate the effectiveness of the proposed ALB, TDI, and O$^2$IR innovations in terms of energy savings and area reduction.
翻訳日:2022-12-07 07:04:30 公開日:2020-05-03
# deep encoder-decoder neural network for fingerprint image denoising and inpainting (meとバイオサイバネティックス)

Deep Encoder-Decoder Neural Network for Fingerprint Image Denoising and Inpainting ( http://arxiv.org/abs/2005.01115v1 )

ライセンス: Link先を確認
Weiya Fan(参考訳) 指紋認証において指紋識別は非常に重要なステップである。 指紋画像の復調効果を改善するために, ディープエンコーダ・デコーダネットワークをベースとした指紋復調アルゴリズムを設計し, ノイズ画像の指紋特徴を学習するためのエンコーダ・サブネットを設計した。デコーダ・サブネットは, その特徴に基づいて元の指紋画像を再構成し, ネットワーク内の拡張畳み込みを用いて, 複雑さを増大させることなく, ネットワークの推論速度を向上させる。 さらに、フィンガープリントの詳細な特徴を復元し、ノイズ除去効果を向上させる残差学習の導入により、ネットワークの異なるレベルにおける特徴融合を実現する。 最後に, この実験結果から, 指紋画像のエッジ, ライン, カーブ特性の回復性が向上し, 視覚効果が向上し, ピーク信号-雑音比(PSNR)が向上することが示唆された。

Fingerprint image denoising is a very important step in fingerprint identification. to improve the denoising effect of fingerprint image,we have designs a fingerprint denoising algorithm based on deep encoder-decoder network,which encoder subnet to learn the fingerprint features of noisy images.the decoder subnet reconstructs the original fingerprint image based on the features to achieve denoising, while using the dilated convolution in the network to increase the receptor field without increasing the complexity and improve the network inference speed. In addition, feature fusion at different levels of the network is achieved through the introduction of residual learning, which further restores the detailed features of the fingerprint and improves the denoising effect. Finally, the experimental results show that the algorithm enables better recovery of edge, line and curve features in fingerprint images, with better visual effects and higher peak signal-to-noise ratio (PSNR) compared to other methods.
翻訳日:2022-12-07 07:00:18 公開日:2020-05-03
# マルチフォーカス画像融合:ベンチマーク

Multi-focus Image Fusion: A Benchmark ( http://arxiv.org/abs/2005.01116v1 )

ライセンス: Link先を確認
Xingchen Zhang(参考訳) MFIF (Multi-focus Image fusion) はその多くの応用により大きな関心を集めている。 近年、様々なMFIFアルゴリズムの開発が進んでいるが、大規模テストセットの欠如や文献における客観的評価指標のランダムな選択など、MFIF手法の公平かつ包括的な性能比較を著しく妨げている問題もある。 そこで本研究では,105枚の画像ペアと30個のMFIFアルゴリズムのコードライブラリ,20個の評価指標からなるマルチフォーカス画像融合ベンチマーク(MFIFB)を提案する。 MFIFBはMFIFの分野で最初のベンチマークであり、MFIFアルゴリズムを公平かつ包括的に比較するためのプラットフォームを提供する。 これらのアルゴリズムの性能を理解するためにmfifbを用いた広範な実験が行われている。 実験結果を解析することにより、有効なMFIFアルゴリズムを同定する。 さらに重要なことは、MFIFフィールドの状態に関するいくつかの観察が与えられ、このフィールドをよりよく理解するのに役立ちます。

Multi-focus image fusion (MFIF) has attracted considerable interests due to its numerous applications. While much progress has been made in recent years with efforts on developing various MFIF algorithms, some issues significantly hinder the fair and comprehensive performance comparison of MFIF methods, such as the lack of large-scale test set and the random choices of objective evaluation metrics in the literature. To solve these issues, this paper presents a multi-focus image fusion benchmark (MFIFB) which consists a test set of 105 image pairs, a code library of 30 MFIF algorithms, and 20 evaluation metrics. MFIFB is the first benchmark in the field of MFIF and provides the community a platform to compare MFIF algorithms fairly and comprehensively. Extensive experiments have been conducted using the proposed MFIFB to understand the performance of these algorithms. By analyzing the experimental results, effective MFIF algorithms are identified. More importantly, some observations on the status of the MFIF field are given, which can help to understand this field better.
翻訳日:2022-12-07 06:59:55 公開日:2020-05-03
# エッジでのリアルタイムビデオ処理によるプライバシー保護

Minor Privacy Protection Through Real-time Video Processing at the Edge ( http://arxiv.org/abs/2005.01178v1 )

ライセンス: Link先を確認
Meng Yuan, Seyed Yahya Nikouei, Alem Fitwi, Yu Chen, Yunxi Dong(参考訳) クローズド・サーキット・テレビ(CCTV)カメラによる、家族のマイナーなメンバーを含む個人に関する個人情報の収集は、多くのプライバシー上の懸念を生んでいる。 特に、子供の身元や活動を明らかにすることは、その幸福を損なう可能性がある。 本稿では,適切なプライバシー保護対策を適用できるように,未成年者を特定するために実現可能かつ精度の高いエッジ監視システムを実現するための軽量なソリューションについて検討する。 最先端のディープラーニングアーキテクチャは、我々のモデルの精度を最大化するために、カスケード方式で修正され、再利用される。 パイプラインは入力フレームから顔を取り出し、それぞれを大人または子供の顔に分類する。 2万以上のラベル付きサンプルポイントが分類に使用される。 ネットワークの端にあるEdge-Fogアーキテクチャで使用されるようなモデルに必要なタイミングとリソースについて検討し、CPU上でほぼリアルタイムのパフォーマンスを実現する。 定量的実験により,他の顔認証に基づく児童検出手法と比較して,分類精度92.1%のモデルが優れていることが示された。

The collection of a lot of personal information about individuals, including the minor members of a family, by closed-circuit television (CCTV) cameras creates a lot of privacy concerns. Particularly, revealing children's identifications or activities may compromise their well-being. In this paper, we investigate lightweight solutions that are affordable to edge surveillance systems, which is made feasible and accurate to identify minors such that appropriate privacy-preserving measures can be applied accordingly. State of the art deep learning architectures are modified and re-purposed in a cascaded fashion to maximize the accuracy of our model. A pipeline extracts faces from the input frames and classifies each one to be of an adult or a child. Over 20,000 labeled sample points are used for classification. We explore the timing and resources needed for such a model to be used in the Edge-Fog architecture at the edge of the network, where we can achieve near real-time performance on the CPU. Quantitative experimental results show the superiority of our proposed model with an accuracy of 92.1% in classification compared to some other face recognition based child detection approaches.
翻訳日:2022-12-07 06:59:39 公開日:2020-05-03
# コロンビアのp\'aramoの価値に関する公式の批判

A Formal Critique of the Value of the Colombian P\'aramo ( http://arxiv.org/abs/2005.02810v1 )

ライセンス: Link先を確認
Juan Afanador(参考訳) 本稿ではコロンビアのP'aramoに対する介入を優先するための概念的および方法論的枠組みについて述べる。 我々の研究が取り上げる分析の様式は、価値と関連するカテゴリを明らかに経験的に知覚される現象として問うことである。 我々は, 生態系サービスの評価は, ポストノーマルな形態であっても, 価値に基づくカテゴリーの検証に失敗するだけでなく, 価値に基づく社会関係の問題点を再現するものであり, 最終的にP'aramoに影響を及ぼす生態的な問題に対処するものである,と論じる。 この前提のもと、我々は(計算的な)ダイアログのシナリオを定式化し、そこでは行動がP'aramoを鑑定する可能性のある形態を規定し、その決定する社会性の検証を動機付ける。

This article presents conceptual and methodological frameworks to prioritise interventions on the Colombian P\'aramo. The mode of analysis that our work takes up is that of questioning value and related categories as definite empirically perceived phenomena. We contend that the valuation of ecosystem services -- even in its post-normal forms -- and the ecosystem services framework not only fail to examine value-based categories, but reproduce the problematic aspects of value-based social relations, which ultimately bear on the ecological issues affecting the P\'aramo. Upon this premise we set out to formalise a (computational) dialogical scenario where arguments stating distinct, and often contradictory, actions delineate possible forms of appropriating the P\'aramo, while motivating the examination of their defining sociality.
翻訳日:2022-12-07 06:59:20 公開日:2020-05-03
# 気に入ったなら、GAN It。 GANによる確率的多変量時系列予測

If You Like It, GAN It. Probabilistic Multivariate Times Series Forecast With GAN ( http://arxiv.org/abs/2005.01181v1 )

ライセンス: Link先を確認
Alireza Koochali, Andreas Dengel, Sheraz Ahmed(参考訳) この論文の貢献は2つある。 まず,多変量時系列予測のための新しい確率モデル probcast を提案する。 我々は、条件付きGANフレームワークを使用して、敵の訓練でモデルをトレーニングする。 第二に, 決定論的モデルを確率的モデルに変換し, 性能を向上させるフレームワークを提案する。 フレームワークの動機は、既存の高精度なポイント予測モデルを確率論的モデルに変換するか、GANのコンポーネントのアーキテクチャを慎重にかつ効率的に選択することで、安定してGANを訓練することである。 電力消費データセットと交換レートデータセットの2つの公開データセットについて実験を行った。 実験の結果から,提案手法の優れた性能と,提案フレームワークの応用性が示された。

The contribution of this paper is two-fold. First, we present ProbCast - a novel probabilistic model for multivariate time-series forecasting. We employ a conditional GAN framework to train our model with adversarial training. Second, we propose a framework that lets us transform a deterministic model into a probabilistic one with improved performance. The motivation of the framework is to either transform existing highly accurate point forecast models to their probabilistic counterparts or to train GANs stably by selecting the architecture of GAN's component carefully and efficiently. We conduct experiments over two publicly available datasets namely electricity consumption dataset and exchange-rate dataset. The results of the experiments demonstrate the remarkable performance of our model as well as the successful application of our proposed framework.
翻訳日:2022-12-07 06:59:02 公開日:2020-05-03
# 最適輸送性能に関する研究

A Study of Performance of Optimal Transport ( http://arxiv.org/abs/2005.01182v1 )

ライセンス: Link先を確認
Yihe Dong, Yu Gao, Richard Peng, Ilya Razenshteyn, Saurabh Sawlani(参考訳) 2部グラフにおけるノード容量最小コスト最大フロー問題と等価な最適輸送(OT)距離を効率的に計算する問題について検討する。 我々は,幾何形状の合成データや文書へのトークンの埋め込み,画像中のピクセルなど,複数の領域のデータに対するot距離を計算する際のランタイムを比較した。 実際,ネットワーク・シンプレックスや拡張パスベースアルゴリズムといった組合せ手法は,低精度のシステムであっても,最大最大速度アップで,シンクホーン [cuturi'13] やグリーンホーン [altschuler et al'17] のような数値行列スケーリングベースの手法を一貫して上回ることができる。 最後に,従来のKuhn-Munkresアルゴリズムを改良した新しい組合せアルゴリズムを提案する。

We investigate the problem of efficiently computing optimal transport (OT) distances, which is equivalent to the node-capacitated minimum cost maximum flow problem in a bipartite graph. We compare runtimes in computing OT distances on data from several domains, such as synthetic data of geometric shapes, embeddings of tokens in documents, and pixels in images. We show that in practice, combinatorial methods such as network simplex and augmenting path based algorithms can consistently outperform numerical matrix-scaling based methods such as Sinkhorn [Cuturi'13] and Greenkhorn [Altschuler et al'17], even in low accuracy regimes, with up to orders of magnitude speedups. Lastly, we present a new combinatorial algorithm that improves upon the classical Kuhn-Munkres algorithm.
翻訳日:2022-12-07 06:58:52 公開日:2020-05-03
# パルサー星データセットのための機械学習パイプライン

Machine Learning Pipeline for Pulsar Star Dataset ( http://arxiv.org/abs/2005.01208v1 )

ライセンス: Link先を確認
Alexander Ylnner Choquenaira Florez, Braulio Valentin Sanchez Vinces, Diana Carolina Roca Arroyo, Josimar Edinson Chire Saire, Patr{\i}cia Batista Franco(参考訳) この研究は、最も一般的な機械学習(ML)アルゴリズムのいくつかをまとめ、不均衡なデータの集合から得られた結果のレベルで比較することを目的としている。 このデータセットは、パルサー(HTRU2)を識別するために天体を観測するための約1万7千の観測から成り立っている。 本提案手法は, 同一データベース上の異なるモデルの精度を, 不均衡データに対する2つの異なる戦略で評価する手法である。 その結果、この種のデータに含まれるクラスのノイズや不均衡にもかかわらず、それらを標準のMLアルゴリズムに適用し、有望な精度比を得ることができることがわかった。

This work brings together some of the most common machine learning (ML) algorithms, and the objective is to make a comparison at the level of obtained results from a set of unbalanced data. This dataset is composed of almost 17 thousand observations made to astronomical objects to identify pulsars (HTRU2). The methodological proposal based on evaluating the accuracy of these different models on the same database treated with two different strategies for unbalanced data. The results show that in spite of the noise and unbalance of classes present in this type of data, it is possible to apply them on standard ML algorithms and obtain promising accuracy ratios.
翻訳日:2022-12-07 06:58:17 公開日:2020-05-03
# ニュースからエンティティとトピックを抽出し、犯罪記録を繋ぐ

Extracting Entities and Topics from News and Connecting Criminal Records ( http://arxiv.org/abs/2005.00950v1 )

ライセンス: Link先を確認
Quang Pham, Marija Stanojevic, Zoran Obradovic(参考訳) 本研究の目的は,犯罪記録データベースおよび新聞データベースから実体や話題を抽出する際に用いられる方法論を要約することである。 統計モデルはおよそ30万のnew york timesの記事のトピックの研究に成功している。 さらに、これらのモデルは人、組織、場所に関連するエンティティをうまく分析するためにも使われてきた(D Newman, 2006)。 さらに、将来における犯罪の場所や状況の予測を目的とした分析的アプローチ、特にホットスポットマッピングでは、いくつかの研究で使われており、これらのアプローチはかなり成功した(S Chainey, 2008)。 この2つの概念に基づき、大量のデータを分析し、価値のある知性を選択し、犯罪の種類に応じて違反をクラスタリングし、時間とともに変化する犯罪グラフを作成するために、データサイエンス技術を適用することを意図して研究を行った。 本研究では、KaggleとEAGERプロジェクトデータベースから犯罪データセットとニュース記事のコレクションをダウンロードし、これらのデータセットを1つの一般的なデータセットにマージする。 このプロジェクトの最も重要な目標は、アメリカ関連の犯罪に関する公開データをよりよく理解するために、エンティティやトピックを抽出し、類似のデータポイントを正しいクラスタにグループ化する統計的および自然言語処理手法を実行することだった。

The goal of this paper is to summarize methodologies used in extracting entities and topics from a database of criminal records and from a database of newspapers. Statistical models had successfully been used in studying the topics of roughly 300,000 New York Times articles. In addition, these models had also been used to successfully analyze entities related to people, organizations, and places (D Newman, 2006). Additionally, analytical approaches, especially in hotspot mapping, were used in some researches with an aim to predict crime locations and circumstances in the future, and those approaches had been tested quite successfully (S Chainey, 2008). Based on the two above notions, this research was performed with the intention to apply data science techniques in analyzing a big amount of data, selecting valuable intelligence, clustering violations depending on their types of crime, and creating a crime graph that changes through time. In this research, the task was to download criminal datasets from Kaggle and a collection of news articles from Kaggle and EAGER project databases, and then to merge these datasets into one general dataset. The most important goal of this project was performing statistical and natural language processing methods to extract entities and topics as well as to group similar data points into correct clusters, in order to understand public data about U.S related crimes better.
翻訳日:2022-12-07 06:52:11 公開日:2020-05-03
# ドメイン内比較コーパス抽出のためのウィキペディアの作成と評価

Tailoring and Evaluating the Wikipedia for in-Domain Comparable Corpora Extraction ( http://arxiv.org/abs/2005.01177v1 )

ライセンス: Link先を確認
Cristina Espa\~na-Bonet, Alberto Barr\'on-Cede\~no and Llu\'is M\`arquez(参考訳) 本稿では,ウィキペディアからユーザ定義ドメイン上に<a-la-carte>記事コレクションを構築するための言語に依存しない自動グラフベース手法を提案する。 コアモデルは百科事典のカテゴリグラフの探索に基づいており、単言語と多言語に匹敵するコレクションを作成できる。 得られたコーパスの品質を10言語と743ドメインで徹底的に評価する実験を行った。 広範囲な手作業による評価により,本手法は検索手法より優れ,ドメイン内記事の平均精度は84%に達した。 手動による評価はコストがかかるため、「ドメイン性」の概念を導入し、コレクションの品質を考慮したいくつかの自動メトリクスを設計する。 ドメイン性に関する最も優れた測定基準は、ドメイン固有のコーパスの品質を評価するための合理的な自動的な代替手段として、ヒトの判断精度と強い相関を示す。 我々は,wikitailor toolkit をリリースし,抽出方法,評価尺度,ユーティリティをいくつか実装した。 WikiTailorはウィキペディアから多言語でのドメインデータの取得を容易にする。

We propose an automatic language-independent graph-based method to build \`a-la-carte article collections on user-defined domains from the Wikipedia. The core model is based on the exploration of the encyclopaedia's category graph and can produce both monolingual and multilingual comparable collections. We run thorough experiments to assess the quality of the obtained corpora in 10 languages and 743 domains. According to an extensive manual evaluation, our graph-based model outperforms a retrieval-based approach and reaches an average precision of 84% on in-domain articles. As manual evaluations are costly, we introduce the concept of "domainness" and design several automatic metrics to account for the quality of the collections. Our best metric for domainness shows a strong correlation with the human-judged precision, representing a reasonable automatic alternative to assess the quality of domain-specific corpora. We release the WikiTailor toolkit with the implementation of the extraction methods, the evaluation measures and several utilities. WikiTailor makes obtaining multilingual in-domain data from the Wikipedia easy.
翻訳日:2022-12-07 06:51:38 公開日:2020-05-03
# コンテキストエンリッチなプロセスイベントログを用いた次のアクティビティ予測のためのディープニューラルネットワークアーキテクチャの実証的比較

An empirical comparison of deep-neural-network architectures for next activity prediction using context-enriched process event logs ( http://arxiv.org/abs/2005.01194v1 )

ライセンス: Link先を確認
S. Weinzierl, S. Zilker, J. Brunk, K. Revoredo, A. Nguyen, M. Matzner, J. Becker, B. Eskofier(参考訳) 研究者は、プロセス実行中の将来のプロセス動作を予測することを目的とした、さまざまな予測ビジネスプロセス監視(PBPM)技術を提案している。 特に,次の活動予測手法は,事業プロセスの改善に大きな可能性を期待している。 より正確な予測を得るために、これらの技術はディープニューラルネットワーク(DNN)に依存し、プロセスが実行されているコンテキストに関する情報を検討する。 しかし、このようなテクニックの詳細な比較はpbpm文献に欠けているため、研究者や実践者が所定のイベントログに対して最適なソリューションを選択することを妨げる。 この問題を解決するために,提案する3つのDNNアーキテクチャの予測品質を実証的に評価した。 我々は,次の活動を予測する新しいPBPM技術の設計において,研究者や実践者が支援できる4つの知見を提供する。

Researchers have proposed a variety of predictive business process monitoring (PBPM) techniques aiming to predict future process behaviour during the process execution. Especially, techniques for the next activity prediction anticipate great potential in improving operational business processes. To gain more accurate predictions, a plethora of these techniques rely on deep neural networks (DNNs) and consider information about the context, in which the process is running. However, an in-depth comparison of such techniques is missing in the PBPM literature, which prevents researchers and practitioners from selecting the best solution for a given event log. To remedy this problem, we empirically evaluate the predictive quality of three promising DNN architectures, combined with five proven encoding techniques and based on five context-enriched real-life event logs. We provide four findings that can support researchers and practitioners in designing novel PBPM techniques for predicting the next activities.
翻訳日:2022-12-07 06:51:18 公開日:2020-05-03
# 実世界スーパーレゾリューションのための深層生成型逆コンボリューションネットワーク

Deep Generative Adversarial Residual Convolutional Networks for Real-World Super-Resolution ( http://arxiv.org/abs/2005.00953v1 )

ライセンス: Link先を確認
Rao Muhammad Umer, Gian Luca Foresti, Christian Micheloni(参考訳) 現在のディープラーニングベースのシングルイメージ超解法(SISR)は、低解像度(LR)入力と多数のペアリング(LR/HR)トレーニングデータからの高解像度(HR)出力の間の非線形マッピングを学習するために、より深くより広いモデルの設計に焦点を当てている。 彼らは通常、LR画像はHR画像のバイコビックなダウンサンプリング版であると仮定する。 しかし、そのような劣化過程は、固有のセンサノイズ、確率ノイズ、圧縮アーティファクト、画像劣化過程とカメラ装置とのミスマッチなど、現実世界では利用できない。 実際の画像の破損による現在のSISR手法の性能を大幅に低下させる。 これらの問題に対処するため,我々は,実世界の劣化状況に追従する深い超解法残差畳み込み生成適応ネットワーク (SRResCGAN) を提案する。 提案するネットワークは,画像の高精細化と凸最適化によるエネルギーベース目的関数の最小化により,残差学習を利用する。 提案手法は実入力に頑健に一般化し,他のダウンスケーリング演算子やモバイル/組み込みデバイスに容易に展開できる定量的,定性的な実験で実証する。

Most current deep learning based single image super-resolution (SISR) methods focus on designing deeper / wider models to learn the non-linear mapping between low-resolution (LR) inputs and the high-resolution (HR) outputs from a large number of paired (LR/HR) training data. They usually take as assumption that the LR image is a bicubic down-sampled version of the HR image. However, such degradation process is not available in real-world settings i.e. inherent sensor noise, stochastic noise, compression artifacts, possible mismatch between image degradation process and camera device. It reduces significantly the performance of current SISR methods due to real-world image corruptions. To address these problems, we propose a deep Super-Resolution Residual Convolutional Generative Adversarial Network (SRResCGAN) to follow the real-world degradation settings by adversarial training the model with pixel-wise supervision in the HR domain from its generated LR counterpart. The proposed network exploits the residual learning by minimizing the energy-based objective function with powerful image regularization and convex optimization techniques. We demonstrate our proposed approach in quantitative and qualitative experiments that generalize robustly to real input and it is easy to deploy for other down-scaling operators and mobile/embedded devices.
翻訳日:2022-12-07 06:51:02 公開日:2020-05-03
# 医療画像分割のための境界認識コンテキストニューラルネットワーク

Boundary-aware Context Neural Network for Medical Image Segmentation ( http://arxiv.org/abs/2005.00966v1 )

ライセンス: Link先を確認
Ruxin Wang, Shuyuan Chen, Chaojie Ji, Jianping Fan, and Ye Li(参考訳) 医療画像分割は、さらなる臨床分析と疾患診断のための信頼できる基盤を提供することができる。 医用画像分割の性能は畳み込みニューラルネットワーク(CNN)によって著しく向上している。 しかし、既存のCNNベースのほとんどの手法は、正確なオブジェクト境界を持たない不満足なセグメンテーションマスクを生成する。 これは、一連のプーリングと畳み込み操作の後、限られたコンテキスト情報と不適切な識別特徴マップによって引き起こされる。 この医用画像の特徴は, クラス内変動が大きいこと, クラス間不連続やノイズ, 強力な文脈抽出, 細粒化のための識別的特徴の集約などである。 本稿では,2次元医用画像セグメンテーションのための境界認識コンテキストニューラルネットワーク(ba-net)を考案し,よりリッチなコンテキストを捉え,空間情報を保存する。 BA-Netはエンコーダデコーダアーキテクチャを採用している。 エンコーダネットワークの各段階において,複数の粒度を持つエッジ情報を取得するために,ピラミッドエッジ抽出モジュールを提案する。 次に,オブジェクトマスクのセグメンテーションと病変境界の検出を共同学習するミニマルチタスク学習モジュールを設計した。 特に,異なるタスク間の情報相補性を実現するための2つのタスクを橋渡しし,境界情報を有効活用することにより,セグメンテーション予測の精度向上に寄与する。 最後に、クロスフィーチャ融合モジュールはエンコーダネットワーク全体から多レベル機能を選択的に集約することを目的としている。 カスケードされた3つのモジュールにより、各ステージのよりリッチなコンテキストと微細な特徴がエンコードされる。 5つのデータセットに対する大規模な実験は、提案されたBA-Netが最先端のアプローチより優れていることを示している。

Medical image segmentation can provide a reliable basis for further clinical analysis and disease diagnosis. The performance of medical image segmentation has been significantly advanced with the convolutional neural networks (CNNs). However, most existing CNNs-based methods often produce unsatisfactory segmentation mask without accurate object boundaries. This is caused by the limited context information and inadequate discriminative feature maps after consecutive pooling and convolution operations. In that the medical image is characterized by the high intra-class variation, inter-class indistinction and noise, extracting powerful context and aggregating discriminative features for fine-grained segmentation are still challenging today. In this paper, we formulate a boundary-aware context neural network (BA-Net) for 2D medical image segmentation to capture richer context and preserve fine spatial information. BA-Net adopts encoder-decoder architecture. In each stage of encoder network, pyramid edge extraction module is proposed for obtaining edge information with multiple granularities firstly. Then we design a mini multi-task learning module for jointly learning to segment object masks and detect lesion boundaries. In particular, a new interactive attention is proposed to bridge two tasks for achieving information complementarity between different tasks, which effectively leverages the boundary information for offering a strong cue to better segmentation prediction. At last, a cross feature fusion module aims to selectively aggregate multi-level features from the whole encoder network. By cascaded three modules, richer context and fine-grain features of each stage are encoded. Extensive experiments on five datasets show that the proposed BA-Net outperforms state-of-the-art approaches.
翻訳日:2022-12-07 06:50:37 公開日:2020-05-03
# 複素関数による可視・赤外線画像の融合

Fusion of visible and infrared images via complex function ( http://arxiv.org/abs/2005.01047v1 )

ライセンス: Link先を確認
Ya. Ye. Khaustov (1), D. Ye (1), Ye. Ryzhov (1), E. Lychkovskyy (2) and Yu. A. Nastishin (1) ((1) Hetman Petro Sahaidachnyi National Army Academy, (2) Lviv Danylo Halytsky National Medical University)(参考訳) 本研究では,視覚カメラと赤外線カメラから収集した部分画像の融合アルゴリズムを提案する。 複素関数のイメージ融合アルゴリズムは、複素数の追加が実数の追加の一般化であるのと同じように、従来の画像付加のアルゴリズムの一般化である。 提案した複素関数のアルゴリズムは、コンピュータパワーでの使用と非要求が単純である。 融合画像の複雑な形態は、振幅画像または位相画像として融合画像を形成する可能性を開き、これを複数の形態で形成することができる。 重み付き位相画像の局所的コントラストは, 単純重み付き加算法で得られた画像と比較して, 部分的画像のコントラストよりも高いことが理論的に示されている。 ヒストグラムを用いた融解相画像の実験的画像品質評価では, エントロピーは, 入力部分画像と異なる融合法で得られた位相画像と比較して, 位相画像の高画質を示す。 キーワード:デジタル画像処理、画像融合、赤外線イメージング、画質評価

We propose an algorithm for the fusion of partial images collected from the visual and infrared cameras such that the visual and infrared images are the real and imaginary parts of a complex function. The proposed image fusion algorithm of the complex function is a generalization for the algorithm of conventional image addition in the same way as the addition of complex numbers is the generalization for the addition of real numbers. The proposed algorithm of the complex function is simple in use and non-demanding in computer power. The complex form of the fused image opens a possibility to form the fused image either as the amplitude image or as a phase image, which in turn can be in several forms. We show theoretically that the local contrast of the fused phase images is higher than those of the partial images as well as in comparison with the images obtained by the algorithm of the simple or weighted addition. Experimental image quality assessment of the fused phase images performed using the histograms, entropy shows the higher quality of the phase images in comparison with those of the input partial images as well as those obtained with different fusion methods reported in the literature. Keywords: digital image processing, image fusion, infrared imaging, image quality assessment
翻訳日:2022-12-07 06:49:48 公開日:2020-05-03
# ntire 2020 challenge on perceptual extreme super- resolution: methods and results

NTIRE 2020 Challenge on Perceptual Extreme Super-Resolution: Methods and Results ( http://arxiv.org/abs/2005.01056v1 )

ライセンス: Link先を確認
Kai Zhang, Shuhang Gu, Radu Timofte, Taizhang Shang, Qiuju Dai, Shengchen Zhu, Tong Yang, Yandong Guo, Younghyun Jo, Sejong Yang, Seon Joo Kim, Lin Zha, Jiande Jiang, Xinbo Gao, Wen Lu, Jing Liu, Kwangjin Yoon, Taegyun Jeon, Kazutoshi Akita, Takeru Ooba, Norimichi Ukita, Zhipeng Luo, Yuehan Yao, Zhenyu Xu, Dongliang He, Wenhao Wu, Yukang Ding, Chao Li, Fu Li, Shilei Wen, Jianwei Li, Fuzhi Yang, Huan Yang, Jianlong Fu, Byung-Hoon Kim, JaeHyun Baek, Jong Chul Ye, Yuchen Fan, Thomas S. Huang, Junyeop Lee, Bokyeung Lee, Jungki Min, Gwantae Kim, Kanghyu Lee, Jaihyun Park, Mykola Mykhailych, Haoyu Zhong, Yukai Shi, Xiaojun Yang, Zhijing Yang, Liang Lin, Tongtong Zhao, Jinjia Peng, Huibing Wang, Zhi Jin, Jiahao Wu, Yifu Chen, Chenming Shang, Huanrong Zhang, Jeongki Min, Hrishikesh P S, Densen Puthussery, Jiji C V(参考訳) 本稿では,提案手法と結果に着目したntire 2020 challenge on perceptual extreme super- resolutionについて述べる。 課題は、低解像度および対応する高解像度画像の先行例のセットに基づいて、倍率係数16で入力画像の超解法を行うことであった。 目的は、最高の知覚品質と地上の真実に類似した高精細な結果が得られるネットワーク設計を得ることである。 登録参加者は280人、最終結果は19チームが提出した。 彼らは単一の画像の超解像度で最先端の計測を行う。

This paper reviews the NTIRE 2020 challenge on perceptual extreme super-resolution with focus on proposed solutions and results. The challenge task was to super-resolve an input image with a magnification factor 16 based on a set of prior examples of low and corresponding high resolution images. The goal is to obtain a network design capable to produce high resolution results with the best perceptual quality and similar to the ground truth. The track had 280 registered participants, and 19 teams submitted the final results. They gauge the state-of-the-art in single image super-resolution.
翻訳日:2022-12-07 06:49:33 公開日:2020-05-03
# Semantic-Driven Cloze Rewardを用いた知識グラフ強化抽象要約

Knowledge Graph-Augmented Abstractive Summarization with Semantic-Driven Cloze Reward ( http://arxiv.org/abs/2005.01159v1 )

ライセンス: Link先を確認
Luyang Huang, Lingfei Wu, Lu Wang(参考訳) 抽象的な要約のためのシーケンス・ツー・シーケンス・モデルが広く研究されているが、生成された要約は一般的に製造された内容に悩まされ、しばしばほぼ抽出される。 これらの問題に対処するために、要約者は、例えば構造化表現を通じて、より有意義な要約を生成することができるように、入力に対する意味的解釈を取得するべきである。 本稿では,グラフ拡張と意味駆動型RewarDを用いた抽象要約フレームワークASGARDを提案する。 本稿では,2重エンコーダ--逐次文書エンコーダとグラフ構造エンコーダ--を用いて,エンティティのグローバルコンテキストと局所特性を維持し,相互補完する手法を提案する。 さらに、複数の選択クローゼテストに基づいて報酬を設計し、エンティティの相互作用をよりよく捉えるためにモデルを駆動します。 その結果、我々のモデルは、New York TimesとCNN/Daily Mailのデータセットの入力として、知識グラフのない変種よりもはるかに高いROUGEスコアを生成することがわかった。 また、大規模な事前学習言語モデルから微調整されたシステムと比較して、優れた性能や同等の性能が得られる。 人間の判断は、我々のモデル出力をより情報的であり、不誠実な誤りが少ないと評価する。

Sequence-to-sequence models for abstractive summarization have been studied extensively, yet the generated summaries commonly suffer from fabricated content, and are often found to be near-extractive. We argue that, to address these issues, the summarizer should acquire semantic interpretation over input, e.g., via structured representation, to allow the generation of more informative summaries. In this paper, we present ASGARD, a novel framework for Abstractive Summarization with Graph-Augmentation and semantic-driven RewarD. We propose the use of dual encoders---a sequential document encoder and a graph-structured encoder---to maintain the global context and local characteristics of entities, complementing each other. We further design a reward based on a multiple choice cloze test to drive the model to better capture entity interactions. Results show that our models produce significantly higher ROUGE scores than a variant without knowledge graph as input on both New York Times and CNN/Daily Mail datasets. We also obtain better or comparable performance compared to systems that are fine-tuned from large pretrained language models. Human judges further rate our model outputs as more informative and containing fewer unfaithful errors.
翻訳日:2022-12-07 06:43:00 公開日:2020-05-03
# 文脈的単語表現モデルの類似性解析

Similarity Analysis of Contextual Word Representation Models ( http://arxiv.org/abs/2005.01172v1 )

ライセンス: Link先を確認
John M. Wu, Yonatan Belinkov, Hassan Sajjad, Nadir Durrani, Fahim Dalvi, James Glass(参考訳) 本稿では,類似度分析のレンズを用いた文脈表現モデルについて検討する。 訓練されたモデルの集合を考えると、内部表現と注意の類似度を測定する。 これらのモデルは、非常に異なるアーキテクチャから生まれています。 深層モデルにおける情報の局所化度を計測することを目的とした既存および新規の類似度尺度を用いて,外部の言語アノテーションを必要とせず,どの設計要因がモデルの類似度に影響するかを検討する。 この分析により、同じ家族内のモデルが、予想されるように互いに似ていることが明らかになった。 驚くべきことに、異なるアーキテクチャは、かなり似た表現を持つが、個々のニューロンが異なる。 また,下位層および上位層における情報局在の差異を観察し,下流タスクの微調整により上位層が影響を受けることを見出した。

This paper investigates contextual word representation models from the lens of similarity analysis. Given a collection of trained models, we measure the similarity of their internal representations and attention. Critically, these models come from vastly different architectures. We use existing and novel similarity measures that aim to gauge the level of localization of information in the deep models, and facilitate the investigation of which design factors affect model similarity, without requiring any external linguistic annotation. The analysis reveals that models within the same family are more similar to one another, as may be expected. Surprisingly, different architectures have rather similar representations, but different individual neurons. We also observed differences in information localization in lower and higher layers and found that higher layers are more affected by fine-tuning on downstream tasks.
翻訳日:2022-12-07 06:42:39 公開日:2020-05-03
# lstm言語モデルにおけるサブジェクト・バーブ数合意を特徴付ける影響パス

Influence Paths for Characterizing Subject-Verb Number Agreement in LSTM Language Models ( http://arxiv.org/abs/2005.01190v1 )

ライセンス: Link先を確認
Kaiji Lu, Piotr Mardziel, Klas Leino, Matt Fedrikson, Anupam Datta(参考訳) LSTMベースのリカレントニューラルネットワークは、多くの自然言語処理(NLP)タスクの最先端技術である。 その性能にもかかわらず、LSTMが英語における主語数合意のような自然言語の構造的特徴を学習するかどうかは不明である。 この理解の欠如として、このタスクにおけるLSTM性能の一般性と、関連するタスクに対するそれらの適合性は不確かである。 さらに、エラーは、構造的能力の欠如、トレーニングデータの欠落、その他の例外的な障害に起因するものではない。 本稿では, 繰り返し神経回路のゲートとニューロンを横断する経路として, 構造特性の因果的説明である*影響経路*を紹介する。 このアプローチは、影響の概念(対象の文法的数はその後の動詞の文法的数に影響を与える)をゲートまたはニューロンレベルの経路に洗練させる。 この集合は、概念(例えば、主題と動詞の合意)、その構成要素(例えば、主題)、および関連するまたは干渉する要素(例えば、誘惑者)をローカライズし、セグメント化する。 本稿では,多層多層lstm言語モデルに関する方法論を例示し,主語-動詞数合意の経理を実証する。 その結果、LSTMによる英語の構造的側面の扱いについては、診断分類器やアブレーションに基づく以前の結果よりも、より細部とより完全なビューが提供される。

LSTM-based recurrent neural networks are the state-of-the-art for many natural language processing (NLP) tasks. Despite their performance, it is unclear whether, or how, LSTMs learn structural features of natural languages such as subject-verb number agreement in English. Lacking this understanding, the generality of LSTM performance on this task and their suitability for related tasks remains uncertain. Further, errors cannot be properly attributed to a lack of structural capability, training data omissions, or other exceptional faults. We introduce *influence paths*, a causal account of structural properties as carried by paths across gates and neurons of a recurrent neural network. The approach refines the notion of influence (the subject's grammatical number has influence on the grammatical number of the subsequent verb) into a set of gate or neuron-level paths. The set localizes and segments the concept (e.g., subject-verb agreement), its constituent elements (e.g., the subject), and related or interfering elements (e.g., attractors). We exemplify the methodology on a widely-studied multi-layer LSTM language model, demonstrating its accounting for subject-verb number agreement. The results offer both a finer and a more complete view of an LSTM's handling of this structural aspect of the English language than prior results based on diagnostic classifiers and ablation.
翻訳日:2022-12-07 06:42:27 公開日:2020-05-03
# 不生物名詞の文法的性別と共起形容詞・動詞の関係について

On the Relationships Between the Grammatical Genders of Inanimate Nouns and Their Co-Occurring Adjectives and Verbs ( http://arxiv.org/abs/2005.01204v1 )

ライセンス: Link先を確認
Adina Williams, Ryan Cotterell, Lawrence Wolf-Sonkin, Dami\'an Blasi, and Hanna Wallach(参考訳) 我々は6つの異なるジェンダー言語における大規模コーパスと、nlpや情報理論のツールを用いて、不生物名詞の文法的性別とそれらの名詞を表す形容詞の間に関係があるかどうかを検証した。 全6言語について、統計的に重要な関係があることが分かる。 また, 名詞の文法的性別と, 名詞を直接対象として, 間接対象として, 主語としてとる動詞との間には, 統計的に有意な関係が認められた。 我々はこれらの関係を今後の研究のためにより深く調査する。

We use large-scale corpora in six different gendered languages, along with tools from NLP and information theory, to test whether there is a relationship between the grammatical genders of inanimate nouns and the adjectives used to describe those nouns. For all six languages, we find that there is a statistically significant relationship. We also find that there are statistically significant relationships between the grammatical genders of inanimate nouns and the verbs that take those nouns as direct objects, as indirect objects, and as subjects. We defer a deeper investigation of these relationships for future work.
翻訳日:2022-12-07 06:41:44 公開日:2020-05-03
# アスペクト抽出によるアスペクトレベル感度解析の改善

Improving Aspect-Level Sentiment Analysis with Aspect Extraction ( http://arxiv.org/abs/2005.06607v1 )

ライセンス: Link先を確認
Navonil Majumder, Rishabh Bhardwaj, Soujanya Poria, Amir Zadeh, Alexander Gelbukh, Amir Hussain, Louis-Philippe Morency(参考訳) NLPの一般的な研究領域であるアスペクトベース感情分析(ABSA)は、アスペクト抽出(AE)と感情極性(ALSA)の2つの異なる部分を持つ。 異なるが、この2つのタスクは高い相関関係にある。 この研究は主に、事前訓練されたAEモデルから知識を伝達することで、ALSAモデルの性能を向上できるという仮説を立てている。 この仮説に基づき、単語埋め込みはAE中に得られ、その後ALSAモデルに供給される。 本研究は,2つの異なるドメイン上での3つのベースラインALSAモデルの性能を有意に向上させることを示す。 この改善は、AEタスクとALSAタスクのドメイン間でよく翻訳される。

Aspect-based sentiment analysis (ABSA), a popular research area in NLP has two distinct parts -- aspect extraction (AE) and labeling the aspects with sentiment polarity (ALSA). Although distinct, these two tasks are highly correlated. The work primarily hypothesize that transferring knowledge from a pre-trained AE model can benefit the performance of ALSA models. Based on this hypothesis, word embeddings are obtained during AE and subsequently, feed that to the ALSA model. Empirically, this work show that the added information significantly improves the performance of three different baseline ALSA models on two distinct domains. This improvement also translates well across domains between AE and ALSA tasks.
翻訳日:2022-12-07 06:41:33 公開日:2020-05-03
# リカレントニューラルネットワークによるカオス記憶の具体例

Teaching Recurrent Neural Networks to Modify Chaotic Memories by Example ( http://arxiv.org/abs/2005.01186v1 )

ライセンス: Link先を確認
Jason Z. Kim, Zhixin Lu, Erfan Nozari, George J. Pappas, Danielle S. Bassett(参考訳) 情報を保存し、操作する能力は、計算システムの目印である。 コンピュータは構造化データ上で数学的操作を表現・実行するために慎重に設計されているのに対し、神経生物学システムは柔軟性のある組織と非構造化感覚入力にもかかわらず類似の機能を果たす。 近年,神経系における情報表現とリコールのモデル化が進められている。 しかし、ニューラルネットワークがこれらの表現をどう修正するかは、まだ理解されていない。 ここでは、リカレントニューラルネットワーク(RNN)が、実例のみを用いて複雑な情報の表現を変更することを学習できることを示し、関連する学習メカニズムを新しい理論で説明する。 具体的には、カオスロレンツシステムから翻訳された、線形変換された、あるいは分岐前の時系列の例をRNNで駆動し、各例の値を変更する制御信号を追加する。 lorenz入力を再現するためにネットワークをトレーニングすることで、lorenz形式の多様体について自律的に進化することを学ぶ。 さらに、制御信号を変更してトレーニングデータを超えて、この表現の翻訳、変換、分岐を継続的に補間し、外挿することを学ぶ。 最後に、これらの計算を学習するメカニズムを提供し、単一のネットワークが同時に複数の計算を学習できることを実証する。 その結果,RNNが複雑な情報の内部表現を操作できることを学習し,RNNの原理と正確な設計を可能にする,シンプルかつ強力なメカニズムが得られた。

The ability to store and manipulate information is a hallmark of computational systems. Whereas computers are carefully engineered to represent and perform mathematical operations on structured data, neurobiological systems perform analogous functions despite flexible organization and unstructured sensory input. Recent efforts have made progress in modeling the representation and recall of information in neural systems. However, precisely how neural systems learn to modify these representations remains far from understood. Here we demonstrate that a recurrent neural network (RNN) can learn to modify its representation of complex information using only examples, and we explain the associated learning mechanism with new theory. Specifically, we drive an RNN with examples of translated, linearly transformed, or pre-bifurcated time series from a chaotic Lorenz system, alongside an additional control signal that changes value for each example. By training the network to replicate the Lorenz inputs, it learns to autonomously evolve about a Lorenz-shaped manifold. Additionally, it learns to continuously interpolate and extrapolate the translation, transformation, and bifurcation of this representation far beyond the training data by changing the control signal. Finally, we provide a mechanism for how these computations are learned, and demonstrate that a single network can simultaneously learn multiple computations. Together, our results provide a simple but powerful mechanism by which an RNN can learn to manipulate internal representations of complex information, allowing for the principled study and precise design of RNNs.
翻訳日:2022-12-07 06:41:20 公開日:2020-05-03
# ジョイントSRVDNet:ジョイントスーパーレゾリューションと車両検出ネットワーク

Joint-SRVDNet: Joint Super Resolution and Vehicle Detection Network ( http://arxiv.org/abs/2005.00983v1 )

ライセンス: Link先を確認
Moktari Mostofa, Syeda Nyma Ferdous, Benjamin S.Riggan, and Nasser M. Nasrabadi(参考訳) 多くの国内および軍事用途において、航空機の検知と超解像アルゴリズムは独立して開発・適用されることが多い。 しかし,超解像における航空車両検出は,超解像における識別情報が欠如しているため,依然として困難な課題である。 この問題に対処するために,低分解能空中画像から車両の識別・高分解能画像を生成するジョイント・スーパーリゾリューション・車両検出ネットワーク(Joint-SRVDNet)を提案する。 まず,MsGAN(Multiscale Generative Adversarial Network)を用いて,分解能の増大を伴う複数の中間出力を有する空中画像を4倍にスケールアップする。 第2に、MsGANアーキテクチャを用いて第4因子によってアップスケールされた超解像に基づいて検出器をトレーニングし、最終的に、検出損失を、超解像損失と共同で最小化し、ターゲット検出器をその後の超解像トレーニングに敏感にするために、駆動する。 このネットワークは、ターゲットの階層的および識別的特徴を共同学習し、最適な超解像結果を生成する。 weperformはvedai, xview, dotadatasets上で提案するネットワークの定量的および質的評価を行う。 実験の結果,提案手法は4倍のアップスケーリング係数を持つ空中超解像法よりも高画質であり,航空車両検出の精度が向上していることがわかった。

In many domestic and military applications, aerial vehicle detection and super-resolutionalgorithms are frequently developed and applied independently. However, aerial vehicle detection on super-resolved images remains a challenging task due to the lack of discriminative information in the super-resolved images. To address this problem, we propose a Joint Super-Resolution and Vehicle DetectionNetwork (Joint-SRVDNet) that tries to generate discriminative, high-resolution images of vehicles fromlow-resolution aerial images. First, aerial images are up-scaled by a factor of 4x using a Multi-scaleGenerative Adversarial Network (MsGAN), which has multiple intermediate outputs with increasingresolutions. Second, a detector is trained on super-resolved images that are upscaled by factor 4x usingMsGAN architecture and finally, the detection loss is minimized jointly with the super-resolution loss toencourage the target detector to be sensitive to the subsequent super-resolution training. The network jointlylearns hierarchical and discriminative features of targets and produces optimal super-resolution results. Weperform both quantitative and qualitative evaluation of our proposed network on VEDAI, xView and DOTAdatasets. The experimental results show that our proposed framework achieves better visual quality than thestate-of-the-art methods for aerial super-resolution with 4x up-scaling factor and improves the accuracy ofaerial vehicle detection.
翻訳日:2022-12-07 06:40:58 公開日:2020-05-03
# 特徴量登録:対応のないロバスト点クラウド登録のための高速半教師付きアプローチ

Feature-metric Registration: A Fast Semi-supervised Approach for Robust Point Cloud Registration without Correspondences ( http://arxiv.org/abs/2005.01014v1 )

ライセンス: Link先を確認
Xiaoshui Huang, Guofeng Mei, Jian Zhang(参考訳) 本稿では,対応のない特徴量投影誤差を最小限に抑えて,高速な特徴量投影クラウド登録フレームワークを提案する。 特徴量投影誤差の利点は、幾何学的射影誤差とは対照的にノイズ、外れ値、密度差に頑健である。 また,特徴量予測誤差を最小化するためには,対応を探索する必要がなく,最適化速度が速い。 提案手法の背景にある原理は,点雲が十分に整列している場合,特徴差が最小となることである。 提案手法は,限定的あるいはまったく登録ラベルデータを必要としない半教師付きあるいは教師なしの手法で訓練する。 実験により,本手法は最先端手法よりも精度と堅牢性が高いことを示した。 さらに, 実験結果から, 提案手法はノイズと密度の差が大きく, 同一ソースとクロスソースの両方のクラウド登録を解くことができることがわかった。

We present a fast feature-metric point cloud registration framework, which enforces the optimisation of registration by minimising a feature-metric projection error without correspondences. The advantage of the feature-metric projection error is robust to noise, outliers and density difference in contrast to the geometric projection error. Besides, minimising the feature-metric projection error does not need to search the correspondences so that the optimisation speed is fast. The principle behind the proposed method is that the feature difference is smallest if point clouds are aligned very well. We train the proposed method in a semi-supervised or unsupervised approach, which requires limited or no registration label data. Experiments demonstrate our method obtains higher accuracy and robustness than the state-of-the-art methods. Besides, experimental results show that the proposed method can handle significant noise and density difference, and solve both same-source and cross-source point cloud registration.
翻訳日:2022-12-07 06:40:26 公開日:2020-05-03
# 合成形態解析のためのブートストラップ技術

Bootstrapping Techniques for Polysynthetic Morphological Analysis ( http://arxiv.org/abs/2005.00956v1 )

ライセンス: Link先を確認
William Lane and Steven Bird(参考訳) 多合成言語は、形態素のスロットの数と単語の組合せによって、非常に大きくて希薄な語彙を持つ。 この複雑さと、書かれたデータの全般的な不足は、自然言語技術の発展にとって課題となる。 この課題に対処するために,神経形態素解析装置をブートストラップする言語的不定形アプローチを提案し,多合成オーストラリア語kunwinjkuへの応用を実証する。 有限状態トランスデューサからデータを生成し,エンコーダデコーダモデルを訓練する。 学習データに欠落している言語構造を「幻覚」し、zipf分布から再サンプリングし、モルヒネのより自然な分布をシミュレートすることで、モデルを改善する。 最良のモデルはテストセットのすべてのインスタンスを考慮し、全体の94.7%の精度を達成し、FSTベースラインよりも10パーセント改善した。 このプロセスは、最小限のリソースから神経形態解析器をブートストラップする可能性を示す。

Polysynthetic languages have exceptionally large and sparse vocabularies, thanks to the number of morpheme slots and combinations in a word. This complexity, together with a general scarcity of written data, poses a challenge to the development of natural language technologies. To address this challenge, we offer linguistically-informed approaches for bootstrapping a neural morphological analyzer, and demonstrate its application to Kunwinjku, a polysynthetic Australian language. We generate data from a finite state transducer to train an encoder-decoder model. We improve the model by "hallucinating" missing linguistic structure into the training data, and by resampling from a Zipf distribution to simulate a more natural distribution of morphemes. The best model accounts for all instances of reduplication in the test set and achieves an accuracy of 94.7% overall, a 10 percentage point improvement over the FST baseline. This process demonstrates the feasibility of bootstrapping a neural morph analyzer from minimal resources.
翻訳日:2022-12-07 06:33:39 公開日:2020-05-03
# ニューラルマシン翻訳の推論校正について

On the Inference Calibration of Neural Machine Translation ( http://arxiv.org/abs/2005.00963v1 )

ライセンス: Link先を確認
Shuo Wang, Zhaopeng Tu, Shuming Shi, Yang Liu(参考訳) モデル予測を真の正確性尺度に等しくすることを目的とした信頼度校正は、生成された出力における翻訳エラーの有用な指標を提供するため、ニューラルマシン翻訳(nmt)にとって重要である。 過去の研究では、ラベルスムースメントで訓練されたNMTモデルは、地上の訓練データから十分に校正されていることが示されているが、トレーニングと推論の相違により、推論中のNMTの誤校正は依然として深刻な課題であることがわかった。 3つの言語ペアに関する実験を慎重に設計することにより,キャリブレーションと翻訳性能の相関関係を深く分析し,ミスキャリブレーションの言語特性を報告するとともに,nmtモデルの解析,理解,改善に役立つ興味深い知見を多数報告した。 これらの観測に基づいて、推論キャリブレーションと翻訳性能の両方を改善することができる新しい累積ラベル平滑化法を提案する。

Confidence calibration, which aims to make model predictions equal to the true correctness measures, is important for neural machine translation (NMT) because it is able to offer useful indicators of translation errors in the generated output. While prior studies have shown that NMT models trained with label smoothing are well-calibrated on the ground-truth training data, we find that miscalibration still remains a severe challenge for NMT during inference due to the discrepancy between training and inference. By carefully designing experiments on three language pairs, our work provides in-depth analyses of the correlation between calibration and translation performance as well as linguistic properties of miscalibration and reports a number of interesting findings that might help humans better analyze, understand and improve NMT models. Based on these observations, we further propose a new graduated label smoothing method that can improve both inference calibration and translation performance.
翻訳日:2022-12-07 06:33:23 公開日:2020-05-03
# コンテンツマッチング制約付き忠実なニューラルネットワークテーブル・ツー・テキスト生成に向けて

Towards Faithful Neural Table-to-Text Generation with Content-Matching Constraints ( http://arxiv.org/abs/2005.00969v1 )

ライセンス: Link先を確認
Zhenyi Wang, Xiaoyang Wang, Bang An, Dong Yu, Changyou Chen(参考訳) 知識ベースからのテキスト生成は、知識トリプルを自然言語記述に変換することを目的としている。 既存の方法の多くは、生成されたテキスト記述と元のテーブルの間の忠実性を無視し、表の内容を超えた情報を生成する。 本稿では,この目的を達成するために,トランスフォーマーを用いた新しい生成フレームワークを提案する。 本手法のコア技術は,新しい表-テキスト最適-トランスポートマッチング損失と,トランスフォーマモデルに基づく表-テキスト埋め込み類似損失である。 さらに,信頼度を評価するために,テーブル・ツー・テキスト生成問題に特化した新しい自動計測法を提案する。 また、実験において、モデルの各コンポーネントについて詳細な分析を行う。 自動評価と人的評価は,我々のフレームワークが最先端の最先端を著しく上回ることを示す。

Text generation from a knowledge base aims to translate knowledge triples to natural language descriptions. Most existing methods ignore the faithfulness between a generated text description and the original table, leading to generated information that goes beyond the content of the table. In this paper, for the first time, we propose a novel Transformer-based generation framework to achieve the goal. The core techniques in our method to enforce faithfulness include a new table-text optimal-transport matching loss and a table-text embedding similarity loss based on the Transformer model. Furthermore, to evaluate faithfulness, we propose a new automatic metric specialized to the table-to-text generation problem. We also provide detailed analysis on each component of our model in our experiments. Automatic and human evaluations show that our framework can significantly outperform state-of-the-art by a large margin.
翻訳日:2022-12-07 06:33:07 公開日:2020-05-03
# アスペクトベース感情分析のための位置認識減衰重み付きネットワーク

A Position Aware Decay Weighted Network for Aspect based Sentiment Analysis ( http://arxiv.org/abs/2005.01027v1 )

ライセンス: Link先を確認
Avinash Madasu and Vijjini Anvesh Rao(参考訳) アスペクトベース感性分析(Aspect Based Sentiment Analysis、ABSA)は、他のテキストセグメントまたはアスペクトが与えられたテキストの感情極性を特定するタスクである。 ABSAでは、テキストはそれぞれの側面に応じて複数の感情を持つことができる。 アスペクト・ターム・センティメント・アナリティクス(Aspect Term Sentiment Analysis、ATSA)は、ABSAのサブタスクであり、アスペクト・タームが与えられた文に含まれる。 ATSAが提案する既存のアプローチのほとんどは、異なるサブネットワークを通してアスペクト情報を組み込むことで、文内のアスペクト項の存在の利点を見落としている。 本稿では,その側面の位置情報を活用するモデルを提案する。 提案モデルでは, 位置に基づく崩壊機構を導入する。 この減衰関数はABSAに対する入力単語の寄与を指示する。 単語のコントリビューションは、文のアスペクト項から遠くに位置するほど減少する。 パフォーマンスはsemeval 2014 task 4の2つの標準データセットで測定される。 近年のアーキテクチャと比較して,提案手法の有効性が示された。

Aspect Based Sentiment Analysis (ABSA) is the task of identifying sentiment polarity of a text given another text segment or aspect. In ABSA, a text can have multiple sentiments depending upon each aspect. Aspect Term Sentiment Analysis (ATSA) is a subtask of ABSA, in which aspect terms are contained within the given sentence. Most of the existing approaches proposed for ATSA, incorporate aspect information through a different subnetwork thereby overlooking the advantage of aspect terms' presence within the sentence. In this paper, we propose a model that leverages the positional information of the aspect. The proposed model introduces a decay mechanism based on position. This decay function mandates the contribution of input words for ABSA. The contribution of a word declines as farther it is positioned from the aspect terms in the sentence. The performance is measured on two standard datasets from SemEval 2014 Task 4. In comparison with recent architectures, the effectiveness of the proposed model is demonstrated.
翻訳日:2022-12-07 06:31:53 公開日:2020-05-03
# 項集合展開のための二段階マスクlm法

A Two-Stage Masked LM Method for Term Set Expansion ( http://arxiv.org/abs/2005.01063v1 )

ライセンス: Link先を確認
Guy Kushilevitz, Shaul Markovitch, Yoav Goldberg(参考訳) 用語集合拡張(TSE:Term Set Expansion)というタスクに取り組み、セマンティッククラスからサンプル項の小さなシードセットを与えられ、そのクラスのより多くのメンバを見つけます。 このタスクは非常に実用的であり、少数の例から一般化する必要があるため、理論的にも有用である。 TSEタスクに対する従来のアプローチは、分散的あるいはパターンベースとして特徴付けられる。 我々は,ニューラルマスク言語モデル(MLM)のパワーを活用し,パターンベースと分布的アプローチを組み合わせた新しいTSEアルゴリズムを提案する。 シードセットのサイズが小さいため、微調整法は効果がなく、より創造的なMLMの使用を要求される。 アイデアの要点は、まずMLMを用いて、シードセットに関する情報的パターンを抽出し、これらのパターンを一般化して、シードクラスのより多くのメンバーを取得することである。 提案手法は最先端のTSEアルゴリズムより優れている。 実装は以下の通りである。 https://github.com/ guykush/TermSetExpansion-MPB/

We tackle the task of Term Set Expansion (TSE): given a small seed set of example terms from a semantic class, finding more members of that class. The task is of great practical utility, and also of theoretical utility as it requires generalization from few examples. Previous approaches to the TSE task can be characterized as either distributional or pattern-based. We harness the power of neural masked language models (MLM) and propose a novel TSE algorithm, which combines the pattern-based and distributional approaches. Due to the small size of the seed set, fine-tuning methods are not effective, calling for more creative use of the MLM. The gist of the idea is to use the MLM to first mine for informative patterns with respect to the seed set, and then to obtain more members of the seed class by generalizing these patterns. Our method outperforms state-of-the-art TSE algorithms. Implementation is available at: https://github.com/ guykush/TermSetExpansion-MPB/
翻訳日:2022-12-07 06:31:39 公開日:2020-05-03
# 最小限のスーパービジョンを必要とする構文の創出

Emergence of Syntax Needs Minimal Supervision ( http://arxiv.org/abs/2005.01119v1 )

ライセンス: Link先を確認
Rapha\"el Bailly and Kata G\'abor(参考訳) 本論は,構文特異的ガイダンスを含まないコーパスからの構文の学習性に関する理論的考察である。 本手法は,文法的情報(シンタクティック情報)と意味・実践的情報の定義と分離に使用されるコーパスの可観測構造を起源とする。 自律構文の形式的特徴を記述し,モデルの形式に先行する仮説を伴わずに,単純な最適化プロセスで構文に基づく語彙カテゴリを探索できることを示す。

This paper is a theoretical contribution to the debate on the learnability of syntax from a corpus without explicit syntax-specific guidance. Our approach originates in the observable structure of a corpus, which we use to define and isolate grammaticality (syntactic information) and meaning/pragmatics information. We describe the formal characteristics of an autonomous syntax and show that it becomes possible to search for syntax-based lexical categories with a simple optimization process, without any prior hypothesis on the form of the model.
翻訳日:2022-12-07 06:31:05 公開日:2020-05-03
# 自動修正:トレーニングデータ拡張による文脈認識型誤り訂正

Correcting the Autocorrect: Context-Aware Typographical Error Correction via Training Data Augmentation ( http://arxiv.org/abs/2005.01158v1 )

ライセンス: Link先を確認
Kshitij Shah, Gerard de Melo(参考訳) 本稿では,実世界統計に基づくタイポグラフィーエラーの人工生成について検討する。 最初に注釈付きデータの小さなセットを描き、スペルエラーの統計量を計算する。 これらはその後、大幅に大きなコーパスにエラーを導入するために呼び出される。 生成手法により、コンテキスト認識エラー検出を必要とする特に困難なエラーを生成できる。 私たちは、英語のエラー検出と修正データセットのセットを作成するためにそれを使用します。 最後に,このデータに基づく誤りの検出と修正における機械学習モデルの有効性について検討する。 データセットはhttp://typo.nlproc.orgで利用可能である。

In this paper, we explore the artificial generation of typographical errors based on real-world statistics. We first draw on a small set of annotated data to compute spelling error statistics. These are then invoked to introduce errors into substantially larger corpora. The generation methodology allows us to generate particularly challenging errors that require context-aware error detection. We use it to create a set of English language error detection and correction datasets. Finally, we examine the effectiveness of machine learning models for detecting and correcting errors based on this data. The datasets are available at http://typo.nlproc.org
翻訳日:2022-12-07 06:24:58 公開日:2020-05-03
# 置換の完全エッジ伝達再結合

Perfect Edge-Transmitting Recombination of Permutations ( http://arxiv.org/abs/2005.01113v1 )

ライセンス: Link先を確認
Adriaan Merlevede and Carl Troein(参考訳) クロスオーバーは、2人の親の遺伝的特徴を再結合する過程である。 置換にクロスオーバーが適用される多くの応用において、関連する遺伝的特徴は、置換順序の辺とも呼ばれる隣接する要素のペアである。 誤りのないエッジの再結合はNPハード問題であり、一般に新しいエッジを導入するか、少数の子孫しか生成できないヒューリスティックスによって近似される。 ここでは、エッジの完全透過を実現する置換の交叉アルゴリズムを導出し、二次平均計算時間において、可能なすべての子孫の均一サンプリングを生成する。 このアルゴリズムとその導出により、サイクルクロスオーバー (cx) とエッジアセンブリクロスオーバー (eax) のリンクが明らかとなり、これらの確立されたアルゴリズムに対する新しい視点が示された。 また,非対称走行セールスマン問題に対する数学的に最適な子孫を生成するアルゴリズムの修正についても述べる。

Crossover is the process of recombining the genetic features of two parents. For many applications where crossover is applied to permutations, relevant genetic features are pairs of adjacent elements, also called edges in the permutation order. Recombination of edges without errors is thought to be an NP-hard problem, typically approximated by heuristics that either introduce new edges or are only able to produce a small variety of offspring. Here, we derive an algorithm for crossover of permutations that achieves perfect transmission of edges and produces a uniform sampling of all possible offspring, in quadratic average computation time. The algorithm and its derivation reveal a link between cycle crossover (CX) and edge assembly crossover (EAX), offering a new perspective on these well-established algorithms. We also describe a modification of the algorithm that generates the mathematically optimal offspring for the asymmetric travelling salesman problem.
翻訳日:2022-12-07 06:24:50 公開日:2020-05-03
# 言語一般化に向けての進歩をいかに加速するか

How Can We Accelerate Progress Towards Human-like Linguistic Generalization? ( http://arxiv.org/abs/2005.00955v1 )

ライセンス: Link先を確認
Tal Linzen(参考訳) 本稿では,自然言語理解の進歩を計測する中心的なツールとなったPAID(Pretraining-Agnostic Identically Distributed)評価パラダイムについて記述し,批判する。 本パラダイムは,(1)任意の大きさのコーパス上の単語予測モデルの事前学習,(2)分類タスクを表すトレーニングセット上の微調整(トランスファーラーニング),(3)同トレーニングセットと同じ分布から抽出されたテストセットの評価の3段階からなる。 このパラダイムは単純で低バイアスなアーキテクチャを好んでおり、第一に大量のデータを処理するためにスケールできるし、第二に、それらの特性がデータセットの外のタスクの例に一般化されるかどうかに関わらず、特定のデータセットのきめ細かい統計特性を捉えることができる。 これは、この評価パラダイムで好まれるシステムよりも数桁少ないデータから言語を学び、一貫した方法で新しいタスクに一般化する人間とは対照的である。 我々は、PAIDを人間のように迅速かつ堅牢に一般化するアーキテクチャに報いるパラダイムで補うか置き換えることを提唱する。

This position paper describes and critiques the Pretraining-Agnostic Identically Distributed (PAID) evaluation paradigm, which has become a central tool for measuring progress in natural language understanding. This paradigm consists of three stages: (1) pre-training of a word prediction model on a corpus of arbitrary size; (2) fine-tuning (transfer learning) on a training set representing a classification task; (3) evaluation on a test set drawn from the same distribution as that training set. This paradigm favors simple, low-bias architectures, which, first, can be scaled to process vast amounts of data, and second, can capture the fine-grained statistical properties of a particular data set, regardless of whether those properties are likely to generalize to examples of the task outside the data set. This contrasts with humans, who learn language from several orders of magnitude less data than the systems favored by this evaluation paradigm, and generalize to new tasks in a consistent way. We advocate for supplementing or replacing PAID with paradigms that reward architectures that generalize as quickly and robustly as humans.
翻訳日:2022-12-07 06:22:29 公開日:2020-05-03
# セグメンテーションと対応性の共同学習によるニューラルデータ・テキスト生成

Neural Data-to-Text Generation via Jointly Learning the Segmentation and Correspondence ( http://arxiv.org/abs/2005.01096v1 )

ライセンス: Link先を確認
Xiaoyu Shen, Ernie Chang, Hui Su, Jie Zhou, Dietrich Klakow(参考訳) ニューラルアテンションモデルは、データ-テキスト生成タスクで大きな成功を収めた。 通常、流動的なテキストを生成するのに長けているが、情報の欠如、繰り返し、そして「幻覚」という問題に悩まされている。 ニューラル・アテンション・アーキテクチャのブラックボックスの性質から、これらの問題を体系的に回避することは自明ではない。 そこで本研究では,対象テキストをフラグメント単位に明示的に分割し,それらのデータ対応に合わせることを提案する。 セグメンテーションと対応は人間のアノテーションなしで潜在変数として共同で学習される。 さらに、セグメントの粒度を規則化するためのソフトな統計的制約を課す。 結果として得られるアーキテクチャは、ニューラルアテンションモデルと同じ表現力を維持し、完全に解釈可能な出力を数倍の計算コストで生成することができる。 E2EとWebNLGのベンチマークでは、提案モデルがニューラルアテンションよりも一貫して優れていることを示す。

The neural attention model has achieved great success in data-to-text generation tasks. Though usually excelling at producing fluent text, it suffers from the problem of information missing, repetition and "hallucination". Due to the black-box nature of the neural attention architecture, avoiding these problems in a systematic way is non-trivial. To address this concern, we propose to explicitly segment target text into fragment units and align them with their data correspondences. The segmentation and correspondence are jointly learned as latent variables without any human annotations. We further impose a soft statistical constraint to regularize the segmental granularity. The resulting architecture maintains the same expressive power as neural attention models, while being able to generate fully interpretable outputs with several times less computational cost. On both E2E and WebNLG benchmarks, we show the proposed model consistently outperforms its neural attention counterparts.
翻訳日:2022-12-07 06:15:50 公開日:2020-05-03
# Let Me Choose: Verbal Context から Font Selection へ

Let Me Choose: From Verbal Context to Font Selection ( http://arxiv.org/abs/2005.01151v1 )

ライセンス: Link先を確認
Amirreza Shirani, Franck Dernoncourt, Jose Echevarria, Paul Asente, Nedim Lipka and Thamar Solorio(参考訳) 本稿では,フォントの視覚的属性と典型的に適用されるテキストの言語的文脈との関係を学習することを目的とする。 周囲の視覚的コンテキストを活用した関連作業と比較すると、テキストがドキュメントの唯一のビジュアル要素である新しいアプリケーションを可能にするため、入力テキストのみに注目することを選択します。 クラウドソーシングを通じてラベル付けされたソーシャルメディア投稿や広告で、さまざまなトピックの例を含む新しいデータセットを導入する。 タスクの主観的な性質のため、複数のフォントが入力テキストに受け入れられる可能性があるため、この問題は困難である。 そこで本研究では,クラウドソースデータからラベルの分布を学習し,すべてのアノテーションを対象とするオブジェクト間比のキャプチャを行う。

In this paper, we aim to learn associations between visual attributes of fonts and the verbal context of the texts they are typically applied to. Compared to related work leveraging the surrounding visual context, we choose to focus only on the input text as this can enable new applications for which the text is the only visual element in the document. We introduce a new dataset, containing examples of different topics in social media posts and ads, labeled through crowd-sourcing. Due to the subjective nature of the task, multiple fonts might be perceived as acceptable for an input text, which makes this problem challenging. To this end, we investigate different end-to-end models to learn label distributions on crowd-sourced data and capture inter-subjectivity across all annotations.
翻訳日:2022-12-07 06:15:32 公開日:2020-05-03
# 人工知能によるファッショントレンドの分析

Using Artificial Intelligence to Analyze Fashion Trends ( http://arxiv.org/abs/2005.00986v1 )

ライセンス: Link先を確認
Mengyun Shi, Van Dyk Lewis(参考訳) ファッション業界ではファッショントレンドの分析が不可欠である。 WGSNのような現在のファッション予測会社は、世界中の視覚情報を利用してファッショントレンドを分析し予測している。 しかし、ファッショントレンドの分析には時間と労力がかかり、個々の従業員の手作業による編集と分類が必要となる。 そこで本研究では,このような画像情報の分析効率の向上と,ファッション画像の解析コストの低減を目的として,人工知能(a.i.)アルゴリズムを用いたデータ駆動量的抽象化手法を提案する。 具体的には、オンラインストアやストリートスナップショットなど、さまざまなシナリオで大規模なデータセットからファッションイメージをトレーニングした。 このモデルは衣服を検知し、テクスチャ、衣服スタイル、滑走路の写真やビデオの詳細などの衣服属性を分類するために使用された。 A.I.モデルは検出された領域の豊富な属性記述を生成し、画像中の衣服を正確に結合できることがわかった。 A.I.アルゴリズムの採用は、期待できる結果と、衣服の種類や細部を自動的に分類する可能性を示し、トレンド予測のプロセスがより費用対効果が高く、より高速になる。

Analyzing fashion trends is essential in the fashion industry. Current fashion forecasting firms, such as WGSN, utilize the visual information from around the world to analyze and predict fashion trends. However, analyzing fashion trends is time-consuming and extremely labor intensive, requiring individual employees' manual editing and classification. To improve the efficiency of data analysis of such image-based information and lower the cost of analyzing fashion images, this study proposes a data-driven quantitative abstracting approach using an artificial intelligence (A.I.) algorithm. Specifically, an A.I. model was trained on fashion images from a large-scale dataset under different scenarios, for example in online stores and street snapshots. This model was used to detect garments and classify clothing attributes such as textures, garment style, and details for runway photos and videos. It was found that the A.I. model can generate rich attribute descriptions of detected regions and accurately bind the garments in the images. Adoption of A.I. algorithm demonstrated promising results and the potential to classify garment types and details automatically, which can make the process of trend forecasting more cost-effective and faster.
翻訳日:2022-12-07 06:14:47 公開日:2020-05-03
# 戦略的意思決定支援のためのオートエンコーダ

Autoencoders for strategic decision support ( http://arxiv.org/abs/2005.01075v1 )

ライセンス: Link先を確認
Sam Verboven, Jeroen Berrevoets, Chris Wuytens, Bart Baesens, Wouter Verbeke(参考訳) ほとんどの行政領域では、通常性の概念がほとんどの戦略的決定に関与している。 しかし、戦略的意思決定をサポートするデータ駆動ツールはほとんどない。 戦略的に関連する粒度のフィードバックを提供するために,オートエンコーダを導入,拡張する。 最初の実験は、専門家が意思決定に不整合であることを示し、戦略的な意思決定支援の必要性を強調している。 さらに,2つの大規模産業提供人材データセットを用いて,評価精度,人間専門家との相乗効果,次元レベルのフィードバックの観点から提案手法を評価した。 この三点スキームは検証される (a)合成データ b) データ品質の観点から (c)盲人専門家の検証、及び (d)透明な専門家評価。 本研究は、人間の意思決定におけるいくつかの主要な弱点を確認し、モデルと人間のシナジーの重要性を強調した。 さらに,教師なし学習,特にオートエンコーダは戦略的意思決定に有用なツールであることが示されている。

In the majority of executive domains, a notion of normality is involved in most strategic decisions. However, few data-driven tools that support strategic decision-making are available. We introduce and extend the use of autoencoders to provide strategically relevant granular feedback. A first experiment indicates that experts are inconsistent in their decision making, highlighting the need for strategic decision support. Furthermore, using two large industry-provided human resources datasets, the proposed solution is evaluated in terms of ranking accuracy, synergy with human experts, and dimension-level feedback. This three-point scheme is validated using (a) synthetic data, (b) the perspective of data quality, (c) blind expert validation, and (d) transparent expert evaluation. Our study confirms several principal weaknesses of human decision-making and stresses the importance of synergy between a model and humans. Moreover, unsupervised learning and in particular the autoencoder are shown to be valuable tools for strategic decision-making.
翻訳日:2022-12-07 06:14:30 公開日:2020-05-03
# エコーチャンバーの外:会話の相手を検知する

Out of the Echo Chamber: Detecting Countering Debate Speeches ( http://arxiv.org/abs/2005.01157v1 )

ライセンス: Link先を確認
Matan Orbach, Yonatan Bilu, Assaf Toledo, Dan Lahav, Michal Jacovi, Ranit Aharonov and Noam Slonim(参考訳) メディアコンテンツの教育的、情報的消費は、現代において課題となっている。 従来のニュースメディアからソーシャルメディアなどへのシフトに伴い、読者は「エチョ・チェンバー」にカプセル化され、偽ニュースや偽情報に陥り、不当な見解に簡単にアクセスできないという懸念が強まっている。 我々は、特定のテキストでなされた議論に最も効果的に反論する記事を検出するという、これらの懸念を緩和することを目的とした、新しいタスクを提案します。 我々はこの問題を討論演説の文脈で研究する。 このような言論を前提として、同一話題における一組のスピーチの中から、直接反対するスタンスで特定することを目的としている。 私たちは3,685種類のスピーチ(英語)の大規模なデータセットを提供しており、これはnlpコミュニティの一般的な関心事になることを願っている。 この課題に対処するアルゴリズムをいくつか検討し、一部は成功したが、いずれも熟練した人間のパフォーマンスに欠けており、さらなる研究の余地が示唆されている。 この研究で収集されたデータはすべて、自由に研究に利用できる。

An educated and informed consumption of media content has become a challenge in modern times. With the shift from traditional news outlets to social media and similar venues, a major concern is that readers are becoming encapsulated in "echo chambers" and may fall prey to fake news and disinformation, lacking easy access to dissenting views. We suggest a novel task aiming to alleviate some of these concerns -- that of detecting articles that most effectively counter the arguments -- and not just the stance -- made in a given text. We study this problem in the context of debate speeches. Given such a speech, we aim to identify, from among a set of speeches on the same topic and with an opposing stance, the ones that directly counter it. We provide a large dataset of 3,685 such speeches (in English), annotated for this relation, which hopefully would be of general interest to the NLP community. We explore several algorithms addressing this task, and while some are successful, all fall short of expert human performance, suggesting room for further research. All data collected during this work is freely available for research.
翻訳日:2022-12-07 06:06:39 公開日:2020-05-03
# off-policy adversarial 逆強化学習

Off-Policy Adversarial Inverse Reinforcement Learning ( http://arxiv.org/abs/2005.01138v1 )

ライセンス: Link先を確認
Samin Yeasar Arnob(参考訳) 敵対的模倣学習(adversarial imitation learning, ail)は、強化学習(rl)におけるアルゴリズムの1つで、環境から報酬を得ることなく専門家を模倣し、ポリシートレーニングに直接専門家の行動を提供しない。 むしろ、エージェントは、敵対的な設定で専門家の行動との違いを最小化するポリシー分布を学ぶ。 Inversarial Inverse Reinforcement Learning (AIRL) は AIL の考え方を活用し、報酬関数近似とポリシーの学習を統合し、転送学習環境におけるIRLの有用性を示す。 しかし、伝達学習を可能にする報酬関数近似器は模倣タスクではうまく機能しない。 本稿では, サンプル効率が高く, 連続制御タスクにおける最先端のAILアルゴリズムと比較して, 模擬性能が良好であるOff-Policy Adversarial Inverse Reinforcement Learning (Off-AIRL)アルゴリズムを提案する。 同じ報奨関数近似器では、学習した報奨関数を用いてAIL上でアルゴリズムを学習し、専門家のデモンストレーションが欠落している大きな変動の下でタスク上のポリシーを再訓練するの有用性を示す。

Adversarial Imitation Learning (AIL) is a class of algorithms in Reinforcement learning (RL), which tries to imitate an expert without taking any reward from the environment and does not provide expert behavior directly to the policy training. Rather, an agent learns a policy distribution that minimizes the difference from expert behavior in an adversarial setting. Adversarial Inverse Reinforcement Learning (AIRL) leverages the idea of AIL, integrates a reward function approximation along with learning the policy, and shows the utility of IRL in the transfer learning setting. But the reward function approximator that enables transfer learning does not perform well in imitation tasks. We propose an Off-Policy Adversarial Inverse Reinforcement Learning (Off-policy-AIRL) algorithm which is sample efficient as well as gives good imitation performance compared to the state-of-the-art AIL algorithm in the continuous control tasks. For the same reward function approximator, we show the utility of learning our algorithm over AIL by using the learned reward function to retrain the policy over a task under significant variation where expert demonstrations are absent.
翻訳日:2022-12-07 06:06:20 公開日:2020-05-03
# 表現学習のための相互情報勾配推定

Mutual Information Gradient Estimation for Representation Learning ( http://arxiv.org/abs/2005.01123v1 )

ライセンス: Link先を確認
Liangjian Wen, Yiji Zhou, Lirong He, Mingyuan Zhou, Zenglin Xu(参考訳) 相互情報(MI)は表現学習において重要な役割を果たす。 しかし、MIは連続的かつ高次元的な設定では難解である。 近年の進歩は、有用な表現を見つけるためのトラクタブルでスケーラブルなMI推定器を確立している。 しかし、既存の手法のほとんどは、MIが大きい場合に低分散のMIを正確に推定することができない。 我々は、MIの勾配を直接推定することは、MI自体を推定するよりも表現学習に魅力的であると主張する。 そこで本研究では,暗黙分布のスコア推定に基づく表現学習のための相互情報勾配推定器(MIGE)を提案する。 MIGEは高次元および大規模MI設定におけるMIの厳密で滑らかな勾配推定を示す。 我々は、InfoMaxとInformation Bottleneck法に基づく深層表現の教師なし学習におけるMIGEの適用を拡大する。 実験結果から,有用表現の学習における性能向上が示唆された。

Mutual Information (MI) plays an important role in representation learning. However, MI is unfortunately intractable in continuous and high-dimensional settings. Recent advances establish tractable and scalable MI estimators to discover useful representation. However, most of the existing methods are not capable of providing an accurate estimation of MI with low-variance when the MI is large. We argue that directly estimating the gradients of MI is more appealing for representation learning than estimating MI in itself. To this end, we propose the Mutual Information Gradient Estimator (MIGE) for representation learning based on the score estimation of implicit distributions. MIGE exhibits a tight and smooth gradient estimation of MI in the high-dimensional and large-MI settings. We expand the applications of MIGE in both unsupervised learning of deep representations based on InfoMax and the Information Bottleneck method. Experimental results have indicated significant performance improvement in learning useful representation.
翻訳日:2022-12-07 06:06:01 公開日:2020-05-03
# 多目的経路最適化問題を解決するための重み付け改善のための階層ベイズ手法

Hierarchical Bayesian Approach for Improving Weights for Solving Multi-Objective Route Optimization Problem ( http://arxiv.org/abs/2005.02811v1 )

ライセンス: Link先を確認
Romit S Beed, Sunita Sarkar, Arindam Roy and Durba Bhattacharya(参考訳) 重み付け和法は、複数の矛盾する目的を単一の目的関数にスキャラライズする、シンプルで広く使われている手法である。 目的に応じた適切な重量を決定するという問題に悩まされる。 本稿では,多目的経路最適化問題の解法に先立って,多項分布とディリクレに基づく階層型ベイズモデルを提案する。 モデルと方法論は、小規模パイロット調査から得られたデータを中心に展開する。 この方法は、適切な確率的モデリングによる重みのデータ駆動選択として、知的輸送システムの分野で既存の重み判定方法を改善することを目的としており、非確率的手法よりも平均的に、より信頼性の高い結果が得られる。 このモデルと手法のシミュレーションおよび実際のデータセットへの応用により、重みの見積もりを安定化する上で非常に優れた性能が示された。

The weighted sum method is a simple and widely used technique that scalarizes multiple conflicting objectives into a single objective function. It suffers from the problem of determining the appropriate weights corresponding to the objectives. This paper proposes a novel Hierarchical Bayesian model based on Multinomial distribution and Dirichlet prior to refine the weights for solving such multi-objective route optimization problems. The model and methodologies revolve around data obtained from a small scale pilot survey. The method aims at improving the existing methods of weight determination in the field of Intelligent Transport Systems as data driven choice of weights through appropriate probabilistic modelling ensures, on an average, much reliable results than non-probabilistic techniques. Application of this model and methodologies to simulated as well as real data sets revealed quite encouraging performances with respect to stabilizing the estimates of weights.
翻訳日:2022-12-07 06:05:52 公開日:2020-05-03
# スパイク機能付きシングルインクリメンタルタスクシナリオにおける継続的学習

Continuous Learning in a Single-Incremental-Task Scenario with Spike Features ( http://arxiv.org/abs/2005.04167v1 )

ライセンス: Link先を確認
Ruthvik Vaila, John Chiasson, Vishal Saxena(参考訳) ディープニューラルネットワーク(DNN)には、高精度コンピューティングへの依存とシーケンシャルラーニングの実行能力の欠如、すなわち、DNNが最初のタスクでトレーニングされ、次のタスクで同じDNNがトレーニングされた場合、最初のタスクを忘れる2つの重要な欠陥がある。 この過去の課題を忘れる現象は破滅的な忘れ方とも呼ばれる。 一方、哺乳類の脳はエネルギー効率と、壊滅的に忘れることなく順次学習できる能力でDNNよりも優れています。 ここでは,ネットワークの特徴抽出層にバイオインスパイアされたスパイクタイミング依存塑性(STDP)を用いて,意味のある特徴を抽出する。 ネットワークの分類セクションでは、SIT(Single-Incremental-Task scenario)における破滅的な忘れに対するネットワークの免疫を行うために、シナプス単位のコストをレギュレータとして参照する。 本研究では,5つのサブタスクに分割したMNIST手書き桁データセットを用いた。

Deep Neural Networks (DNNs) have two key deficiencies, their dependence on high precision computing and their inability to perform sequential learning, that is, when a DNN is trained on a first task and the same DNN is trained on the next task it forgets the first task. This phenomenon of forgetting previous tasks is also referred to as catastrophic forgetting. On the other hand a mammalian brain outperforms DNNs in terms of energy efficiency and the ability to learn sequentially without catastrophically forgetting. Here, we use bio-inspired Spike Timing Dependent Plasticity (STDP)in the feature extraction layers of the network with instantaneous neurons to extract meaningful features. In the classification sections of the network we use a modified synaptic intelligence that we refer to as cost per synapse metric as a regularizer to immunize the network against catastrophic forgetting in a Single-Incremental-Task scenario (SIT). In this study, we use MNIST handwritten digits dataset that was divided into five sub-tasks.
翻訳日:2022-12-07 06:05:38 公開日:2020-05-03
# 遺伝的プログラミングと関数書き換えによる基本代数公式の獲得

Obtaining Basic Algebra Formulas with Genetic Programming and Functional Rewriting ( http://arxiv.org/abs/2005.01207v1 )

ライセンス: Link先を確認
Edwin Camilo Cubides and Jonatan Gomez(参考訳) 本稿では,帰納的遺伝的プログラミングを促進する関数型プログラミング書き換えの概念に基づく,遺伝的プログラミング演算子の集合と初期化集団プロセスを開発する。 このような遺伝的演算子は、解が進化すると同時に演算子レートを進化させるハイブリッド適応進化アルゴリズム内で使用される。 解は再帰関数を用いて表現され、ゲノムは木のリストとしてエンコードされ、表現型は操作意味論(計算モデル)として書き換えられる単純な関数型プログラミング言語で記述される。 適合度は、例の集合の基数上でうまく推論された例の数である。 親はトーナメント選択機構に従って選抜され、次の人口は定常戦略に従って得られる。 進化過程は、バックグラウンド知識として誘導される以前の関数(プログラム)を使用することができる。 我々は,古典的遺伝的プログラミングにおいて,その手法の性能を一連の難しい問題と比較する。 特に、いくつかの顕著な積(双項の平方や二項の立方体など)の同値代数式を得る問題と、最初の n 個の自然数の最初の n と二乗の和の帰納公式を得る問題をテストベッドとして扱う。

In this paper, we develop a set of genetic programming operators and an initialization population process based on concepts of functional programming rewriting for boosting inductive genetic programming. Such genetic operators are used within a hybrid adaptive evolutionary algorithm that evolves operator rates at the same time it evolves the solution. Solutions are represented using recursive functions where genome is encoded as an ordered list of trees and phenotype is written in a simple functional programming language that uses rewriting as operational semantic (computational model). The fitness is the number of examples successfully deduced over the cardinal of the set of examples. Parents are selected following a tournament selection mechanism and the next population is obtained following a steady-state strategy. The evolutionary process can use some previous functions (programs) induced as background knowledge. We compare the performance of our technique in a set of hard problems (for classical genetic programming). In particular, we take as test-bed the problem of obtaining equivalent algebraic expressions of some notable products (such as square of a binomial, and cube of a binomial), and the recursive formulas of sum of the first n and squares of the first n natural numbers.
翻訳日:2022-12-07 06:04:48 公開日:2020-05-03
# Double-Hard Debias: ジェンダーバイアス軽減のための単語埋め込み

Double-Hard Debias: Tailoring Word Embeddings for Gender Bias Mitigation ( http://arxiv.org/abs/2005.00965v1 )

ライセンス: Link先を確認
Tianlu Wang, Xi Victoria Lin, Nazneen Fatema Rajani, Bryan McCann, Vicente Ordonez, Caiming Xiong(参考訳) 人間生成コーパスから派生した単語埋め込みは、下流モデルによってさらに増幅される強いジェンダーバイアスを継承する。 seminal hard debiasアルゴリズムを含む、一般的に採用されているデバイアスアプローチのいくつかは、前訓練された単語が推論された性部分空間に直交する部分空間に埋め込まれる後処理の手順を適用する。 単語埋め込みによって捉えた単語頻度などの意味認識型コーパス規則が,これらのアルゴリズムの性能に悪影響を及ぼすことがわかった。 そこで本稿では,性別サブスペースの推測と削除に先立って,このようなコーパス正規性に対して単語を埋め込む,単純だが効果的な手法であるDouble Hard Debiasを提案する。 3つのバイアス緩和ベンチマーク実験により, 事前学習した単語埋め込みの分布的意味を保ちつつ, 性別バイアスを従来よりもかなり大きく抑えることができた。

Word embeddings derived from human-generated corpora inherit strong gender bias which can be further amplified by downstream models. Some commonly adopted debiasing approaches, including the seminal Hard Debias algorithm, apply post-processing procedures that project pre-trained word embeddings into a subspace orthogonal to an inferred gender subspace. We discover that semantic-agnostic corpus regularities such as word frequency captured by the word embeddings negatively impact the performance of these algorithms. We propose a simple but effective technique, Double Hard Debias, which purifies the word embeddings against such corpus regularities prior to inferring and removing the gender subspace. Experiments on three bias mitigation benchmarks show that our approach preserves the distributional semantics of the pre-trained word embeddings while reducing gender bias to a significantly larger degree than prior approaches.
翻訳日:2022-12-07 06:04:27 公開日:2020-05-03
# 選択メカニズムは自己注意ネットワークをどのように改善するか?

How Does Selective Mechanism Improve Self-Attention Networks? ( http://arxiv.org/abs/2005.00979v1 )

ライセンス: Link先を確認
Xinwei Geng, Longyue Wang, Xing Wang, Bing Qin, Ting Liu, Zhaopeng Tu(参考訳) 選択的な機構を持つ自己注意ネットワーク(SAN)は、入力単語のサブセットに集中することにより、様々なNLPタスクにおいて大幅に改善されている。 しかし、その性能の根本的な理由はよく説明されていない。 本稿では、柔軟で普遍的なGumbel-Softmaxで実装された選択的SAN(SSAN)の強度を評価することでギャップを埋める。 自然言語推論、セマンティックロールラベリング、機械翻訳など、いくつかの代表的NLPタスクに関する実験結果から、SSANが標準SANよりも一貫して優れていることが示された。 良く設計された探索実験を通じて、SSANの改良は2つの一般的なSANの弱点である単語順エンコーディングと構造モデリングを緩和することに起因すると実証的に検証した。 具体的には、選択的なメカニズムは、文の意味に寄与する内容語により多くの注意を払って、SANを改善する。 コードとデータはhttps://github.com/xwgeng/ssanでリリースされる。

Self-attention networks (SANs) with selective mechanism has produced substantial improvements in various NLP tasks by concentrating on a subset of input words. However, the underlying reasons for their strong performance have not been well explained. In this paper, we bridge the gap by assessing the strengths of selective SANs (SSANs), which are implemented with a flexible and universal Gumbel-Softmax. Experimental results on several representative NLP tasks, including natural language inference, semantic role labelling, and machine translation, show that SSANs consistently outperform the standard SANs. Through well-designed probing experiments, we empirically validate that the improvement of SSANs can be attributed in part to mitigating two commonly-cited weaknesses of SANs: word order encoding and structure modeling. Specifically, the selective mechanism improves SANs by paying more attention to content words that contribute to the meaning of the sentence. The code and data are released at https://github.com/xwgeng/SSAN.
翻訳日:2022-12-07 06:04:11 公開日:2020-05-03